Você está na página 1de 138

Paulo Roberto de Lima Gianfelice

UMA ABORDAGEM BAYESIANA PARA A


DISTRIBUIÇÃO INVERSA DE CHEN COM
APLICAÇÕES A DADOS COMPLETOS E
CENSURADOS

Revisado pelo Orientador

Prof. Dr. Sérgio Minoru Oikawa

Assinatura do Orientador

15 de Janeiro de 2018

Presidente Prudente
2018
Paulo Roberto de Lima Gianfelice

UMA ABORDAGEM BAYESIANA PARA A


DISTRIBUIÇÃO INVERSA DE CHEN COM
APLICAÇÕES A DADOS COMPLETOS E
CENSURADOS

Relatório Final do Trabalho de Con-


clusão de Curso apresentado ao
Curso de Graduação em Estatítica
da FCT/Unesp para aproveitamento
na disciplina Trabalho de Conclusão
de Curso.
Orientador: Prof. Dr. Ségio Minoru
Oikawa.

Presidente Prudente
2018
Ficha Catalográca

Paulo Roberto de Lima Gianfelice


R617a Uma Abordagem Bayesiana Para a Distribu
ição Inversa De Chen Com Aplicações a Dados
Completos e Censurados.

119 f.: il

Orientador: Sérgio Minoru Oikawa


Trabalho de Conclusão do Curso (Bacharela
do em Estatística da Universidade Estadual Pa
ulista Júlio de Mesquita Filho - Faculdade de
Ciências e Tecnologia
Inclui Bibliograa
Paulo Roberto de Lima Gianfelice

UMA ABORDAGEM BAYESIANA PARA A


DISTRIBUIÇÃO INVERSA DE CHEN COM
APLICAÇÕES A DADOS COMPLETOS E
CENSURADOS

Relatório nal do Trabalho de Conclusão submetido e aprovado como


requisito para obtenção de créditos na disciplina Trabalho de Conclusão
de Curso do Curso de raduação em Estatística da Faculdade de Ciências e
Tecnologia da Unesp, pela seguinte banca examinadora:

Orientador: Prof. Dr. Ségio Minoru Oikawa.


Prof. Dr. Fernando Antônio Moala.
Prof. Dr. Manoel Ivanildo Silvestre Bezerra.

Presidente Prudente
2018
À Olézia Gianfelice!
AGRADECIMENTOS

Agradeço, sobretudo a Deus, pela saúde, sabedoria, proteção, ânimo e paciência, sem estes

itens eu não teria conseguido nem mesmo me vencer. Não é possível para o homem, sozinho,

sair do lugar mais improvável, superar todos os obstáculos, ir contra todas as expectativas

e realizar um feito como este, em um lugar desse... duas vezes seguidas.

Agradeço aos meus pais por me conceber, como o primeiro e com o máximo de amor.

Sem seus cuidados, exemplos e feitos eu jamais teria tomado esta direção, chegado onde

estou e tomado as decisões que tomei. Agradecerei até o m da minha vida pelos meus três

lindos irmão, eles são inspiração e razão primordiais das minhas conquistas.

Agradeço do fundo do meu coração à toda minha família, pela compreensão, apoio e

incentivo, sem o amparo e os conselhos deles eu teria me perdido no curso desta jornada.

Em especial agradeço ao João, primo-amigo-irmão, e a minha tia Cris. O primeiro por

sempre se lembrar e acreditar em mim e a segunda por todo o carinho, amparo, ajuda,

compreensão e valor. Estes dois literalmente investiram em mim nesta fase e tudo o que

faço aqui é para compensá-los. Embora não saberei como, pois seus carinhos, orientações e

incentivos me tornaram uma pessoa capaz de superar qualquer coisa.

À todos os meus professores, em particular à Gilcilene Sanchez De Paulo e Manoel

Ivanildo Silvestre Bezerra. Ambos pela inclinação e assiduidade docente! A primeira por me

ensinar a disciplina mais importante na academia, a ter disciplina perante meus estudos,

e o segundo por acreditar na minha capacidade, me dar liberdade na construção de meus

trabalhos acadêmicos, lê-los e principalmente conar em minhas propostas.

Aos professoesr Moala e Sérgio que contribuíram signicativamente para a confecção

deste trabalho e, principalmente, à professora Marta, pois suas aulas de Probabilidade e



Estatística em meu 4 ano do curso de Matemática me abriu os olhos e me despertou o

interesse nesta carreira.

Aos meus colegas de curso, Nadal e Chico, que acreditaram em minhas capacidades, e

aos experimentadores do extinto DFQB, Bruno e André, que iniciaram a vida acadêmica

comigo.
Agradeço por m a todos os envolvidos de forma direta e indireta na realização deste

trabalho, em particular aos colegas que adquiri no Pós-MAC. Em ordem cronológica, ao

Reginaldo, Clóvis, Jonas, Gustavo, Yugi, Léo, Vinícius, Laison, Letícia e Rafael. Estes foram

e ainda são excelentes acadêmicos, sobretudo, pessoas!


E o gládio a erguer, que arrasa e que depreda,

E o olhar que ante a agnomínia não desmaia,

Luta! E é forçoso que ao lutar não caia,

Pois se cair o esmagarão na queda.

(Raimundo Correia)
RESUMO

O desenvolvimento do presente trabalho divide-se em seis capítulos. O primeiro e o se-

gundo desempenham um papel de descrição das áreas do conhecimento e denições básicas,

ambos relevantes para a compreensão do texto estabelecendo os objetivos e a metodologia

necessária para cumpri-los. O terceiro busca justicar os resultados obtidos para as proprie-

dades do modelo Inverso de Chen e propor uma caracterização para o mesmo destacando as

demonstrações necessárias. O quarto capítulo segue a mesma linha, porém, com o suporte

computacional apresenta os resultados pertinentes à caracterização inferencial através dos

métodos clássico e bayesiano, ressaltando uma avaliação dos estimadores do modelo através

dos intervalos de conança e credibilidade. O quinto capítulo apresenta uma aplicação ao

conjunto de dados de tempo de vida completo e censurado e o sexto capítulo, por m, naliza

o trabalho apresentando uma discussão sobre as conclusões dos resultados obtidos ao longo

dos capítulos 3, 4 e 5.

Palavras-Chave: Caracterização de Distribuição de Probabilidade, Inferência Estatística Clás-

sica, Simulação Estatística, Probabilidade de Cobertura.


SUMÁRIO

1 INTRODUÇÃO 1
2 CONCEITOS BÁSICOS 4
2.1 Análise de Sobrevivência e Conabilidade . . . . . . . . . . . . . . . . . . . . 4

2.1.1 Dados de Sobrevivência . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1.2 Função de Sobrevivência . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.1.3 Tempo de Falha . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1.4 Função Taxa de Falha . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.1.5 Função Taxa de Falha Acumulada . . . . . . . . . . . . . . . . . . . . 11

2.1.6 Função Ciclo de Vida e Função Unimodal . . . . . . . . . . . . . . . 12

2.1.7 Censura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.2 Componentes da Inferência Bayesiana . . . . . . . . . . . . . . . . . . . . . . 18

2.2.1 O Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.2.2 O Conceito de Informação a Priori . . . . . . . . . . . . . . . . . . . 20

2.2.3 Distribuições à Priori Não Informativas . . . . . . . . . . . . . . . . . 21

2.2.4 Distribuições a Priori Impróprias . . . . . . . . . . . . . . . . . . . . 22

2.2.5 O Intervalo de Credibilidade . . . . . . . . . . . . . . . . . . . . . . . 23

2.3 O Modelo Inverso de Chen Com Dois Parâmetros . . . . . . . . . . . . . . . 25

2.3.1 Os Modelos Probabilísticos . . . . . . . . . . . . . . . . . . . . . . . . 25

2.3.2 A Distribuição de Probabilidade Proposta . . . . . . . . . . . . . . . 26

2.4 Técnicas Paramétricas de Estimação . . . . . . . . . . . . . . . . . . . . . . 27

2.4.1 O Estimador de Máxima Verossimilhança . . . . . . . . . . . . . . . . 27

2.4.2 O Método dos Momentos . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.4.3 A Função Escore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.4.4 A Medida de Informação de Fisher . . . . . . . . . . . . . . . . . . . 31

2.4.5 Limite Inferior e Desigualdade da Informação . . . . . . . . . . . . . 32

2.4.6 O Intervalo de Conança Assintótico . . . . . . . . . . . . . . . . . . 33

2.5 Técnicas Não Paramétricas de Estimação . . . . . . . . . . . . . . . . . . . . 35

ix
2.5.1 O Estimador de Kaplan-Meier . . . . . . . . . . . . . . . . . . . . . . 37

2.5.2 O Teste Não Paramétrico de Kolmogorov-Smirnov . . . . . . . . . . . 39

2.5.3 Análise Gráca do Tempo Total Em Teste (TTT-Plot) . . . . . . . . 41

2.5.4 Métodos de Simulação Monte Carlo . . . . . . . . . . . . . . . . . . . 43

2.6 A Abordagem Computacional Para o Estudo . . . . . . . . . . . . . . . . . . 48

2.6.1 Softwares Considerados . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3 PROPRIEDADES DA DISTRIBUIÇÃO PROPOSTA 49


3.1 A Distribuição Biparamétrica de Chen . . . . . . . . . . . . . . . . . . . . . 49

3.1.1 Origem e Denições Básicas . . . . . . . . . . . . . . . . . . . . . . . 49

3.2 A Distribuição Biparamétrica Inversa de Chen . . . . . . . . . . . . . . . . . 51

3.2.1 Denições Básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.2.2 Avaliação do r-ésimo Momento da Distribuição . . . . . . . . . . . . . 54

3.2.3 Discussões Sobre a Avaliação . . . . . . . . . . . . . . . . . . . . . . . 60

3.2.4 Conclusões Sobre o r-ésimo Momento da Distribuição . . . . . . . . . 61

3.3 Propriedade dos Estimadores Para o Modelo . . . . . . . . . . . . . . . . . . 61

3.3.1 Estimadores de Máxima Verossimilhança dos Parâmetros . . . . . . . 61

3.3.2 Os Intervalos de Conança Para os Parâmetros . . . . . . . . . . . . 63

3.4 Os Modelos de Sobrevivência Para a Distribuição . . . . . . . . . . . . . . . 66

3.4.1 A Função de Sobrevivência . . . . . . . . . . . . . . . . . . . . . . . . 66

3.4.2 A Função de Risco . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4 PROBABILIDADE DE COBERTURA DOS PARÂMETROS 71


4.1 Considerações Iniciais Para a Simulação . . . . . . . . . . . . . . . . . . . . 71

4.1.1 O Algoritmo da Transformação Inversa . . . . . . . . . . . . . . . . . 71

4.1.2 A Transformação Inversa Para a Distribuição Proposta . . . . . . . . 72

4.2 Probabilidade de Cobertura Empírica . . . . . . . . . . . . . . . . . . . . . . 73

4.2.1 O Intervalo de Conança Clássico . . . . . . . . . . . . . . . . . . . . 74

4.2.2 O Intervalo de Máxima Densidade à Posteriori . . . . . . . . . . . . . 75

4.2.3 O Índice de Probabilidade de Cobertura . . . . . . . . . . . . . . . . 78

4.2.4 Os Elementos do Processo Computacional . . . . . . . . . . . . . . . 80

4.3 O Estudo da Simulação Clássica e Bayesiana . . . . . . . . . . . . . . . . . . 85

4.3.1 Resultados Obtidos Sobre os Estimadores dos Parâmetros . . . . . . 86

4.3.2 Discussões Sobre a Análise dos Resultados da Simulação . . . . . . . 96

4.3.3 Conclusões Sobre a Simulação . . . . . . . . . . . . . . . . . . . . . . 97

5 CONCLUSÕES PARCIAIS 99
REFERÊNCIA BIBLIOGRÁFICA 101
APÊNDICE 103
CAPÍTULO 1

INTRODUÇÃO

Identicadas como ramos da Estatística que analisam a variável resposta de um determi-

nado evento de interesse, a Análise de Sobrevivência e a Teoria de Conabilidade consistem

de um conjunto de técnicas utilizadas em análise de dados na qual a variável de interesse é

o tempo que decorre até que o evento de interesse se verique. Sobretudo, foram as áreas da

Estatística que mais se destacaram nas últimas décadas.

Uma evidência quantitativa deste sucesso é o número de aplicações da Análise de So-

brevivência no campo da Biomedicina (Colosimo e Giolo, 2006) e áreas da saúde em geral,

onde técnicas estatísticas são aplicadas para estudos médicos envolvendo doenças incuráveis

ou casos de pacientes terminais cujo interesse é, literalmente, medir o tempo em que estes

pacientes sobrevivem a doença em estudo a partir do instante inicial de um dado tratamento

bem denido e o ponto principal do estudo.

O mesmo se pode armar sobre Teoria de Conabilidade, onde máquinas, componentes,

ferramentas, produtos manufaturados ou itens fabricados, em geral, na área da indústria e

engenharia são postos em observação, sendo de interesse conhecer sua qualidade ou tempo

de duração num experimento controlado até que este venha a falhar.

De modo geral, a Análise de Sobrevivência e a Teoria de Conabilidade visam estudar

itens observados (unidades experimentais) onde eventos bem denidos (falha, sobrevivência)

ocorrem depois de um certo tempo pré-estabelecidos (tempo de falha, tempo de sobrevivên-

cia).

Comumente, no caso da Teoria de Conabilidade, o evento de interesse é a falha ou a re-

corrência de defeito no item em observação, já no caso da Análise de Sobrevivência, o evento

de interesse é a ocorrência da morte de um paciente em um dado tratamento, a recorrência

de um sintoma ou doença, ou como na maior parte dos estudos em Biomedicina, a cura para

uma determinada doença ou o prolongamento da vida no caso de uma doença incurável.

Em áreas como engenharia, medicina e economia, a Análise de Sobrevivência e Teoria de

Conabilidade consistem, respectivamente, em estudar, por exemplo:

1
Introdução

• o tempo de falha de equipamentos industriais (teoria de conabilidade);

• o tempo de sobrevivência de um paciente com câncer (análise de sobrevivência);

• o tempo de duração de desemprego ou greve (ambas as áreas);

Tanto em Análise de Sobrevivência como em Teoria de Conabilidade, a variável res-

posta é, geralmente, o tempo até a ocorrência de um evento de interesse analisado nos dados

obtidos com o suporte de técnicas não-paramétricas como o estimador de Kaplan-Meier e a

tabela de vida, ou por modelos paramétricos como as distribuições de probabilidade conhe-

cidas.

Tais técnicas, não-paramétricas ou por modelos paramétricos, visam analisar os dados

de interesse, dados apontados como dados de sobrevivência no caso da Análise de Sobre-

vivência, ou dados de conabilidade no caso da Teoria de Conabilidade, mas, estas duas

categorias de dados são comumente caracterizadas pelo tempo de falha e pela censura, am-

bos componentes que constituem a resposta da análise efetuada.

Quando o suporte técnico consiste da adoção de um modelo paramétrico, na literatura

de Análise de Sobrevivência e Teoria de Conabilidade encontra-se uma exaustiva relação de

modelos paramétricos (ou probabilísticos) que se mostram muito ecientes para descrever

os tempos de vida de um dado evento em análise.

De posse do modelo, a modelagem estatística do tempo de vida via modelos paramétri-

cos é realizada através da simples observação das informações disponíveis sobre o sistema

ou fenômeno de interesse, e considerando que qualquer fenômeno natural é composto por

parâmetros (constantes), que são intrínsecos ao sistema a ser estudado e as variáveis que o

afeta, a partir dos dados disponíveis e o conhecimento das variáveis do sistema, através da

estimação dos parâmetros é possível descrever este fenômeno através do modelo estatístico

escolhido, o modelo paramétrico em questão.

Porém, a decisão do analista na escolha de um modelo apropriado para a descrição e

simulação estatística do sistema ou fenômeno em análise, embora permita dar respostas,

atribuir uma solução a um determinado problema e prever o comportamento do sistema

ou fenômeno, não é uma escolha trivial e deve ser efetuada de modo a satisfazer todas as

condições singulares ao fenômeno e às diversas situações que os dados atribuem ao que se

refere a teoria estatística.

Com este objetivo, os resultados até agora obtidos à cerca do modelo proposto no pre-

sente estudo caracteriza-se em três etapas e em cada caso busca destacar minuciosamente

sua justicativa e relevância teórica a cerca do tema considerado.

A primeira etapa, intitulada por Conceitos Básicos, fornece a descrição teórica dos con-

ceitos que serão abordados neste trabalho, como a linha de aplicação do trabalho, o conceito

de Análise de Sobrevivência na seção de mesmo nome, o modelo estatístico adotado no es-

tudo, na seção O Modelo Inverso de Chen Com Dois Parâmetros, e por m o ferramental

2
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

considerado para a confecção dos aspectos inferenciais, em Técnicas Paramétricas de Esti-

mação.

A segunda parte apresenta os resultados obtidos na busca de uma caracterização da

distribuição proposta e aborda as propriedades básicas do modelo, frisando as ferramentas

utilizadas para a obtenção do mesmo e se apegando com rigor matemático às demonstrações

detalhadas dos pontos considerados na obtenção de uma pré caracterização para a distri-

buição. O objetivo principal desta etapa é vericar a convergência da esperança do r-ésimo


momento do modelo proposto para que se possa vericar a existência dos momentos de

ordem 1 e 2 para garantir que a hipótese da média e variância nitas são aceitas para a apli-

cação de teorias para grandes amostras em estatística, permitindo a aplicação de diferentes

tipos de convergências, Leis dos Grandes Números e principalmente do Teorema Central do

Limite.

A terceira parte segue a mesma linha apresentando os resultados pertinentes à carac-

terização inferencial através de métodos clássico e bayesiano com auxílio computacional. O

objetivo principal nesta etapa do trabalho é realizar um estudo de simulação para avaliar os

estimadores do modelo proposto e a probabilidade de cobertura para os parâmetros α e β


do modelo através dos intervalos de conança assintóticos obtidos e, segundo a abordagem

clássica e bayesiana, por m, comparando-as de acordo com os resultados.

Entretanto, uma vez garantida a convergência da esperança dos momentos de ordem r


para o modelo Inverso de Chen, garante-se a veracidade dos resultados do estudo de simu-

lação necessários para investigar, avaliar e descrever o comportamento deste modelo para

diferentes parâmetros e diferentes amostras de dados, e a utilização desta simulação torna

possível a realização de uma analise preliminar de dados, modelagem, estimação dos parâ-

metros bem como o desenvolvimento do estudo da probabilidade de cobertura. Deste último

espera-se que a probabilidade obtida esteja o mais próximo possível do nível de conança

estipulado independentemente do valor adotado para os parâmetros do modelo em estudo.

Ao m do trabalho, uma aplicação a dados de problemas reais é desenvolvida com o

intuito de modelar o tempo de sobrevivência. São considerados dois conjuntos de dados, o

primeiro com dados referentes a tempos de falha completos e o segundo com tempo de falha

não observada, ou seja, dados completos e censurados, respectivamente.

Em ambos os casos de estudo com dados reais, busca-se modelar o curso de tempo do

problema através do emprego de conceitos de análise de sobrevivência. O objetivo desta

parte do trabalho é, com base nos resultados, constatar que o modelo probabilístico Inverso

de Chen fornece um excelente ajuste aos dados de sobrevivência, quando eles apresentam

função de risco unimodal, também mostrar que em uma comparação com outros modelos

propostos pela literatura, o modelo em questão é o mais adequado para analisar e descrever

os dados sobre os tempos de vida.

3
CAPÍTULO 2

CONCEITOS BÁSICOS

2.1 Análise de Sobrevivência e Conabilidade


A Análise de Sobrevivência e a Teoria de Conabilidade conguram a principal área de

aplicação deste trabalho, e são denidas como métodos estatísticos usados para análise de

dados de tempo de vida, comumente derivados de estudos com origem em laboratórios ou

clínicas relacionadas à Biomedicina em tratamentos de doenças agudas, severas ou fatais

(Análise de Sobrevivência), e também de áreas do setor industrial ou de cadeias de produ-

ção em geral, diretamente voltados a construção de utensílios eletro eletrônicos e mecânicos

(Teoria de Conabilidade).

Em muitos estudos de câncer, por exemplo, o principal resultado a ser avaliado é o

momento de um evento de interesse, comumente pontuado como a morte de um paciente

observado. O nome genérico para este tempo é o tempo de sobrevivência, ou tempo de vida,

e representa o tempo desde o diagnóstico até a morte da observação.

Quando o evento ocorre em todos os indivíduos observados, muitos métodos de análise

estatística seria aplicável. Uma que é fortemente favorecida para analisar as variáveis em

torno deste evento, e que merece destaque, é análise estatística multivariada. No entanto, é

muito comum que ao nal do acompanhamento do evento alguns indivíduos não manifestam

o evento de interesse, e assim, o seu verdadeiro tempo de ocorrência é desconhecido.

Além disso, os dados de sobrevivência raramente são distribuídos normalmente, são envi-

esados e tipicamente consistem de muitos eventos que ocorrem precocemente e relativamente

fora do contexto da análise. São estas as características dos dados que tornam os métodos

aqui abordados primordiais para a análise estatística de dados e indispensáveis para a ob-

tenção de conclusões coerentes a cerca do evento.

Geralmente, estuda-se o tempo em que uma unidade experimental sobrevive a um de-

terminado tratamento, e tais estimativas são obtidas através do método EKM (estimador

4
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

de Kaplan - Meyer), onde a análise preliminar e a visualização das curvas empíricas são im-

portantes para fazer suposições adequadas sobre um modelo estatístico especíco que busca

descrever e explicar o fenômeno em análise.

Contudo, em estudos estatísticos, esta metodologia é tomada com o suporte da inferên-

cia estatística, ou de modo mais renado, com o embasamento da Inferência Bayesiana para

analisar e comparar o ajustamento de modelos paramétricos, isto é, da modelagem estatís-

tica para os dados de tempo de vida para posteriormente aplicá-los efetivamente em áreas

médicas e industriais em geral.

No presente trabalho, para os tópicos subsequentes desta área de estudo, devido a ex-

tensão e a gama de assuntos que se podem abordar na área de estudo da Teoria de Cona-

bilidade, será abordada, em particular, a partir deste ponto, apenas o campo de estudo de

Análise de Sobrevivência, de modo que, dois elementos básicos e intrínsecos a este conceito:

Tempo de Falha e Dados de Sobrevivência; devem, necessariamente, ser denidos para dis-

cussões posteriores no desenvolvimento do estudo.

Estes elementos devem ser claramente denidos e, juntamente com Função de Sobrevi-

vência, Função Densidade de Risco e Função de Risco Acumulado, são discutidos em detalhes

como segue.

Para maiores detalhes, sugere-se consultar Colosimo e Giolo (2006).

2.1.1 Dados de Sobrevivência

Dados de Sobrevivência, ou Observações Exatas, em geral, denem-se como um conjunto

de informações sobre o tempo de ocorrência de certo evento de interesse.

Muitas vezes é apresentado como um conjunto de informações caracterizadas pelo tempo

de ocorrência de certo evento de interesse e, muito frequentemente, pelas observações comple-

tas e incompletas no experimento. São também referenciadas na literatura como Observações

Não-Censuradas ou como Tempos de Sobrevivência ou de Falha (Cesar, 2005)..

Comumente é adotado o símbolo + para indicar que o evento de interesse ocorreu em

um tempo imprevisto no processo ou que o tempo de observação da unidade experimental

está incompleto, o que na literatura é denominado por censura.

Segundo Colosimo e Giolo (2006), os dados de sobrevivência para um indivíduo i (i=1,2,3,

... ,n) sob estudo, são representados pelo par ordenado (ti ; δi ), onde:

• ti é o tempo de falha ou censura no indivíduo i;

• δi é a variável indicadora de falha ou censura no indivíduo i, de modo que

(
1 ou + se ti é um tempo de falha;
δi =
0 ou 'nenhum simbolo' se ti é um tempo censurado;

5
Conceitos Básicos

onde a variável aleatória resposta, ou seja, o banco de dados, é representado por pelo menos

duas colunas de informações.

Consequentemente, especicando o tempo de sobrevivência, tomando-se uma variável

aleatória não negativa T, usualmente contínua para representar o tempo de falha t, T é

especicada em Análise de Sobrevivência pela sua função de sobrevivência, que será denida

na sequência.

A tabela a seguir apresenta dados de sobrevivência que representam o tempo de ocor-

rência de um evento de interesse em dois grupos de observações distintas.

Tabela 2.1: Dados de sobrevivência de um estudo voltado a uma patologia.

Amostras Tempos de ocorrência do evento de interesse


28; 89; 175; 195; 309; 377(+); 393(+); 421(+); 447(+);
Grupo I
462; 709(+); 744(+); 770(+); 1106(+); 1206(+)
34; 88; 137; 199; 280; 291; 299(+); 300(+); 309; 351;
Grupo II
358; 369; 369; 370; 375; 382; 392; 429(+); 451; 1119(+)
Fonte: Colosimo e Giolo (2006, p.65).

2.1.2 Função de Sobrevivência

Dene-se como Função de Sobrevivência a função de probabilidade de uma observação

não falhar até certo tempo t, ou seja, a probabilidade de que um evento de interesse não

ocorra até um tempo t pré-estabelecido.

Em termos de probabilidade, quando se pretende saber qual a probabilidade de um pa-

ciente com uma determinada doença (o evento de interesse em um experimento) sobreviver

por mais do que 365 dias (valor t da variável aleatória T) a partir da conclusão de seu di-

agnóstico, ou mais formalmente, quando se pretende obter P (T ≥ 365), é evidente que se

pretende saber a probabilidade de uma observação sobreviver ao tempo t=365.

Este é um dos principais modelos paramétricos usados para descrever a probabilidade de

um evento em estudos de sobrevivência e é denido em termos probabilísticos como:

S(t) = P (T ≥ t) (2.1)

Sabendo que a função de sobrevivência é denida em termos probabilísticos como S(t) =


P (T ≥ t), considerando que F (t) = P (T < t) é a função acumulada de T, dene-se a pro-

babilidade de um indivíduo não sobreviver no tempo t como:

F (t) = P (T < t) = 1 − P (T ≥ t) = 1 − S(t)

6
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

logo

F (t) = 1 − S(t) (2.2)

ou seja, a função de distribuição acumulada é denida como a probabilidade de uma obser-

vação não sobreviver ao tempo t, isto é, F (t) = 1 − S(t).


A gura a seguir representa o comportamento típico de três funções de sobrevivência,

cada uma representando um grupo distinto, o grupo 1, o grupo 2 e o grupo 3, onde se observa

que o tempo de vida do grupo 1 é superior aos outros 2 grupos na maior parte do tempo.

Figura 2.1: Representação gráca da Função de Sobrevivência para 3 grupos distintos.

Note que no tempo t = 1, S(1) ≈ 0.41 é a probabilidade de sobrevivência para o grupo


3, S(1) ≈ 0.38 para o grupo 2 e S(1) = 0.0 no grupo 1, ou seja, a probabilidade de que um

evento de interesse não ocorra até o tempo t=1 ano é 0 para no grupo 1, 0.38 para o grupo

2 e 0.48 no grupo 3.

2.1.3 Tempo de Falha

Falha, em Análise de Sobrevivência, é denida como a ocorrência de um determinado

evento, que pode ou não ser pré-estabelecido no início da pesquisa. Em geral, uma falha pode

ser a morte de um ser ou uma unidade experimental em estudo, a recaída de uma doença,

mas pode também ser considerado como a melhora no quadro clínico de um paciente (Cesar,

2005).

Consequentemente, dene-se como Tempo de Falha (ou Tempo de Sobrevivência) o tempo

7
Conceitos Básicos

até a ocorrência de um evento de interesse, ou seja, é o tempo decorrido a partir de um ins-

tante inicial até a ocorrência do evento de interesse (Colosimo e Giolo, 2006).

De acordo com esta denição observa-se que o conjunto de tempo de falha compõe o que

denimos anteriormente como Dados de Sobrevivência.

Consideremos, por exemplo, dados que representam o tempo em dias até a morte (tempo

de falha) de pacientes tratados com câncer de ovário em uma dada clínica.

Tabela 2.2: Tempo dos pacientes de um estudo de câncer de ovário.

Amostras Tempos de ocorrência do evento de interesse


28(1); 89(1); 175(1); 195(1); 309(1); 377(0); 393(0); 421(0);
Tumor Grande
447(0); 462(1); 709(0); 744(0); 770(0); 1106(0); 1206(0)
34(1); 88(1); 137(1); 199(1); 280(1); 291(1); 299(0);
Tumor Pequeno
300(0); 309(1); 351(1); 358(1); 369(1); 369(1); 370(1);
375(1); 382(1); 392(1); 429(0); 451(1); 1119(0)
Fonte: Colosimo e Giolo (2006, p.65).

Note que neste exemplo o evento de interesse é a morte causada pelo câncer e que o

dado de interesse é o tempo em dias até a ocorrência da morte. Comumente, pela literatura,

como descrito na seção 2.1.1 o símbolo (0) indica um tempo de observação incompleto em

um certo paciente no processo, o que é tratado como censura e o simbolo (1) indica que o

tempo observado é um tempo completo.

O tempo de falha é geralmente medido em horas, dias, semanas ou até mesmo anos

dependendo do estudo a ser realizado, é ainda constituído por três elementos, tais como o

tempo inicial, a escala de medida e o evento de interesse, onde:

• tempo inicial: é o tempo de início de estudo que deve ser precisamente denido de modo

que os indivíduos ou unidades experimentais possam ser comparados inicialmente na

pesquisa;

• escala de medida: geralmente, é o tempo real ou cronológico que se observa;

• evento de interesse: na maioria dos casos é dado como indesejável e, como denido

anteriormente, é chamado de falha e representa o fenômeno físico em estudo.

Em alguns casos o tempo de falha é denido como a data do início do tratamento de

doenças ou do diagnóstico, e em estudos clínicos aleatorizados é a data de escolha para a

origem do estudo.

Além disso, podem surgir outras escalas de medidas, como o número de ciclos de um

procedimento médico, o volume de oxigênio comprimido em um cilindro ou qualquer outra

medida de carga, desde que possa ser relacionada ao tempo de falha, de vida ou de trata-

mento.

8
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

O evento de interesse pode ainda ocorrer devido a uma única causa ou devido a duas ou

mais. Quando causas de falha competem entre si ocorre o que se denomina riscos competi-

tivos.

2.1.4 Função Taxa de Falha

Quando se pretende saber ao certo qual é a probabilidade de um paciente com uma deter-

minada doença incurável vir a óbito depois de sobreviver por 365 dias após ser diagnosticado

ou se este risco aumenta ou diminui em relação ao tempo t, pretendemos na realidade saber

qual é a probabilidade da falha ocorrer em um determinado tempo t no intervalo [t1 ; t2 ).


A probabilidade de que a falha ocorra neste intervalo é o que dene a taxa de falha no

intervalo [t1 ; t2 ).
A Função Taxa de Falha, ou Função Densidade de Risco (Função de Risco), λ(t), é a

probabilidade de um indivíduo ou unidade experimental sofrer o evento de interesse em um

intervalo de tempo t e t + ∆t, dado que ele sobreviveu até o tempo t.


A gura a seguir representa três formas de função de risco: uma crescente, uma constante

e uma decrescente.

Figura 2.2: Representação gráca da Função Taxa de Falha para 3 grupos distintos.

Supondo que as funções representem o tempo de vida humano, observa-se que a função

crescente indica que a taxa de falha aumenta à medida que o tempo aumenta, este efeito

representa o comportamento gradual de envelhecimento humano.

A função constante indica que a taxa de falha não se altera com o passar do tempo, um

efeito que representa a juventude e a maturidade do ser humano.

9
Conceitos Básicos

A função decrescente, por sua vez, mostra que a taxa de falha diminui com o transcorrer

do tempo, um efeito que representa o comportamento gradual de crianças recém-nascidas.

Esta probabilidade pode ser expressa em termos de probabilidade condicional como:

P (t1 ≤ T ≤ t2 |T ≥ t1 )

Como a taxa de falha no intervalo [t1 ; t2 ) é denida como a probabilidade de que a falha

ocorra neste intervalo, dado que não ocorreu antes de t1 , dividida pelo comprimento do in-

tervalo, temos:

P (t1 ≤ T ≤ t2 |T ≥ t1 ) 1 P (t1 ≤ T ≤ t2 ) P (t1 ≤ T ≤ t2 )


= · =
t2 − t1 t2 − t1 P (T ≥ t1 ) (t2 − t1 ) · P (T ≥ t1 )

De modo geral, redenindo o intervalo [t1 ; t2 ) como [t; t + ∆t) podemos assumir que a

função densidade de risco (f dr) pode ser escrita na seguinte expressão:

P (t ≤ T ≤ t + ∆t)
λ(t) = (2.3)
∆t · P (T ≥ t)

Nestas condições, assumindo um t tão pequeno o quanto e se queira, λ(t) representa a

taxa de falha instantânea no tempo condicional à sobrevivência até o tempo t, e então, a

f dr de T é denida como:

P (t ≤ T ≤ t + ∆t) P (t ≤ T ≤ t + ∆t|P (T ≥ t))


λ(t) = lim = lim (2.4)
∆t→0 ∆t · P (T ≥ t) ∆t→0 ∆t

Teorema 2.1 Seja T uma variável aleatória que representa o tempo de falha de uma unidade
experimental de um dado estudo. Sendo f (t) uma função densidade de probabilidade e S(t)
a função de sobrevivência, ambos no tempo T = t. Então teremos que

f (t)
λ(t) = (2.5)
S(t)

é a função densidade de risco de T , expressa em termos de f (t) e S(t).

Demonstração: Com efeito! Considerando a equação 2.1, teremos na 2.4 que:

P (t ≤ T ≤ t + ∆t|P (T ≥ t))
λ(t) = lim =
∆t→0 ∆t
P (t ≤ T ≤ t + ∆t)
= lim =
∆t→0 ∆t · P (T ≥ t)
P (t ≤ T ≤ t + ∆t)
= lim =
∆t→0 ∆t · S(t)

10
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

1 P (t ≤ T ≤ t + ∆t) f (t)
= · lim =
S(t) ∆t→0 ∆t S(t)

Teorema 2.2 Seja T a variável aleatória que representa o tempo de falha de uma unidade
experimental de um dado estudo. Sendo f (t) uma função densidade de probabilidade e S(t)
a função de sobrevivência, ambos no tempo T = t, então teremos que a função densidade de
risco de T , expressa em termos da derivada do log[S(t)], é dada por:

d
λ(t) = − log[S(t)] (2.6)
dt

Demonstração: De fato! Observe que:

f (t) 1 d 1 d 1 d
λ(t) = = · F (t) = · [1 − S(t)] = · [−S(t)] =
S(t) S(t) dt S(t) dt S(t) dt
1 d d
= − · [S(t)] = − log[S(t)]
S(t) dt dt

2.1.5 Função Taxa de Falha Acumulada

Em teoria de probabilidade a função de distribuição acumulada descreve completamente

a distribuição da probabilidade de uma variável aleatória, geralmente de valor real X, e de

modo que, para uma variável aleatória X = x, tem-se:

Zx
F (u) = f (u)du
−∞

Neste contexto, outra, sem dúvida uma das mais úteis em estudos de Análise de Sobre-

vivência, é a Função de Risco Acumulado (f ra), que como o próprio nome sugere, fornece a

taxa de falha acumulada de um evento em estudo.

Nesta condição, tomando λ(t), a f dr, como a função densidade de probabilidade em

questão, onde é pré-denido que t ≥ 0, dene-se a f ra por:

Zt
Λ(u) = λ(u)du (2.7)

A f da é útil na avaliação da função de maior interesse, a f dr λ(t), o que acontece

essencialmente na estimação não-paramétrica em que Λ(t) apresenta um estimador com

11
Conceitos Básicos

propriedades ótimas e com diculdades em estimar λ(t).

Teorema 2.3 Seja T uma variável aleatória que representa o tempo de falha de uma unidade
experimental em um dado estudo. Sendo S(t) a função de sobrevivência no tempo T = t,
então a função de risco acumulado em termos do log[S(t)] é dado por

Λ(t) = −log[S(t)] (2.8)

Demonstração: Note que, considerando a equação 2.6 na 2.7 teremos que:

Zt Zt   Zt
d 1
Λ(t) = λ(u)du = − log[S(u)] du = − du =
du S(u)
0 0 0
= −log[S(t)] + log[S(0)] =
= −log[S(t)] + log[P (T ≥ 0)] =

= −log[S(t)] + log(1) = −log[S(t)]

Teorema 2.4 Como T representa o tempo de falha de uma unidade experimental em um


dado estudo, sendo S(t) a função de sobrevivência no tempo T = t e Λ(t) = −log[S(t)] a
função de risco acumulado em termos do log[S(t)], então teremos que

S(t) = exp[−Λ(t)] (2.9)

é a função de sobrevivência em termos de exp[Λ(t)].

Demonstração: Observe que, como Λ(t) = −log[S(t)] ⇒ log[S(t)] = −Λ(t), aplicando a

exponencial em ambos os membros desta expressão teremos:

log[S(t)] = −Λ(t) ⇒ exp{log[S(t)]} = exp[−Λ(t)] ⇒ S(t) = exp[−Λ(t)]

2.1.6 Função Ciclo de Vida e Função Unimodal

A análise do comportamento da taxa de falha de uma unidade experimental ao longo

do tempo pode ser representada por uma curva cujo gráco possui os formatos, além da

constância e monotonicidades, côncavo - convexo ou convexo-côncavo para esboçar o risco

de vida em ciclo ou o risco de vida extremo, respectivamente.

O gráco côncavo - convexo representa as fases da vida característica de uma unidade

12
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

experimental, de um tratamento ou da recidiva de um evento em estudo pois representa si-

multaneamente o decrescimento, constância (ou risco ínmo) e crescimento da taxa de falha

em relação ao tempo, conhecidos na literatura respectivamente como fase de mortalidade

infantil, fase de maturidade e fase de mortalidade senil.

A partir de uma análise das funções ciclo de vida observa-se três comportamentos dis-

tintos em relação à taxa de falha:

1. Na fase de decrescimento, onde t < t1 , a taxa de falha é alta, porém, decrescente a

medida que o tempo avança;

2. Na fase de constância (maturidade ou vida útil), onde t1 ≤ t < t2 , o período de vida

útil, conforme Wuttke (2008) assume em sua abordagem para Teoria de Conabilidade,

o valor da taxa de falha é praticamente constante, nesta fase as falhas que ocorrem são,

em geral, por razões aleatórias, externas ao tratamento ou experimento em estudo.

3. Na fase de crescimento, onde t ≥ t2 , a taxa de falha tende a ser alta e crescente, o que

sugere, de modo geral, o início do período nal de vida da unidade experimental em

observação.

Funções de risco com este comportamento são chamadas de funções ciclo de vida e seu

gráco é apelidado de "curva da banheira", pois possui a forma de uma banheira.

Figura 2.3: Representação gráca da Curva da Banheira e suas três fases distintas.

De modo similar, o gráco convexo-côncavo representa também três fases da vida ca-

racterística das unidades experimentais, porém, representa inversamente o ciclo de vida, de

modo que a medida que se avança no tempo, a curva representa o crescimento, constância

13
Conceitos Básicos

(ou taxa de risco extremo) e decrescimento.

São curvas conhecidas na literatura por representar a maior taxa de risco, ou simples-

mente uma moda para as unidades experimentais sobre risco, daí o título de função unimodal

com gráco apelidado de curva unimodal.

A partir de uma análise de funções unimodais observa-se também três comportamentos

distintos em relação à taxa de falha:

1. Na fase de crescimento, a taxa de falha é crescente a medida que se avança no tempo

ou seja, tende a ser alta e crescente, pois é diretamente proporcional ao tempo;

2. Na fase de taxa de risco extremo, o valor da taxa de falha são os mais altos e repre-

sentam as observações mais suscetíveis a falha.

3. Na fase de crescimento a taxa de falha tende a ser baixa e decrescente, o que sugere

que o risco diminui a medida que se avança no tempo.

Na gura a seguir são apresentados quatro curvas de risco: EMPÍRICA, M1, M2 e M3. A

primeira representa um modelo de função de risco empírico, onde o gráco resultante mostra

a taxa de falha especicamente para um conjunto de dados particular. Os modelos M1, M2

e M3 representam curvas paramétricas de um modelo contínuo em diferentes parâmetros,

no caso contínuas para t < 200 e para três mudanças paramétricas.

Figura 2.4: Representação gráca de curvas unimodais distintas.

Tanto para estudos de Sobrevivência como em Conabilidade, é de interesse determinar

uma distribuição de probabilidade que melhor se ajuste aos dados do tempo de vida do

14
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

indivíduo e que represente, sobretudo, taxa de risco bathtub (banheira) ou risco unimodal.

Modelos de grande interesse e de maior abordagem na literatura para este m são os

modelos Normal, Log-Normal, Gama, Exponencial e Weibull, porém, existem vários estudos

que apontam a origem de novas distribuições e que garantem um ajuste mais graticante.

2.1.7 Censura

Censura, é a presença de observações incompletas ou parciais da unidade experimental

na análise de um evento de interesse, ou seja, é a falha de uma unidade experimental em

um tempo não previsto no estudo (Cesar, 2005, p.1). Comumente, na literatura, os dados

censurados são destacados pelo expoente ”∗” ou acompanhados por ” + ”.


Outra forma de exemplicar o conceito de censura em Análise de Sobrevivência, é dada

considerando os pacientes que podem estar vivos ou em remissão no nal de um período

de estudo, em geral, a censura ocorre quando o tempo de falha de um dos pacientes não

é observado, neste contexto, o paciente deixa de ser observado ou o experimento deve ser

encerrado.

A falha ou morte quando ocorre por eventos desconhecidos ou diferentes ao evento de

interesse, ou seja, quando ocorre por outras causas além da estudada, também é dada como

censura.

Para os dados de sobrevivência apresentados na tabela 2.2, no gráco a seguir observa-se


os tempos de falhas e as censuras (ou tempos censurados) dos pacientes observados repre-

sentados, respectivamente por e .

Figura 2.5: Gráco de Censura e falha no tempo dos pacientes do estudo do câncer de ovário.

Em estudos envolvendo dados de sobrevivência esta é a situação mais frequente que se

15
Conceitos Básicos

encontra, pois na prática, é feita a utilização de resultados assintóticos para realizar a análise

estatística destes dados, resultados que não exigem o reconhecimento do mecanismo de cen-

sura de modo que as mesmas técnicas estatísticas são utilizadas na análise de dados oriundos

dos três mecanismos de censura (Colosimo Giolo, 2006, p.11-12) que veremos a seguir.

Colosimo e Giolo (2006) defendem que alguns mecanismos de censura são diferenciados

em estudos de Análise de Sobrevivência, como Censura Tipo I, Censura Tipo II e Censura

Aleatória. Tais categorias se denem como:

• Censura Tipo I é a que possui a característica de ser efetuada quando o estudo é

encerrado após um período de tempo pré-estabelecido, ou seja, o estudo é conduzido

até um tempo limite L, pré-xado e a unidade experimental que ainda não sofreu o

evento de interesse é censurada (Fogo, 2007).

• Censura Tipo II é a que se caracteriza no estudo encerrado após ter ocorrido o evento de

interesse em um número pré-estabelecido de unidades experimentais, neste mecanismo

de censura, o estudo é encerrado quando da ocorrência de r falhas e as n−r unidades

que ainda se encontram em funcionamento são todas censuradas no tempo tr (Fogo,

2007).

• Censura Aleatória ocorre quando uma unidade experimental é retirada no decorrer do

estudo sem que a falha tenha ocorrido ou se a falha ocorre por razões diferentes da

estudada (Colosimo e Giolo, 2006, p.8). Quando uma unidade experimental é incorpo-

rada ao estudo de maneira aleatória, neste caso também ocorre uma censura aleatória

(Fogo, 2007).

Estes três mecanismos de censura são conhecidos como Censura à Direita, ou Censura

Anterior ao Tempo, pois o tempo de ocorrência observado do evento de interesse ocorre antes

do tempo registrado.

Outra ilustração para dados censurados (Colosimo e Giolo, 2006, p.51) considera os tem-

pos de reincidência de 10 pacientes com tumor sólido, onde 6 deles reincidem nos tempo 3,

6.5, 6.5, 10, 12 e 15 meses após ingressarem no experimento, 3 permanecem em reincidência

nos tempos 4, 5.7 e 10, e um deles deixou de fazer parte do estudo aos 8.4 meses de acom-

panhamento, assumindo que o experimento foi elaborado para durar 18 meses, o esquema a

seguir esboça o rol de dados de sobrevivência descrito.

Os dados de sobrevivência no contexto de tempo de falha e censura foram 3, 4(+), 5.7(+),

6.5, 6.5, 7(+), 10(+), 10, 12 e 15.

Outras categorias de censura que ocorrem, além da de Direita, é a Censura à Esquerda

(Censura Posterior ao Tempo) e a Censura Intervalar, a primeira ocorrendo quando o tempo

registrado é maior do que o tempo de falha, ou seja, o evento de interesse ocorre anteri-

ormente a observação da unidade experimental, e a segunda resulta quando os tempos de

sobrevivência não são exatamente conhecidos e sabe-se apenas que eles ocorreram dentro de

16
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

Figura 2.6: Tempo em meses de calendário (esquerda) e de estudo (direita).

um intervalo (Strapasson, 2007, p.7).

Supondo um estudo com nal previsto no tempo t = 25, a gura a seguir ilustra os

quatro mecanismos de dados de sobrevivência, onde representa a falha e representa

a censura, sendo os três últimos mecanismos com censura anterior ao tempo, segundo Colo-

simo e Giolo (2006), censura à direita.

Figura 2.7: Representação Gráca dos tipos de Censura.

Note que a gura poderá ser interpretada como um gráco dividido em quatro quadrantes

onde:

17
Conceitos Básicos

• o 1 quadrante: representa os Dados com Censura Tipo I, onde nem todas as unidades

experimentais experimentaram o evento até o nal do estudo, em que uma falha é

observada no tempo t = 5;

• o 2 quadrante: representa os Dados Completos, onde todas as unidades experimentais

experimentaram o evento antes do nal do estudo no tempo t = 25;



• o 3 quadrante: representa os Dados com Censura Tipo II, onde o estudo foi nalizado

após a ocorrência de um número pré-estabelecido de 7 falhas, com 4 no tempo t = 25;



• o 4 quadrante: representa os Dados com Censura Aleatória, onde o acompanhamento

de algumas unidades experimentais foi interrompido de modo que elas não experimen-

taram o evento até o nal do estudo.

2.2 Componentes da Inferência Bayesiana


Na Inferência Estatística Clássica, os dados aleatórios de uma amostra X são considera-

dos como independentes e identicamente distribuídos enquanto os parâmetros θ da população


são considerados como xos, porém, são estimados através dos dados de uma amostra repre-

sentativa pois, geralmente, é impossível coletar todas as informações pertinentes a um dado

evento em toda uma população em estudo.

Surge assim algumas questões inerentes a qualquer pesquisa cientíca quando o interesse

é inferir informações sobre uma população em particular: A amostra é representativa? E se

não for?

A inferência bayesiana é, sobretudo, um conjunto de métodos que permite obter previsões,

ou informações, mais nítidas e precisas através de uma amostra. É ainda particularmente

útil e indispensável quando o pesquisador não dispõe de um rol de dados signicantes para

representar a população de interesse. A ideia principal se baseia no seguinte: a compreensão

do caso com a posse de alguns dados permite obter uma medida quantitativa da certeza

(ou incerteza) de um evento em particular e essa abordagem na modelagem desta medida é

muito útil quando:

• os dados não são representativos (limitados);

• os dados não representam a realidade com coerência;

• existem razões para se acreditar que alguns fatos são mais propensos do que outros

mas essa informação não está contida nos dados coletados;

• o interesse consiste em saber qual a probabilidade de ocorrência de certos eventos, não

apenas obter o fato mais provável;

18
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

As abordagens tradicionais de inferência consideram os valores do parâmetro θ como os

mais alinhados aos dados x da amostra. Na Inferência Bayesiana, os próprios parâmetros

seguem uma distribuição de probabilidade particular, um conhecimento sobre o qual, antes

mesmo de considerar os dados em análise, é resumido em uma distribuição à priori p(θ).


Na prática, a tarefa do analista consiste em construir um modelo estatístico para repre-

sentar o sistema em análise e, em muitas situações, ele se benecia em incluir em um modelo

à priori a evidência disponível de estudos anteriores sobre os parâmetros.

A esta prática dá-se o nome de modelagem bayesiana e as técnicas de inferência envolvida

nesta categoria de análise é chamada de Inferência Bayesiana.

Em modelos bayesianos, a probabilidade dos dados x observados com parâmetro θ, de-

notado por f (x|(θ), são usados para modicar a condição anterior p(θ), com o conhecimento
atualizado que se resume em uma densidade posterior, p(θ|x).

A relação entre essas densidades resulta em uma função de atualizações, conhecida como

função à posteriori, que é constituída em função do conhecimento à priori e da evidência

obtida dos dados disponíveis da amostra.

Do ponto de vista bayesiano, a função de probabilidade resultante é vista como uma

função dos dados x e é chamada de distribuição à posteriori, de modo que os elementos

nesta probabilidade que não sejam funções de x se tornem parte de uma constante de pro-

porcionalidade c indicada por ∝. Portanto

p(θ|x) ∝ f (x|(θ)p(θ), θ ∈ Θ (2.10)

e para maiores detalhes, sugere-se consultar Gamerman e Migon (2006) ou Congdon (2003).

2.2.1 O Teorema de Bayes

A base para a inferência bayesiana deriva do teorema de Bayes, em denição formal,

fornece a probabilidade condicional de ocorrência de um evento A dado o conhecimento

prévio do evento B, e expresso matematicamente a seguir como

Pr (B|A)Pr (A)
Pr (A|B) = (2.11)
Pr (B)

tal que, substituindo B pelas observações do vetor x, A pelo vetor de parâmetros Θ e as

probabilidades Pr pelas densidades p (às vezes π ou simplesmente a função f ), o teorema de


Bayes é conduzido a

p(x|Θ)p(Θ)
p(Θ|x) = (2.12)
p(x)

A densidade p(Θ) representa a distribuição à priori do vetor de parâmetros Θ e é denido

19
Conceitos Básicos

antes, ou simultaneamente, a x, p(x|Θ) é a probabilidade de x dado os parâmetros em Θ


sob um modelo paramétrico, e p(Θ|x) é a distribuição à posteriori do vetor de parâmetro Θ

e expressa a incerteza sobre o parâmetro Θ ajustado.

O denominador p(x) é a probabilidade marginal de x, é uma distribuição que pode ser

incorporada a uma constante de proporcionalidade c e é denida como

Z
p(x) = p(x|Θ)p(Θ)dΘ (2.13)

Esta distribuição normaliza a distribuição p(Θ|x) de modo que a formulação do modelo

paramétrico baseado no teorema de Bayes é dado por

p(x|Θ)p(Θ)
p(Θ|x) = (2.14)
c

2.2.2 O Conceito de Informação a Priori

Quando uma informação prévia está disponível sobre o vetor de parâmetro Θ ela deve

ser incluída na sua distribuição à priori.

Desta maneira, um modelo não está partindo do risco baseado somente nos dados dispo-

níveis, mas também nos efeitos cumulativos de todos os dados, assim, os dados passados e

os presentes podem ser considerados na análise através da informação prévia, a informação

a priori.

Para assegurar que dados atuais não oprimem a informação prévia, Ibrahim e Chen

(2000) introduziram a técnica power prior que consiste em uma classe de distribuição à

priori que leva em conta dados e resultados precedentes.

No entanto, em qualquer técnica a considerar, a informação prévia não está simplesmente

pronta para ser usada, como quando parte da opinião de um perito. Neste caso, segundo

Penha (2014) a opinião pessoal sobre a probabilidade do evento deve ser eliciada para uma

função de densidade apropriada, isto é, deve ser processada sobre a forma de uma distribui-

ção de probabilidade.

Existem vários procedimentos para a produção de distribuições à priori e de acordo com

Paulino, Turkman e Murteira (2003) eles se dividem basicamente em três classes: os proce-

dimentos para as distribuições à priori subjetivas, para as distribuições à priori conjugadas

e para à priori não informativa. Sobretudo, consistem respectivamente de:

prioris subjetivas: é a situação em que existe a informação mais ou menos substancial

sobre os parâmetros do modelo, de natureza essencialmente subjetiva pois parte do

decisor ou de outros indivíduos a quem o decisor pode recorrer, sobretudo considera:

• a informação a priori do decisor sobre um ou mais acontecimentos;

20
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

• métodologia estrutural de eliciação;

• procedimentos preditivos de eliciação;

prioris conjugadas: é a situação que mais facilita a análise pois a ideia é considerar as

distribuições a priori e posteriori pertencentes a mesma classe de distribuições de modo

que o conhecimento que se tem sobre os parâmetros envolva apenas sua representação

na forma funcional, o que aproxima estes procedimentos da natureza objetiva da in-

formação e considera elementos da inferência clássica, tais como o conceito de;

• Estatísticas Conjuntamente Sucientes;

• Famílias Conjugadas;

• Conjugação e Família Normal e Exponencial;

prioris não informativa: é a situação na qual não existe uma informação a priori palpá-

vel, seja de natureza objetiva, subjetiva ou em que o conhecimento a priori é pouco

signicativo em relação a informação amostral, e consistem de métodos LIP's ( Least


Informative Priors - priori minimamente informativa) apelidados também por distri-

buições não informativas. Os principais métodos apresentados na literatura são:

• Bayes-Laplace;

• Jefreys;

• Box-Tiao;

• Método Flat (Plano Uniforme);

• Método Hierárquico;

• Método de Entropia Máxima (MAXENT);

• Maximização da Discrepância Intrínseca Esperada (Priori de Referência entre as

distribuições posteriori e priori);

2.2.3 Distribuições à Priori Não Informativas

Comumente alguns praticantes de inferência estatística querem se beneciar da estrutura

bayesiana pelo pretexto de uma inuência tão limitada da distribuição à priori quanto possí-

vel. Isso pode ser conseguido escolhendo priores que têm um impacto mínimo na distribuição

à posteriori.

Tais priores são chamadas de priores não informativas e são populares para algumas

21
Conceitos Básicos

aplicações, embora nem sempre sejam fáceis de construir. Uma priori informativa domina a

probabilidade e, portanto, tem um impacto discernível sobre a distribuição à posteriori.

Uma distribuição a priori é não-informativa quando se espera que a informação dos dados

seja dominante, no sentido de que a informação fornecida é vaga em relação à distribuição

à posteriori, isto é, tenha um efeito mínimo, relativamente aos dados, na inferência nal.

No entanto, a medida que um histórico não informativo apresenta-se mais objetivo, em-

bora exista algum grau de subjetividade em qualquer que seja a priori escolhida, a distribui-

ção à priori não representa ignorância completa sobre o parâmetro em questão. Além disso,

o uso de priores não informativas pode levar ao que é conhecido como priori imprópria, a

densidade à posteriori não integrável com a qual não se pode fazer inferências.

Sobretudo, priores não informativas também podem ser tomadas como prioris inovado-

ras, o que signica que elas podem ser não informativas em uma parametrização, mas são

informativas se uma transformação for aplicada. Por outro lado, uma distribuição à priori

inadequada pode ser apropriada à posteriori, tanto que distribuições prévias inadequadas

são frequentemente usadas nas abordagens bayesianas, pois elas produzem priores não in-

formativas e distribuições à posteriores apropriadas.

Uma maneira relativamente simples de denir distribuições a priori não informativas é

escolher distribuições de forma que o parâmetro de interesse possua uma variância bastante

elevada, isto é, atribuir uma distribuição de probabilidade apropriada ao parâmetro dos

estudos e de modo que o parâmetro de variabilidade da distribuição adotada seja alto.

2.2.4 Distribuições a Priori Impróprias

Um estudo mais aprofundado sobre os métodos não informativos de Bayes-Laplace e de

Jefreys sitados anteriormente em 2.2.2, permite constatar que estas são distribuições a priori

frequentemente imprórias.

Contudo, é de interesse comum que uma distribuição a priori seja denida como própria,

e será imprópria quando

Z
p(x|θ)dθ = +∞ (2.15)

Notavelmente, uma distribuição à priori uniformemente ilimitada, seja a esquerda ou adi-

reita, é uma distribuição a priori imprópria pois θ ∼ U (−∞; +∞), p(θ) ∝ k e k constante,

ou seja:

Z+∞ Z+∞
p(x|θ)dθ ∝ kdθ = +∞ (2.16)

−∞ −∞

22
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

Segundo Paulino, Turkman e Murteira (2003), o problema consiste em que, para tais

casos, a realização da inferência é inviável pois o parâmetro de interesse não congura na

verossimilhança, e isso implica que a distribuição à posteriori coincide com a priori.

Paulino e Pereira (1994) atribuem este efeito aos casos de não identicabilidade (inidenti-

cável) de funções de distribuição e, sobretudo, é inquestionável sua implicação no contexto

bayesiano, pois, embora com exceções, os fatores de Bayes não podem ser aplicados.

Mouchart (1976) e Paulino (1993) chamam a atenção para natureza imprópria da distri-

buição de probabilidade preditiva à priori para os dados observados, comprometer a distri-

buição à posteriori tornando-a também imprópria, isto é, dada uma distribuição de probabili-

dade X não identicável, é certo que suas distribuições à posteriori e priori, respectivamente,
p(Θ|x) e p(Θ), serão também não identicáveis.

2.2.5 O Intervalo de Credibilidade

Em inferência bayesiana a forma mais adequada de expressar a informação que se obtém

sobre um parâmetro é através de sua distribuição à posteriori, e tão importante quanto a

denição desta distribuição é a associação de alguma informação sobre o quão precisa é a

informação desta estimativa.

Tal precisão é conhecida como intervalo de credibilidade e seu conceito é análogo ao

conceito de intervalos de conança usados na estatística clássica, tanto que comumente é

chamado de intervalo de conança bayesiano.

Ehlers (2011) propõe uma denição para intervalos de credibilidade e arma que é possí-

vel construir uma innidade de intervalos através dela, porém, o autor enfatiza que o objetivo

é, dentre todos intervalos obtidos, tomar o de menor comprimento possível. A denição pro-

posta pelo autor é apresentada a seguir.

Denição 2.1 Seja p(θ|x) a distribuição à posteriori de parâmetro θ. C é um intervalo de


credibilidade de 100(1−δ)% para θ, ou ao nível de credibilidade 1−δ , se P (θ ∈ C|x) ≥ 1−δ ,
isto é
Z
P (θ ∈ C|x) = p(θ|x)dθ = 1 − δ (2.17)

Geralmente, são construídos intervalos de credibilidade sobre os quais P (θ ∈ C|x) =


0, 95.
Uma denição similar, porém mais clara é apresentado por Murteira (2013) como:

Denição 2.2 Observado x de uma variável aleatória X e determinada a distribuição a pos-


teriori p(θ|x), um intervalo de credibilidade para o parâmetro θ é formado por um par de valo-
res do espaço de parâmetros Θ, sejam [θ( 2 ) (x), θ(1− 2 ) (x)], ou mais simplesmente [θ( 2 ) , θ(1− 2 ) ],
δ δ δ δ

23
Conceitos Básicos

e tais que
δ
θ(1−
Z 2)
δ δ
P (θ( 2 ) < θ < θ(1− 2 ) |x) = p(θ|x)dθ = 1 − δ (2.18)

δ
θ( 2 )

O autor destaca também que, se Θ = (−∞; +∞), uma forma indicada de construir um

intervalo de credibilidade, neste caso dito central, é considerar na distribuição à posteriori

caudas de igual credibilidade vericando que

δ
θ( 2 )
Z Z+∞
δ
p(θ|x)dθ = p(θ|x)dθ = (2.19)
2
−∞ δ
θ(1− 2 )

Na prática, um intervalo de credibilidade é representado pelos quantis [Q δ ; Q1− δ ] =


2 2
( 2δ ) (1− 2δ )
[θ ,θ ] da distribuição a posteriori de p(θ|x) onde δ é a signicância do intervalo.

Além disso, a análise bayesiana é, sobretudo, sobre a distribuição à posteriori. Os parâ-

metros são quantidades aleatórias que possuem distribuições, em oposição aos parâmetros do

modelo xo da estatística clássica e, toda a inferência estatística de uma análise bayesiana,

provêm de medidas resumidas da distribuição à posteriori, como estimativas pontuais e o

intervalo de credibilidade.

No entanto, estatísticas como a média ou a mediana de uma distribuição à posteriori

fornecem estimativas pontuais para o parâmetro θ em estudo, enquanto que os seus quantis

fornecem os intervalos de credibilidade.

Como descrito anteriormente, os intervalos de credibilidade da inferência bayesiana são

análogos aos intervalos de conança da inferência clássica, e existem dois tipos de inter-

valos de credibilidade: o intervalo de credibilidade central (simétrico), de caudas iguais e

com 100(1 − δ)% de credibilidade para descrever o intervalo entre os pontos de corte, e o

intervalo de máxima densidade à posteriori, que é o intervalo cuja probabilidade à posteriori

do intervalo entre os pontos de corte é de 100(1 − δ)%.


A grande diferença entre estes dois intervalos de credibilidade está atribuída ao intervalo

HPD (Highest Posterior Density - Máxima Densidade à Posteriori) pois a densidade mínima

de qualquer ponto nesse intervalo é igual ou maior do que a densidade de qualquer ponto

fora dele, e isso o torna o de menor amplitude. Porém, alguns estatísticos ainda preferem o

intervalo de credibilidade central porque é invariante sob transformações, mas outros prefe-

rem o HPD porque é o menor intervalo possível.

Um intervalo de conança bayesiano é dito ser HPD quando satisfaz as duas seguintes

propriedades:

• A probabilidade à posteriori desse intervalo é de 1 − δ;

24
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

• A densidade para qualquer ponto dentro desse intervalo é igual ou maior do que a

densidade para qualquer ponto fora desse mesmo intervalo.

A denição de um intervalo HPD é similar ao do intervalo de credibilidade central, porém,

considera que θ seja uma posteriori de densidade máxima. Veja:

Denição 2.3 Seja p(θ|x) a distribuição à posteriori de parâmetro θ, uma posteriori de


densidade máxima. Então C = {θ ∈ Θ| p(θ|x) ≥ K(δ)} é um intervalo de credibilidade
de máxima densidade à posteriori com 100(1 − δ)% de credibilidade para θ, ou ao nível de
credibilidade 1 − δ , se K(δ) é a maior constante tal que P (θ ∈ C|x) ≥ 1 − δ , isto é
Z
P (θ ∈ C|x) = p(θ|x)dθ = 1 − δ (2.20)

Vale ressaltar que, para uma dada credibilidade, o intervalo HPD é o intervalo que apre-

senta a menor amplitude dentre todos os possíveis intervalos de credibilidade.

Contudo, como se busca obter intervalos com o menor comprimento (ou volume) pos-

sível, sem se tomar a esperança, ou seja, avaliando-os em termos da amostra observada, o

intervalo HPD é usado mais frequentemente pelos pesquisadores.

2.3 O Modelo Inverso de Chen Com Dois Parâmetros


2.3.1 Os Modelos Probabilísticos

Na literatura de Análise de Sobrevivência e Teoria de Conabilidade encontra-se uma

exaustiva relação de modelos paramétricos ou probabilísticos que se mostram muito ecien-

tes para descrever os tempos de vida de um dado evento em análise.

Segundo Colosimo e Giolo (2006), a importância destes modelos existe em virtude de

que os estudos destes eventos envolvem variáveis que podem ser planejadas, e consequente-

mente, é possível manter as fontes de perturbações sob controle, de modo que, em termos

matemáticos, um modelo probabilístico adequado facilita a análise estatística dos dados de

um experimento em estudo além da obtenção de resultados mais precisos.

Em análise de sobrevivência, especicamente, estes modelos são indispensáveis para des-

crever as variáveis clínicas e embora exista uma série de modelos utilizados para este m,

alguns se destacam entre todos devido suas comprovadas adequações a várias aplicações

práticas.

Dentre todos os possíveis modelos a se adotar em uma análise, é facilmente citado o mo-

delo Exponencial, Weibull, Log-Normal, Log-Logística, Gama e Gama-Generalizada. Tais

25
Conceitos Básicos

modelos probabilísticos são comumente chamados de Distribuição de Probabilidades e, no

campo da Análise de Sobrevivência e Teoria da Conabilidade, surgem para modelar o tempo

de falha do evento em estudo.

Contudo, existem inúmeras distribuições de probabilidades apropriadas para modelar o

tempo de falha de situações clínicas e produtos ou materiais, e a escolha do modelo a ser

utilizado é um tópico extremamente importante, senão o mais delicado na análise estatística

dos dados de tempo de vida.

O método de máxima verossimilhança por exemplo, só pode ser aplicado após de se de-

nir o modelo probabilístico que se adeque aos dados em análise. No caso da escolha do

modelo Normal para representar os dados, o método é aplicado para estimar os parâmetros

µ e σ, respectivamente, a média e o desvio padrão da distribuição. Este método será apre-

sentado na seção a seguir.

Entretanto, se o modelo Normal não for o adequado ao ajuste dos dados, os resultados,

conclusões e respostas às perguntas pertinentes à pesquisa serão imprecisas e distorcidas em

consequência de uma análise estatística mal sucedida em virtude de parâmetros mal estima-

dos por consequência do modelo mal selecionado.

Enm, a diculdade em obter o modelo de melhor ajuste aos dados da análise é comu-

mente justicado pelo fato de que a escolha do modelo é, na maioria dos casos, baseada em

informações que não estão disponíveis, entretanto, é possível que em alguns casos encontra-se

evidências em testes realizados no passado, mas em geral, a escolha de um modelo adequado

é basicamente empírica.

Nestas condições, dada a innidade de casos clínicos e industriais que se pode tomar,

é provável que se deseje estudar um evento no qual os dados exijam uma distribuição de

probabilidade mais exível para acomodar a função de sobrevivência e, consequentemente,

a função de risco e portanto, é requerido a busca e estudo de novas distribuições de proba-

bilidade.

2.3.2 A Distribuição de Probabilidade Proposta

Vale ressaltar que em teoria de probabilidades é comum a utilização de transformações

de variáveis aleatórias que mapeiam um conjunto de variáveis alvo (entrada) em outro con-

junto de variáveis em análise (saídas), e esta transformação é descrita como uma relação de

entrada e saída dada por y = ϕ(x).


No que tange este conceito, a obtenção da distribuição de probabilidade Inversa de Chen

é um caso de uma transformação linear que converte uma variável aleatória X ∼ Chen(α; β)
−1 −1
para uma variável Y ∼ Chen (α; β) através da transformação Y =X .

Inicialmente, citado por Srivastava e Srivastava (2014), Chen (2000) propôs uma distri-

buição de probabilidade com dois parâmetros a m de estudar tempos de vida cuja função

de risco assume a forma bathtub (banheira), denominada distribuição de Chen. Então, se X

26
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

é uma variável aleatória com função densidade de probabilidade dada por:

F (x|α; β) = 1 − exp{α[1 − exp(xβ )]} (2.21)

em que x é uma observação da variável aleatória X , α e β são os parâmetros da distribuição,

e tais que x > 0, α > 0 e β > 0.

Consequentemente, a função de distribuição de probabilidade (fdp), para todo x > 0,


α>0 e β > 0, é dada por:

f (x|α; β) = αβxβ−1 exp{xβ + α[1 − exp(xβ )]} (2.22)

Mais especicamente, se X tem uma distribuição de Chen com parâmetros α e β , to-


−1 −1
mando uma variável auxiliar Y denida como Y = X e fazendo a transformação X = Y ,

dizemos que Y tem uma distribuição Inversa de Chen cuja fda é dada por:

F (y|α; β) = exp{α[1 − exp(y −β )]} (2.23)

Logo, a fdp de Y ∼ Chen−1 (α; β) é dada então por:

f (y|α; β) = αβy −(β+1) exp{y −β + α[1 − exp(y −β )]} (2.24)

Detalhes mais especícos, bem como a justicativa matemática sobre sua obtenção atra-

vés da transformação da variável aleatória Y = X −1 , são apresentados oportunamente no

desenvolvimento deste trabalho no tópico "Propriedades do Modelo Proposto".

2.4 Técnicas Paramétricas de Estimação


2.4.1 O Estimador de Máxima Verossimilhança

Sejam X1 , X2 , X3 , ..., Xn uma amostra aleatória de tamanho n de uma variável aleatória

X com função de densidade de probabilidade qualquer dada por f (x|θ), com θ ∈ Θ, onde

Θ ∈ < é o espaço paramétrico de θ.


O método da máxima verossimilhança consiste em estimar os parâmetros de um modelo

utilizando as estimativas que tornam máximo o valor da função de verossimilhança de θ


correspondente à amostra aleatória apresentada que é denida como

n
L(θ|x) =
Y
f (xi |θ) (2.25)
i=1

27
Conceitos Básicos

Não é por acaso que esta técnica é a primeira considerada neste capítulo, pois a estimação

de máxima verossimilhança é a principal técnica que possibilita a obtenção de estimadores

de parâmetros em diversas situações de estudos, tendo como único competidor equivalente

o método de mínimos quadrados, que não será abordado neste trabalho.

O processo de obtenção de uma estimativa para θ através de um estimador de máxima

verossimilhança consiste em maximar a função de verossimilhança descrita em 2.25 através

de um valor de θ, a sua estimativa, e dentre todos os métodos possíveis para este m, este

é o mais aplicado em qualquer linha pesquisa.

Uma justicativa para isso é que este método não considera restrições signicantes sobre

sua aplicação, e por mais que a função l(θ|x) seja complexa, o método considera que a tarefa
de maximar l(θ|x) através de θ , é a mesmo que maximar L(θ|x) também através de θ , sendo

a segunda ainda mais simplicada pois

" n
#
l(θ|x) = ln[L(θ|x)] = ln
Y
f (xi |θ) (2.26)
i=1

isto é, o estimador de máxima verossimilhança para θ é a função de verossimilhança corres-

pondente a amostra aleatória observada e é denida de duas formas como mostrado em 2.25

e 2.26.

Então, se θ maximiza 2.25, o estimador de máxima verossimilhança de θ é a função θ̂


encontrada de modo que θ̂ é a raiz da equação de verossimilhança dada por

∂L(α; β|y)

L (θ|x) =
0
=0 (2.27)
∂θ


θ=θ̂

ou equivalentemente, através da expressão 2.26, como

∂L(α; β|y)

L (θ|x) =
0
=0 (2.28)
∂θ


θ=θ̂

Oportunamente, será mostrado que a função de verossimilhança 2.25 de uma amostra

aleatória proveniente da distribuição Y ∼ Chen−1 (α; β) é dada por:

n
( n )
L(α; β|y) = (αβ)n
Y X
(yi )−(β+1) exp yi −β + α[1 − exp(yi −β )] (2.29)
i=1 i=1

e através dela, ou de 2.26, resulta que

n
α̂ = n (2.30)
X
−β̂
exp(yi )−n
i=1

28
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen
n n
n X X
−β̂ yi −β̂ exp(yi −β̂ )ln(yi )
− ln(yi ) + yi + n =0 (2.31)
β̂ i=1 i=1
X
−β̂
exp(yi )
i=1

2.4.2 O Método dos Momentos

Como um dos métodos de estimação mais simples da literatura, o método dos momentos,

segundo Bolfarine e Sandoval (2010) é também um dos métodos mais antigos conhecidos,

datado desde o século XV III .


Seja X uma varável aleatória contínua, com função densidade de probabilidade dado por

f (x|θ), dene-se como o r-ésimo momento populaconal, ∀ r ≥ 1, a expressão genérica da


r
esperança de X dada por

Z+∞
Mr = E(X r ) = xr f (x|θ)dx, ∀x ∈ < (2.32)

−∞

Por ser um cálculo de valor esperado, o cálculo dos momentos varia ligeiramente depen-

dendo da variável aleatória considerada, mas em geral, os momentos de ordem r = 1 fornece


a expressão para a média µ da variável aleatória X.
E mais, dene-se como o momento central populacional de ordem r, o momento de X
centrado na média µ, ou seja, o r-ésimo momento de X −µ dado por:

Mr0 = E[(X − µ)r ] = E[X − E(X)]r (2.33)

Note que em geral, quando r = 1, o primeiro momento central, tem-se M10 = 0 e para

r=2 obtem-se a variância da variável aleatória, ou seja, M20 = σ 2 .


Sobretudo, o momento Mr é um dos critérios mais comuns utilizados para a obtenção

da média µ e a variância σ2 de uma distribuição de probabilidade, além disso, seus quatro

primeiro momentos caracterizam, respectivamente, tendência central, dispersão, assimetria

e curtose.

Ao processo de obtenção dos quatro primeiros momento de uma variável aleatória X,


diz-se obter uma caracterização geral para X, neste caso, tomando a variável aleatória
−1
Y ∼ Chen (α; β), vericaremos oportunamente neste trabalho que é possível obter a ca-

racterização geral para Y, isto é, considerando que ∀ y, α, β ∈ <∗+ o r-ésimo momento de Y


existe e é dado por

Z+∞ Z+∞
r
E(Y |α; β) = r
y f (y|α; β)dy = αβy r−(β+1) exp{y −β }exp{α[1 − exp(y −β )]}dy (2.34)

0 0

29
Conceitos Básicos

2.4.3 A Função Escore

Em casos mais complexos, principalmente quando a função de verossimilhança para uma

variável aleatória X está associada a modelos não elementares a expressão 2.34 é não linear e

portanto não apresenta uma solução analítica explícita, ou seja, fornece uma solução fechada

para a obtenção dos estimadores de interesse.

Sendo assim, estes casos exigem uma solução numérica para a obtenção destes estimado-

res e métodos numéricos são executados para a realização de tal tarefa, ou seja, o valor de

θ̂ que seja solução para a equação

x

∂l(θ| )
l0 (θ̂|x) = =0 (2.35)

∂θ

θ=θ̂

é obtido através de um procedimento iterativo.

Bolfarine e Sandoval (2010) sugerem o método de Newton-Raphson que consiste em

expandir l0 (θ̂|x) = 0 em série de Taylor de ordem 1 em torno de um ponto inicial θ0 ,


iterativamente, até que a estabilização do processo ocorra para um dado  tão pequeno

quanto se queira.

A expressão l0 (θ|x) é denominado de função escore e é denotada na literatura por U (θ)


como

∂l(θ|x)
U (X|θ) = U (θ) = l0 (θ|x) = (2.36)
∂θ
No entanto, sendo então U (θ̂) = 0 o estimador de maxima verossimilhança de θ, para o

procedimento descrito tem-se na expansão de Taylor em primeira ordem que

U (θ0 )
U (θ̂) ∼
= U (θ0 ) + (θ̂ − θ0 )U 0 (θ0 ) = 0 ⇒ U (θ0 ) + (θ̂ − θ0 )U 0 (θ0 ) = 0 ⇒ θ̂ ∼
= θ0 − 0
U (θ0 )

e resulta o processo iterativo sobre

U (θj )
θj+1 = θj −
U 0 (θj )

Em m, o processo se estabiliza sobre o ponto θ̂ que é tomado como o estimador de

máxima verossimilhança de θ.
De maneira oportuna, será vericado no presente estudo que para o modelo paramétrico

proposto, tem-se para os estimadores α̂ e β̂ , respectivamente que

n
n X
U (Y |α̂) = + n − exp(yi −β̂ ) (2.37)
α̂ i=1

30
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

n n n
n X X
−β̂
X
U (Y |β̂) = − ln(yi ) + exp(yi ) + α̂ yi −β̂ exp(yi −β̂ )ln(yi ) (2.38)
β̂ i=1 i=1 i=1

2.4.4 A Medida de Informação de Fisher

Outra estatística importante no estudo da função de verossimilhança e que será útil na

construção de estimadores pontuais é a medida de informação de Fisher.

Considere uma única observação X com função de densidade de probabilidade f (x|θ).


A medida de informação esperada de Fisher de θ através de X é denida a partir de 2.36

como:

I(θ) = E[−U 0 (X|θ)] (2.39)

Mais especicamente, no caso de um vetor paramétrico θ = (θ1 , θ2 ), dene-se a matriz

de informação esperada de Fisher de θ através de X como

−U 0 (X|θ1 )
−U 0 (X|θ1 ; θ2 )
 

I(α; β) = E   (2.40)
−U 0 (X|θ2 ; θ1 ) −U 0 (X|θ2 )

onde

∂l(θ1 ; θ2 |x) ∂l(θ1 ; θ2 |x)


U (X|θ1 ; θ2 ) = = = U (X|θ2 ; θ1 ).
∂θ1 ∂θ2 ∂θ2 ∂θ1

Segundo Ehlers e Justiniano, o conceito de informação apresentado em 2.40 se associa

a uma espécie de curvatura média da função de verossimilhança no sentido de que quanto

maior a curvatura mais precisa é a informação contida na verossimilhança, ou equivalente-

mente, maior o valor dos elementos de I(θ1 ; θ2 ).


Em geral espera-se que a curvatura seja negativa e por isso seu valor é tomado com sinal

trocado. Além disso, observa-se também que a esperança matemática é tomada em relação

à distribuição amostral f (x|θ).


E mais, I(θ1 ; θ2 ) é considerado como uma medida de informação global, ou seja, não é

aplicável quando certas condições de regularidade não são satisfeitas, o que segundo Bolfa-

rine e Sandoval (2010), se dene resumidamente como E[U (X|θ)] = 0, pois o valor esperado
da função escore é sempre igual a 0.
Nestes casos, em que E[U (X|θ)] 6= 0, dene-se uma medida de informação local que

é obtida quando não se toma o valor esperado como denido em 2.40. Assim, dene-se a

medida de informação observada de Fisher, denotada por J(θ1 ; θ2 ), como

31
Conceitos Básicos

−U 0 (X|θ1 ) −U 0 (X|θ1 ; θ2 )
 

J(θ1 ; θ2 ) =   (2.41)
−U 0 (X|θ2 ; θ1 ) 0
−U (X|θ2 )

onde U (X|θ1 ; θ2 ) = U (X|θ2 ; θ1 ) como em 2.40, U (X|θ1 ) e U (X|θ2 ) como em 2.36.

Veremos posteriormente para o modelo em estudo a formalização necessária para a me-

dida de informação do vetor θ̂ = (α̂; β̂) e que, em decorrência de sua caracterização, dene-se
apenas a medida de informação apresentada em 2.41.

2.4.5 Limite Inferior e Desigualdade da Informação

A idéia de que a informação mede a precisão de uma amostra é empregada em diversos

problemas por mais complexos que sejam.

Sobre a medida de informação de Fisher apresentada anteriormente, é importante des-

tacar que esta estatística depende apenas da distribuição dos dados e não de qualquer valor

da amostra da variável aleatória X.


Além disso, a informação total contida nos dados é a soma das informações trazidas por

cada uma das observações, neste caso, se uma amostra aleatoria é independente e identica-

mente distribuída, temos por m que I(θ) = nI(θ), isto é, a informação contida em uma

amostra é a soma das informações de cada elemento da amostra.

Por isso, é importante denir um limite inferior para a variância de cada estimador θ̂
obtido no estudo, uma vez que, este limite permite dizer que a variância de qualquer esti-

mador é igual ou superior a este limite.

Seja então X1 , X2 , X3 , ..., Xn uma amostra aleatória Xf (x|θ), uma função de den-
com

sidade de probabilidade com função de verossimilhança dada por l(θ|X), onde θ ∈ Θ, com

Θ ∈ <. Além disso, seja T (θ|X) = t(X1 , X2 , X3 , ..., Xn ) um estimador não viciado de X .
Nestas condições, segundo Mood, Graybill e Boes (1974), xamos como condições de

regularidades as seguintes pressuposições:

∂l(θ|x)
i) Existe ∀ x e θ;
∂θ
Z Z Z Z
∂ ∂
ii) ... [l(θ|x)] dx1 ...dxn = ... [l(θ|x)] dx1 ...dxn
∂θ ∂θ
Z Z Z Z
∂ ∂
iii) ... [T (θ|x)l(θ|x)] dx1 ...dxn = ... [T (θ|x)l(θ|x)] dx1 ...dxn
∂θ ∂θ
∂ l(θ|x)
 2 
iv) 0 < E − < +∞
∂θ2

32
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

Logo, quando as condições de regularidades descritas acima são satisfeitas, denimos

como o Limite Inferior da variância dos estimadores não viciados de θ a estatística dada por:

LI(θ) = [nI(θ)]−1 (2.42)

Consequentemente, em relação aos estimadores não viciados de θ, a Desigualdade da

Informação de qualquer estimador θ̂ é obtido através da desigualdade

V ar(θ̂) ≥ [nI(θ)]−1 (2.43)

Note que estas duas estatísticas são denidas sobre a medida de informação global dos

dados, pois considera a informação esperada de Fisher, assim, tomando a medida de infor-

mação local, através da informação observada de Fisher, J(θ), temos similarmente que

LI(θ) = [nJ(θ)]−1 (2.44)

V ar(θ̂) ≥ [nJ(θ)]−1 (2.45)

são, respectivamente, o Limite Inferior da variância local e a Desigualdade da Informação

local para o estimador θ̂.


Para maiores informações, como os detalhes do rigor matemático para estes conceitos, é

sugestivo que o leitor consulte Mood, Graybill e Boes (1974) ou Bolfarine e Sandoval (2010).

2.4.6 O Intervalo de Conança Assintótico

Comumente, em qualquer problema de estimação é razoável armar que um estimador é

uma estatística cujo valor é assumido como uma estimativa.

Neste sentido, o problema de estimar o valor de α e β pode ser visto como o de selecionar
por inferência a particular distribuição geradora de α̂ e β̂ .

No entanto, a distribuição exata dos parâmetros α̂ e β̂ não pode ser obtida de forma

explícita, por isso, as propriedades dos intervalos de conança aproximados para os parâme-

tros α e β baseados na distribuição assintótica do estimador de máxima verossimilhança α̂


e β̂ podem ser aplicadas para se construir seus intervalos de conança.

Podemos então assumir que, segundo as teorias assintóticas válidas para o processo de

inferência estatística:

θ̂ ≈ N (0; [nI(θ)]−1 ) (2.46)

onde 0 = [0 0]t é a matriz coluna 2×1 de médias nula e I(θ) = I(α; β) é a matriz de

33
Conceitos Básicos

informação esperada de Fisher para α e β X.


através de uma amostra da variável aleatória

Pretendemos então obter os intervalos de conança aproximados para os parâmetros α e β

baseados na distribuição assintótica dos estimadores de máxima verossimilhança θ̂ = (α̂; β̂).

Daí, de acordo com 2.46, em consequência do Teorema Central do Limite resulta que

θ̂ − θ
Q(X ; θ) = p ≈ N (0; I) (2.47)
[nI(θ)]−1

é a quantidade pivotal para o parâmetro θ onde 0 = [0 0] é o vetor de médias nula e I é

uma matrix identidade de ordem 2 × 2.


Considerando então que X é uma única observação com fdp f (x|θ) e denida a medida

de informação esperada de Fisher, para os parâmetros de θ, como:

∂ L(θ|x)
 2 
I(θ) = E − (2.48)
∂θ2

onde

∂ 2 L(θ|x)
= U 0 (X|θ) = U 0 (X|α; β) (2.49)
∂θ2

e xado a partir daqui o vetor de parâmetros θ = (α; β), temos consequentemente, uma
matriz esperada de Fisher dada por I(α; β), em que α e β são dois parâmetros desconhecidos.

Então substituindo α e β por seus respectivos estimadores de máxima verossimilhança,

obtém-se uma matriz esperada de Fischer das estimativas, I(α̂; β̂), denida por:

−U 0 (X|α̂) −U 0 (X|α̂; β̂)


 

I(α̂; β̂) = E   (2.50)


−U 0 (X|β̂; α̂) 0
−U (X|β̂)

e, equivalentemente, uma matriz observada de Fischer das estimativas, J(α̂; β̂), denida

como:

−U 0 (X|α̂) −U 0 (X|α̂; β̂)


 

J(α̂; β̂) =   (2.51)


−U 0 (X|β̂; α̂) 0
−U (X|β̂)

O detalhe do conceito aqui aplicado é que, em geral, a distribuição assintótica do esti-

mador de máxima verossimilhança apresentada em 2.46 fornece a variância [nI(θ)]−1 , que

substituída pelo seu estimador [nI(θ̂)]−1 apresenta as variâncias estimadas para os estimado-

res de α e β , ou seja, no caso esperado e, equivalentemente, no caso observado com [nJ(θ̂)]−1 ,


surge um dos mais importantes resultados da inferência estatística para a estimação de pa-

râmetros de um sistema, a matriz de variâncias e covariâncias destes parâmetros.

No caso esperado e observado são dadas, respectivamente, como:

34
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

V ˆar(α̂) ˆ
 
Corr(α̂; β̂)
[nI(α̂; β̂)]−1 =   (2.52)
ˆ β̂; α̂)
Corr( V ˆar(β̂)

V ˆar(α̂) ˆ
 
Corr(α̂; β̂)
[nJ(α̂; β̂)]−1 =  (2.53)
ˆ β̂; α̂)
Corr( V ˆar(β̂)

Nesta condição, da quantidade pivotal apresentada em 2.47, resulta facilmente para θ̂ =


(α̂; β̂) que

" #
θ̂ − θ
P [|Q(X ; θ)| < z δ ] = P −z δ < p < zδ =
2 2
[nJ(θ)]−1 2
(2.54)
h i
= P θ̂ − z δ [nJ(θ)] < θ < θ̂ + z δ [nJ(θ)] ∼
p p
2
=1−δ
2

Portanto, de 2.52 e 2.53, segue que um intervalo de 100(1 − δ)% de conança para os

verdadeiros parâmetros α e β são obtidos respectivamente como:

q q
IC[α; 100(1 − δ)%] = [α̂ − z δ V ar(α̂); α̂ + z δ V ˆar(α̂)]
ˆ (2.55)
2 2
q q
IC[β; 100(1 − δ)%] = [β̂ − z δ V ar(β̂); β̂ + z δ V ˆar(β̂)]
ˆ (2.56)
2 2

nos quais zδ é o percentil tabelado pela distribuição Normal Padrão.


2
Veremos na seção 3.2.2 que, embora exista, não existe uma solução exata para a integral

do valor esperado do modelo em estudo. Em virtude disso, é empregado o resultado 2.53

para a obtenção de 2.54.

2.5 Técnicas Não Paramétricas de Estimação


Na literatura estatística, nos textos mais básicos que se tem contato, uma análise descri-

tiva visa, sobretudo, determinar medidas de tendência central e variabilidade para um rol de

dados em estudo. Em uma análise estatística envolvendo dados de sobrevivência, por mais

delicado e complexo que o estudo possa se apresentar, em geral, os resultados e respostas

de interesse são obtidos a partir do conjunto de dados de sobrevivência, cujo procedimento

inicial é a tomada de uma análise estatística que se baseia, fundamentalmente, em uma

descrição dos dados.

Neste sentido, em se tratando de análise de sobrevivência, a presença de dados de sobre-

vivência observados com censura é, sobretudo, um problema para a aplicação das técnicas

35
Conceitos Básicos

usuais de análise descritiva, contudo, a obtenção da média, desvio-padrão, os grácos como

box-plot e o histograma, este último, item indispensável para se descrever a distribuição dos

tempos de falha, são prejudicados, senão impraticáveis.

No caso de uma amostra de dados de sobrevivência não conter censura, a construção

do histograma consiste em partições do eixo do tempo em intervalos de tempos [t; t + ∆t ),


de modo que o número de falhas em cada intervalo [t; t + ∆t ) é observado, contudo, se os

dados são censurados a construção do histograma é impossível pois não se pode observar a

frequência exata de falhas em cada intervalo.

Nesta situação, segundo Colosimo e Giolo (2006), o procedimento usual para o tratamento

de dados de sobrevivência é determinar uma estimativa para a função de sobrevivência de

maneira que as estatísticas de interesse, geralmente o tempo médio e mediano, bem como

alguns percentis e frações de falhas em tempos xos, possam ser estimados.

A estimação da função de sobrevivência é um tópico que tem recebido demasiada aten-

ção, quer no campo estatístico como em literatura biomédicas, devido ao fato de não assumir

nenhuma suposição sobre a distribuição de probabilidade do tempo de vida, razão pela qual

é denominado como Estimador Não-Paramétrico.

Na literatura estatística encontra-se uma estimativa para a função de sobrevivência e

de taxa de falha como sendo a variação de uma função acumulada, contudo, para amostras

de tamanho pequeno esta estimativa não é viável e, em geral, estudiosos e pesquisadores

têm adotado métodos alternativos, como os Estimadores Não Markovianos, os Estimadores

Aalen-Johansen, o Estimador Atuarial (Tabela de Vida), o Estimador Nelson-Aalen, Kaplan-

Meier, entre outros.

Este último, proposto por Kaplan e Meier em 1958, foi desde então considerado como um

método padrão para a obtenção de sínteses estatísticas para dados censurados em Análise

de Sobrevivência (Machado, 2011).

No entanto, é possível que métodos paramétricos sejam adotados para realizar a análise

e descrição dos dados de tempo de vida e também estimar uma função de sobrevivência, tais

métodos consistem na adoção de uma distribuição de probabilidades, o que é comumente

descrito em diversos livros e trabalhos acadêmicos em geral.

Porém, é necessário obter um modelo paramétrico para isso e este modelo é, de certa

forma, também estimado, seja através de seus parâmetros ou através da classe ou família a

qual pertence.

Segundo Colosimo e Giolo (2006), o uso do modelo paramétrico exige, sobretudo, satisfa-

zer algumas evidências provenientes de testes passados para se vericar se um determinado

modelo é ajustável aos dados disponíveis e a solução disponível é recorrer a situações em-

píricas, como o teste estatístico de Kolmogorov-Smirnov ou a métodos grácos como o do

Tempo Total em Teste.

Tais métodos são também técnicas de estimação, porém, estimam modelos paramétricos

que serão ajustados aos dados para fornecer as estimativas pertinentes a análise, e assim

como o estimador de Kaplan-Meier serão abordados a seguir.

36
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

2.5.1 O Estimador de Kaplan-Meier

Seja D uma variável aleatória discreta que representa o número de observações que não

falham até um tempo t em um dado experimento e seja (d1 , d2 , d3 , ..., dk ) uma amostra

aleatória deD com espaço amostral ΩD .


Tomando S(ti ) a função de sobrevivência no tempo ti ∈ T , onde ni é o número de

unidades experimentais sob risco em ti , tem-se ∀ti ∈ T tal que:

k
Y
S(t) = (1 − qj ) (2.57)
j=1

onde qj é a probabilidade de falha no intervalo [t( i − 1); ti ) dado que a falha não ocorreu,

antes ou no tempo, t( i − 1), ou seja, qj é uma probabilidade condicional e denida como:

qj = P (ti−1 ≤ T < ti |T ≥ ti−1 ) (2.58)

O Estimador de Kaplan-Meier (EsKM) se reduz a estimar qj dado empiricamente, em

termos de dj e nj como:

dj
qj = (2.59)
nj

Note que a probabilidade 5 é uma adaptação da função de sobrevivência empírica e

baseia-se em observações obtidas do experimento em questão.

Convêm destacar que neste caso S(t) é uma função de distribuição do tipo discreto as-

sociado a uma particular amostra, cuja representação gráca se assemelha a uma escada e é

descontínua à esquerda à medida que t aumenta, ∀ti ∈ T .


O Estimador de Kaplan-Meier proposto para estimar a função de sobrevivência é uma

adaptação da função de sobrevivência empírica 5 com o estimador 2.59 e na presença de

empates. Este estimador considera tantos intervalos de tempo quantos forem o número de

falhas distintas.

Suponha uma amostra de n unidades experimentais da população de um dado experi-

mento, onde se considera que:

• o tempo de sobrevivência dessas unidades, T , é independente e censurado no processo;

• os tempos dos eventos, T, são obtidos de modo que t1 < t2 < t3 < ... < tk ;

• di e ni sejam, respectivamente, o número de unidades experimentais que falham no

tempo ti e o número de unidades experimentais sob risco no tempo imediatamente

37
Conceitos Básicos

anterior a ti ;

Então, o EsKM é denido como a probabilidade conjunta de sobrevivência condicional

nos tempos ti < t de P (T ≥ ti |T ≥ ti−1 ) (Machado, 2011), ou seja,

k
Y
ŜEKM (t) = P (T ≥ ti |T ≥ ti−1 ) (2.60)
i=1,ti <t

De acordo com Colosimo e Giolo (2006, p.38), Kaplan e Meier justicam que a validade

do estimador ŜEKM (ti ) é atribuída devido ao fato de este estimador ser um estimador de

máxima verossimilhança para S(t) generalizado pelo conceito usual utilizado em modelos

paramétricos, onde se observa tantos parâmetros quanto falhas distintas.

Teorema 2.5 (Estimador de Kaplan-Meier) Sejam di , o número de observações de fa-


lhas e ci o número de observações censuradas, ambos num intervalo de tempo [ti−1 ; ti ). De-
nindo a probabilidade conjunta de falha em [ti−1 ; ti ) como [S(ti−1 ) − S(ti )]di e a probabilidade
conjunta de uma unidade experimental sobreviver em [ti−1 ; ti ) como [S(ti )]ci , de modo a de-
nir

SEKM (t) = [S(ti−1 ) − S(ti )]di [S(ti )]ci (2.61)

teremos que, para os k tempos distintos e ordenados de falha, ou seja, ∀ti ∈ T de modo que
t1 < t2 < t3 < ... < tk , o EMV (estimador de máxima verossimilhança) de S(t) é dado por

k  
Y di
ŜEKM (t) = 1− (2.62)
i=1,ti <t
ni

onde ŜEKM (t) é a expressão geral do EsKM.

A vericação da expressão 2.62 é sugerida, resumidamente, por Rodríguez (2001, p. 03-

04) e Colosimo e Giolo (2006, p.37-38). No Apêndice A (seção 5) deste trabalho é mostrada

em detalhes!

Convém destacar que as principais propriedades do EsKM são apontadas como sendo:

1. para grandes amostras é um estimador não-viesado;

2. é fracamente consistente;

3. converge assintóticamente para um processo gaussiano;

38
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

Como ocorre para os demais estimadores estatísticos, o EsKM se sujeita a variações que

são, necessariamente, descritas em termos de estimação intervalares, no entanto, para a cons-

trução de intervalos de conança e testes de hipóteses para S(t), uma avaliação da precisão

do EsKM deve ser efetuada no processo.

Neste contexto, uma expressão para a variância assintótica do EsKM é sugerida como

sendo:

k
X di
V ˆar[ŜEKM (t)] = [ŜEKM (ti )]2 (2.63)
n (ni − di )
i=1,t <t i
i

Esta variância estimada é conhecida como Equação de Greenwood e sua dedução é su-

gerida por Kalbeisch e Prentice (1980) e pode ser melhor abordada por Rodríguez (2005,

p. 04-05).

Assim, como para um t xo, ŜEKM (t) tem uma distribuição assintótica gaussiana (Nor-

mal), segue que um intervalo de conança de aproximadamente 100(1 − δ)% para S(t) é

proposto como:

q
ŜEKM (t) ± z δ V ˆar[ŜEKM (t)] (2.64)
2

onde δ denota o δ -ésimo percentil da Distribuição Gaussiana.

Para valores extremos de t o intervalo de conança apresentado em 2.64 pode apresentar


limite inferior negativo ou limite superior maior que 1, quando isso ocorre uma correção que

se deve aplicar é a utilização de uma transformação U (t) para S(t).


Kalbeisch e Prentice (1980) sugerem uma variância corrigida por U (t) = log[Λ̂(t)], onde
se observa que Λ̂(t) = −log[ŜKM (t)] é uma estimativa para a função de risco acumulada,

dada como na expressão 2.8, de modo que

k
−1 X di
V ˆar[U (t)] = (2.65)
Λ̂(t) i=1,t <t ni (ni − di )
i

e o intervalo corrigido de aproximadamente


q 100(1 − α)% de conança para S(t) é dado com

θ = z δ V ˆar[U (t)] como:


2

[ŜEKM (t)]exp(±θ) (2.66)

2.5.2 O Teste Não Paramétrico de Kolmogorov-Smirnov

Segundo Campus (1983), um teste não paramétrico é entendido como aquele cujo modelo

não especica condições sobre os parâmetros da população da qual a amostra foi retirada e

39
Conceitos Básicos

seu emprego, desde que respeitadas certas pressuposições, constitui uma vasta e importan-

tíssima gama de ferramentas no trabalho estatístico.

Dentre todas as possíveis razões para o uso de um teste não paramétrico, Campus (1983)

destaca a utilidade de testes não paramétrico em casos em que é difícil estabelecer uma

escala de valores quantitativos para os dados em análise. Em geral, o analista pode apenas

armar que um dado especíco tem mais ou menos, melhor ou pior e maior ou menor da

característica que está sendo analisada, sem poder analisar ou quanticar com precisão as

diferenças, mesmo que estes se encontrem em uma certa ordem de classicação.

Neste sentido, quando os dados observados se posicionam de forma dispersa mas ad-

mitem um agrupamento ordinal, mais especicamente em ordem crescente, ou seja, não é

possivel assumir uma distinção de tratamento quando comparado a outro grupo, verica-se

a concordância, ou não, entre mais de uma distribuição acumulada.

Exige-se assim um teste não paramétrico para a comparação desta distribuições acumu-

ladas, e dessa necessidade surge o teste de Kolmogorov-Smirnov para a adaptação de uma

especíca e bem conhecida distribuição F (x) aos dados provenientes de uma distribuição

desconhecida F0 (x), Campus (1983).

Em geral, como os problemas encontrados em análise de dados são tratados com a hipó-

tese estatística de que os dados são provenientes de uma população correspondente a uma

dada distribuição de probabilidade, o conhecimento e obtenção da expressão analítica desta

distribuição torna-se de importância indispensável ao objetivo das análises.

No entanto, o teste de Kolmogorov-Smirnov é tomado para avaliar o nível de concordân-

cia da distribuição de probabilidade do conjunto de valores em análise (valores amostrais ou

observados) com uma especíca distribuição teórica, ou seja, no estudo que considera um

conjunto de dados de uma variável aleatória X ∼ F0 (x), o teste avalia as hipóteses:

(
H0 : Os dados seguem uma distribuição F0 (x);
HA : Os dados não seguem a distribuição F0 (x);

A metodologia de aplicação do teste consiste em assumir as funções F (x), F0 (x) e ϕ(x)


tais que:

F (x) = proporção de valores esperados ≤ X


F0 (x) = verdadeira função de distribuição de x (desconhecida)

ϕ(x) = proporção de valores observados ≤ X

onde ϕ(x) é uma distribuição empírica de distribuição e um estimador de F0 (x).


Assim, com os pontos críticos d e d1 tabelados pela tabela de Kolmogorov, dene-se as

estatísticas de teste

D = SupX [F (x) − ϕ(x)]

40
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

D+ = SupX [F (x) − ϕ(x)]


D− = SupX [ϕ(x) − F (x)]
para executar, ao nível δ de signicância, os testes

(
H0 : F = F0
HA : F 6= F0

em que H0 é rejeitado se D ≥ d.
(
H0 : F = F0
HA : F > F0

em que H0 é rejeitado se D + ≥ d1 .

(
H0 : F = F0
HA : F < F0

em que H0 é rejeitado se D − ≥ d1 .
Como o objetivo do teste é vericar se o conjunto de dados segue uma distribuição

de probabilidade com distribuição acumulada F0 (x), busca-se a aceitação da hipótese de

nulidade de modo que qualquer um dos testes apresentem o mesmo resultado sob H0 .

2.5.3 Análise Gráca do Tempo Total Em Teste (TTT-Plot)

Indispensável para a detecção de uma classe de modelos adequada para a análise de um

dado conjunto dados, o método gráco conhecido como Tempo Total Em Teste (Gráco

TTT-Plot) é comumente empregado em contextos onde existem informações qualitativas

sobre a curva de risco em estudo.

Os possíveis grácos gerados são apresentados pela gura a seguir.

Segundo Ramos (1990), este conceito foi introduzido por Epstein e Sobel em 1953 e

explorado de forma signicativa por Barlow e Campo em 1975 onde, através de diferentes

generalizações do conceito original proposto por Epstein e Sobel, é primordial como a base

para a caracterização de classes de distribuição de tempo de vida de fenômenos físicos.

Segundo Mudholkar, Srivastava e Kollia, 1996, no caso discreto, o gráco do TTT-Plot

é gerado pela expressão

r
X
(n − r)Tr + Ti
r
i=1
G = r (2.67)
n X
Ti
i=1

41
Conceitos Básicos

Figura 2.8: Imagem ilustrativa dos principais grácos TTT-Plot.

em que r = 1, 2, 3, ..., n e Ti , para i = 1, 2, 3, ..., n, são as estatísticas de ordem da mostra

em estudo.

Em geral, como se observa na gura 2.8, a reta diagonal (curva1) como resultado do

gráco TTT-plot indica que a função de risco é constante, se a curva resultante for côncava

(curva2) tem-se que a função de risco é crescente e no caso de uma curva convexa (curva3)

pode-se assumir uma função de risco decrescente.

No caso de resultados mistos, como curvas côncava - convexa (curva4) e convexa-côncava

(curva5), tem-se a indicação de função de risco unimodal e em forma de banheira, respecti-

vamente.

No caso contínuo, segundo Ramos (1990), Barlow, et. al. propuseram em 1972 o processo
de transformação do TTT-Plot para uma dada função de distribuição
r F associada a um
−1
tempo de vida X e indicada por Hn , como
n
r Z Xr:n
Hn−1 = [1 − Fu (u)]du (2.68)
n 0

em que 1 ≤ r ≤ n, 0 = X0:n , X1:n , X2:n , X3:n , ..., Xn:n são estatísticas de ordem relativas a
uma amostra de tamanho n da distribuição F e Fn (u) é a distribuição da amostra denida,

empiricamente, como:



 0, se u < X1:n ;
i

Fn (u) = , se X1:n ≤ u < X1+1:n para 1 ≤ i ≤ n;
 n


1, se u ≥ Xn:n ;

42
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

Note que o caso contínuo mescla um processo discreto com o contínuo, porém, a grande

diculdade neste caso é o critério de decisão da distribuição F, o que torna o caso discreto

a expressão mais empregada pois não utiliza a distribuição dos dados.

No entanto, apesar do método gráco TTT-Plot ser constantemente aplicado na verica-

ção do modelo a ser adotado como gerador do conjunto de dados, este método pode não ser

tão preciso quanto um teste de hipótese estatístico como o teste de Kolmogorov-Smirnov.

Contudo, Ramos (1990) esclarece que a comparação do gráco TTT com as várias classes

de distribuições tem por base as proposições construídas por Barlow e Proschan (1966).

Tais proposições possibilitam, estocasticamente, estas comparações sugerindo que, se o

gráco formado pelos dados da amostra se comportam como uma das cinco curvas apresenta-

das na gura 2.8. Tal gráco domina, estocasticamente, o gráco correspondente baseado no

tamanho da amostra, ou seja, particularmente, se o gráco de uma dada amostra é plotado

completamente acima da reta diagonal, temos evidências de que é possível rejeitar qualquer

outro modelo cujo gráco não se comporte de forma côncava.

Para maiores detalhes sobre o método gráco TTT-Plot, sugere-se consultar o trabalho

A Utilização da Transformação do Tempo Total de Teste na Análise de Dados Censurado

de José Souza Ramos (1990).

2.5.4 Métodos de Simulação Monte Carlo

Embora as teorias estatísticas sejam ecientes, a validade de seus resultados tornam-se

tipicamente incertos sob a violação de qualquer um de seus pressupostos teóricos, principal-

mente o de amostras sucientemente grandes.

Em geral, quando as pressuposições de uma teoria estatística são atendidas pelos dados

disponíveis, os dados fornecem estimativas válidas e ecientes através da amostragem, além

de características para a distribuição à posteriori, como a obtenção de estimativas de inte-

resse.

Por outro lado, quando os dados violam as pressuposições, a validade das estimativas

sobre certas amostras são simplesmente desprezadas e a veracidade das características de

sua distribuição à posteriori tornam-se comprometidas e incertas, em hipótese alguma con-

áveis.

Violações de pressupostos ocorrem comumente em situações em que a amostra disponível

é pequena, ou insucientemente grande.

No entanto, em muitas pesquisas nesta condição, é difícil, ou mesmo impossível, encon-

trar uma distribuição de importância que seja simultaneamente uma boa aproximação para

a posteriori e fácil de ser re-amostrada.

Neste sentido, as analises simuladas através das técnicas de re-amostragem de Monte

Carlo tornam-se muito útil para o pesquisador, porque a abordagem de Monte Carlo baseia-

se, sobretudo, na estimativa empírica da distribuição da amostragem disponível, em vez de

43
Conceitos Básicos

expectativas teóricas e a validação de pressupostos.

A princípio, a ideia é obter uma amostra da distribuição à posteriori e calcular suas

estimativas amostrais através métodos computacionais iterativos baseados em cadeias mar-

kovianas.

Assim, através de um grande número de repetições da técnica, os resultados empíricos

gerados tornam-se dependentes do processo e abordam, assintoticamente, os resultados teó-

ricos esperados.

Gamerman (1997) aborda a aplicação no contexto de re-amostrar dados para uma dis-

tribuição à posteriori π(θ|x), a função de interesse denida no estado atual θ como

f (θ)
π(θ|x) = Z (2.69)
f (θ)dθ

sem a necessidade de primitivar a integral apresentada.

A condição inicial é a posse de uma amostra, supostamente gerada de uma distribuição à

priori p(θ), também chamada de função de referência ou proposta, e de que a função π(θ|x)
deve ser positiva e dependente do estado atual de uma cadeia markoviana homogênea, ir-

redutível e periódica, isto é, dada a amostra xt = (X1 , X2 , X3 , ..., Xt−1 ), a observação Xt


depende apenas de Xt−1 e é tal que Xt ∼ P (Xt ∈ A|Xt−1 ) = p(θt |Xt−1 ), onde θt representa

o estado atual da cadeia ∀ subconjunto A.

Nesta condição, é possível gerar qualquer amostra de π(θ|x), tendo apenas o conheci-

mento da forma funcional de f (θ) e uma amostra de p(θt |Xt−1 ).

Outros casos consistem de que para muitos modelos, os quais não admitem um trata-

mento analítico, é requerido a aplicação numérica para a aproximação de sua integral que,

geralmente, é denida em alta dimensão e, consequentemente, com um custo computacional

custoso em comparação a procedimentos comuns.

Neste sentido, o uso de técnicas de re-amostragem aleatória, comumente, exige o uso da

simulação computacional baseada em um modelo estatístico e, portanto, recai no problema

de integração numérica para obter os resultados esperados ou as soluções aproximadas para

problemas matemáticos ou físicos. Dentre todas as técnicas até então desenvolvidas, a mais

implementada e de melhor desempenho são as relacionadas ou que se envolvem no processo

de Monte Carlo.

Especialmente, quando a intenção é obter uma gama de valores, onde cada um dos quais

tem uma probabilidade calculada, o procedimento iterativo é ainda implementado seguindo

as condições de uma cadeia markoviana, e então, a técnica MCMC (Monte Carlo via Ca-

deias de Markov) surge como um algoritmo que permite a extração de amostras de uma

distribuição de probabilidade à posteriori, pré denida para os seus parâmetros, através da

especicação de sua função de verossimilhança.

Para uma maior familiarização da abordagem do procedimento MCMC adotado para

os estudos propostos neste trabalho, sujere-se consultar Fan, et al. (2002) ou Gamerman

44
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

(1997).

O Amostrador Metropolis-Hasting

Para os casos em que a distribuição à priori p(θ) é conhecida, uma derivação formal do

MCMC,o algoritmo Metropolis-Hasting, é proposto como o amostrador de dados.

A ideia é simular um passeio aleatório no espaço θ de modo a obter uma convergência

para a distribuição à posteriori baseada em um mecanismo de aceitação ou rejeição, conhe-

cido como mecanismo de correção. Este mecanismo de correção garante que a convergência

da cadeia para a distribuição de equilibrio, que neste caso é a distribuição a posteriori π(θ|x).
Para descrever este algoritmo, consideremos que a distribuição de interesse seja a distri-

buição à posteriori π(θ|x) e que a distribuição à priori seja p(θ|Xt−1 ).


Seja ainda θt o valor que representa o estado atual e é tal que a distribuição a posteriori
é denida por π(θt |xt ) e que um valor θt+1 é gerado por p(θt |Xt−1 ). Denindo o mecanismo

de correção atual como

 
π(θt+1 |xt )p(θt |θt+1 )
k(θt ; θt+1 ) = min 1; (2.70)
π(θt |xt )p(θt+1 |θt )

Em termos práticos, o algoritmo de Metropolis-Hastings é descrito pela iteração nos se-

guintes passos:

1. Iniciar o contador de iterações t=0 e especique um valor inicial θ(t) ;

2. Gerar o novo valor θt+1 da distribuição p(θ|Xt−1 ), isto é, p(θ|Xt−1 ) = p(θt+1 |Xt−1 );

3. Calcular a probabilidade de aceitação k(θt ; θt+1 ) e gerar u ∼ U (0, 1);

4. Se:

(
u ≤ k(θt ; θt+1 ), aceitar θt+1 e fazer θ(t+1) = θt+1
(t+1)
caso contrário, rejeitar θt+1 e fazer θ = θt

5. Incremente o contador de t=t+1 e volte ao passo 2.

O processo é repetido até que a convergência seja atingida.

O algoritmo de Metropolis-Hastings é o mais geral dentre todos os métodos de re-

amostragens apresentados na literatura estatística e pode ser implementado para qualquer

distribuição condicional a posteriori e com algumas propostas de critérios de aceitação, sendo

as de maiores destaques a proposta de Cadeias Simétricas e a de Cadeias Independentes que

é adotada neste trabalho, como descrita em 2.70.

45
Conceitos Básicos

O Amostrador de Gibbs

O amostrador de Gibbs por sua vez, é também um algoritmo derivado da técnica MCMC,

porém, mais popular devido à sua simplicidade computacional.

A diferença entre estes dois mecanismos de amostragem é que este não exige um critério

de aceitação ou rejeição, embora seja um caso particular do Metropolis-Hastings, pois nas

iterações deste amostrador a cadeia sempre se moverá para um novo valor, razão pela qual,

o mecanismo de correção é descartado.

Ehlers (2011) arma que as transições entre os estados da cadeia markoviana em pro-

cesso acontecem de acordo com distribuições condicionais completas, que são baseadas na

distribuição à posteriori π(θ|x), porém, são condicionadas ao componente Θ−i , um vetor

com d−1 componentes, e completas no sentido em que cada um dos componentes θi é

distribuido condicionalmente através de todos os demais.

Então, seja Θ−i = (θ1 , θ2 , ..., θi−1 , θi+1 , ..., θd ) o vetor com as d − 1 componentes θi . A
distribuição condicional completa θi de componentes θi dado o vetor Θ−i , é denida pela

expressão dada por

π(θi )
π(θi |Θ−i ) = Z (2.71)
π(θi )dθi

e o algoritmo de Gibbis para o amostrador de origem na amostra x = (X1 , X2 , X3 , ..., Xd ),


tal que x = Θ(0) , é descrito pela iteração nos seguintes passos:

1. Iniciar o contador de iterações t = 0;


(0) (0) (0) (0) (0) (0)
2. Especicar os valores iniciais Θ−i = (θ1 , θ2 , ..., θi−1 , θi+1 , ..., θd );

3. Obter o novo vetor Θ(t) a partir de Θ(t−1) através da sequência de gerações dos valores
(t)
θi ∼ π(θi |Θ−i ), isto é

(t) (t−1) (t−1) (t−1) (t−1) (t−1)


θ1 ∼ π(θ1 |θ2 , θ3 , ..., θi−1 , θi+1 , ..., θd )
(t) (t−1) (t−1) (t−1) (t−1) (t−1)
θ2 ∼ π(θ2 |θ1 , θ3 , ..., θi−1 , θi+1 , ..., θd )
(t) (t−1) (t−1) (t−1) (t−1) (t−1)
θ3 ∼ π(θ3 |θ1 , θ2 , ..., θi−1 , θi+1 , ..., θd )
..
.
(t) (t−1) (t−1) (t−1) (t−1) (t−1)
θd ∼ π(θd |θ1 , θ2 , ..., θi−1 , θi+1 , ..., θd−1 )

4. Incrementar o contador de t = t+1 e retornar ao passo 2 até obter convergência no

processo.

O processo é repetido até que a convergência seja atingida.

46
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

O Critério de Convergência

Ehlers (2011) chama a atenção de que a vericação da convergência destes métodos é

de responsabilidade do pesquisador e ressalta ao cuidado com a autocorrelação amostral,

sugerindo uma analogia com a análise de correlação efetuada com a da metodologia de séries

temporais.

O autor ainda arma que em uma cadeia de Markov, espera-se que os valores gerados

sejam correlacionados ao longo das iterações. Neste sentido nos remetemos ao cuidado com

a autocorrelação dos dados amostrados e ao processo de iterações.

Comumente a análise de convergência do método MCMC é realizada preliminarmente

através de diagnósticos grácos, via gráco das iterações, autocorrelação e densidade Kernel

à posteriori, mas a adoção deste tipo de diagnóstico é viável para os casos de aplicações em

que um número muito baixo de cadeias markovianas são executas.

Em experimentos em que um número elevado de cadeias markovianas são necessárias,

diga-se 100, 500 ou 1000 cadeias por exemplo, a adoção de diagnósticos grácos são com-

pletamente inviáveis, pois para cada cadeia processada existirá um gráco de iterações,

autocorrelação e densidade à posteriori.

Para estes casos o diagnóstico viável é realizado através de medidas descritivas para os

valores simulados no processo, tais como o Tamanho Amostral Efetivo, o Tempo de Auto-

correlação e a Eciência da cadeia markoviana, pelo menos.

Uma vez congurado as condições de execução do método MCMC, diga-se pelo número

de cadeias iteradas, descarte e desbaste no processo, o Tamanho Amostral Efetivo e a E-

ciência da cadeia markoviana são decorrentes do Tempo de Autocorrelação, uma estimativa

de Densidade Espectral em Frequência Zero proposta por Heidelberger & Welch (1981).

A relevância desta estimativa é atribuída pela obtenção da medida ESS (Eetive Sample

Size), o Tamanho Amostral Efetivo, recomendado por Radford Neal no painel de discussão

de Kass et al. (1998).

ESS é uma função univariada que é frequentemente aplicada a cada distribuição à poste-

riori gerada no processo MCMC e usada para estimar o tamanho de amostras que é reduzido

em decorrência da autocorrelação gerada no processo. No entanto, ESS é uma medida de

quão bem cada cadeia iterada convergiu.

Sobretudo, uma discussão muito ampla se realiza em torno de testes estatísticos como

diagnóstico de convergência da cadeia. Testes como Gelman-Rubin, Geweke, Raftery-Lewis

e Heidelberger-Welch são os mais indicados para constatar a convergência de uma cadeia

marcoviana. No entanto, a doção de qualquer um destes testes remete o analista ao mesmo

problema de diagnósticos grácos pois, embora sejam estatisticamente ecientes sobre a de-

tecção, será necessário também avaliar cada uma das cadeias markovianas executadas.

Enm, a adoção do diagnóstico via medidas de Tamanho Amostral Efetivo, Tempo de

Autocorrelação e a Eciência é a mais prática dentre os grácos e testes estatísticos, uma

vez que é possível tomar, para cada uma das cadeias executadas, cada uma destas medidas

47
Conceitos Básicos

como uma amostra especíca da cadeia e calcular uma estatística que resumirá todos os

processos executados fornecendo uma única medida para avaliar o estado de equilíbrio para

a qual convergiu a cedeia.

Detalhes mais especícos sobre as medidas estatísticas para o diagnóstico de convergên-

cia serão apresentados na seção 4.2.4 e sobre os amostradores abordados nesta seção e outros

algoritmos baseados na técnica MCMC podem ser obtidos em Sorensen e Gianola (2002),

Gamerman (1997) e Robert e Casella (1999).

2.6 A Abordagem Computacional Para o Estudo


2.6.1 Softwares Considerados

O desenvolvimento da abordagem computacional do estudo proposto será realizado no

SAS Studio
software estatístico
R , para a realização da inferência, com o auxilio do software
R para a manipulação dos dados.
M icrosof t Excel
A planilha Excel que, muito embora não inuenciará nos resultados do estudo proposto, é

indispensável para hospedar, organizar e visualizar os dados das análises que serão realizadas

no software
R.
SAS Studio
O software SAS Studio
R,
por sua vez, fornece as ferramentas que desenvolverão e

executarão as análises estatísticas dos dados, plotarão os grácos representativos, efetuarão

os cálculos necessários, bem como as simulações pertinentes a inferência pretendida.

Em particular, no software estatístico serão utilizados os passos DATA e os procedimentos

FORMAT, FREQ, IML, MCMC, MEANS, NLMIXED, SGPLOT e SQL.

48
CAPÍTULO 3

PROPRIEDADES DA DISTRIBUIÇÃO PROPOSTA

3.1 A Distribuição Biparamétrica de Chen


3.1.1 Origem e Denições Básicas

Proposta por Z. Chen, Chen (2000), esta distribuição considera dois parâmetros para

descrever a função de sobrevivência e estimar a vida útil de um evento em análise.

De acordo com o histórico de distribuições de probabilidades existentes na literatura, a

distribuição Inversa de Chen é uma distribuição recentemente descoberta, e em comparação

com outros modelos paramétricos, apresenta propriedades usuais indispensáveis no campo

da análise de sobrevivência e teoria de conabilidade.

Segundo Srivastava & Srivastava (2014), os pesquisadores observaram que a distribuição


do tempo de vida de diversos produtos eletro mecânicos apresentaram altas taxas de falhas

iniciais (defeito), com estabilidade de funcionamento, especialmente ao longo de seu ciclo de

vida, culminando em altas taxas de falhas devido ao envelhecimento e tempo de uso.

Tal comportamento ao longo do tempo indicou a representação gráca de uma curva

em forma de banheira, ou seja, a função taxa de falha para estes produtos apresentou uma

fase de decrescimento, seguida de uma fase de utilização satisfatória até atingir a fase de

crescimento, por isso, foi necessário a adoção de modelos que permitissem descrever dados

de sobrevivência com taxas de falhas em forma de banheira.

Contudo, muitos modelos paramétricos foram introduzidos para analisar os conjuntos de

dados reais gerados pelos produtos eletro mecânicos com taxas de insucesso com represen-

tação gráca em forma de banheira. Os modelos convexos e/ou côncavos já eram adotados

para estudar alguns produtos eletrônicos e mecânicos, bem como o tempo de vida dos seres

humanos na área de saúde.

No entanto, os pesquisadores se interessaram em distribuições com função de risco não

monótona, como funções em forma de banheira e funções de risco unimodal, com isso, no-

49
Propriedades da Distribuição Proposta

taram que as distribuições, com um ou dois parâmetros como as distribuições Weibull, as

de potência exponencial ou as próprias distribuições Exponenciadas-Weibull, tinham fortes

restrições sobre os dados, apesar de apresentarem as características monótona crescente, mo-

nótona decrescente, banheira ou taxa de falha unimodal, dependendo das diferentes gamas

de parâmetros.

Com o mesmo propósito, Chen (2000) propôs uma distribuição de probabilidade da vida

útil em dois parâmetros, com função de risco de forma convexa e côncava (forma de ba-

nheira), cuja função de distribuição acumulativa (fda) é dada por:

F (x|α; β) = 1 − exp{α[1 − exp(xβ )]} (3.1)

em que x é uma observação da variável aleatória X , α e β são os parâmetros da distribuição,

e tais que x > 0, α > 0 e β > 0.

Consequentemente, a função de distribuição de probabilidade (fdp) é dada por:

f (x|α; β) = αβxβ−1 exp{xβ + α[1 − exp(xβ )]} (3.2)

Teorema 3.1 Seja X uma variável aleatória com distribuição de Chen, ou seja, X ∼
Chen(α; β), tal que x > 0, α > 0 e β > 0 e com função de distribuição acumulada dada
como em 3.1. Então X tem função densidade de probabilidade dada como em 3.2 e é tal que
Z +∞
f (x|α; β)dx = 1 (3.3)
0

Demonstração: Com efeito! Note que o resultado 3.2 é decorrente da aplicação da regra

da cadeia em 3.1 como segue:

∂ ∂
f (x|α; β) = F (x|α; β) = (1 − exp{α[1 − exp(xβ )]}) =
∂x ∂x
= αβxβ−1 exp{xβ + α[1 − exp(xβ )]}

Consequentemente, como o núcleo de f (x|α, β) é uma função exponencial, resulta que

f (x|α, β) > 0, e além disso, reescrevendo 3.2 como

f (x|α; β) = αβxβ−1 exp(xβ )exp(α)exp[−αexp(xβ )] (3.4)

de modo que, ao tomar a mudança de variável u = αexp(xβ ) ⇒ αβxβ−1 exp(xβ )dx = du,
resulta que:

x −→ 0 ⇒ u −→ αexp(0) = α
(3.5)
x −→ +∞ ⇒ u −→ αexp(+∞) = +∞

50
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

Então, substituindo u, du e 3.5 na integral de Riemann de f (x|α, β) dada por 3.4, resulta
que:

Z +∞ Z +∞
f (x|α; β)dx = αβxβ−1 exp(xβ )exp(α)exp[−αexp(xβ )]dx =
0 0 +∞
Z +∞
exp(α) exp(α)
= exp(α)exp(−u)du = − = =1
exp(u) exp(α)

α
α

Sarhan e Smith (2011) abordam esta distribuição de forma mais rigorosa apresentando

os critérios da probabilidade máxima e obtendo as estimativas de Bayes para os dois parâ-

metros desconhecidos.

O trabalho assume, no caso bayesiano que os parâmetros desconhecidos possuem priores

Gama, que as formas explícitas dos estimadores de Bayes não podem ser obtidas e apre-

sentam as aproximações para estabelecer estimativas pontuais e intervalos de probabilidade

bayesiana para os parâmetros.

A relevância do trabalho é atribuída ao método de simulação de Monte Carlo que é

aplicada na comparação entre as estimativas de máxima verossimilhança e as estimativas

aproximadas de Bayes obtidas sob premissas prévias não informativas.

Khan e Sharma (2015) estabelecem as relações de recorrência para momentos de esta-

tísticas de ordens da distribuição de Chen. O resultado inclui como casos particulares a

recorrência de estatísticas de momentos de ordem, estatística de ordem sequencial, estatís-

ticas de ordem censuradas de tipo II, progressivo e os de ordem k. No artigo, através do uso

da relação de recorrência para momentos unitários, os autores propõem um resultado que

caracteriza a distribuição de Chen.

3.2 A Distribuição Biparamétrica Inversa de Chen


3.2.1 Denições Básicas

Da seção 3.1, segue mais especicamente que, seX tem uma distribuição de Chen com
parâmetros α e β , podemos denotar X ∼ Chen(α; β), e tomando a variável auxiliar Y
−1 −1
como descrita em 2.3.2, onde é denida por Y = X , fazendo a transformação X = Y ,

dizemos que Y tem uma distribuição Inversa de Chen com parâmetros α e β , ou seja,

Y ∼ Chen−1 (α; β) com fda dada por:

exp{α[1 − exp(y −β )]} (3.6)

para todo y , α, β > 0, cujo gráco é apresentado a seguir.

51
Propriedades da Distribuição Proposta

Figura 3.1: Gráco ilustrativo para a fda de Y ∼ Chen−1 (α; β) com diferentes parâmetros.

Teorema 3.2 Se X é uma variável aleatória tal que X ∼ Chen(α; β), onde x, α, β > 0
e com função de distribuição acumulada dada como em 3.1, tomando a variável aleatória
Y denida como Y = X −1 e fazendo a transformação X = Y −1 , então Y tem função de
densidade acumulada dada como em 3.7, isto é

F (y|α; β) = exp{α[1 − exp(y −β )]} (3.7)

Demonstração: De fato! Observe que:

    
1 1 1
F (y|α; β) = P (Y ≤ y) = P ≤y =P ≤X =1−P X < =
 X   y y
1
= 1 − 1 + exp α 1 − exp = exp{α[1 − exp(y −β )]}

Teorema 3.3 Se Y é uma variável aleatória com distribuição Inversa de Chen, ou seja,
Y ∼ Chen−1 (α; β), tal que y, α, β > 0 e com função de distribuição acumulada dada como
em 3.7, então Y tem função densidade de probabilidade dada por

f (y|α; β) = αβy −(β+1) exp{y −β + α[1 − exp(y −β )]} (3.8)

Demonstração: De fato! Em consequência da fda obtida e exibida em 3.7 sob a aplicação

da regra da cadeia segue que:

∂ ∂
f (y|α; β) = F (y|α; β) = exp{α[1 − exp(y −β )]} =
∂y ∂y

52
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

= −exp{α[1 − exp(y −β )]}αexp(y −β )(−β)y −(β+1) =


= αβy −(β+1) exp{y −β + α[1 − exp(y −β )]}

No artigo "Two Parameter Inverse Chen Distribution as Survival Model", Srivastava &

Srivastava (2015), os autores introduziram a distribuição Y ∼ Chen−1 (α; β) apresentando os


resultados para a aplicação do método de máxima verossimilhança utilizado para encontrar

o estimador de α e β, bem como apresenta as expressões obtidas.

Além disso, os autores também discutem os intervalos de conança assintóticos e os mo-

delos de sobrevivência, destacando apenas a função de sobrevivência e função taxa de falha.

No entanto, o trabalho não apresenta nenhuma vericação e nem sugerem uma caracte-

rização para o modelo Chen−1 (α; β).


Por isso, no presente trabalho nos propomos a obter uma caracterização razoável para

este modelo e estudar alguns estimadores para o trato da inferência estatística, abordados no

contexto clássico e com rigor matemático. Damos início ao proposto vericando que f (y|α; β)
é de fato uma distribuição de probabilidade.

Teorema 3.4 Se Y é uma variável aleatória Y ∼ Chen−1 (α; β) e com função de densidade
de probabilidade dada como em 3.8, então para todo y , α, β > 0, f (y|α; β) é tal que
Z +∞
f (y|α; β)dx = 1 (3.9)
0

Demonstração: Com efeito! Note que y, α, β > 0, e como o núcleo de f (y|α, β) é também
uma função exponencial, resulta que f (y|α, β) > 0. Daí, reescrevendo f (y|α, β) como

f (y|α; β) = αβy −(β+1) exp(y −β )exp(α)exp[−αexp(y −β )] (3.10)

de modo que tomando a mudança de variável u = −αexp(y −β ) ⇒ αβy −(β+1) exp(y −β )dy =
−du, resulta que:

y −→ 0 ⇒ u −→ −αexp(0) = −α
(3.11)
y −→ +∞ ⇒ u −→ −αexp(+∞) = −∞

Então, substituindo u, du e 3.11 na integral de Riemann de f (y|α, β), resulta que:

Z +∞ Z +∞
f (y|α; β)dy = αβy −(β+1) exp(x−β )exp(α)exp[−αexp(x−β )]dx =
0 0 −α
Z −∞ exp(α)
= − exp(α + u)du = exp(α)exp(u) = =1

−α exp(α)
−∞

O gráco da fdp de Y ∼ Chen−1 (α; β) para alguns parâmetros é dado por:

53
Propriedades da Distribuição Proposta

Figura 3.2: Gráco ilustrativo para a fdp de Y ∼ Chen−1 (α; β) com diferentes parâmetros.

3.2.2 Avaliação do r-ésimo Momento da Distribuição

Meyer (1965) considera que os parâmetros são os itens que caracterizam um modelo pro-

babilístico em estudo, e que não somente atribuem uma particular relação com o modelo,

mas que para diferentes escolhas de valores destes parâmetros se obtém um modelo especí-

co.

No entanto, considerando como caracterização paramétrica a característica atribuída a

um modelo através de seus parâmetros, não somente de posse dos valores dos parâmetros de

um modelo, que na maioria dos modelos paramétricos são identicados como parâmetros de

posição e escala, se atribui uma caracterização para ele.

Distribuições como a de Cauchy por exemplo, embora exijam a conguração de parâ-

metros de posição e escala, podem ser caracterizadas por não possuírem uma expressão

determinística que atribua seus valores esperado e variância, respectivamente, obtidos atra-

vés dos momentos de ordem r=1 e r = 2.


Tal característica, como a do modelo de Cauchy, pode ser denominada por caracterização

patológica, muito embora o termo 'patologia' seja diretamente ligado às áreas biológicas e

médicas devido a seu signicado etimológico (estudo gramatical da origem e história das

palavras), do grego phátos - doença e lógos - estudo, uma patologia pode ser considerada,

no sentido mais geral.

No contexto aqui abordado, a patologia é tomada com a nalidade de apontar diag-

nósticos que identicam irregularidades, alterações estruturais e funcionais de um estado,

objeto ou fenômeno físico, como por exemplo em arquitetura e engenharia civil no estudo

de edicações, a linha de estudo 'Patologia de Edicações'.

Seu conceito é, sobretudo, muito amplo e na matemática é empregado para designar

54
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

aquilo que fere o senso comum, que na prática não é intuitivamente esperado ou expõe limi-

tações.

Contudo, a distribuição Inversa de Chen ainda não possui uma característica denida,

seja ela paramétrica ou patológica e um passo primordial e crucial nesta direção é vericar

se o seu r−ésimo momento é convergente ou divergente, para posteriormente atribuir uma

caracterização apropriada.

Neste sentido, uma vez constatado que a variável aleatória contínua Y com distri-

buição Inversa de Chen e parâmetros α e β possui seu r−ésimo momento convergente,


r
E(Y |α; β) −→ K , é viável desenvolver um estudo apropriado em busca de uma função

determinística em termos de r, α e β para atribuir uma característica paramétrica para a

distribuição em estudo e assim representar a média e variância denidas em termos de seus

parâmetros.

Da mesma forma, quando constatado a divergência, E(Y r |α; β) −→ +∞, não faz sentido
a aplicação das técnicas usuais para a obtenção de uma função determinística em termos

dos parâmetros, pois o modelo não possuirá esperança denida, já que não converge para

um ponto em termos de r, α e β e por isso, neste caso é caracterizada como distribuição

patológica.

O que temos até o presente momento em relação ao modelo proposto é simplesmente sua

existência e nenhum direcionamento sobre sua caracterização.

Mundança de Variável
Z
A aplicação da mudança de variável em uma integral do tipo f (y)dy , dada a natureza
de f (y) ao seu domínio, consiste em um método que, além de fornecer uma solução para o

integrando f (y) em seu domínio, quando este for primitivável, simplica a integral permi-

tindo a aplicação de outras técnicas de integração.

Então, seja f (y|α; β) a função densidade de probabilidade da distribuição Y ∼ Chen−1 (α; β)


e tal que y , α, β ∈ <∗+ , isto é:

f (y|α; β) = αβy −(β+1) exp{y −β }exp{α[1 − exp(y −β )]}

Pretendemos, a princípio, denir para r ∈ ℵ∗ a esperança do r-ésimo momento de Y,


dada como:

Z+∞
E(Y r ) = y r f (y)dy (3.12)

Então, se

Z+∞ Z+∞
r
y f (y)dy = y r αβy −(β+1) exp{y −β }exp{α[1 − exp(y −β )]}dy (3.13)

0 0

55
Propriedades da Distribuição Proposta

tomemos a mudança de variável I : u = α[1 − exp(y −β )] de modo que:

α−u 1
u = α − αexp(y −β ) ⇔ exp(y −β ) = ⇔ y = [ln(α − u) − ln(α)]− β (3.14)
α

Além disso, como Ii : u = α[1 − exp(y −β ) ⇒ du = αβy −(β+1) exp{y −β }dy , resulta que:

y −→ 0 ⇒ u −→ −∞
(3.15)
y −→ +∞ ⇒ u −→ 0

Nestas condições, substituindo I, 3.14, Ii e 3.15 em 3.12 através de 3.13, segue que:

Z+∞ Z0
r
E(Y r ) = y r f (y)dy = [ln(α − u) − ln(α)]− β exp(u)du =
0 −∞
(3.16)
Z0
exp(u)
= du
[ln(α − u) − ln(α)]λ
−∞

r
onde, se r ∈ ℵ∗ e β ∈ <∗+ , então λ= ∈ <∗+ .
β
E ainda, tomando a mudança II : z = ln(α − u) − ln(α) de modo que:

 
α−u α−u
z = ln ⇔ exp(z) = ⇔ u = α − αexp(z) (3.17)
α α

donde resulta que IIi : du = −αexp(z)dz , e:

u −→ −∞ ⇒ z −→ +∞
(3.18)
u −→ 0 ⇒ z −→ 0

de modo que, substituindo II , 3.17, IIi e 3.18 em 3.16, através de 3.13, 3.12 se reduz a

Z0 Z0
exp(u) exp[α − αexp(z)]
E(Y r ) = du = [−αexp(z)]dz =
[ln(α − u) − ln(α)]λ zλ
−∞ +∞
(3.19)
Z+∞
exp[z − αexp(z)]
= αexp(α) dz

0

Logo, através das mudanças de variáveis I e II , resulta que:

Z+∞ Z0
r r exp(u)
E(Y ) = y f (y)dz = du =
[ln(α − u) − ln(α)]λ
0 −∞
(3.20)
Z+∞ Z+∞
exp[z − αexp(z)]
= αexp(α) dz = αexp(α) g(z)dz

0 0

56
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

tal quez , α, λ ∈ <∗+ .



Note que g(z) ≥ 0 é contínua em (0, +∞), portanto é derivável em 1 ordem e admite

integração. Porém, é uma função transcendente que não admite primitiva elementar, e assim

surge o primeiro e o principal impasse para caracterizar o modelo proposto.

Condição Paramétrica do Núcleo Exponencial de g(z)


Inicialmente, é evidente que exp[z − αexp(z)] > 0, e tomando Λ(z) = αexp(z), temos
exp[z − Λ(z)] > 0 e tal que, em g(z) como obtida em 3.20, verica-se dois casos particulares:

caso 1: g(z) ∈ (0; 1] se 0 < exp[z − Λ(z)] ≤ 1 ≤ z


(3.21)
caso 2: g(z) ∈ [1; +∞) se 0 < z ≤ 1 ≤ exp[z − Λ(z)]

Com efeito!

Note que exp[z − Λ(z)] = 1 ⇔ z − Λ(z) = 0 ⇔ z = Λ(z). Então, xando z ≤ Λ(z) para

z≥1 e z ≥ Λ(z) para 0 < z ≤ 1, resulta:

• Para z ≥ 1:

z ≤ Λ(z) ⇔ z − Λ(z) ≤ 0 ⇔ 0 < exp[z − Λ(z)] ≤ 1

Logo, z ≤ Λ(z) ⇒ 0 < exp[z − Λ(z)] ≤ 1, e se z≥1 segue que 0 < exp[z − Λ(z)] ≤ 1 ≤
z ⇒ g(z) ∈ (0; 1], pois z λ ≥ 1.

• Para 0 < z ≤ 1:

z ≥ Λ(z) ⇔ z − Λ(z) ≥ 0 ⇔ exp[z − Λ(z)] ≥ 1

Logo, z ≥ Λ(z) ⇒ exp[z − Λ(z)] > 1, e se 0 < z ≤ 1 segue que 0 < z ≤ 1 <
exp[z − Λ(z)] ⇒ g(z) ∈ (1; +∞), pois 0 < z λ ≤ 1.
Observe que, embora α > 0, é possível que ele exista tão pequeno quanto se queira de

modo que Λ(z) ' z , isto é, como Λ(z) = αexp(z), também resulta de z − Λ(z) = 0 que
z
α= , e consequentemente dois casos particulares para o parâmetro α:
exp(z)

z
no caso 1: z ≤ Λ(z) = αexp(z) ⇒ α ≥
exp(z)
z (3.22)
no caso 2: z ≥ Λ(z) = αexp(z) ⇒ α ≤
exp(z)

r z z
ou seja, ∀ λ = > 0, g(z) ∈ (0; 1] se α ≥ e g(z) ∈ [1; +∞) se α ≤ .
β exp(z) exp(z)
Pretendemos com isso mostrar que ∀ λ > 0, e mais especicamente ∀ r > 0, se g(z)

57
Propriedades da Distribuição Proposta

divergir nos dois casos acima existirá y , α e β tais que E(Y r ) diverge, daí não existirá
−1
E(Y r ) e consequentemente a distribuição Y ∼ Chen (α; β) será patológica em relação

aos parâmetros α e β, do contrário, caso convirja, diz-se que a distribuição possui uma

característica paramétrica e uma função determinística pode ser investigada em termos de

r, α e β para atribuir uma caracterização geral para a distribuição Y ∼ Chen−1 (α; β).
Assim, pelo critério de convergência de integrais, se existir a função ∆(z), tal que 0 <
Z+∞
g(z) ≤ ∆(z), se ∆(z) for integrável e ∆(z)dz for convergente, concluiremos que E(Y r ) =
0
Z+∞
αexp(α) g(z)dz também o é, ou seja, existe a integral E(Y r ) e Y ∼ Chen−1 (α; β) pode

0
ser caracterizada em termos paramétricos gerais desde que obtida a função determinística

em termos de r, α e β.
Z+∞
Caso contrário, para 0 < ∆(z) ≤ g(z), se ∆(z)dz for divergente, pelo critério de

0
comparação, não existe a integral E(Y r ) e o modelo é patológico.

A estratégia adotada para a avaliação proposta é discutida em detalhes no apêndice B

(seção 5) deste trabalho!

O Teste de Convergência na Comparação das Integrais


Sobre os casos de estudos descritos em 3.22, onde xamos agora o caso 1 como avaliação

1 e o caso 2 como avaliação 2, sem diculdades verica-se que:

z
• Avaliação 1: quando α≥ , sobre z − Λ(z) ≤ 0, para i = 1 se 0 < z ≤ 1 e i=2
exp(z)
se z ≥ 1, tomemos 0 ≤ exp[z − Λ(z)] ≤ πi (z) para vericarmos que

i = 1) Para 0 < z ≤ 1, consideremos π1 (z) = exp(z) para termos

exp[z − Λ(z)] π1 (z) exp(z)


exp[z − Λ(z)] ≤ π1 (z) = exp(z) ⇔ g(z) = λ
≤ λ
= = ∆1 (z)
z z zλ

i = 2) Para z≥1 consideremos π2 (z) = exp( z1 ) para termos

1 exp[z − Λ(z)] π2 (z) exp( z1 )


exp[z − Λ(z)] ≤ π2 (z) = exp( ) ⇔ g(z) = ≤ = = ∆2 (z)
z zλ zλ zλ

z
• Avaliação 2: quando α≤ , sobre z − Λ(z) ≥ 0 tomemos 1 ≤ exp[z − Λ(z)] para
exp(z)
vericarmos também que:

58
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

1 exp[z − Λ(z)]
1 ≤ exp[z − Λ(z)] ⇔ ∆(z) = λ
≤ = g(z)
z zλ

No apendice C (seção 5) apresentamos uma abordagem detalhada sobre as funções re-

sultantes ∆(z) e ∆i (z)


i = 1, 2, bem como o resultado de suas respectivas integrais em
para

z > 0 para as restrições 0 < z ≤ 1 e z ≥ 1.


exp[z − αexp(z)]
Obtemos então para g(y) = que a : 0 < g(z) ≤ ∆i (z) para todo

z
α ≥ , com i = 1, 2 como denido em 5.9, e que b : 0 < ∆(z) ≤ g(z) para todo
exp(z)
z 1
α≤ , com ∆(z) = como denido em 5.8.
exp(z) zλ
Coincidentemente, temos pelo teste da comparação de integrais duas condições em que:

Z+∞ Z+∞
(a) Quando 0 < g(z) ≤ ∆(z), se ∆(z)dz é convergente, então g(z)dz também o é;

0 0

Z+∞ Z+∞
(b) Quando 0 < ∆(z) ≤ g(z), se ∆(z)dz é divergente, então g(z)dz também o é;

0 0

Sendo então que o interesse é avaliar g(z), temos portanto dois resultados distintos:

(a) Na avaliação 1, como mostrado em 5.13, sendo ∆(z) = ∆i (z), para i = 1, 2 convergente,
z
conclui-se que g(z) também o é para todo z > 0, λ > 0 e α ≥ .
exp(z)
(b) Na avaliação 2, como mostrado em 5.8, sendo ∆(z) divergente conclui-se que g(z) tam-
z
bém o é para todo z > 0, λ > 0 e α≤ .
exp(z)

Observa-se então que, embora o parâmetro α seja generalizado através das desigualdades
r
z − Λ(z) ≤ 0 e z − Λ(z) ≥ 0, nada se pode armar sobre E(Y ) em decorrência da conver-

gência na avaliação 1 e divergência na avaliação 2.

Nesta condição a saída é investigar a tendência do parâmetro α denido em função de z


z
como feito inicialmente, de modo que para α(z) = e z > 0, vamos assumir que
exp(z)

• Pela a avaliação 1, g(z) será convergente se α ≥ lim α(z).


z→+∞

• Pela a avaliação 2, g(z) será divergente se α ≤ lim α(z).


z→+∞

Então, pelo teorema de L'Hospital

z 1
lim α(z) = lim = lim =0
z→+∞ z→+∞ exp(z) z→+∞ exp(z)

59
Propriedades da Distribuição Proposta

Logo, como α é denido em <∗+ é razoável considerar o resultado da avaliação pela qual
α ≥ lim α(z), ou seja, existe α tal que para todo z, λ > 0 a função comparativa ∆(z) é
z→+∞
convergente e consequentemente g(z) também o é pelo critério de comparação de integrais,
Z
pois 0 < g(z) ≤ ∆(z). Deste modo, verica-se que g(y)dy é convergente. Então

Z+∞ Z+∞
r exp[z − αexp(z)]
E(Y ) = αexp(α) g(z)dz = αexp(α) dz −→ K (3.23)

0 0

onde K = αexp(α)(L) e constante.


−1
Portanto Y ∼ Chen (α; β) é munida de uma caracterização paramétrica.

3.2.3 Discussões Sobre a Avaliação

Os casos 3.21, como dito, são particulares. É possível estender a avaliação de g(y),
por exemplo, para os casos 3 e 4 tais que

z
caso 3: g(z) ∈ (0; 1], se 1 ≤ exp[z − Λ(z)] < z λ , para α≤
exp(z)
λ z
caso 4: g(z) ∈ [1; +∞), se 0 < z ≤ exp[z − Λ(z)] ≤ 1, para α ≥
exp(z)

porém julga-se desnecessário a extensão, pois o resultado da avaliação de g(z) para os casos

1 e 2 apenas, é suciente.

Outra situação que vale discutir é a avaliação 2 desenvolvida. Como 0 < exp[z−Λ(z)] ≤ 1,
a busca de uma função π(z) tal que π(z) ≤ exp[z − Λ(z)] é uma
Z tarefa tentadora, uma vez
π(z) exp[z − Λ(z)]
que a obtenção de ∆(z) =
λ
≤ = g(z) com ∆(y)dy −→ +∞ atribuiria
z zλ
−1
uma caracterização geral imediata para Y ∼ Chen (α; β).

Esta caracterização seria a patologia do modelo, porém anularia qualquer aplicação as-

sintótica ao que se refere a inferência estatística, pois não existiria os momentos de ordem

r=1 e r=2 tais que E(Y ) e E(Y 2 ) − [E(Y )]2 = V ar(Y ) existam no Teorema Central do

Limite.

A busca de π(z) neste caso nos remete às funções trigonométricas denidas sobre o cir-

culo trigonométrico de raio 1, mas outro obstáculo que se obtém são os intervalos de domínio

e imagem destas funções, que no caso do seno e cosseno, embora possam ser denidas em

<∗+ possuem imagem em [−1; 1] para este domínio, e para as demais, tangente, cotangente,

secante e cossecante, apesar de também poderem ser denidas com domínio em <∗+ , tem
π
imagem descontínua em kπ + 2
para um k -ésimo ciclo qualquer.

Somos ainda tentados a considerar os seno e cosseno hiperbólicos, pois através de-

les obtém-se a tangente hiperbólica que apesar de possuir domínio em <, imagem em
[−1; 1] e poder ser reescrita em termos de exponenciais, o núcleo z − Λ(z) ≤ 0 fornece

60
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

−1 < tgh[z −Λ(z)] ≤ 0 < exp[z −Λ(z)] ≤ 1, isto é, com domínio em <− e imagem em [−1; 0],
e mais que isso, para um núcleo z > 0 apenas, resulta que 0 < exp[z − Λ(z)] ≤ tgh(z) ≤ 1,
Z+∞
tgh(z)
tal que dz −→ +∞ e nenhuma conclusão pode ser tomada sobre g(z).

0
Portanto, a saída para a solução do problema na avaliação 1 foi, de fato, buscar um ∆(z)
convergente e tal que ∆(z) > g(z).

3.2.4 Conclusões Sobre o r-ésimo Momento da Distribuição

Nessa avaliação a principal conclusão que se obtém é de que a distribuição terá média

e variância nitas e convergirá assintoticamente para uma distribuição Normal Padrão, de

acordo com o Teorema Central do Limite e a Teoria Assintótica.

Logo, este resultado é a garantia de que para amostras sucientemente grandes, resul-

tados limites como as Leis Fracas e Fortes dos Grandes Números e o Teorema Central do

Limite são contemplados sob a aplicação do modelo Inverso de Chen.

O primeiro resultado limite descrito acima é satisfeito em decorrência da existência de

µY = E(Y ), uma vez que a Lei dos Grandes Números arma que quando n −→ +∞ a média
amostral µˆY converge para µY e de tal modo que µˆY − µY −→ 0, e o segundo resultado é
2 2 2 2
satisfeito em virtude da existência de E(Y ), uma vez que σY = E(Y ) − µY e o teorema
µˆY − nµY
diz que p ' N (0; 1).
nσY2
Além dos resultados limites descritos acima, a convergência do momento de ordem r

também garante a validade dos métodos assintóticos pertinentes a Teoria Assintótica, que

são úteis em Probabilidade Aplicada e Estatística em geral.

3.3 Propriedade dos Estimadores Para o Modelo

3.3.1 Estimadores de Máxima Verossimilhança dos Parâmetros

A expressão f (y|α; β) mostrada anteriormente em 3.8 é a função de densidade de pro-

babilidade da variável aleatória Y ∼ Chen−1 (α; β). Então, uma vez obtido os dados de
−1
Y ∼ Chen (α; β), é possível obter um estimador que pode ser entendido como uma função
de α e β para as n observações de Y .

Esta função é a função de verossimilhança e associa a cada um dos parâmetros α e β os

valores f (y|α; β) e tal função é denotada por l(α; β|y) como denida em 2.25.

Contudo, ao processo de obtenção das estimativas para α e β através da função de ve-

rossimilhança da-se o nome de Método de Máxima Verossimilhança e, nesta seção, usaremos

este método para estimar estes dois parâmetros que, mesmo que conhecida as observações

61
Propriedades da Distribuição Proposta

de Y ∼ Chen−1 (α; β), tais parâmetros são desconhecidos.

Considerando então que Y1 , Y2 , Y3 , ..., Yn é uma amostra aleatória de Y ∼ Chen−1 (α; β) a


função de verossimilhança da amostra apresentada é a função de densidade de probabilidade

conjunta f (y|α; β) e dada por:

n
Y
L(α; β|y) = f (yi |α; β)
i=1

Então, sendo a expressão 3.8 a fdp de Y ∼ Chen−1 (α; β), segue que a função de verossi-

milhança da amostra de Y ∼ Chen−1 (α; β) é dada por:


n n
L(α; β|y) =
Y Y
f (yi |α; β) = αβy −(β+1) exp{y −β + α[1 − exp(y −β )]} =
i=1 i=1
n n
! (3.24)
Y X
= (αβ)n (yi )−(β+1) exp {yi −β + α[1 − exp(yi −β )]}
i=1 i=1

E mais, se a função de verossimilhança é uma função das observações de Y ∼ Chen−1 (α; β)


e tal que α̂ e β̂ são estimativas para α e β, respectivamente, então α̂ e β̂ são estimativas de

máxima verossimilhança de α e β, de modo que o estimador de máxima verossimilhança é

a solução das equações

∂L(α; β|y)

=0
∂α


(α=α̂;β=β̂)

∂L(α; β|y)

=0
∂β


(α=α̂;β=β̂)

Na prática, L(α; β|y) e ln[L(α; β|y)] têm seus pontos de máximo no mesmo valor de

α e β, e para a maioria das funções de densidade de probabilidade é mais fácil obter o

máximo deln[L(α; β|y)] devido a sua propriedade multiplicativa, assim, no caso da fdp de
−1
Y ∼ Chen (α; β) cuja função de verossimilhança é dada pela expressão 3.24, seu logaritmo
natural é dado por

n n
l(α; β|y) = n[ln(α) + ln(β)] − (β + 1)
X X
ln(yi ) + {yi −β + α[1 − exp(yi −β )]} (3.25)
i=1 i=1

Daí, aplicando a derivada em relação a cada um dos dois parâmetros da expressão 3.25

em seus pontos de máximo, respectivamente nos pontos α̂ e β̂ , igualando as expressões

resultantes a 0, obtém-se as equações

∂L(α; β|y)

n
n X
= +n− exp(yi −β̂ ) = 0 (3.26)
∂α α̂


(α=α̂;β=β̂) i=1

62
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

∂L(α; β|y)

n n
n X X
= − log(yi ) + exp(yi −β̂ ) +
∂β


(α=α̂;β=β̂)
β̂ i=1 i=1
n (3.27)
X
+ α̂ yi −β̂ exp(yi −β̂ )log(yi ) = 0
i=1

Portanto, em consequência da equação 3.26, obtém-se o estimador de máxima verossimi-

lhança para α como

n
α̂ = n (3.28)
X
−β̂
exp(yi )−n
i=1

e analogamente, em consequência da equação 3.27, o estimador para β é dado pela equação

n
X
n n
n yi −β̂ exp(yi −β̂ )log(yi )
n X X i=1
− log(yi ) + yi −β̂ + n =0 (3.29)
β̂ i=1 i=1
X
−β̂
exp(yi )−n
i=1

Observe que a obtenção da solução de forma fechada para a equação não linear 3.29 não

é possível, por isso, para qualquer conjunto amostral de Y ∼ Chen−1 (α; β), um método

numérico deve ser utilizado para encontrar a estimativa de máxima verossimilhança de β


para posteriormente encontrar α.
Isso implica na necessidade de suporte computacional para a realização de tal tarefa,

daí surge a justicativa para o uso do software SAS com o procedimento NLMIXED para

a aplicação de interesse. Um software equivalente, e de grande valor, para a realização da

mesma tarefa é software


R,
R onde o pacote ”optim” é utilizado para a confecção dos

resultados necessários.

3.3.2 Os Intervalos de Conança Para os Parâmetros

Sob algumas condições de regularidade, assintóticamente podemos assumir a seguinte

distribuição para o vetor (α̂; β̂):

(α̂; β̂) ≈ N {0; [nI(α; β)]−1 } (3.30)

onde 0 = [0 0]t é um vetor de médias nulas e I(α; β) é a matriz de informação esperada de

Fisher para α e β ataravés deY .

Devemos considerar que I(α; β) é uma medida de informação global e é tomada em rela-
ção a distribuição amostral de f (y|α; β), ou seja, é denida a partir da esperança da variável

aleatória Y .

63
Propriedades da Distribuição Proposta

f (y|Θ) = f (y|α; β), ou seja, Θ = (α; β)), considerando então que


Deste modo, tomando

Y é uma única observação com fdp f (y|Θ) e denida a medida de informação esperada de
Fisher, para um vetor de parâmetros quaisquer Θ, tem-se:

∂ 2 L(Θ|y)
  Z +∞
2
I(Θ) = E − 2
= E{[U (Θ)] } = [U (Θ)]2 f (y|Θ)dy (3.31)
∂Θ 0

onde a quantidade U (Θ) é a função escore para o vetor de parametros Θ e é tal que

∂L(Θ|y) 2 ∂ 2 L(Θ|y)
U (Θ) = ⇒ [U (Θ)] = − (3.32)
∂Θ ∂Θ2

isto é, para Θ = (α; β)), em decorrência de 3.26 e 3.27, verica-se facilmente que:

∂ L(α; β|y)

2
n
− = = [U (α̂)]2 (3.33)
∂α2 α̂ 2


(α=α̂;β=β̂)

∂ 2 L(α; β|y)

n
n X
− = − yi −β̂ [ln(yi )]2 [1 − α̂(1 + yi −β̂ )exp(yi −β̂ )] =
∂β 2


(α=α̂;β=β̂)
β̂ 2 i=1 (3.34)
2
= [U (β̂)]

respectivamente, e da função de verossimilhança obtida em 3.25, resulta similarmente que

∂ 2 L(α; β|y) ∂ 2 L(α; β|y)



− = −
∂α∂β ∂β∂α

(α=α̂;β=β̂) (α=α̂;β=β̂)
n
X (3.35)
= − yi −β̂ ln(yi )exp(yi −β̂ ) =
i=1
= [U (α̂; β̂)]2 = [U (β̂; α̂)]2

Consequentemente, em decorrência de 3.31, denidos os escores 3.33, 3.34 e 3.35, a matriz

de informação esperada de Fisher para α e β, dada por I(α; β), substituindo os parâmetros

α e β por seus respectivos estimadores de máxima verossimilhança obtidos como em 3.28 e

3.29, é dada por:

   
[U (α̂)]2 [U (α̂; β̂)]2 E{[U (α̂)]2 } E{[U (α̂; β̂)]2 }
I(α̂; β̂) = E  = =
   

[U (β̂; α̂)]2 [U (β̂)]2 E{[U (β̂; α̂)]2 } E{[U (β̂)]2 }


 Z +∞ Z +∞ 
2 2 (3.36)
 0 [U (α̂)] f (y|α; β)dy 0
[U (α̂; β̂)] f (y|α; β)dy 
 
= 
Z


 +∞ Z +∞ 
[U (β̂; α̂)]2 f (y|α; β)dy [U (β̂)]2 f (y|α; β)dy
0 0

64
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

Porém, uma vez mostrado que Y ∼ Chen−1 (α; β) é caracterizada parametricamente,


temos que existe E(Y ) e consequentemente existem E[U (α̂)] e E[U (β̂)], porém, como ainda

não foram obtidos e esta não é a proposta para este trabalho, as condições de regularidade

não podem ser vericadas para o limite inferior da variância dos estimadores α̂ e β̂ .
Portanto, não é válido considerar a medida de informação esperada de Fisher, pois nos

deparamos com o problema da caracterização geral da variável aleatória Y.


Uma saída para este problema consiste em tomar a matriz de medida de informação

observada de Fisher para α̂ e β̂ , a matriz J(α̂; β̂), com medidas de informação local que

descarta a aplicação do valor esperado da denição descrita acima.

Logo, dene-se a matriz de informação observada de Fisher como:

 
[U (α̂)]2 [U (α̂; β̂)]2
J(α̂; β̂) =  (3.37)
 

2 2
[U (β̂; α̂)] [U (β̂)]

e consequentemente:

V ˆar(α̂) ˆ
 
Corr(α̂; β̂)
[J(α̂; β̂)]−1 = [nJ(α̂; β̂)]−1 =   (3.38)
ˆ β̂; α̂)
Corr( V ˆar(β̂)

onde é facilmente vericável que [J(α̂; β̂)]−1 = [nJ(α̂; β̂)]−1 com LI(α̂; β̂)] = [nJ(α̂; β̂)]−1
como denido na seção 2.4.6.

Com o resultado da informação de Fisher, é possível determinar através da Desigualdade

da Informação um limite mínimo para a variância dos estimadores dos parâmetros α e β.


Além disso, uma vez que a variância de qualquer estimador não pode ser menor do que o

inverso da informação de Fisher na amostra, o resultado segue da aplicação da propriedade

inversa na matriz J(α̂; β̂), de modo que os elementos da diagonal principal de [nJ(α̂; β̂)]−1
fornecem a variância assintótica para os parâmetros α̂ e β̂ .
Nestas condições, portanto, de acordo com a distribuição denida pela expressão 3.25,

um intervalo de 100(1 − δ)% de conança para os verdadeiros parâmetros α e β são obtidos

respectivamente como:

q q
IC[α; 100(1 − δ)%] = (α̂ − z δ V ˆar(α̂); α̂ + z δ V ˆar(α̂)) (3.39)
2 2
q q
IC[β; 100(1 − δ)%] = (β̂ − z δ V ˆar(β̂); β̂ + z δ V ˆar(β̂)) (3.40)
2 2

65
Propriedades da Distribuição Proposta

nos quais zδ é o percentil tabelado pela distribuição Normal Padrão.


2

3.4 Os Modelos de Sobrevivência Para a Distribuição

3.4.1 A Função de Sobrevivência

Em análise de sobrevivência e teoria de conabilidade, o objeto de interesse primário é

a função de sobrevivência, convencionalmente indicada por S(t), e como mostrado na seção


2.1, denida como S(t) = P (T ≥ t) em que t é o tempo, T é uma variável aleatória deno-
tando o momento da morte, e P (T > t) = 1 − F (t) representa a probabilidade de ocorrência

do evento T no instante t.

Figura 3.3: Grácos para a função de sobrevivência de T ∼ Chen−1 (α; β) de diferentes parâmetros.

Mais especicamente, a função de sobrevivência também é chamada de função sobrevida

em problemas de sobrevivência biológica ou de função de conabilidade em problemas de

sobrevivência mecânicos. No segundo caso caso, a função de conabilidade é indicada por

R(t).
No entanto, a função de sobrevivência é caracterizada como a distribuição de probabili-

dade do tempo de sobrevivência de um evento, e considerando que S(t) = 1 − F (t) em que


−1
F (t) é a fda de Chen (α; β), de acordo com a expressão 3.7 temos que

S(t) = 1 − exp{α[1 − exp(t−β )]} (3.41)

é a função de sobrevivência de T ∼ Chen−1 (α; β) com gráco como mostrado na gura 3.3

no tempo t ∈ (0; 100].

66
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

3.4.2 A Função de Risco

A função de risco, convencionalmente denotada por λ(t), ou h(t), é denida como a taxa
de eventos no tempo t condicionada à sobrevivência até, ou posteriormente, o tempo t, isto
f (t)
é, para a variável aleatória T ≥ t, λ(t) = .
S(t)
Neste caso, segue então o seguinte teorema:

Teorema 3.5 Sejam f (t), a fdp da variável aleatória T ∼ Chen−1 (α; β), similarmente dada
como na expressão 3.8, e S(t) a função de sobrevivência dada pela expressão 3.41. Então, a
função de risco para a vaiável aleatória T é dada por:

αβt−(β+1) exp(t−β )
λ(t) = (3.42)
exp{α[exp(t−β ) − 1]} − 1

Demonstração: De fato! Observe que:

f (t) αβt−(β+1) exp{t−β + α[1 − exp(t−β )]}


λ(t) = = =
S(t) 1 − exp{α[1 − exp(t−β )]}
αβt−(β+1)
= =
exp{−t−β − α[1 − exp(t−β )]} − exp{α[1 − exp(t−β )] − t−β − α[1 − exp(t−β )]}
αβt−(β+1) αβt−(β+1) exp(t−β )
= =
exp{α[exp(t−β ) − 1]}exp(−t−β ) − exp(−t−β ) exp{α[exp(t−β ) − 1]} − 1

A força de mortalidade, sinônimo de função de risco, é comumente usada no campo

da demograa e ciências atuariais, onde é denotado por µ, Srivastava & Srivastava (2014).

A taxa prazo de risco,h(t), é outro sinônimo para λ(t), ou seja, λ(t) = h(t) = µ.
−1
Contudo, o modelo T ∼ Chen (α; β), ∀ T ≥ t, apresenta funções de risco unimodal e

monótona, isto é, para todo t, α, β a função λ(t) não assume os formatos constante e de

banheira, de modo que, este modelo é predominantemente côncavo, o que signica que em

sua forma mais geral é útil para modelar dados com taxa de falha unimodal.

O formato não constante da função λ(t) é justicado pela denição da variável aleatória

T e dos parâmetros do modelo, pois, uma vez que a expressão deλ(t) existe em função de
t, α, β > 0, como dada em 3.42, e sempre se mantém variando sobre t e λ(t).
−1
E mais, a partir da denição da variável aleatória T ∼ Chen (α; β), observa-se que em

sua forma unimodal λ(t) aumenta sem limite até a sua moda quando t tende ao innito, e

consequentemente, dada a denição de S(t), tem-se também que S(t) tende a zero.

Isto implica que λ(t), conforme sua denição é dada, não diminui rapidamente, uma

vez que, por denição, o risco cumulativo Λ(t) tem que divergir, e por isso assume a forma

unimodal. Similarmente, à medida que t tende a zero, S(t) tende ao innito e λ(t) diminui

rapidamente, pois também tende a zero, assumindo a forma monótona decrescente.

67
Propriedades da Distribuição Proposta

Este mesmo comportamento se observa na expressão 3.42, onde é evidente que o denomi-

nador exp{α[exp(t−β ) − 1]} − 1 assume o mesmo comportamento de S(t) no innto e quando


tende a zero.

Figura 3.4: Formas da função de risco para o modelo T ∼ Chen−1 (α; β).

A monotonicidade decrescente do modelo é restrita para os casos em que α → 0 com


qualquer β > 0 e (α; β) → (0; 0). Mais especicamente, a medida que o parâmetro α → 0,

para qualquer β > 0 o gráco de λ(t) tende para a forma decrescente, como é mostrado à

esquerda na gura 3.5 a seguir, e similarmente, quando se tem (α; β) → (0; 0), o gráco de

λ(t) tende também a 0 mantendo-se decrescente como se observa à direita na gura 3.6.

Figura 3.5: Forma descrescente com α xo. Figura 3.6: Forma descrescente com β xo.

Enm, os casos unimodais ocorrem para qualquer α > 0 com β → +∞ e α → +∞ com


β > 0, ou seja, para quaisquer valor de α divergindo de 0 com β qualquer, ou α qualquer
com β divergindo de 0, o gráco de λ(t) = h(t) toma a forma unimodal.

Alguns casos especiais de λ(t) unimodal são apresentados nas guras 3.7 e 3.8 a seguir.

68
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

Figura 3.7: Forma unimodal com α xo. Figura 3.8: Forma unimodal com β xo.

As guras 3.7 e 3.8 sugerem que a medida que os parâmetros do modelo diminuem, a

função de risco tendem para a forma monótona decrescente. Isso é evidente na gura 3.8

onde se observa que a curva se aproxima de t=0 assumindo uma forma achatada perdendo

a forma unimodal e assumindo a forma decrescente.

No entanto, assumindo que a ≤ t ≤ b, com a > 0 e b > a, é possível obter o modelo


−1
monótono crescente de Chen (α; β) restrito ao intervalo [a; b], ou seja, existe um intervalo

[a; b] ∈ <∗+ no qual a função de risco será crescente.

Tomemos por exemplo as funções de risco h1 = h(t|10; 10), h2 = h(t|15; 10) e h3 =


h(t|20; 10) nas quais t ∈ [0.5; 2.5]. O gráco 3.9 na sequência mostra que para os parâmetros
assumidos, as funções de risco h1, h2 e h3 assumem a forma unimodal como é mostrado.

Porém, é possível obter para as mesmas funções de risco sua forma monótona crescente

quando assume-se t ∈ (1; 1.2], como mostra o gráco 3.10, pois neste intervalo só se obtém

os valores crescentes para as mesmas funções de risco apresentadas no gráco 3.9 como se

observa.

Figura 3.9: Modelos em t ∈ (0; 50]. Figura 3.10: Modelos em t ∈ (0; 2].

Nesta condição, garantindo que a função de risco em análise é unimodal e assegurando

o intervalo de tempo no qual esta função é crescente, ou seja, destacando o intervalo cres-

cimento da função unimodal, obtém-se a forma monótona crescente de qualquer função de

risco que se queira analisar, como nos casos especicados nas guras 3.11 e 3.12 a seguir.

69
Propriedades da Distribuição Proposta

Figura 3.11: Crescente em t ∈ [0.25; 1.5]. Figura 3.12: Crescente em t ∈ [0.5; 0.95].

Em m, vale ressaltar a inuência dos parâmetros α e β sobre as formas da função de

risco exibidas.

Como se pode observar nas guras 3.5 e 3.7, xado o parâmetro α, a menos da escala,

não se observa mudanças signicantes na forma da função de risco e é evidente a inuência

que a escala do gráco sofre com as alterações impostas sobre o parâmetro β.


Agora, como mostra a gura 3.8, xado o parâmetro β, também se observa signicativa

mudança na escala da função para as variações de α, porém, a localização da moda no gráco


sobre o eixo t passa a sofrer alterações signicantes a medida que α varia.

A inuência de α sobre a forma da função é ainda mais evidente na gura 3.9, onde a

medida que α aumenta, a função sofre um achatamento signicante sugerindo uma tendência
para a forma decrescente do modelo de risco.

Tais comportamentos sugerem as características de forma e localização, respectivamente,

para os parâmetros α e β sobre a função de risco do modelo proposto. Isso é evidente nas

guras 3.6 e 3.8 onde a redução dos valores do parâmetro α atribui alteração signicativa

na forma da função de risco.

Em concordância com a inuência que o parâmetros α exerce sobre a característica do

modelo proposto, veremos posteriormente, na seção 4.3, o quanto a elevação deste parâmetro

inuência na eciência de seu estimador, bem como na variação da amplitude de seu intervalo

de conança.

70
CAPÍTULO 4

PROBABILIDADE DE COBERTURA DOS PARÂMETROS

No capítulo anterior foram apresentadas as principais características da distribuição em

estudo, inicialmente no contexto básico da estatística com sua função de densidade acu-

mulada, função de densidade de probabilidade e a constatação de convergência do r-ésimo


momento para proporcionar a realização de inferências clássicas sob o contexto assintótico,

e por m, denido suas características em congruência com os conceitos de análise de so-

brevivência, com destaque para a função de sobrevivência e função de risco, bem como um

estudo do comportamento desta última.

Neste capítulo o interesse é abordar o método clássico e bayesiano para a construção dos

intervalos de conança para apresentar um estudo sobre as estimativas dos parâmetros do

modelo e seus estimadores. O objetivo é avaliar a probabilidade de cobertura dos parâmetros

α e β em seus respectivos intervalos de conança assintóticos e intervalos de credibilidade

HPD, de modo que várias amostras de diferentes tamanhos e diferentes parâmetros foram

considerados na aplicação de um processo de simulação estatística desenvolvido como na

descrição que segue.

4.1 Considerações Iniciais Para a Simulação


4.1.1 O Algoritmo da Transformação Inversa

Atualmente existem várias técnicas para a geração de variáveis aleatórias. Elas avançam

desde o conhecimento de uma distribuição de probabilidade especica, tais como os métodos

Congruenciais, de Composição, de Convolução, Aceitação ou Rejeição e o de Caracteriza-

ção, até os métodos mais renados em que o conhecimento da distribuição de probabilidade

não é necessariamente uma condição, como os Testes de Permutação, Validação Cruzada,

Jackknife, Bootstrap e os Método de Monte Carlo e suas variações.

Sobre os métodos nos quais a distribuição de probabilidade é conhecida uma técnica

71
Probabilidade de Cobertura dos Parâmetros

destaca-se devido à sua generalidade e simplicidade: a técnica de amostragem da função de

densidade acumulada (fda) inversa, ou o algoritmo da transformação inversa.

Uma vez conhecida a função de distribuição acumulada de uma distribuição de probabi-

lidade, a geração de uma amostra aleatória a partir dessa distribuição é trivial com auxílio

computacional, uma vez que a técnica consiste em gerar variáveis aleatórias uniforme sobre

o intervalo [0; 1] e, em seguida, aplicar estas variáveis na fda inversa.

Deste modo, embora os valores gerados inicialmente sejam uniformemente distribuídos

em [0; 1], os valores resultantes seguirão o mesmo modelo probabilístico da fda de interesse,

ou seja, os valores terão a mesma distribuição de probabilidade da fda F.


O algoritmo da transformação inversa é particularmente útil quando é desejável gerar

dados de uma distribuição contínua e invertível, ou seja, que permita a obtenção da função

F −1 . Porém, mesmo que não seja possível inverter a fda F, pode-se usar o algoritmo da

transformação inversa através de resolução numérica, uma vez que a expressão resultante

não é exata e métodos para a obtenção da raíz desta expressão, como o Método da Bissecção,

Método de Newton, Regula Falsi dentre outros, possibilitam uma solução razoável para a

F −1 não exata.

No entanto, quando a utilização de métodos numéricos são necessários, a obtenção de

uma amostragem é computacionalmente custosa e por isso é preferível a utilização de méto-

dos numéricos somente quando os métodos diretos não são aplicáveis.

Contudo, se F é uma função de distribuição de probabilidade contínua com função F −1


conhecida, a aplicação do algoritmo da transformação inversa para simular valores de F

consiste em:

1. Gerar n valores aleatórios u de um modelo uniforme distribuído em [0; 1], U ∼ unif [0; 1];

2. Aplicar os valores u gerados na função F −1 e obter as n observações F −1 (u) com

distribuição F;

3. Repitir a etapa 2 até gerar os n valores F −1 (u).

4.1.2 A Transformação Inversa Para a Distribuição Proposta

Teorema 4.1 Seja F (y), ∀ y ∈ <∗+ , a FDA da distribuição Inversa de Chen. Considerando
que F (y) : <∗+ 7−→ (0; 1], isto é, F (y) é uma função não-negativa e monótona em (0; 1],
verica-se para y > 0 que F (y) possui limites laterais em 0 e 1, mesmo que seja indenida
à direita, isto é, verica-se que F (0+ ) −→ 0 e F (+∞) −→ 1.

Demonstração: De fato! Tomando a fda de Y ∼ Chen−1 (α; β) denida em 3.7, teremos:

lim F (y) = lim exp{α[1 − exp(y −β )]} = exp{α[1 − exp(+∞)]} = exp(−∞) = 0


y→0+ y→0+
lim F (y) = lim exp{α[1 − exp(y −β )]} = exp{α[1 − exp(0)]} = exp(0) = 1
y→+∞ y→+∞

72
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

Proposição 4.1 Se 3.7 é a fda de Y ∼ Chen−1 (α; β) e monótona não-negativa, existe uma
relação de ordem entre y ∈ <∗+ e u ∈ (0; 1], tais que F (y) = u e F (y) é bijetora. Então
y = F −1 (u) de modo que

1
F −1 (u) = 1 (4.1)
{ln[1 − α−1 ln(u)]} β

Demonstração: O resultado é obtido através da aplicação da operação inversa em F (y) = u


como segue!

F (y) = u ⇒ exp{α[1 − exp(y −β )]} = u ⇒ α[1 − exp(y −β )] = ln(u) ⇒


⇒ 1 − exp(y −β ) = α−1 ln(u) ⇒ exp(y −β ) = 1 − α−1 ln(u) ⇒
1
⇒ y −β = ln[1 − α−1 ln(u)] ⇒ y = 1 = F
−1
(u)
{ln[1 − α−1 ln(u)]} β

Deste modo, dado então o interesse em simular n valores em N amostras aleatórias

de Y ∼ Chen−1 (α; β), tomemos os valores u ∈ (0; 1] e de acordo com a fda denida em 3.7,
−1
tomando F (y) = u, os n valores de y = F (u) são obtidos através de 4.1.
−1
Portanto, a expressão 4.1 resultante é a função inversa da fda de Y ∼ Chen (α; β), isto

é, a transformação inversa da distribuição proposta.

No que segue, mesmo que a fda F (y) da distribuição inversa de Chen seja invertível,
−1
a geração dos n valores através de F (u) é realizada via processo computacional em de-
corrência dos valores de U ∼ unif (0; 1] e, sob demanda, assume-se que as realizações são

independentes entre si e da variável aleatória U pois os n valores u também são gerados

independentemente entre si.

4.2 Probabilidade de Cobertura Empírica


Uma das propostas deste trabalho considera a abordagem de dois métodos de constru-

ção de intervalos de conança. O intuito é descrever uma avaliação para os estimadores dos

parâmetros do modelo Y ∼ Chen−1 (α; β), bem como comparar os dois métodos utilizados.

Um deles é o intervalo de conança assintótico, apresentado na seção 2.4.6 e contextua-

lizado para o modelo em estudo na seção 3.3.2, e o segundo é o intervalo de credibilidade,

apresentado na seção 2.2.5 como uma classe de intervalos de credibilidade para uma amostra

de parâmetros gerados a partir de sua respectiva distribuição à priori.

Sobretudo, o objetivo deste capítulo é avaliar a probabilidade de cobertura destes mé-

todos de construção de intervalos em paralelo com a avaliação dos estimadores do modelo,

considerando-se vários tamanhos de amostra para cada intervalo gerado e em um número

73
Probabilidade de Cobertura dos Parâmetros

N de intervalos xados, isto é, são geradas N amostras de tamanho n para a realização da

proposta.

No entanto, avalia-se a probabilidade de cobertura dos N intervalos para os parâmetros

α e β, primeiro no contexto da inferência clássica através dos estimadores de máxima ve-

rossimilhança e em segundo no contexto da inferência bayesiana através da distribuição a

priori e posteriori dos parâmetros em questão.

Logo, desenvolve-se duas avaliações para posteriormente comparar os métodos de ava-

liação considerados. Contudo, nas duas avaliações é incluído um processo de simulação,

primeiro para gerar as amostras necessárias e segundo para realizar as estimações pretendi-

das.

No caso da inferência clássica o processo computacional se desenvolve sobre a estimação

diretamente da amostra gerada e através do algoritmo Gauss-Newton, e para a inferência

bayesiana o método computacional considerado é aplicado sob o algoritmo de Monte Carlo

via Cadeias de Markov (MCMC) sobre a amostra inicial.

Vale ressaltar que os cálculos das estimativas em ambos os casos foram computados via

software e linguagem SAS onde, em particular foi utilizada o procedimento NLMIXED para

o levantamento das estimativas dos parâmetros e seus respectivos intervalos de conança as-

sintótico no caso clássico, e o procedimento MCMC para efetuar o mesmo levantamento no

caso bayesiano, tal qual o método de Monte Carlo foi primordial para calcular os intervalos

de credibilidade.

4.2.1 O Intervalo de Conança Clássico

Vale relembrar que um intervalo de conança é uma estimativa intervalar que contém um

parâmetro de interesse de uma população em estudo. Sobretudo, na inferência clássica, ele

é derivado da distribuição amostral de uma estatística de interesse, geralmente o estimador

do parâmetro da população.

De modo mais especíco, segundo Wicklin (2013), para as distribuições de amostragem

simétricas, um intervalo de conança tem frequentemente a forma θ̂ ± ω{δ,n,DPθ } , onde θ̂ é


uma estimativa para o parâmetro de interesse e ω{δ,n,DPθ } é uma distância de θ̂ que depende,

exclusivamente, de um nível δ de signicância, do tamanho n da amostra e do erro padrão

DPθ da estimativa. Analogamente, (θ̂ − ω{1−δ,n,DPθ } ; θ̂ + ω{δ,n,DPθ } ) é a forma dos intervalos


não simétricos, nos quais é certo que ω{1−δ,n,DPθ } 6= ω{δ,n,DPθ )} .

Sem muitas diculdades, observa-se em estudos de inferência que, devido à variação de

amostragem o intervalo de conança para uma determinada amostra pode não conter o pa-

râmetro de interesse, por isso, a atribuição do nível de signicânciaδ , sobretudo, permite


armar que para um grande número de amostras recolhidas, cerca de 100(1 − δ)% de seus

respectivos intervalos de conança irá conter o verdadeiro parâmetro θ .

Logo, um intervalo de conança é denido como uma estimativa que contém o verdadeiro

74
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

parâmetro de uma população com probabilidade 1 − δ.


Na prática, é xado que a probabilidade do verdadeiro parâmetro estar contido dentro

de um intervalo de conança é de 0.95. A literatura mostra que isso é muito comum quando
uma população é normalmente distribuída ou quando o tamanho amostral é grande o su-

ciente para que o Teorema Central do Limite seja aplicado, o que remete a convergência da

variável aleatória em estudo para uma distribuição Normal de modo que todas as suposições

probabilísticas e inferenciais necessárias sejam satisfeitas.

Em aplicações com dados reais, oriundas de amostras de tamanho pequeno ou com dados

simulados a partir de modelos paramétricos distorcidos ou com caudas pesadas, a ausência

de estudos preliminares e minuciosos sobre o modelo adotado favorece o impacto da assime-

tria e curtose sobre os resultados obtidos, no sentido de afeta-los drasticamente, o que gera

conclusões precipitadas sobre o sistema e atribui intervalos de conança que não contêm os

parâmetros de interesse, por maior que seja a probabilidade de contê-los.

Assim, assume-se como estudo preliminar a prática da simulação estatística e esta abor-

dagem permite a investida aos métodos de simulação para estimar a probabilidade de um

intervalo de conança conter o seu respectivo verdadeiro parâmetro do sistema, o que é co-

nhecido como probabilidade de cobertura, ou probabilidade de abrangência.

Esta prática permite concluir se um modelo adotado é efetivo para um dado tamanho

amostral, e em se tratando do estudo de um modelo paramétrico para representar um evento

ou população de interesse, um estudo de simulação neste sentido permite, através de diver-

sas técnicas da estatística clássica, investigar e analisar o comportamento deste modelo em

relação a diferentes amostras sob a perspectiva de diferentes parâmetros.

4.2.2 O Intervalo de Máxima Densidade à Posteriori

Na prática da inferência estatística, com muita frequência as estimativas para os parâ-

metros de interesse têm suas precisões resumidas em intervalos de 100(1 − δ)% de conança,
diga-se na aplicação de técnicas de inferência clássica, mas uma prática que vem se tornando

cada vez mais comum é a construção de intervalos com 100(1 − δ)% de credibilidade para

os parâmetros de interesse através de técnicas da inferência bayesiana.

O principal motivo para isso, segundo Chen e Shao (1998), é que os intervalos de credibi-

lidade podem ser obtidos considerando métodos analíticos ou computacionais, em particular

com o suporte da técnica MCMC.

Como dito no início deste capítulo, o intervalo de conança bayesiano considerado neste

trabalho é o de máxima densidade à posteriori, o intervalo de credibilidade HPD, ou sim-

plesmente intervalo HPD para os parâmetros da distribuição à posteriori de interesse, e tais

intervalos são calculados sobre uma amostra da distribuição à posteriori.

A justicativa para a adoção deste intervalo é atribuída para as características do modelo

em estudo. Uma vez que os parâmetros da distribuição Y ∼ Chen−1 (α; β) são denidos em

75
Probabilidade de Cobertura dos Parâmetros

<∗+ , na realização da inferência estatística via abordagem bayesiana é pertinente considerar

que a informação prévia sobre estes parâmetros satisfaçam suas condições de existência, isto

é, α>0 e β > 0.
Como no contexto bayesiano entende-se por informação prévia a distribuição a priori,

é necessário tomar uma distribuição de probabilidade razoável para os parâmetros de inte-

resse em estudo, além disso, com base no conhecimento a respeito destes parâmetros, uma

distribuição à priori deve então representar a informação possuída sobre eles, no caso que

α>0 e β>0 de modo que o impacto sobre a distribuição à posteriori seja mínimo.

Como visto na seção 2.2.2, temos um grande leque de opções para a escolha do tipo de

priori. No entanto, a maioria delas são descartadas em virtude de custosos processos com-

putacionais, tais como as prioris conjugadas, ou em virtude da caracterização do modelo em

estudo, onde o fato de não existir uma Esperança Matemática denida, impede a adoção

de prioris objetivas, tais como as de Jefreys e Laplace, por exemplo, pois são derivados do

conhecimento da matriz de Informação Esperada de Fisher.

Assim sendo, a distribuição à priori cabível a este contexto é uma não informativa, isto

é, é considerada uma distribuição à priori não informativa e as mais comuns apresentadas

na literatura são a Beta, a Gama e a Uniforme.

Porém, como a densidade da distribuição Uniforme é denida em todo o conjunto < e

a densidade da distribuição Beta é denida no aberto (0; 1), é suciente considerar a dis-

tribuição Gama, uma vez que ela é denida em <∗+ e à medida que sua variável aleatória

aumenta, ela se aproxima de uma distribuição Normal.

Sobretudo, no presente estudo sob o enfoque bayesiano, tanto a distribuição marginal

como a distribuição à priori considerada não são simétricas, respectivamente, o modelo In-

verso de Chen e Gama. Por isso, segundo Chen e Shao (1998), no cálculo da estimativas

da inferência é desejável um intervalo HPD, que requer apenas amostras MCMC geradas a

partir da distribuição à priori para o parâmetro de interesse.

No entanto, o processo de reamostragem via MCMC é necessário para estimar as inte-

grações bayesianas à posteriori e, em contra partida para este conceito, a literatura sobre as

estimativas de intervalos HPD por meio da amostragem ainda é escassa.

Enm, a adoção do intervalo HPD no presente estudo considera dois objetivos especícos:

• obter os intervalos de conança bayesiano de amplitude mínima para os parâmetros

de interesse; e

• efetuar o cálculo destes intervalos através de amostras diretas da distribuição a poste-

riori através do método MCMC.

Em geral, o intervalo HPD não é obtido analiticamente e, assim, justica-se a utilização

de métodos numéricos para construí-los, bem como o próprio MCMC, tanto que, para o

76
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

escopo deste capítulo o método MCMC será aplicado para o cálculo dos intervalos HPD em

um estudo de simulação de pequena escala que conduzirá uma avaliação aos estimadores

do modelo Y ∼ Chen−1 (α; β) bem como servirá de peça central em uma comparação de

resultados com a inferência clássica.

Assim, tomando o parâmetro θi para i = 1, 2 do modelo Y ∼ Chen−1 (α; β), tal que

θ1 = α e θ2 = β , conforme proposto por Chen e Shao (1998), o método de obtenção dos

intervalos HPD para θ1 = α e θ2 = β através do método MCMC, obedece ao seguinte algo-

ritmo:

1. Obter a distribuição à priori para o parâmetro θi ;

2. Obter uma amostra aleatória de tamanho η para θi;j onde j = 1, 2, 3, ..., η , a distribui-

ção à posteriori de θi |x;


(j) (1) (2) (3) (η)
3. Ordenar os valores θi;j , para j = 1, 2, ..., η , resultando em {θi } = {θi ; θi ; θi ; ...; θi }
(1) (2) (3) (η)
e tais que θi ≤ θi ≤ θi ≤ ... ≤ θi ;

4. Estabelecer o nível 1−δ de credibilidade e, para o inteiro η − (1 − δ)η , calcular

os η − (1 − δ)η intervalos tais que, para os η quantis ordenados e uma sequência

k = 1, 2, 3, ..., η − (1 − δ)η , para os η − (1 − δ)η quantis resultantes se obtém

(k) (k) (k+[1−δ]η)


Ri (η) = [θi ; θi ] (4.2)

(k) (k)
onde, em cada um dos η − (1 − δ)η intervalos Ri (η), θi é o k -ésimo menor limite
(k+[1−δ]η)
inferior e θi é o [k + (1 − δ)η]-ésimo menor limite superior de θi;j ;

5. O intervalo HPD de 100(1 − δ)% de credibilidade é o intervalo de menor amplitude

dentre todos os η − (1 − δ)η obtidos.

(k+(1−δ)η) (k)
Disso, resulta apenas uma diferença θi − θi que será a menor amplitude dentre
(k)
toda a sequência k = 1, 2, 3, ..., η − (1 − δ)η de intervalos, e é tal que R̂1 (y) = θ̂i e R̂2 (y) =
(k+[1−δ]η) (0)
θ̂i são os quantis da posteriori p(θi |y), e tais que o conjunto R̂i (1 − δ) = {θi ∈ Θi |

p(θi |y) ≥ K(δ)} = [R̂1 (y); R̂2 (y)], como similarmente denido em 2.2.5, é um intervalo de
(0)
credibilidade HPD em que K(δ) é a maior constante tal que P (θi ∈ R̂i (1 − δ)|y) ≥ 1 − δ .
−1
E ainda, embora a distribuição marginal Y ∼ Chen (α; β) e a distribuição à priori

Gama sejam não simétricas, se em geral, temos o interesse em estimar um intervalo de

credibilidade do espaço paramétrico Θi para o qual a probabilidade de conter a densidade à

posteriori de um determinado parâmetro é 1−δ , tal intervalo é dito ser de máxima densidade
a posteriori (HPD) com 100(1 − δ)% de credibilidade se

Z
p(θi |y)dθi = 1 − δ (4.3)

(0)
R̂i (1−δ)

77
Probabilidade de Cobertura dos Parâmetros

e sobre a distribuição à posteriori do estudo vale ainda ressaltar que:

• Se a posteriori for simétrica e unimodal, o intervalo HPD coincide com o intervalo de

credibilidade central, ou seja

(c) (0) (δ) (1− 2δ )


R̂i (1 − δ) = R̂i (1 − δ) = [θ̂i 2 ; θ̂i ] (4.4)

• Se a posteriori for não simétrica e unimodal, o intervalo HPD correspondente é aquele

da referida sequência k de n − (1 − δ)n quantis com a menor amplitude, ou seja

(0) (k) (k+[1−δ]n)


R̂i (1 − δ) = [θ̂i ; θ̂i ] (4.5)

Embora as observações 4.4 e 4.5, conforme discutido e justicado por Chen e Shao (1998),

são resultados obtidos através do desenvolvido do método MCMC sob a suposição unimodal,

é possível ainda estender esses resultados aos casos multimodais, resultando da união de

intervalos uma aproximação para o intervalo HPD.

Por m, Paulino, Turkman e Murteira (2003), inserem R̂j (1−δ) = [θ̂ j ; θ̂1− j+[1−δ]n ] como a
n n
notação de um intervalo HPD para uma amostra de tamanho n de um parâmetro θ qualquer,

onde j = 1, 2, 3, ..., n − (1 − δ)n, e sugerem uma avaliação, no caso contínuo, de intervalos

de credibilidade para funções reais.

4.2.3 O Índice de Probabilidade de Cobertura

O índice da probabilidade de cobertura de um intervalo de conança, no componente

dos parâmetros de uma distribuição de probabilidade, é modelada usando técnicas de infe-

rência estatística e seu propósito é derivar uma relação empírica entre a probabilidade de

cobertura de N intervalos de conança, proveniente de amostras de diferentes tamanhos, e

os componentes paramétricos do modelo, para diferentes valores.

Usualmente, são xadas N amostras para uma variação de n observações previamente

xadas e busca-se uma medida p que representa a proporção de amostras cujos intervalos

de conança contêm os verdadeiros parâmetros do modelo.

A prática consiste em xar um nível 1−δ de conança, no caso clássico, ou de cre-

dibilidade, no caso bayesiano, para estimar os parâmetros do modelo nas N amostras pré

estabelecidas, consequentemente, a probabilidade inicial 1−δ e contar quantos entre os N


intervalos resultantes das N amostras cobrem (ou abrangem) os parâmetros do modelo.

Espera-se que a probabilidade de aproximadamente (1 − δ)N intervalos conter o parâ-

metro, o índice de probabilidade de cobertura empírica resultante, esteja muito próxima da

estipulada inicialmente, independente do valor do parâmetro do modelo adotado.

Embora qualquer classe de modelo admita a aplicação desta técnica, em analogia a um

experimento probabilístico discreto, este estudo representa um experimento no qual se tem o

78
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

interesse em saber a presença (ou ausência) do atributo que é conter (ou não) o parâmetro do

modelo no intervalo de cada uma das N amostras, isto é, N realizações de um experimento

de Bernoulli.

Mais especicamente, em geral a técnica busca identicar o número (ou proporção) de

elementos que têm o atributo sob estudo, numa amostra de N elementos observados em que

cada elemento é uma amostra da variável aleatória do modelo.

Logo, a técnica da probabilidade de cobertura simula um experimento binomial onde

cada um dos N ensaios admite apenas um dentre dois possíveis resultados com probabili-
dade P = 1 − δ , isto é, assumindo que Φ é a variável aleatória que representa o sucesso do
experimento e tal que:

(
1, se o intervalo contém o parâmetro ;
Φ=
0, caso contrário ;

verica-se que Φ ∼ Bin(N ; 1 − δ).


Em particular, a vantagem adicional desta técnica inclui a estimação da probabilidade

dos parâmetros de um determinado modelo probabilístico, pertencente a uma classe geral,

ser aceito através de seu respectivo intervalo de conança utilizando apenas valores amos-

trais da variável aleatória e a determinação das condições operacionais que resultam em uma

maior probabilidade de cobertura na região de interesse, como o tamanho n de cada uma

das N amostras e os valores para os parâmetros do modelo.

Em geral, a técnica também permite vericar que quanto maior o tamanho de uma amos-

tra mais próximo os valores estimados dos parâmetros do modelo se aproximam dos valores

adotados, e além disso, a probabilidade de cobertura se aproxima da probabilidade pré es-

tabelecida.

Em m, a técnica segue cinco etapas:

• Simular N amostras de tamanho n a partir da população, comumente representada

pelo modelo paramétrico;

• Calcular o intervalo de conança para cada uma das N amostras;

• Vericar se o intervalo de conança de cada uma das amostras contém o parâmetro de

interesse;

• Calcular a proporção de amostras para as quais o verdadeiro parâmetro da população

está contido no intervalo de conança (essa proporção é o índice de probabilidade de

cobertura empírica para os intervalos de conança);

• Vericar o quão próximo a probabilidade de cobertura empírica p se encontra da pro-

babilidade teórica P = 1 − δ.

79
Probabilidade de Cobertura dos Parâmetros

Wicklin (2013) propõe o teste da proporção para testar se a probabilidade de cobertura

empírica P é aceita sob um nível δ de signicância para a população de intervalos, porém,

esta aplicação é viável no caso clássico, uma vez que o teste da proporção considera a teo-

ria assintótica para normalidade dos dados do experimento binomial e como proposto neste

trabalho, serão abordadas os intervalos de conança clássicos e bayesianos, sendo o segundo

desfavorecido em um teste estruturado sobre a inferência clássica.

Entretanto, sendo de interesse avaliar esta estimativa, medidas de distância serão consi-

deradas para compensar a avaliação da precisão da probabilidade de cobertura empírica p.


Estas medidas serão descritas na tópico a seguir em 4.8 e 4.11 e uma forma de avaliá-las,

para comparar as duas abordagens consideradas, é descrita na seção 4.3.1.

Um estudo da probabilidade de cobertura para os parâmetros de um modelo paramétrico

aponta para o comportamento do modelo conforme o tamanho da amostra é alterado, ou

seja, para os parâmetros xados do modelo, à medida que o tamanho da amostra é alterado,

diminui ou aumenta, a probabilidade de cobertura para os parâmetros tendem a um valor

especíco. Essa simulação permite ainda estimar a probabilidade de pequenas amostras, ou

de uma população qualquer, gerar estimativas ecientes para representar o sistema.

4.2.4 Os Elementos do Processo Computacional

Os resultados computacionais da simulação desenvolvida para estimar o índice de pro-

babilidade de cobertura partem da variação de quatro elementos:

1. N: a quantidade de amostras que irá gerar o número de IC's (intervalos de conança)

de interesse;

2. n: o número de observações geradas em cada amostra;

3. α: parâmetro 1 do modelo em estudo;

4. β: parâmetro 2 do modelo em estudo;

5. δ : o nível de signicância para a estimação dos parâmetros e estimação da probabilidade


de cobertura;

6. iter: o número de iterações do método de Newton para a resolução dos estimadores de


máxima verossimilhança;

7. N M C: o número máximo de cadeia markoviana no processo MCMC;

8. N ID: o número inicial de observações descartadas na cadeia markoviana gerada;

9. N D: o número de desbaste na reamostragem nal do processo MCMC;

80
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

10. η: o número de observações reamostradas no processo MCMC.

O processo implementado irá simular as N amostras, estimar em cada uma delas os

parâmetros α e β do modelo com um nível δ de signicância e, simultaneamente, calcular

seus respectivos intervalos com 100(1 − δ)% de conança, isto é, com probabilidade 1−δ de

cobertura.

Posteriormente, serão contados os IC's que contêm os parâmetros α e β , respectivamente,


e calculado a proporção de cobertura em cada caso, o índice de probabilidade de cobertura.

Em m, um teste de hipótese para a aceitação desta proporção será aplicada para aceitar

a probabilidade de cobertura estipulado e avaliar o comportamento do modelo.

Serão realizadas 32 simulações para efetuar a avaliação. O processo consiste em realizar

a simulação para amostras de tamanhos n = {10, 20, 50, 100} para 4 duplas de parâmetros
{(α; β)} = {(0.3; 0.9); (0.5; 1.5); (1.5; 0.5); (1.5; 2.0)}.
A escolha destes valores para (α; β) se justica pela avaliação do modelo Inverso de Chen

conforme o comportamento do modelo de risco apresentado na seção 3.4.2 com parâmetros

contidos em (0; 1) (1; +∞), respectivamente


e com os valores (0.3; 0.9) e (1.5; 2.0), e do

mesmo modo quando α < 1 com β > 1 e α > 1 com β < 1, respectivamente com os valores

(0.5; 1.5) e (1.5; 0.5).


Vale ressaltar que, tanto sob a abordagem da inferência clássica quanto a da bayesiana,

a estimação foi realizada pelo método da máxima verossimilhança, com a ressalva de que,

no caso clássico foi considerado os intervalos de conança assintóticos e no caso bayesiano

considerou-se os intervalos HPD.

Além disso, o processo computacional sobre as estimações na abordagem clássica foi

realizado pelo método de Newton (ou Newton-Raphson) através do cálculo das raízes dos

estimadores do modelo que, como mostrado na seção 3.3.1 são não lineares.

Já o processo computacional sobre a abordagem bayesiana, como até aqui descrito, foi

realizada através do método MCMC que foi implementado para N M C = 40000 iterações,

N ID = 10000 descartes iniciais e desbaste de N D = 30 elementos, totalizando η = 1000


reamostragens para cada uma das N = 500 amostras iniciais geradas.

Nos dois casos as estimativas foram obtidas através do método de Newton, que foi im-

plementado para 3000 iterações em cada uma das N = 500 amostras consideradas.

O nível de signicância considerado para a confecção das estimativas é de 5%, de modo

que os intervalos para os parâmetros na simulação foram estimados com 95% de conança

no caso clássico e 95% de credibilidade no caso bayesiano, e tais que a probabilidade de

cobertura esperada no processo foi de 0.95.


Contudo, vamos aqui xar que, dentre os N = 500 intervalos gerados, os resultados de

interesse para a simulação sobre θ = (θ1 ; θ2 ), onde θ1 = α e θ2 = β , são:

Frequência de cobertura (F rθ̂ ): o número de intervalos que contém seu respectivo parâ-

metro estimado, e como denido em 4.2.3 para a variável Φ, denimos F rθ̂ , para θ̂ = α̂

81
Probabilidade de Cobertura dos Parâmetros

ou θ̂ = β̂ , como:

N
X
F rθ̂ = Φi (4.6)
i=1

Probabilidade de cobertura (pθ̂ ): é, sobretudo, a proporção que F rθ̂ representa diante

do total de intervalos construídos, e de acordo com a expressão 4.6, é denido como:

N
1 X F rθ̂
pθ̂ = Φi = (4.7)
N i=1 N

Distância Entre as Probabilidades de Cobertura Teórica e Empírica(d{Pθ ;pθ } ): éo

valor absoluto da diferença entre a probabilidades de cobertura Pθ e pθ , respectiva-

mente, a teórica 1−δ e a empírica obtida em 4.7. É denido como:

d{Pθ ;pθ̂ } = |Pθ − pθ̂ | = |1 − δ − pθ̂ | (4.8)

Intervalo de Conança Assintótico para θi (IC{θi ;1−δ} ): é a precisão da estimação do

parâmetro de interesse resultante da i-ésimai = 1, 2, 3, ..., N , e através da


amostra,

inferência clássica, ou seja, estabelece-se assintoticamente limites para θ ˆi que é denido


por:

IC{θi ;1−δ} = (θˆi − z δ σ̂θˆi ; θˆi + z δ σ̂θˆi ) (4.9)


2 2
q
ˆ
onde σ̂θˆi = V ar(θˆi ), como denido em 3.38, e zδ é o quantil normal padrão com
2
nível δ de signicância.

Intervalo de Credibilidade para θi (R̂θ(0)i (1 − δ)): é a precisão da estimação do parâme-

tro de interesse resultante da i-ésima amostra, i = 1, 2, 3, ..., N , e através da inferência


bayesiana, ou seja, estabelece-se, através de reamostras para a amostra i, limites para

θˆi que é denido por:

(0) (k) (k+[1−δ]η)


R̂θˆ (1 − δ) = [θˆi ; θˆi ] (4.10)
i

como denido em 4.2.2 para uma sequência de k = 1, 2, 3, ..., η − (1 − δ)η intervalos.

Amplitude Média dos intervalos de θ (hIC{θ;1−δ } ): é a média das diferenças entre o li-

mite superior e inferior dos N intervalos gerados para θ̂, isto é, se hIC{θi ;1−δ } é a am-

plitude do intervalo para θi , hIC{θ;1−δ } é a amplitude média e denida como:

N
1 X
hIC{θ;1−δ } = hIC{θi ;1−δ } (4.11)
N i=1

82
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

(k+[1−δ]η) (k)
onde hIC{θi ;1−δ } = 2z δ σ̂θˆi no caso clássico e hIC{θi ;1−δ } = θˆi − θˆi no caso
2
bayesiano.

Média Amostral das Estimativas (µ̂θ̂ ): é a média das estimativas θ̂ na simulação para

o parâmetro θ, onde θ̂ = α̂ ou θ̂ = β̂ , e µ̂θ̂ é denido como:

N
1 X
µ̂θ̂ = θ̂i (4.12)
N i=1

Intervalo de Conança Assintótico para µθ̂ (IC{µθ̂ ;1−δ} ): em busca da precisão para a

estimação da média da estimativa µ̂θ̂ resultante, estabelece-se também limites para µθ̂
que, assumindo variância desconhecida, é denido por:

IC{µθ̂ ;1−δ} = (µ̂θ̂ − z δ σ̂µ̂θ̂ ; µ̂θ̂ + z δ σ̂µ̂θ̂ ) (4.13)


2 2

Sµ̂
onde σ̂µ̂θ̂ = √ θ̂ e zδ é o quantil normal padrão com nível δ de signicância.
n 2

Erro quadrático médio (EQMθ ): é a soma quadrática da diferença entre uma estimativa

θ̂i e o verdadeiro valor da quantidade estimada θ para avaliar um estimador para as

i = 1, 2, 3, ..., N estimativas calculadas, dene-se:

N
1 X
EQMθ = (θ − θ̂i )2 (4.14)
N i=1

Vício Médio do Estimador do Parâmetro (Vθ ): representa a média da diferença abso-

luta entre o verdadeiro valor do parâmetro e a sua i-ésima estimativa e é denida por:

N
1 X
Vθ = |θ − θ̂i | (4.15)
N i=1

Em particular, como o processo computacional se trata de um problema dimensional

elevado, diga-se para as N = 500 amostras consideradas, a exibição gráca de todo o pro-

cesso de iteração para o cálculo das estimativas de todas as amostras é quase impossível, em

particular na abordagem bayesiana.

Sobretudo, é indispensável uma avaliação para o processo de convergência no método

MCMC, e mesmo que dispensada a abordagem gráca destes resultados, ainda é desejável o

resumo adequado das informações sobre estes processos e, portanto, uma alternativa alcan-

çável é a adoção de medidas estatísticas, tais como as descritas na seção 2.5.4.

No entanto, estas medidas descrevem características importantes do processo de conver-

gência e solucionam o problema gráco encontrado de forma adequada. Tais medidas são

também resultados de interesse para a simulação e são descritas a seguir.

83
Probabilidade de Cobertura dos Parâmetros

Tempo de Autocorrelação (τ̂ρ̂θi ) : apesar da atribuição do nome "tempo", esta medida

é obtida sobre um ponto de corte k a partir do qual as autocorrelações para a distri-


buição a posteriori do parâmetro θi de interesse estão muito próximas de zero e são

então somadas até esse ponto, ou seja, τ̂ρ̂θ é o somatório de k − 1 correlações ρ̂θi (h) ge-
i

radas até o ponto de corte k , que comumente é xado como ρ̂θi (k) < 0.01 e denida por:

k−1
X
τ̂ρ̂θi = 1 + 2 ρ̂θi (h) (4.16)
h=1

onde ρ̂θi (h) é a autocorrelação de lag h para as η estimativas θˆi de interesse e é denida
em termos da função de autocovariância γ̂θi (k) = Cov(θ̂i;j ; θ̂i;j−k ) da amostra, tal

que 0 < j ≤ k < η onde η é o tamanho total da amostra na cadeia markoviana e


γ̂ (k)
ρ̂θi (k) = γ̂θθi (0) .
i

Tamanho Amostral Efetivo (ESSθi ) : ESS (Eective Sample Size - Tamanho Amostral

Efetivo) é uma medida de quão bem uma dada cadeia está convergindo e embora a

necessidade de precisão de cada experimento dira para cada modelo, comumente o

objetivo é obter uma medida esperada aproximada, ESSθi ∼


= η, onde η é o tamanho

total da amostra na cadeia markoviana e τ̂ρ̂θi é o tempo de autocorrelação. A medida

ESSθi é denida por:

η η
ESSθi = k−1
= (4.17)
X τ̂ρ̂θ
1+2 ρ̂θ (h)
h=1

Efetividade da Cadeia Markoviana (ef fθi ) : tomaremos aqui como efetividade a razão

entre o tamanho total da amostra na cadeia markoviana, η , e o tamanho efetivo para o


qual a cadeia convergiu e, apesar de escassa a denição formal da efetividade, a medida

ef fθi pode ser dada por:

ESSθi
ef fθi = (4.18)
η

donde, sem diculdades, verica-se que

1
ef fθi = (4.19)
τ̂ρ̂θi

Vale ressaltar que, no processo de execução do método MCMC, obteve-se η = 1000 ob-

servações reamostradas e que o alvo principal, dentre as três medidas anteriores de avaliação

da convergência da cadeia markoviana é a sua efetividade, ef fθi , para i = 1, 2, 3, ..., N .


Contudo, dado o problema dimensional do processo computacional obtido em virtude

das N = 500 amostras iniciais, isto é, as N = 500 medidas para ef fθi , neste trabalho consi-

84
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

deraremos a média e o desvio padrão entre as N = 500 medidas de efetividade, ou seja

N
1 X
ef f θ = ef fθi (4.20)
N i=1
e

v
u N
u 1 X
DP (ef fθ ) = t [ef fθi − ef f θ ]2 (4.21)
N − 1 i=1

Deste modo, ef f θ é uma estimativa para a avaliação da convergência de cada uma das

N = 500 execuções do método MCMC sob o desvio padrão DP (ef fθ ) e pode ser considerado
com precisão em seu intervalo de conança assintótico.

Contudo, dado o interesse em estudar as probabilidades de cobertura, uma tabela irá

resumir todos estas medidas descritas em cada um dos casos de parâmetros e para os n
tamanhos amostrais.

Além da síntese numérica será também apresentado os resultados grácos, como o que

aqui denominamos de 'linha de referência' para os intervalos de cobertura e o histograma

para as N = 500 estimativas de parâmetros calculadas em cada um dos 4 casos de tamanho

amostral.

O gráco linha de referência busca descrever o comportamento dos intervalos ao longo

das 500 estimativas obtidas. Ele irá mostrar a linha sobre o valor do verdadeiro parâmetro

em estudo da população, de modo que os IC's que contêm este valor são mostrados em azul

e nos quais o valor está fora do IC são mostrados em vermelho.

O gráco histograma, por sua vez, é adotado para descrever o comportamento das 500
estimativas calculadas para apontar que, assintoticamente, a distribuição amostral é apro-

ximadamente normal com média µθ . A distribuição amostral irá evidenciar como as estima-

tivas, α̂ e β̂ , podem variar devido à variação do tamanho da amostragem aleatória.

Tais resultados serão apresentados tanto sob a abordagem da inferência clássica quanto

na da Bayesiana como seguem, porém, os grácos descritos acima serão apresentados no

apêndice deste trabalho.

4.3 O Estudo da Simulação Clássica e Bayesiana


Na seção 4.1 o interesse foi relatar os pontos principais da simulação computacional que

será descrita, partindo da premissa inicial ao processo que é a geração dos dados amostrais,

expondo o método adotado para a geração de dados para a variável aleatória, como descrito

no tópico 4.1.1, e especicando seu item primordial, a expressão 4.1 como deduzida no tópico

4.1.2.

Anteriormente, na seção 3.2.2, cou vericado a existência do r-momento do modelo em

85
Probabilidade de Cobertura dos Parâmetros

estudo, fato pelo qual as aplicações assintóticas que seguem são validadas tornando incon-

testáveis as estimativas obtidas através da simulação para as N = 500 amostras geradas.

Na seção 4.2 adentramos efetivamente no objetivo da simulação de interesse, abordando

a importância da estimação intervalar, como descrita no tópico 4.2.1, justicando a impor-

tância do estudo de simulação adotada e, estendendo o conceito de precisão de estimativas

e de intervalo de credibilidade como apresentado no tópico 4.2.2.

O que é abordado nesta seção é o segundo resultado do trabalho desenvolvimento, e no

que tange sua temática principal, como proposto na fase inicial com o projeto, busca-se aqui

desenvolver, relatar e tirar conclusões, através de processos computacionais, da abordagem

clássica e bayesiana realizada sobre os intervalos de conança e de credibilidade do modelo

Y ∼ Chen−1 (α; β) para evidenciar seu comportamento e precisão sob diferentes amostras.

Por m, o interesse neste tópico é fundamentar o comportamento do modelo relacio-

nando diferentes parâmetros e amostras de diferentes tamanhos para avaliar a probabilidade

de cobertura descrita na seção 4.2.3.

No que segue, é realizado através dos resultados obtidos da simulação uma vericação

de como os estimadores do modelo se comportam, tendo como método de avaliação as esti-

mativas geradas e avaliadas através de sua média em seu respectivo intervalo de conança

e, principalmente, através da probabilidade de cobertura relativa aos intervalos de conança

dos parâmetros, e isso se desenvolve sobre a distância entre a probabilidade de cobertura

teórica e empírica, a amplitude média dos intervalos gerados, o estimador de máxima veros-

similhança e o viés, ambos para os tamanhos amostrais e diferentes valores de parâmetro

conforme descrito.

4.3.1 Resultados Obtidos Sobre os Estimadores dos Parâmetros

Como o nível de conança e credibilidade para os intervalos de cada uma das amostras

foram calculados com 95%, a probabilidade de cobertura teórica para cada um dos 4 casos

e para cada um dos parâmetros deve ser 0.95, ou seja, Pθ = 0.95 é a probabilidade de co-

bertura nominal ou esperada.

Entretanto, tem-se um fator determinante a ser levado em consideração, que é a avaliação

da proporção pθ de cobertura obtida, no sentido de saber qual é o nível aceitável da variação

em torno de 0.95, a sua precisão propriamente dita.

Vale ressaltar que, como descrito na seção 4.2.3, leva-se em consideração que a estimativa

pθ é uma proporção binomial, mas não usaremos o conceito de que a cobertura verdadeira

Pθ está, ou não, contida no intervalo IC{Pθ ;95%} .


Entretanto, é necessário uma medida de precisão para vericar se a estimativa pθ é plau-

sível, ou rejeitada e consequentemente, concluir se a simulação suporta a armação de que

os intervalos de conança tem cobertura de 95% quando uma amostra de tamanho N é

retirada de uma população com distribuição Y ∼ Chen−1 (α; β).

86
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

Note que, de acordo com a denição de distância entre dois pontos, d{Pθ ;pθ } = 0 somente

se Pθ = p θ , ou seja, a distância é 0quando Pθ e pθ são exatamente iguais e note que quando



isso ocorre, denindo a razão τ= Pθ
, obtem-se τ = 1 e tal que, como é xado que Pθ = 0.95,

para 0 ≤ pθ ≤ 0.95, resulta que 0 ≤ τ ≤ 1. E mais, isso permite armar que:

A: sobre a probabilidade total de cobertura empírica, pθ , desde que xado Pθ = 0.95, é

necessário sobre pθ = 1 um erro de 0.05 para que p θ = Pθ e consequentemente τ1 = 1.

Além disso, observa-se que, dada a variabilidade de pθ em [0; 0.95], existe um grau de
similaridade para τ e como é de interesse obter d{Pθ ;pθ } = 0, vamos tratar τ como uma
medida de similaridade com variação unitária e, consequentemente, pode ser interpretada

como uma analogia ao conceito de coeciente de correlação, pois varia em [0; 1] e atinge seu

estado de similaridade máxima, digamos perfeição, quando é igual a 1.


Porém, o interesse é avaliar o quão próximo pθ está de Pθ , isto é, o quão próximo

pθ = 0.95±d{Pθ ;pθ } está de Pθ = 0.95, através da distância d{Pθ ;pθ } . Nesta condição, mantendo
a analogia ao conceito de coeciente de correlação, podemos interpretar τ como:

• τ = 1: a similaridade é perfeita;

• 0.65 ≤ τ < 1: a similaridade é forte;

• 0.5 ≤ τ < 0.65: a similaridade é moderada;

• 0.35 ≤ τ < 0.5: a similaridade é fraca;

• 0 ≤ τ < 0.35: a dissimilaridade é perfeita, ou são diferentes.

É evidente que, se pθ > 0.95 então 1 < τ ≤ 1.0526, mas avaliar d{Pθ ;pθ } quando pθ > 0.95
é equivalente a avaliar d{Pθ ;pθ } quando 0.90 ≤ pθ < 0.95, isto é, como τ = 1 é ponto médio

em (0.9474; 1.0526), o grau de similaridade τ = 1.0526 é equivalente a τ = 0.9474.

Sendo assim, para avaliar o quão próximo pθ está de Pθ e dizer se são, ou não, similares, é

necessário xar τ2 ≥ 0.65 de modo que para a probabilidade pθ = 0.95 ± d{Pθ ;pθ } é necessário

um erro δ > d{Pθ ;pθ } , ou <, obtido através de A com a seguinte armação:

B: sobre a probabilidade total de cobertura empírica, pθ , desde que xado Pθ = 0.95, é

necessário sobre pθ = 1 um erro maior do que δ ∗


para que pθ ∼
= Pθ e consequentemente

τ2 ≥ 0.65 .

Deste modo, δ∗ é obtido pela proporção direta:

A δ τ1 0.05 1
⇒ ∗ = ⇒ ∗ = (4.22)
B δ τ2 δ 0.65

87
Probabilidade de Cobertura dos Parâmetros

ou seja, δ ∗ = 0.0325 é tal que, se δ ∗ = 0.0325 < d{Pθ ;pθ } , ou equivalentemente, 0.95±d{Pθ ;pθ } ∈
[0.9175; 0.9825], pθ é similar a Pθ e uma medida aceitável para a probabilidade de cobertura
do estimador do parâmetro θ de interesse.

Portanto, em vez do IC{Pθ ;95%} toma-se as medidas de proximidade d{Pθ ;pθ } e hIC{θ;95% } ,

respectivamente, a distância de pθ à Pθ e a amplitude média dos N intervalos gerados.

Além disso, é considerada as medidas de erro EQMθ e Vθ , respectivamente, o erro qua-

drático médio e o vício para os estimadores para avaliá-los e reforçar as armações sobre a

probabilidade de cobertura através de d{Pθ ;pθ } e hIC{θ;95% } .


A descrição dos resultados é dividida em 4 subtópicos para avaliar a simulação sobre as

amostras nos casos descritos anteriormente e segundo as abordagens clássica (C) e bayesiana

(B).

Análise do Modelo Y ∼ Chen−1 (0.3; 0.9)

Neste subtópico descreve-se os resultados para um caso particular em que 0 < α < β < 1.
A tabela 4.1 a seguir resume os valores obtidos nas condições descritas para os parâmetros

do modelo, onde a coluna n indica o tamanho da amostra, ou seja, a descrição dos resultados
ao caso especíco para a amostra de tamanho n dos parâmetros α e β segundo as técnicas

de inferência clássica e bayesiano, apontadas na coluna Tθ , onde Cθ indica as estimativas no

caso clássico e Bθ no caso bayesiano, e θ é o parâmetro de interesse, α e β nos casos.

Tabela 4.1: Resultados da simulação para os parâmetros no caso que α = 0.3 e β = 0.9.

n Tθ µ̂θ̂ IC{µθ̂ ;95%} F rθ̂ pθ d{pθ ;pθ̂ } hIC{θ;95% } EQMθ Vθ


Cα 0.3068 (0.0800; 0.6384) 454 0.9080 0.0420 0.5687 0.0221 0.1145
Bα 0.3160 (0.1263; 0.5701) 470 0.9400 0.0010 0.4399 0.0137 0.0900
10
Cβ 1.0367 (0.6297; 1.6017) 471 0.9420 0.0080 0.5706 0.0870 0.2141
Bβ 0.9837 (0.6358; 1.5168) 473 0.9460 0.0040 0.4414 0.0564 0.1733
Cα 0.3008 (0.1431; 0.5311) 457 0.9140 0.0360 0.3730 0.0092 0.0751
Bα 0.3082 (0.1656; 0.5067) 467 0.9340 0.0160 0.3257 0.0073 0.0664
20
Cβ 0.9610 (0.6941; 1.3043) 472 0.9440 0.0030 0.3743 0.0292 0.1280
Bβ 0.9373 (0.6917; 1.2604) 467 0.9340 0.0160 0.3267 0.0231 0.1149
Cα 0.2996 (0.1962; 0.4068) 473 0.9460 0.0040 0.2272 0.0030 0.0434
Bα 0.3033 (0.2038; 0.4040) 478 0.9560 0.0060 0.2136 0.0027 0.0414
50
Cβ 0.9213 (0.7730; 1.1142) 474 0.9480 0.0020 0.2278 0.0073 0.0658
Bβ 0.9124 (0.7678; 1.1001) 473 0.9460 0.0040 0.2142 0.0066 0.0628
Cα 0.3003 (0.2300; 0.3907) 475 0.9500 0.0000 0.1590 0.0020 0.0324
Bα 0.3022 (0.2332; 0.3919) 471 0.9420 0.0080 0.1530 0.0016 0.0317
100
Cβ 0.9065 (0.8009; 1.0240) 477 0.9540 0.0040 0.1594 0.0032 0.0452
Bβ 0.9021 (0.7982; 1.0191) 473 0.9460 0.0040 0.1534 0.0031 0.0443

A coluna µ̂θ̂ , mostra tanto no caso clássico como no bayesiano, que as estimativas para α
e β , em média, correspondem ao esperado e são aceitas sob 5% de signicância como mostra

88
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

a coluna IC{µθ̂ ;95%} , pois o verdadeiro valor destes parâmetros estão contidos em seus res-

pectivos IC's.

Além disso, em decorrência da frequência calculada, como exibida na coluna F rθ̂ , obtém-
se a probabilidade de cobertura que é exibida na coluna pθ com suas respectivas medidas de

proximidade, as colunas d{Pθ ;pθ } e hIC{θ;95% } na sequência.

A avaliação dos d{Pα ;pα } n mostram que, no caso clássico a cober-


ao longo dos tamanhos

tura empírica pα está consideravelmente distante da teórica Pα = 0.95 para as amostras de

tamanho n = 10 e n = 20, respectivamente, d{Pα ;pα } = 0.0420 e d{Pα ;pα } = 0.0360, evidenci-

ando a subestimação para o estimador de α para amostras pequenas, pois pθ < Pθ .

Vale destacar que, como xado anteriormente um limite máximo de 0.0325, temos que

valores como 4.2% e 3.6% são demasiados elevados em comparação a 3.25%, e em virtude

disso é considerado que as distâncias descritas anteriormente são relevantes e as estimativas

subestimadas.

Para os demais casos verica-se proximidade satisfatória, uma vez que tanto d{Pα ;pα }
como d{Pβ ;pβ } são menores ou iguais a 1.6%.
Logo, das 8 coberturas clássicas e bayesianas calculadas, no caso em que n = 10 as

probabilidades de cobertura clássicas encontram-se distantes do valor teórico nos dois casos

paramétricos, por isso arma-se que neste caso de parâmetros a cobertura no caso bayesiano

é melhor que o clássico.

Além disso, avaliando a amplitude média verica-se que, a medida que o tamanho da

amostra aumenta os valores de hIC{θ;95% } diminuem e, dentre todos os casos de tamanho

amostral, são menores no caso bayesiano, embora sejam de mesma grandeza que o parâme-

tro de interesse.

Isso evidencia que os intervalos de credibilidade são os mais precisos, pois ao longo de

todos os tamanhos amostrais constata-se que hIC{θ;95% } é menor no caso bayesiano.

A coluna EQMθ fornece o desempenho dos estimadores do modelo e os baixos valores

para os resultados mostram que os erros obtidos foram também baixos, em todos os casos

amostrais e para os 2 parâmetros do modelo, tanto no caso clássico como no bayesiano.

Por m, a coluna Vθ apresenta resultados similares ao EQMθ , no sentido de que o viés

para os estimadores são todos baixos e destacando que as distâncias entre cada uma das

estimativas e o verdadeiro valor do parâmetro são razoavelmente baixos.

Verica-se que, em geral, as cadeias do processo MCMC não produziram amostras inde-

pendentes, isto é, que cada ponto de reamostragem dependeu do ponto anterior pois, como

se espera que a eciência do processo seja relativamente alta, diga-se estatisticamente ≥ 1,


isso é evidenciado com os resultados apresentados na coluna IC{µef f θ ;95%} .
Neste caso, como todas as eciências são ≥ 1, constata-se que a estimativa para o tempo
de correlação é também aproximadamente igual a 1, visto a denição de eciência exibida

em 4.19. Isso signica que, em média, foi necessário uma única observação da saída MCMC

para fazer inferências sobre os parâmetros de interesse com a mesma precisão de uma amos-

tra independente.

89
Probabilidade de Cobertura dos Parâmetros

Similarmente, de modo geral, durante os500 processos realizados o tamanho efetivo da


amostra foi também de aproximadamente 1000 observações, visto que a eciência e o tempo

de autocorrelação são aproximadamente 1 e conforme as denições 4.17 e 4.18, o que reetiu

a alta eciência obtida.

A tabela a seguir apresenta as estatísticas do diagnóstico de convergência do MCMC.

Tabela 4.2: Diagnóstico para a simulação MCMC no caso α = 0.3 e β = 0.9.

Eciência n Mínimo Máximo ef f θ DP (ef fθ ) IC{µef f θ ;95%}


10 0.3603 2.0176 1.0194 0.1538 (1.0059; 1.0329)
20 0.5158 2.2038 1.0337 0.1557 (1.0200; 1.0474)
ef fα
50 0.6124 1.9753 1.0239 0.1414 (1.0115; 1.0363)
100 0.7034 1.5055 1.0145 0.1163 (1.0043; 1.0247)
10 0.3514 3.2313 0.9954 0.1808 (0.9796; 1.0113)
20 0.4787 2.3372 1.0273 0.1569 (1.0135; 1.0411)
ef fβ
50 0.4327 2.5858 1.0185 0.1524 (1.0051; 1.0319)
100 0.5614 1.9239 1.0212 0.1481 (1.0082; 1.0342)

No apêndice 5 são apresentados os resultados grácos para este caso da simulação. As

guras 5.1 e 5.2 para o parâmetro α, respectivamente, no caso clássico e bayesiano, e as

guras 5.3 e 5.4 para β clássico e bayesiano, respectivamente.

Como é exibido, nota-se que os grácos seguem em dupla coluna, linha de referência

e histograma, para cada tamanho amostral e busca representar a evolução do conjunto de

amostras ao longo das n observações simuladas. As 4 duplas em cada gráco apresentam

a evolução para o parâmetro de interesse e no caso da inferência de interesse, onde a 1◦ ,


2◦ , 3◦ e 4◦ duplas são referentes aos conjuntos de amostras de tamanho 10, 20, 50 e 100,
respectivamente, em cada um dos 4 grácos.

Ambas as evoluções permitem vericar, visualmente, como que o tamanho da amostra e

a probabilidade de cobertura empírica afetam a distribuição amostral do modelo.

Em destaque, quando n = 100, para os parâmetros α e β, do caso clássico e bayesiano,

observa-se uma convergência quase perfeita para uma distribuição amostral Normal.

Análise do Modelo Y ∼ Chen−1 (0.5; 1.5)

Como no caso paramétrico anterior, buscamos agora descrever os resultados da simulação

para um caso particular do modelo em que 0 < α < 1 < β.


Verica-se que, em média, as estimativas para os parâmetros estão em torno de seus

verdadeiros valores e ambos contidos em seus respectivos intervalos de conança, como é

mostrado nas colunas µ̂θ̂ e IC{µθ̂ ;95%} .


Além disso, particularmente ao se tratar da técnica de inferência realizada, a precisão

destes intervalos são equivalentes e aumentam a medida que o tamanho n da amostra au-

menta. Esta observação também é realizada sobre a amplitude média hIC{θ;95% } evidenciando

que a precisão dos intervalos de credibilidade é maior.

90
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

Embora o parâmetro β no conjunto de amostras de tamanho n = 10 e n = 20 apresente

uma elevada estimativa, esse fato pode ser justicado pelo seu valor real, que neste caso é

β = 1.5 > 1, enquanto que os erros EQMθ elevados são de grandeza (0; 1), baixos em relação
ao valor teórico e, por serem baixos, permite a aceitação de Vθ elevado.

As estimativas para a simulação deste caso são apresentadas na tabela que segue.

Tabela 4.3: Resultados da simulação para os parâmetros no caso que α = 0.5 e β = 1.5.

n Tθ µ̂θ̂ IC{µθ̂ ;95%} F rθ̂ pθ d{Pθ ;pθ } hIC{θ;95% } EQMθ Vθ


Cα 0.5381 (0.1724; 1.1200) 469 0.9380 0.0120 0.8503 0.0586 0.1757
Bα 0.5318 (0.2262; 0.9961) 471 0.9420 0.0080 0.6589 0.0369 0.1423
10
Cβ 1.7627 (1.0433; 2.9672) 481 0.9620 0.0120 0.8540 0.3233 0.4092
Bβ 1.6773 (1.0490; 2.7202) 474 0.9480 0.0020 0.6618 0.2176 0.3425
Cα 0.5112 (0.2867; 0.7935) 478 0.9560 0.0060 0.5362 0.0171 0.1021
Bα 0.5123 (0.3087; 0.7667) 479 0.9580 0.0080 0.4707 0.0139 0.0922
20
Cβ 1.6174 (1.1312; 2.3757) 473 0.9460 0.0040 0.5381 0.1091 0.5404
Bβ 1.5822 (1.1241; 2.2885) 464 0.9280 0.0220 0.4723 0.0899 0.2213
Cα 0.5028 (0.3601; 0.6915) 476 0.9520 0.0020 0.3219 0.0067 0.0627
Bα 0.5037 (0.3683; 0.6820) 473 0.9460 0.0040 0.3035 0.0061 0.0601
50
Cβ 1.5362 (1.2629; 1.8823) 481 0.9620 0.0120 0.3234 0.0273 0.1268
Bβ 1.5231 (1.2553; 1.8648) 475 0.9500 0.0000 0.3049 0.0252 0.1231
Cα 0.5047 (0.3913; 0.6327) 466 0.9320 0.0180 0.2252 0.0040 0.0495
Bα 0.5052 (0.3936; 0.6312) 462 0.9240 0.0260 0.2173 0.0038 0.0484
100
Cβ 1.5237 (1.3253; 1.7601) 478 0.9560 0.0060 0.2260 0.0140 0.0927
Bβ 1.5173 (1.3219; 1.7467) 473 0.9460 0.0040 0.2180 0.0134 0.0910

Com destaque para o parâmetro α no conjunto de amostras de tamanho n para o caso

bayesiano, observa-se que para a amostra de tamanho n = 100 obteve-se a maior distância
entre as coberturas teórica e empírica entre todos os 16 casos simulados. Porém, menor que
o limite 0.0325.
Como este é o caso de maior tamanho amostral espera-se que o valor para o índice pα
seja o mais próximo possível de 0.95, porém, mesmo ele se mostrando o mais distante entre

os quatro casos paramétricos, os quatro tamanhos amostrais e as duas técnicas considerados,

verica-se neste caso a menor amplitude média entre todos os possíveis casos simulados, bem

como o menor EQMθ e Vθ .


Similarmente, sobre o parâmetro β, também no caso bayesiano, muito embora pθ =
0.0220 no caso n = 20 tenha sido a maior distância neste caso paramétrico, sobretudo, é

o mais eciente neste tamanho amostral, pois dentre as estimativas α e β no caso clássico
e bayesiano, seu estimador possui os menores hIC{θ;95% } , EQMβ e Vβ , isto é, hIC{β;95% } <
hIC{α;95% } , EQMβ < EQMα e Vβ < Vα .
Sobretudo, os dados da tabela 4.3 mostram que a medida o tamanho da amostra aumenta

os estimadores do modelo, no caso clássico e bayesiano, convergem para o valor esperado de

0.95 na probabilidade de cobertura e 0 para d{Pθ ;pθ } , hIC{θ;95% } , EQMθ e Vθ , destacando que

estes estimadores são ecientes.

91
Probabilidade de Cobertura dos Parâmetros

A tabela a seguir apresenta as estatísticas do diagnóstico de convergência do MCMC.

Tabela 4.4: Diagnóstico para a simulação MCMC no caso α = 0.5 e β = 1.5.

Eciência n Mínimo Máximo ef f θ DP (ef fθ ) IC{µef f θ ;95%}


10 0.3122 1.8540 0.9940 0.1581 (0.9801; 1.0078)
20 0.4650 2.6771 1.0111 0.1682 (0.9963; 1.0259)
ef fα
50 0.3782 1.6295 0.9931 0.1347 (0.9813; 1.0050)
100 0.6039 1.9323 0.9849 0.1367 (0.9729; 0.9969)
10 0.2272 1.9887 1.0091 0.1908 (0.9923; 1.0258)
20 0.3993 1.8801 1.0019 0.1526 (0.9885; 1.0153)
ef fβ
50 0.6419 2.4251 0.9981 0.1609 (0.9839; 1.0122)
100 0.6214 2.7644 0.9751 0.1578 (0.9613; 0.9890)

As estimativas mostram que o processo MCMC teve uma rápida convergência, uma vez

que a eciência média de cada um dos 8 processos é relativamente alta, pela qual também se

conclui que existiu baixa autocorrelação entre as amostras em virtude do tempo de correlação

aproximadamente igual a 1. Também se conclui que o tamanho amostral efetivo do processo


foi de aproximadamente 1000 observações.
As guras 5.7, 5.8, 5.5 e 5.6, no apêndice 5, mostram o comportamento destas estimativas

ao longo dos 4 casos de tamanho amostral simulado e segundo as inferências clássica e

bayesiana. Os histogramas evidenciam que a medida que o tamanho das amostras aumentam,

os dados convergem para uma distribuição simétrica.

Nos grácos da linha de referência, tanto em α como em β e em ambas as inferências,

observa-se que as extremidades dos IC's tendem a se distribuírem simetricamente em torno

do verdadeiro valor do parâmetro xado, e nos grácos dos histogramas, verica-se também

uma convergência simétrica para os parâmetros.

Esta simulação evidencia que, nos casos em que 0 < α < 1 < β, para n > 20 os

pressupostos teóricos de normalidade da população não são afetados.

Análise do Modelo Y ∼ Chen−1 (1.5; 0.5)

Este é um caso particular das classes do modelo Inverso de Chen onde 0 < β < 1 < α.
Partindo da análise dos resultados sobre α, quando n = 10 no caso clássico, a média ob-

tida para estas estimativas, bem como seu intervalo de conança, sugerem superestimação

sobre o parâmetro em questão, dado que µ̂α̂ = 1.9576 com IC{µα̂ ;95%} = (0.8885; 4.9828).
No entanto, neste caso paramétrico ca constatado que os estimadores do modelo, no

caso clássico, apresentam bons resultados apenas para as grandes amostras, dado os valores

EQMα = 1.6870 e Vα = 0.6904 para a amostra de tamanho n = 10 em comparação com o

verdadeiro valor xado para o parâmetro e o valor esperado 0.


Logo, no caso clássico em que n = 10 não podemos considerar que o estimador do parâ-

metro α é eciente.

92
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

As estimativas para a simulação deste caso são apresentadas na tabela a seguir.

Tabela 4.5: Resultados da simulação para os parâmetros no caso que α = 1.5 e β = 0.5.

n Tθ µ̂θ̂ IC{µθ̂ ;95%} F rθ̂ pθ d{Pθ ;pθ } hIC{θ;95% } EQMθ Vθ


Cα 1.9576 (0.8885; 4.9828) 488 0.9760 0.0260 3.5640 1.6870 0.6904
Bα 1.7270 (0.9019; 3.3034) 486 0.9720 0.0220 2.2410 0.4368 0.4628
10
Cβ 0.5930 (0.3410; 1.0467) 492 0.9840 0.0340 3.5650 0.0438 0.1481
Bβ 0.5598 (1.0156; 2.6264) 491 0.9820 0.0320 2.2410 0.0242 0.1171
Cα 1.6795 (1.0029; 2.8995) 485 0.9700 0.0200 1.8070 0.2854 0.3650
Bα 1.6320 (1.0156; 2.6264) 476 0.9520 0.0020 1.5220 0.1984 0.3231
20
Cβ 0.5544 (0.3684; 0.8487) 481 0.9620 0.0120 1.8080 0.0185 0.0986
Bβ 0.5441 (0.3676; 0.8017) 475 0.9500 0.0000 1.5220 0.0147 0.0899
Cα 1.5514 (1.1734; 2.1236) 486 0.9720 0.0220 0.9690 0.0646 0.1951
Bα 1.5416 (1.1708; 2.0863) 480 0.9600 0.0100 0.9096 0.0595 0.1887
50
Cβ 0.5125 (0.4029; 0.6553) 480 0.9600 0.0100 0.9695 0.0043 0.0511
Bβ 0.5101 (0.4038; 0.6530) 474 0.9480 0.0020 0.9101 0.0040 0.0495
Cα 1.5249 (1.2433; 1.8959) 482 0.9640 0.0140 0.6573 0.0300 0.1327
Bα 1.5207 (1.2421; 1.8793) 476 0.9520 0.0020 0.6338 0.0290 0.1312
100
Cβ 0.5065 (0.4236; 0.5983) 474 0.9480 0.0020 0.6577 0.0021 0.0361
Bβ 0.5054 (0.4234; 0.5965) 469 0.9380 0.0120 0.6342 0.0020 0.0357

Isso reforça, ou é reforçado, pelo resultado obtido na cobertura empírica que, neste

caso de tamanho amostral indica que este estimador superestima a estimativa α, pois

α̂ = 1.9576 > 1.5 = α além depα = 0.9760 > 0.95 = Pα .


Além disso, a amplitude média calculada para as N = 500 amostras da simulação destaca

que este estimador é impreciso em virtude de que, para o valor teórico α = 1.5, a amplitude

média obtida é de hIC{α;95% } = 3.5640, mais que o dobro de seu valor teórico.

Ainda no contexto clássico, ao analisar as estimativas para o parâmetro β , observa-se que

embora os valores para EQMβ e Vβ sejam toleráveis, é obtido os valores hIC{β;95% } = 3.5650,

pβ = 0.9840 e d{Pβ ;pβ } = 0.0340 > 0.0325, que são os mais altos neste caso da simulação,
onde n = 10 observações por amostra. Note que hIC{β;95% } é mais que 7 vezes o valor real do

parâmetro, xado por β = 0.5, evidenciando uma imprecisão mais grave do que a do caso α.

Porém, os resultados mostram que a medida que o tamanho da amostra aumenta, o

desempenho do estimador de α melhora, com a queda de EQMα e Vα , bem como suas es-

timativas que em média se aproximam do verdadeiro valor. Contudo, estatisticamente, os

estimadores do modelo no caso clássico não são ecientes para amostras de qualquer tama-

nho, especicamente de tamanho pequeno, em particular no caso em que n = 10.


Agora, no caso bayesiano, verica-se que os valores para EQMθ e Vθ , nos quatro casos

de tamanho amostral, são aceitáveis.

Em particular, no caso em que n = 10, apesar de se observar um caso de elevado valor


para as estimativas de α, diga-se EQMα = 0.4368 e Vα = 0.4628, visto que α = 1.5, quando

comparada as grandezas de EQMα e Vα com α teórico, verica-se diferenças razoáveis, porém

93
Probabilidade de Cobertura dos Parâmetros

aceitáveis, entre seus valores, uma vez que EQMα > 0 e Vθ > 0 não indica que um estimador
é, necessariamente, ineciente pois na prática um pequeno erro e vicio é permitido.

Visto que, considerando estimativas para α, tal que α̂ ∈ α ± EQMα , resulta que α̂ ∈
(1.0632; 1.9368) ⊆ IC{µα̂ ;95%} sendo por isso aceitável já que EQMα é uma medida de erro

das estimativas α̂ em torno de α.

No entanto, sobre Vα em relação a α, como o EQMα é tolerável e Vα = 0.4628 não repre-

senta, essencialmente, o vício para o estimador de α por ser relativamente pequeno, diga-se

que o vício para o estimador deste caso é fraco com EQMα aceitável e, por isso, Vα = 0.4628

é permitido. Logo, o estimador para α é estatisticamente eciente.

Pela mesma razão que se armou a eciência anterior, no caso bayesiano para o tamanho

amostraln = 10, arma-se que o estimador de β também o é, dado que EQMβ = 0.0242
e Vβ = 0.1171, e no caso clássico, e do mesmo modo a eciência, no caso clássico para o

tamanho amostral n = 20, para o estimador de α é estatisticamente obtida.

Em m, para todos os demais casos de tamanho amostral não descritos, clássico e baye-

siano, temos que a eciência é imediata, visto que EQMθ e Vθ diminuem a medida que n
aumenta.

A tabela a seguir apresenta as estatísticas do diagnóstico de convergência do MCMC e

mostra que o processo, em média, teve uma rápida convergência visto que a eciência média

é aproximadamente igual a 1.

Tabela 4.6: Diagnóstico para a simulação MCMC no caso α = 1.5 e β = 0.5.

Eciência n Mínimo Máximo ef f θ DP (ef fθ ) IC{µef f θ ;95%}


10 0.4944 1.8634 0.9404 0.1618 (0.9328; 0.9613)
20 0.5998 2.4288 1.0176 0.1323 (1.0063; 1.0295)
ef f (α)
50 0.5699 1.9293 1.0175 0.1371 (1.0054; 1.0295)
100 0.5135 2.3230 0.9650 0.1742 (0.9497; 0.9803)
10 0.5871 1.7489 0.9942 0.1385 (0.9821; 1.0064)
20 0.6625 1.8162 1.0179 0.1323 (1.0063; 1.0295)
ef f (β)
50 0.6555 1.6927 1.0166 0.1410 (1.0042; 1.0290)
100 0.5956 1.9770 1.0097 0.1449 (0.9970; 1.0225)
Fonte: Autoria Prórpia (2017).

Análise do Modelo Y ∼ Chen−1 (1.5; 2.0)

Temos agora os resultados da simulação para um caso particular do modelo em que

1 < α < β, e para os 4 conjuntos de amostras estes resultados são apresentados na tabela a

seguir.
É evidente aqui o mesmo comportamento para o caso particular anterior, onde o estima-

dor do parâmetro α e β apresenta um péssimo desempenho para as amostras de tamanho

n = 10, ajustando-se para um bom desempenho à medida que o tamanho amostral aumenta.

94
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

Tabela 4.7: Resultados da simulação para os parâmetros no caso que α = 1.5 e β = 2.0.

n Tθ µ̂θ̂ IC{µθ̂ ;95%} F rθ̂ pθ̂ d{Pθ ;pθ̂ } hIC{θ;95% } EQMθ Vθ


Cα 2.0785 (0.9267; 6.4935) 492 0.9840 0.0340 3.9650 3.1790 0.7944
Bα 1.7624 (0.9318; 3.5865) 485 0.9700 0.0200 2.3010 0.4947 0.4824
10
Cβ 2.4577 (1.3584; 4.5398) 489 0.9780 0.0280 3.9740 0.9411 0.6821
Bβ 2.2943 (1.3533; 3.7246) 486 0.9720 0.0220 2.3060 0.4974 0.5286
Cα 1.6861 (1.0368; 2.9932) 489 0.9780 0.0280 1.8180 0.2874 0.3783
Bα 1.6384 (1.0366; 2.6976) 482 0.9640 0.0140 1.5320 0.0000 0.0000
20
Cβ 2.2173 (1.4903; 3.3056) 486 0.9720 0.0220 1.8200 0.2673 0.3822
Bβ 2.1754 (1.5048; 3.1484) 477 0.9540 0.0040 1.5340 0.2039 0.3346
Cα 1.5645 (1.1791; 2.1260) 487 0.9740 0.0240 0.9784 0.0632 0.1912
Bα 1.5543 (1.1729; 2.0998) 480 0.9600 0.0100 0.9159 0.0580 0.1851
50
Cβ 2.0746 (1.6097; 2.6966) 474 0.9480 0.0020 0.9804 0.0757 0.2084
Bβ 2.0643 (1.6157; 2.6748) 469 0.9380 0.0120 0.9181 0.0703 0.2018
Cα 1.5321 (1.2336; 1.9068) 475 0.9500 0.0000 0.6609 0.0311 0.1359
Bα 1.5276 (1.2284; 1.8967) 464 0.9280 0.0220 0.6357 0.0300 0.1337
100
Cβ 2.0300 (1.7389; 2.4324) 479 0.9580 0.0080 0.6621 0.0327 0.1396
Bβ 2.0254 (1.7357; 2.4234) 477 0.9540 0.0040 0.6369 0.0318 0.1378

α que, além de pα = 0.0340 > 0.0325 , em amostras estritamente peque-


Nota-se sobre

nas apresenta EQMα e Vα extrapolados quando comparado ao verdadeiro valor de α, com

EQMα = 3.1790 e Vα = 0.7944.


Este comportamento chama a atenção para a característica de α, uma vez que no caso

anterior tínhamos β < 1 e logo α > β , aqui temos também β > 1 e ainda α < β . E mais, os

grácos da linha de referência mostrados na gura 5.13 no apêndice 5 evidencia a analogia

armada acima quando comparado aos da gura 5.9.

Particularmente para o tamanho amostral n = 10, uma comparação simples mostra as

amplitudes discrepantes em alguns IC's nos 2 casos e isso nos remete a um problema de

variância nestes intervalos, uma vez que eles variam entre amplitudes curtas e longas ao

longo das N = 500 amostras simuladas.

Tal comportamento também se observa para os conjuntos de amostras de tamanho 20,


50 e 100, α, não evitam a grande va-
que embora atribuem eciência para o estimador de

riância na amplitude dos IC's calculados que chegam a medir de 35 a 90 unidades como se

observa no gráco da linha de referência para amostras de tamanho n = 10 na gura 5.13

no apêndice 5.

No entanto, este comportamento faz menção a um comportamento de forma e isso aponta

para α a característica de um parâmetro de forma no modelo Inverso de Chen. No entanto,

não cabe a este trabalho provar tal armação de maneira que esta característica mantem-se

aqui como uma alusão a um atributo do parâmetro α.


No apêndice 5, a imagem 5.13, como mencionada anteriormente, é exibido a simetria dos

espaçamentos em torno de α = 1.5 e a distribuição simétrica das estimativas α̂ é observada

95
Probabilidade de Cobertura dos Parâmetros

apenas para o conjunto de amostras de tamanho n = 100 como se observa.

A gura 5.13 evidencia a ineciência do estimador de α e torna visualmente notável o

mau desempenho deste estimador quando n = 10.


Sobre β, no caso clássico, a análise dos resultados permite constatar também um com-

portamento irregular diante de amostras pequenas pois, apesar de pβ = 0.0280 < 0.0325 ser
perfeitamente aceitável, verica-se que EQMβ = 0.9411 e Vβ = 0.6821, relativamente altos
em comparação ao valor esperado de 0.
As armações sobre β tornam-se evidentes com a visualização do gráco 5.15, onde nos

grácos da linha de referência e do histograma, para os conjuntos em que n = 10 e n = 20,


verica-se que os limites superiores dos IC's sobre a linha de referência encontram-se supe-

restimados em relação a distância da linha β = 2.0 e, nos mesmos conjuntos, os histogramas


para as estimativas β̂ possuem uma assimetria positiva.

Uma ressalva para o caso bayesiano do parâmetro β estimado sobre a amostra de ta-
manho n = 10 se faz em relação aos erros EQMβ = 0.4974 e Vβ = 0.5286, uma vez que o

vício é razoavelmente elevado, porém o erro quadrático médio é baixo, visto que β = 2.0.

Similarmente, o mesmo resultado se verica sobre α neste mesmo caso de simulação.

No entanto, o estimador de α e β são ecientes para pequenas amostras neste caso pa-

ramétrico.

Os grácos da linha de referência e histograma dos resultados para o caso bayesiano são

também apresentados no apêndice 5.

A tabela a seguir apresenta as estatísticas do diagnóstico de convergência do MCMC e

mostra que o processo teve uma rápida convergência diante dos valores mostrados e espera-

dos.

Tabela 4.8: Diagnóstico para a simulação MCMC no caso α = 1.5 e β = 2.0.

Eciência n Mínimo Máximo ef f θ DP (ef fθ ) IC{µef f θ ;95%}


10 0.6196 2.7872 1.0201 0.1570 (1.0063; 1.0339)
20 0.4504 1.8343 1.0136 0.1428 (1.0011; 1.0262)
ef f (α)
50 0.5214 2.0163 1.0176 0.1597 (1.0036; 1.0316)
100 0.6173 2.2128 1.0262 0.1425 (1.0137; 1.0387)
10 0.5724 2.4462 1.0272 0.1597 (1.0132; 1.0413)
20 0.5679 2.4302 1.0231 0.1507 (1.0099; 1.0364)
ef f (β)
50 0.5548 1.9540 1.0118 0.1332 (1.0001; 1.0235)
100 0.6761 2.0341 1.0310 0.1446 (1.0183; 1.0437)

4.3.2 Discussões Sobre a Análise dos Resultados da Simulação

Como descrito, foi apresentado os resultados da simulação para 4 casos de α e β ,


(α; β) = (0.3; 05); (0.5; 1.5); (1.5; 0.5); (1.5; 2.0), respectivamente, para α < β, α < β, α > β
e α < β , segundo as abordagens clássica e bayesiana.

96
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

Observa-se que apenas nestes 4 casos paramétricos a simulação gerou uma extensa gama
de saídas que consistem em 2 tipos de tabelas e 2 tipos de grácos, totalizando 16 tabelas, 8

de dimensão 17 × 10 para as estimativas dos parâmetros, 8 de dimensão 9 × 7 para as esti-

mativas dos processos MCMC e 128 grácos, 64 em cada caso de inferência com 32 grácos

de linha de referência e 32 histogramas.

Esta quantidade de saídas forçou a limitação dos casos de α e β , de modo que alguns

casos não foram investigados, tais como as combinações de valores extrapolados para α e β ,

tanto em (0; 1) para baixos valores como em (1; +∞) para grandes valores, e especicamente

para os casos do valor de α = 1 com β 6= α, α 6= β com β = 1 e o caso α = β = 1.

Além destes valores de parâmetros, os casos em que α, β ∈ (0; 1) com α > β e α, β ∈

(1; +∞) com α > β .


Contudo, discute-se aqui a necessidade de que mais investigações são necessárias para

constatar, de modo conclusivo, completo e geral, que os estimadores de máxima verossi-

milhança de α e β são efetivamente ecientes apenas para grandes amostras, segundo a

abordam clássica, e para amostras de qualquer tamanho, em particular as de tamanho pe-

queno, segundo a abordagem bayesiana.

4.3.3 Conclusões Sobre a Simulação

Sobre a abordagem da Inferência Bayesiana, nenhuma irregularidade ou ineciência se ob-

servou sobre o respectivo EMV (estimador de máxima verossimilhança) de α e o β . Conclui-se


que sob esta abordagem os EMVs funcionam em excelentes condições.

Agora, sobre a abordagem da Inferência Clássica, os resultados anteriores permitem con-

cluir que o EMV dos parâmetros do modelo Inverso de Chen não funcionam com eciência

para amostras de qualquer tamanho, em particular, para tamanhos pequenos considerados

nas simulações, como se vericou para n = 10.


Partindo das conclusões sobre o EMV do parâmetro α, conclui-se que ele não opera de

forma apropriada para amostras de tamanho pequeno, particularmente para tamanhos em

torno de 10 observações, quando abordado pela inferência clássica.

Um agravante para este EMV, no caso clássico, é notável nos casos em que α > 1, pois
−1 −1
como mostrado nas análises dos resultados para os modelos Chen (1.5; 0.5) e Chen (1.5; 2.0),

além de a probabilidade de cobertura empírica ser superestimada, o erro e o vício deste es-

timador encontram-se extrapolados do limiar permitido.

Sobretudo, de forma generalizada no caso clássico, conclui-se que os estimadores do mo-

delo Inverso de Chen está habilitado para fornecer estimativas para α e β para amostras
grandes, diga-se n ≥ 20, mais especicamente nos casos em que α > 1 e independente da
grandeza de β.
Especicamente para o caso em que α < 1 < β, os EMV apresentaram eciência para

amostras de qualquer tamanho, inclusive para tamanhos n = 10, diferente dos demais casos

97
Probabilidade de Cobertura dos Parâmetros

observados.

Sobre β, a conclusão é que para qualquer amostra de tamanho em torno ou maior de 10


observações, de um modo geral para α<β ou α>β nos casos considerados, seu EMV é

eciente e apropriado para fornecer as estimativas sobre β.


Particularmente, o EMV de β mostrou-se inadequado em amostras de tamanho n = 10
nos casos em que α > 1. No caso α < β < 1, embora o EMV para α tenha sido ineciente o

EMV para β mostrou-se eciente.

Para os casos em que 0 < α < 1, para qualquer β considerado e em conjuntos de amostras
de qualquer tamanho, o EMV de β mostrou-se, além de adequado em virtude da probabi-

lidades de cobertura empírica, eciente em decorrência dos baixos valores de erro e vício

apresentados nestes casos.

98
CAPÍTULO 5

CONCLUSÕES PARCIAIS

Os resultados apresentados na seção 3.2.2, ao que se refere a avaliação do r-ésimo mo-

mento do modelo Inverso de Chen, torna evidente a existência dos momentos de ordem r
−1
para Y ∼ Chen (α; β).
Particularmente, a convergência de E(Y r ) permite concluir que existem os momentos de
2
ordem r = 1 e r = 2, o que implica que existe uma média µY e uma variância σY para o mo-

delo proposto denidos através de seus parâmetros α e β , o que valida e torna incontestável

qualquer um dos resultados assintóticos que se pode obter a cerca do modelo em questão.

Formalmente, ∀ r ∈ ℵ∗ , conclui-se que

Z+∞
E(Y ) =r
αβy r−(β+1) exp{y −β + α[1 − exp(y −β )]}dy −→ K
0

Na seção 4.3 os resultados permitem concluir que os estimadores de máxima verossimi-

lhança dos parâmetros não apresentam um bom desempenho para a maioria dos casos de

amostras pequenas, e principalmente na combinação com valores elevados, ou seja, quando

n é pequeno e os valores atribuídos aos parâmetros α e β são elevados, resulta que a estima-

tiva para a probabilidade de abrangência do parâmetro não é boa, pois seu verdeiro valor é

rejeitado.

Além disso, conclui-se que ambos os estimadores são ecazes para grandes amostras,

especicamente para n ≥ 100, pois como observado é inevitável a obtenção de baixos desem-
penhos para estes estimadores para algum caso de α e β , como por exemplo, em amostras

de tamanho 10 e 20 para α > 1 ou β > 1, principalmente.

Uma conclusão favorável sobre o estudo das probabilidades de abrangência empírica de

αeβ advém do fato de que para baixos valores de α com valores elevados para β , os estima-
dores mostram-se, além de ecientes, fornecendo resultados incontestáveis sobre a amostra

mesmo quando estas apresentam um número pequeno de observações, como mostrado no

caso em que α = 0.5 e β = 1.5.

99
CONCLUSÕES PARCIAIS

A inuência do parâmetro α sobre os dois EMV estudados é também um fato conclu-

sivo no estudo da probabilidade de abrangência dos parâmetros do modelo, pois como se

observa na seção 4.3, para as amostras pequenas na simulação realizada foi notável o fato

da inadequação de comportamento de ambos os estimadores ao que se refere o estudo das

probabilidades de abrangência empíricas dos parâmetros do modelo proposto.

0 < α < 1 as estimativas do IC


Além disso, conclui-se que para as amostras geradas com

para Pα são subestimados enquanto que nos casos em que α > 1 são superestimadas, como é

mostrado na tabela 5.1 a seguir. Esta é outra evidência para a característica de forma deste

parâmetro.

E mais, na seção 3.4.2, observou-se também uma inuência signicativa do parâmetro α


sobre a forma da função de risco, o que em concordância com a inuência exercida sobre os

IC's nos resultados da seção 4.3 permite concluir que α contempla um parâmetro de forma

para a distribuição Inversa de Chen.

Estes resultados, sobretudo, permitiram concluir que à medida que o tamanho amostral

aumenta, mais próximo os valores de α̂ e β̂ cam dos verdadeiros valores de α e β, res-

pectivamente, e do mesmo modo a probabilidade de abrangência se aproxima do nível de

conança pré estabelecido.

Estas conclusões abrem as portas para a abordagem bayesiana e justicam a aplicação

da inferência bayesiana proposta, uma vez que seus conceitos permitem a avaliação dos parâ-

metros do modelo proposto através de amostras de tamanho pequeno, justamente os pontos

de irregularidade obtidos neste trabalho como se resume na tabela 5.1 a seguir.

Com isso surge a proposta de analisar a probabilidade de abrangência através da abor-

dagem bayesiana e comparar seu desempenho, isto é, confrontar os resultados para a proba-

bilidade de abrangência dos casos considerados nos contextos clássico e bayesiano.

Os resultados em que Pα e Pβ não foram aceitos são apresentados na tabela a seguir.

Tabela 5.1: Resultados insatisfatórios para a probabilidade de abrangência dos parâmetros α e β .

Caso nθ Pα̂ ICPα̂ ;95% EQMα Vα


10 0.9080 (0.8827; 0.9333) 0.0221 0.1145
α = 0.3 e β = 0.9 α
20 0.9420 (0.8894; 0.9386) 0.0870 0.0751
10 0.9760 (0.9626; 0.9894) 1.6870 0.6904
α 20 0.9700 (0.9550; 0.9850) 0.2854 0.3650
α = 1.5 e β = 0.5
50 0.9720 (0.9575; 0.9865) 0.0646 0.1951
β 10 0.9840 (0.9730; 0.9950) 0.0438 0.1481
10 0.9840 (0.9730; 0.9950) 3.1790 0.7944
α 20 0.9780 (0.9651; 0.9909) 0.2874 0.3783
α = 1.5 e β = 2.0 50 0.9740 (0.9601; 0.9879) 0.0632 0.1912
10 0.9780 (0.9651; 0.9909) 0.9411 0.6821
β
20 0.9720 (0.9575; 0.9865) 0.2673 0.3822
Fonte: Autoria Prórpia (2017).

100
REFERÊNCIA BIBLIOGRÁFICA

1. BOLFARINE, H; SANDOVAL M. C.. Introdução à Inferência Estatística. 2th

Edição. Rio de Janeiro: SBM, 2010. 159 páginas.

2. CÉSAR, K. A.. Análise Estatística de Sobrevivência: Um Estudo Com Pacientes Com

Câncer de Mama. Repositório da Universidade Católica de Brasília. Brasília. 12


f. Monograa (Graduação) − Universidade Católica de Brasília, Brasília. Disponível

em: < http://repositorio.ucb.br/jspui/handle/10869/1713 > 08 de Dezembro de 2016.

3. CHEN, Z..New Two-Parameter Lifetime Distributions With Bathtub Shape


Or Increasing Failure Rate Function . Statistics and Probability Letters, Ams-

terdã, v. 49, p. 155-161, 2000.

4. COLOSIMO, E. A.; GIOLO, S.R.. Análise de Sobrevivência Aplicada. 1th Edição.


São Paulo: Edgard Blucher, 2006. 392 páginas.

5. FIGUEIREDO, D. G.. Análise I. 2th Edição. Rio de Janeiro: LTC, 1996. 256 páginas.
6. KHAN, M. J. S.; SHARMA, A.. Generalized Order Statistics From Chen Distribution
and Its Characterization. Journal of Statistics Applications & Probability, India,
v. 1, p. 6, 2016.

7. LIMA, E. L.. Análise Real: Funções de Uma Variável. 12th Edição. Rio de Ja-
neiro: SBM, 2014. 198 páginas.

8. MEYER, P. L.. Probabilidade: Aplicações à Estatística. 2th Edição. Rio de Ja-


neiro: LTC, 1983. 426 páginas.

9. MOOD A. M.; GRAYBILL F. A.; BOES D. C.. Introductio To The Theory of


Statistics. 3th Edição. Nova Iorque: McGraw-Hill, 1974. 577 páginas.
10. SARHAN, A. M.; HAMILTON D. C.; SMITH, C.. Parameter Estimation for a Two-
Parameter Bathtub-Shaped Lifetime Distribution. Elsevier: Applied Mathematical
Modelling , Canada, v. 36, p. 13, 2012.

101
CONCLUSÕES PARCIAIS

11. SRIVASTAVA, P. K.; SRIVASTAVA R. S.. Two Parameter Inverse Chen Distribu-
tion as Survival Model. International Journal of Statistika and Mathematika ,

Gorakhpur, v. 11, p. 12 − 16, 2014.

12. STRAPASSON, E.. Comparação de Modelos Com Censura Intervalar em


Análise de Sobrevivência. 2007. Tese (Doutorado em Estatística e Experimentação
Agronômica) - Escola Superior de Agricultura Luiz de Queiroz, Universidade de São

Paulo, Piracicaba, 2007. doi:10.11606/T.11.2007.tde-21052007-153717. 08 de Dezem-

bro de 2016.

13. WICKLIN, R.. Simulating Data with SAS. 1th Edição. Carolina do Norte: SAS

Institute Inc., 2013. 362 páginas.

14. WUTTKE, R. A.; SELLITTO, M. A.. Cálculo da Disponibilidade e da Posição na

Curva da Banheira de Uma Válvula de Processo Petroquímico. Revista Produção


Online. Vol.8 n.4 Dez. 2008 Disponível em: < http://producaoonline.org.br/index.php
/rpo/article/viewFile/134/218 > 08 de Dezembro de 2016.

102
APÊNDICE

Apêndice A: Demonstração do EsKM


Seja L[S(t)] = L[S(t); t1 , t2 , t3 , ..., tk ] a função de verossimilhança de S(t) para as variá-
veis aleatórias T1 , T2 , T3 , ..., TK . Se ŜEKM (ti ) é o valor da estimativa de S(t) que maximiza

logl[S(t)], então S(t) é o EMV de S(t). Nesta condição, segue pela expressão 2.61 que:

SEKM (t) = [S(ti−1 ) − S(ti )]di [S(ti )]ci ⇒


k
Y
⇒ [SEKM (t)] = l[SEKM (t); t1 , t2 , t3 , ..., tk ] = [S(ti−1 ) − S(ti )]di [S(ti )]ci
i=1,ti <t

Como S(t) é uma função discreta com probabilidade maior que 0 (zero) somente nos

tempos de falha ti , i = 1, 2, 3, ..., k, tomemos π = 1 − q, de modo que pela equação teremos:

i
Y i
Y
S(t) = (1 − qj ) = πi
j=1 j=1

e segue em L[SEKM (t)] que:

k
Y
L[SEKM (t)] = [S(ti−1 ) − S(ti )]di [S(ti )]ci =
i=1,ti <t

103
CONCLUSÕES PARCIAIS

k i−1 i
!di i
!c i
Y Y Y Y
= πj − πj πj =
i=1,ti <t j=1 j=1 j=1
k i−1 i−1
!di i−1
!c i
Y Y Y Y
= πj − πj π j π j πj =
i=1,ti <t j=1 j=1 j=1
k i−1
!di i−1
!ci
Y Y di
Y
= (1 − πj )
πj πj πjci =
i=1,ti <t j=1 j=1
" k # k i−1
!di +ci 
Y Y Y
= (1 − πj )di πjci  πj 
i=1,ti <t i=1,ti <t j=1

Observe que, de acordo com a denição de di e ci , temos que n i = d i + ci para as

ni observações e assumindo que n → +∞, tem-se

dj
qj = →0
nj

de modo que:

k i−1
!di +ci k
" i−1 #ni k
" i−1 #ni
Y Y Y Y Y Y dj
πj = (1 − qj ) = (1 − ) =
i=1,ti <t j=1 i=1,ti <t j=1 i=1,ti <t j=1
nj
k
" i−1 #ni
Y Y
= (1) =1
i=1,ti <t j=1

Daí, se ni = di + ci =⇒ ci = ni − di , e tomando φi = (1 − πj )di πjni −di , segue em

l[SEKM (t)] que:

" k
# k i−1
!di +ci 
Y Y Y
L[SEKM (t)] = (1 − πj )di πjci  πj =
"i=1,tk i <t #i=1,ti <t j=1
Y
= (1 − πj )di πjni −di (1) =
i=1,ti <t
Y k k
Y
di
= (1 − πj ) πjni −di = φi
i=1,ti <t i=1

104
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen
k
Y
Logo, L[SEKM (t)] = φi e observe agora que, considerando a função φ de L[SEKM (t)],
i=1
teremos por ela que:

log(φi ) = log[(1 − πj )di πjni −di ] = di log(1 − πj ) + (ni − di )log(πj )

e consequentemente

∂ ∂ ni − di di
log(φi ) = di log(1 − πj ) + (ni − di )log(πj ) = −
∂πj ∂πj πj 1 − πj


Como o πj = π̂j máximo é solução para equação log(φi ) = 0, segue ainda que:
∂πj

∂ ni − di di
log(π̂j ) = 0 =⇒ − = 0 =⇒ (1 − π̂j )(ni − di ) − π̂j di = 0 =⇒
∂ π̂j π̂j 1 − π̂j
ni − di di
=⇒ π̂j di + π̂j (ni − di ) = ni − di =⇒ π̂j = =1−
ni ni

di
Logo, se π̂j = 1 − é o ponto que maximiza a função φ, consequentemente, dada a
ni
k
Y
função de verossimilhança l[SEKM (t)] = φi , teremos que:
i=1

" k
# k  
Y Y di
log[SEKM (t)] = log φi =⇒ ŜEKM (t) = 1−
i=1 i=1
ni

k  
di Y di
ou seja, se π̂j = 1− maximiza a função de verossimilhança φ, então ŜEKM (t) = 1−
ni i=1
ni
minimiza a função de verossimilhança de SEKM (t).

Apêndice B: Estratégia da Avaliação Proposta


Existe uma vasta produção cientíca abordando o conceito de convergência de funções,

e um caso particular considera os casos de funções denidas em < e com restrições em seu

intervalo de denição.

Tais restrições, comumente um ponto especíco de descontinuidade ou um intervalo in-

105
CONCLUSÕES PARCIAIS

nito, implica diretamente na integração desta função, as conhecidas integrais indenidas,

como no caso da g(z) obtida em 3.20 e que além de tudo é não elementar. Deste modo,

temos que a g(z) obtida é uma função não elementar com integral indenida.

Surge assim, da análise matemática, técnicas de avaliação da integral de funções des-

contínuas ou não-limitadas em um intervalo e que descarta a necessidade de calcular ex-

plicitamente a integral indenida, favorecendo também uma avaliação para um integrando

transcendente, permitindo inferir sobre a convergência ou divergência de uma integral em

estudo.

Com isso, em relação a divergência, uma alternativa para avaliar g(z) consiste em consi-

derar 0 < ∆(z) ≤ g(z) no caso em que g(z) ∈ (0; +∞), isto é, obter uma função comparativa
∆(z) que seja aplicada aos casos 1 e 2 apresentados em 3.21 e 3.22, necessariamente cons-

truída de modo que ∆(z) ∈ (0; +∞) e que satisfaça o seguinte resultado

Z+∞ Z1 Z+∞ Z1 Z+∞ Z+∞


g(z)dz = g(z)dz + g(z)dz ≥ ∆(z)dz + ∆(z)dz = ∆(z)dz −→ +∞
0 0 1 0 1 0

onde é necessário e suciente que pelo menos um dos três casos a seguir ocorram:

Z1 Z+∞
∆(y)dy −→ +∞ e ∆(y)dy −→ L (5.1)

0 1
ou

Z1 Z+∞
∆(y)dy −→ L e ∆(y)dy −→ +∞ (5.2)

0 1

ou

Z1 Z+∞
∆(y)dy −→ +∞ e ∆(y)dy −→ +∞ (5.3)

0 1

isto é,∆(z) é restringido para antiderivadas diferentes mas permanece o mesmo integrando
em (0; +∞), de modo a se obter a divergência em pelo menos um dos intervalos de restrição

para mostrar um resultado.

Para isso, toma-se o critério da comparação de integrais para se constatar a divergência.

Porém, a diculdade desta alternativa é obter um integrando ∆(z) ≤ g(z) estritamente em

(0; +∞) e que satisfaça aos pressupostos do critério de comparação.

Do mesmo modo esta estratégia se aplica para mostrar a convergência de g(z), para isso

106
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen
Z
basta que a função ∆(z) seja construída de tal modo que ∆(z)dz −→ L e

Z+∞ Z1 Z+∞ Z1 Z+∞ Z+∞


g(z)dz = g(z)dz + g(z)dz ≤ ∆(z)dz + ∆(z)dz = ∆(z)dz −→ L (5.4)

0 0 1 0 1 0

ou seja, as condições 5.1 e 5.2 resumem-se em 5.3, onde em vez de se obter −→ +∞ nas

restrições, verica-se −→ L. Z
Contudo, supondo que o interesse seja vericar a divergência de g(z), como g(z)dz é

denido, exclusivamente, para (0; +∞), a prioridade é encontrar uma função


Z ∆(z), em cada
um dos casos, que considere o intervalo de integração z ∈ (0; +∞) em g(z)dz e satisfa-

zendo pelo menos uma das condições 5.1, 5.2 e 5.3 descritas.

Fixando agora o interesse em vericar a convergência de g(z), outra alternativa, de sorte


na possibilidade de restringir ∆(z) em intervalos e em decorrência do parâmetro α, consiste

em aplicar o critério da comparação de integrais para os dois casos particulares apresentados.

O intuito também é realizar uma comparação das integrais através da obtenção da função

∆(z), mas aqui restringida em intervalos para∆1 (z) e ∆2 (z), de modo que o descrito em
5.4 seja atendido com g(z) ≤ ∆1 (z) e g(z) ≤ ∆2 (z), respectivamente quando g(z) ∈ (0; 1] e
z z
g(z) ∈ [1; +∞), no caso 1 para α ≤ e no caso 2 para α ≥ .
exp(z) exp(z)
Logo, o objetivo principal em avaliar g(z) é obter a convergência nos 2 casos para consta-
r
tar que existem z , α e λ tais que g(z) é convergente, para consequentemente E(Y ) também

o ser para todo y , r , α e β .

Vale ressaltar que a segunda estratégia, no caso da busca de divergência, para as con-

dições 5.1 e 5.2, não somente obtendo a divergência de um dos intervalos de restrição, é

necessário porém avaliar a segunda de modo a vericar que este apresente convergência para

um L ou também diverge, obviamente, para a mesma direção que o caso anterior.

Essa medida é necessária pois existe a possibilidade de se construir as funções ∆(z)


convergentes ou divergentes para −∞, e a segunda situação gera a indeterminação do tipo

+∞ − ∞, por isso é necessário xar que em uma das duas restrições postas se verique

−→ L.
Assim, ainda na segunda estratégia, para simplicar a avaliação de E(Y r ) é requerido que
∆(z) seja denido em dois intervalos distintos, de modo a se restringir ∆1 (z) em g(z) ∈ (0; 1]
e ∆2 (z) em g(z) ∈ [1; +∞), isto é, denir para os casos i = 1; 2 que:

(
∆1 (z), para 0 < z ≤ 1;
∆(z) =
∆2 (z), para z ≥ 1;

107
CONCLUSÕES PARCIAIS

Portanto, uma vez constatado que ∆(z) é convergente de acordo com 5.4, ou divergente

segundo 5.1, 5.2 ou 5.3, o critério da comparação de integrais garante que para todo z, α e
r
λ, g(z) também o é, e através dele E(Y ) também e a caracterização pode ser denida.

Como segue, será avaliado cada um dos casos 3.21 seguindo então as imposições para α
como apresentado em 3.22. Estes casos resumem-se nas seguintes avaliações:

z
Avaliação 1: quando α≥ e z − Λ(z) ≤ 0 < exp[z − Λ(z)] ≤ 1;
exp(z) (5.5)
z
Avaliação 2: quando α≤ e z − Λ(z) ≥ 0 e 1 ≤ exp[z − Λ(z)];
exp(z)

Vale ressaltar que embora xa-se as avaliações em que 0 < exp[z − Λ(z)] ≤ 1 e 1 ≤
exp[z − Λ(z)], ambas serão desenvolvidas para g(z) ∈ (0; +∞) e ∆(z) ∈ (0; +∞), tais que
z ∈ (0; +∞).

Apêndice C: Funções Comparativas Para as Avaliações


A Função Racional Particular Como Função Comparativa na Avaliação 1
1
Toda função do tipo , z diferente de zero, é um caso particular de uma função
com
zλ ∗
racional positiva cujo domínio é z ∈ <+ com parâmetro λ ∈ <.

Mais especicamente, xemos λ > 0 e tal que λ ∈ (0; +∞). Seja também g : (0; 1] 7−→

<∗+ , então, segundo Lima (1989), pela técnica de integral imprópria para limitantes descon-
tínuos, teremos que:


Z1 Z1  +∞, se λ ≥ 1,
1 −λ
dz = lim+ z dz = 1 (5.6)
zλ →0  , se λ < 1
0  1−λ

λ ∈ (0; 1) ∪ (1; +∞).


De fato! O resultado é trivial para
1−λ
1−z + 1−λ
Basta obter a primitiva , que diverge quando z −→ 0 e λ > 1, pois z −→
1−λ
1 + 1−λ
+∞, e converge para o ponto quando z −→ 0 e λ < 1, pois z −→ 0.
1−λ
1 1 
No caso em que λ = 1, basta considerar que a primitiva de é ln(z) e ln(z)| = −ln(z)|1 .
z
Além disso, Figueiredo (1973) pontua que quando z ∈ (1; +∞), uma função racional

particular se comporta de forma oposta a quando z ∈ (0; 1], pois é convergente se λ > 1 e

divergente se λ ≤ 1.

Então, seja também g : (1; +∞] 7−→ <+ , para λ > 0 xado e tal que λ ∈ (0; +∞), isto

108
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

é, pelos mesmos motivos de 5.6, porém pela técnica de integral imprópria para limitantes

innitos, temos que:

1

Z∞ Zk
1 −λ
 , se λ > 1,
dz = lim z dz = 1−λ (5.7)
zλ k→∞  +∞, se λ ≤ 1
1 1

1
Contudo, de 5.6 e 5.7, sobre a função abordada, tomando ∆(z) = , é evidente que

Z+∞ Z1 Z+∞ Z1 Z+∞ Z+∞


1 1 1
∆(z)dz = ∆(z)dz + ∆(z)dz = λ
dz + λ
dz = dz −→ +∞ (5.8)
z z zλ
0 0 1 0 1 0

para todo z e λ em <∗+ . Z


Note que, xado λ = 1 ∆(z)dz −→ +∞ nas duas partições de
verica-se que
Z
z ∈ (0; +∞). Que quando λ > 1, temos de 5.6 que ∆(z)dz −→ +∞ em z ∈ (0; 1] e
Z Z
1
∆(z)dz −→ em z ∈ (1; +∞] de 5.7. E quando λ < 1, de 5.7 ∆(z)dz −→ +∞ em
Z1 − λ
1
z ∈ (1; +∞] e ∆(z)dz −→ em z ∈ (0; 1] de 5.6.
1−λ Z
O resultado 5.8 mostra que existe um ∆(z) > 0 tal que ∆(z)dz −→ ∞ e denido em

z ∈ (0; +∞) para qualquer λ > 0.

As Funções Exponenciais Como Funções Comparativas na Avaliação 2

Veremos, oportunamente, que a função racional particular denida anteriormente é de

extrema importância para avaliarmos g(z) no caso em que seu numerador é maior que 1, ou
seja, estritamente na condição em que 1 ≤ exp[z − Λ(z)].

Fazendo π(z) = 1, veremos que é trivial obter 0 < ∆(z) ≤ g(z) observando que
π(z)
∆(z) = λ ≤ g(z) em decorrência de π(z) ≤ exp[z − Λ(z)]. No entanto, posteriormente
z
será necessário avaliar g(z) quando 0 < exp[z − Λ(z)] ≤ 1, e a diculdade será obter para
π(z)
∆(z) um π(z) tal que ∆(z) = λ e 0 < ∆(z) ≤ g(z).
z
A condição mais trivial para o estudo da integral em questão é a em que se pode conside-

rar funções maiores que exp[z − Λ(z)] e obtê-las de modo que seja convergente, e nenhuma
c
é melhor do que as próprias funções exponenciais, tais como exp(cz n ) e exp( ), respecti-
zn
vamente, e maiores que exp[z − Λ(z)].

109
CONCLUSÕES PARCIAIS
 
1
Seja então c = n = 1 e tais que π1 (z) = exp(z) e π2 (z) = exp . Observa-se que π1 (z)
z
e π2 (z) são funções da mesma família que exp[z − Λ(z)] e tais que:

1◦ ) Quando 0 < z ≤ 1: exp[z − Λ(z)] ≤ π1 (z) ⇔ exp[z − Λ(z)] ≤ exp(z) ⇔ z − Λ(z) ≤ z


 
1 1
2◦ ) Quando z ≥ 1: exp[z − Λ(z)] ≤ π2 (z) ⇔ exp[z − Λ(z)] ≤ exp ⇔ z − Λ(z) ≤
z z

◦ ◦
onde z − Λ(z) ≤ 0 e z > 0, ou seja, as desigualdades do 1 e 2 itens são verdadeiras.
πi (z)
Nestas condições, tomando ∆i (z) = λ , resulta que:
z


π (z) exp(z)
 ∆1 (z) = 1
 = , para i = 1 e 0 < z ≤ 1;
z λ zλ 1 
∆(z) = (5.9)
 ∆2 (z) = π2 (z) = exp z , para i = 2 e z ≥ 1;

zλ zλ

+∞ n
X z
Então, assumindo a expansão de Taylor de exp(z), isto é, exp(z) = , resulta que:
n=0
n!

exp(z)
i = 1) Para 0<z≤1 e ∆1 (z) = :

Z1 Z1 Z1 +∞ +∞ 1 +∞ 1
1 X zn
Z n Z
exp(z) X 1 z X 1
∆1 (z)dz = dz = dz = dz = z n−λ dz =
zλ z λ n=0 n! n=0
n! z λ
n=0
n!
0 0 0 0 0

+∞ Z 1
+∞  n−λ+1 1 X +∞ +∞
X 1 n−λ
X 1 z 1 X
= z dy = = = an
n=0
n! n=0
n! n − λ + 1 0 n=0 (n − λ + 1)n! n=0
0

1
E mais, dada a série resultante onde n ∈ ℵ, xando que cn = 2 e sabendo esta ser
n
convergente, pois é uma série-p com expoente p = 2 > 1, temos que

1 1 1 1 1
≤ 2 ⇔ 2 λ 1
≤ 2 ⇔ λ
≤1 (5.10)
(n − λ + 1)n! n n (1 − n
+ n )(n − 1)! n (1 − n
+ n1 )(n − 1)!

Então, pelo teorema 1 (critério de comparação de séries numéricas) apresentado por

110
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

Lima (1989), se an ≤ c n e cn é convergente, então an também converge.

Assim

Z1 +∞
X 1
∆1 (z)dz = −→ L1 (5.11)
n=0
(n − λ + 1)n!
0

Logo a integral de ∆1 (z) para 0<z≤1 é convergente.

exp( z1 )
i = 2) Para z≥1 e ∆2 (z) = :

1 1 1
Seja agora a mudança de variável v= tal que z= ⇒ dz = − 2 dv , então
z v v

Z+∞ Z+∞ Z0 Z1
exp( z1 )
 
exp(v) 1 exp(v)
∆2 (z)dz = λ
dz = 1 − 2 dv = dv =
z vλ
v v 2−λ
1 1 1 0
+∞ Z1 +∞  n+λ−1
1 +∞ +∞
X 1 n+λ−2
X 1 v X 1 X
= v dv = = = bn
n=0
n! n=0
n! n + λ − 1 0 n=0
(n + λ − 1)n! n=0
0

1
E pelo mesmo motivo anterior, sendo bn ≤ c n = , resulta que
n2

Z+∞ +∞
X 1
∆2 (z)dy = −→ L2 (5.12)
n=0
(n + λ − 1)n!
1

Logo a integral de ∆2 (z) para z≥1 também é convergente.

Portanto, de 5.11 e 5.12, segue para a função comparativa ∆(z) que:

Z+∞ Z1 Z∞
∆(z)dz = ∆1 dz + ∆2 dz −→ L1 + L2 = L (5.13)

0 0 1

Z
O resultado 5.13 mostra que existe um ∆(z) > 0 tal que ∆(z)dz −→ L e denido

em z ∈ (0; +∞] para qualquer λ > 0, ou seja, um integrando convergente da mesma família

de g(z).

111
CONCLUSÕES PARCIAIS

Apêndice D: Grácos Para as Estimativas


Grácos da Análise do Modelo Y ∼ Chen−1 (0.3; 0.9)

Figura 5.1: Linha de referência e histograma das estimativas clássicas para α = 0.3.

112
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

Figura 5.2: Linha de referência e histograma das estimativas bayesianas para α = 0.3.

113
CONCLUSÕES PARCIAIS

Figura 5.3: Linha de referência e histograma das estimativas clássicas para β = 0.9.

114
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

Figura 5.4: Linha de referência e histograma das estimativas bayesianas para β = 0.9.

115
CONCLUSÕES PARCIAIS

Grácos da Análise do Modelo Y ∼ Chen−1 (0.5; 1.5)

Figura 5.5: Linha de referência e histograma das estimativas clássicas para α = 0.5.

116
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

Figura 5.6: Linha de referência e histograma das estimativas bayesianas para α = 0.5.

117
CONCLUSÕES PARCIAIS

Figura 5.7: Linha de referência e histograma das estimativas clássicas para β = 1.5.

118
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

Figura 5.8: Linha de referência e histograma das estimativas bayesianas para β = 1.5.

119
CONCLUSÕES PARCIAIS

Grácos da Análise do Modelo Y ∼ Chen−1 (1.5; 0.5)

Figura 5.9: Linha de referência e histograma das estimativas clássicas para α = 1.5.

120
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

Figura 5.10: Linha de referência e histograma das estimativas bayesianas para α = 1.5.

121
CONCLUSÕES PARCIAIS

Figura 5.11: Linha de referência e histograma das estimativas clássicas para β = 0.5.

122
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

Figura 5.12: Linha de referência e histograma das estimativas bayesianas para β = 0.5.

123
CONCLUSÕES PARCIAIS

Grácos da Análise do Modelo Y ∼ Chen−1 (1.5; 2.0)

Figura 5.13: Linha de referência e histograma das estimativas clássicas para α = 1.5.

124
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

Figura 5.14: Linha de referência e histograma das estimativas bayesianas para α = 1.5.

125
CONCLUSÕES PARCIAIS

Figura 5.15: Linha de referência e histograma das estimativas clássicas para β = 2.0.

126
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen

Figura 5.16: Linha de referência e histograma das estimativas bayesianas para β = 2.0.

127