Uma Abordagem Bayesiana para A Distribuição Inversa de Chen Com Aplicações A Dados Completos e Censurados

Paulo Roberto de Lima Gianfelice
UMA ABORDAGEM BAYESIANA PARA A

DISTRIBUIÇÃO INVERSA DE CHEN COM
APLICAÇÕES A DADOS COMPLETOS E
CENSURADOS
Revisado pelo Orientador
Prof. Dr. Sérgio Minoru Oikawa
Assinatura do Orientador
15 de Janeiro de 2018
Presidente Prudente
2018

CENSURADOS
Relatório Final do Trabalho de Con-

clusão de Curso apresentado ao
Curso de Graduação em Estatítica
da FCT/Unesp para aproveitamento
na disciplina Trabalho de Conclusão
de Curso.
Orientador: Prof. Dr. Ségio Minoru
Oikawa.
Presidente Prudente
2018
Ficha Catalográca

R617a Uma Abordagem Bayesiana Para a Distribu
ição Inversa De Chen Com Aplicações a Dados
Completos e Censurados.
119 f.: il
Orientador: Sérgio Minoru Oikawa

Trabalho de Conclusão do Curso (Bacharela
do em Estatística da Universidade Estadual Pa
ulista Júlio de Mesquita Filho - Faculdade de
Ciências e Tecnologia
Inclui Bibliograa

CENSURADOS
Relatório nal do Trabalho de Conclusão submetido e aprovado como

requisito para obtenção de créditos na disciplina Trabalho de Conclusão
de Curso do Curso de raduação em Estatística da Faculdade de Ciências e
Tecnologia da Unesp, pela seguinte banca examinadora:
Orientador: Prof. Dr. Ségio Minoru Oikawa.

Prof. Dr. Fernando Antônio Moala.
Prof. Dr. Manoel Ivanildo Silvestre Bezerra.
Presidente Prudente
2018
À Olézia Gianfelice!
AGRADECIMENTOS
Agradeço, sobretudo a Deus, pela saúde, sabedoria, proteção, ânimo e paciência, sem estes
itens eu não teria conseguido nem mesmo me vencer. Não é possível para o homem, sozinho,
sair do lugar mais improvável, superar todos os obstáculos, ir contra todas as expectativas
e realizar um feito como este, em um lugar desse... duas vezes seguidas.
Agradeço aos meus pais por me conceber, como o primeiro e com o máximo de amor.
Sem seus cuidados, exemplos e feitos eu jamais teria tomado esta direção, chegado onde
estou e tomado as decisões que tomei. Agradecerei até o m da minha vida pelos meus três
lindos irmão, eles são inspiração e razão primordiais das minhas conquistas.
Agradeço do fundo do meu coração à toda minha família, pela compreensão, apoio e
incentivo, sem o amparo e os conselhos deles eu teria me perdido no curso desta jornada.
Em especial agradeço ao João, primo-amigo-irmão, e a minha tia Cris. O primeiro por
sempre se lembrar e acreditar em mim e a segunda por todo o carinho, amparo, ajuda,
compreensão e valor. Estes dois literalmente investiram em mim nesta fase e tudo o que
faço aqui é para compensá-los. Embora não saberei como, pois seus carinhos, orientações e
incentivos me tornaram uma pessoa capaz de superar qualquer coisa.
À todos os meus professores, em particular à Gilcilene Sanchez De Paulo e Manoel
Ivanildo Silvestre Bezerra. Ambos pela inclinação e assiduidade docente! A primeira por me
ensinar a disciplina mais importante na academia, a ter disciplina perante meus estudos,
e o segundo por acreditar na minha capacidade, me dar liberdade na construção de meus
trabalhos acadêmicos, lê-los e principalmente conar em minhas propostas.
Aos professoesr Moala e Sérgio que contribuíram signicativamente para a confecção
deste trabalho e, principalmente, à professora Marta, pois suas aulas de Probabilidade e

◦
Estatística em meu 4 ano do curso de Matemática me abriu os olhos e me despertou o
interesse nesta carreira.
Aos meus colegas de curso, Nadal e Chico, que acreditaram em minhas capacidades, e
aos experimentadores do extinto DFQB, Bruno e André, que iniciaram a vida acadêmica
comigo.
Agradeço por m a todos os envolvidos de forma direta e indireta na realização deste
trabalho, em particular aos colegas que adquiri no Pós-MAC. Em ordem cronológica, ao
Reginaldo, Clóvis, Jonas, Gustavo, Yugi, Léo, Vinícius, Laison, Letícia e Rafael. Estes foram
e ainda são excelentes acadêmicos, sobretudo, pessoas!

E o gládio a erguer, que arrasa e que depreda,
E o olhar que ante a agnomínia não desmaia,
Luta! E é forçoso que ao lutar não caia,
Pois se cair o esmagarão na queda.
(Raimundo Correia)
RESUMO
O desenvolvimento do presente trabalho divide-se em seis capítulos. O primeiro e o se-
gundo desempenham um papel de descrição das áreas do conhecimento e denições básicas,
ambos relevantes para a compreensão do texto estabelecendo os objetivos e a metodologia
necessária para cumpri-los. O terceiro busca justicar os resultados obtidos para as proprie-
dades do modelo Inverso de Chen e propor uma caracterização para o mesmo destacando as
demonstrações necessárias. O quarto capítulo segue a mesma linha, porém, com o suporte
computacional apresenta os resultados pertinentes à caracterização inferencial através dos
métodos clássico e bayesiano, ressaltando uma avaliação dos estimadores do modelo através
dos intervalos de conança e credibilidade. O quinto capítulo apresenta uma aplicação ao
conjunto de dados de tempo de vida completo e censurado e o sexto capítulo, por m, naliza
o trabalho apresentando uma discussão sobre as conclusões dos resultados obtidos ao longo
dos capítulos 3, 4 e 5.
Palavras-Chave: Caracterização de Distribuição de Probabilidade, Inferência Estatística Clás-
sica, Simulação Estatística, Probabilidade de Cobertura.

SUMÁRIO
1 INTRODUÇÃO 1
2 CONCEITOS BÁSICOS 4
2.1 Análise de Sobrevivência e Conabilidade . . . . . . . . . . . . . . . . . . . . 4
2.1.1 Dados de Sobrevivência . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.2 Função de Sobrevivência . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.3 Tempo de Falha . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.4 Função Taxa de Falha . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.5 Função Taxa de Falha Acumulada . . . . . . . . . . . . . . . . . . . . 11
2.1.6 Função Ciclo de Vida e Função Unimodal . . . . . . . . . . . . . . . 12
2.1.7 Censura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Componentes da Inferência Bayesiana . . . . . . . . . . . . . . . . . . . . . . 18
2.2.1 O Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.2 O Conceito de Informação a Priori . . . . . . . . . . . . . . . . . . . 20
2.2.3 Distribuições à Priori Não Informativas . . . . . . . . . . . . . . . . . 21
2.2.4 Distribuições a Priori Impróprias . . . . . . . . . . . . . . . . . . . . 22
2.2.5 O Intervalo de Credibilidade . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 O Modelo Inverso de Chen Com Dois Parâmetros . . . . . . . . . . . . . . . 25
2.3.1 Os Modelos Probabilísticos . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.2 A Distribuição de Probabilidade Proposta . . . . . . . . . . . . . . . 26
2.4 Técnicas Paramétricas de Estimação . . . . . . . . . . . . . . . . . . . . . . 27
2.4.1 O Estimador de Máxima Verossimilhança . . . . . . . . . . . . . . . . 27
2.4.2 O Método dos Momentos . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4.3 A Função Escore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.4.4 A Medida de Informação de Fisher . . . . . . . . . . . . . . . . . . . 31
2.4.5 Limite Inferior e Desigualdade da Informação . . . . . . . . . . . . . 32
2.4.6 O Intervalo de Conança Assintótico . . . . . . . . . . . . . . . . . . 33
2.5 Técnicas Não Paramétricas de Estimação . . . . . . . . . . . . . . . . . . . . 35
ix
2.5.1 O Estimador de Kaplan-Meier . . . . . . . . . . . . . . . . . . . . . . 37
2.5.2 O Teste Não Paramétrico de Kolmogorov-Smirnov . . . . . . . . . . . 39
2.5.3 Análise Gráca do Tempo Total Em Teste (TTT-Plot) . . . . . . . . 41
2.5.4 Métodos de Simulação Monte Carlo . . . . . . . . . . . . . . . . . . . 43
2.6 A Abordagem Computacional Para o Estudo . . . . . . . . . . . . . . . . . . 48
2.6.1 Softwares Considerados . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3 PROPRIEDADES DA DISTRIBUIÇÃO PROPOSTA 49

3.1 A Distribuição Biparamétrica de Chen . . . . . . . . . . . . . . . . . . . . . 49
3.1.1 Origem e Denições Básicas . . . . . . . . . . . . . . . . . . . . . . . 49
3.2 A Distribuição Biparamétrica Inversa de Chen . . . . . . . . . . . . . . . . . 51
3.2.1 Denições Básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.2.2 Avaliação do r-ésimo Momento da Distribuição . . . . . . . . . . . . . 54
3.2.3 Discussões Sobre a Avaliação . . . . . . . . . . . . . . . . . . . . . . . 60
3.2.4 Conclusões Sobre o r-ésimo Momento da Distribuição . . . . . . . . . 61
3.3 Propriedade dos Estimadores Para o Modelo . . . . . . . . . . . . . . . . . . 61
3.3.1 Estimadores de Máxima Verossimilhança dos Parâmetros . . . . . . . 61
3.3.2 Os Intervalos de Conança Para os Parâmetros . . . . . . . . . . . . 63
3.4 Os Modelos de Sobrevivência Para a Distribuição . . . . . . . . . . . . . . . 66
3.4.1 A Função de Sobrevivência . . . . . . . . . . . . . . . . . . . . . . . . 66
3.4.2 A Função de Risco . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4 PROBABILIDADE DE COBERTURA DOS PARÂMETROS 71

4.1 Considerações Iniciais Para a Simulação . . . . . . . . . . . . . . . . . . . . 71
4.1.1 O Algoritmo da Transformação Inversa . . . . . . . . . . . . . . . . . 71
4.1.2 A Transformação Inversa Para a Distribuição Proposta . . . . . . . . 72
4.2 Probabilidade de Cobertura Empírica . . . . . . . . . . . . . . . . . . . . . . 73
4.2.1 O Intervalo de Conança Clássico . . . . . . . . . . . . . . . . . . . . 74
4.2.2 O Intervalo de Máxima Densidade à Posteriori . . . . . . . . . . . . . 75
4.2.3 O Índice de Probabilidade de Cobertura . . . . . . . . . . . . . . . . 78
4.2.4 Os Elementos do Processo Computacional . . . . . . . . . . . . . . . 80
4.3 O Estudo da Simulação Clássica e Bayesiana . . . . . . . . . . . . . . . . . . 85
4.3.1 Resultados Obtidos Sobre os Estimadores dos Parâmetros . . . . . . 86
4.3.2 Discussões Sobre a Análise dos Resultados da Simulação . . . . . . . 96
4.3.3 Conclusões Sobre a Simulação . . . . . . . . . . . . . . . . . . . . . . 97
5 CONCLUSÕES PARCIAIS 99
REFERÊNCIA BIBLIOGRÁFICA 101
APÊNDICE 103
CAPÍTULO 1
INTRODUÇÃO
Identicadas como ramos da Estatística que analisam a variável resposta de um determi-
nado evento de interesse, a Análise de Sobrevivência e a Teoria de Conabilidade consistem
de um conjunto de técnicas utilizadas em análise de dados na qual a variável de interesse é
o tempo que decorre até que o evento de interesse se verique. Sobretudo, foram as áreas da
Estatística que mais se destacaram nas últimas décadas.
Uma evidência quantitativa deste sucesso é o número de aplicações da Análise de So-
brevivência no campo da Biomedicina (Colosimo e Giolo, 2006) e áreas da saúde em geral,
onde técnicas estatísticas são aplicadas para estudos médicos envolvendo doenças incuráveis
ou casos de pacientes terminais cujo interesse é, literalmente, medir o tempo em que estes
pacientes sobrevivem a doença em estudo a partir do instante inicial de um dado tratamento
bem denido e o ponto principal do estudo.
O mesmo se pode armar sobre Teoria de Conabilidade, onde máquinas, componentes,
ferramentas, produtos manufaturados ou itens fabricados, em geral, na área da indústria e
engenharia são postos em observação, sendo de interesse conhecer sua qualidade ou tempo
de duração num experimento controlado até que este venha a falhar.
De modo geral, a Análise de Sobrevivência e a Teoria de Conabilidade visam estudar
itens observados (unidades experimentais) onde eventos bem denidos (falha, sobrevivência)
ocorrem depois de um certo tempo pré-estabelecidos (tempo de falha, tempo de sobrevivên-
cia).
Comumente, no caso da Teoria de Conabilidade, o evento de interesse é a falha ou a re-
corrência de defeito no item em observação, já no caso da Análise de Sobrevivência, o evento
de interesse é a ocorrência da morte de um paciente em um dado tratamento, a recorrência
de um sintoma ou doença, ou como na maior parte dos estudos em Biomedicina, a cura para
uma determinada doença ou o prolongamento da vida no caso de uma doença incurável.
Em áreas como engenharia, medicina e economia, a Análise de Sobrevivência e Teoria de
Conabilidade consistem, respectivamente, em estudar, por exemplo:
1
Introdução
• o tempo de falha de equipamentos industriais (teoria de conabilidade);
• o tempo de sobrevivência de um paciente com câncer (análise de sobrevivência);
• o tempo de duração de desemprego ou greve (ambas as áreas);
Tanto em Análise de Sobrevivência como em Teoria de Conabilidade, a variável res-
posta é, geralmente, o tempo até a ocorrência de um evento de interesse analisado nos dados
obtidos com o suporte de técnicas não-paramétricas como o estimador de Kaplan-Meier e a
tabela de vida, ou por modelos paramétricos como as distribuições de probabilidade conhe-
cidas.
Tais técnicas, não-paramétricas ou por modelos paramétricos, visam analisar os dados
de interesse, dados apontados como dados de sobrevivência no caso da Análise de Sobre-
vivência, ou dados de conabilidade no caso da Teoria de Conabilidade, mas, estas duas
categorias de dados são comumente caracterizadas pelo tempo de falha e pela censura, am-
bos componentes que constituem a resposta da análise efetuada.
Quando o suporte técnico consiste da adoção de um modelo paramétrico, na literatura
de Análise de Sobrevivência e Teoria de Conabilidade encontra-se uma exaustiva relação de
modelos paramétricos (ou probabilísticos) que se mostram muito ecientes para descrever
os tempos de vida de um dado evento em análise.
De posse do modelo, a modelagem estatística do tempo de vida via modelos paramétri-
cos é realizada através da simples observação das informações disponíveis sobre o sistema
ou fenômeno de interesse, e considerando que qualquer fenômeno natural é composto por
parâmetros (constantes), que são intrínsecos ao sistema a ser estudado e as variáveis que o
afeta, a partir dos dados disponíveis e o conhecimento das variáveis do sistema, através da
estimação dos parâmetros é possível descrever este fenômeno através do modelo estatístico
escolhido, o modelo paramétrico em questão.
Porém, a decisão do analista na escolha de um modelo apropriado para a descrição e
simulação estatística do sistema ou fenômeno em análise, embora permita dar respostas,
atribuir uma solução a um determinado problema e prever o comportamento do sistema
ou fenômeno, não é uma escolha trivial e deve ser efetuada de modo a satisfazer todas as
condições singulares ao fenômeno e às diversas situações que os dados atribuem ao que se
refere a teoria estatística.
Com este objetivo, os resultados até agora obtidos à cerca do modelo proposto no pre-
sente estudo caracteriza-se em três etapas e em cada caso busca destacar minuciosamente
sua justicativa e relevância teórica a cerca do tema considerado.
A primeira etapa, intitulada por Conceitos Básicos, fornece a descrição teórica dos con-
ceitos que serão abordados neste trabalho, como a linha de aplicação do trabalho, o conceito
de Análise de Sobrevivência na seção de mesmo nome, o modelo estatístico adotado no es-
tudo, na seção O Modelo Inverso de Chen Com Dois Parâmetros, e por m o ferramental
2
Uma Abordagem Bayesiana Para a Distribuição Inversa de Chen
considerado para a confecção dos aspectos inferenciais, em Técnicas Paramétricas de Esti-
mação.
A segunda parte apresenta os resultados obtidos na busca de uma caracterização da
distribuição proposta e aborda as propriedades básicas do modelo, frisando as ferramentas
utilizadas para a obtenção do mesmo e se apegando com rigor matemático às demonstrações
detalhadas dos pontos considerados na obtenção de uma pré caracterização para a distri-
buição. O objetivo principal desta etapa é vericar a convergência da esperança do r-ésimo

momento do modelo proposto para que se possa vericar a existência dos momentos de
ordem 1 e 2 para garantir que a hipótese da média e variância nitas são aceitas para a apli-
cação de teorias para grandes amostras em estatística, permitindo a aplicação de diferentes
tipos de convergências, Leis dos Grandes Números e principalmente do Teorema Central do
Limite.
A terceira parte segue a mesma linha apresentando os resultados pertinentes à carac-
terização inferencial através de métodos clássico e bayesiano com auxílio computacional. O
objetivo principal nesta etapa do trabalho é realizar um estudo de simulação para avaliar os
estimadores do modelo proposto e a probabilidade de cobertura para os parâmetros α e β

do modelo através dos intervalos de conança assintóticos obtidos e, segundo a abordagem
clássica e bayesiana, por m, comparando-as de acordo com os resultados.
Entretanto, uma vez garantida a convergência da esperança dos momentos de ordem r

para o modelo Inverso de Chen, garante-se a veracidade dos resultados do estudo de simu-
lação necessários para investigar, avaliar e descrever o comportamento deste modelo para
diferentes parâmetros e diferentes amostras de dados, e a utilização desta simulação torna
possível a realização de uma analise preliminar de dados, modelagem, estimação dos parâ-
metros bem como o desenvolvimento do estudo da probabilidade de cobertura. Deste último
espera-se que a probabilidade obtida esteja o mais próximo possível do nível de conança
estipulado independentemente do valor adotado para os parâmetros do modelo em estudo.
Ao m do trabalho, uma aplicação a dados de problemas reais é desenvolvida com o
intuito de modelar o tempo de sobrevivência. São considerados dois conjuntos de dados, o
primeiro com dados referentes a tempos de falha completos e o segundo com tempo de falha
não observada, ou seja, dados completos e censurados, respectivamente.
Em ambos os casos de estudo com dados reais, busca-se modelar o curso de tempo do
problema através do emprego de conceitos de análise de sobrevivência. O objetivo desta
parte do trabalho é, com base nos resultados, constatar que o modelo probabilístico Inverso
de Chen fornece um excelente ajuste aos dados de sobrevivência, quando eles apresentam
função de risco unimodal, também mostrar que em uma comparação com outros modelos
propostos pela literatura, o modelo em questão é o mais adequado para analisar e descrever
os dados sobre os tempos de vida.
3
CAPÍTULO 2
CONCEITOS BÁSICOS
2.1 Análise de Sobrevivência e Conabilidade

A Análise de Sobrevivência e a Teoria de Conabilidade conguram a principal área de
aplicação deste trabalho, e são denidas como métodos estatísticos usados para análise de
dados de tempo de vida, comumente derivados de estudos com origem em laboratórios ou
clínicas relacionadas à Biomedicina em tratamentos de doenças agudas, severas ou fatais
(Análise de Sobrevivência), e também de áreas do setor industrial ou de cadeias de produ-
ção em geral, diretamente voltados a construção de utensílios eletro eletrônicos e mecânicos
(Teoria de Conabilidade).
Em muitos estudos de câncer, por exemplo, o principal resultado a ser avaliado é o
momento de um evento de interesse, comumente pontuado como a morte de um paciente
observado. O nome genérico para este tempo é o tempo de sobrevivência, ou tempo de vida,
e representa o tempo desde o diagnóstico até a morte da observação.
Quando o evento ocorre em todos os indivíduos observados, muitos métodos de análise
estatística seria aplicável. Uma que é fortemente favorecida para analisar as variáveis em
torno deste evento, e que merece destaque, é análise estatística multivariada. No entanto, é
muito comum que ao nal do acompanhamento do evento alguns indivíduos não manifestam
o evento de interesse, e assim, o seu verdadeiro tempo de ocorrência é desconhecido.
Além disso, os dados de sobrevivência raramente são distribuídos normalmente, são envi-
esados e tipicamente consistem de muitos eventos que ocorrem precocemente e relativamente
fora do contexto da análise. São estas as características dos dados que tornam os métodos
aqui abordados primordiais para a análise estatística de dados e indispensáveis para a ob-
tenção de conclusões coerentes a cerca do evento.
Geralmente, estuda-se o tempo em que uma unidade experimental sobrevive a um de-
terminado tratamento, e tais estimativas são obtidas através do método EKM (estimador
4
de Kaplan - Meyer), onde a análise preliminar e a visualização das curvas empíricas são im-
portantes para fazer suposições adequadas sobre um modelo estatístico especíco que busca
descrever e explicar o fenômeno em análise.
Contudo, em estudos estatísticos, esta metodologia é tomada com o suporte da inferên-
cia estatística, ou de modo mais renado, com o embasamento da Inferência Bayesiana para
analisar e comparar o ajustamento de modelos paramétricos, isto é, da modelagem estatís-
tica para os dados de tempo de vida para posteriormente aplicá-los efetivamente em áreas
médicas e industriais em geral.
No presente trabalho, para os tópicos subsequentes desta área de estudo, devido a ex-
tensão e a gama de assuntos que se podem abordar na área de estudo da Teoria de Cona-
bilidade, será abordada, em particular, a partir deste ponto, apenas o campo de estudo de
Análise de Sobrevivência, de modo que, dois elementos básicos e intrínsecos a este conceito:
Tempo de Falha e Dados de Sobrevivência; devem, necessariamente, ser denidos para dis-
cussões posteriores no desenvolvimento do estudo.
Estes elementos devem ser claramente denidos e, juntamente com Função de Sobrevi-
vência, Função Densidade de Risco e Função de Risco Acumulado, são discutidos em detalhes
como segue.
Para maiores detalhes, sugere-se consultar Colosimo e Giolo (2006).
2.1.1 Dados de Sobrevivência
Dados de Sobrevivência, ou Observações Exatas, em geral, denem-se como um conjunto
de informações sobre o tempo de ocorrência de certo evento de interesse.
Muitas vezes é apresentado como um conjunto de informações caracterizadas pelo tempo
de ocorrência de certo evento de interesse e, muito frequentemente, pelas observações comple-
tas e incompletas no experimento. São também referenciadas na literatura como Observações
Não-Censuradas ou como Tempos de Sobrevivência ou de Falha (Cesar, 2005)..
Comumente é adotado o símbolo + para indicar que o evento de interesse ocorreu em
um tempo imprevisto no processo ou que o tempo de observação da unidade experimental
está incompleto, o que na literatura é denominado por censura.
Segundo Colosimo e Giolo (2006), os dados de sobrevivência para um indivíduo i (i=1,2,3,
... ,n) sob estudo, são representados pelo par ordenado (ti ; δi ), onde:
• ti é o tempo de falha ou censura no indivíduo i;
• δi é a variável indicadora de falha ou censura no indivíduo i, de modo que
(
1 ou + se ti é um tempo de falha;
δi =
0 ou 'nenhum simbolo' se ti é um tempo censurado;
5
Conceitos Básicos
onde a variável aleatória resposta, ou seja, o banco de dados, é representado por pelo menos
duas colunas de informações.
Consequentemente, especicando o tempo de sobrevivência, tomando-se uma variável
aleatória não negativa T, usualmente contínua para representar o tempo de falha t, T é
especicada em Análise de Sobrevivência pela sua função de sobrevivência, que será denida
na sequência.
A tabela a seguir apresenta dados de sobrevivência que representam o tempo de ocor-
rência de um evento de interesse em dois grupos de observações distintas.
Tabela 2.1: Dados de sobrevivência de um estudo voltado a uma patologia.
Amostras Tempos de ocorrência do evento de interesse

28; 89; 175; 195; 309; 377(+); 393(+); 421(+); 447(+);
Grupo I
462; 709(+); 744(+); 770(+); 1106(+); 1206(+)
34; 88; 137; 199; 280; 291; 299(+); 300(+); 309; 351;
Grupo II
358; 369; 369; 370; 375; 382; 392; 429(+); 451; 1119(+)
Fonte: Colosimo e Giolo (2006, p.65).
2.1.2 Função de Sobrevivência
Dene-se como Função de Sobrevivência a função de probabilidade de uma observação
não falhar até certo tempo t, ou seja, a probabilidade de que um evento de interesse não
ocorra até um tempo t pré-estabelecido.
Em termos de probabilidade, quando se pretende saber qual a probabilidade de um pa-
ciente com uma determinada doença (o evento de interesse em um experimento) sobreviver
por mais do que 365 dias (valor t da variável aleatória T) a partir da conclusão de seu di-
agnóstico, ou mais formalmente, quando se pretende obter P (T ≥ 365), é evidente que se
pretende saber a probabilidade de uma observação sobreviver ao tempo t=365.
Este é um dos principais modelos paramétricos usados para descrever a probabilidade de
um evento em estudos de sobrevivência e é denido em termos probabilísticos como:
S(t) = P (T ≥ t) (2.1)
Sabendo que a função de sobrevivência é denida em termos probabilísticos como S(t) =

P (T ≥ t), considerando que F (t) = P (T < t) é a função acumulada de T, dene-se a pro-
babilidade de um indivíduo não sobreviver no tempo t como:
F (t) = P (T < t) = 1 − P (T ≥ t) = 1 − S(t)
6
logo
F (t) = 1 − S(t) (2.2)
ou seja, a função de distribuição acumulada é denida como a probabilidade de uma obser-
vação não sobreviver ao tempo t, isto é, F (t) = 1 − S(t).

A gura a seguir representa o comportamento típico de três funções de sobrevivência,
cada uma representando um grupo distinto, o grupo 1, o grupo 2 e o grupo 3, onde se observa
que o tempo de vida do grupo 1 é superior aos outros 2 grupos na maior parte do tempo.
Figura 2.1: Representação gráca da Função de Sobrevivência para 3 grupos distintos.
Note que no tempo t = 1, S(1) ≈ 0.41 é a probabilidade de sobrevivência para o grupo

3, S(1) ≈ 0.38 para o grupo 2 e S(1) = 0.0 no grupo 1, ou seja, a probabilidade de que um
evento de interesse não ocorra até o tempo t=1 ano é 0 para no grupo 1, 0.38 para o grupo
2 e 0.48 no grupo 3.
2.1.3 Tempo de Falha
Falha, em Análise de Sobrevivência, é denida como a ocorrência de um determinado
evento, que pode ou não ser pré-estabelecido no início da pesquisa. Em geral, uma falha pode
ser a morte de um ser ou uma unidade experimental em estudo, a recaída de uma doença,
mas pode também ser considerado como a melhora no quadro clínico de um paciente (Cesar,
2005).
Consequentemente, dene-se como Tempo de Falha (ou Tempo de Sobrevivência) o tempo
7
Conceitos Básicos
até a ocorrência de um evento de interesse, ou seja, é o tempo decorrido a partir de um ins-
tante inicial até a ocorrência do evento de interesse (Colosimo e Giolo, 2006).
De acordo com esta denição observa-se que o conjunto de tempo de falha compõe o que
denimos anteriormente como Dados de Sobrevivência.
Consideremos, por exemplo, dados que representam o tempo em dias até a morte (tempo
de falha) de pacientes tratados com câncer de ovário em uma dada clínica.
Tabela 2.2: Tempo dos pacientes de um estudo de câncer de ovário.
Amostras Tempos de ocorrência do evento de interesse

28(1); 89(1); 175(1); 195(1); 309(1); 377(0); 393(0); 421(0);
Tumor Grande
447(0); 462(1); 709(0); 744(0); 770(0); 1106(0); 1206(0)
34(1); 88(1); 137(1); 199(1); 280(1); 291(1); 299(0);
Tumor Pequeno
300(0); 309(1); 351(1); 358(1); 369(1); 369(1); 370(1);
375(1); 382(1); 392(1); 429(0); 451(1); 1119(0)
Fonte: Colosimo e Giolo (2006, p.65).
Note que neste exemplo o evento de interesse é a morte causada pelo câncer e que o
dado de interesse é o tempo em dias até a ocorrência da morte. Comumente, pela literatura,
como descrito na seção 2.1.1 o símbolo (0) indica um tempo de observação incompleto em
um certo paciente no processo, o que é tratado como censura e o simbolo (1) indica que o
tempo observado é um tempo completo.
O tempo de falha é geralmente medido em horas, dias, semanas ou até mesmo anos
dependendo do estudo a ser realizado, é ainda constituído por três elementos, tais como o
tempo inicial, a escala de medida e o evento de interesse, onde:
• tempo inicial: é o tempo de início de estudo que deve ser precisamente denido de modo
que os indivíduos ou unidades experimentais possam ser comparados inicialmente na
pesquisa;
• escala de medida: geralmente, é o tempo real ou cronológico que se observa;
• evento de interesse: na maioria dos casos é dado como indesejável e, como denido
anteriormente, é chamado de falha e representa o fenômeno físico em estudo.
Em alguns casos o tempo de falha é denido como a data do início do tratamento de
doenças ou do diagnóstico, e em estudos clínicos aleatorizados é a data de escolha para a
origem do estudo.
Além disso, podem surgir outras escalas de medidas, como o número de ciclos de um
procedimento médico, o volume de oxigênio comprimido em um cilindro ou qualquer outra
medida de carga, desde que possa ser relacionada ao tempo de falha, de vida ou de trata-
mento.
8
O evento de interesse pode ainda ocorrer devido a uma única causa ou devido a duas ou
mais. Quando causas de falha competem entre si ocorre o que se denomina riscos competi-
tivos.
2.1.4 Função Taxa de Falha
Quando se pretende saber ao certo qual é a probabilidade de um paciente com uma deter-
minada doença incurável vir a óbito depois de sobreviver por 365 dias após ser diagnosticado
ou se este risco aumenta ou diminui em relação ao tempo t, pretendemos na realidade saber
qual é a probabilidade da falha ocorrer em um determinado tempo t no intervalo [t1 ; t2 ).

A probabilidade de que a falha ocorra neste intervalo é o que dene a taxa de falha no
intervalo [t1 ; t2 ).
A Função Taxa de Falha, ou Função Densidade de Risco (Função de Risco), λ(t), é a
probabilidade de um indivíduo ou unidade experimental sofrer o evento de interesse em um
intervalo de tempo t e t + ∆t, dado que ele sobreviveu até o tempo t.

A gura a seguir representa três formas de função de risco: uma crescente, uma constante
e uma decrescente.
Figura 2.2: Representação gráca da Função Taxa de Falha para 3 grupos distintos.
Supondo que as funções representem o tempo de vida humano, observa-se que a função
crescente indica que a taxa de falha aumenta à medida que o tempo aumenta, este efeito
representa o comportamento gradual de envelhecimento humano.
A função constante indica que a taxa de falha não se altera com o passar do tempo, um
efeito que representa a juventude e a maturidade do ser humano.
9
Conceitos Básicos
A função decrescente, por sua vez, mostra que a taxa de falha diminui com o transcorrer
do tempo, um efeito que representa o comportamento gradual de crianças recém-nascidas.
Esta probabilidade pode ser expressa em termos de probabilidade condicional como:
P (t1 ≤ T ≤ t2 |T ≥ t1 )
Como a taxa de falha no intervalo [t1 ; t2 ) é denida como a probabilidade de que a falha
ocorra neste intervalo, dado que não ocorreu antes de t1 , dividida pelo comprimento do in-
tervalo, temos:
P (t1 ≤ T ≤ t2 |T ≥ t1 ) 1 P (t1 ≤ T ≤ t2 ) P (t1 ≤ T ≤ t2 )

= · =
t2 − t1 t2 − t1 P (T ≥ t1 ) (t2 − t1 ) · P (T ≥ t1 )
De modo geral, redenindo o intervalo [t1 ; t2 ) como [t; t + ∆t) podemos assumir que a
função densidade de risco (f dr) pode ser escrita na seguinte expressão:
P (t ≤ T ≤ t + ∆t)
λ(t) = (2.3)
∆t · P (T ≥ t)
Nestas condições, assumindo um t tão pequeno o quanto e se queira, λ(t) representa a
taxa de falha instantânea no tempo condicional à sobrevivência até o tempo t, e então, a
f dr de T é denida como:
P (t ≤ T ≤ t + ∆t) P (t ≤ T ≤ t + ∆t|P (T ≥ t))

λ(t) = lim = lim (2.4)
∆t→0 ∆t · P (T ≥ t) ∆t→0 ∆t
Teorema 2.1 Seja T uma variável aleatória que representa o tempo de falha de uma unidade
experimental de um dado estudo. Sendo f (t) uma função densidade de probabilidade e S(t)
a função de sobrevivência, ambos no tempo T = t. Então teremos que
f (t)
λ(t) = (2.5)
S(t)
é a função densidade de risco de T , expressa em termos de f (t) e S(t).
Demonstração: Com efeito! Considerando a equação 2.1, teremos na 2.4 que:
P (t ≤ T ≤ t + ∆t|P (T ≥ t))
λ(t) = lim =
∆t→0 ∆t
P (t ≤ T ≤ t + ∆t)
= lim =
∆t→0 ∆t · P (T ≥ t)
P (t ≤ T ≤ t + ∆t)
= lim =
∆t→0 ∆t · S(t)
10
1 P (t ≤ T ≤ t + ∆t) f (t)
= · lim =
S(t) ∆t→0 ∆t S(t)
Teorema 2.2 Seja T a variável aleatória que representa o tempo de falha de uma unidade
experimental de um dado estudo. Sendo f (t) uma função densidade de probabilidade e S(t)
a função de sobrevivência, ambos no tempo T = t, então teremos que a função densidade de
risco de T , expressa em termos da derivada do log[S(t)], é dada por:
d
λ(t) = − log[S(t)] (2.6)
dt
Demonstração: De fato! Observe que:
f (t) 1 d 1 d 1 d
λ(t) = = · F (t) = · [1 − S(t)] = · [−S(t)] =
S(t) S(t) dt S(t) dt S(t) dt
1 d d
= − · [S(t)] = − log[S(t)]
S(t) dt dt
2.1.5 Função Taxa de Falha Acumulada
Em teoria de probabilidade a função de distribuição acumulada descreve completamente
a distribuição da probabilidade de uma variável aleatória, geralmente de valor real X, e de
modo que, para uma variável aleatória X = x, tem-se:
Zx
F (u) = f (u)du
−∞
Neste contexto, outra, sem dúvida uma das mais úteis em estudos de Análise de Sobre-
vivência, é a Função de Risco Acumulado (f ra), que como o próprio nome sugere, fornece a
taxa de falha acumulada de um evento em estudo.
Nesta condição, tomando λ(t), a f dr, como a função densidade de probabilidade em
questão, onde é pré-denido que t ≥ 0, dene-se a f ra por:
Zt
Λ(u) = λ(u)du (2.7)
A f da é útil na avaliação da função de maior interesse, a f dr λ(t), o que acontece
essencialmente na estimação não-paramétrica em que Λ(t) apresenta um estimador com
11
Conceitos Básicos
propriedades ótimas e com diculdades em estimar λ(t).
Teorema 2.3 Seja T uma variável aleatória que representa o tempo de falha de uma unidade
experimental em um dado estudo. Sendo S(t) a função de sobrevivência no tempo T = t,
então a função de risco acumulado em termos do log[S(t)] é dado por
Λ(t) = −log[S(t)] (2.8)
Demonstração: Note que, considerando a equação 2.6 na 2.7 teremos que:
Zt Zt Zt
d 1
Λ(t) = λ(u)du = − log[S(u)] du = − du =
du S(u)
0 0 0
= −log[S(t)] + log[S(0)] =
= −log[S(t)] + log[P (T ≥ 0)] =
= −log[S(t)] + log(1) = −log[S(t)]
Teorema 2.4 Como T representa o tempo de falha de uma unidade experimental em um

dado estudo, sendo S(t) a função de sobrevivência no tempo T = t e Λ(t) = −log[S(t)] a
função de risco acumulado em termos do log[S(t)], então teremos que
S(t) = exp[−Λ(t)] (2.9)
é a função de sobrevivência em termos de exp[Λ(t)].
Demonstração: Observe que, como Λ(t) = −log[S(t)] ⇒ log[S(t)] = −Λ(t), aplicando a
exponencial em ambos os membros desta expressão teremos:
log[S(t)] = −Λ(t) ⇒ exp{log[S(t)]} = exp[−Λ(t)] ⇒ S(t) = exp[−Λ(t)]
2.1.6 Função Ciclo de Vida e Função Unimodal
A análise do comportamento da taxa de falha de uma unidade experimental ao longo
do tempo pode ser representada por uma curva cujo gráco possui os formatos, além da
constância e monotonicidades, côncavo - convexo ou convexo-côncavo para esboçar o risco
de vida em ciclo ou o risco de vida extremo, respectivamente.
O gráco côncavo - convexo representa as fases da vida característica de uma unidade
12
experimental, de um tratamento ou da recidiva de um evento em estudo pois representa si-
multaneamente o decrescimento, constância (ou risco ínmo) e crescimento da taxa de falha
em relação ao tempo, conhecidos na literatura respectivamente como fase de mortalidade
infantil, fase de maturidade e fase de mortalidade senil.
A partir de uma análise das funções ciclo de vida observa-se três comportamentos dis-
tintos em relação à taxa de falha:
1. Na fase de decrescimento, onde t < t1 , a taxa de falha é alta, porém, decrescente a
medida que o tempo avança;
2. Na fase de constância (maturidade ou vida útil), onde t1 ≤ t < t2 , o período de vida
útil, conforme Wuttke (2008) assume em sua abordagem para Teoria de Conabilidade,
o valor da taxa de falha é praticamente constante, nesta fase as falhas que ocorrem são,
em geral, por razões aleatórias, externas ao tratamento ou experimento em estudo.
3. Na fase de crescimento, onde t ≥ t2 , a taxa de falha tende a ser alta e crescente, o que
sugere, de modo geral, o início do período nal de vida da unidade experimental em
observação.
Funções de risco com este comportamento são chamadas de funções ciclo de vida e seu
gráco é apelidado de "curva da banheira", pois possui a forma de uma banheira.
Figura 2.3: Representação gráca da Curva da Banheira e suas três fases distintas.
De modo similar, o gráco convexo-côncavo representa também três fases da vida ca-
racterística das unidades experimentais, porém, representa inversamente o ciclo de vida, de
modo que a medida que se avança no tempo, a curva representa o crescimento, constância
13
Conceitos Básicos
(ou taxa de risco extremo) e decrescimento.
São curvas conhecidas na literatura por representar a maior taxa de risco, ou simples-
mente uma moda para as unidades experimentais sobre risco, daí o título de função unimodal
com gráco apelidado de curva unimodal.
A partir de uma análise de funções unimodais observa-se também três comportamentos
distintos em relação à taxa de falha:
1. Na fase de crescimento, a taxa de falha é crescente a medida que se avança no tempo
ou seja, tende a ser alta e crescente, pois é diretamente proporcional ao tempo;
2. Na fase de taxa de risco extremo, o valor da taxa de falha são os mais altos e repre-
sentam as observações mais suscetíveis a falha.
3. Na fase de crescimento a taxa de falha tende a ser baixa e decrescente, o que sugere
que o risco diminui a medida que se avança no tempo.
Na gura a seguir são apresentados quatro curvas de risco: EMPÍRICA, M1, M2 e M3. A
primeira representa um modelo de função de risco empírico, onde o gráco resultante mostra
a taxa de falha especicamente para um conjunto de dados particular. Os modelos M1, M2
e M3 representam curvas paramétricas de um modelo contínuo em diferentes parâmetros,
no caso contínuas para t < 200 e para três mudanças paramétricas.
Figura 2.4: Representação gráca de curvas unimodais distintas.
Tanto para estudos de Sobrevivência como em Conabilidade, é de interesse determinar
uma distribuição de probabilidade que melhor se ajuste aos dados do tempo de vida do
14
indivíduo e que represente, sobretudo, taxa de risco bathtub (banheira) ou risco unimodal.
Modelos de grande interesse e de maior abordagem na literatura para este m são os
modelos Normal, Log-Normal, Gama, Exponencial e Weibull, porém, existem vários estudos
que apontam a origem de novas distribuições e que garantem um ajuste mais graticante.
2.1.7 Censura
Censura, é a presença de observações incompletas ou parciais da unidade experimental
na análise de um evento de interesse, ou seja, é a falha de uma unidade experimental em
um tempo não previsto no estudo (Cesar, 2005, p.1). Comumente, na literatura, os dados
censurados são destacados pelo expoente ”∗” ou acompanhados por ” + ”.

Outra forma de exemplicar o conceito de censura em Análise de Sobrevivência, é dada
considerando os pacientes que podem estar vivos ou em remissão no nal de um período
de estudo, em geral, a censura ocorre quando o tempo de falha de um dos pacientes não
é observado, neste contexto, o paciente deixa de ser observado ou o experimento deve ser
encerrado.
A falha ou morte quando ocorre por eventos desconhecidos ou diferentes ao evento de
interesse, ou seja, quando ocorre por outras causas além da estudada, também é dada como
censura.
Para os dados de sobrevivência apresentados na tabela 2.2, no gráco a seguir observa-se

os tempos de falhas e as censuras (ou tempos censurados) dos pacientes observados repre-
sentados, respectivamente por e .
Figura 2.5: Gráco de Censura e falha no tempo dos pacientes do estudo do câncer de ovário.
Em estudos envolvendo dados de sobrevivência esta é a situação mais frequente que se
15
Conceitos Básicos
encontra, pois na prática, é feita a utilização de resultados assintóticos para realizar a análise
estatística destes dados, resultados que não exigem o reconhecimento do mecanismo de cen-
sura de modo que as mesmas técnicas estatísticas são utilizadas na análise de dados oriundos
dos três mecanismos de censura (Colosimo Giolo, 2006, p.11-12) que veremos a seguir.
Colosimo e Giolo (2006) defendem que alguns mecanismos de censura são diferenciados
em estudos de Análise de Sobrevivência, como Censura Tipo I, Censura Tipo II e Censura
Aleatória. Tais categorias se denem como:
• Censura Tipo I é a que possui a característica de ser efetuada quando o estudo é
encerrado após um período de tempo pré-estabelecido, ou seja, o estudo é conduzido
até um tempo limite L, pré-xado e a unidade experimental que ainda não sofreu o
evento de interesse é censurada (Fogo, 2007).
• Censura Tipo II é a que se caracteriza no estudo encerrado após ter ocorrido o evento de
interesse em um número pré-estabelecido de unidades experimentais, neste mecanismo
de censura, o estudo é encerrado quando da ocorrência de r falhas e as n−r unidades
que ainda se encontram em funcionamento são todas censuradas no tempo tr (Fogo,
2007).
• Censura Aleatória ocorre quando uma unidade experimental é retirada no decorrer do
estudo sem que a falha tenha ocorrido ou se a falha ocorre por razões diferentes da
estudada (Colosimo e Giolo, 2006, p.8). Quando uma unidade experimental é incorpo-
rada ao estudo de maneira aleatória, neste caso também ocorre uma censura aleatória
(Fogo, 2007).
Estes três mecanismos de censura são conhecidos como Censura à Direita, ou Censura
Anterior ao Tempo, pois o tempo de ocorrência observado do evento de interesse ocorre antes
do tempo registrado.
Outra ilustração para dados censurados (Colosimo e Giolo, 2006, p.51) considera os tem-
pos de reincidência de 10 pacientes com tumor sólido, onde 6 deles reincidem nos tempo 3,
6.5, 6.5, 10, 12 e 15 meses após ingressarem no experimento, 3 permanecem em reincidência
nos tempos 4, 5.7 e 10, e um deles deixou de fazer parte do estudo aos 8.4 meses de acom-
panhamento, assumindo que o experimento foi elaborado para durar 18 meses, o esquema a
seguir esboça o rol de dados de sobrevivência descrito.
Os dados de sobrevivência no contexto de tempo de falha e censura foram 3, 4(+), 5.7(+),
6.5, 6.5, 7(+), 10(+), 10, 12 e 15.
Outras categorias de censura que ocorrem, além da de Direita, é a Censura à Esquerda
(Censura Posterior ao Tempo) e a Censura Intervalar, a primeira ocorrendo quando o tempo
registrado é maior do que o tempo de falha, ou seja, o evento de interesse ocorre anteri-
ormente a observação da unidade experimental, e a segunda resulta quando os tempos de
sobrevivência não são exatamente conhecidos e sabe-se apenas que eles ocorreram dentro de
16
Figura 2.6: Tempo em meses de calendário (esquerda) e de estudo (direita).
um intervalo (Strapasson, 2007, p.7).
Supondo um estudo com nal previsto no tempo t = 25, a gura a seguir ilustra os
quatro mecanismos de dados de sobrevivência, onde representa a falha e representa
a censura, sendo os três últimos mecanismos com censura anterior ao tempo, segundo Colo-
simo e Giolo (2006), censura à direita.
Figura 2.7: Representação Gráca dos tipos de Censura.
Note que a gura poderá ser interpretada como um gráco dividido em quatro quadrantes
onde:
17
Conceitos Básicos
◦
• o 1 quadrante: representa os Dados com Censura Tipo I, onde nem todas as unidades
experimentais experimentaram o evento até o nal do estudo, em que uma falha é
observada no tempo t = 5;
◦
• o 2 quadrante: representa os Dados Completos, onde todas as unidades experimentais
experimentaram o evento antes do nal do estudo no tempo t = 25;

◦
• o 3 quadrante: representa os Dados com Censura Tipo II, onde o estudo foi nalizado
após a ocorrência de um número pré-estabelecido de 7 falhas, com 4 no tempo t = 25;

◦
• o 4 quadrante: representa os Dados com Censura Aleatória, onde o acompanhamento
de algumas unidades experimentais foi interrompido de modo que elas não experimen-
taram o evento até o nal do estudo.
2.2 Componentes da Inferência Bayesiana

Na Inferência Estatística Clássica, os dados aleatórios de uma amostra X são considera-
dos como independentes e identicamente distribuídos enquanto os parâmetros θ da população

são considerados como xos, porém, são estimados através dos dados de uma amostra repre-
sentativa pois, geralmente, é impossível coletar todas as informações pertinentes a um dado
evento em toda uma população em estudo.
Surge assim algumas questões inerentes a qualquer pesquisa cientíca quando o interesse
é inferir informações sobre uma população em particular: A amostra é representativa? E se
não for?
A inferência bayesiana é, sobretudo, um conjunto de métodos que permite obter previsões,
ou informações, mais nítidas e precisas através de uma amostra. É ainda particularmente
útil e indispensável quando o pesquisador não dispõe de um rol de dados signicantes para
representar a população de interesse. A ideia principal se baseia no seguinte: a compreensão
do caso com a posse de alguns dados permite obter uma medida quantitativa da certeza
(ou incerteza) de um evento em particular e essa abordagem na modelagem desta medida é
muito útil quando:
• os dados não são representativos (limitados);
• os dados não representam a realidade com coerência;
• existem razões para se acreditar que alguns fatos são mais propensos do que outros
mas essa informação não está contida nos dados coletados;
• o interesse consiste em saber qual a probabilidade de ocorrência de certos eventos, não
apenas obter o fato mais provável;
18
As abordagens tradicionais de inferência consideram os valores do parâmetro θ como os
mais alinhados aos dados x da amostra. Na Inferência Bayesiana, os próprios parâmetros
seguem uma distribuição de probabilidade particular, um conhecimento sobre o qual, antes
mesmo de considerar os dados em análise, é resumido em uma distribuição à priori p(θ).

Na prática, a tarefa do analista consiste em construir um modelo estatístico para repre-
sentar o sistema em análise e, em muitas situações, ele se benecia em incluir em um modelo
à priori a evidência disponível de estudos anteriores sobre os parâmetros.
A esta prática dá-se o nome de modelagem bayesiana e as técnicas de inferência envolvida
nesta categoria de análise é chamada de Inferência Bayesiana.
Em modelos bayesianos, a probabilidade dos dados x observados com parâmetro θ, de-
notado por f (x|(θ), são usados para modicar a condição anterior p(θ), com o conhecimento
atualizado que se resume em uma densidade posterior, p(θ|x).
A relação entre essas densidades resulta em uma função de atualizações, conhecida como
função à posteriori, que é constituída em função do conhecimento à priori e da evidência
obtida dos dados disponíveis da amostra.
Do ponto de vista bayesiano, a função de probabilidade resultante é vista como uma
função dos dados x e é chamada de distribuição à posteriori, de modo que os elementos
nesta probabilidade que não sejam funções de x se tornem parte de uma constante de pro-
porcionalidade c indicada por ∝. Portanto
p(θ|x) ∝ f (x|(θ)p(θ), θ ∈ Θ (2.10)
e para maiores detalhes, sugere-se consultar Gamerman e Migon (2006) ou Congdon (2003).
2.2.1 O Teorema de Bayes
A base para a inferência bayesiana deriva do teorema de Bayes, em denição formal,
fornece a probabilidade condicional de ocorrência de um evento A dado o conhecimento
prévio do evento B, e expresso matematicamente a seguir como
Pr (B|A)Pr (A)
Pr (A|B) = (2.11)
Pr (B)
tal que, substituindo B pelas observações do vetor x, A pelo vetor de parâmetros Θ e as
probabilidades Pr pelas densidades p (às vezes π ou simplesmente a função f ), o teorema de

Bayes é conduzido a
p(x|Θ)p(Θ)
p(Θ|x) = (2.12)
p(x)
A densidade p(Θ) representa a distribuição à priori do vetor de parâmetros Θ e é denido
19
Conceitos Básicos
antes, ou simultaneamente, a x, p(x|Θ) é a probabilidade de x dado os parâmetros em Θ

sob um modelo paramétrico, e p(Θ|x) é a distribuição à posteriori do vetor de parâmetro Θ
e expressa a incerteza sobre o parâmetro Θ ajustado.
O denominador p(x) é a probabilidade marginal de x, é uma distribuição que pode ser
incorporada a uma constante de proporcionalidade c e é denida como
Z
p(x) = p(x|Θ)p(Θ)dΘ (2.13)
Esta distribuição normaliza a distribuição p(Θ|x) de modo que a formulação do modelo
paramétrico baseado no teorema de Bayes é dado por
p(x|Θ)p(Θ)
p(Θ|x) = (2.14)
c
2.2.2 O Conceito de Informação a Priori
Quando uma informação prévia está disponível sobre o vetor de parâmetro Θ ela deve
ser incluída na sua distribuição à priori.
Desta maneira, um modelo não está partindo do risco baseado somente nos dados dispo-
níveis, mas também nos efeitos cumulativos de todos os dados, assim, os dados passados e
os presentes podem ser considerados na análise através da informação prévia, a informação
a priori.
Para assegurar que dados atuais não oprimem a informação prévia, Ibrahim e Chen
(2000) introduziram a técnica power prior que consiste em uma classe de distribuição à
priori que leva em conta dados e resultados precedentes.
No entanto, em qualquer técnica a considerar, a informação prévia não está simplesmente
pronta para ser usada, como quando parte da opinião de um perito. Neste caso, segundo
Penha (2014) a opinião pessoal sobre a probabilidade do evento deve ser eliciada para uma
função de densidade apropriada, isto é, deve ser processada sobre a forma de uma distribui-
ção de probabilidade.
Existem vários procedimentos para a produção de distribuições à priori e de acordo com
Paulino, Turkman e Murteira (2003) eles se dividem basicamente em três classes: os proce-
dimentos para as distribuições à priori subjetivas, para as distribuições à priori conjugadas
e para à priori não informativa. Sobretudo, consistem respectivamente de:
prioris subjetivas: é a situação em que existe a informação mais ou menos substancial
sobre os parâmetros do modelo, de natureza essencialmente subjetiva pois parte do
decisor ou de outros indivíduos a quem o decisor pode recorrer, sobretudo considera:
• a informação a priori do decisor sobre um ou mais acontecimentos;
20
• métodologia estrutural de eliciação;
• procedimentos preditivos de eliciação;
prioris conjugadas: é a situação que mais facilita a análise pois a ideia é considerar as
distribuições a priori e posteriori pertencentes a mesma classe de distribuições de modo
que o conhecimento que se tem sobre os parâmetros envolva apenas sua representação
na forma funcional, o que aproxima estes procedimentos da natureza objetiva da in-
formação e considera elementos da inferência clássica, tais como o conceito de;
• Estatísticas Conjuntamente Sucientes;
• Famílias Conjugadas;
• Conjugação e Família Normal e Exponencial;
prioris não informativa: é a situação na qual não existe uma informação a priori palpá-
vel, seja de natureza objetiva, subjetiva ou em que o conhecimento a priori é pouco
signicativo em relação a informação amostral, e consistem de métodos LIP's ( Least

Informative Priors - priori minimamente informativa) apelidados também por distri-
buições não informativas. Os principais métodos apresentados na literatura são:
• Bayes-Laplace;
• Jefreys;
• Box-Tiao;
• Método Flat (Plano Uniforme);
• Método Hierárquico;
• Método de Entropia Máxima (MAXENT);
• Maximização da Discrepância Intrínseca Esperada (Priori de Referência entre as
distribuições posteriori e priori);
2.2.3 Distribuições à Priori Não Informativas
Comumente alguns praticantes de inferência estatística querem se beneciar da estrutura
bayesiana pelo pretexto de uma inuência tão limitada da distribuição à priori quanto possí-
vel. Isso pode ser conseguido escolhendo priores que têm um impacto mínimo na distribuição
à posteriori.
Tais priores são chamadas de priores não informativas e são populares para algumas
21
Conceitos Básicos
aplicações, embora nem sempre sejam fáceis de construir. Uma priori informativa domina a
probabilidade e, portanto, tem um impacto discernível sobre a distribuição à posteriori.
Uma distribuição a priori é não-informativa quando se espera que a informação dos dados
seja dominante, no sentido de que a informação fornecida é vaga em relação à distribuição
à posteriori, isto é, tenha um efeito mínimo, relativamente aos dados, na inferência nal.
No entanto, a medida que um histórico não informativo apresenta-se mais objetivo, em-
bora exista algum grau de subjetividade em qualquer que seja a priori escolhida, a distribui-
ção à priori não representa ignorância completa sobre o parâmetro em questão. Além disso,
o uso de priores não informativas pode levar ao que é conhecido como priori imprópria, a
densidade à posteriori não integrável com a qual não se pode fazer inferências.
Sobretudo, priores não informativas também podem ser tomadas como prioris inovado-
ras, o que signica que elas podem ser não informativas em uma parametrização, mas são
informativas se uma transformação for aplicada. Por outro lado, uma distribuição à priori
inadequada pode ser apropriada à posteriori, tanto que distribuições prévias inadequadas
são frequentemente usadas nas abordagens bayesianas, pois elas produzem priores não in-
formativas e distribuições à posteriores apropriadas.
Uma maneira relativamente simples de denir distribuições a priori não informativas é
escolher distribuições de forma que o parâmetro de interesse possua uma variância bastante
elevada, isto é, atribuir uma distribuição de probabilidade apropriada ao parâmetro dos
estudos e de modo que o parâmetro de variabilidade da distribuição adotada seja alto.
2.2.4 Distribuições a Priori Impróprias
Um estudo mais aprofundado sobre os métodos não informativos de Bayes-Laplace e de
Jefreys sitados anteriormente em 2.2.2, permite constatar que estas são distribuições a priori
frequentemente imprórias.
Contudo, é de interesse comum que uma distribuição a priori seja denida como própria,
e será imprópria quando
Z
p(x|θ)dθ = +∞ (2.15)
Notavelmente, uma distribuição à priori uniformemente ilimitada, seja a esquerda ou adi-
reita, é uma distribuição a priori imprópria pois θ ∼ U (−∞; +∞), p(θ) ∝ k e k constante,
ou seja:
Z+∞ Z+∞
p(x|θ)dθ ∝ kdθ = +∞ (2.16)
−∞ −∞
22
Segundo Paulino, Turkman e Murteira (2003), o problema consiste em que, para tais
casos, a realização da inferência é inviável pois o parâmetro de interesse não congura na
verossimilhança, e isso implica que a distribuição à posteriori coincide com a priori.
Paulino e Pereira (1994) atribuem este efeito aos casos de não identicabilidade (inidenti-
cável) de funções de distribuição e, sobretudo, é inquestionável sua implicação no contexto
bayesiano, pois, embora com exceções, os fatores de Bayes não podem ser aplicados.
Mouchart (1976) e Paulino (1993) chamam a atenção para natureza imprópria da distri-
buição de probabilidade preditiva à priori para os dados observados, comprometer a distri-
buição à posteriori tornando-a também imprópria, isto é, dada uma distribuição de probabili-
dade X não identicável, é certo que suas distribuições à posteriori e priori, respectivamente,
p(Θ|x) e p(Θ), serão também não identicáveis.
2.2.5 O Intervalo de Credibilidade
Em inferência bayesiana a forma mais adequada de expressar a informação que se obtém
sobre um parâmetro é através de sua distribuição à posteriori, e tão importante quanto a
denição desta distribuição é a associação de alguma informação sobre o quão precisa é a
informação desta estimativa.
Tal precisão é conhecida como intervalo de credibilidade e seu conceito é análogo ao
conceito de intervalos de conança usados na estatística clássica, tanto que comumente é
chamado de intervalo de conança bayesiano.
Ehlers (2011) propõe uma denição para intervalos de credibilidade e arma que é possí-
vel construir uma innidade de intervalos através dela, porém, o autor enfatiza que o objetivo
é, dentre todos intervalos obtidos, tomar o de menor comprimento possível. A denição pro-
posta pelo autor é apresentada a seguir.
Denição 2.1 Seja p(θ|x) a distribuição à posteriori de parâmetro θ. C é um intervalo de

credibilidade de 100(1−δ)% para θ, ou ao nível de credibilidade 1−δ , se P (θ ∈ C|x) ≥ 1−δ ,
isto é
Z
P (θ ∈ C|x) = p(θ|x)dθ = 1 − δ (2.17)
Geralmente, são construídos intervalos de credibilidade sobre os quais P (θ ∈ C|x) =

0, 95.
Uma denição similar, porém mais clara é apresentado por Murteira (2013) como:
Denição 2.2 Observado x de uma variável aleatória X e determinada a distribuição a pos-

teriori p(θ|x), um intervalo de credibilidade para o parâmetro θ é formado por um par de valo-
res do espaço de parâmetros Θ, sejam [θ( 2 ) (x), θ(1− 2 ) (x)], ou mais simplesmente [θ( 2 ) , θ(1− 2 ) ],
δ δ δ δ
23
Conceitos Básicos
e tais que
δ
θ(1−
Z 2)
δ δ
P (θ( 2 ) < θ < θ(1− 2 ) |x) = p(θ|x)dθ = 1 − δ (2.18)
δ
θ( 2 )
O autor destaca também que, se Θ = (−∞; +∞), uma forma indicada de construir um
intervalo de credibilidade, neste caso dito central, é considerar na distribuição à posteriori
caudas de igual credibilidade vericando que
δ
θ( 2 )
Z Z+∞
δ
p(θ|x)dθ = p(θ|x)dθ = (2.19)
2
−∞ δ
θ(1− 2 )
Na prática, um intervalo de credibilidade é representado pelos quantis [Q δ ; Q1− δ ] =

2 2
( 2δ ) (1− 2δ )
[θ ,θ ] da distribuição a posteriori de p(θ|x) onde δ é a signicância do intervalo.
Além disso, a análise bayesiana é, sobretudo, sobre a distribuição à posteriori. Os parâ-
metros são quantidades aleatórias que possuem distribuições, em oposição aos parâmetros do
modelo xo da estatística clássica e, toda a inferência estatística de uma análise bayesiana,
provêm de medidas resumidas da distribuição à posteriori, como estimativas pontuais e o
intervalo de credibilidade.
No entanto, estatísticas como a média ou a mediana de uma distribuição à posteriori
fornecem estimativas pontuais para o parâmetro θ em estudo, enquanto que os seus quantis
fornecem os intervalos de credibilidade.
Como descrito anteriormente, os intervalos de credibilidade da inferência bayesiana são
análogos aos intervalos de conança da inferência clássica, e existem dois tipos de inter-
valos de credibilidade: o intervalo de credibilidade central (simétrico), de caudas iguais e
com 100(1 − δ)% de credibilidade para descrever o intervalo entre os pontos de corte, e o
intervalo de máxima densidade à posteriori, que é o intervalo cuja probabilidade à posteriori
do intervalo entre os pontos de corte é de 100(1 − δ)%.

A grande diferença entre estes dois intervalos de credibilidade está atribuída ao intervalo
HPD (Highest Posterior Density - Máxima Densidade à Posteriori) pois a densidade mínima
de qualquer ponto nesse intervalo é igual ou maior do que a densidade de qualquer ponto
fora dele, e isso o torna o de menor amplitude. Porém, alguns estatísticos ainda preferem o
intervalo de credibilidade central porque é invariante sob transformações, mas outros prefe-
rem o HPD porque é o menor intervalo possível.
Um intervalo de conança bayesiano é dito ser HPD quando satisfaz as duas seguintes
propriedades:
• A probabilidade à posteriori desse intervalo é de 1 − δ;
24
• A densidade para qualquer ponto dentro desse intervalo é igual ou maior do que a
densidade para qualquer ponto fora desse mesmo intervalo.
A denição de um intervalo HPD é similar ao do intervalo de credibilidade central, porém,
considera que θ seja uma posteriori de densidade máxima. Veja:
Denição 2.3 Seja p(θ|x) a distribuição à posteriori de parâmetro θ, uma posteriori de

densidade máxima. Então C = {θ ∈ Θ| p(θ|x) ≥ K(δ)} é um intervalo de credibilidade
de máxima densidade à posteriori com 100(1 − δ)% de credibilidade para θ, ou ao nível de
credibilidade 1 − δ , se K(δ) é a maior constante tal que P (θ ∈ C|x) ≥ 1 − δ , isto é
Z
P (θ ∈ C|x) = p(θ|x)dθ = 1 − δ (2.20)
Vale ressaltar que, para uma dada credibilidade, o intervalo HPD é o intervalo que apre-
senta a menor amplitude dentre todos os possíveis intervalos de credibilidade.
Contudo, como se busca obter intervalos com o menor comprimento (ou volume) pos-
sível, sem se tomar a esperança, ou seja, avaliando-os em termos da amostra observada, o
intervalo HPD é usado mais frequentemente pelos pesquisadores.
2.3 O Modelo Inverso de Chen Com Dois Parâmetros

2.3.1 Os Modelos Probabilísticos
Na literatura de Análise de Sobrevivência e Teoria de Conabilidade encontra-se uma
exaustiva relação de modelos paramétricos ou probabilísticos que se mostram muito ecien-
tes para descrever os tempos de vida de um dado evento em análise.
Segundo Colosimo e Giolo (2006), a importância destes modelos existe em virtude de
que os estudos destes eventos envolvem variáveis que podem ser planejadas, e consequente-
mente, é possível manter as fontes de perturbações sob controle, de modo que, em termos
matemáticos, um modelo probabilístico adequado facilita a análise estatística dos dados de
um experimento em estudo além da obtenção de resultados mais precisos.
Em análise de sobrevivência, especicamente, estes modelos são indispensáveis para des-
crever as variáveis clínicas e embora exista uma série de modelos utilizados para este m,
alguns se destacam entre todos devido suas comprovadas adequações a várias aplicações
práticas.
Dentre todos os possíveis modelos a se adotar em uma análise, é facilmente citado o mo-
delo Exponencial, Weibull, Log-Normal, Log-Logística, Gama e Gama-Generalizada. Tais
25
Conceitos Básicos
modelos probabilísticos são comumente chamados de Distribuição de Probabilidades e, no
campo da Análise de Sobrevivência e Teoria da Conabilidade, surgem para modelar o tempo
de falha do evento em estudo.
Contudo, existem inúmeras distribuições de probabilidades apropriadas para modelar o
tempo de falha de situações clínicas e produtos ou materiais, e a escolha do modelo a ser
utilizado é um tópico extremamente importante, senão o mais delicado na análise estatística
dos dados de tempo de vida.
O método de máxima verossimilhança por exemplo, só pode ser aplicado após de se de-
nir o modelo probabilístico que se adeque aos dados em análise. No caso da escolha do
modelo Normal para representar os dados, o método é aplicado para estimar os parâmetros
µ e σ, respectivamente, a média e o desvio padrão da distribuição. Este método será apre-
sentado na seção a seguir.
Entretanto, se o modelo Normal não for o adequado ao ajuste dos dados, os resultados,
conclusões e respostas às perguntas pertinentes à pesquisa serão imprecisas e distorcidas em
consequência de uma análise estatística mal sucedida em virtude de parâmetros mal estima-
dos por consequência do modelo mal selecionado.
Enm, a diculdade em obter o modelo de melhor ajuste aos dados da análise é comu-
mente justicado pelo fato de que a escolha do modelo é, na maioria dos casos, baseada em
informações que não estão disponíveis, entretanto, é possível que em alguns casos encontra-se
evidências em testes realizados no passado, mas em geral, a escolha de um modelo adequado
é basicamente empírica.
Nestas condições, dada a innidade de casos clínicos e industriais que se pode tomar,
é provável que se deseje estudar um evento no qual os dados exijam uma distribuição de
probabilidade mais exível para acomodar a função de sobrevivência e, consequentemente,
a função de risco e portanto, é requerido a busca e estudo de novas distribuições de proba-
bilidade.
2.3.2 A Distribuição de Probabilidade Proposta
Vale ressaltar que em teoria de probabilidades é comum a utilização de transformações
de variáveis aleatórias que mapeiam um conjunto de variáveis alvo (entrada) em outro con-
junto de variáveis em análise (saídas), e esta transformação é descrita como uma relação de
entrada e saída dada por y = ϕ(x).

No que tange este conceito, a obtenção da distribuição de probabilidade Inversa de Chen
é um caso de uma transformação linear que converte uma variável aleatória X ∼ Chen(α; β)
−1 −1
para uma variável Y ∼ Chen (α; β) através da transformação Y =X .
Inicialmente, citado por Srivastava e Srivastava (2014), Chen (2000) propôs uma distri-
buição de probabilidade com dois parâmetros a m de estudar tempos de vida cuja função
de risco assume a forma bathtub (banheira), denominada distribuição de Chen. Então, se X
26
é uma variável aleatória com função densidade de probabilidade dada por:
F (x|α; β) = 1 − exp{α[1 − exp(xβ )]} (2.21)
em que x é uma observação da variável aleatória X , α e β são os parâmetros da distribuição,
e tais que x > 0, α > 0 e β > 0.
Consequentemente, a função de distribuição de probabilidade (fdp), para todo x > 0,

α>0 e β > 0, é dada por:
f (x|α; β) = αβxβ−1 exp{xβ + α[1 − exp(xβ )]} (2.22)
Mais especicamente, se X tem uma distribuição de Chen com parâmetros α e β , to-

−1 −1
mando uma variável auxiliar Y denida como Y = X e fazendo a transformação X = Y ,
dizemos que Y tem uma distribuição Inversa de Chen cuja fda é dada por:
F (y|α; β) = exp{α[1 − exp(y −β )]} (2.23)
Logo, a fdp de Y ∼ Chen−1 (α; β) é dada então por:
f (y|α; β) = αβy −(β+1) exp{y −β + α[1 − exp(y −β )]} (2.24)
Detalhes mais especícos, bem como a justicativa matemática sobre sua obtenção atra-
vés da transformação da variável aleatória Y = X −1 , são apresentados oportunamente no
desenvolvimento deste trabalho no tópico "Propriedades do Modelo Proposto".
2.4 Técnicas Paramétricas de Estimação

2.4.1 O Estimador de Máxima Verossimilhança
Sejam X1 , X2 , X3 , ..., Xn uma amostra aleatória de tamanho n de uma variável aleatória
X com função de densidade de probabilidade qualquer dada por f (x|θ), com θ ∈ Θ, onde
Θ ∈ < é o espaço paramétrico de θ.

O método da máxima verossimilhança consiste em estimar os parâmetros de um modelo
utilizando as estimativas que tornam máximo o valor da função de verossimilhança de θ

correspondente à amostra aleatória apresentada que é denida como
n
L(θ|x) =
Y
f (xi |θ) (2.25)
i=1
27
Conceitos Básicos
Não é por acaso que esta técnica é a primeira considerada neste capítulo, pois a estimação
de máxima verossimilhança é a principal técnica que possibilita a obtenção de estimadores
de parâmetros em diversas situações de estudos, tendo como único competidor equivalente
o método de mínimos quadrados, que não será abordado neste trabalho.
O processo de obtenção de uma estimativa para θ através de um estimador de máxima
verossimilhança consiste em maximar a função de verossimilhança descrita em 2.25 através
de um valor de θ, a sua estimativa, e dentre todos os métodos possíveis para este m, este
é o mais aplicado em qualquer linha pesquisa.
Uma justicativa para isso é que este método não considera restrições signicantes sobre
sua aplicação, e por mais que a função l(θ|x) seja complexa, o método considera que a tarefa
de maximar l(θ|x) através de θ , é a mesmo que maximar L(θ|x) também através de θ , sendo
a segunda ainda mais simplicada pois
" n
#
l(θ|x) = ln[L(θ|x)] = ln
Y
f (xi |θ) (2.26)
i=1
isto é, o estimador de máxima verossimilhança para θ é a função de verossimilhança corres-
pondente a amostra aleatória observada e é denida de duas formas como mostrado em 2.25
e 2.26.
Então, se θ maximiza 2.25, o estimador de máxima verossimilhança de θ é a função θ̂

encontrada de modo que θ̂ é a raiz da equação de verossimilhança dada por
∂L(α; β|y)

L (θ|x) =
0
=0 (2.27)
∂θ

θ=θ̂
ou equivalentemente, através da expressão 2.26, como
∂L(α; β|y)

L (θ|x) =
0
=0 (2.28)
∂θ

θ=θ̂
Oportunamente, será mostrado que a função de verossimilhança 2.25 de uma amostra
aleatória proveniente da distribuição Y ∼ Chen−1 (α; β) é dada por:
n
( n )
L(α; β|y) = (αβ)n
Y X
(yi )−(β+1) exp yi −β + α[1 − exp(yi −β )] (2.29)
i=1 i=1
e através dela, ou de 2.26, resulta que
n
α̂ = n (2.30)
X
−β̂
exp(yi )−n
i=1
28
n n
n X X
−β̂ yi −β̂ exp(yi −β̂ )ln(yi )
− ln(yi ) + yi + n =0 (2.31)
β̂ i=1 i=1
X
−β̂
exp(yi )
i=1
2.4.2 O Método dos Momentos
Como um dos métodos de estimação mais simples da literatura, o método dos momentos,
segundo Bolfarine e Sandoval (2010) é também um dos métodos mais antigos conhecidos,
datado desde o século XV III .

Seja X uma varável aleatória contínua, com função densidade de probabilidade dado por
f (x|θ), dene-se como o r-ésimo momento populaconal, ∀ r ≥ 1, a expressão genérica da

r
esperança de X dada por
Z+∞
Mr = E(X r ) = xr f (x|θ)dx, ∀x ∈ < (2.32)
−∞
Por ser um cálculo de valor esperado, o cálculo dos momentos varia ligeiramente depen-
dendo da variável aleatória considerada, mas em geral, os momentos de ordem r = 1 fornece

a expressão para a média µ da variável aleatória X.
E mais, dene-se como o momento central populacional de ordem r, o momento de X
centrado na média µ, ou seja, o r-ésimo momento de X −µ dado por:
Mr0 = E[(X − µ)r ] = E[X − E(X)]r (2.33)
Note que em geral, quando r = 1, o primeiro momento central, tem-se M10 = 0 e para
r=2 obtem-se a variância da variável aleatória, ou seja, M20 = σ 2 .

Sobretudo, o momento Mr é um dos critérios mais comuns utilizados para a obtenção
da média µ e a variância σ2 de uma distribuição de probabilidade, além disso, seus quatro
primeiro momentos caracterizam, respectivamente, tendência central, dispersão, assimetria
e curtose.
Ao processo de obtenção dos quatro primeiros momento de uma variável aleatória X,

diz-se obter uma caracterização geral para X, neste caso, tomando a variável aleatória
−1
Y ∼ Chen (α; β), vericaremos oportunamente neste trabalho que é possível obter a ca-
racterização geral para Y, isto é, considerando que ∀ y, α, β ∈ <∗+ o r-ésimo momento de Y

existe e é dado por
Z+∞ Z+∞
r
E(Y |α; β) = r
y f (y|α; β)dy = αβy r−(β+1) exp{y −β }exp{α[1 − exp(y −β )]}dy (2.34)
0 0
29
Conceitos Básicos
2.4.3 A Função Escore
Em casos mais complexos, principalmente quando a função de verossimilhança para uma
variável aleatória X está associada a modelos não elementares a expressão 2.34 é não linear e
portanto não apresenta uma solução analítica explícita, ou seja, fornece uma solução fechada
para a obtenção dos estimadores de interesse.
Sendo assim, estes casos exigem uma solução numérica para a obtenção destes estimado-
res e métodos numéricos são executados para a realização de tal tarefa, ou seja, o valor de
θ̂ que seja solução para a equação
x

∂l(θ| )
l0 (θ̂|x) = =0 (2.35)

∂θ

θ=θ̂
é obtido através de um procedimento iterativo.
Bolfarine e Sandoval (2010) sugerem o método de Newton-Raphson que consiste em
expandir l0 (θ̂|x) = 0 em série de Taylor de ordem 1 em torno de um ponto inicial θ0 ,

iterativamente, até que a estabilização do processo ocorra para um dado tão pequeno
quanto se queira.
A expressão l0 (θ|x) é denominado de função escore e é denotada na literatura por U (θ)

como
∂l(θ|x)
U (X|θ) = U (θ) = l0 (θ|x) = (2.36)
∂θ
No entanto, sendo então U (θ̂) = 0 o estimador de maxima verossimilhança de θ, para o
procedimento descrito tem-se na expansão de Taylor em primeira ordem que
U (θ0 )
U (θ̂) ∼
= U (θ0 ) + (θ̂ − θ0 )U 0 (θ0 ) = 0 ⇒ U (θ0 ) + (θ̂ − θ0 )U 0 (θ0 ) = 0 ⇒ θ̂ ∼
= θ0 − 0
U (θ0 )
e resulta o processo iterativo sobre
U (θj )
θj+1 = θj −
U 0 (θj )
Em m, o processo se estabiliza sobre o ponto θ̂ que é tomado como o estimador de
máxima verossimilhança de θ.
De maneira oportuna, será vericado no presente estudo que para o modelo paramétrico
proposto, tem-se para os estimadores α̂ e β̂ , respectivamente que
n
n X
U (Y |α̂) = + n − exp(yi −β̂ ) (2.37)
α̂ i=1
30
n n n
n X X
−β̂
X
U (Y |β̂) = − ln(yi ) + exp(yi ) + α̂ yi −β̂ exp(yi −β̂ )ln(yi ) (2.38)
β̂ i=1 i=1 i=1
2.4.4 A Medida de Informação de Fisher
Outra estatística importante no estudo da função de verossimilhança e que será útil na
construção de estimadores pontuais é a medida de informação de Fisher.
Considere uma única observação X com função de densidade de probabilidade f (x|θ).

A medida de informação esperada de Fisher de θ através de X é denida a partir de 2.36
como:
I(θ) = E[−U 0 (X|θ)] (2.39)
Mais especicamente, no caso de um vetor paramétrico θ = (θ1 , θ2 ), dene-se a matriz
de informação esperada de Fisher de θ através de X como
−U 0 (X|θ1 )
−U 0 (X|θ1 ; θ2 )
 
I(α; β) = E   (2.40)
−U 0 (X|θ2 ; θ1 ) −U 0 (X|θ2 )
onde
∂l(θ1 ; θ2 |x) ∂l(θ1 ; θ2 |x)

U (X|θ1 ; θ2 ) = = = U (X|θ2 ; θ1 ).
∂θ1 ∂θ2 ∂θ2 ∂θ1
Segundo Ehlers e Justiniano, o conceito de informação apresentado em 2.40 se associa
a uma espécie de curvatura média da função de verossimilhança no sentido de que quanto
maior a curvatura mais precisa é a informação contida na verossimilhança, ou equivalente-
mente, maior o valor dos elementos de I(θ1 ; θ2 ).

Em geral espera-se que a curvatura seja negativa e por isso seu valor é tomado com sinal
trocado. Além disso, observa-se também que a esperança matemática é tomada em relação
à distribuição amostral f (x|θ).

E mais, I(θ1 ; θ2 ) é considerado como uma medida de informação global, ou seja, não é
aplicável quando certas condições de regularidade não são satisfeitas, o que segundo Bolfa-
rine e Sandoval (2010), se dene resumidamente como E[U (X|θ)] = 0, pois o valor esperado
da função escore é sempre igual a 0.
Nestes casos, em que E[U (X|θ)] 6= 0, dene-se uma medida de informação local que
é obtida quando não se toma o valor esperado como denido em 2.40. Assim, dene-se a
medida de informação observada de Fisher, denotada por J(θ1 ; θ2 ), como
31
Conceitos Básicos
−U 0 (X|θ1 ) −U 0 (X|θ1 ; θ2 )
 
J(θ1 ; θ2 ) =   (2.41)
−U 0 (X|θ2 ; θ1 ) 0
−U (X|θ2 )
onde U (X|θ1 ; θ2 ) = U (X|θ2 ; θ1 ) como em 2.40, U (X|θ1 ) e U (X|θ2 ) como em 2.36.
Veremos posteriormente para o modelo em estudo a formalização necessária para a me-
dida de informação do vetor θ̂ = (α̂; β̂) e que, em decorrência de sua caracterização, dene-se
apenas a medida de informação apresentada em 2.41.
2.4.5 Limite Inferior e Desigualdade da Informação
A idéia de que a informação mede a precisão de uma amostra é empregada em diversos
problemas por mais complexos que sejam.
Sobre a medida de informação de Fisher apresentada anteriormente, é importante des-
tacar que esta estatística depende apenas da distribuição dos dados e não de qualquer valor
da amostra da variável aleatória X.

Além disso, a informação total contida nos dados é a soma das informações trazidas por
cada uma das observações, neste caso, se uma amostra aleatoria é independente e identica-
mente distribuída, temos por m que I(θ) = nI(θ), isto é, a informação contida em uma
amostra é a soma das informações de cada elemento da amostra.
Por isso, é importante denir um limite inferior para a variância de cada estimador θ̂
obtido no estudo, uma vez que, este limite permite dizer que a variância de qualquer esti-
mador é igual ou superior a este limite.
Seja então X1 , X2 , X3 , ..., Xn uma amostra aleatória Xf (x|θ), uma função de den-
com
sidade de probabilidade com função de verossimilhança dada por l(θ|X), onde θ ∈ Θ, com
Θ ∈ <. Além disso, seja T (θ|X) = t(X1 , X2 , X3 , ..., Xn ) um estimador não viciado de X .
Nestas condições, segundo Mood, Graybill e Boes (1974), xamos como condições de
regularidades as seguintes pressuposições:
∂l(θ|x)
i) Existe ∀ x e θ;
∂θ
Z Z Z Z
∂ ∂
ii) ... [l(θ|x)] dx1 ...dxn = ... [l(θ|x)] dx1 ...dxn
∂θ ∂θ
Z Z Z Z
∂ ∂
iii) ... [T (θ|x)l(θ|x)] dx1 ...dxn = ... [T (θ|x)l(θ|x)] dx1 ...dxn
∂θ ∂θ
∂ l(θ|x)
2
iv) 0 < E − < +∞
∂θ2
32
Logo, quando as condições de regularidades descritas acima são satisfeitas, denimos
como o Limite Inferior da variância dos estimadores não viciados de θ a estatística dada por:
LI(θ) = [nI(θ)]−1 (2.42)
Consequentemente, em relação aos estimadores não viciados de θ, a Desigualdade da
Informação de qualquer estimador θ̂ é obtido através da desigualdade
V ar(θ̂) ≥ [nI(θ)]−1 (2.43)
Note que estas duas estatísticas são denidas sobre a medida de informação global dos
dados, pois considera a informação esperada de Fisher, assim, tomando a medida de infor-
mação local, através da informação observada de Fisher, J(θ), temos similarmente que
LI(θ) = [nJ(θ)]−1 (2.44)
V ar(θ̂) ≥ [nJ(θ)]−1 (2.45)
são, respectivamente, o Limite Inferior da variância local e a Desigualdade da Informação
local para o estimador θ̂.

Para maiores informações, como os detalhes do rigor matemático para estes conceitos, é
sugestivo que o leitor consulte Mood, Graybill e Boes (1974) ou Bolfarine e Sandoval (2010).
2.4.6 O Intervalo de Conança Assintótico
Comumente, em qualquer problema de estimação é razoável armar que um estimador é
uma estatística cujo valor é assumido como uma estimativa.
Neste sentido, o problema de estimar o valor de α e β pode ser visto como o de selecionar
por inferência a particular distribuição geradora de α̂ e β̂ .
No entanto, a distribuição exata dos parâmetros α̂ e β̂ não pode ser obtida de forma
explícita, por isso, as propriedades dos intervalos de conança aproximados para os parâme-
tros α e β baseados na distribuição assintótica do estimador de máxima verossimilhança α̂

e β̂ podem ser aplicadas para se construir seus intervalos de conança.
Podemos então assumir que, segundo as teorias assintóticas válidas para o processo de
inferência estatística:
θ̂ ≈ N (0; [nI(θ)]−1 ) (2.46)
onde 0 = [0 0]t é a matriz coluna 2×1 de médias nula e I(θ) = I(α; β) é a matriz de
33
Conceitos Básicos
informação esperada de Fisher para α e β X.

através de uma amostra da variável aleatória
Pretendemos então obter os intervalos de conança aproximados para os parâmetros α e β
baseados na distribuição assintótica dos estimadores de máxima verossimilhança θ̂ = (α̂; β̂).
Daí, de acordo com 2.46, em consequência do Teorema Central do Limite resulta que
θ̂ − θ
Q(X ; θ) = p ≈ N (0; I) (2.47)
[nI(θ)]−1
é a quantidade pivotal para o parâmetro θ onde 0 = [0 0] é o vetor de médias nula e I é
uma matrix identidade de ordem 2 × 2.

Considerando então que X é uma única observação com fdp f (x|θ) e denida a medida
de informação esperada de Fisher, para os parâmetros de θ, como:
∂ L(θ|x)
2
I(θ) = E − (2.48)
∂θ2
onde
∂ 2 L(θ|x)
= U 0 (X|θ) = U 0 (X|α; β) (2.49)
∂θ2
e xado a partir daqui o vetor de parâmetros θ = (α; β), temos consequentemente, uma
matriz esperada de Fisher dada por I(α; β), em que α e β são dois parâmetros desconhecidos.
Então substituindo α e β por seus respectivos estimadores de máxima verossimilhança,
obtém-se uma matriz esperada de Fischer das estimativas, I(α̂; β̂), denida por:
−U 0 (X|α̂) −U 0 (X|α̂; β̂)

 
I(α̂; β̂) = E   (2.50)

−U 0 (X|β̂; α̂) 0
−U (X|β̂)
e, equivalentemente, uma matriz observada de Fischer das estimativas, J(α̂; β̂), denida
como:
−U 0 (X|α̂) −U 0 (X|α̂; β̂)

 
J(α̂; β̂) =   (2.51)

−U 0 (X|β̂; α̂) 0
−U (X|β̂)
O detalhe do conceito aqui aplicado é que, em geral, a distribuição assintótica do esti-
mador de máxima verossimilhança apresentada em 2.46 fornece a variância [nI(θ)]−1 , que
substituída pelo seu estimador [nI(θ̂)]−1 apresenta as variâncias estimadas para os estimado-
res de α e β , ou seja, no caso esperado e, equivalentemente, no caso observado com [nJ(θ̂)]−1 ,

surge um dos mais importantes resultados da inferência estatística para a estimação de pa-
râmetros de um sistema, a matriz de variâncias e covariâncias destes parâmetros.
No caso esperado e observado são dadas, respectivamente, como:
34
V âr(α̂) ˆ
 
Corr(α̂; β̂)
[nI(α̂; β̂)]−1 =   (2.52)
ˆ β̂; α̂)
Corr( V âr(β̂)
V âr(α̂) ˆ
 
Corr(α̂; β̂)
[nJ(α̂; β̂)]−1 =  (2.53)
ˆ β̂; α̂)
Corr( V âr(β̂)
Nesta condição, da quantidade pivotal apresentada em 2.47, resulta facilmente para θ̂ =

(α̂; β̂) que
" #
θ̂ − θ
P [|Q(X ; θ)| < z δ ] = P −z δ < p < zδ =
2 2
[nJ(θ)]−1 2
(2.54)
h i
= P θ̂ − z δ [nJ(θ)] < θ < θ̂ + z δ [nJ(θ)] ∼
p p
2
=1−δ
2
Portanto, de 2.52 e 2.53, segue que um intervalo de 100(1 − δ)% de conança para os
verdadeiros parâmetros α e β são obtidos respectivamente como:
q q
IC[α; 100(1 − δ)%] = [α̂ − z δ V ar(α̂); α̂ + z δ V âr(α̂)]
ˆ (2.55)
2 2
q q
IC[β; 100(1 − δ)%] = [β̂ − z δ V ar(β̂); β̂ + z δ V âr(β̂)]
ˆ (2.56)
2 2
nos quais zδ é o percentil tabelado pela distribuição Normal Padrão.

2
Veremos na seção 3.2.2 que, embora exista, não existe uma solução exata para a integral
do valor esperado do modelo em estudo. Em virtude disso, é empregado o resultado 2.53
para a obtenção de 2.54.
2.5 Técnicas Não Paramétricas de Estimação

Na literatura estatística, nos textos mais básicos que se tem contato, uma análise descri-
tiva visa, sobretudo, determinar medidas de tendência central e variabilidade para um rol de
dados em estudo. Em uma análise estatística envolvendo dados de sobrevivência, por mais
delicado e complexo que o estudo possa se apresentar, em geral, os resultados e respostas
de interesse são obtidos a partir do conjunto de dados de sobrevivência, cujo procedimento
inicial é a tomada de uma análise estatística que se baseia, fundamentalmente, em uma
descrição dos dados.
Neste sentido, em se tratando de análise de sobrevivência, a presença de dados de sobre-
vivência observados com censura é, sobretudo, um problema para a aplicação das técnicas
35
Conceitos Básicos
usuais de análise descritiva, contudo, a obtenção da média, desvio-padrão, os grácos como
box-plot e o histograma, este último, item indispensável para se descrever a distribuição dos
tempos de falha, são prejudicados, senão impraticáveis.
No caso de uma amostra de dados de sobrevivência não conter censura, a construção
do histograma consiste em partições do eixo do tempo em intervalos de tempos [t; t + ∆t ),

de modo que o número de falhas em cada intervalo [t; t + ∆t ) é observado, contudo, se os
dados são censurados a construção do histograma é impossível pois não se pode observar a
frequência exata de falhas em cada intervalo.
Nesta situação, segundo Colosimo e Giolo (2006), o procedimento usual para o tratamento
de dados de sobrevivência é determinar uma estimativa para a função de sobrevivência de
maneira que as estatísticas de interesse, geralmente o tempo médio e mediano, bem como
alguns percentis e frações de falhas em tempos xos, possam ser estimados.
A estimação da função de sobrevivência é um tópico que tem recebido demasiada aten-
ção, quer no campo estatístico como em literatura biomédicas, devido ao fato de não assumir
nenhuma suposição sobre a distribuição de probabilidade do tempo de vida, razão pela qual
é denominado como Estimador Não-Paramétrico.
Na literatura estatística encontra-se uma estimativa para a função de sobrevivência e
de taxa de falha como sendo a variação de uma função acumulada, contudo, para amostras
de tamanho pequeno esta estimativa não é viável e, em geral, estudiosos e pesquisadores
têm adotado métodos alternativos, como os Estimadores Não Markovianos, os Estimadores
Aalen-Johansen, o Estimador Atuarial (Tabela de Vida), o Estimador Nelson-Aalen, Kaplan-
Meier, entre outros.
Este último, proposto por Kaplan e Meier em 1958, foi desde então considerado como um
método padrão para a obtenção de sínteses estatísticas para dados censurados em Análise
de Sobrevivência (Machado, 2011).
No entanto, é possível que métodos paramétricos sejam adotados para realizar a análise
e descrição dos dados de tempo de vida e também estimar uma função de sobrevivência, tais
métodos consistem na adoção de uma distribuição de probabilidades, o que é comumente
descrito em diversos livros e trabalhos acadêmicos em geral.
Porém, é necessário obter um modelo paramétrico para isso e este modelo é, de certa
forma, também estimado, seja através de seus parâmetros ou através da classe ou família a
qual pertence.
Segundo Colosimo e Giolo (2006), o uso do modelo paramétrico exige, sobretudo, satisfa-
zer algumas evidências provenientes de testes passados para se vericar se um determinado
modelo é ajustável aos dados disponíveis e a solução disponível é recorrer a situações em-
píricas, como o teste estatístico de Kolmogorov-Smirnov ou a métodos grácos como o do
Tempo Total em Teste.
Tais métodos são também técnicas de estimação, porém, estimam modelos paramétricos
que serão ajustados aos dados para fornecer as estimativas pertinentes a análise, e assim
como o estimador de Kaplan-Meier serão abordados a seguir.
36
2.5.1 O Estimador de Kaplan-Meier
Seja D uma variável aleatória discreta que representa o número de observações que não
falham até um tempo t em um dado experimento e seja (d1 , d2 , d3 , ..., dk ) uma amostra
aleatória deD com espaço amostral ΩD .

Tomando S(ti ) a função de sobrevivência no tempo ti ∈ T , onde ni é o número de
unidades experimentais sob risco em ti , tem-se ∀ti ∈ T tal que:
k
Y
S(t) = (1 − qj ) (2.57)
j=1
onde qj é a probabilidade de falha no intervalo [t( i − 1); ti ) dado que a falha não ocorreu,
antes ou no tempo, t( i − 1), ou seja, qj é uma probabilidade condicional e denida como:
qj = P (ti−1 ≤ T < ti |T ≥ ti−1 ) (2.58)
O Estimador de Kaplan-Meier (EsKM) se reduz a estimar qj dado empiricamente, em
termos de dj e nj como:
dj
qj = (2.59)
nj
Note que a probabilidade 5 é uma adaptação da função de sobrevivência empírica e
baseia-se em observações obtidas do experimento em questão.
Convêm destacar que neste caso S(t) é uma função de distribuição do tipo discreto as-
sociado a uma particular amostra, cuja representação gráca se assemelha a uma escada e é
descontínua à esquerda à medida que t aumenta, ∀ti ∈ T .

O Estimador de Kaplan-Meier proposto para estimar a função de sobrevivência é uma
adaptação da função de sobrevivência empírica 5 com o estimador 2.59 e na presença de
empates. Este estimador considera tantos intervalos de tempo quantos forem o número de
falhas distintas.
Suponha uma amostra de n unidades experimentais da população de um dado experi-
mento, onde se considera que:
• o tempo de sobrevivência dessas unidades, T , é independente e censurado no processo;
• os tempos dos eventos, T, são obtidos de modo que t1 < t2 < t3 < ... < tk ;
• di e ni sejam, respectivamente, o número de unidades experimentais que falham no
tempo ti e o número de unidades experimentais sob risco no tempo imediatamente
37
Conceitos Básicos
anterior a ti ;
Então, o EsKM é denido como a probabilidade conjunta de sobrevivência condicional
nos tempos ti < t de P (T ≥ ti |T ≥ ti−1 ) (Machado, 2011), ou seja,
k
Y
ŜEKM (t) = P (T ≥ ti |T ≥ ti−1 ) (2.60)
i=1,ti <t
De acordo com Colosimo e Giolo (2006, p.38), Kaplan e Meier justicam que a validade
do estimador ŜEKM (ti ) é atribuída devido ao fato de este estimador ser um estimador de
máxima verossimilhança para S(t) generalizado pelo conceito usual utilizado em modelos
paramétricos, onde se observa tantos parâmetros quanto falhas distintas.
Teorema 2.5 (Estimador de Kaplan-Meier) Sejam di , o número de observações de fa-

lhas e ci o número de observações censuradas, ambos num intervalo de tempo [ti−1 ; ti ). De-
nindo a probabilidade conjunta de falha em [ti−1 ; ti ) como [S(ti−1 ) − S(ti )]di e a probabilidade
conjunta de uma unidade experimental sobreviver em [ti−1 ; ti ) como [S(ti )]ci , de modo a de-
nir
SEKM (t) = [S(ti−1 ) − S(ti )]di [S(ti )]ci (2.61)
teremos que, para os k tempos distintos e ordenados de falha, ou seja, ∀ti ∈ T de modo que
t1 < t2 < t3 < ... < tk , o EMV (estimador de máxima verossimilhança) de S(t) é dado por
k
Y di
ŜEKM (t) = 1− (2.62)
i=1,ti <t
ni
onde ŜEKM (t) é a expressão geral do EsKM.
A vericação da expressão 2.62 é sugerida, resumidamente, por Rodríguez (2001, p. 03-
04) e Colosimo e Giolo (2006, p.37-38). No Apêndice A (seção 5) deste trabalho é mostrada
em detalhes!
Convém destacar que as principais propriedades do EsKM são apontadas como sendo:
1. para grandes amostras é um estimador não-viesado;
2. é fracamente consistente;
3. converge assintóticamente para um processo gaussiano;
38
Como ocorre para os demais estimadores estatísticos, o EsKM se sujeita a variações que
são, necessariamente, descritas em termos de estimação intervalares, no entanto, para a cons-
trução de intervalos de conança e testes de hipóteses para S(t), uma avaliação da precisão
do EsKM deve ser efetuada no processo.
Neste contexto, uma expressão para a variância assintótica do EsKM é sugerida como
sendo:
k
X di
V âr[ŜEKM (t)] = [ŜEKM (ti )]2 (2.63)
n (ni − di )
i=1,t <t i
i
Esta variância estimada é conhecida como Equação de Greenwood e sua dedução é su-
gerida por Kalbeisch e Prentice (1980) e pode ser melhor abordada por Rodríguez (2005,
p. 04-05).
Assim, como para um t xo, ŜEKM (t) tem uma distribuição assintótica gaussiana (Nor-
mal), segue que um intervalo de conança de aproximadamente 100(1 − δ)% para S(t) é
proposto como:
q
ŜEKM (t) ± z δ V âr[ŜEKM (t)] (2.64)
2
onde δ denota o δ -ésimo percentil da Distribuição Gaussiana.
Para valores extremos de t o intervalo de conança apresentado em 2.64 pode apresentar

limite inferior negativo ou limite superior maior que 1, quando isso ocorre uma correção que
se deve aplicar é a utilização de uma transformação U (t) para S(t).

Kalbeisch e Prentice (1980) sugerem uma variância corrigida por U (t) = log[Λ̂(t)], onde
se observa que Λ̂(t) = −log[ŜKM (t)] é uma estimativa para a função de risco acumulada,
dada como na expressão 2.8, de modo que
k
−1 X di
V âr[U (t)] = (2.65)
Λ̂(t) i=1,t <t ni (ni − di )
i
e o intervalo corrigido de aproximadamente

q 100(1 − α)% de conança para S(t) é dado com
θ = z δ V âr[U (t)] como:

2
[ŜEKM (t)]exp(±θ) (2.66)
2.5.2 O Teste Não Paramétrico de Kolmogorov-Smirnov
Segundo Campus (1983), um teste não paramétrico é entendido como aquele cujo modelo
não especica condições sobre os parâmetros da população da qual a amostra foi retirada e
39
Conceitos Básicos
seu emprego, desde que respeitadas certas pressuposições, constitui uma vasta e importan-
tíssima gama de ferramentas no trabalho estatístico.
Dentre todas as possíveis razões para o uso de um teste não paramétrico, Campus (1983)
destaca a utilidade de testes não paramétrico em casos em que é difícil estabelecer uma
escala de valores quantitativos para os dados em análise. Em geral, o analista pode apenas
armar que um dado especíco tem mais ou menos, melhor ou pior e maior ou menor da
característica que está sendo analisada, sem poder analisar ou quanticar com precisão as
diferenças, mesmo que estes se encontrem em uma certa ordem de classicação.
Neste sentido, quando os dados observados se posicionam de forma dispersa mas ad-
mitem um agrupamento ordinal, mais especicamente em ordem crescente, ou seja, não é
possivel assumir uma distinção de tratamento quando comparado a outro grupo, verica-se
a concordância, ou não, entre mais de uma distribuição acumulada.
Exige-se assim um teste não paramétrico para a comparação desta distribuições acumu-
ladas, e dessa necessidade surge o teste de Kolmogorov-Smirnov para a adaptação de uma
especíca e bem conhecida distribuição F (x) aos dados provenientes de uma distribuição
desconhecida F0 (x), Campus (1983).
Em geral, como os problemas encontrados em análise de dados são tratados com a hipó-
tese estatística de que os dados são provenientes de uma população correspondente a uma
dada distribuição de probabilidade, o conhecimento e obtenção da expressão analítica desta
distribuição torna-se de importância indispensável ao objetivo das análises.
No entanto, o teste de Kolmogorov-Smirnov é tomado para avaliar o nível de concordân-
cia da distribuição de probabilidade do conjunto de valores em análise (valores amostrais ou
observados) com uma especíca distribuição teórica, ou seja, no estudo que considera um
conjunto de dados de uma variável aleatória X ∼ F0 (x), o teste avalia as hipóteses:
(
H0 : Os dados seguem uma distribuição F0 (x);
HA : Os dados não seguem a distribuição F0 (x);
A metodologia de aplicação do teste consiste em assumir as funções F (x), F0 (x) e ϕ(x)

tais que:
F (x) = proporção de valores esperados ≤ X

F0 (x) = verdadeira função de distribuição de x (desconhecida)
ϕ(x) = proporção de valores observados ≤ X
onde ϕ(x) é uma distribuição empírica de distribuição e um estimador de F0 (x).

Assim, com os pontos críticos d e d1 tabelados pela tabela de Kolmogorov, dene-se as
estatísticas de teste
D = SupX [F (x) − ϕ(x)]
40
D+ = SupX [F (x) − ϕ(x)]

D− = SupX [ϕ(x) − F (x)]
para executar, ao nível δ de signicância, os testes
(
H0 : F = F0
HA : F 6= F0
em que H0 é rejeitado se D ≥ d.
(
H0 : F = F0
HA : F > F0
em que H0 é rejeitado se D + ≥ d1 .
(
H0 : F = F0
HA : F < F0
em que H0 é rejeitado se D − ≥ d1 .
Como o objetivo do teste é vericar se o conjunto de dados segue uma distribuição
de probabilidade com distribuição acumulada F0 (x), busca-se a aceitação da hipótese de
nulidade de modo que qualquer um dos testes apresentem o mesmo resultado sob H0 .
2.5.3 Análise Gráca do Tempo Total Em Teste (TTT-Plot)
Indispensável para a detecção de uma classe de modelos adequada para a análise de um
dado conjunto dados, o método gráco conhecido como Tempo Total Em Teste (Gráco
TTT-Plot) é comumente empregado em contextos onde existem informações qualitativas
sobre a curva de risco em estudo.
Os possíveis grácos gerados são apresentados pela gura a seguir.
Segundo Ramos (1990), este conceito foi introduzido por Epstein e Sobel em 1953 e
explorado de forma signicativa por Barlow e Campo em 1975 onde, através de diferentes
generalizações do conceito original proposto por Epstein e Sobel, é primordial como a base
para a caracterização de classes de distribuição de tempo de vida de fenômenos físicos.
Segundo Mudholkar, Srivastava e Kollia, 1996, no caso discreto, o gráco do TTT-Plot
é gerado pela expressão
r
X
(n − r)Tr + Ti
r
i=1
G = r (2.67)
n X
Ti
i=1
41
Conceitos Básicos
Figura 2.8: Imagem ilustrativa dos principais grácos TTT-Plot.
em que r = 1, 2, 3, ..., n e Ti , para i = 1, 2, 3, ..., n, são as estatísticas de ordem da mostra
em estudo.
Em geral, como se observa na gura 2.8, a reta diagonal (curva1) como resultado do
gráco TTT-plot indica que a função de risco é constante, se a curva resultante for côncava
(curva2) tem-se que a função de risco é crescente e no caso de uma curva convexa (curva3)
pode-se assumir uma função de risco decrescente.
No caso de resultados mistos, como curvas côncava - convexa (curva4) e convexa-côncava
(curva5), tem-se a indicação de função de risco unimodal e em forma de banheira, respecti-
vamente.
No caso contínuo, segundo Ramos (1990), Barlow, et. al. propuseram em 1972 o processo
de transformação do TTT-Plot para uma dada função de distribuição
r F associada a um
−1
tempo de vida X e indicada por Hn , como
n
r Z Xr:n
Hn−1 = [1 − Fu (u)]du (2.68)
n 0
em que 1 ≤ r ≤ n, 0 = X0:n , X1:n , X2:n , X3:n , ..., Xn:n são estatísticas de ordem relativas a
uma amostra de tamanho n da distribuição F e Fn (u) é a distribuição da amostra denida,
empiricamente, como:


 0, se u < X1:n ;
i

Fn (u) = , se X1:n ≤ u < X1+1:n para 1 ≤ i ≤ n;
 n


1, se u ≥ Xn:n ;
42
Note que o caso contínuo mescla um processo discreto com o contínuo, porém, a grande
diculdade neste caso é o critério de decisão da distribuição F, o que torna o caso discreto
a expressão mais empregada pois não utiliza a distribuição dos dados.
No entanto, apesar do método gráco TTT-Plot ser constantemente aplicado na verica-
ção do modelo a ser adotado como gerador do conjunto de dados, este método pode não ser
tão preciso quanto um teste de hipótese estatístico como o teste de Kolmogorov-Smirnov.
Contudo, Ramos (1990) esclarece que a comparação do gráco TTT com as várias classes
de distribuições tem por base as proposições construídas por Barlow e Proschan (1966).
Tais proposições possibilitam, estocasticamente, estas comparações sugerindo que, se o
gráco formado pelos dados da amostra se comportam como uma das cinco curvas apresenta-
das na gura 2.8. Tal gráco domina, estocasticamente, o gráco correspondente baseado no
tamanho da amostra, ou seja, particularmente, se o gráco de uma dada amostra é plotado
completamente acima da reta diagonal, temos evidências de que é possível rejeitar qualquer
outro modelo cujo gráco não se comporte de forma côncava.
Para maiores detalhes sobre o método gráco TTT-Plot, sugere-se consultar o trabalho
A Utilização da Transformação do Tempo Total de Teste na Análise de Dados Censurado
de José Souza Ramos (1990).
2.5.4 Métodos de Simulação Monte Carlo
Embora as teorias estatísticas sejam ecientes, a validade de seus resultados tornam-se
tipicamente incertos sob a violação de qualquer um de seus pressupostos teóricos, principal-
mente o de amostras sucientemente grandes.
Em geral, quando as pressuposições de uma teoria estatística são atendidas pelos dados
disponíveis, os dados fornecem estimativas válidas e ecientes através da amostragem, além
de características para a distribuição à posteriori, como a obtenção de estimativas de inte-
resse.
Por outro lado, quando os dados violam as pressuposições, a validade das estimativas
sobre certas amostras são simplesmente desprezadas e a veracidade das características de
sua distribuição à posteriori tornam-se comprometidas e incertas, em hipótese alguma con-
áveis.
Violações de pressupostos ocorrem comumente em situações em que a amostra disponível
é pequena, ou insucientemente grande.
No entanto, em muitas pesquisas nesta condição, é difícil, ou mesmo impossível, encon-
trar uma distribuição de importância que seja simultaneamente uma boa aproximação para
a posteriori e fácil de ser re-amostrada.
Neste sentido, as analises simuladas através das técnicas de re-amostragem de Monte
Carlo tornam-se muito útil para o pesquisador, porque a abordagem de Monte Carlo baseia-
se, sobretudo, na estimativa empírica da distribuição da amostragem disponível, em vez de
43
Conceitos Básicos
expectativas teóricas e a validação de pressupostos.
A princípio, a ideia é obter uma amostra da distribuição à posteriori e calcular suas
estimativas amostrais através métodos computacionais iterativos baseados em cadeias mar-
kovianas.
Assim, através de um grande número de repetições da técnica, os resultados empíricos
gerados tornam-se dependentes do processo e abordam, assintoticamente, os resultados teó-
ricos esperados.
Gamerman (1997) aborda a aplicação no contexto de re-amostrar dados para uma dis-
tribuição à posteriori π(θ|x), a função de interesse denida no estado atual θ como
f (θ)
π(θ|x) = Z (2.69)
f (θ)dθ
sem a necessidade de primitivar a integral apresentada.
A condição inicial é a posse de uma amostra, supostamente gerada de uma distribuição à
priori p(θ), também chamada de função de referência ou proposta, e de que a função π(θ|x)
deve ser positiva e dependente do estado atual de uma cadeia markoviana homogênea, ir-
redutível e periódica, isto é, dada a amostra xt = (X1 , X2 , X3 , ..., Xt−1 ), a observação Xt

depende apenas de Xt−1 e é tal que Xt ∼ P (Xt ∈ A|Xt−1 ) = p(θt |Xt−1 ), onde θt representa
o estado atual da cadeia ∀ subconjunto A.
Nesta condição, é possível gerar qualquer amostra de π(θ|x), tendo apenas o conheci-
mento da forma funcional de f (θ) e uma amostra de p(θt |Xt−1 ).
Outros casos consistem de que para muitos modelos, os quais não admitem um trata-
mento analítico, é requerido a aplicação numérica para a aproximação de sua integral que,
geralmente, é denida em alta dimensão e, consequentemente, com um custo computacional
custoso em comparação a procedimentos comuns.
Neste sentido, o uso de técnicas de re-amostragem aleatória, comumente, exige o uso da
simulação computacional baseada em um modelo estatístico e, portanto, recai no problema
de integração numérica para obter os resultados esperados ou as soluções aproximadas para
problemas matemáticos ou físicos. Dentre todas as técnicas até então desenvolvidas, a mais
implementada e de melhor desempenho são as relacionadas ou que se envolvem no processo
de Monte Carlo.
Especialmente, quando a intenção é obter uma gama de valores, onde cada um dos quais
tem uma probabilidade calculada, o procedimento iterativo é ainda implementado seguindo
as condições de uma cadeia markoviana, e então, a técnica MCMC (Monte Carlo via Ca-
deias de Markov) surge como um algoritmo que permite a extração de amostras de uma
distribuição de probabilidade à posteriori, pré denida para os seus parâmetros, através da
especicação de sua função de verossimilhança.
Para uma maior familiarização da abordagem do procedimento MCMC adotado para
os estudos propostos neste trabalho, sujere-se consultar Fan, et al. (2002) ou Gamerman
44
(1997).
O Amostrador Metropolis-Hasting
Para os casos em que a distribuição à priori p(θ) é conhecida, uma derivação formal do
MCMC,o algoritmo Metropolis-Hasting, é proposto como o amostrador de dados.
A ideia é simular um passeio aleatório no espaço θ de modo a obter uma convergência
para a distribuição à posteriori baseada em um mecanismo de aceitação ou rejeição, conhe-
cido como mecanismo de correção. Este mecanismo de correção garante que a convergência
da cadeia para a distribuição de equilibrio, que neste caso é a distribuição a posteriori π(θ|x).
Para descrever este algoritmo, consideremos que a distribuição de interesse seja a distri-
buição à posteriori π(θ|x) e que a distribuição à priori seja p(θ|Xt−1 ).

Seja ainda θt o valor que representa o estado atual e é tal que a distribuição a posteriori
é denida por π(θt |xt ) e que um valor θt+1 é gerado por p(θt |Xt−1 ). Denindo o mecanismo
de correção atual como

π(θt+1 |xt )p(θt |θt+1 )
k(θt ; θt+1 ) = min 1; (2.70)
π(θt |xt )p(θt+1 |θt )
Em termos práticos, o algoritmo de Metropolis-Hastings é descrito pela iteração nos se-
guintes passos:
1. Iniciar o contador de iterações t=0 e especique um valor inicial θ(t) ;
2. Gerar o novo valor θt+1 da distribuição p(θ|Xt−1 ), isto é, p(θ|Xt−1 ) = p(θt+1 |Xt−1 );
3. Calcular a probabilidade de aceitação k(θt ; θt+1 ) e gerar u ∼ U (0, 1);
4. Se:
(
u ≤ k(θt ; θt+1 ), aceitar θt+1 e fazer θ(t+1) = θt+1
(t+1)
caso contrário, rejeitar θt+1 e fazer θ = θt
5. Incremente o contador de t=t+1 e volte ao passo 2.
O processo é repetido até que a convergência seja atingida.
O algoritmo de Metropolis-Hastings é o mais geral dentre todos os métodos de re-
amostragens apresentados na literatura estatística e pode ser implementado para qualquer
distribuição condicional a posteriori e com algumas propostas de critérios de aceitação, sendo
as de maiores destaques a proposta de Cadeias Simétricas e a de Cadeias Independentes que
é adotada neste trabalho, como descrita em 2.70.
45
Conceitos Básicos
O Amostrador de Gibbs
O amostrador de Gibbs por sua vez, é também um algoritmo derivado da técnica MCMC,
porém, mais popular devido à sua simplicidade computacional.
A diferença entre estes dois mecanismos de amostragem é que este não exige um critério
de aceitação ou rejeição, embora seja um caso particular do Metropolis-Hastings, pois nas
iterações deste amostrador a cadeia sempre se moverá para um novo valor, razão pela qual,
o mecanismo de correção é descartado.
Ehlers (2011) arma que as transições entre os estados da cadeia markoviana em pro-
cesso acontecem de acordo com distribuições condicionais completas, que são baseadas na
distribuição à posteriori π(θ|x), porém, são condicionadas ao componente Θ−i , um vetor
com d−1 componentes, e completas no sentido em que cada um dos componentes θi é
distribuido condicionalmente através de todos os demais.
Então, seja Θ−i = (θ1 , θ2 , ..., θi−1 , θi+1 , ..., θd ) o vetor com as d − 1 componentes θi . A
distribuição condicional completa θi de componentes θi dado o vetor Θ−i , é denida pela
expressão dada por
π(θi )
π(θi |Θ−i ) = Z (2.71)
π(θi )dθi
e o algoritmo de Gibbis para o amostrador de origem na amostra x = (X1 , X2 , X3 , ..., Xd ),

tal que x = Θ(0) , é descrito pela iteração nos seguintes passos:
1. Iniciar o contador de iterações t = 0;

(0) (0) (0) (0) (0) (0)
2. Especicar os valores iniciais Θ−i = (θ1 , θ2 , ..., θi−1 , θi+1 , ..., θd );
3. Obter o novo vetor Θ(t) a partir de Θ(t−1) através da sequência de gerações dos valores
(t)
θi ∼ π(θi |Θ−i ), isto é
(t) (t−1) (t−1) (t−1) (t−1) (t−1)

θ1 ∼ π(θ1 |θ2 , θ3 , ..., θi−1 , θi+1 , ..., θd )
(t) (t−1) (t−1) (t−1) (t−1) (t−1)
θ2 ∼ π(θ2 |θ1 , θ3 , ..., θi−1 , θi+1 , ..., θd )
(t) (t−1) (t−1) (t−1) (t−1) (t−1)
θ3 ∼ π(θ3 |θ1 , θ2 , ..., θi−1 , θi+1 , ..., θd )
..
.
(t) (t−1) (t−1) (t−1) (t−1) (t−1)
θd ∼ π(θd |θ1 , θ2 , ..., θi−1 , θi+1 , ..., θd−1 )
4. Incrementar o contador de t = t+1 e retornar ao passo 2 até obter convergência no
processo.
O processo é repetido até que a convergência seja atingida.
46
O Critério de Convergência
Ehlers (2011) chama a atenção de que a vericação da convergência destes métodos é
de responsabilidade do pesquisador e ressalta ao cuidado com a autocorrelação amostral,
sugerindo uma analogia com a análise de correlação efetuada com a da metodologia de séries
temporais.
O autor ainda arma que em uma cadeia de Markov, espera-se que os valores gerados
sejam correlacionados ao longo das iterações. Neste sentido nos remetemos ao cuidado com
a autocorrelação dos dados amostrados e ao processo de iterações.
Comumente a análise de convergência do método MCMC é realizada preliminarmente
através de diagnósticos grácos, via gráco das iterações, autocorrelação e densidade Kernel
à posteriori, mas a adoção deste tipo de diagnóstico é viável para os casos de aplicações em
que um número muito baixo de cadeias markovianas são executas.
Em experimentos em que um número elevado de cadeias markovianas são necessárias,
diga-se 100, 500 ou 1000 cadeias por exemplo, a adoção de diagnósticos grácos são com-
pletamente inviáveis, pois para cada cadeia processada existirá um gráco de iterações,
autocorrelação e densidade à posteriori.
Para estes casos o diagnóstico viável é realizado através de medidas descritivas para os
valores simulados no processo, tais como o Tamanho Amostral Efetivo, o Tempo de Auto-
correlação e a Eciência da cadeia markoviana, pelo menos.
Uma vez congurado as condições de execução do método MCMC, diga-se pelo número
de cadeias iteradas, descarte e desbaste no processo, o Tamanho Amostral Efetivo e a E-
ciência da cadeia markoviana são decorrentes do Tempo de Autocorrelação, uma estimativa
de Densidade Espectral em Frequência Zero proposta por Heidelberger & Welch (1981).
A relevância desta estimativa é atribuída pela obtenção da medida ESS (Eetive Sample
Size), o Tamanho Amostral Efetivo, recomendado por Radford Neal no painel de discussão
de Kass et al. (1998).
ESS é uma função univariada que é frequentemente aplicada a cada distribuição à poste-
riori gerada no processo MCMC e usada para estimar o tamanho de amostras que é reduzido
em decorrência da autocorrelação gerada no processo. No entanto, ESS é uma medida de
quão bem cada cadeia iterada convergiu.
Sobretudo, uma discussão muito ampla se realiza em torno de testes estatísticos como
diagnóstico de convergência da cadeia. Testes como Gelman-Rubin, Geweke, Raftery-Lewis
e Heidelberger-Welch são os mais indicados para constatar a convergência de uma cadeia
marcoviana. No entanto, a doção de qualquer um destes testes remete o analista ao mesmo
problema de diagnósticos grácos pois, embora sejam estatisticamente ecientes sobre a de-
tecção, será necessário também avaliar cada uma das cadeias markovianas executadas.
Enm, a adoção do diagnóstico via medidas de Tamanho Amostral Efetivo, Tempo de
Autocorrelação e a Eciência é a mais prática dentre os grácos e testes estatísticos, uma
vez que é possível tomar, para cada uma das cadeias executadas, cada uma destas medidas
47
Conceitos Básicos
como uma amostra especíca da cadeia e calcular uma estatística que resumirá todos os
processos executados fornecendo uma única medida para avaliar o estado de equilíbrio para
a qual convergiu a cedeia.
Detalhes mais especícos sobre as medidas estatísticas para o diagnóstico de convergên-
cia serão apresentados na seção 4.2.4 e sobre os amostradores abordados nesta seção e outros
algoritmos baseados na técnica MCMC podem ser obtidos em Sorensen e Gianola (2002),
Gamerman (1997) e Robert e Casella (1999).
2.6 A Abordagem Computacional Para o Estudo

2.6.1 Softwares Considerados
O desenvolvimento da abordagem computacional do estudo proposto será realizado no
SAS Studio
software estatístico
R , para a realização da inferência, com o auxilio do software
R para a manipulação dos dados.
M icrosof t Excel
A planilha Excel que, muito embora não inuenciará nos resultados do estudo proposto, é
indispensável para hospedar, organizar e visualizar os dados das análises que serão realizadas
no software
R.
SAS Studio
O software SAS Studio
R,
por sua vez, fornece as ferramentas que desenvolverão e
executarão as análises estatísticas dos dados, plotarão os grácos representativos, efetuarão
os cálculos necessários, bem como as simulações pertinentes a inferência pretendida.
Em particular, no software estatístico serão utilizados os passos DATA e os procedimentos
FORMAT, FREQ, IML, MCMC, MEANS, NLMIXED, SGPLOT e SQL.
48
CAPÍTULO 3
PROPRIEDADES DA DISTRIBUIÇÃO PROPOSTA
3.1 A Distribuição Biparamétrica de Chen

3.1.1 Origem e Denições Básicas
Proposta por Z. Chen, Chen (2000), esta distribuição considera dois parâmetros para
descrever a função de sobrevivência e estimar a vida útil de um evento em análise.
De acordo com o histórico de distribuições de probabilidades existentes na literatura, a
distribuição Inversa de Chen é uma distribuição recentemente descoberta, e em comparação
com outros modelos paramétricos, apresenta propriedades usuais indispensáveis no campo
da análise de sobrevivência e teoria de conabilidade.
Segundo Srivastava & Srivastava (2014), os pesquisadores observaram que a distribuição

do tempo de vida de diversos produtos eletro mecânicos apresentaram altas taxas de falhas
iniciais (defeito), com estabilidade de funcionamento, especialmente ao longo de seu ciclo de
vida, culminando em altas taxas de falhas devido ao envelhecimento e tempo de uso.
Tal comportamento ao longo do tempo indicou a representação gráca de uma curva
em forma de banheira, ou seja, a função taxa de falha para estes produtos apresentou uma
fase de decrescimento, seguida de uma fase de utilização satisfatória até atingir a fase de
crescimento, por isso, foi necessário a adoção de modelos que permitissem descrever dados
de sobrevivência com taxas de falhas em forma de banheira.
Contudo, muitos modelos paramétricos foram introduzidos para analisar os conjuntos de
dados reais gerados pelos produtos eletro mecânicos com taxas de insucesso com represen-
tação gráca em forma de banheira. Os modelos convexos e/ou côncavos já eram adotados
para estudar alguns produtos eletrônicos e mecânicos, bem como o tempo de vida dos seres
humanos na área de saúde.
No entanto, os pesquisadores se interessaram em distribuições com função de risco não
monótona, como funções em forma de banheira e funções de risco unimodal, com isso, no-
49
Propriedades da Distribuição Proposta
taram que as distribuições, com um ou dois parâmetros como as distribuições Weibull, as
de potência exponencial ou as próprias distribuições Exponenciadas-Weibull, tinham fortes
restrições sobre os dados, apesar de apresentarem as características monótona crescente, mo-
nótona decrescente, banheira ou taxa de falha unimodal, dependendo das diferentes gamas
de parâmetros.
Com o mesmo propósito, Chen (2000) propôs uma distribuição de probabilidade da vida
útil em dois parâmetros, com função de risco de forma convexa e côncava (forma de ba-
nheira), cuja função de distribuição acumulativa (fda) é dada por:
F (x|α; β) = 1 − exp{α[1 − exp(xβ )]} (3.1)
em que x é uma observação da variável aleatória X , α e β são os parâmetros da distribuição,
e tais que x > 0, α > 0 e β > 0.
Consequentemente, a função de distribuição de probabilidade (fdp) é dada por:
f (x|α; β) = αβxβ−1 exp{xβ + α[1 − exp(xβ )]} (3.2)
Teorema 3.1 Seja X uma variável aleatória com distribuição de Chen, ou seja, X ∼
Chen(α; β), tal que x > 0, α > 0 e β > 0 e com função de distribuição acumulada dada
como em 3.1. Então X tem função densidade de probabilidade dada como em 3.2 e é tal que
Z +∞
f (x|α; β)dx = 1 (3.3)
0
Demonstração: Com efeito! Note que o resultado 3.2 é decorrente da aplicação da regra
da cadeia em 3.1 como segue:
∂ ∂
f (x|α; β) = F (x|α; β) = (1 − exp{α[1 − exp(xβ )]}) =
∂x ∂x
= αβxβ−1 exp{xβ + α[1 − exp(xβ )]}
Consequentemente, como o núcleo de f (x|α, β) é uma função exponencial, resulta que
f (x|α, β) > 0, e além disso, reescrevendo 3.2 como
f (x|α; β) = αβxβ−1 exp(xβ )exp(α)exp[−αexp(xβ )] (3.4)
de modo que, ao tomar a mudança de variável u = αexp(xβ ) ⇒ αβxβ−1 exp(xβ )dx = du,
resulta que:
x −→ 0 ⇒ u −→ αexp(0) = α
(3.5)
x −→ +∞ ⇒ u −→ αexp(+∞) = +∞
50
Então, substituindo u, du e 3.5 na integral de Riemann de f (x|α, β) dada por 3.4, resulta
que:
Z +∞ Z +∞
f (x|α; β)dx = αβxβ−1 exp(xβ )exp(α)exp[−αexp(xβ )]dx =
0 0 +∞
Z +∞
exp(α) exp(α)
= exp(α)exp(−u)du = − = =1
exp(u) exp(α)

α
α
Sarhan e Smith (2011) abordam esta distribuição de forma mais rigorosa apresentando
os critérios da probabilidade máxima e obtendo as estimativas de Bayes para os dois parâ-
metros desconhecidos.
O trabalho assume, no caso bayesiano que os parâmetros desconhecidos possuem priores
Gama, que as formas explícitas dos estimadores de Bayes não podem ser obtidas e apre-
sentam as aproximações para estabelecer estimativas pontuais e intervalos de probabilidade
bayesiana para os parâmetros.
A relevância do trabalho é atribuída ao método de simulação de Monte Carlo que é
aplicada na comparação entre as estimativas de máxima verossimilhança e as estimativas
aproximadas de Bayes obtidas sob premissas prévias não informativas.
Khan e Sharma (2015) estabelecem as relações de recorrência para momentos de esta-
tísticas de ordens da distribuição de Chen. O resultado inclui como casos particulares a
recorrência de estatísticas de momentos de ordem, estatística de ordem sequencial, estatís-
ticas de ordem censuradas de tipo II, progressivo e os de ordem k. No artigo, através do uso
da relação de recorrência para momentos unitários, os autores propõem um resultado que
caracteriza a distribuição de Chen.
3.2 A Distribuição Biparamétrica Inversa de Chen

3.2.1 Denições Básicas
Da seção 3.1, segue mais especicamente que, seX tem uma distribuição de Chen com
parâmetros α e β , podemos denotar X ∼ Chen(α; β), e tomando a variável auxiliar Y
−1 −1
como descrita em 2.3.2, onde é denida por Y = X , fazendo a transformação X = Y ,
dizemos que Y tem uma distribuição Inversa de Chen com parâmetros α e β , ou seja,
Y ∼ Chen−1 (α; β) com fda dada por:
exp{α[1 − exp(y −β )]} (3.6)
para todo y , α, β > 0, cujo gráco é apresentado a seguir.
51
Figura 3.1: Gráco ilustrativo para a fda de Y ∼ Chen−1 (α; β) com diferentes parâmetros.
Teorema 3.2 Se X é uma variável aleatória tal que X ∼ Chen(α; β), onde x, α, β > 0
e com função de distribuição acumulada dada como em 3.1, tomando a variável aleatória
Y denida como Y = X −1 e fazendo a transformação X = Y −1 , então Y tem função de
densidade acumulada dada como em 3.7, isto é
F (y|α; β) = exp{α[1 − exp(y −β )]} (3.7)

1 1 1
F (y|α; β) = P (Y ≤ y) = P ≤y =P ≤X =1−P X < =
X y y
1
= 1 − 1 + exp α 1 − exp = exp{α[1 − exp(y −β )]}
yβ
Teorema 3.3 Se Y é uma variável aleatória com distribuição Inversa de Chen, ou seja,
Y ∼ Chen−1 (α; β), tal que y, α, β > 0 e com função de distribuição acumulada dada como
em 3.7, então Y tem função densidade de probabilidade dada por
f (y|α; β) = αβy −(β+1) exp{y −β + α[1 − exp(y −β )]} (3.8)
Demonstração: De fato! Em consequência da fda obtida e exibida em 3.7 sob a aplicação
da regra da cadeia segue que:
∂ ∂
f (y|α; β) = F (y|α; β) = exp{α[1 − exp(y −β )]} =
∂y ∂y
52
= −exp{α[1 − exp(y −β )]}αexp(y −β )(−β)y −(β+1) =

= αβy −(β+1) exp{y −β + α[1 − exp(y −β )]}
No artigo "Two Parameter Inverse Chen Distribution as Survival Model", Srivastava &
Srivastava (2015), os autores introduziram a distribuição Y ∼ Chen−1 (α; β) apresentando os

resultados para a aplicação do método de máxima verossimilhança utilizado para encontrar
o estimador de α e β, bem como apresenta as expressões obtidas.
Além disso, os autores também discutem os intervalos de conança assintóticos e os mo-
delos de sobrevivência, destacando apenas a função de sobrevivência e função taxa de falha.
No entanto, o trabalho não apresenta nenhuma vericação e nem sugerem uma caracte-
rização para o modelo Chen−1 (α; β).

Por isso, no presente trabalho nos propomos a obter uma caracterização razoável para
este modelo e estudar alguns estimadores para o trato da inferência estatística, abordados no
contexto clássico e com rigor matemático. Damos início ao proposto vericando que f (y|α; β)
é de fato uma distribuição de probabilidade.
Teorema 3.4 Se Y é uma variável aleatória Y ∼ Chen−1 (α; β) e com função de densidade
de probabilidade dada como em 3.8, então para todo y , α, β > 0, f (y|α; β) é tal que
Z +∞
f (y|α; β)dx = 1 (3.9)
0
Demonstração: Com efeito! Note que y, α, β > 0, e como o núcleo de f (y|α, β) é também
uma função exponencial, resulta que f (y|α, β) > 0. Daí, reescrevendo f (y|α, β) como
f (y|α; β) = αβy −(β+1) exp(y −β )exp(α)exp[−αexp(y −β )] (3.10)
de modo que tomando a mudança de variável u = −αexp(y −β ) ⇒ αβy −(β+1) exp(y −β )dy =
−du, resulta que:
y −→ 0 ⇒ u −→ −αexp(0) = −α
(3.11)
y −→ +∞ ⇒ u −→ −αexp(+∞) = −∞
Então, substituindo u, du e 3.11 na integral de Riemann de f (y|α, β), resulta que:
Z +∞ Z +∞
f (y|α; β)dy = αβy −(β+1) exp(x−β )exp(α)exp[−αexp(x−β )]dx =
0 0 −α
Z −∞ exp(α)
= − exp(α + u)du = exp(α)exp(u) = =1

−α exp(α)
−∞
O gráco da fdp de Y ∼ Chen−1 (α; β) para alguns parâmetros é dado por:
53
Figura 3.2: Gráco ilustrativo para a fdp de Y ∼ Chen−1 (α; β) com diferentes parâmetros.
3.2.2 Avaliação do r-ésimo Momento da Distribuição
Meyer (1965) considera que os parâmetros são os itens que caracterizam um modelo pro-
babilístico em estudo, e que não somente atribuem uma particular relação com o modelo,
mas que para diferentes escolhas de valores destes parâmetros se obtém um modelo especí-
co.
No entanto, considerando como caracterização paramétrica a característica atribuída a
um modelo através de seus parâmetros, não somente de posse dos valores dos parâmetros de
um modelo, que na maioria dos modelos paramétricos são identicados como parâmetros de
posição e escala, se atribui uma caracterização para ele.
Distribuições como a de Cauchy por exemplo, embora exijam a conguração de parâ-
metros de posição e escala, podem ser caracterizadas por não possuírem uma expressão
determinística que atribua seus valores esperado e variância, respectivamente, obtidos atra-
vés dos momentos de ordem r=1 e r = 2.

Tal característica, como a do modelo de Cauchy, pode ser denominada por caracterização
patológica, muito embora o termo 'patologia' seja diretamente ligado às áreas biológicas e
médicas devido a seu signicado etimológico (estudo gramatical da origem e história das
palavras), do grego phátos - doença e lógos - estudo, uma patologia pode ser considerada,
no sentido mais geral.
No contexto aqui abordado, a patologia é tomada com a nalidade de apontar diag-
nósticos que identicam irregularidades, alterações estruturais e funcionais de um estado,
objeto ou fenômeno físico, como por exemplo em arquitetura e engenharia civil no estudo
de edicações, a linha de estudo 'Patologia de Edicações'.
Seu conceito é, sobretudo, muito amplo e na matemática é empregado para designar
54
aquilo que fere o senso comum, que na prática não é intuitivamente esperado ou expõe limi-
tações.
Contudo, a distribuição Inversa de Chen ainda não possui uma característica denida,
seja ela paramétrica ou patológica e um passo primordial e crucial nesta direção é vericar
se o seu r−ésimo momento é convergente ou divergente, para posteriormente atribuir uma
caracterização apropriada.
Neste sentido, uma vez constatado que a variável aleatória contínua Y com distri-
buição Inversa de Chen e parâmetros α e β possui seu r−ésimo momento convergente,

r
E(Y |α; β) −→ K , é viável desenvolver um estudo apropriado em busca de uma função
determinística em termos de r, α e β para atribuir uma característica paramétrica para a
distribuição em estudo e assim representar a média e variância denidas em termos de seus
parâmetros.
Da mesma forma, quando constatado a divergência, E(Y r |α; β) −→ +∞, não faz sentido
a aplicação das técnicas usuais para a obtenção de uma função determinística em termos
dos parâmetros, pois o modelo não possuirá esperança denida, já que não converge para
um ponto em termos de r, α e β e por isso, neste caso é caracterizada como distribuição
patológica.
O que temos até o presente momento em relação ao modelo proposto é simplesmente sua
existência e nenhum direcionamento sobre sua caracterização.
Mundança de Variável
Z
A aplicação da mudança de variável em uma integral do tipo f (y)dy , dada a natureza
de f (y) ao seu domínio, consiste em um método que, além de fornecer uma solução para o
integrando f (y) em seu domínio, quando este for primitivável, simplica a integral permi-
tindo a aplicação de outras técnicas de integração.
Então, seja f (y|α; β) a função densidade de probabilidade da distribuição Y ∼ Chen−1 (α; β)

e tal que y , α, β ∈ <∗+ , isto é:
f (y|α; β) = αβy −(β+1) exp{y −β }exp{α[1 − exp(y −β )]}
Pretendemos, a princípio, denir para r ∈ ℵ∗ a esperança do r-ésimo momento de Y,

dada como:
Z+∞
E(Y r ) = y r f (y)dy (3.12)
Então, se
Z+∞ Z+∞
r
y f (y)dy = y r αβy −(β+1) exp{y −β }exp{α[1 − exp(y −β )]}dy (3.13)
0 0
55
tomemos a mudança de variável I : u = α[1 − exp(y −β )] de modo que:
α−u 1
u = α − αexp(y −β ) ⇔ exp(y −β ) = ⇔ y = [ln(α − u) − ln(α)]− β (3.14)
α
Além disso, como Ii : u = α[1 − exp(y −β ) ⇒ du = αβy −(β+1) exp{y −β }dy , resulta que:
y −→ 0 ⇒ u −→ −∞
(3.15)
y −→ +∞ ⇒ u −→ 0
Nestas condições, substituindo I, 3.14, Ii e 3.15 em 3.12 através de 3.13, segue que:
Z+∞ Z0
r
E(Y r ) = y r f (y)dy = [ln(α − u) − ln(α)]− β exp(u)du =
0 −∞
(3.16)
Z0
exp(u)
= du
[ln(α − u) − ln(α)]λ
−∞
r
onde, se r ∈ ℵ∗ e β ∈ <∗+ , então λ= ∈ <∗+ .
β
E ainda, tomando a mudança II : z = ln(α − u) − ln(α) de modo que:

α−u α−u
z = ln ⇔ exp(z) = ⇔ u = α − αexp(z) (3.17)
α α
donde resulta que IIi : du = −αexp(z)dz , e:
u −→ −∞ ⇒ z −→ +∞
(3.18)
u −→ 0 ⇒ z −→ 0
de modo que, substituindo II , 3.17, IIi e 3.18 em 3.16, através de 3.13, 3.12 se reduz a
Z0 Z0
exp(u) exp[α − αexp(z)]
E(Y r ) = du = [−αexp(z)]dz =
[ln(α − u) − ln(α)]λ zλ
−∞ +∞
(3.19)
Z+∞
exp[z − αexp(z)]
= αexp(α) dz
zλ
0
Logo, através das mudanças de variáveis I e II , resulta que:
Z+∞ Z0
r r exp(u)
E(Y ) = y f (y)dz = du =
[ln(α − u) − ln(α)]λ
0 −∞
(3.20)
Z+∞ Z+∞
exp[z − αexp(z)]
= αexp(α) dz = αexp(α) g(z)dz
zλ
0 0
56
tal quez , α, λ ∈ <∗+ .

◦
Note que g(z) ≥ 0 é contínua em (0, +∞), portanto é derivável em 1 ordem e admite
integração. Porém, é uma função transcendente que não admite primitiva elementar, e assim
surge o primeiro e o principal impasse para caracterizar o modelo proposto.
Condição Paramétrica do Núcleo Exponencial de g(z)

Inicialmente, é evidente que exp[z − αexp(z)] > 0, e tomando Λ(z) = αexp(z), temos
exp[z − Λ(z)] > 0 e tal que, em g(z) como obtida em 3.20, verica-se dois casos particulares:
caso 1: g(z) ∈ (0; 1] se 0 < exp[z − Λ(z)] ≤ 1 ≤ z

(3.21)
caso 2: g(z) ∈ [1; +∞) se 0 < z ≤ 1 ≤ exp[z − Λ(z)]
Com efeito!
Note que exp[z − Λ(z)] = 1 ⇔ z − Λ(z) = 0 ⇔ z = Λ(z). Então, xando z ≤ Λ(z) para
z≥1 e z ≥ Λ(z) para 0 < z ≤ 1, resulta:
• Para z ≥ 1:
z ≤ Λ(z) ⇔ z − Λ(z) ≤ 0 ⇔ 0 < exp[z − Λ(z)] ≤ 1
Logo, z ≤ Λ(z) ⇒ 0 < exp[z − Λ(z)] ≤ 1, e se z≥1 segue que 0 < exp[z − Λ(z)] ≤ 1 ≤
z ⇒ g(z) ∈ (0; 1], pois z λ ≥ 1.
• Para 0 < z ≤ 1:
z ≥ Λ(z) ⇔ z − Λ(z) ≥ 0 ⇔ exp[z − Λ(z)] ≥ 1
Logo, z ≥ Λ(z) ⇒ exp[z − Λ(z)] > 1, e se 0 < z ≤ 1 segue que 0 < z ≤ 1 <
exp[z − Λ(z)] ⇒ g(z) ∈ (1; +∞), pois 0 < z λ ≤ 1.
Observe que, embora α > 0, é possível que ele exista tão pequeno quanto se queira de
modo que Λ(z) ' z , isto é, como Λ(z) = αexp(z), também resulta de z − Λ(z) = 0 que
z
α= , e consequentemente dois casos particulares para o parâmetro α:
exp(z)
z
no caso 1: z ≤ Λ(z) = αexp(z) ⇒ α ≥
exp(z)
z (3.22)
no caso 2: z ≥ Λ(z) = αexp(z) ⇒ α ≤
exp(z)
r z z
ou seja, ∀ λ = > 0, g(z) ∈ (0; 1] se α ≥ e g(z) ∈ [1; +∞) se α ≤ .
β exp(z) exp(z)
Pretendemos com isso mostrar que ∀ λ > 0, e mais especicamente ∀ r > 0, se g(z)
57
divergir nos dois casos acima existirá y , α e β tais que E(Y r ) diverge, daí não existirá
−1
E(Y r ) e consequentemente a distribuição Y ∼ Chen (α; β) será patológica em relação
aos parâmetros α e β, do contrário, caso convirja, diz-se que a distribuição possui uma
característica paramétrica e uma função determinística pode ser investigada em termos de
r, α e β para atribuir uma caracterização geral para a distribuição Y ∼ Chen−1 (α; β).
Assim, pelo critério de convergência de integrais, se existir a função ∆(z), tal que 0 <
Z+∞
g(z) ≤ ∆(z), se ∆(z) for integrável e ∆(z)dz for convergente, concluiremos que E(Y r ) =
0
Z+∞
αexp(α) g(z)dz também o é, ou seja, existe a integral E(Y r ) e Y ∼ Chen−1 (α; β) pode
0
ser caracterizada em termos paramétricos gerais desde que obtida a função determinística
em termos de r, α e β.
Z+∞
Caso contrário, para 0 < ∆(z) ≤ g(z), se ∆(z)dz for divergente, pelo critério de
0
comparação, não existe a integral E(Y r ) e o modelo é patológico.
A estratégia adotada para a avaliação proposta é discutida em detalhes no apêndice B
(seção 5) deste trabalho!
O Teste de Convergência na Comparação das Integrais

Sobre os casos de estudos descritos em 3.22, onde xamos agora o caso 1 como avaliação
1 e o caso 2 como avaliação 2, sem diculdades verica-se que:
z
• Avaliação 1: quando α≥ , sobre z − Λ(z) ≤ 0, para i = 1 se 0 < z ≤ 1 e i=2
exp(z)
se z ≥ 1, tomemos 0 ≤ exp[z − Λ(z)] ≤ πi (z) para vericarmos que
i = 1) Para 0 < z ≤ 1, consideremos π1 (z) = exp(z) para termos
exp[z − Λ(z)] π1 (z) exp(z)

exp[z − Λ(z)] ≤ π1 (z) = exp(z) ⇔ g(z) = λ
≤ λ
= = ∆1 (z)
z z zλ
i = 2) Para z≥1 consideremos π2 (z) = exp( z1 ) para termos
1 exp[z − Λ(z)] π2 (z) exp( z1 )

exp[z − Λ(z)] ≤ π2 (z) = exp( ) ⇔ g(z) = ≤ = = ∆2 (z)
z zλ zλ zλ
z
• Avaliação 2: quando α≤ , sobre z − Λ(z) ≥ 0 tomemos 1 ≤ exp[z − Λ(z)] para
exp(z)
vericarmos também que:
58
1 exp[z − Λ(z)]
1 ≤ exp[z − Λ(z)] ⇔ ∆(z) = λ
≤ = g(z)
z zλ
No apendice C (seção 5) apresentamos uma abordagem detalhada sobre as funções re-
sultantes ∆(z) e ∆i (z)

i = 1, 2, bem como o resultado de suas respectivas integrais em
para
z > 0 para as restrições 0 < z ≤ 1 e z ≥ 1.

exp[z − αexp(z)]
Obtemos então para g(y) = que a : 0 < g(z) ≤ ∆i (z) para todo
zλ
z
α ≥ , com i = 1, 2 como denido em 5.9, e que b : 0 < ∆(z) ≤ g(z) para todo
exp(z)
z 1
α≤ , com ∆(z) = como denido em 5.8.
exp(z) zλ
Coincidentemente, temos pelo teste da comparação de integrais duas condições em que:
Z+∞ Z+∞
(a) Quando 0 < g(z) ≤ ∆(z), se ∆(z)dz é convergente, então g(z)dz também o é;
0 0
Z+∞ Z+∞
(b) Quando 0 < ∆(z) ≤ g(z), se ∆(z)dz é divergente, então g(z)dz também o é;
0 0
Sendo então que o interesse é avaliar g(z), temos portanto dois resultados distintos:
(a) Na avaliação 1, como mostrado em 5.13, sendo ∆(z) = ∆i (z), para i = 1, 2 convergente,
z
conclui-se que g(z) também o é para todo z > 0, λ > 0 e α ≥ .
exp(z)
(b) Na avaliação 2, como mostrado em 5.8, sendo ∆(z) divergente conclui-se que g(z) tam-
z
bém o é para todo z > 0, λ > 0 e α≤ .
exp(z)
Observa-se então que, embora o parâmetro α seja generalizado através das desigualdades
r
z − Λ(z) ≤ 0 e z − Λ(z) ≥ 0, nada se pode armar sobre E(Y ) em decorrência da conver-
gência na avaliação 1 e divergência na avaliação 2.
Nesta condição a saída é investigar a tendência do parâmetro α denido em função de z

z
como feito inicialmente, de modo que para α(z) = e z > 0, vamos assumir que
exp(z)
• Pela a avaliação 1, g(z) será convergente se α ≥ lim α(z).

z→+∞
• Pela a avaliação 2, g(z) será divergente se α ≤ lim α(z).

z→+∞
Então, pelo teorema de L'Hospital
z 1
lim α(z) = lim = lim =0
z→+∞ z→+∞ exp(z) z→+∞ exp(z)
59
Logo, como α é denido em <∗+ é razoável considerar o resultado da avaliação pela qual
α ≥ lim α(z), ou seja, existe α tal que para todo z, λ > 0 a função comparativa ∆(z) é
z→+∞
convergente e consequentemente g(z) também o é pelo critério de comparação de integrais,
Z
pois 0 < g(z) ≤ ∆(z). Deste modo, verica-se que g(y)dy é convergente. Então
Z+∞ Z+∞
r exp[z − αexp(z)]
E(Y ) = αexp(α) g(z)dz = αexp(α) dz −→ K (3.23)
zλ
0 0
onde K = αexp(α)(L) e constante.

−1
Portanto Y ∼ Chen (α; β) é munida de uma caracterização paramétrica.
3.2.3 Discussões Sobre a Avaliação
Os casos 3.21, como dito, são particulares. É possível estender a avaliação de g(y),
por exemplo, para os casos 3 e 4 tais que
z
caso 3: g(z) ∈ (0; 1], se 1 ≤ exp[z − Λ(z)] < z λ , para α≤
exp(z)
λ z
caso 4: g(z) ∈ [1; +∞), se 0 < z ≤ exp[z − Λ(z)] ≤ 1, para α ≥
exp(z)
porém julga-se desnecessário a extensão, pois o resultado da avaliação de g(z) para os casos
1 e 2 apenas, é suciente.
Outra situação que vale discutir é a avaliação 2 desenvolvida. Como 0 < exp[z−Λ(z)] ≤ 1,
a busca de uma função π(z) tal que π(z) ≤ exp[z − Λ(z)] é uma
Z tarefa tentadora, uma vez
π(z) exp[z − Λ(z)]
que a obtenção de ∆(z) =
λ
≤ = g(z) com ∆(y)dy −→ +∞ atribuiria
z zλ
−1
uma caracterização geral imediata para Y ∼ Chen (α; β).
Esta caracterização seria a patologia do modelo, porém anularia qualquer aplicação as-
sintótica ao que se refere a inferência estatística, pois não existiria os momentos de ordem
r=1 e r=2 tais que E(Y ) e E(Y 2 ) − [E(Y )]2 = V ar(Y ) existam no Teorema Central do
Limite.
A busca de π(z) neste caso nos remete às funções trigonométricas denidas sobre o cir-
culo trigonométrico de raio 1, mas outro obstáculo que se obtém são os intervalos de domínio
e imagem destas funções, que no caso do seno e cosseno, embora possam ser denidas em
<∗+ possuem imagem em [−1; 1] para este domínio, e para as demais, tangente, cotangente,
secante e cossecante, apesar de também poderem ser denidas com domínio em <∗+ , tem
π
imagem descontínua em kπ + 2
para um k -ésimo ciclo qualquer.
Somos ainda tentados a considerar os seno e cosseno hiperbólicos, pois através de-
les obtém-se a tangente hiperbólica que apesar de possuir domínio em <, imagem em
[−1; 1] e poder ser reescrita em termos de exponenciais, o núcleo z − Λ(z) ≤ 0 fornece
60
−1 < tgh[z −Λ(z)] ≤ 0 < exp[z −Λ(z)] ≤ 1, isto é, com domínio em <− e imagem em [−1; 0],
e mais que isso, para um núcleo z > 0 apenas, resulta que 0 < exp[z − Λ(z)] ≤ tgh(z) ≤ 1,
Z+∞
tgh(z)
tal que dz −→ +∞ e nenhuma conclusão pode ser tomada sobre g(z).
zλ
0
Portanto, a saída para a solução do problema na avaliação 1 foi, de fato, buscar um ∆(z)
convergente e tal que ∆(z) > g(z).
3.2.4 Conclusões Sobre o r-ésimo Momento da Distribuição
Nessa avaliação a principal conclusão que se obtém é de que a distribuição terá média
e variância nitas e convergirá assintoticamente para uma distribuição Normal Padrão, de
acordo com o Teorema Central do Limite e a Teoria Assintótica.
Logo, este resultado é a garantia de que para amostras sucientemente grandes, resul-
tados limites como as Leis Fracas e Fortes dos Grandes Números e o Teorema Central do
Limite são contemplados sob a aplicação do modelo Inverso de Chen.
O primeiro resultado limite descrito acima é satisfeito em decorrência da existência de
µY = E(Y ), uma vez que a Lei dos Grandes Números arma que quando n −→ +∞ a média
amostral µˆY converge para µY e de tal modo que µˆY − µY −→ 0, e o segundo resultado é
2 2 2 2
satisfeito em virtude da existência de E(Y ), uma vez que σY = E(Y ) − µY e o teorema
µˆY − nµY
diz que p ' N (0; 1).
nσY2
Além dos resultados limites descritos acima, a convergência do momento de ordem r
também garante a validade dos métodos assintóticos pertinentes a Teoria Assintótica, que
são úteis em Probabilidade Aplicada e Estatística em geral.
3.3 Propriedade dos Estimadores Para o Modelo
3.3.1 Estimadores de Máxima Verossimilhança dos Parâmetros
A expressão f (y|α; β) mostrada anteriormente em 3.8 é a função de densidade de pro-
babilidade da variável aleatória Y ∼ Chen−1 (α; β). Então, uma vez obtido os dados de
−1
Y ∼ Chen (α; β), é possível obter um estimador que pode ser entendido como uma função
de α e β para as n observações de Y .
Esta função é a função de verossimilhança e associa a cada um dos parâmetros α e β os
valores f (y|α; β) e tal função é denotada por l(α; β|y) como denida em 2.25.
Contudo, ao processo de obtenção das estimativas para α e β através da função de ve-
rossimilhança da-se o nome de Método de Máxima Verossimilhança e, nesta seção, usaremos
este método para estimar estes dois parâmetros que, mesmo que conhecida as observações
61
de Y ∼ Chen−1 (α; β), tais parâmetros são desconhecidos.
Considerando então que Y1 , Y2 , Y3 , ..., Yn é uma amostra aleatória de Y ∼ Chen−1 (α; β) a

função de verossimilhança da amostra apresentada é a função de densidade de probabilidade
conjunta f (y|α; β) e dada por:
n
Y
L(α; β|y) = f (yi |α; β)
i=1
Então, sendo a expressão 3.8 a fdp de Y ∼ Chen−1 (α; β), segue que a função de verossi-
milhança da amostra de Y ∼ Chen−1 (α; β) é dada por:

n n
L(α; β|y) =
Y Y
f (yi |α; β) = αβy −(β+1) exp{y −β + α[1 − exp(y −β )]} =
i=1 i=1
n n
! (3.24)
Y X
= (αβ)n (yi )−(β+1) exp {yi −β + α[1 − exp(yi −β )]}
i=1 i=1
E mais, se a função de verossimilhança é uma função das observações de Y ∼ Chen−1 (α; β)

e tal que α̂ e β̂ são estimativas para α e β, respectivamente, então α̂ e β̂ são estimativas de
máxima verossimilhança de α e β, de modo que o estimador de máxima verossimilhança é
a solução das equações
∂L(α; β|y)

=0
∂α

(α=α̂;β=β̂)
∂L(α; β|y)

=0
∂β

(α=α̂;β=β̂)
Na prática, L(α; β|y) e ln[L(α; β|y)] têm seus pontos de máximo no mesmo valor de
α e β, e para a maioria das funções de densidade de probabilidade é mais fácil obter o
máximo deln[L(α; β|y)] devido a sua propriedade multiplicativa, assim, no caso da fdp de
−1
Y ∼ Chen (α; β) cuja função de verossimilhança é dada pela expressão 3.24, seu logaritmo
natural é dado por
n n
l(α; β|y) = n[ln(α) + ln(β)] − (β + 1)
X X
ln(yi ) + {yi −β + α[1 − exp(yi −β )]} (3.25)
i=1 i=1
Daí, aplicando a derivada em relação a cada um dos dois parâmetros da expressão 3.25
em seus pontos de máximo, respectivamente nos pontos α̂ e β̂ , igualando as expressões
resultantes a 0, obtém-se as equações
∂L(α; β|y)

n
n X
= +n− exp(yi −β̂ ) = 0 (3.26)
∂α α̂

(α=α̂;β=β̂) i=1
62
∂L(α; β|y)

n n
n X X
= − log(yi ) + exp(yi −β̂ ) +
∂β

(α=α̂;β=β̂)
β̂ i=1 i=1
n (3.27)
X
+ α̂ yi −β̂ exp(yi −β̂ )log(yi ) = 0
i=1
Portanto, em consequência da equação 3.26, obtém-se o estimador de máxima verossimi-
lhança para α como
n
α̂ = n (3.28)
X
−β̂
exp(yi )−n
i=1
e analogamente, em consequência da equação 3.27, o estimador para β é dado pela equação
n
X
n n
n yi −β̂ exp(yi −β̂ )log(yi )
n X X i=1
− log(yi ) + yi −β̂ + n =0 (3.29)
β̂ i=1 i=1
X
−β̂
exp(yi )−n
i=1
Observe que a obtenção da solução de forma fechada para a equação não linear 3.29 não
é possível, por isso, para qualquer conjunto amostral de Y ∼ Chen−1 (α; β), um método
numérico deve ser utilizado para encontrar a estimativa de máxima verossimilhança de β

para posteriormente encontrar α.
Isso implica na necessidade de suporte computacional para a realização de tal tarefa,
daí surge a justicativa para o uso do software SAS com o procedimento NLMIXED para
a aplicação de interesse. Um software equivalente, e de grande valor, para a realização da
mesma tarefa é software

R,
R onde o pacote ”optim” é utilizado para a confecção dos
resultados necessários.
3.3.2 Os Intervalos de Conança Para os Parâmetros
Sob algumas condições de regularidade, assintóticamente podemos assumir a seguinte
distribuição para o vetor (α̂; β̂):
(α̂; β̂) ≈ N {0; [nI(α; β)]−1 } (3.30)
onde 0 = [0 0]t é um vetor de médias nulas e I(α; β) é a matriz de informação esperada de
Fisher para α e β ataravés deY .
Devemos considerar que I(α; β) é uma medida de informação global e é tomada em rela-
ção a distribuição amostral de f (y|α; β), ou seja, é denida a partir da esperança da variável
aleatória Y .
63
f (y|Θ) = f (y|α; β), ou seja, Θ = (α; β)), considerando então que

Deste modo, tomando
Y é uma única observação com fdp f (y|Θ) e denida a medida de informação esperada de
Fisher, para um vetor de parâmetros quaisquer Θ, tem-se:
∂ 2 L(Θ|y)
Z +∞
2
I(Θ) = E − 2
= E{[U (Θ)] } = [U (Θ)]2 f (y|Θ)dy (3.31)
∂Θ 0
onde a quantidade U (Θ) é a função escore para o vetor de parametros Θ e é tal que
∂L(Θ|y) 2 ∂ 2 L(Θ|y)
U (Θ) = ⇒ [U (Θ)] = − (3.32)
∂Θ ∂Θ2
isto é, para Θ = (α; β)), em decorrência de 3.26 e 3.27, verica-se facilmente que:
∂ L(α; β|y)

2
n
− = = [U (α̂)]2 (3.33)
∂α2 α̂ 2

(α=α̂;β=β̂)
∂ 2 L(α; β|y)

n
n X
− = − yi −β̂ [ln(yi )]2 [1 − α̂(1 + yi −β̂ )exp(yi −β̂ )] =
∂β 2

(α=α̂;β=β̂)
β̂ 2 i=1 (3.34)
2
= [U (β̂)]
respectivamente, e da função de verossimilhança obtida em 3.25, resulta similarmente que
∂ 2 L(α; β|y) ∂ 2 L(α; β|y)

− = −
∂α∂β ∂β∂α

(α=α̂;β=β̂) (α=α̂;β=β̂)
n
X (3.35)
= − yi −β̂ ln(yi )exp(yi −β̂ ) =
i=1
= [U (α̂; β̂)]2 = [U (β̂; α̂)]2
Consequentemente, em decorrência de 3.31, denidos os escores 3.33, 3.34 e 3.35, a matriz
de informação esperada de Fisher para α e β, dada por I(α; β), substituindo os parâmetros
α e β por seus respectivos estimadores de máxima verossimilhança obtidos como em 3.28 e
3.29, é dada por:
   
[U (α̂)]2 [U (α̂; β̂)]2 E{[U (α̂)]2 } E{[U (α̂; β̂)]2 }
I(α̂; β̂) = E  = =
   
[U (β̂; α̂)]2 [U (β̂)]2 E{[U (β̂; α̂)]2 } E{[U (β̂)]2 }

 Z +∞ Z +∞ 
2 2 (3.36)
 0 [U (α̂)] f (y|α; β)dy 0
[U (α̂; β̂)] f (y|α; β)dy 
 
= 
Z


 +∞ Z +∞ 
[U (β̂; α̂)]2 f (y|α; β)dy [U (β̂)]2 f (y|α; β)dy
0 0
64
Porém, uma vez mostrado que Y ∼ Chen−1 (α; β) é caracterizada parametricamente,

temos que existe E(Y ) e consequentemente existem E[U (α̂)] e E[U (β̂)], porém, como ainda
não foram obtidos e esta não é a proposta para este trabalho, as condições de regularidade
não podem ser vericadas para o limite inferior da variância dos estimadores α̂ e β̂ .
Portanto, não é válido considerar a medida de informação esperada de Fisher, pois nos
deparamos com o problema da caracterização geral da variável aleatória Y.

Uma saída para este problema consiste em tomar a matriz de medida de informação
observada de Fisher para α̂ e β̂ , a matriz J(α̂; β̂), com medidas de informação local que
descarta a aplicação do valor esperado da denição descrita acima.
Logo, dene-se a matriz de informação observada de Fisher como:
 
[U (α̂)]2 [U (α̂; β̂)]2
J(α̂; β̂) =  (3.37)
 

2 2
[U (β̂; α̂)] [U (β̂)]
e consequentemente:
V âr(α̂) ˆ
 
Corr(α̂; β̂)
[J(α̂; β̂)]−1 = [nJ(α̂; β̂)]−1 =   (3.38)
ˆ β̂; α̂)
Corr( V âr(β̂)
onde é facilmente vericável que [J(α̂; β̂)]−1 = [nJ(α̂; β̂)]−1 com LI(α̂; β̂)] = [nJ(α̂; β̂)]−1
como denido na seção 2.4.6.
Com o resultado da informação de Fisher, é possível determinar através da Desigualdade
da Informação um limite mínimo para a variância dos estimadores dos parâmetros α e β.

Além disso, uma vez que a variância de qualquer estimador não pode ser menor do que o
inverso da informação de Fisher na amostra, o resultado segue da aplicação da propriedade
inversa na matriz J(α̂; β̂), de modo que os elementos da diagonal principal de [nJ(α̂; β̂)]−1
fornecem a variância assintótica para os parâmetros α̂ e β̂ .
Nestas condições, portanto, de acordo com a distribuição denida pela expressão 3.25,
um intervalo de 100(1 − δ)% de conança para os verdadeiros parâmetros α e β são obtidos
respectivamente como:
q q
IC[α; 100(1 − δ)%] = (α̂ − z δ V âr(α̂); α̂ + z δ V âr(α̂)) (3.39)
2 2
q q
IC[β; 100(1 − δ)%] = (β̂ − z δ V âr(β̂); β̂ + z δ V âr(β̂)) (3.40)
2 2
65
nos quais zδ é o percentil tabelado pela distribuição Normal Padrão.

2
3.4 Os Modelos de Sobrevivência Para a Distribuição
3.4.1 A Função de Sobrevivência
Em análise de sobrevivência e teoria de conabilidade, o objeto de interesse primário é
a função de sobrevivência, convencionalmente indicada por S(t), e como mostrado na seção

2.1, denida como S(t) = P (T ≥ t) em que t é o tempo, T é uma variável aleatória deno-
tando o momento da morte, e P (T > t) = 1 − F (t) representa a probabilidade de ocorrência
do evento T no instante t.
Figura 3.3: Grácos para a função de sobrevivência de T ∼ Chen−1 (α; β) de diferentes parâmetros.
Mais especicamente, a função de sobrevivência também é chamada de função sobrevida
em problemas de sobrevivência biológica ou de função de conabilidade em problemas de
sobrevivência mecânicos. No segundo caso caso, a função de conabilidade é indicada por
R(t).
No entanto, a função de sobrevivência é caracterizada como a distribuição de probabili-
dade do tempo de sobrevivência de um evento, e considerando que S(t) = 1 − F (t) em que

−1
F (t) é a fda de Chen (α; β), de acordo com a expressão 3.7 temos que
S(t) = 1 − exp{α[1 − exp(t−β )]} (3.41)
é a função de sobrevivência de T ∼ Chen−1 (α; β) com gráco como mostrado na gura 3.3
no tempo t ∈ (0; 100].
66
3.4.2 A Função de Risco
A função de risco, convencionalmente denotada por λ(t), ou h(t), é denida como a taxa
de eventos no tempo t condicionada à sobrevivência até, ou posteriormente, o tempo t, isto
f (t)
é, para a variável aleatória T ≥ t, λ(t) = .
S(t)
Neste caso, segue então o seguinte teorema:
Teorema 3.5 Sejam f (t), a fdp da variável aleatória T ∼ Chen−1 (α; β), similarmente dada
como na expressão 3.8, e S(t) a função de sobrevivência dada pela expressão 3.41. Então, a
função de risco para a vaiável aleatória T é dada por:
αβt−(β+1) exp(t−β )
λ(t) = (3.42)
exp{α[exp(t−β ) − 1]} − 1
f (t) αβt−(β+1) exp{t−β + α[1 − exp(t−β )]}

λ(t) = = =
S(t) 1 − exp{α[1 − exp(t−β )]}
αβt−(β+1)
= =
exp{−t−β − α[1 − exp(t−β )]} − exp{α[1 − exp(t−β )] − t−β − α[1 − exp(t−β )]}
αβt−(β+1) αβt−(β+1) exp(t−β )
= =
exp{α[exp(t−β ) − 1]}exp(−t−β ) − exp(−t−β ) exp{α[exp(t−β ) − 1]} − 1
A força de mortalidade, sinônimo de função de risco, é comumente usada no campo
da demograa e ciências atuariais, onde é denotado por µ, Srivastava & Srivastava (2014).
A taxa prazo de risco,h(t), é outro sinônimo para λ(t), ou seja, λ(t) = h(t) = µ.
−1
Contudo, o modelo T ∼ Chen (α; β), ∀ T ≥ t, apresenta funções de risco unimodal e
monótona, isto é, para todo t, α, β a função λ(t) não assume os formatos constante e de
banheira, de modo que, este modelo é predominantemente côncavo, o que signica que em
sua forma mais geral é útil para modelar dados com taxa de falha unimodal.
O formato não constante da função λ(t) é justicado pela denição da variável aleatória
T e dos parâmetros do modelo, pois, uma vez que a expressão deλ(t) existe em função de
t, α, β > 0, como dada em 3.42, e sempre se mantém variando sobre t e λ(t).
−1
E mais, a partir da denição da variável aleatória T ∼ Chen (α; β), observa-se que em
sua forma unimodal λ(t) aumenta sem limite até a sua moda quando t tende ao innito, e
consequentemente, dada a denição de S(t), tem-se também que S(t) tende a zero.
Isto implica que λ(t), conforme sua denição é dada, não diminui rapidamente, uma
vez que, por denição, o risco cumulativo Λ(t) tem que divergir, e por isso assume a forma
unimodal. Similarmente, à medida que t tende a zero, S(t) tende ao innito e λ(t) diminui
rapidamente, pois também tende a zero, assumindo a forma monótona decrescente.
67
Este mesmo comportamento se observa na expressão 3.42, onde é evidente que o denomi-
nador exp{α[exp(t−β ) − 1]} − 1 assume o mesmo comportamento de S(t) no innto e quando

tende a zero.
Figura 3.4: Formas da função de risco para o modelo T ∼ Chen−1 (α; β).
A monotonicidade decrescente do modelo é restrita para os casos em que α → 0 com

qualquer β > 0 e (α; β) → (0; 0). Mais especicamente, a medida que o parâmetro α → 0,
para qualquer β > 0 o gráco de λ(t) tende para a forma decrescente, como é mostrado à
esquerda na gura 3.5 a seguir, e similarmente, quando se tem (α; β) → (0; 0), o gráco de
λ(t) tende também a 0 mantendo-se decrescente como se observa à direita na gura 3.6.
Figura 3.5: Forma descrescente com α xo. Figura 3.6: Forma descrescente com β xo.
Enm, os casos unimodais ocorrem para qualquer α > 0 com β → +∞ e α → +∞ com

β > 0, ou seja, para quaisquer valor de α divergindo de 0 com β qualquer, ou α qualquer
com β divergindo de 0, o gráco de λ(t) = h(t) toma a forma unimodal.
Alguns casos especiais de λ(t) unimodal são apresentados nas guras 3.7 e 3.8 a seguir.
68
Figura 3.7: Forma unimodal com α xo. Figura 3.8: Forma unimodal com β xo.
As guras 3.7 e 3.8 sugerem que a medida que os parâmetros do modelo diminuem, a
função de risco tendem para a forma monótona decrescente. Isso é evidente na gura 3.8
onde se observa que a curva se aproxima de t=0 assumindo uma forma achatada perdendo
a forma unimodal e assumindo a forma decrescente.
No entanto, assumindo que a ≤ t ≤ b, com a > 0 e b > a, é possível obter o modelo

−1
monótono crescente de Chen (α; β) restrito ao intervalo [a; b], ou seja, existe um intervalo
[a; b] ∈ <∗+ no qual a função de risco será crescente.
Tomemos por exemplo as funções de risco h1 = h(t|10; 10), h2 = h(t|15; 10) e h3 =

h(t|20; 10) nas quais t ∈ [0.5; 2.5]. O gráco 3.9 na sequência mostra que para os parâmetros
assumidos, as funções de risco h1, h2 e h3 assumem a forma unimodal como é mostrado.
Porém, é possível obter para as mesmas funções de risco sua forma monótona crescente
quando assume-se t ∈ (1; 1.2], como mostra o gráco 3.10, pois neste intervalo só se obtém
os valores crescentes para as mesmas funções de risco apresentadas no gráco 3.9 como se
observa.
Figura 3.9: Modelos em t ∈ (0; 50]. Figura 3.10: Modelos em t ∈ (0; 2].
Nesta condição, garantindo que a função de risco em análise é unimodal e assegurando
o intervalo de tempo no qual esta função é crescente, ou seja, destacando o intervalo cres-
cimento da função unimodal, obtém-se a forma monótona crescente de qualquer função de
risco que se queira analisar, como nos casos especicados nas guras 3.11 e 3.12 a seguir.
69
Figura 3.11: Crescente em t ∈ [0.25; 1.5]. Figura 3.12: Crescente em t ∈ [0.5; 0.95].
Em m, vale ressaltar a inuência dos parâmetros α e β sobre as formas da função de
risco exibidas.
Como se pode observar nas guras 3.5 e 3.7, xado o parâmetro α, a menos da escala,
não se observa mudanças signicantes na forma da função de risco e é evidente a inuência
que a escala do gráco sofre com as alterações impostas sobre o parâmetro β.

Agora, como mostra a gura 3.8, xado o parâmetro β, também se observa signicativa
mudança na escala da função para as variações de α, porém, a localização da moda no gráco

sobre o eixo t passa a sofrer alterações signicantes a medida que α varia.
A inuência de α sobre a forma da função é ainda mais evidente na gura 3.9, onde a
medida que α aumenta, a função sofre um achatamento signicante sugerindo uma tendência
para a forma decrescente do modelo de risco.
Tais comportamentos sugerem as características de forma e localização, respectivamente,
para os parâmetros α e β sobre a função de risco do modelo proposto. Isso é evidente nas
guras 3.6 e 3.8 onde a redução dos valores do parâmetro α atribui alteração signicativa
na forma da função de risco.
Em concordância com a inuência que o parâmetros α exerce sobre a característica do
modelo proposto, veremos posteriormente, na seção 4.3, o quanto a elevação deste parâmetro
inuência na eciência de seu estimador, bem como na variação da amplitude de seu intervalo
de conança.
70
CAPÍTULO 4
PROBABILIDADE DE COBERTURA DOS PARÂMETROS
No capítulo anterior foram apresentadas as principais características da distribuição em
estudo, inicialmente no contexto básico da estatística com sua função de densidade acu-
mulada, função de densidade de probabilidade e a constatação de convergência do r-ésimo

momento para proporcionar a realização de inferências clássicas sob o contexto assintótico,
e por m, denido suas características em congruência com os conceitos de análise de so-
brevivência, com destaque para a função de sobrevivência e função de risco, bem como um
estudo do comportamento desta última.
Neste capítulo o interesse é abordar o método clássico e bayesiano para a construção dos
intervalos de conança para apresentar um estudo sobre as estimativas dos parâmetros do
modelo e seus estimadores. O objetivo é avaliar a probabilidade de cobertura dos parâmetros
α e β em seus respectivos intervalos de conança assintóticos e intervalos de credibilidade
HPD, de modo que várias amostras de diferentes tamanhos e diferentes parâmetros foram
considerados na aplicação de um processo de simulação estatística desenvolvido como na
descrição que segue.
4.1 Considerações Iniciais Para a Simulação

4.1.1 O Algoritmo da Transformação Inversa
Atualmente existem várias técnicas para a geração de variáveis aleatórias. Elas avançam
desde o conhecimento de uma distribuição de probabilidade especica, tais como os métodos
Congruenciais, de Composição, de Convolução, Aceitação ou Rejeição e o de Caracteriza-
ção, até os métodos mais renados em que o conhecimento da distribuição de probabilidade
não é necessariamente uma condição, como os Testes de Permutação, Validação Cruzada,
Jackknife, Bootstrap e os Método de Monte Carlo e suas variações.
Sobre os métodos nos quais a distribuição de probabilidade é conhecida uma técnica
71
Probabilidade de Cobertura dos Parâmetros
destaca-se devido à sua generalidade e simplicidade: a técnica de amostragem da função de
densidade acumulada (fda) inversa, ou o algoritmo da transformação inversa.
Uma vez conhecida a função de distribuição acumulada de uma distribuição de probabi-
lidade, a geração de uma amostra aleatória a partir dessa distribuição é trivial com auxílio
computacional, uma vez que a técnica consiste em gerar variáveis aleatórias uniforme sobre
o intervalo [0; 1] e, em seguida, aplicar estas variáveis na fda inversa.
Deste modo, embora os valores gerados inicialmente sejam uniformemente distribuídos
em [0; 1], os valores resultantes seguirão o mesmo modelo probabilístico da fda de interesse,
ou seja, os valores terão a mesma distribuição de probabilidade da fda F.

O algoritmo da transformação inversa é particularmente útil quando é desejável gerar
dados de uma distribuição contínua e invertível, ou seja, que permita a obtenção da função
F −1 . Porém, mesmo que não seja possível inverter a fda F, pode-se usar o algoritmo da
transformação inversa através de resolução numérica, uma vez que a expressão resultante
não é exata e métodos para a obtenção da raíz desta expressão, como o Método da Bissecção,
Método de Newton, Regula Falsi dentre outros, possibilitam uma solução razoável para a
F −1 não exata.
No entanto, quando a utilização de métodos numéricos são necessários, a obtenção de
uma amostragem é computacionalmente custosa e por isso é preferível a utilização de méto-
dos numéricos somente quando os métodos diretos não são aplicáveis.
Contudo, se F é uma função de distribuição de probabilidade contínua com função F −1

conhecida, a aplicação do algoritmo da transformação inversa para simular valores de F
consiste em:
1. Gerar n valores aleatórios u de um modelo uniforme distribuído em [0; 1], U ∼ unif [0; 1];
2. Aplicar os valores u gerados na função F −1 e obter as n observações F −1 (u) com
distribuição F;
3. Repitir a etapa 2 até gerar os n valores F −1 (u).
4.1.2 A Transformação Inversa Para a Distribuição Proposta
Teorema 4.1 Seja F (y), ∀ y ∈ <∗+ , a FDA da distribuição Inversa de Chen. Considerando
que F (y) : <∗+ 7−→ (0; 1], isto é, F (y) é uma função não-negativa e monótona em (0; 1],
verica-se para y > 0 que F (y) possui limites laterais em 0 e 1, mesmo que seja indenida
à direita, isto é, verica-se que F (0+ ) −→ 0 e F (+∞) −→ 1.
Demonstração: De fato! Tomando a fda de Y ∼ Chen−1 (α; β) denida em 3.7, teremos:
lim F (y) = lim exp{α[1 − exp(y −β )]} = exp{α[1 − exp(+∞)]} = exp(−∞) = 0

y→0+ y→0+
lim F (y) = lim exp{α[1 − exp(y −β )]} = exp{α[1 − exp(0)]} = exp(0) = 1
y→+∞ y→+∞
72
Proposição 4.1 Se 3.7 é a fda de Y ∼ Chen−1 (α; β) e monótona não-negativa, existe uma
relação de ordem entre y ∈ <∗+ e u ∈ (0; 1], tais que F (y) = u e F (y) é bijetora. Então
y = F −1 (u) de modo que
1
F −1 (u) = 1 (4.1)
{ln[1 − α−1 ln(u)]} β
Demonstração: O resultado é obtido através da aplicação da operação inversa em F (y) = u

como segue!
F (y) = u ⇒ exp{α[1 − exp(y −β )]} = u ⇒ α[1 − exp(y −β )] = ln(u) ⇒

⇒ 1 − exp(y −β ) = α−1 ln(u) ⇒ exp(y −β ) = 1 − α−1 ln(u) ⇒
1
⇒ y −β = ln[1 − α−1 ln(u)] ⇒ y = 1 = F
−1
(u)
{ln[1 − α−1 ln(u)]} β
Deste modo, dado então o interesse em simular n valores em N amostras aleatórias
de Y ∼ Chen−1 (α; β), tomemos os valores u ∈ (0; 1] e de acordo com a fda denida em 3.7,
−1
tomando F (y) = u, os n valores de y = F (u) são obtidos através de 4.1.
−1
Portanto, a expressão 4.1 resultante é a função inversa da fda de Y ∼ Chen (α; β), isto
é, a transformação inversa da distribuição proposta.
No que segue, mesmo que a fda F (y) da distribuição inversa de Chen seja invertível,
−1
a geração dos n valores através de F (u) é realizada via processo computacional em de-
corrência dos valores de U ∼ unif (0; 1] e, sob demanda, assume-se que as realizações são
independentes entre si e da variável aleatória U pois os n valores u também são gerados
independentemente entre si.
4.2 Probabilidade de Cobertura Empírica

Uma das propostas deste trabalho considera a abordagem de dois métodos de constru-
ção de intervalos de conança. O intuito é descrever uma avaliação para os estimadores dos
parâmetros do modelo Y ∼ Chen−1 (α; β), bem como comparar os dois métodos utilizados.
Um deles é o intervalo de conança assintótico, apresentado na seção 2.4.6 e contextua-
lizado para o modelo em estudo na seção 3.3.2, e o segundo é o intervalo de credibilidade,
apresentado na seção 2.2.5 como uma classe de intervalos de credibilidade para uma amostra
de parâmetros gerados a partir de sua respectiva distribuição à priori.
Sobretudo, o objetivo deste capítulo é avaliar a probabilidade de cobertura destes mé-
todos de construção de intervalos em paralelo com a avaliação dos estimadores do modelo,
considerando-se vários tamanhos de amostra para cada intervalo gerado e em um número
73
N de intervalos xados, isto é, são geradas N amostras de tamanho n para a realização da
proposta.
No entanto, avalia-se a probabilidade de cobertura dos N intervalos para os parâmetros
α e β, primeiro no contexto da inferência clássica através dos estimadores de máxima ve-
rossimilhança e em segundo no contexto da inferência bayesiana através da distribuição a
priori e posteriori dos parâmetros em questão.
Logo, desenvolve-se duas avaliações para posteriormente comparar os métodos de ava-
liação considerados. Contudo, nas duas avaliações é incluído um processo de simulação,
primeiro para gerar as amostras necessárias e segundo para realizar as estimações pretendi-
das.
No caso da inferência clássica o processo computacional se desenvolve sobre a estimação
diretamente da amostra gerada e através do algoritmo Gauss-Newton, e para a inferência
bayesiana o método computacional considerado é aplicado sob o algoritmo de Monte Carlo
via Cadeias de Markov (MCMC) sobre a amostra inicial.
Vale ressaltar que os cálculos das estimativas em ambos os casos foram computados via
software e linguagem SAS onde, em particular foi utilizada o procedimento NLMIXED para
o levantamento das estimativas dos parâmetros e seus respectivos intervalos de conança as-
sintótico no caso clássico, e o procedimento MCMC para efetuar o mesmo levantamento no
caso bayesiano, tal qual o método de Monte Carlo foi primordial para calcular os intervalos
de credibilidade.
4.2.1 O Intervalo de Conança Clássico
Vale relembrar que um intervalo de conança é uma estimativa intervalar que contém um
parâmetro de interesse de uma população em estudo. Sobretudo, na inferência clássica, ele
é derivado da distribuição amostral de uma estatística de interesse, geralmente o estimador
do parâmetro da população.
De modo mais especíco, segundo Wicklin (2013), para as distribuições de amostragem
simétricas, um intervalo de conança tem frequentemente a forma θ̂ ± ω{δ,n,DPθ } , onde θ̂ é

uma estimativa para o parâmetro de interesse e ω{δ,n,DPθ } é uma distância de θ̂ que depende,
exclusivamente, de um nível δ de signicância, do tamanho n da amostra e do erro padrão
DPθ da estimativa. Analogamente, (θ̂ − ω{1−δ,n,DPθ } ; θ̂ + ω{δ,n,DPθ } ) é a forma dos intervalos

não simétricos, nos quais é certo que ω{1−δ,n,DPθ } 6= ω{δ,n,DPθ )} .
Sem muitas diculdades, observa-se em estudos de inferência que, devido à variação de
amostragem o intervalo de conança para uma determinada amostra pode não conter o pa-
râmetro de interesse, por isso, a atribuição do nível de signicânciaδ , sobretudo, permite

armar que para um grande número de amostras recolhidas, cerca de 100(1 − δ)% de seus
respectivos intervalos de conança irá conter o verdadeiro parâmetro θ .
Logo, um intervalo de conança é denido como uma estimativa que contém o verdadeiro
74
parâmetro de uma população com probabilidade 1 − δ.

Na prática, é xado que a probabilidade do verdadeiro parâmetro estar contido dentro
de um intervalo de conança é de 0.95. A literatura mostra que isso é muito comum quando
uma população é normalmente distribuída ou quando o tamanho amostral é grande o su-
ciente para que o Teorema Central do Limite seja aplicado, o que remete a convergência da
variável aleatória em estudo para uma distribuição Normal de modo que todas as suposições
probabilísticas e inferenciais necessárias sejam satisfeitas.
Em aplicações com dados reais, oriundas de amostras de tamanho pequeno ou com dados
simulados a partir de modelos paramétricos distorcidos ou com caudas pesadas, a ausência
de estudos preliminares e minuciosos sobre o modelo adotado favorece o impacto da assime-
tria e curtose sobre os resultados obtidos, no sentido de afeta-los drasticamente, o que gera
conclusões precipitadas sobre o sistema e atribui intervalos de conança que não contêm os
parâmetros de interesse, por maior que seja a probabilidade de contê-los.
Assim, assume-se como estudo preliminar a prática da simulação estatística e esta abor-
dagem permite a investida aos métodos de simulação para estimar a probabilidade de um
intervalo de conança conter o seu respectivo verdadeiro parâmetro do sistema, o que é co-
nhecido como probabilidade de cobertura, ou probabilidade de abrangência.
Esta prática permite concluir se um modelo adotado é efetivo para um dado tamanho
amostral, e em se tratando do estudo de um modelo paramétrico para representar um evento
ou população de interesse, um estudo de simulação neste sentido permite, através de diver-
sas técnicas da estatística clássica, investigar e analisar o comportamento deste modelo em
relação a diferentes amostras sob a perspectiva de diferentes parâmetros.
4.2.2 O Intervalo de Máxima Densidade à Posteriori
Na prática da inferência estatística, com muita frequência as estimativas para os parâ-
metros de interesse têm suas precisões resumidas em intervalos de 100(1 − δ)% de conança,
diga-se na aplicação de técnicas de inferência clássica, mas uma prática que vem se tornando
cada vez mais comum é a construção de intervalos com 100(1 − δ)% de credibilidade para
os parâmetros de interesse através de técnicas da inferência bayesiana.
O principal motivo para isso, segundo Chen e Shao (1998), é que os intervalos de credibi-
lidade podem ser obtidos considerando métodos analíticos ou computacionais, em particular
com o suporte da técnica MCMC.
Como dito no início deste capítulo, o intervalo de conança bayesiano considerado neste
trabalho é o de máxima densidade à posteriori, o intervalo de credibilidade HPD, ou sim-
plesmente intervalo HPD para os parâmetros da distribuição à posteriori de interesse, e tais
intervalos são calculados sobre uma amostra da distribuição à posteriori.
A justicativa para a adoção deste intervalo é atribuída para as características do modelo
em estudo. Uma vez que os parâmetros da distribuição Y ∼ Chen−1 (α; β) são denidos em
75
<∗+ , na realização da inferência estatística via abordagem bayesiana é pertinente considerar
que a informação prévia sobre estes parâmetros satisfaçam suas condições de existência, isto
é, α>0 e β > 0.
Como no contexto bayesiano entende-se por informação prévia a distribuição a priori,
é necessário tomar uma distribuição de probabilidade razoável para os parâmetros de inte-
resse em estudo, além disso, com base no conhecimento a respeito destes parâmetros, uma
distribuição à priori deve então representar a informação possuída sobre eles, no caso que
α>0 e β>0 de modo que o impacto sobre a distribuição à posteriori seja mínimo.
Como visto na seção 2.2.2, temos um grande leque de opções para a escolha do tipo de
priori. No entanto, a maioria delas são descartadas em virtude de custosos processos com-
putacionais, tais como as prioris conjugadas, ou em virtude da caracterização do modelo em
estudo, onde o fato de não existir uma Esperança Matemática denida, impede a adoção
de prioris objetivas, tais como as de Jefreys e Laplace, por exemplo, pois são derivados do
conhecimento da matriz de Informação Esperada de Fisher.
Assim sendo, a distribuição à priori cabível a este contexto é uma não informativa, isto
é, é considerada uma distribuição à priori não informativa e as mais comuns apresentadas
na literatura são a Beta, a Gama e a Uniforme.
Porém, como a densidade da distribuição Uniforme é denida em todo o conjunto < e
a densidade da distribuição Beta é denida no aberto (0; 1), é suciente considerar a dis-
tribuição Gama, uma vez que ela é denida em <∗+ e à medida que sua variável aleatória
aumenta, ela se aproxima de uma distribuição Normal.
Sobretudo, no presente estudo sob o enfoque bayesiano, tanto a distribuição marginal
como a distribuição à priori considerada não são simétricas, respectivamente, o modelo In-
verso de Chen e Gama. Por isso, segundo Chen e Shao (1998), no cálculo da estimativas
da inferência é desejável um intervalo HPD, que requer apenas amostras MCMC geradas a
partir da distribuição à priori para o parâmetro de interesse.
No entanto, o processo de reamostragem via MCMC é necessário para estimar as inte-
grações bayesianas à posteriori e, em contra partida para este conceito, a literatura sobre as
estimativas de intervalos HPD por meio da amostragem ainda é escassa.
Enm, a adoção do intervalo HPD no presente estudo considera dois objetivos especícos:
• obter os intervalos de conança bayesiano de amplitude mínima para os parâmetros
de interesse; e
• efetuar o cálculo destes intervalos através de amostras diretas da distribuição a poste-
riori através do método MCMC.
Em geral, o intervalo HPD não é obtido analiticamente e, assim, justica-se a utilização
de métodos numéricos para construí-los, bem como o próprio MCMC, tanto que, para o
76
escopo deste capítulo o método MCMC será aplicado para o cálculo dos intervalos HPD em
um estudo de simulação de pequena escala que conduzirá uma avaliação aos estimadores
do modelo Y ∼ Chen−1 (α; β) bem como servirá de peça central em uma comparação de
resultados com a inferência clássica.
Assim, tomando o parâmetro θi para i = 1, 2 do modelo Y ∼ Chen−1 (α; β), tal que
θ1 = α e θ2 = β , conforme proposto por Chen e Shao (1998), o método de obtenção dos
intervalos HPD para θ1 = α e θ2 = β através do método MCMC, obedece ao seguinte algo-
ritmo:
1. Obter a distribuição à priori para o parâmetro θi ;
2. Obter uma amostra aleatória de tamanho η para θi;j onde j = 1, 2, 3, ..., η , a distribui-
ção à posteriori de θi |x;

(j) (1) (2) (3) (η)
3. Ordenar os valores θi;j , para j = 1, 2, ..., η , resultando em {θi } = {θi ; θi ; θi ; ...; θi }
(1) (2) (3) (η)
e tais que θi ≤ θi ≤ θi ≤ ... ≤ θi ;
4. Estabelecer o nível 1−δ de credibilidade e, para o inteiro η − (1 − δ)η , calcular
os η − (1 − δ)η intervalos tais que, para os η quantis ordenados e uma sequência
k = 1, 2, 3, ..., η − (1 − δ)η , para os η − (1 − δ)η quantis resultantes se obtém
(k) (k) (k+[1−δ]η)

Ri (η) = [θi ; θi ] (4.2)
(k) (k)
onde, em cada um dos η − (1 − δ)η intervalos Ri (η), θi é o k -ésimo menor limite
(k+[1−δ]η)
inferior e θi é o [k + (1 − δ)η]-ésimo menor limite superior de θi;j ;
5. O intervalo HPD de 100(1 − δ)% de credibilidade é o intervalo de menor amplitude
dentre todos os η − (1 − δ)η obtidos.
(k+(1−δ)η) (k)
Disso, resulta apenas uma diferença θi − θi que será a menor amplitude dentre
(k)
toda a sequência k = 1, 2, 3, ..., η − (1 − δ)η de intervalos, e é tal que R̂1 (y) = θ̂i e R̂2 (y) =
(k+[1−δ]η) (0)
θ̂i são os quantis da posteriori p(θi |y), e tais que o conjunto R̂i (1 − δ) = {θi ∈ Θi |
p(θi |y) ≥ K(δ)} = [R̂1 (y); R̂2 (y)], como similarmente denido em 2.2.5, é um intervalo de
(0)
credibilidade HPD em que K(δ) é a maior constante tal que P (θi ∈ R̂i (1 − δ)|y) ≥ 1 − δ .
−1
E ainda, embora a distribuição marginal Y ∼ Chen (α; β) e a distribuição à priori
Gama sejam não simétricas, se em geral, temos o interesse em estimar um intervalo de
credibilidade do espaço paramétrico Θi para o qual a probabilidade de conter a densidade à
posteriori de um determinado parâmetro é 1−δ , tal intervalo é dito ser de máxima densidade
a posteriori (HPD) com 100(1 − δ)% de credibilidade se
Z
p(θi |y)dθi = 1 − δ (4.3)
(0)
R̂i (1−δ)
77
e sobre a distribuição à posteriori do estudo vale ainda ressaltar que:
• Se a posteriori for simétrica e unimodal, o intervalo HPD coincide com o intervalo de
credibilidade central, ou seja
(c) (0) (δ) (1− 2δ )

R̂i (1 − δ) = R̂i (1 − δ) = [θ̂i 2 ; θ̂i ] (4.4)
• Se a posteriori for não simétrica e unimodal, o intervalo HPD correspondente é aquele
da referida sequência k de n − (1 − δ)n quantis com a menor amplitude, ou seja
(0) (k) (k+[1−δ]n)

R̂i (1 − δ) = [θ̂i ; θ̂i ] (4.5)
Embora as observações 4.4 e 4.5, conforme discutido e justicado por Chen e Shao (1998),
são resultados obtidos através do desenvolvido do método MCMC sob a suposição unimodal,
é possível ainda estender esses resultados aos casos multimodais, resultando da união de
intervalos uma aproximação para o intervalo HPD.
Por m, Paulino, Turkman e Murteira (2003), inserem R̂j (1−δ) = [θ̂ j ; θ̂1− j+[1−δ]n ] como a
n n
notação de um intervalo HPD para uma amostra de tamanho n de um parâmetro θ qualquer,
onde j = 1, 2, 3, ..., n − (1 − δ)n, e sugerem uma avaliação, no caso contínuo, de intervalos
de credibilidade para funções reais.
4.2.3 O Índice de Probabilidade de Cobertura
O índice da probabilidade de cobertura de um intervalo de conança, no componente
dos parâmetros de uma distribuição de probabilidade, é modelada usando técnicas de infe-
rência estatística e seu propósito é derivar uma relação empírica entre a probabilidade de
cobertura de N intervalos de conança, proveniente de amostras de diferentes tamanhos, e
os componentes paramétricos do modelo, para diferentes valores.
Usualmente, são xadas N amostras para uma variação de n observações previamente
xadas e busca-se uma medida p que representa a proporção de amostras cujos intervalos
de conança contêm os verdadeiros parâmetros do modelo.
A prática consiste em xar um nível 1−δ de conança, no caso clássico, ou de cre-
dibilidade, no caso bayesiano, para estimar os parâmetros do modelo nas N amostras pré
estabelecidas, consequentemente, a probabilidade inicial 1−δ e contar quantos entre os N

intervalos resultantes das N amostras cobrem (ou abrangem) os parâmetros do modelo.
Espera-se que a probabilidade de aproximadamente (1 − δ)N intervalos conter o parâ-
metro, o índice de probabilidade de cobertura empírica resultante, esteja muito próxima da
estipulada inicialmente, independente do valor do parâmetro do modelo adotado.
Embora qualquer classe de modelo admita a aplicação desta técnica, em analogia a um
experimento probabilístico discreto, este estudo representa um experimento no qual se tem o
78
interesse em saber a presença (ou ausência) do atributo que é conter (ou não) o parâmetro do
modelo no intervalo de cada uma das N amostras, isto é, N realizações de um experimento
de Bernoulli.
Mais especicamente, em geral a técnica busca identicar o número (ou proporção) de
elementos que têm o atributo sob estudo, numa amostra de N elementos observados em que
cada elemento é uma amostra da variável aleatória do modelo.
Logo, a técnica da probabilidade de cobertura simula um experimento binomial onde
cada um dos N ensaios admite apenas um dentre dois possíveis resultados com probabili-
dade P = 1 − δ , isto é, assumindo que Φ é a variável aleatória que representa o sucesso do
experimento e tal que:
(
1, se o intervalo contém o parâmetro ;
Φ=
0, caso contrário ;
verica-se que Φ ∼ Bin(N ; 1 − δ).

Em particular, a vantagem adicional desta técnica inclui a estimação da probabilidade
dos parâmetros de um determinado modelo probabilístico, pertencente a uma classe geral,
ser aceito através de seu respectivo intervalo de conança utilizando apenas valores amos-
trais da variável aleatória e a determinação das condições operacionais que resultam em uma
maior probabilidade de cobertura na região de interesse, como o tamanho n de cada uma
das N amostras e os valores para os parâmetros do modelo.
Em geral, a técnica também permite vericar que quanto maior o tamanho de uma amos-
tra mais próximo os valores estimados dos parâmetros do modelo se aproximam dos valores
adotados, e além disso, a probabilidade de cobertura se aproxima da probabilidade pré es-
tabelecida.
Em m, a técnica segue cinco etapas:
• Simular N amostras de tamanho n a partir da população, comumente representada
pelo modelo paramétrico;
• Calcular o intervalo de conança para cada uma das N amostras;
• Vericar se o intervalo de conança de cada uma das amostras contém o parâmetro de
interesse;
• Calcular a proporção de amostras para as quais o verdadeiro parâmetro da população
está contido no intervalo de conança (essa proporção é o índice de probabilidade de
cobertura empírica para os intervalos de conança);
• Vericar o quão próximo a probabilidade de cobertura empírica p se encontra da pro-
babilidade teórica P = 1 − δ.
79
Wicklin (2013) propõe o teste da proporção para testar se a probabilidade de cobertura
empírica P é aceita sob um nível δ de signicância para a população de intervalos, porém,
esta aplicação é viável no caso clássico, uma vez que o teste da proporção considera a teo-
ria assintótica para normalidade dos dados do experimento binomial e como proposto neste
trabalho, serão abordadas os intervalos de conança clássicos e bayesianos, sendo o segundo
desfavorecido em um teste estruturado sobre a inferência clássica.
Entretanto, sendo de interesse avaliar esta estimativa, medidas de distância serão consi-
deradas para compensar a avaliação da precisão da probabilidade de cobertura empírica p.

Estas medidas serão descritas na tópico a seguir em 4.8 e 4.11 e uma forma de avaliá-las,
para comparar as duas abordagens consideradas, é descrita na seção 4.3.1.
Um estudo da probabilidade de cobertura para os parâmetros de um modelo paramétrico
aponta para o comportamento do modelo conforme o tamanho da amostra é alterado, ou
seja, para os parâmetros xados do modelo, à medida que o tamanho da amostra é alterado,
diminui ou aumenta, a probabilidade de cobertura para os parâmetros tendem a um valor
especíco. Essa simulação permite ainda estimar a probabilidade de pequenas amostras, ou
de uma população qualquer, gerar estimativas ecientes para representar o sistema.
4.2.4 Os Elementos do Processo Computacional
Os resultados computacionais da simulação desenvolvida para estimar o índice de pro-
babilidade de cobertura partem da variação de quatro elementos:
1. N: a quantidade de amostras que irá gerar o número de IC's (intervalos de conança)
de interesse;
2. n: o número de observações geradas em cada amostra;
3. α: parâmetro 1 do modelo em estudo;
4. β: parâmetro 2 do modelo em estudo;
5. δ : o nível de signicância para a estimação dos parâmetros e estimação da probabilidade

de cobertura;
6. iter: o número de iterações do método de Newton para a resolução dos estimadores de

máxima verossimilhança;
7. N M C: o número máximo de cadeia markoviana no processo MCMC;
8. N ID: o número inicial de observações descartadas na cadeia markoviana gerada;
9. N D: o número de desbaste na reamostragem nal do processo MCMC;
80
10. η: o número de observações reamostradas no processo MCMC.
O processo implementado irá simular as N amostras, estimar em cada uma delas os
parâmetros α e β do modelo com um nível δ de signicância e, simultaneamente, calcular
seus respectivos intervalos com 100(1 − δ)% de conança, isto é, com probabilidade 1−δ de
cobertura.
Posteriormente, serão contados os IC's que contêm os parâmetros α e β , respectivamente,

e calculado a proporção de cobertura em cada caso, o índice de probabilidade de cobertura.
Em m, um teste de hipótese para a aceitação desta proporção será aplicada para aceitar
a probabilidade de cobertura estipulado e avaliar o comportamento do modelo.
Serão realizadas 32 simulações para efetuar a avaliação. O processo consiste em realizar
a simulação para amostras de tamanhos n = {10, 20, 50, 100} para 4 duplas de parâmetros
{(α; β)} = {(0.3; 0.9); (0.5; 1.5); (1.5; 0.5); (1.5; 2.0)}.
A escolha destes valores para (α; β) se justica pela avaliação do modelo Inverso de Chen
conforme o comportamento do modelo de risco apresentado na seção 3.4.2 com parâmetros
contidos em (0; 1) (1; +∞), respectivamente

e com os valores (0.3; 0.9) e (1.5; 2.0), e do
mesmo modo quando α < 1 com β > 1 e α > 1 com β < 1, respectivamente com os valores
(0.5; 1.5) e (1.5; 0.5).

Vale ressaltar que, tanto sob a abordagem da inferência clássica quanto a da bayesiana,
a estimação foi realizada pelo método da máxima verossimilhança, com a ressalva de que,
no caso clássico foi considerado os intervalos de conança assintóticos e no caso bayesiano
considerou-se os intervalos HPD.
Além disso, o processo computacional sobre as estimações na abordagem clássica foi
realizado pelo método de Newton (ou Newton-Raphson) através do cálculo das raízes dos
estimadores do modelo que, como mostrado na seção 3.3.1 são não lineares.
Já o processo computacional sobre a abordagem bayesiana, como até aqui descrito, foi
realizada através do método MCMC que foi implementado para N M C = 40000 iterações,
N ID = 10000 descartes iniciais e desbaste de N D = 30 elementos, totalizando η = 1000

reamostragens para cada uma das N = 500 amostras iniciais geradas.
Nos dois casos as estimativas foram obtidas através do método de Newton, que foi im-
plementado para 3000 iterações em cada uma das N = 500 amostras consideradas.
O nível de signicância considerado para a confecção das estimativas é de 5%, de modo
que os intervalos para os parâmetros na simulação foram estimados com 95% de conança
no caso clássico e 95% de credibilidade no caso bayesiano, e tais que a probabilidade de
cobertura esperada no processo foi de 0.95.

Contudo, vamos aqui xar que, dentre os N = 500 intervalos gerados, os resultados de
interesse para a simulação sobre θ = (θ1 ; θ2 ), onde θ1 = α e θ2 = β , são:
Frequência de cobertura (F rθ̂ ): o número de intervalos que contém seu respectivo parâ-
metro estimado, e como denido em 4.2.3 para a variável Φ, denimos F rθ̂ , para θ̂ = α̂
81
ou θ̂ = β̂ , como:
N
X
F rθ̂ = Φi (4.6)
i=1
Probabilidade de cobertura (pθ̂ ): é, sobretudo, a proporção que F rθ̂ representa diante
do total de intervalos construídos, e de acordo com a expressão 4.6, é denido como:
N
1 X F rθ̂
pθ̂ = Φi = (4.7)
N i=1 N
Distância Entre as Probabilidades de Cobertura Teórica e Empírica(d{Pθ ;pθ } ): éo
valor absoluto da diferença entre a probabilidades de cobertura Pθ e pθ , respectiva-
mente, a teórica 1−δ e a empírica obtida em 4.7. É denido como:
d{Pθ ;pθ̂ } = |Pθ − pθ̂ | = |1 − δ − pθ̂ | (4.8)
Intervalo de Conança Assintótico para θi (IC{θi ;1−δ} ): é a precisão da estimação do
parâmetro de interesse resultante da i-ésimai = 1, 2, 3, ..., N , e através da

amostra,
inferência clássica, ou seja, estabelece-se assintoticamente limites para θ î que é denido

por:
IC{θi ;1−δ} = (θî − z δ σ̂θî ; θî + z δ σ̂θî ) (4.9)

2 2
q
ˆ
onde σ̂θî = V ar(θî ), como denido em 3.38, e zδ é o quantil normal padrão com
2
nível δ de signicância.
Intervalo de Credibilidade para θi (R̂θ(0)i (1 − δ)): é a precisão da estimação do parâme-
tro de interesse resultante da i-ésima amostra, i = 1, 2, 3, ..., N , e através da inferência

bayesiana, ou seja, estabelece-se, através de reamostras para a amostra i, limites para
θî que é denido por:
(0) (k) (k+[1−δ]η)

R̂θˆ (1 − δ) = [θî ; θî ] (4.10)
i
como denido em 4.2.2 para uma sequência de k = 1, 2, 3, ..., η − (1 − δ)η intervalos.
Amplitude Média dos intervalos de θ (hIC{θ;1−δ } ): é a média das diferenças entre o li-
mite superior e inferior dos N intervalos gerados para θ̂, isto é, se hIC{θi ;1−δ } é a am-
plitude do intervalo para θi , hIC{θ;1−δ } é a amplitude média e denida como:
N
1 X
hIC{θ;1−δ } = hIC{θi ;1−δ } (4.11)
N i=1
82
(k+[1−δ]η) (k)
onde hIC{θi ;1−δ } = 2z δ σ̂θî no caso clássico e hIC{θi ;1−δ } = θî − θî no caso
2
bayesiano.
Média Amostral das Estimativas (µ̂θ̂ ): é a média das estimativas θ̂ na simulação para
o parâmetro θ, onde θ̂ = α̂ ou θ̂ = β̂ , e µ̂θ̂ é denido como:
N
1 X
µ̂θ̂ = θ̂i (4.12)
N i=1
Intervalo de Conança Assintótico para µθ̂ (IC{µθ̂ ;1−δ} ): em busca da precisão para a
estimação da média da estimativa µ̂θ̂ resultante, estabelece-se também limites para µθ̂
que, assumindo variância desconhecida, é denido por:
IC{µθ̂ ;1−δ} = (µ̂θ̂ − z δ σ̂µ̂θ̂ ; µ̂θ̂ + z δ σ̂µ̂θ̂ ) (4.13)

2 2
Sµ̂
onde σ̂µ̂θ̂ = √ θ̂ e zδ é o quantil normal padrão com nível δ de signicância.
n 2
Erro quadrático médio (EQMθ ): é a soma quadrática da diferença entre uma estimativa
θ̂i e o verdadeiro valor da quantidade estimada θ para avaliar um estimador para as
i = 1, 2, 3, ..., N estimativas calculadas, dene-se:
N
1 X
EQMθ = (θ − θ̂i )2 (4.14)
N i=1
Vício Médio do Estimador do Parâmetro (Vθ ): representa a média da diferença abso-
luta entre o verdadeiro valor do parâmetro e a sua i-ésima estimativa e é denida por:
N
1 X
Vθ = |θ − θ̂i | (4.15)
N i=1
Em particular, como o processo computacional se trata de um problema dimensional
elevado, diga-se para as N = 500 amostras consideradas, a exibição gráca de todo o pro-
cesso de iteração para o cálculo das estimativas de todas as amostras é quase impossível, em
particular na abordagem bayesiana.
Sobretudo, é indispensável uma avaliação para o processo de convergência no método
MCMC, e mesmo que dispensada a abordagem gráca destes resultados, ainda é desejável o
resumo adequado das informações sobre estes processos e, portanto, uma alternativa alcan-
çável é a adoção de medidas estatísticas, tais como as descritas na seção 2.5.4.
No entanto, estas medidas descrevem características importantes do processo de conver-
gência e solucionam o problema gráco encontrado de forma adequada. Tais medidas são
também resultados de interesse para a simulação e são descritas a seguir.
83
Tempo de Autocorrelação (τ̂ρ̂θi ) : apesar da atribuição do nome "tempo", esta medida
é obtida sobre um ponto de corte k a partir do qual as autocorrelações para a distri-

buição a posteriori do parâmetro θi de interesse estão muito próximas de zero e são
então somadas até esse ponto, ou seja, τ̂ρ̂θ é o somatório de k − 1 correlações ρ̂θi (h) ge-
i
radas até o ponto de corte k , que comumente é xado como ρ̂θi (k) < 0.01 e denida por:
k−1
X
τ̂ρ̂θi = 1 + 2 ρ̂θi (h) (4.16)
h=1
onde ρ̂θi (h) é a autocorrelação de lag h para as η estimativas θî de interesse e é denida
em termos da função de autocovariância γ̂θi (k) = Cov(θ̂i;j ; θ̂i;j−k ) da amostra, tal
que 0 < j ≤ k < η onde η é o tamanho total da amostra na cadeia markoviana e

γ̂ (k)
ρ̂θi (k) = γ̂θθi (0) .
i
Tamanho Amostral Efetivo (ESSθi ) : ESS (Eective Sample Size - Tamanho Amostral
Efetivo) é uma medida de quão bem uma dada cadeia está convergindo e embora a
necessidade de precisão de cada experimento dira para cada modelo, comumente o
objetivo é obter uma medida esperada aproximada, ESSθi ∼

= η, onde η é o tamanho
total da amostra na cadeia markoviana e τ̂ρ̂θi é o tempo de autocorrelação. A medida
ESSθi é denida por:
η η
ESSθi = k−1
= (4.17)
X τ̂ρ̂θ
1+2 ρ̂θ (h)
h=1
Efetividade da Cadeia Markoviana (ef fθi ) : tomaremos aqui como efetividade a razão
entre o tamanho total da amostra na cadeia markoviana, η , e o tamanho efetivo para o

qual a cadeia convergiu e, apesar de escassa a denição formal da efetividade, a medida
ef fθi pode ser dada por:
ESSθi
ef fθi = (4.18)
η
donde, sem diculdades, verica-se que
1
ef fθi = (4.19)
τ̂ρ̂θi
Vale ressaltar que, no processo de execução do método MCMC, obteve-se η = 1000 ob-
servações reamostradas e que o alvo principal, dentre as três medidas anteriores de avaliação
da convergência da cadeia markoviana é a sua efetividade, ef fθi , para i = 1, 2, 3, ..., N .

Contudo, dado o problema dimensional do processo computacional obtido em virtude
das N = 500 amostras iniciais, isto é, as N = 500 medidas para ef fθi , neste trabalho consi-
84
deraremos a média e o desvio padrão entre as N = 500 medidas de efetividade, ou seja
N
1 X
ef f θ = ef fθi (4.20)
N i=1
e
v
u N
u 1 X
DP (ef fθ ) = t [ef fθi − ef f θ ]2 (4.21)
N − 1 i=1
Deste modo, ef f θ é uma estimativa para a avaliação da convergência de cada uma das
N = 500 execuções do método MCMC sob o desvio padrão DP (ef fθ ) e pode ser considerado
com precisão em seu intervalo de conança assintótico.
Contudo, dado o interesse em estudar as probabilidades de cobertura, uma tabela irá
resumir todos estas medidas descritas em cada um dos casos de parâmetros e para os n
tamanhos amostrais.
Além da síntese numérica será também apresentado os resultados grácos, como o que
aqui denominamos de 'linha de referência' para os intervalos de cobertura e o histograma
para as N = 500 estimativas de parâmetros calculadas em cada um dos 4 casos de tamanho
amostral.
O gráco linha de referência busca descrever o comportamento dos intervalos ao longo
das 500 estimativas obtidas. Ele irá mostrar a linha sobre o valor do verdadeiro parâmetro
em estudo da população, de modo que os IC's que contêm este valor são mostrados em azul
e nos quais o valor está fora do IC são mostrados em vermelho.
O gráco histograma, por sua vez, é adotado para descrever o comportamento das 500
estimativas calculadas para apontar que, assintoticamente, a distribuição amostral é apro-
ximadamente normal com média µθ . A distribuição amostral irá evidenciar como as estima-
tivas, α̂ e β̂ , podem variar devido à variação do tamanho da amostragem aleatória.
Tais resultados serão apresentados tanto sob a abordagem da inferência clássica quanto
na da Bayesiana como seguem, porém, os grácos descritos acima serão apresentados no
apêndice deste trabalho.
4.3 O Estudo da Simulação Clássica e Bayesiana

Na seção 4.1 o interesse foi relatar os pontos principais da simulação computacional que
será descrita, partindo da premissa inicial ao processo que é a geração dos dados amostrais,
expondo o método adotado para a geração de dados para a variável aleatória, como descrito
no tópico 4.1.1, e especicando seu item primordial, a expressão 4.1 como deduzida no tópico
4.1.2.
Anteriormente, na seção 3.2.2, cou vericado a existência do r-momento do modelo em
85
estudo, fato pelo qual as aplicações assintóticas que seguem são validadas tornando incon-
testáveis as estimativas obtidas através da simulação para as N = 500 amostras geradas.
Na seção 4.2 adentramos efetivamente no objetivo da simulação de interesse, abordando
a importância da estimação intervalar, como descrita no tópico 4.2.1, justicando a impor-
tância do estudo de simulação adotada e, estendendo o conceito de precisão de estimativas
e de intervalo de credibilidade como apresentado no tópico 4.2.2.
O que é abordado nesta seção é o segundo resultado do trabalho desenvolvimento, e no
que tange sua temática principal, como proposto na fase inicial com o projeto, busca-se aqui
desenvolver, relatar e tirar conclusões, através de processos computacionais, da abordagem
clássica e bayesiana realizada sobre os intervalos de conança e de credibilidade do modelo
Y ∼ Chen−1 (α; β) para evidenciar seu comportamento e precisão sob diferentes amostras.
Por m, o interesse neste tópico é fundamentar o comportamento do modelo relacio-
nando diferentes parâmetros e amostras de diferentes tamanhos para avaliar a probabilidade
de cobertura descrita na seção 4.2.3.
No que segue, é realizado através dos resultados obtidos da simulação uma vericação
de como os estimadores do modelo se comportam, tendo como método de avaliação as esti-
mativas geradas e avaliadas através de sua média em seu respectivo intervalo de conança
e, principalmente, através da probabilidade de cobertura relativa aos intervalos de conança
dos parâmetros, e isso se desenvolve sobre a distância entre a probabilidade de cobertura
teórica e empírica, a amplitude média dos intervalos gerados, o estimador de máxima veros-
similhança e o viés, ambos para os tamanhos amostrais e diferentes valores de parâmetro
conforme descrito.
4.3.1 Resultados Obtidos Sobre os Estimadores dos Parâmetros
Como o nível de conança e credibilidade para os intervalos de cada uma das amostras
foram calculados com 95%, a probabilidade de cobertura teórica para cada um dos 4 casos
e para cada um dos parâmetros deve ser 0.95, ou seja, Pθ = 0.95 é a probabilidade de co-
bertura nominal ou esperada.
Entretanto, tem-se um fator determinante a ser levado em consideração, que é a avaliação
da proporção pθ de cobertura obtida, no sentido de saber qual é o nível aceitável da variação
em torno de 0.95, a sua precisão propriamente dita.
Vale ressaltar que, como descrito na seção 4.2.3, leva-se em consideração que a estimativa
pθ é uma proporção binomial, mas não usaremos o conceito de que a cobertura verdadeira
Pθ está, ou não, contida no intervalo IC{Pθ ;95%} .

Entretanto, é necessário uma medida de precisão para vericar se a estimativa pθ é plau-
sível, ou rejeitada e consequentemente, concluir se a simulação suporta a armação de que
os intervalos de conança tem cobertura de 95% quando uma amostra de tamanho N é
retirada de uma população com distribuição Y ∼ Chen−1 (α; β).
86
Note que, de acordo com a denição de distância entre dois pontos, d{Pθ ;pθ } = 0 somente
se Pθ = p θ , ou seja, a distância é 0quando Pθ e pθ são exatamente iguais e note que quando

pθ
isso ocorre, denindo a razão τ= Pθ
, obtem-se τ = 1 e tal que, como é xado que Pθ = 0.95,
para 0 ≤ pθ ≤ 0.95, resulta que 0 ≤ τ ≤ 1. E mais, isso permite armar que:
A: sobre a probabilidade total de cobertura empírica, pθ , desde que xado Pθ = 0.95, é
necessário sobre pθ = 1 um erro de 0.05 para que p θ = Pθ e consequentemente τ1 = 1.
Além disso, observa-se que, dada a variabilidade de pθ em [0; 0.95], existe um grau de
similaridade para τ e como é de interesse obter d{Pθ ;pθ } = 0, vamos tratar τ como uma
medida de similaridade com variação unitária e, consequentemente, pode ser interpretada
como uma analogia ao conceito de coeciente de correlação, pois varia em [0; 1] e atinge seu
estado de similaridade máxima, digamos perfeição, quando é igual a 1.

Porém, o interesse é avaliar o quão próximo pθ está de Pθ , isto é, o quão próximo
pθ = 0.95±d{Pθ ;pθ } está de Pθ = 0.95, através da distância d{Pθ ;pθ } . Nesta condição, mantendo
a analogia ao conceito de coeciente de correlação, podemos interpretar τ como:
• τ = 1: a similaridade é perfeita;
• 0.65 ≤ τ < 1: a similaridade é forte;
• 0.5 ≤ τ < 0.65: a similaridade é moderada;
• 0.35 ≤ τ < 0.5: a similaridade é fraca;
• 0 ≤ τ < 0.35: a dissimilaridade é perfeita, ou são diferentes.
É evidente que, se pθ > 0.95 então 1 < τ ≤ 1.0526, mas avaliar d{Pθ ;pθ } quando pθ > 0.95
é equivalente a avaliar d{Pθ ;pθ } quando 0.90 ≤ pθ < 0.95, isto é, como τ = 1 é ponto médio
em (0.9474; 1.0526), o grau de similaridade τ = 1.0526 é equivalente a τ = 0.9474.
Sendo assim, para avaliar o quão próximo pθ está de Pθ e dizer se são, ou não, similares, é
necessário xar τ2 ≥ 0.65 de modo que para a probabilidade pθ = 0.95 ± d{Pθ ;pθ } é necessário
∗
um erro δ > d{Pθ ;pθ } , ou <, obtido através de A com a seguinte armação:
B: sobre a probabilidade total de cobertura empírica, pθ , desde que xado Pθ = 0.95, é
necessário sobre pθ = 1 um erro maior do que δ ∗

para que pθ ∼
= Pθ e consequentemente
τ2 ≥ 0.65 .
Deste modo, δ∗ é obtido pela proporção direta:
A δ τ1 0.05 1
⇒ ∗ = ⇒ ∗ = (4.22)
B δ τ2 δ 0.65
87
ou seja, δ ∗ = 0.0325 é tal que, se δ ∗ = 0.0325 < d{Pθ ;pθ } , ou equivalentemente, 0.95±d{Pθ ;pθ } ∈
[0.9175; 0.9825], pθ é similar a Pθ e uma medida aceitável para a probabilidade de cobertura
do estimador do parâmetro θ de interesse.
Portanto, em vez do IC{Pθ ;95%} toma-se as medidas de proximidade d{Pθ ;pθ } e hIC{θ;95% } ,
respectivamente, a distância de pθ à Pθ e a amplitude média dos N intervalos gerados.
Além disso, é considerada as medidas de erro EQMθ e Vθ , respectivamente, o erro qua-
drático médio e o vício para os estimadores para avaliá-los e reforçar as armações sobre a
probabilidade de cobertura através de d{Pθ ;pθ } e hIC{θ;95% } .

A descrição dos resultados é dividida em 4 subtópicos para avaliar a simulação sobre as
amostras nos casos descritos anteriormente e segundo as abordagens clássica (C) e bayesiana
(B).
Análise do Modelo Y ∼ Chen−1 (0.3; 0.9)
Neste subtópico descreve-se os resultados para um caso particular em que 0 < α < β < 1.
A tabela 4.1 a seguir resume os valores obtidos nas condições descritas para os parâmetros
do modelo, onde a coluna n indica o tamanho da amostra, ou seja, a descrição dos resultados
ao caso especíco para a amostra de tamanho n dos parâmetros α e β segundo as técnicas
de inferência clássica e bayesiano, apontadas na coluna Tθ , onde Cθ indica as estimativas no
caso clássico e Bθ no caso bayesiano, e θ é o parâmetro de interesse, α e β nos casos.
Tabela 4.1: Resultados da simulação para os parâmetros no caso que α = 0.3 e β = 0.9.
n Tθ µ̂θ̂ IC{µθ̂ ;95%} F rθ̂ pθ d{pθ ;pθ̂ } hIC{θ;95% } EQMθ Vθ

Cα 0.3068 (0.0800; 0.6384) 454 0.9080 0.0420 0.5687 0.0221 0.1145
Bα 0.3160 (0.1263; 0.5701) 470 0.9400 0.0010 0.4399 0.0137 0.0900
10
Cβ 1.0367 (0.6297; 1.6017) 471 0.9420 0.0080 0.5706 0.0870 0.2141
Bβ 0.9837 (0.6358; 1.5168) 473 0.9460 0.0040 0.4414 0.0564 0.1733
Cα 0.3008 (0.1431; 0.5311) 457 0.9140 0.0360 0.3730 0.0092 0.0751
Bα 0.3082 (0.1656; 0.5067) 467 0.9340 0.0160 0.3257 0.0073 0.0664
20
Cβ 0.9610 (0.6941; 1.3043) 472 0.9440 0.0030 0.3743 0.0292 0.1280
Bβ 0.9373 (0.6917; 1.2604) 467 0.9340 0.0160 0.3267 0.0231 0.1149
Cα 0.2996 (0.1962; 0.4068) 473 0.9460 0.0040 0.2272 0.0030 0.0434
Bα 0.3033 (0.2038; 0.4040) 478 0.9560 0.0060 0.2136 0.0027 0.0414
50
Cβ 0.9213 (0.7730; 1.1142) 474 0.9480 0.0020 0.2278 0.0073 0.0658
Bβ 0.9124 (0.7678; 1.1001) 473 0.9460 0.0040 0.2142 0.0066 0.0628
Cα 0.3003 (0.2300; 0.3907) 475 0.9500 0.0000 0.1590 0.0020 0.0324
Bα 0.3022 (0.2332; 0.3919) 471 0.9420 0.0080 0.1530 0.0016 0.0317
100
Cβ 0.9065 (0.8009; 1.0240) 477 0.9540 0.0040 0.1594 0.0032 0.0452
Bβ 0.9021 (0.7982; 1.0191) 473 0.9460 0.0040 0.1534 0.0031 0.0443
A coluna µ̂θ̂ , mostra tanto no caso clássico como no bayesiano, que as estimativas para α
e β , em média, correspondem ao esperado e são aceitas sob 5% de signicância como mostra
88
a coluna IC{µθ̂ ;95%} , pois o verdadeiro valor destes parâmetros estão contidos em seus res-
pectivos IC's.
Além disso, em decorrência da frequência calculada, como exibida na coluna F rθ̂ , obtém-
se a probabilidade de cobertura que é exibida na coluna pθ com suas respectivas medidas de
proximidade, as colunas d{Pθ ;pθ } e hIC{θ;95% } na sequência.
A avaliação dos d{Pα ;pα } n mostram que, no caso clássico a cober-

ao longo dos tamanhos
tura empírica pα está consideravelmente distante da teórica Pα = 0.95 para as amostras de
tamanho n = 10 e n = 20, respectivamente, d{Pα ;pα } = 0.0420 e d{Pα ;pα } = 0.0360, evidenci-
ando a subestimação para o estimador de α para amostras pequenas, pois pθ < Pθ .
Vale destacar que, como xado anteriormente um limite máximo de 0.0325, temos que
valores como 4.2% e 3.6% são demasiados elevados em comparação a 3.25%, e em virtude
disso é considerado que as distâncias descritas anteriormente são relevantes e as estimativas
subestimadas.
Para os demais casos verica-se proximidade satisfatória, uma vez que tanto d{Pα ;pα }
como d{Pβ ;pβ } são menores ou iguais a 1.6%.
Logo, das 8 coberturas clássicas e bayesianas calculadas, no caso em que n = 10 as
probabilidades de cobertura clássicas encontram-se distantes do valor teórico nos dois casos
paramétricos, por isso arma-se que neste caso de parâmetros a cobertura no caso bayesiano
é melhor que o clássico.
Além disso, avaliando a amplitude média verica-se que, a medida que o tamanho da
amostra aumenta os valores de hIC{θ;95% } diminuem e, dentre todos os casos de tamanho
amostral, são menores no caso bayesiano, embora sejam de mesma grandeza que o parâme-
tro de interesse.
Isso evidencia que os intervalos de credibilidade são os mais precisos, pois ao longo de
todos os tamanhos amostrais constata-se que hIC{θ;95% } é menor no caso bayesiano.
A coluna EQMθ fornece o desempenho dos estimadores do modelo e os baixos valores
para os resultados mostram que os erros obtidos foram também baixos, em todos os casos
amostrais e para os 2 parâmetros do modelo, tanto no caso clássico como no bayesiano.
Por m, a coluna Vθ apresenta resultados similares ao EQMθ , no sentido de que o viés
para os estimadores são todos baixos e destacando que as distâncias entre cada uma das
estimativas e o verdadeiro valor do parâmetro são razoavelmente baixos.
Verica-se que, em geral, as cadeias do processo MCMC não produziram amostras inde-
pendentes, isto é, que cada ponto de reamostragem dependeu do ponto anterior pois, como
se espera que a eciência do processo seja relativamente alta, diga-se estatisticamente ≥ 1,

isso é evidenciado com os resultados apresentados na coluna IC{µef f θ ;95%} .
Neste caso, como todas as eciências são ≥ 1, constata-se que a estimativa para o tempo
de correlação é também aproximadamente igual a 1, visto a denição de eciência exibida
em 4.19. Isso signica que, em média, foi necessário uma única observação da saída MCMC
para fazer inferências sobre os parâmetros de interesse com a mesma precisão de uma amos-
tra independente.
89
Similarmente, de modo geral, durante os500 processos realizados o tamanho efetivo da

amostra foi também de aproximadamente 1000 observações, visto que a eciência e o tempo
de autocorrelação são aproximadamente 1 e conforme as denições 4.17 e 4.18, o que reetiu
a alta eciência obtida.
A tabela a seguir apresenta as estatísticas do diagnóstico de convergência do MCMC.
Tabela 4.2: Diagnóstico para a simulação MCMC no caso α = 0.3 e β = 0.9.
Eciência n Mínimo Máximo ef f θ DP (ef fθ ) IC{µef f θ ;95%}

10 0.3603 2.0176 1.0194 0.1538 (1.0059; 1.0329)
20 0.5158 2.2038 1.0337 0.1557 (1.0200; 1.0474)
ef fα
50 0.6124 1.9753 1.0239 0.1414 (1.0115; 1.0363)
100 0.7034 1.5055 1.0145 0.1163 (1.0043; 1.0247)
10 0.3514 3.2313 0.9954 0.1808 (0.9796; 1.0113)
20 0.4787 2.3372 1.0273 0.1569 (1.0135; 1.0411)
ef fβ
50 0.4327 2.5858 1.0185 0.1524 (1.0051; 1.0319)
100 0.5614 1.9239 1.0212 0.1481 (1.0082; 1.0342)
No apêndice 5 são apresentados os resultados grácos para este caso da simulação. As
guras 5.1 e 5.2 para o parâmetro α, respectivamente, no caso clássico e bayesiano, e as
guras 5.3 e 5.4 para β clássico e bayesiano, respectivamente.
Como é exibido, nota-se que os grácos seguem em dupla coluna, linha de referência
e histograma, para cada tamanho amostral e busca representar a evolução do conjunto de
amostras ao longo das n observações simuladas. As 4 duplas em cada gráco apresentam
a evolução para o parâmetro de interesse e no caso da inferência de interesse, onde a 1◦ ,

2◦ , 3◦ e 4◦ duplas são referentes aos conjuntos de amostras de tamanho 10, 20, 50 e 100,
respectivamente, em cada um dos 4 grácos.
Ambas as evoluções permitem vericar, visualmente, como que o tamanho da amostra e
a probabilidade de cobertura empírica afetam a distribuição amostral do modelo.
Em destaque, quando n = 100, para os parâmetros α e β, do caso clássico e bayesiano,
observa-se uma convergência quase perfeita para uma distribuição amostral Normal.
Como no caso paramétrico anterior, buscamos agora descrever os resultados da simulação
para um caso particular do modelo em que 0 < α < 1 < β.

Verica-se que, em média, as estimativas para os parâmetros estão em torno de seus
verdadeiros valores e ambos contidos em seus respectivos intervalos de conança, como é
mostrado nas colunas µ̂θ̂ e IC{µθ̂ ;95%} .

Além disso, particularmente ao se tratar da técnica de inferência realizada, a precisão
destes intervalos são equivalentes e aumentam a medida que o tamanho n da amostra au-
menta. Esta observação também é realizada sobre a amplitude média hIC{θ;95% } evidenciando
que a precisão dos intervalos de credibilidade é maior.
90
Embora o parâmetro β no conjunto de amostras de tamanho n = 10 e n = 20 apresente
uma elevada estimativa, esse fato pode ser justicado pelo seu valor real, que neste caso é
β = 1.5 > 1, enquanto que os erros EQMθ elevados são de grandeza (0; 1), baixos em relação
ao valor teórico e, por serem baixos, permite a aceitação de Vθ elevado.
As estimativas para a simulação deste caso são apresentadas na tabela que segue.
n Tθ µ̂θ̂ IC{µθ̂ ;95%} F rθ̂ pθ d{Pθ ;pθ } hIC{θ;95% } EQMθ Vθ

Cα 0.5381 (0.1724; 1.1200) 469 0.9380 0.0120 0.8503 0.0586 0.1757
Bα 0.5318 (0.2262; 0.9961) 471 0.9420 0.0080 0.6589 0.0369 0.1423
10
Cβ 1.7627 (1.0433; 2.9672) 481 0.9620 0.0120 0.8540 0.3233 0.4092
Bβ 1.6773 (1.0490; 2.7202) 474 0.9480 0.0020 0.6618 0.2176 0.3425
Cα 0.5112 (0.2867; 0.7935) 478 0.9560 0.0060 0.5362 0.0171 0.1021
Bα 0.5123 (0.3087; 0.7667) 479 0.9580 0.0080 0.4707 0.0139 0.0922
20
Cβ 1.6174 (1.1312; 2.3757) 473 0.9460 0.0040 0.5381 0.1091 0.5404
Bβ 1.5822 (1.1241; 2.2885) 464 0.9280 0.0220 0.4723 0.0899 0.2213
Cα 0.5028 (0.3601; 0.6915) 476 0.9520 0.0020 0.3219 0.0067 0.0627
Bα 0.5037 (0.3683; 0.6820) 473 0.9460 0.0040 0.3035 0.0061 0.0601
50
Cβ 1.5362 (1.2629; 1.8823) 481 0.9620 0.0120 0.3234 0.0273 0.1268
Bβ 1.5231 (1.2553; 1.8648) 475 0.9500 0.0000 0.3049 0.0252 0.1231
Cα 0.5047 (0.3913; 0.6327) 466 0.9320 0.0180 0.2252 0.0040 0.0495
Bα 0.5052 (0.3936; 0.6312) 462 0.9240 0.0260 0.2173 0.0038 0.0484
100
Cβ 1.5237 (1.3253; 1.7601) 478 0.9560 0.0060 0.2260 0.0140 0.0927
Bβ 1.5173 (1.3219; 1.7467) 473 0.9460 0.0040 0.2180 0.0134 0.0910
Com destaque para o parâmetro α no conjunto de amostras de tamanho n para o caso
bayesiano, observa-se que para a amostra de tamanho n = 100 obteve-se a maior distância
entre as coberturas teórica e empírica entre todos os 16 casos simulados. Porém, menor que
o limite 0.0325.
Como este é o caso de maior tamanho amostral espera-se que o valor para o índice pα
seja o mais próximo possível de 0.95, porém, mesmo ele se mostrando o mais distante entre
os quatro casos paramétricos, os quatro tamanhos amostrais e as duas técnicas considerados,
verica-se neste caso a menor amplitude média entre todos os possíveis casos simulados, bem
como o menor EQMθ e Vθ .

Similarmente, sobre o parâmetro β, também no caso bayesiano, muito embora pθ =
0.0220 no caso n = 20 tenha sido a maior distância neste caso paramétrico, sobretudo, é
o mais eciente neste tamanho amostral, pois dentre as estimativas α e β no caso clássico
e bayesiano, seu estimador possui os menores hIC{θ;95% } , EQMβ e Vβ , isto é, hIC{β;95% } <
hIC{α;95% } , EQMβ < EQMα e Vβ < Vα .
Sobretudo, os dados da tabela 4.3 mostram que a medida o tamanho da amostra aumenta
os estimadores do modelo, no caso clássico e bayesiano, convergem para o valor esperado de
0.95 na probabilidade de cobertura e 0 para d{Pθ ;pθ } , hIC{θ;95% } , EQMθ e Vθ , destacando que
estes estimadores são ecientes.
91
A tabela a seguir apresenta as estatísticas do diagnóstico de convergência do MCMC.

10 0.3122 1.8540 0.9940 0.1581 (0.9801; 1.0078)
20 0.4650 2.6771 1.0111 0.1682 (0.9963; 1.0259)
ef fα
50 0.3782 1.6295 0.9931 0.1347 (0.9813; 1.0050)
100 0.6039 1.9323 0.9849 0.1367 (0.9729; 0.9969)
10 0.2272 1.9887 1.0091 0.1908 (0.9923; 1.0258)
20 0.3993 1.8801 1.0019 0.1526 (0.9885; 1.0153)
ef fβ
50 0.6419 2.4251 0.9981 0.1609 (0.9839; 1.0122)
100 0.6214 2.7644 0.9751 0.1578 (0.9613; 0.9890)
As estimativas mostram que o processo MCMC teve uma rápida convergência, uma vez
que a eciência média de cada um dos 8 processos é relativamente alta, pela qual também se
conclui que existiu baixa autocorrelação entre as amostras em virtude do tempo de correlação
aproximadamente igual a 1. Também se conclui que o tamanho amostral efetivo do processo

foi de aproximadamente 1000 observações.
As guras 5.7, 5.8, 5.5 e 5.6, no apêndice 5, mostram o comportamento destas estimativas
ao longo dos 4 casos de tamanho amostral simulado e segundo as inferências clássica e
bayesiana. Os histogramas evidenciam que a medida que o tamanho das amostras aumentam,
os dados convergem para uma distribuição simétrica.
Nos grácos da linha de referência, tanto em α como em β e em ambas as inferências,
observa-se que as extremidades dos IC's tendem a se distribuírem simetricamente em torno
do verdadeiro valor do parâmetro xado, e nos grácos dos histogramas, verica-se também
uma convergência simétrica para os parâmetros.
Esta simulação evidencia que, nos casos em que 0 < α < 1 < β, para n > 20 os
pressupostos teóricos de normalidade da população não são afetados.
Este é um caso particular das classes do modelo Inverso de Chen onde 0 < β < 1 < α.
Partindo da análise dos resultados sobre α, quando n = 10 no caso clássico, a média ob-
tida para estas estimativas, bem como seu intervalo de conança, sugerem superestimação
sobre o parâmetro em questão, dado que µ̂α̂ = 1.9576 com IC{µα̂ ;95%} = (0.8885; 4.9828).
No entanto, neste caso paramétrico ca constatado que os estimadores do modelo, no
caso clássico, apresentam bons resultados apenas para as grandes amostras, dado os valores
EQMα = 1.6870 e Vα = 0.6904 para a amostra de tamanho n = 10 em comparação com o
verdadeiro valor xado para o parâmetro e o valor esperado 0.

Logo, no caso clássico em que n = 10 não podemos considerar que o estimador do parâ-
metro α é eciente.
92
As estimativas para a simulação deste caso são apresentadas na tabela a seguir.
n Tθ µ̂θ̂ IC{µθ̂ ;95%} F rθ̂ pθ d{Pθ ;pθ } hIC{θ;95% } EQMθ Vθ

Cα 1.9576 (0.8885; 4.9828) 488 0.9760 0.0260 3.5640 1.6870 0.6904
Bα 1.7270 (0.9019; 3.3034) 486 0.9720 0.0220 2.2410 0.4368 0.4628
10
Cβ 0.5930 (0.3410; 1.0467) 492 0.9840 0.0340 3.5650 0.0438 0.1481
Bβ 0.5598 (1.0156; 2.6264) 491 0.9820 0.0320 2.2410 0.0242 0.1171
Cα 1.6795 (1.0029; 2.8995) 485 0.9700 0.0200 1.8070 0.2854 0.3650
Bα 1.6320 (1.0156; 2.6264) 476 0.9520 0.0020 1.5220 0.1984 0.3231
20
Cβ 0.5544 (0.3684; 0.8487) 481 0.9620 0.0120 1.8080 0.0185 0.0986
Bβ 0.5441 (0.3676; 0.8017) 475 0.9500 0.0000 1.5220 0.0147 0.0899
Cα 1.5514 (1.1734; 2.1236) 486 0.9720 0.0220 0.9690 0.0646 0.1951
Bα 1.5416 (1.1708; 2.0863) 480 0.9600 0.0100 0.9096 0.0595 0.1887
50
Cβ 0.5125 (0.4029; 0.6553) 480 0.9600 0.0100 0.9695 0.0043 0.0511
Bβ 0.5101 (0.4038; 0.6530) 474 0.9480 0.0020 0.9101 0.0040 0.0495
Cα 1.5249 (1.2433; 1.8959) 482 0.9640 0.0140 0.6573 0.0300 0.1327
Bα 1.5207 (1.2421; 1.8793) 476 0.9520 0.0020 0.6338 0.0290 0.1312
100
Cβ 0.5065 (0.4236; 0.5983) 474 0.9480 0.0020 0.6577 0.0021 0.0361
Bβ 0.5054 (0.4234; 0.5965) 469 0.9380 0.0120 0.6342 0.0020 0.0357
Isso reforça, ou é reforçado, pelo resultado obtido na cobertura empírica que, neste
caso de tamanho amostral indica que este estimador superestima a estimativa α, pois
α̂ = 1.9576 > 1.5 = α além depα = 0.9760 > 0.95 = Pα .

Além disso, a amplitude média calculada para as N = 500 amostras da simulação destaca
que este estimador é impreciso em virtude de que, para o valor teórico α = 1.5, a amplitude
média obtida é de hIC{α;95% } = 3.5640, mais que o dobro de seu valor teórico.
Ainda no contexto clássico, ao analisar as estimativas para o parâmetro β , observa-se que
embora os valores para EQMβ e Vβ sejam toleráveis, é obtido os valores hIC{β;95% } = 3.5650,
pβ = 0.9840 e d{Pβ ;pβ } = 0.0340 > 0.0325, que são os mais altos neste caso da simulação,
onde n = 10 observações por amostra. Note que hIC{β;95% } é mais que 7 vezes o valor real do
parâmetro, xado por β = 0.5, evidenciando uma imprecisão mais grave do que a do caso α.
Porém, os resultados mostram que a medida que o tamanho da amostra aumenta, o
desempenho do estimador de α melhora, com a queda de EQMα e Vα , bem como suas es-
timativas que em média se aproximam do verdadeiro valor. Contudo, estatisticamente, os
estimadores do modelo no caso clássico não são ecientes para amostras de qualquer tama-
nho, especicamente de tamanho pequeno, em particular no caso em que n = 10.

Agora, no caso bayesiano, verica-se que os valores para EQMθ e Vθ , nos quatro casos
de tamanho amostral, são aceitáveis.
Em particular, no caso em que n = 10, apesar de se observar um caso de elevado valor

para as estimativas de α, diga-se EQMα = 0.4368 e Vα = 0.4628, visto que α = 1.5, quando
comparada as grandezas de EQMα e Vα com α teórico, verica-se diferenças razoáveis, porém
93
aceitáveis, entre seus valores, uma vez que EQMα > 0 e Vθ > 0 não indica que um estimador
é, necessariamente, ineciente pois na prática um pequeno erro e vicio é permitido.
Visto que, considerando estimativas para α, tal que α̂ ∈ α ± EQMα , resulta que α̂ ∈
(1.0632; 1.9368) ⊆ IC{µα̂ ;95%} sendo por isso aceitável já que EQMα é uma medida de erro
das estimativas α̂ em torno de α.
No entanto, sobre Vα em relação a α, como o EQMα é tolerável e Vα = 0.4628 não repre-
senta, essencialmente, o vício para o estimador de α por ser relativamente pequeno, diga-se
que o vício para o estimador deste caso é fraco com EQMα aceitável e, por isso, Vα = 0.4628
é permitido. Logo, o estimador para α é estatisticamente eciente.
Pela mesma razão que se armou a eciência anterior, no caso bayesiano para o tamanho
amostraln = 10, arma-se que o estimador de β também o é, dado que EQMβ = 0.0242
e Vβ = 0.1171, e no caso clássico, e do mesmo modo a eciência, no caso clássico para o
tamanho amostral n = 20, para o estimador de α é estatisticamente obtida.
Em m, para todos os demais casos de tamanho amostral não descritos, clássico e baye-
siano, temos que a eciência é imediata, visto que EQMθ e Vθ diminuem a medida que n
aumenta.
A tabela a seguir apresenta as estatísticas do diagnóstico de convergência do MCMC e
mostra que o processo, em média, teve uma rápida convergência visto que a eciência média
é aproximadamente igual a 1.

10 0.4944 1.8634 0.9404 0.1618 (0.9328; 0.9613)
20 0.5998 2.4288 1.0176 0.1323 (1.0063; 1.0295)
ef f (α)
50 0.5699 1.9293 1.0175 0.1371 (1.0054; 1.0295)
100 0.5135 2.3230 0.9650 0.1742 (0.9497; 0.9803)
10 0.5871 1.7489 0.9942 0.1385 (0.9821; 1.0064)
20 0.6625 1.8162 1.0179 0.1323 (1.0063; 1.0295)
ef f (β)
50 0.6555 1.6927 1.0166 0.1410 (1.0042; 1.0290)
100 0.5956 1.9770 1.0097 0.1449 (0.9970; 1.0225)
Fonte: Autoria Prórpia (2017).
Temos agora os resultados da simulação para um caso particular do modelo em que
1 < α < β, e para os 4 conjuntos de amostras estes resultados são apresentados na tabela a
seguir.
É evidente aqui o mesmo comportamento para o caso particular anterior, onde o estima-
dor do parâmetro α e β apresenta um péssimo desempenho para as amostras de tamanho
n = 10, ajustando-se para um bom desempenho à medida que o tamanho amostral aumenta.
94
n Tθ µ̂θ̂ IC{µθ̂ ;95%} F rθ̂ pθ̂ d{Pθ ;pθ̂ } hIC{θ;95% } EQMθ Vθ

Cα 2.0785 (0.9267; 6.4935) 492 0.9840 0.0340 3.9650 3.1790 0.7944
Bα 1.7624 (0.9318; 3.5865) 485 0.9700 0.0200 2.3010 0.4947 0.4824
10
Cβ 2.4577 (1.3584; 4.5398) 489 0.9780 0.0280 3.9740 0.9411 0.6821
Bβ 2.2943 (1.3533; 3.7246) 486 0.9720 0.0220 2.3060 0.4974 0.5286
Cα 1.6861 (1.0368; 2.9932) 489 0.9780 0.0280 1.8180 0.2874 0.3783
Bα 1.6384 (1.0366; 2.6976) 482 0.9640 0.0140 1.5320 0.0000 0.0000
20
Cβ 2.2173 (1.4903; 3.3056) 486 0.9720 0.0220 1.8200 0.2673 0.3822
Bβ 2.1754 (1.5048; 3.1484) 477 0.9540 0.0040 1.5340 0.2039 0.3346
Cα 1.5645 (1.1791; 2.1260) 487 0.9740 0.0240 0.9784 0.0632 0.1912
Bα 1.5543 (1.1729; 2.0998) 480 0.9600 0.0100 0.9159 0.0580 0.1851
50
Cβ 2.0746 (1.6097; 2.6966) 474 0.9480 0.0020 0.9804 0.0757 0.2084
Bβ 2.0643 (1.6157; 2.6748) 469 0.9380 0.0120 0.9181 0.0703 0.2018
Cα 1.5321 (1.2336; 1.9068) 475 0.9500 0.0000 0.6609 0.0311 0.1359
Bα 1.5276 (1.2284; 1.8967) 464 0.9280 0.0220 0.6357 0.0300 0.1337
100
Cβ 2.0300 (1.7389; 2.4324) 479 0.9580 0.0080 0.6621 0.0327 0.1396
Bβ 2.0254 (1.7357; 2.4234) 477 0.9540 0.0040 0.6369 0.0318 0.1378
α que, além de pα = 0.0340 > 0.0325 , em amostras estritamente peque-

Nota-se sobre
nas apresenta EQMα e Vα extrapolados quando comparado ao verdadeiro valor de α, com
EQMα = 3.1790 e Vα = 0.7944.

Este comportamento chama a atenção para a característica de α, uma vez que no caso
anterior tínhamos β < 1 e logo α > β , aqui temos também β > 1 e ainda α < β . E mais, os
grácos da linha de referência mostrados na gura 5.13 no apêndice 5 evidencia a analogia
armada acima quando comparado aos da gura 5.9.
Particularmente para o tamanho amostral n = 10, uma comparação simples mostra as
amplitudes discrepantes em alguns IC's nos 2 casos e isso nos remete a um problema de
variância nestes intervalos, uma vez que eles variam entre amplitudes curtas e longas ao
longo das N = 500 amostras simuladas.
Tal comportamento também se observa para os conjuntos de amostras de tamanho 20,

50 e 100, α, não evitam a grande va-
que embora atribuem eciência para o estimador de
riância na amplitude dos IC's calculados que chegam a medir de 35 a 90 unidades como se
observa no gráco da linha de referência para amostras de tamanho n = 10 na gura 5.13
no apêndice 5.
No entanto, este comportamento faz menção a um comportamento de forma e isso aponta
para α a característica de um parâmetro de forma no modelo Inverso de Chen. No entanto,
não cabe a este trabalho provar tal armação de maneira que esta característica mantem-se
aqui como uma alusão a um atributo do parâmetro α.

No apêndice 5, a imagem 5.13, como mencionada anteriormente, é exibido a simetria dos
espaçamentos em torno de α = 1.5 e a distribuição simétrica das estimativas α̂ é observada
95
apenas para o conjunto de amostras de tamanho n = 100 como se observa.
A gura 5.13 evidencia a ineciência do estimador de α e torna visualmente notável o
mau desempenho deste estimador quando n = 10.

Sobre β, no caso clássico, a análise dos resultados permite constatar também um com-
portamento irregular diante de amostras pequenas pois, apesar de pβ = 0.0280 < 0.0325 ser
perfeitamente aceitável, verica-se que EQMβ = 0.9411 e Vβ = 0.6821, relativamente altos
em comparação ao valor esperado de 0.
As armações sobre β tornam-se evidentes com a visualização do gráco 5.15, onde nos
grácos da linha de referência e do histograma, para os conjuntos em que n = 10 e n = 20,

verica-se que os limites superiores dos IC's sobre a linha de referência encontram-se supe-
restimados em relação a distância da linha β = 2.0 e, nos mesmos conjuntos, os histogramas

para as estimativas β̂ possuem uma assimetria positiva.
Uma ressalva para o caso bayesiano do parâmetro β estimado sobre a amostra de ta-
manho n = 10 se faz em relação aos erros EQMβ = 0.4974 e Vβ = 0.5286, uma vez que o
vício é razoavelmente elevado, porém o erro quadrático médio é baixo, visto que β = 2.0.
Similarmente, o mesmo resultado se verica sobre α neste mesmo caso de simulação.
No entanto, o estimador de α e β são ecientes para pequenas amostras neste caso pa-
ramétrico.
Os grácos da linha de referência e histograma dos resultados para o caso bayesiano são
também apresentados no apêndice 5.
A tabela a seguir apresenta as estatísticas do diagnóstico de convergência do MCMC e
mostra que o processo teve uma rápida convergência diante dos valores mostrados e espera-
dos.

10 0.6196 2.7872 1.0201 0.1570 (1.0063; 1.0339)
20 0.4504 1.8343 1.0136 0.1428 (1.0011; 1.0262)
ef f (α)
50 0.5214 2.0163 1.0176 0.1597 (1.0036; 1.0316)
100 0.6173 2.2128 1.0262 0.1425 (1.0137; 1.0387)
10 0.5724 2.4462 1.0272 0.1597 (1.0132; 1.0413)
20 0.5679 2.4302 1.0231 0.1507 (1.0099; 1.0364)
ef f (β)
50 0.5548 1.9540 1.0118 0.1332 (1.0001; 1.0235)
100 0.6761 2.0341 1.0310 0.1446 (1.0183; 1.0437)
4.3.2 Discussões Sobre a Análise dos Resultados da Simulação
Como descrito, foi apresentado os resultados da simulação para 4 casos de α e β ,

(α; β) = (0.3; 05); (0.5; 1.5); (1.5; 0.5); (1.5; 2.0), respectivamente, para α < β, α < β, α > β
e α < β , segundo as abordagens clássica e bayesiana.
96
Observa-se que apenas nestes 4 casos paramétricos a simulação gerou uma extensa gama
de saídas que consistem em 2 tipos de tabelas e 2 tipos de grácos, totalizando 16 tabelas, 8
de dimensão 17 × 10 para as estimativas dos parâmetros, 8 de dimensão 9 × 7 para as esti-
mativas dos processos MCMC e 128 grácos, 64 em cada caso de inferência com 32 grácos
de linha de referência e 32 histogramas.
Esta quantidade de saídas forçou a limitação dos casos de α e β , de modo que alguns
casos não foram investigados, tais como as combinações de valores extrapolados para α e β ,
tanto em (0; 1) para baixos valores como em (1; +∞) para grandes valores, e especicamente
para os casos do valor de α = 1 com β 6= α, α 6= β com β = 1 e o caso α = β = 1.
Além destes valores de parâmetros, os casos em que α, β ∈ (0; 1) com α > β e α, β ∈
(1; +∞) com α > β .

Contudo, discute-se aqui a necessidade de que mais investigações são necessárias para
constatar, de modo conclusivo, completo e geral, que os estimadores de máxima verossi-
milhança de α e β são efetivamente ecientes apenas para grandes amostras, segundo a
abordam clássica, e para amostras de qualquer tamanho, em particular as de tamanho pe-
queno, segundo a abordagem bayesiana.
4.3.3 Conclusões Sobre a Simulação
Sobre a abordagem da Inferência Bayesiana, nenhuma irregularidade ou ineciência se ob-
servou sobre o respectivo EMV (estimador de máxima verossimilhança) de α e o β . Conclui-se

que sob esta abordagem os EMVs funcionam em excelentes condições.
Agora, sobre a abordagem da Inferência Clássica, os resultados anteriores permitem con-
cluir que o EMV dos parâmetros do modelo Inverso de Chen não funcionam com eciência
para amostras de qualquer tamanho, em particular, para tamanhos pequenos considerados
nas simulações, como se vericou para n = 10.

Partindo das conclusões sobre o EMV do parâmetro α, conclui-se que ele não opera de
forma apropriada para amostras de tamanho pequeno, particularmente para tamanhos em
torno de 10 observações, quando abordado pela inferência clássica.
Um agravante para este EMV, no caso clássico, é notável nos casos em que α > 1, pois
−1 −1
como mostrado nas análises dos resultados para os modelos Chen (1.5; 0.5) e Chen (1.5; 2.0),
além de a probabilidade de cobertura empírica ser superestimada, o erro e o vício deste es-
timador encontram-se extrapolados do limiar permitido.
Sobretudo, de forma generalizada no caso clássico, conclui-se que os estimadores do mo-
delo Inverso de Chen está habilitado para fornecer estimativas para α e β para amostras
grandes, diga-se n ≥ 20, mais especicamente nos casos em que α > 1 e independente da
grandeza de β.
Especicamente para o caso em que α < 1 < β, os EMV apresentaram eciência para
amostras de qualquer tamanho, inclusive para tamanhos n = 10, diferente dos demais casos
97
observados.
Sobre β, a conclusão é que para qualquer amostra de tamanho em torno ou maior de 10

observações, de um modo geral para α<β ou α>β nos casos considerados, seu EMV é
eciente e apropriado para fornecer as estimativas sobre β.

Particularmente, o EMV de β mostrou-se inadequado em amostras de tamanho n = 10
nos casos em que α > 1. No caso α < β < 1, embora o EMV para α tenha sido ineciente o
EMV para β mostrou-se eciente.
Para os casos em que 0 < α < 1, para qualquer β considerado e em conjuntos de amostras
de qualquer tamanho, o EMV de β mostrou-se, além de adequado em virtude da probabi-
lidades de cobertura empírica, eciente em decorrência dos baixos valores de erro e vício
apresentados nestes casos.
98
CAPÍTULO 5
CONCLUSÕES PARCIAIS
Os resultados apresentados na seção 3.2.2, ao que se refere a avaliação do r-ésimo mo-
mento do modelo Inverso de Chen, torna evidente a existência dos momentos de ordem r
−1
para Y ∼ Chen (α; β).
Particularmente, a convergência de E(Y r ) permite concluir que existem os momentos de
2
ordem r = 1 e r = 2, o que implica que existe uma média µY e uma variância σY para o mo-
delo proposto denidos através de seus parâmetros α e β , o que valida e torna incontestável
qualquer um dos resultados assintóticos que se pode obter a cerca do modelo em questão.
Formalmente, ∀ r ∈ ℵ∗ , conclui-se que
Z+∞
E(Y ) =r
αβy r−(β+1) exp{y −β + α[1 − exp(y −β )]}dy −→ K
0
Na seção 4.3 os resultados permitem concluir que os estimadores de máxima verossimi-
lhança dos parâmetros não apresentam um bom desempenho para a maioria dos casos de
amostras pequenas, e principalmente na combinação com valores elevados, ou seja, quando
n é pequeno e os valores atribuídos aos parâmetros α e β são elevados, resulta que a estima-
tiva para a probabilidade de abrangência do parâmetro não é boa, pois seu verdeiro valor é
rejeitado.
Além disso, conclui-se que ambos os estimadores são ecazes para grandes amostras,
especicamente para n ≥ 100, pois como observado é inevitável a obtenção de baixos desem-
penhos para estes estimadores para algum caso de α e β , como por exemplo, em amostras
de tamanho 10 e 20 para α > 1 ou β > 1, principalmente.
Uma conclusão favorável sobre o estudo das probabilidades de abrangência empírica de
αeβ advém do fato de que para baixos valores de α com valores elevados para β , os estima-
dores mostram-se, além de ecientes, fornecendo resultados incontestáveis sobre a amostra
mesmo quando estas apresentam um número pequeno de observações, como mostrado no
caso em que α = 0.5 e β = 1.5.
99
A inuência do parâmetro α sobre os dois EMV estudados é também um fato conclu-
sivo no estudo da probabilidade de abrangência dos parâmetros do modelo, pois como se
observa na seção 4.3, para as amostras pequenas na simulação realizada foi notável o fato
da inadequação de comportamento de ambos os estimadores ao que se refere o estudo das
probabilidades de abrangência empíricas dos parâmetros do modelo proposto.
0 < α < 1 as estimativas do IC

Além disso, conclui-se que para as amostras geradas com
para Pα são subestimados enquanto que nos casos em que α > 1 são superestimadas, como é
mostrado na tabela 5.1 a seguir. Esta é outra evidência para a característica de forma deste
parâmetro.
E mais, na seção 3.4.2, observou-se também uma inuência signicativa do parâmetro α

sobre a forma da função de risco, o que em concordância com a inuência exercida sobre os
IC's nos resultados da seção 4.3 permite concluir que α contempla um parâmetro de forma
para a distribuição Inversa de Chen.
Estes resultados, sobretudo, permitiram concluir que à medida que o tamanho amostral
aumenta, mais próximo os valores de α̂ e β̂ cam dos verdadeiros valores de α e β, res-
pectivamente, e do mesmo modo a probabilidade de abrangência se aproxima do nível de
conança pré estabelecido.
Estas conclusões abrem as portas para a abordagem bayesiana e justicam a aplicação
da inferência bayesiana proposta, uma vez que seus conceitos permitem a avaliação dos parâ-
metros do modelo proposto através de amostras de tamanho pequeno, justamente os pontos
de irregularidade obtidos neste trabalho como se resume na tabela 5.1 a seguir.
Com isso surge a proposta de analisar a probabilidade de abrangência através da abor-
dagem bayesiana e comparar seu desempenho, isto é, confrontar os resultados para a proba-
bilidade de abrangência dos casos considerados nos contextos clássico e bayesiano.
Os resultados em que Pα e Pβ não foram aceitos são apresentados na tabela a seguir.
Tabela 5.1: Resultados insatisfatórios para a probabilidade de abrangência dos parâmetros α e β .
Caso nθ Pα̂ ICPα̂ ;95% EQMα Vα

10 0.9080 (0.8827; 0.9333) 0.0221 0.1145
α = 0.3 e β = 0.9 α
20 0.9420 (0.8894; 0.9386) 0.0870 0.0751
10 0.9760 (0.9626; 0.9894) 1.6870 0.6904
α 20 0.9700 (0.9550; 0.9850) 0.2854 0.3650
α = 1.5 e β = 0.5
50 0.9720 (0.9575; 0.9865) 0.0646 0.1951
β 10 0.9840 (0.9730; 0.9950) 0.0438 0.1481
10 0.9840 (0.9730; 0.9950) 3.1790 0.7944
α 20 0.9780 (0.9651; 0.9909) 0.2874 0.3783
α = 1.5 e β = 2.0 50 0.9740 (0.9601; 0.9879) 0.0632 0.1912
10 0.9780 (0.9651; 0.9909) 0.9411 0.6821
β
20 0.9720 (0.9575; 0.9865) 0.2673 0.3822
Fonte: Autoria Prórpia (2017).
100
REFERÊNCIA BIBLIOGRÁFICA
1. BOLFARINE, H; SANDOVAL M. C.. Introdução à Inferência Estatística. 2th
Edição. Rio de Janeiro: SBM, 2010. 159 páginas.
2. CÉSAR, K. A.. Análise Estatística de Sobrevivência: Um Estudo Com Pacientes Com
Câncer de Mama. Repositório da Universidade Católica de Brasília. Brasília. 12

f. Monograa (Graduação) − Universidade Católica de Brasília, Brasília. Disponível
em: < http://repositorio.ucb.br/jspui/handle/10869/1713 > 08 de Dezembro de 2016.
3. CHEN, Z..New Two-Parameter Lifetime Distributions With Bathtub Shape

Or Increasing Failure Rate Function . Statistics and Probability Letters, Ams-
terdã, v. 49, p. 155-161, 2000.
4. COLOSIMO, E. A.; GIOLO, S.R.. Análise de Sobrevivência Aplicada. 1th Edição.

São Paulo: Edgard Blucher, 2006. 392 páginas.
5. FIGUEIREDO, D. G.. Análise I. 2th Edição. Rio de Janeiro: LTC, 1996. 256 páginas.
6. KHAN, M. J. S.; SHARMA, A.. Generalized Order Statistics From Chen Distribution
and Its Characterization. Journal of Statistics Applications & Probability, India,
v. 1, p. 6, 2016.
7. LIMA, E. L.. Análise Real: Funções de Uma Variável. 12th Edição. Rio de Ja-
neiro: SBM, 2014. 198 páginas.
8. MEYER, P. L.. Probabilidade: Aplicações à Estatística. 2th Edição. Rio de Ja-

neiro: LTC, 1983. 426 páginas.
9. MOOD A. M.; GRAYBILL F. A.; BOES D. C.. Introductio To The Theory of

Statistics. 3th Edição. Nova Iorque: McGraw-Hill, 1974. 577 páginas.
10. SARHAN, A. M.; HAMILTON D. C.; SMITH, C.. Parameter Estimation for a Two-
Parameter Bathtub-Shaped Lifetime Distribution. Elsevier: Applied Mathematical
Modelling , Canada, v. 36, p. 13, 2012.
101
11. SRIVASTAVA, P. K.; SRIVASTAVA R. S.. Two Parameter Inverse Chen Distribu-
tion as Survival Model. International Journal of Statistika and Mathematika ,
Gorakhpur, v. 11, p. 12 − 16, 2014.
12. STRAPASSON, E.. Comparação de Modelos Com Censura Intervalar em

Análise de Sobrevivência. 2007. Tese (Doutorado em Estatística e Experimentação
Agronômica) - Escola Superior de Agricultura Luiz de Queiroz, Universidade de São
Paulo, Piracicaba, 2007. doi:10.11606/T.11.2007.tde-21052007-153717. 08 de Dezem-
bro de 2016.
13. WICKLIN, R.. Simulating Data with SAS. 1th Edição. Carolina do Norte: SAS
Institute Inc., 2013. 362 páginas.
14. WUTTKE, R. A.; SELLITTO, M. A.. Cálculo da Disponibilidade e da Posição na
Curva da Banheira de Uma Válvula de Processo Petroquímico. Revista Produção

Online. Vol.8 n.4 Dez. 2008 Disponível em: < http://producaoonline.org.br/index.php
/rpo/article/viewFile/134/218 > 08 de Dezembro de 2016.
102
APÊNDICE
Apêndice A: Demonstração do EsKM

Seja L[S(t)] = L[S(t); t1 , t2 , t3 , ..., tk ] a função de verossimilhança de S(t) para as variá-
veis aleatórias T1 , T2 , T3 , ..., TK . Se ŜEKM (ti ) é o valor da estimativa de S(t) que maximiza
logl[S(t)], então S(t) é o EMV de S(t). Nesta condição, segue pela expressão 2.61 que:
SEKM (t) = [S(ti−1 ) − S(ti )]di [S(ti )]ci ⇒

k
Y
⇒ [SEKM (t)] = l[SEKM (t); t1 , t2 , t3 , ..., tk ] = [S(ti−1 ) − S(ti )]di [S(ti )]ci
i=1,ti <t
Como S(t) é uma função discreta com probabilidade maior que 0 (zero) somente nos
tempos de falha ti , i = 1, 2, 3, ..., k, tomemos π = 1 − q, de modo que pela equação teremos:
i
Y i
Y
S(t) = (1 − qj ) = πi
j=1 j=1
e segue em L[SEKM (t)] que:
k
Y
L[SEKM (t)] = [S(ti−1 ) − S(ti )]di [S(ti )]ci =
i=1,ti <t
103
k i−1 i
!di i
!c i
Y Y Y Y
= πj − πj πj =
i=1,ti <t j=1 j=1 j=1
k i−1 i−1
!di i−1
!c i
Y Y Y Y
= πj − πj π j π j πj =
i=1,ti <t j=1 j=1 j=1
k i−1
!di i−1
!ci
Y Y di
Y
= (1 − πj )
πj πj πjci =
i=1,ti <t j=1 j=1
" k # k i−1
!di +ci 
Y Y Y
= (1 − πj )di πjci  πj 
i=1,ti <t i=1,ti <t j=1
Observe que, de acordo com a denição de di e ci , temos que n i = d i + ci para as
ni observações e assumindo que n → +∞, tem-se
dj
qj = →0
nj
de modo que:
k i−1
!di +ci k
" i−1 #ni k
" i−1 #ni
Y Y Y Y Y Y dj
πj = (1 − qj ) = (1 − ) =
i=1,ti <t j=1 i=1,ti <t j=1 i=1,ti <t j=1
nj
k
" i−1 #ni
Y Y
= (1) =1
i=1,ti <t j=1
Daí, se ni = di + ci =⇒ ci = ni − di , e tomando φi = (1 − πj )di πjni −di , segue em
l[SEKM (t)] que:
" k
# k i−1
!di +ci 
Y Y Y
L[SEKM (t)] = (1 − πj )di πjci  πj =
"i=1,tk i <t #i=1,ti <t j=1
Y
= (1 − πj )di πjni −di (1) =
i=1,ti <t
Y k k
Y
di
= (1 − πj ) πjni −di = φi
i=1,ti <t i=1
104
k
Y
Logo, L[SEKM (t)] = φi e observe agora que, considerando a função φ de L[SEKM (t)],
i=1
teremos por ela que:
log(φi ) = log[(1 − πj )di πjni −di ] = di log(1 − πj ) + (ni − di )log(πj )
e consequentemente
∂ ∂ ni − di di
log(φi ) = di log(1 − πj ) + (ni − di )log(πj ) = −
∂πj ∂πj πj 1 − πj
∂
Como o πj = π̂j máximo é solução para equação log(φi ) = 0, segue ainda que:
∂πj
∂ ni − di di
log(π̂j ) = 0 =⇒ − = 0 =⇒ (1 − π̂j )(ni − di ) − π̂j di = 0 =⇒
∂ π̂j π̂j 1 − π̂j
ni − di di
=⇒ π̂j di + π̂j (ni − di ) = ni − di =⇒ π̂j = =1−
ni ni
di
Logo, se π̂j = 1 − é o ponto que maximiza a função φ, consequentemente, dada a
ni
k
Y
função de verossimilhança l[SEKM (t)] = φi , teremos que:
i=1
" k
# k
Y Y di
log[SEKM (t)] = log φi =⇒ ŜEKM (t) = 1−
i=1 i=1
ni
k
di Y di
ou seja, se π̂j = 1− maximiza a função de verossimilhança φ, então ŜEKM (t) = 1−
ni i=1
ni
minimiza a função de verossimilhança de SEKM (t).
Apêndice B: Estratégia da Avaliação Proposta

Existe uma vasta produção cientíca abordando o conceito de convergência de funções,
e um caso particular considera os casos de funções denidas em < e com restrições em seu
intervalo de denição.
Tais restrições, comumente um ponto especíco de descontinuidade ou um intervalo in-
105
nito, implica diretamente na integração desta função, as conhecidas integrais indenidas,
como no caso da g(z) obtida em 3.20 e que além de tudo é não elementar. Deste modo,
temos que a g(z) obtida é uma função não elementar com integral indenida.
Surge assim, da análise matemática, técnicas de avaliação da integral de funções des-
contínuas ou não-limitadas em um intervalo e que descarta a necessidade de calcular ex-
plicitamente a integral indenida, favorecendo também uma avaliação para um integrando
transcendente, permitindo inferir sobre a convergência ou divergência de uma integral em
estudo.
Com isso, em relação a divergência, uma alternativa para avaliar g(z) consiste em consi-
derar 0 < ∆(z) ≤ g(z) no caso em que g(z) ∈ (0; +∞), isto é, obter uma função comparativa
∆(z) que seja aplicada aos casos 1 e 2 apresentados em 3.21 e 3.22, necessariamente cons-
truída de modo que ∆(z) ∈ (0; +∞) e que satisfaça o seguinte resultado
Z+∞ Z1 Z+∞ Z1 Z+∞ Z+∞

g(z)dz = g(z)dz + g(z)dz ≥ ∆(z)dz + ∆(z)dz = ∆(z)dz −→ +∞
0 0 1 0 1 0
onde é necessário e suciente que pelo menos um dos três casos a seguir ocorram:
Z1 Z+∞
∆(y)dy −→ +∞ e ∆(y)dy −→ L (5.1)
0 1
ou
Z1 Z+∞
∆(y)dy −→ L e ∆(y)dy −→ +∞ (5.2)
0 1
ou
Z1 Z+∞
∆(y)dy −→ +∞ e ∆(y)dy −→ +∞ (5.3)
0 1
isto é,∆(z) é restringido para antiderivadas diferentes mas permanece o mesmo integrando
em (0; +∞), de modo a se obter a divergência em pelo menos um dos intervalos de restrição
para mostrar um resultado.
Para isso, toma-se o critério da comparação de integrais para se constatar a divergência.
Porém, a diculdade desta alternativa é obter um integrando ∆(z) ≤ g(z) estritamente em
(0; +∞) e que satisfaça aos pressupostos do critério de comparação.
Do mesmo modo esta estratégia se aplica para mostrar a convergência de g(z), para isso
106
Z
basta que a função ∆(z) seja construída de tal modo que ∆(z)dz −→ L e
Z+∞ Z1 Z+∞ Z1 Z+∞ Z+∞

g(z)dz = g(z)dz + g(z)dz ≤ ∆(z)dz + ∆(z)dz = ∆(z)dz −→ L (5.4)
0 0 1 0 1 0
ou seja, as condições 5.1 e 5.2 resumem-se em 5.3, onde em vez de se obter −→ +∞ nas
restrições, verica-se −→ L. Z
Contudo, supondo que o interesse seja vericar a divergência de g(z), como g(z)dz é
denido, exclusivamente, para (0; +∞), a prioridade é encontrar uma função

Z ∆(z), em cada
um dos casos, que considere o intervalo de integração z ∈ (0; +∞) em g(z)dz e satisfa-
zendo pelo menos uma das condições 5.1, 5.2 e 5.3 descritas.
Fixando agora o interesse em vericar a convergência de g(z), outra alternativa, de sorte

na possibilidade de restringir ∆(z) em intervalos e em decorrência do parâmetro α, consiste
em aplicar o critério da comparação de integrais para os dois casos particulares apresentados.
O intuito também é realizar uma comparação das integrais através da obtenção da função
∆(z), mas aqui restringida em intervalos para∆1 (z) e ∆2 (z), de modo que o descrito em
5.4 seja atendido com g(z) ≤ ∆1 (z) e g(z) ≤ ∆2 (z), respectivamente quando g(z) ∈ (0; 1] e
z z
g(z) ∈ [1; +∞), no caso 1 para α ≤ e no caso 2 para α ≥ .
exp(z) exp(z)
Logo, o objetivo principal em avaliar g(z) é obter a convergência nos 2 casos para consta-
r
tar que existem z , α e λ tais que g(z) é convergente, para consequentemente E(Y ) também
o ser para todo y , r , α e β .
Vale ressaltar que a segunda estratégia, no caso da busca de divergência, para as con-
dições 5.1 e 5.2, não somente obtendo a divergência de um dos intervalos de restrição, é
necessário porém avaliar a segunda de modo a vericar que este apresente convergência para
um L ou também diverge, obviamente, para a mesma direção que o caso anterior.
Essa medida é necessária pois existe a possibilidade de se construir as funções ∆(z)

convergentes ou divergentes para −∞, e a segunda situação gera a indeterminação do tipo
+∞ − ∞, por isso é necessário xar que em uma das duas restrições postas se verique
−→ L.
Assim, ainda na segunda estratégia, para simplicar a avaliação de E(Y r ) é requerido que
∆(z) seja denido em dois intervalos distintos, de modo a se restringir ∆1 (z) em g(z) ∈ (0; 1]
e ∆2 (z) em g(z) ∈ [1; +∞), isto é, denir para os casos i = 1; 2 que:
(
∆1 (z), para 0 < z ≤ 1;
∆(z) =
∆2 (z), para z ≥ 1;
107
Portanto, uma vez constatado que ∆(z) é convergente de acordo com 5.4, ou divergente
segundo 5.1, 5.2 ou 5.3, o critério da comparação de integrais garante que para todo z, α e
r
λ, g(z) também o é, e através dele E(Y ) também e a caracterização pode ser denida.
Como segue, será avaliado cada um dos casos 3.21 seguindo então as imposições para α
como apresentado em 3.22. Estes casos resumem-se nas seguintes avaliações:
z
Avaliação 1: quando α≥ e z − Λ(z) ≤ 0 < exp[z − Λ(z)] ≤ 1;
exp(z) (5.5)
z
Avaliação 2: quando α≤ e z − Λ(z) ≥ 0 e 1 ≤ exp[z − Λ(z)];
exp(z)
Vale ressaltar que embora xa-se as avaliações em que 0 < exp[z − Λ(z)] ≤ 1 e 1 ≤
exp[z − Λ(z)], ambas serão desenvolvidas para g(z) ∈ (0; +∞) e ∆(z) ∈ (0; +∞), tais que
z ∈ (0; +∞).
Apêndice C: Funções Comparativas Para as Avaliações

A Função Racional Particular Como Função Comparativa na Avaliação 1
1
Toda função do tipo , z diferente de zero, é um caso particular de uma função
com
zλ ∗
racional positiva cujo domínio é z ∈ <+ com parâmetro λ ∈ <.
Mais especicamente, xemos λ > 0 e tal que λ ∈ (0; +∞). Seja também g : (0; 1] 7−→
<∗+ , então, segundo Lima (1989), pela técnica de integral imprópria para limitantes descon-
tínuos, teremos que:

Z1 Z1  +∞, se λ ≥ 1,
1 −λ
dz = lim+ z dz = 1 (5.6)
zλ →0  , se λ < 1
0 1−λ
λ ∈ (0; 1) ∪ (1; +∞).

De fato! O resultado é trivial para
1−λ
1−z + 1−λ
Basta obter a primitiva , que diverge quando z −→ 0 e λ > 1, pois z −→
1−λ
1 + 1−λ
+∞, e converge para o ponto quando z −→ 0 e λ < 1, pois z −→ 0.
1−λ
1 1
No caso em que λ = 1, basta considerar que a primitiva de é ln(z) e ln(z)| = −ln(z)|1 .
z
Além disso, Figueiredo (1973) pontua que quando z ∈ (1; +∞), uma função racional
particular se comporta de forma oposta a quando z ∈ (0; 1], pois é convergente se λ > 1 e
divergente se λ ≤ 1.
∗
Então, seja também g : (1; +∞] 7−→ <+ , para λ > 0 xado e tal que λ ∈ (0; +∞), isto
108
é, pelos mesmos motivos de 5.6, porém pela técnica de integral imprópria para limitantes
innitos, temos que:
1

Z∞ Zk
1 −λ
 , se λ > 1,
dz = lim z dz = 1−λ (5.7)
zλ k→∞  +∞, se λ ≤ 1
1 1
1
Contudo, de 5.6 e 5.7, sobre a função abordada, tomando ∆(z) = , é evidente que
zλ
Z+∞ Z1 Z+∞ Z1 Z+∞ Z+∞

1 1 1
∆(z)dz = ∆(z)dz + ∆(z)dz = λ
dz + λ
dz = dz −→ +∞ (5.8)
z z zλ
0 0 1 0 1 0
para todo z e λ em <∗+ . Z

Note que, xado λ = 1 ∆(z)dz −→ +∞ nas duas partições de
verica-se que
Z
z ∈ (0; +∞). Que quando λ > 1, temos de 5.6 que ∆(z)dz −→ +∞ em z ∈ (0; 1] e
Z Z
1
∆(z)dz −→ em z ∈ (1; +∞] de 5.7. E quando λ < 1, de 5.7 ∆(z)dz −→ +∞ em
Z1 − λ
1
z ∈ (1; +∞] e ∆(z)dz −→ em z ∈ (0; 1] de 5.6.
1−λ Z
O resultado 5.8 mostra que existe um ∆(z) > 0 tal que ∆(z)dz −→ ∞ e denido em
z ∈ (0; +∞) para qualquer λ > 0.
As Funções Exponenciais Como Funções Comparativas na Avaliação 2
Veremos, oportunamente, que a função racional particular denida anteriormente é de
extrema importância para avaliarmos g(z) no caso em que seu numerador é maior que 1, ou
seja, estritamente na condição em que 1 ≤ exp[z − Λ(z)].
Fazendo π(z) = 1, veremos que é trivial obter 0 < ∆(z) ≤ g(z) observando que
π(z)
∆(z) = λ ≤ g(z) em decorrência de π(z) ≤ exp[z − Λ(z)]. No entanto, posteriormente
z
será necessário avaliar g(z) quando 0 < exp[z − Λ(z)] ≤ 1, e a diculdade será obter para
π(z)
∆(z) um π(z) tal que ∆(z) = λ e 0 < ∆(z) ≤ g(z).
z
A condição mais trivial para o estudo da integral em questão é a em que se pode conside-
rar funções maiores que exp[z − Λ(z)] e obtê-las de modo que seja convergente, e nenhuma
c
é melhor do que as próprias funções exponenciais, tais como exp(cz n ) e exp( ), respecti-
zn
vamente, e maiores que exp[z − Λ(z)].
109

1
Seja então c = n = 1 e tais que π1 (z) = exp(z) e π2 (z) = exp . Observa-se que π1 (z)
z
e π2 (z) são funções da mesma família que exp[z − Λ(z)] e tais que:
1◦ ) Quando 0 < z ≤ 1: exp[z − Λ(z)] ≤ π1 (z) ⇔ exp[z − Λ(z)] ≤ exp(z) ⇔ z − Λ(z) ≤ z

1 1
2◦ ) Quando z ≥ 1: exp[z − Λ(z)] ≤ π2 (z) ⇔ exp[z − Λ(z)] ≤ exp ⇔ z − Λ(z) ≤
z z
◦ ◦
onde z − Λ(z) ≤ 0 e z > 0, ou seja, as desigualdades do 1 e 2 itens são verdadeiras.
πi (z)
Nestas condições, tomando ∆i (z) = λ , resulta que:
z

π (z) exp(z)
 ∆1 (z) = 1
 = , para i = 1 e 0 < z ≤ 1;
z λ zλ 1
∆(z) = (5.9)
 ∆2 (z) = π2 (z) = exp z , para i = 2 e z ≥ 1;

zλ zλ
+∞ n
X z
Então, assumindo a expansão de Taylor de exp(z), isto é, exp(z) = , resulta que:
n=0
n!
exp(z)
i = 1) Para 0<z≤1 e ∆1 (z) = :
zλ
Z1 Z1 Z1 +∞ +∞ 1 +∞ 1
1 X zn
Z n Z
exp(z) X 1 z X 1
∆1 (z)dz = dz = dz = dz = z n−λ dz =
zλ z λ n=0 n! n=0
n! z λ
n=0
n!
0 0 0 0 0
+∞ Z 1
+∞ n−λ+1 1 X +∞ +∞
X 1 n−λ
X 1 z 1 X
= z dy = = = an
n=0
n! n=0
n! n − λ + 1 0 n=0 (n − λ + 1)n! n=0
0
1
E mais, dada a série resultante onde n ∈ ℵ, xando que cn = 2 e sabendo esta ser
n
convergente, pois é uma série-p com expoente p = 2 > 1, temos que
1 1 1 1 1
≤ 2 ⇔ 2 λ 1
≤ 2 ⇔ λ
≤1 (5.10)
(n − λ + 1)n! n n (1 − n
+ n )(n − 1)! n (1 − n
+ n1 )(n − 1)!
Então, pelo teorema 1 (critério de comparação de séries numéricas) apresentado por
110
Lima (1989), se an ≤ c n e cn é convergente, então an também converge.
Assim
Z1 +∞
X 1
∆1 (z)dz = −→ L1 (5.11)
n=0
(n − λ + 1)n!
0
Logo a integral de ∆1 (z) para 0<z≤1 é convergente.
exp( z1 )
i = 2) Para z≥1 e ∆2 (z) = :
zλ
1 1 1
Seja agora a mudança de variável v= tal que z= ⇒ dz = − 2 dv , então
z v v
Z+∞ Z+∞ Z0 Z1
exp( z1 )

exp(v) 1 exp(v)
∆2 (z)dz = λ
dz = 1 − 2 dv = dv =
z vλ
v v 2−λ
1 1 1 0
+∞ Z1 +∞ n+λ−1
1 +∞ +∞
X 1 n+λ−2
X 1 v X 1 X
= v dv = = = bn
n=0
n! n=0
n! n + λ − 1 0 n=0
(n + λ − 1)n! n=0
0
1
E pelo mesmo motivo anterior, sendo bn ≤ c n = , resulta que
n2
Z+∞ +∞
X 1
∆2 (z)dy = −→ L2 (5.12)
n=0
(n + λ − 1)n!
1
Logo a integral de ∆2 (z) para z≥1 também é convergente.
Portanto, de 5.11 e 5.12, segue para a função comparativa ∆(z) que:
Z+∞ Z1 Z∞
∆(z)dz = ∆1 dz + ∆2 dz −→ L1 + L2 = L (5.13)
0 0 1
Z
O resultado 5.13 mostra que existe um ∆(z) > 0 tal que ∆(z)dz −→ L e denido
em z ∈ (0; +∞] para qualquer λ > 0, ou seja, um integrando convergente da mesma família
de g(z).
111
Apêndice D: Grácos Para as Estimativas

Grácos da Análise do Modelo Y ∼ Chen−1 (0.3; 0.9)
Figura 5.1: Linha de referência e histograma das estimativas clássicas para α = 0.3.
112
Figura 5.2: Linha de referência e histograma das estimativas bayesianas para α = 0.3.
113
Figura 5.3: Linha de referência e histograma das estimativas clássicas para β = 0.9.
114
Figura 5.4: Linha de referência e histograma das estimativas bayesianas para β = 0.9.
115
116
117
118
119
120
121
122
123
124
125
126
127

Uma Abordagem Bayesiana para A Distribuição Inversa de Chen Com Aplicações A Dados Completos e Censurados

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Uma Abordagem Bayesiana para A Distribuição Inversa de Chen Com Aplicações A Dados Completos e Censurados

Enviado por

Direitos autorais:

Formatos disponíveis

Paulo Roberto de Lima Gianfelice

UMA ABORDAGEM BAYESIANA PARA A

Revisado pelo Orientador

Prof. Dr. Sérgio Minoru Oikawa

UMA ABORDAGEM BAYESIANA PARA A

Relatório Final do Trabalho de Con-

Paulo Roberto de Lima Gianfelice

Orientador: Sérgio Minoru Oikawa

UMA ABORDAGEM BAYESIANA PARA A

Relatório nal do Trabalho de Conclusão submetido e aprovado como

Orientador: Prof. Dr. Ségio Minoru Oikawa.

e realizar um feito como este, em um lugar desse... duas vezes seguidas.

Em especial agradeço ao João, primo-amigo-irmão, e a minha tia Cris. O primeiro por

incentivos me tornaram uma pessoa capaz de superar qualquer coisa.

À todos os meus professores, em particular à Gilcilene Sanchez De Paulo e Manoel

e o segundo por acreditar na minha capacidade, me dar liberdade na construção de meus

trabalhos acadêmicos, lê-los e principalmente conar em minhas propostas.

Aos professoesr Moala e Sérgio que contribuíram signicativamente para a confecção

deste trabalho e, principalmente, à professora Marta, pois suas aulas de Probabilidade e

interesse nesta carreira.

trabalho, em particular aos colegas que adquiri no Pós-MAC. Em ordem cronológica, ao

e ainda são excelentes acadêmicos, sobretudo, pessoas!

E o olhar que ante a agnomínia não desmaia,

Luta! E é forçoso que ao lutar não caia,

Pois se cair o esmagarão na queda.

O desenvolvimento do presente trabalho divide-se em seis capítulos. O primeiro e o se-

gundo desempenham um papel de descrição das áreas do conhecimento e denições básicas,

ambos relevantes para a compreensão do texto estabelecendo os objetivos e a metodologia

computacional apresenta os resultados pertinentes à caracterização inferencial através dos

dos intervalos de conança e credibilidade. O quinto capítulo apresenta uma aplicação ao

Palavras-Chave: Caracterização de Distribuição de Probabilidade, Inferência Estatística Clás-

sica, Simulação Estatística, Probabilidade de Cobertura.

2.1.1 Dados de Sobrevivência . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1.2 Função de Sobrevivência . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.1.3 Tempo de Falha . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1.4 Função Taxa de Falha . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.1.5 Função Taxa de Falha Acumulada . . . . . . . . . . . . . . . . . . . . 11

2.1.6 Função Ciclo de Vida e Função Unimodal . . . . . . . . . . . . . . . 12

2.2 Componentes da Inferência Bayesiana . . . . . . . . . . . . . . . . . . . . . . 18

2.2.1 O Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.2.2 O Conceito de Informação a Priori . . . . . . . . . . . . . . . . . . . 20

2.2.3 Distribuições à Priori Não Informativas . . . . . . . . . . . . . . . . . 21

2.2.4 Distribuições a Priori Impróprias . . . . . . . . . . . . . . . . . . . . 22

2.2.5 O Intervalo de Credibilidade . . . . . . . . . . . . . . . . . . . . . . . 23

2.3 O Modelo Inverso de Chen Com Dois Parâmetros . . . . . . . . . . . . . . . 25

2.3.1 Os Modelos Probabilísticos . . . . . . . . . . . . . . . . . . . . . . . . 25

2.3.2 A Distribuição de Probabilidade Proposta . . . . . . . . . . . . . . . 26

2.4 Técnicas Paramétricas de Estimação . . . . . . . . . . . . . . . . . . . . . . 27

2.4.1 O Estimador de Máxima Verossimilhança . . . . . . . . . . . . . . . . 27

2.4.2 O Método dos Momentos . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.4.3 A Função Escore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.4.4 A Medida de Informação de Fisher . . . . . . . . . . . . . . . . . . . 31

2.4.5 Limite Inferior e Desigualdade da Informação . . . . . . . . . . . . . 32

2.4.6 O Intervalo de Conança Assintótico . . . . . . . . . . . . . . . . . . 33

2.5 Técnicas Não Paramétricas de Estimação . . . . . . . . . . . . . . . . . . . . 35

2.5.2 O Teste Não Paramétrico de Kolmogorov-Smirnov . . . . . . . . . . . 39

2.5.3 Análise Gráca do Tempo Total Em Teste (TTT-Plot) . . . . . . . . 41

2.5.4 Métodos de Simulação Monte Carlo . . . . . . . . . . . . . . . . . . . 43

2.6 A Abordagem Computacional Para o Estudo . . . . . . . . . . . . . . . . . . 48

2.6.1 Softwares Considerados . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3 PROPRIEDADES DA DISTRIBUIÇÃO PROPOSTA 49

3.1.1 Origem e Denições Básicas . . . . . . . . . . . . . . . . . . . . . . . 49

3.2 A Distribuição Biparamétrica Inversa de Chen . . . . . . . . . . . . . . . . . 51

Relatório nal do Trabalho de Conclusão submetido e aprovado como

trabalhos acadêmicos, lê-los e principalmente conar em minhas propostas.

Aos professoesr Moala e Sérgio que contribuíram signicativamente para a confecção

gundo desempenham um papel de descrição das áreas do conhecimento e denições básicas,

dos intervalos de conança e credibilidade. O quinto capítulo apresenta uma aplicação ao

2.4.6 O Intervalo de Conança Assintótico . . . . . . . . . . . . . . . . . . 33

2.5.3 Análise Gráca do Tempo Total Em Teste (TTT-Plot) . . . . . . . . 41

3.1.1 Origem e Denições Básicas . . . . . . . . . . . . . . . . . . . . . . . 49

3.2.1 Denições Básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.3.2 Os Intervalos de Conança Para os Parâmetros . . . . . . . . . . . . 63

4.2.1 O Intervalo de Conança Clássico . . . . . . . . . . . . . . . . . . . . 74

Identicadas como ramos da Estatística que analisam a variável resposta de um determi-

nado evento de interesse, a Análise de Sobrevivência e a Teoria de Conabilidade consistem

bem denido e o ponto principal do estudo.

O mesmo se pode armar sobre Teoria de Conabilidade, onde máquinas, componentes,

De modo geral, a Análise de Sobrevivência e a Teoria de Conabilidade visam estudar

Comumente, no caso da Teoria de Conabilidade, o evento de interesse é a falha ou a re-

Conabilidade consistem, respectivamente, em estudar, por exemplo:

• o tempo de falha de equipamentos industriais (teoria de conabilidade);

Tanto em Análise de Sobrevivência como em Teoria de Conabilidade, a variável res-

vivência, ou dados de conabilidade no caso da Teoria de Conabilidade, mas, estas duas

de Análise de Sobrevivência e Teoria de Conabilidade encontra-se uma exaustiva relação de

sua justicativa e relevância teórica a cerca do tema considerado.

buição. O objetivo principal desta etapa é vericar a convergência da esperança do r-ésimo