Escolar Documentos
Profissional Documentos
Cultura Documentos
2008
MARCELINO ALVES ROSA DE PASCOA
Orientador
Prof. Dr. Mário Javier Ferrua Vivanco
LAVRAS
MINAS GERAIS-BRASIL
2008
Ficha Catalográfica Preparada pela Divisão de Processos Técnicos da
Biblioteca Central da UFLA
LAVRAS
MINAS GERAIS - BRASIL
Aos meus pais, Sebastião e Lucieni,
pela educação que me deram,
carinho, apoio.
AGRADECIMENTOS
LISTA DE TABELAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i
LISTA DE FIGURAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii
RESUMO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iv
ABSTRACT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2 REFERENCIAL TEÓRICO . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1 O Modelo Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Distribuição Truncada . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3 Censura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.4 Especificação do tempo de falha . . . . . . . . . . . . . . . . . . . . . 6
2.4.1 Função de sobrevivência . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4.2 Função de taxa de falha ou de risco . . . . . . . . . . . . . . . . . . 8
2.5 Modelo de riscos proporcionais de Cox . . . . . . . . . . . . . . . . . 9
2.5.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5.2 O modelo de Cox . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.3 Método de máxima verossimilhança parcial . . . . . . . . . . . . . . 11
2.5.4 Estimação de parâmetros . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5.5 Razão de riscos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.5.6 Teste da razão de verossimilhanças . . . . . . . . . . . . . . . . . . . 13
2.6 Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.7 Inferência bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.7.1 Distribuições a priori . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.7.2 Função de verossimilhança . . . . . . . . . . . . . . . . . . . . . . . 17
2.7.3 Distribuição a posteriori . . . . . . . . . . . . . . . . . . . . . . . . 18
2.7.4 Intervalo de credibilidade . . . . . . . . . . . . . . . . . . . . . . . . 18
2.8 Métodos de Monte Carlo baseado em cadeias de Markov (MCMC) . . . 18
2.8.1 Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.8.2 Avaliação da convergência dos métodos de Monte Carlo via cadeias
de Markov (MCMC) . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3 MATERIAL E MÉTODOS . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1 Material . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2 Métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.1 Função de verossimilhança . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.2 Distribuições a priori . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2.3 Distribuições conjuntas a posteriori . . . . . . . . . . . . . . . . . . 29
3.2.4 Distribuições condicionais completas a posteriori . . . . . . . . . . . 30
3.2.5 Algoritmo MCMC . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4 RESULTADOS E DISCUSSÃO . . . . . . . . . . . . . . . . . . . . . . 33
4.1 Análise dos dados de dependência química. . . . . . . . . . . . . . . . 33
4.2 Análise dos dados de aleitamento materno . . . . . . . . . . . . . . . . 42
5 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6 ESTUDOS FUTUROS . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
REFERÊNCIAS BIBLIOGRÁFICAS . . . . . . . . . . . . . . . . . . . . 53
ANEXOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
LISTA DE TABELAS
i
4.11 Intervalos de credibilidade 95% para as razões de risco (RRj ). . . 48
ii
LISTA DE FIGURAS
iii
RESUMO
O objetivo deste trabalho foi propor uma alternativa de solução ao problema rela-
cionado à interpretação da estimativa intervalar da razão de riscos do modelo de
Cox, cuja interpretação fica ambígua quando o intervalo de confiança abrange a
unidade, pois valores acima de 1 indicam sobre-risco e valores abaixo de 1 in-
dicam proteção. Para alcançar tal objetivo, foram utilizados o método bootstrap,
a inferência bayesiana e o algoritmo MCMC para a estimação dos intervalos de
credibilidade, para o parâmetro βj , relacionados a cada covariável selecionada
pelo modelo de Cox. Respectivamente, por meio do método bootstrap, obtiveram-
se novas estimativas do parâmetro dos coeficientes do modelo de regressão de
Cox, βj , j = 1, ..., p relacionadas a cada covariável selecionada pelo modelo de
Cox. A inferência bayesiana foi empregada considerando-se as estimativas pontu-
ais bootstrap, de modo que a escolha da priori adequada se deu em função dessas
estimavas. A função de verossimilhança adotada seguiu o modelo normal. A pri-
ori utilizada foi a normal truncada. Utilizou-se tal priori devido à necessidade de
que os βs assumam valores exclusivamente positivos ou estritamente negativos,
dependendo da estimativa pontual bootstrap obtida. Desse modo, para resolver o
problema da ambigüidade dos intervalos de confiança, construíram-se os intervalos
de credibilidade, baseando-se no algoritmo Metropolis-Hastings. Concluiu-se que
a aplicação da metodologia proposta neste trabalho obteve resultados satisfatórios,
de forma que, no intervalo de credibilidade construído, obteveram-se valores que
indicavam apenas sobre-risco ou valores que indicavam apenas proteção. Foram
utilizados dados reais referentes a dependentes químicos e tempo de aleitamento
materno. Concluiu-se também que os comprimentos dos intervalos de confiança e
de credibilidade não têm qualquer diferença expressiva, quanto à sua amplitude.
*
Orientador: Prof. Dr. Mário Javier Ferrua Vivanco - UFLA.
iv
ABSTRACT
PASCOA, Marcelino Alves Rosa de. Credibility Intervals for the risk ratio of
the Cox model, considering point bootstrap estimates. 2008. 71 p. Dissertation
(Master in Statistics and Agricultural Research) - Federal University of Lavras,
Lavras, MG.*
The objective of this study was to propose an alternative solution to the problem
of interpreting the interval estimation of the risk ratio of the model Cox, whose
interpretation is misleading when the confidence interval covers the unit, because
values over 1 indicate over-risk and values below 1 indicate protection. To achieve
this goal the bootstrap method has been used, associated with Bayesian inference
and the MCMC algorithm for estimating credibility intervals for the βj parameter,
related to each covariate selected by the Cox model. Respectively, through the
bootstrap method we computed new estimates of the parameter of the coefficients
of the Cox regression model, βj , j = 1, ..., p related to each covariate selected by
the Cox model. Bayesian inference was used with the point bootstrap estimates,
so that the choice of a suitable priori was base on such estimates. The adopted
likelihood function followed the normal model. It was used a truncated normal as
priori. The reason for using such priori is due to the need of the βs to assume
exclusively positive or negative values, depending on the point bootstrap estimate
obtained. Thus, to solve the ambiguity problem of the confidence intervals, cred-
ibility intervals were built based on the Metropolis-Hastings algorithm. Results
of proposed methodology were satisfactory, yielding credibility intervals indicat-
ing either over-risk or protection. Drug addict and breastfeeding time data were
used at the practical example. In addition, it was detected that the lengths of the
confidence and credibility intervals did not strongly differ.
*
Adviser: Prof. Dr. Mário Javier Ferrua Vivanco - UFLA.
v
1 INTRODUÇÃO
1
& Giolo, 2006). Os intervalos de confiança para os parâmetros β são construídos
da seguinte maneira [βb − 1.96 e.p.(β);
b βb + 1.96 e.p.(β)],
b em que e.p. é o erro-
2
2 REFERENCIAL TEÓRICO
Nesta seção, serão apresentados alguns conceitos que serão úteis para atingir
o objetivo proposto neste trabalho.
Esse modelo foi proposto, por volta de 1733, pelo matemático françês Abra-
ham De Moivre. Ele, às vezes, é chamado de Gauss ou de De Moivre. Sua
definição é dada a seguir:
1 (x−µ)2
f (x|µ, σ 2 ) = √ e− 2σ2 , −∞ < x < ∞, (2.1)
2πσ
sendo µ e σ 2 (µ <, σ 2 <+ ) parâmetros do modelo que representam, respecti-
vamente, a média e a variância.
µ = E(X) ou σ 2 = V ar(X)
3
2.2 Distribuição Truncada
fX (x)I(a,b) (x)
fT runcada (x) = . (2.2)
FX (b) − FX (a)
2.3 Censura
4
anos, se, ao término dos dez anos, o paciente não morreu, diremos que o evento
(morte) não aconteceu. Portanto, o dado registrado para esse paciente será um
dado censurado.
De acordo com Colossimo & Giolo (2006), mesmo sendo incompletas, as ob-
servações censuradas fornecem informações sobre o tempo de vida de pacientes
e a omissão de censuras no cálculo das estatísticas de interesse pode acarretar em
conclusões viciadas.
Segundo Lawless (1982), existem três tipos de censuras mais utilizadas. São
elas:
5
FIGURA 2.2: Representação gráfica de censura à esquerda, em que • representa a
falha e ◦ a censura.
6
2.4.1 Função de sobrevivência
Z t
F (t) = P (T ≤ t) = f (x)dx,
−∞
S(t) = P (T ≥ t) (2.3)
2. é contínua no tempo;
7
2.4.2 Função de taxa de falha ou de risco
A taxa de falha no intervalo [t, t + ∆t) é definida como o risco de que a falha
ocorra neste intervalo, dado que não ocorreu antes de t, dividida pelo comprimento
do intervalo. Dessa forma, a taxa de falha no intervalo [t, t + ∆t) é expressa por:
8
Matematicamente, a definição de risco pode ser expressa pela fórmula:
P (t ≤ T < t + ∆t | T ≥ t)
λ(t) = lim (2.4)
∆t→0 ∆t
f (t) f (t)
λ(t) = = . (2.5)
1 − F ((t) S(t)
Z t
Λ(t) = λ(x)dx.
0
2.5.1 Introdução
9
2.5.2 O modelo de Cox
0
λ(t) = λ0 (t)g(X β), (2.6)
em que g é uma função não negativa que deve ser especificada, tal que g(0) = 1,
β é o vetor de parâmetros regressores associado com as covariáveis e X é o vetor
0
de covariáveis, X = (x1 , ..., xp ) . Este modelo é composto pelo produto de dois
componentes de naturezas distintas, um não-paramétrico e outro paramétrico, o
que o torna bastante flexível.
Um exemplo da flexibilidade deste modelo é envolver alguns modelos co-
nhecidos como casos particulares, tal como o modelo de regressão weibull (Kalbflei-
sch & Prentice, 1980). O componente não-paramétrico λ0 (t) não é especificado
e é uma função não negativa do tempo. Ele é usualmente chamado de função de
0
base ou basal. A parte paramétrica do modelo, g(X β), assume, geralmente, a
0
forma exp(X β) (Cox, 1972).
O modelo de regressão de Cox é caracterizado pelos coeficientes βs que me-
dem os efeitos das covariáveis sobre a função taxa de falha. Dessa maneira, é
necessário um método de estimação para se fazer inferências no modelo. O método
de máxima verossimilhança usual, bastante conhecido e freqüentemente usado
(Cox & Hinkley, 1974), não pode ser utilizado aqui, pois a presença do compo-
10
nente não paramétrico λ0 (t) na função de verossimilhança o torna inapropriado.
Frente a tal dificuldade, Cox (1975) propôs o método de máxima verossimilhança
parcial, que condiciona a verossimilhança à história dos tempos de sobrevivência
e censuras anteriores e, dessa forma, elimina a função base desconhecida λ0 (t).
Nos intervalos de tempo em que nenhuma falha ocorre, não existe nenhuma
informação sobre o vetor de parâmetros β, pois λ0 (t) pode, teoricamente, ser iden-
ticamente igual a zero em tais intervalos. Uma vez que é necessário um método
de análise válido para todas λ0 (t) possíveis, a consideração de uma distribuição
condicional é necessária.
Considere que, em uma amostra de n indivíduos, existam k ≤ n falhas dis-
tintas nos tempos t1 < t2 < ... < tk . A probabilidade condicional da i-ésima
observação vir a falhar no tempo ti , conhecendo quais observações estão sob risco
em ti , é:
0 0
λi (t|Xi ) λ0 (t)exp(Xi β) exp(Xi β)
P =P 0 =P 0 ,
j∈R(ti ) λj (t|Xj )) j∈R(ti ) λ0 (t)exp(Xj β) j∈R(ti ) exp(Xj β)
(2.7)
em que R(ti ) é o conjunto dos índices dos indivíduos sob risco no tempo ti .
Pode-se verificar que, ao utilizar a probabilidade condicional, o componente não-
paramétrico λ0 (t) desaparece da equação (2.7).
A função de verossimilhança parcial L(β) é obtida fazendo o produto dessas
11
probabilidades condicionais, associadas aos distintos tempos de falha, ou seja,
k 0 k 0
!δi
Y exp(Xi β) Y exp(Xi β)
L(β) = P 0 = P 0 , (2.8)
i=1 j∈R(ti ) exp(Xj β) i=1 j∈R(ti ) exp(Xj β)
n
" P 0 #
j∈R(ti ) xj exp(Xj β)
X b
U (β) = δi xi − P 0
(2.9)
j∈R(ti ) exp(Xj β)
b
i=1
12
2.5.5 Razão de riscos
Risco (grupo 0)
RR = .
Risco (grupo 1)
A expressão nos dá um valor, por exemplo, 2. Neste caso, temos que: Risco
(grupo 0) = 2 Risco (grupo 1). Ou seja, o risco para o grupo 0 é duas vez maior
que o risco para o grupo 1.
A relação existente entre a razão de riscos e os parâmetros do modelo de Cox
se dá por meio da seguinte expressão:
RR = exp(β),
13
maximizada sem restrição e sob H0 , ou seja, a comparação de logL(β)
b e logL(βb0 ).
2.6 Bootstrap
14
(Lavoranti, 2003).
A técnica consiste em se retirar uma amostra de tamanho n da população
e reamostrá-la com reposição, obtendo-se uma nova amostra de tamanho n da
amostra original. Cada uma das amostras obtidas pelas reamostragens é uma
amostra bootstrap. Esse procedimento é executado milhares de vezes, obtendo-se,
assim, as estimativas dos parâmetros que serão usadas para gerar a distribuição de-
nominada distribuição bootstrap. Esta distribuição é uma estimativa da verdadeira
densidade populacional.
O número de reamostras bootstrap sugerido na literatura parece crescer com
o avanço computacional, seja para hardware e ou software. Efron & Tibshirani
(1993) comentam que B = ∞ é o número ideal de reamostras bootstrap. Natu-
ralmente, na prática, B deve ser um número finito restrito ao poder computacional
disponível.
15
vações e, em adição, uma distribuição a priori, dada por π(θ), para os parâmetros
(Carlin & Louis, 1996). Parâmetros desconhecidos são considerados aleatórios e
todas as conclusões estão baseadas na distribuição condicional dos parâmetros em
relação aos dados observados, a distribuição a posteriori, expressa por π(θ|Y ).
Todo processo de inferência bayesiana tem como base o Teorema de Bayes, que é
apresentado a seguir:
Para θ contínuo,
L(θ|Y )π(θ)
π(θ|Y ) = R , (2.10)
∀θ L(θ|Y )π(θ)dθ
L(θ|Y )π(θ)
π(θ|Y ) = P , (2.11)
∀θ L(θ|Y )π(θ)
sendo Y = {y1 , y2 , ..., yn }. O denominador, tanto para (2.10) quanto para (2.11),
não depende de θ logo, temos:
16
subjetiva do investigador (ou estatístico), causando assim uma controvérsia perti-
nente de pesquisador para pesquisador.
Quando, em determinado estudo, o pesquisador tem alguma informação prévia
sobre o que se está estudando, ou seja, ele tem conhecimento sobre o parâmetro θ,
ele pode usar uma priori informativa. Se há pouca ou nenhuma informação para
incorporar a priori, considera-se uma distribuição não-informativa, por exemplo, a
priori de Jeffreys (Jeffreys, 1961). Uma família de distribuições a priori é conju-
gada se as distribuições a posteriori pertencem à mesma família de distribuições.
n
Y
L(θ|Y ) = f (yi |θ).
i=1
17
2.7.3 Distribuição a posteriori
Z
π(θ|Y )dθ = γ,
R
18
Os métodos computacionais de Monte Carlo via Cadeias de Markov têm sido
largamente usados na estatística bayesiana, possibilitando simular amostras de
uma determinada densidade a posteriori π(θ|Y ), cuja geração direta é difícil ou
complicada.
A idéia básica do método é construir uma cadeia de Markov com distribuição
de equilíbrio igual à de interesse; nessa cadeia, cada estado pode ser atingido a
partir de qualquer outro com um número finito de iterações. Após um número
suficientemente grande de iterações, a cadeia converge para uma distribuição de
equilíbrio, dando origem à amostra da distribuição de interesse, que pode ser usada
para fazer inferências.
Existem vários métodos para a construção da cadeia de Markov. Dentre eles,
os mais utilizados são o método de Metropolis-Hastings e o amostrador de Gibbs.
Gamerman (1997) apresenta uma descrição detalhada dos métodos de simulação
baseados nos métodos de Monte Carlo via Cadeias de Markov.
2.8.1 Metropolis-Hastings
19
3. calcular a probabilidade de aceitação α(θ1 , θc ) e gerar u ∼ U (0, 1);
(t+1)
4. se u ≤ α, então, aceitar o novo valor e fazer θ1 = θc . Caso contrário,
(t+1)
rejeitar e fazer θ1 = θt ;
20
O método de Geweke (1992) propõe o diagnóstico de convergência para cadeias
de Markov, baseado no teste de igualdade de médias da primeira e última parte da
cadeia de Markov, geralmente dos primeiros 10% e dos últimos 50%. Ele se baseia
em técnicas de análise espectral.
O critério de Gelman & Rubin (1992) pressupõe que m cadeias tenham sido
geradas em paralelo. Este analisa as variâncias dentro e entre as cadeias e utiliza
esta informação para estimar o fator pelo qual o parâmetro escalar da distribuição
marginal a posteriori deveria ser reduzido se a cadeia fosse repetida infinitas vezes.
p
Este fator é expresso pelo valor R b (fator de redução de escala potencial ou fator
p
de diagnóstico da convergência) e sugere que valores de R b próximos a 1 indicam
21
A verificação informal da convergência utilizando técnicas gráficas é também
um procedimento bastante útil. Segundo Gelman et al. (2000), os gráficos mais
freqüentes nesta análise são o gráfico de θ ao longo das iterações e um gráfico da
estimativa da distribuição a posteriori de θ, por exemplo, um histograma. Pro-
blemas podem ser verificados com estas técnicas, pois a utilização de gráficos
como única ferramenta pode não ser adequada. A escala dos gráficos pode fornecer
uma falsa impressão de igualdade.
Nogueira (2004), após realizar um intenso estudo de avaliação dos critérios de
convergência, concluiu que, para uma avaliação precisa da convergência, deve-se
seguir o seguinte procedimento:
22
3 MATERIAL E MÉTODOS
3.1 Material
Para a realização deste trabalho foram avaliados dois conjuntos de dados dis-
tintos.
O primeiro conjunto de dados foi fornecido pela Associação Mãe Admirável,
situada na cidade de Caratinga, MG. Foram avaliados 141 residentes, dependentes
químicos, no período de 2000 a 2005. A variável resposta foi o tempo de per-
manência na comunidade até a desistência do tratamento, considerando que cada
residente permanece na Comunidade por um período máximo de 270 dias, sem
qualquer contato com as drogas e quem alcança esta meta foi considerado, neste
trabalho, como um dado censurado. De cada paciente foram obtidas as infor-
mações dispostas na Tabela 3.1.
O segundo conjunto de dados utilizado neste trabalho foi retirado do livro de
Colosimo & Giolo (2006), que apresenta um estudo realizado pelos professores
Eugênio Goulart e Cláudia Lindgren, do Departamento de Pediatria da Univer-
sidade Federal de Minas Gerais, no Centro de saúde São Marcos, em Belo Ho-
rizonte, MG. O estudo foi realizado com os objetivos principais de conhecer a
prática do aleitamento materno de mães que utilizam este centro, assim como os
possíveis fatores de risco ou de proteção para o desmame precoce. Um inquérito
epidemiológico composto por questões demográficas e comportamentais foi apli-
cado a 150 mães de crianças menores de 2 anos de idade. A variável resposta de
interesse foi estabelecida como sendo o tempo máximo de aleitamento materno, ou
seja, o tempo contado a partir do nascimento até o desmame completo da criança.
23
TABELA 3.1: Descrição das covariáveis usadas no estudo de dependência
química.
Dados Legenda Situação
Tempo de tratamento (em dias) tempo
Censura cens 0 (censurado) ou 1 (falha)
Problemática P 0 (álcool ou outro TD) ou
1 (álcool e outro TD)
Estado civil do residente EC 0 (solteiro) ou
1 (casado/separado)
Se tem filhos F 0 (não) ou 1 (sim)
Estado civil dos pais do residente EP 0 (casados) ou 1 (separados)
Fonte de renda própria FR 0 (não) ou 1 (sim)
Nível de escolaridade ES 0 (nenhuma ou FI) ou
1 (FC a superior)
Idade (em anos) I 1 ≥ 30 anos e
0 < 30 anos
Diversidade de drogas DD 0 (uma) ou 1 (mais de uma)
Caso de droga/álcool na família CF 0 (não) ou 1 (sim)
Tratamento anterior TA 0 (não) ou 1 (sim)
Problemas com a justiça PJ 0 (não) ou 1 (sim)
Tempo de uso (em anos) TU 1 ≥ 15 anos e
0 < 15 anos
Sendo: TD = tipo de droga; FI = ensino fundamental incompleto; FC = ensino fundamental completo e Superior
= ensino superior completo ou não. Os dados correspondentes a este estudo encontram-se no anexo A deste
trabalho.
24
TABELA 3.2: Descrição das covariáveis usadas no estudo sobre aleitamento
materno em Belo Horizonte (Colosimo & Giolo, 2006).
Dados Legenda Situação
Tempo até o desmame (meses) tempo
Censura cens 0 (censurado) ou 1 (falha)
Experiência anterior amamentação V1 0 se sim e 1 se não
Número de filhos vivos V2 0 se > 2 e 1 se < 2
Conceito materno sobre o tempo V3 0 se > 6 meses e
ideal de amamentação 1 se 6 6 meses
Dificuldades para amamentar V4 0 se não e 1 se sim
nos primeiros dias pós-parto
Tipo de serviço em que realizou V5 0 se público e
o pré-natal 1 se privado/convênios
Recebeu exclusivamente leite V6 0 se sim e 1 se não
materno na maternidade
A criança teve contato com o pai V7 0 se sim e 1 se não
Renda per capita (em SM/mês) V8 0 se > 1 SM e
1 se < 1 SM
Peso ao nascimento V9 0 se > 2, 5Kg e
1 se < 2, 5Kg
Tempo de separação mãe-filho V10 0 se 6 6 horas e
pós-parto 1 se > 6 horas
Permanência no berçário V11 0 se não e 1 se sim
3.2 Métodos
25
a importância clínica deve ser considerada em cada passo de inclusão ou exclusão
no processo de seleção de covariáveis. Os passos utilizados no processo de seleção
são apresentados a seguir.
26
a função de taxa de falha acumulada Λ0 (t), proposta por Breslow (1972), que é
expressa por:
X dj
Λ
b 0 (t) =
P n
0
o,
j:tj <t lRj exp Yl β
b
27
dos ter como elementos as estimativas de máxima verossimilhança dos coeficientes
β. Tais estimativas foram obtidas a partir das amostras bootstrap da amostra de
dados original. Como demonstram Bolfarine & Sandoval (2001), os estimadores
de máxima verossimilhança são assintoticamente normais. Desta forma a função
de verossimilhança para o modelo normal, dado em (2.1), é expressa por:
n
n ( )
2 1 1 X
Lj (βj , σ |Yj ) = √ exp − 2 (yij − βj )2 . (3.1)
2πσ 2 2σ
i=1
Neste estudo, optou-se por utilizar a normal truncada como priori, pois a nor-
mal é uma distribuição que assume valores no intervalo de (−∞, ∞) e, devido à
relação existente entre a RRj e o respectivo coeficiente βj , detalhada na Seção
0 0
(2.5.5), foi necessário obter intervalos para os βs acima de zero e para βs abaixo
de zero (não nulos). Por isso, decidiu-se truncar a distribuição normal para βj > 0
e para βj < 0. Essa densidade foi truncada de acordo com a expressão (2.2).
28
• Priori normal truncada para βj < 0.
b 2
βj − µ
exp − 12 b
σ
π(βj ) ∝ I(−∞,0) (βj ), (3.3)
1 − Φ − σµbb
√ 1
b2
2π σ
em que,
0
µ
b é a média estimada dos βs pelo método bootstrap;
0
b2 é a variância estimada dos βs pelo método bootstrap;
σ
Φ(.) é a função de distribuição acumulada da normal padrão .
µ b2 foram utilizados diretamente como hiperparâmetros devido ao desco-
beσ
nhecimento total deles. Assim, acreditou-se que seria melhor usar esses hiper-
parâmetros no lugar de buscar uma aproximação aleatória para eles.
n
( )
1 X
×exp − 2 (yij − βj )2 . (3.4)
2σ
i=1
29
• Posteriori conjunta para o caso em que βj < 0.
b 2
βj − µ
exp − 12 b
σ n
2
π(βj , σ |Yj ) ∝ I(−∞,0) (βj )(σ 2 2π)− 2
− σµbb
√ 1 1−Φ
b2
2π σ
n
( )
1 X
×exp − 2 (yij − βj )2 . (3.5)
2σ
i=1
" n
# 2−n
X 2
2
× (yij − βj ) . (3.6)
i=1
30
• Posteriori condicional completa para βj < 0.
( 2 )
1 βj − µ
π(βj |σ 2 , Yj ) ∝ exp −
b
I(−∞,0) (βj )
2 σ
b
" n
# 2−n
X 2
2
× (yij − βj ) . (3.7)
i=1
√
π(σ 2 |βj , Yj ) ∝ σ2. (3.8)
31
A verificação final da convergência foi feita segundo o procedimento de No-
gueira (2004), mediante o pacote BOA (Bayesian Output Analysis) do software
R (R Development Core Team, 2007). Verificada a convergência, construiu-se o
0
intervalo de credibilidade (HPD), para os βs , para cada covariável selecionada no
modelo. Após isso, o intervalo de credibilidade para a razão de riscos foi obtido
0
exponenciando-se os limites (limite inferior e superior para os βs ), considerando a
relação:
RRj = exp(βj ),
em que,
RRj é a razão de riscos associada à covariável “j”, sendo j: 1, ..., p-covariáveis;
βj é o coeficiene associado à covariável “j”.
32
4 RESULTADOS E DISCUSSÃO
33
Passos Modelo −2logL(θ) Estatística de Valor p
teste (TRV)
Passo 3 ES+I+TU 866, 580 - -
ES+I+TU+P 866, 292 0, 288 0, 591
ES+I+TU+EC 865, 870 0, 702 0, 402
ES+I+TU+F 866, 468 0, 112 0, 738
ES+I+TU+EP 866, 500 0, 080 0, 777
ES+I+TU+FR 866, 087 0, 493 0, 483
ES+I+TU+CF 866, 391 0, 189 0, 664
ES+I+TU+TA 865, 858 0, 722 0, 395
ES+I+TU+PJ 866, 554 0, 262 0, 609
Modelo Final ES+I+TU+EC 865, 870
34
FIGURA 4.1: Log(Λ
b 0j (t)) versus tempo para as covariáveis ES, EC, I e TU.
35
TABELA 4.2: Estimativas do ajuste do modelo de Cox para os dados de dependên-
cia química e correspondentes razões de risco (RRj ).
Covariável Estimativa Erro padrão RRj IC95% (RRj )
ES 0, 581 0, 213 1, 788 (1, 177; 2, 720)
I −0, 533 0, 218 0, 587 (0, 383; 0, 900)
TU 0, 281 0, 210 1, 324 (0, 877; 2, 000)
EC −0, 183 0, 216 0, 833 (0, 545; 1, 270)
Seção 3.2.
Em primeiro lugar, aplicou-se o método bootstrap, descrito na Seção 2.6, para
se obter novas estimativas do parâmetro βj relacionadas a cada covariável sele-
cionado pelo modelo de Cox. Foram utilizadas B = 10.000 reamostragens boot-
strap para cada covariável selecionada. Dessa forma, cada covariável será com-
0
posta por uma amostra de 10.000 βbs estimados pelo método bootstrap. Na Tabela
4.3 encontram-se a média (b σ 2 ) das amostragens bootstrap rela-
µ) e a variância (b
cionadas a cada covariável mensurada no estudo.
Considerou-se o valor de µ
b como estimativa pontual dos respectivos coefi-
cientes βj , correspondentes a cada covariável.
Em segundo lugar, aplicou-se a metodologia bayesiana para a construção de
intervalos de credibilidade para o vetor de parâmetros βj . Como descrito na Seção
3.2.5, a priori escolhida foi a normal truncada à direita, dada pela expressão (3.2),
para as covariáveis ES e TU, devido ao fato de a estimativa pontual bootstrap,
36
no caso, a média, ser maior do que zero. Para as covariáveis I e EC, a priori es-
colhida foi a normal truncada à esquerda, dada pela expressão (3.3), pelo fato de
a estimativa pontual bootstrap, no caso a média, ser menor do que zero. Con-
seqüentemente, as inferências foram baseadas em amostras obtidas por meio das
distribuição condicional completa a posteriori, dada pelas expressões (3.6) e (3.7),
usando algoritmo MCMC.
Para se avaliar a convergência da seqüencia que foi gerada pelo algoritmo
MCMC, foi utilizado, na definição do número de iterações necessário à convergên-
cia, assim como na determinação dos valores de burn-in e thin, o procedimento
recomendado por Nogueira (2004), já descrito na Seção 2.8.2. De acordo com
este procedimento, tem-se que o teste de Raftery & Lewis sugeriu um processo
com 50.000 iterações. Para assegurar a independência da amostra, considerou-se
um espaçamento, entre os pontos amostrados, de tamanho 10 (thin). O teste de
Heidelberger & Welch recomendou que fossem descartadas as 5.000 interações
iniciais (burn-in), ou seja, obteve-se uma amostra final, para cada parâmetro, de
tamanho 4.500.
Para a avaliação da convergência das cadeias geradas dos parâmetros, tam-
bém foi utilizada a inspeção da visualização gráfica do traço. Na Tabela 4.4 são
apresentados os resultados dos testes de diagnóstico para os procedimentos de
Geweke (1992) e de Gelman & Rubin (1992), para cada covariável selecionada
pelo modelo de Cox.
37
Os testes de diagnóstico mostraram que, em todos os casos, a cadeia convergiu
e apresenta características de uma cadeia estacionária. Sendo assim, pelo critério
de Geweke (1992), não houve nenhum valor que não estivesse entre os limites da
normal padronizada. E, no caso do Gelman & Rubin (1992), este sempre apresen-
p
tou valores de Rb iguais a 1 ou próximos deste valor.
FIGURA 4.2: Cadeia gerada pelo método MCMC e densidade a posteriori para o
parâmetro βj , referente à covariável ES, selecionada pelo modelo.
38
FIGURA 4.3: Cadeia gerada pelo método MCMC e densidade a posteriori para o
parâmetro βj , referente à covariável TU, selecionada pelo modelo.
FIGURA 4.4: Cadeia gerada pelo método MCMC e densidade a posteriori para o
parâmetro βj , referente à covariável I, selecionada pelo modelo.
39
FIGURA 4.5: Cadeia gerada pelo método MCMC e densidade a posteriori para o
parâmetro βj , referente à covariável EC, selecionada pelo modelo.
Nas Figuras de 4.2 a 4.5, observa-se claramente uma rápida convergência dos
parâmetros βj estimados para as covariáveis selecionadas pelo modelo de Cox,
em torno do valor real (média bootstrap). Nota-se que a distribuição a posteriori
é assimétrica, para todas as covariáveis, o que era esperado, devido ao fato de ter
sido utilizada como priori a distribuição normal truncada.
Na Tabela 4.5 são mostradas as estimativas pontuais (médias a posteriori), o
desvio padrão e por intervalo (intervalos de credibilidade (95%)), para o parâmetro
βj , relacionadas a cada covariável em estudo.
40
TABELA 4.5: Estimativas da média (β),
b desvio padrão (DP) e intervalos de cre-
dibilidade 95% (HPD), para o parâmetro βj , referente a cada co-
variável.
Covariável βb DP 2,5% 97,5%
ES 0, 5886 0, 2402 0, 1433 1, 0790
I −0, 5469 0, 2457 −0, 9736 −0, 0311
TU 0, 3561 0, 1916 0, 0044 0, 6970
EC −0, 2929 0, 1836 −0, 6239 −0, 0003
41
Além disso, pode-se dizer, com 95% de probabilidade, que esse risco varia
entre 1,1541 e 2,7704;
Colosimo & Giolo (2006) utilizaram o modelo de Cox para modelar o tempo
máximo de aleitamento materno, em função das covariáveis apresentadas na Tabe-
la 3.2, de acordo com a proposta de Collet (1994). Os autores consideraram um
nível de significância de 0,10.
Após o processo de seleção, o modelo de Cox resultante incluiu as seguintes
covariáveis: experiência anterior de amamentação (V1), conceito materno sobre
tempo ideal de amamentação (V3), dificuldades de amamentação nos primeiros
dias pós-parto (V4) e recebimento exclusivo de leite materno na maternidade (V6).
42
Após se verificar a proporcionalidade dos riscos, Colosimo & Giolo (2006)
obtiveram os resultados apresentados na Tabela 4.7.
Pelos dados da Tabela 4.7, pode-se observar que para a covariável V1, o in-
tervalo de confiança obtido engloba a unidade. Têm-se assim, num mesmo inter-
valo, valores que indicam sobre-risco (acima de 1) e valores que indicam proteção
(abaixo de 1), desse modo causando uma dupla interpretação dos resultados obti-
dos.
Para contornar este problema, implementou-se a metodologia exposta na Seção
3.2.
Em primeiro lugar, aplicou-se o método bootstrap, descrito na Seção 2.6, para
se obter novas estimativas do parâmetro βj relacionada a cada covariável sele-
cionado pelo modelo de Cox. Foram utilizadas B = 10.000 reamostragens boot-
strap para cada covariável selecionada. Na Tabela 4.8 encontram-se a média (b
µ) e
σ 2 ) das amostras bootstrap relacionadas a cada covariável mensurada
a variância (b
no estudo.
Considerou-se o valor de µ
b como estimativa pontual dos respectivos coefi-
cientes βj , correspondentes a cada covariável.
Em segundo lugar, aplicou-se a metodologia bayesiana para a construção de
intervalos de credibilidade para o vetor de parâmetros βj . Como descrito na Seção
3.2.5, a priori escolhida foi a normal truncada à direita, dada pela expressão (3.2),
43
TABELA 4.8: Estimativas da média (b σ 2 ) das amostras bootstrap
µ) e variância (b
relacionadas a cada covariável mensurada no estudo.
Covariável µb b2
σ
V1 0, 4654 0, 0792
V3 0, 6185 0, 0737
V4 0, 7094 0, 0844
V6 0, 6160 0, 0805
devido ao fato de a estimativa pontual bootstrap, no caso a média, ser maior do que
zero para todas as covariáveis analisadas. Conseqüentemente, as inferências foram
baseadas em amostras obtidas por meio da distribuição condicional completa a
posteriori, dada pela expressão (3.6), usando o algoritmo MCMC.
Para se avaliar a convergência da seqüência que foi gerada pelo algoritmo
MCMC, foi utilizado, para se definir o número de iterações necessárias à con-
vergência, assim como na determinação dos valores de burn-in e thin, o pro-
cedimento recomendado por Nogueira (2004), já descrito na Seção 2.8.2. De
acordo com esse procedimento, tem-se que o teste de Raftery & Lewis sugeriu
um processo com 50.000 iterações, sendo que, para assegurar a independência da
amostra, considerou-se um espaçamento, entre os pontos amostrados, de tamanho
10 (thin). O teste de Heidelberger & Welch recomendou que fossem descartadas
as 5.000 interações iniciais (burn-in), ou seja, obteve-se uma amostra final, para o
parâmetro βj , de tamanho 4.500.
Para a avaliação da convergência das cadeias geradas dos parâmetros, tam-
bém foi utilizada a inspeção da visualização gráfica do traço. Na Tabela 4.9 são
apresentados os resultados dos testes de diagnóstico para os procedimentos de
Geweke (1992) e de Gelman & Rubin (1992), para cada covariável selecionada
pelo modelo de Cox.
Os testes de diagnóstico mostraram que, em todos os casos, a cadeia convergiu
44
TABELA 4.9: Testes de diagnóstico para o parâmetro βj referente às covariáveis
selecionadas.
Covariável Geweke Gelman & Rubin
V1 0,011 1,01
V3 -1,380 1,00
V4 -0,717 1,00
V6 0,002 0,98
FIGURA 4.6: Cadeia gerada pelo método MCMC e densidade a posteriori para o
parâmetro βj , referente à covariável V1, selecionada pelo modelo.
45
FIGURA 4.7: Cadeia gerada pelo método MCMC e densidade a posteriori para o
parâmetro βj , referente à covariável V3, selecionada pelo modelo.
FIGURA 4.8: Cadeia gerada pelo método MCMC e densidade a posteriori para o
parâmetro βj , referente à covariável V4, selecionada pelo modelo.
46
FIGURA 4.9: Cadeia gerada pelo método MCMC e densidade a posteriori para o
parâmetro βj , referente à covariável V6, selecionada pelo modelo.
Nas Figuras 4.6 a 4.9, observa-se claramente uma rápida convergência dos
parâmetros βj estimados para as covariáveis selecionadas pelo modelo de Cox,
em torno do valor real (média bootstrap). Nota-se que a distribuição a posteriori é
assimétrica, para a covariável V1 e simétrica para as demais covariáveis em estudo.
Na Tabela 4.10 são mostradas as estimativas pontuais (médias a posteriori), o
desvio padrão e por intervalo (intervalos de credibilidade (95%)), para o parâmetro
βj , relacionada a cada covariável em estudo.
47
Os limites dos intervalos de credibilidade dos βj , apresentados na Tabela 4.10,
foram utilizados para se obter o correspondente intervalo de credibilidade para as
razões de risco, (RRj ). Para isso, bastou utilizar a relação existente entre as RRj
e os coeficientes βj (Seção 2.5.5), ou seja, RRj = exp(βj ). Esta relação foi
0
aplicada em cada um dos limites do intervalo obtido para os βs referente a cada
covariável. Os intervalos de credibilidade para as RRj podem ser observados na
Tabela 4.11.
48
dizer, com 95% de probabilidade, que esse risco varia entre 1,1307 e 3,1034;
49
5 CONCLUSÃO
50
menor que 1.
Ao comparar os comprimentos dos intervalos de confiança e de credibilidade,
percebe-se que os mesmos não têm qualquer diferença expressiva quanto à ampli-
tude.
51
6 ESTUDOS FUTUROS
52
REFERÊNCIAS BIBLIOGRÁFICAS
CARLIN, B. P.; LOUIS, T. A. Bayes and empirical Bayes methods for data
analysis. London: Chapman and Hall, 1996. 399 p.
53
1974. 511 p.
COX, D. R. Regression models and life tables (with discussion). Journal Royal
Statistical Society B, London: Imperial College, v. 34, n. 8, p. 187-220, March
1972.
GELMAN, A.; CARLIN, J. B.; STER, H. S.; RUBIN, D. B. Bayesian data analy-
sis. Boca Raton: Chapman & Hall/CRC, 2000. 526 p.
54
York: Marcel Dekker Incorporation, 1991. 197 p.
LAWLESS, J. F. Statisticals models and methods for lifetime data. New York:
John Wiley and Sons, 1982. 580 p.
55
H.; TELLER, E. Equation of state calculations by fast computing machine. Jour-
nal of Chemical Phisics, Chicago, v. 21, n. 6, p. 1089-1091, June 1953.
RAFTERY, A. L.; LEWIS, S. How many iterations in the Gibbs sampler? In:
BERNARDO, J. M. et al. (Ed.). Bayesian statistics. Oxford: University, 1992. p.
763-774.
56
ANEXOS
57
ANEXO A: Dados utilizados no estudo sobre dependência química.
P EC F EP FR ES I QD CF TA PJ TU tempos cens
0 0 0 0 1 1 1 0 1 0 0 1 7 1
0 1 1 0 0 1 1 0 1 1 1 0 25 1
0 1 1 0 0 1 1 0 1 1 0 1 48 1
0 0 1 0 0 1 1 0 1 0 0 1 55 1
1 0 0 1 0 0 0 1 1 0 0 0 76 1
1 1 1 0 1 0 0 1 1 1 0 0 102 1
0 0 1 0 0 1 0 1 1 0 1 1 40 1
0 0 0 0 1 0 1 0 1 1 0 1 54 1
1 0 1 1 0 0 0 1 1 0 1 0 45 1
1 0 1 0 0 1 0 1 1 1 1 0 183 1
0 0 0 0 0 0 0 0 1 0 0 0 13 1
0 1 1 0 0 1 0 0 0 1 0 0 11 1
0 0 0 0 0 0 0 0 0 0 0 1 3 1
0 0 1 0 1 1 1 0 1 0 0 1 15 1
0 1 1 1 1 1 1 0 0 0 0 0 148 1
0 1 1 0 1 0 1 0 1 0 0 0 80 1
1 0 1 0 0 0 0 1 1 0 0 0 34 1
0 1 1 0 0 0 1 0 1 0 1 0 57 1
0 0 0 0 0 0 1 1 1 0 0 1 81 1
0 0 0 0 0 0 1 0 1 1 0 1 30 1
0 0 1 0 0 0 0 0 1 0 0 1 22 1
0 0 0 0 1 0 1 0 0 0 0 1 42 1
0 0 0 0 1 0 1 0 0 0 1 1 6 1
cont...
58
P EC F EP FR ES I QD CF TA PJ TU tempos cens
0 0 1 0 1 1 1 0 1 0 0 1 7 1
0 1 1 0 0 1 1 0 0 1 0 1 144 1
0 1 0 1 0 0 1 0 0 0 0 1 109 1
0 0 1 0 0 0 0 0 0 0 0 1 26 1
0 0 1 0 0 0 0 0 1 1 0 0 87 1
0 0 1 0 1 1 0 0 1 1 0 1 34 1
1 1 1 0 1 0 0 1 1 1 1 0 106 1
0 0 0 1 0 0 0 0 0 0 1 1 172 1
0 1 1 1 0 0 1 0 1 1 1 1 32 1
0 0 1 0 0 0 0 0 1 1 1 0 5 1
0 0 0 0 0 1 0 1 1 1 0 0 3 1
1 1 1 0 0 1 0 1 1 1 1 1 27 1
0 1 1 0 0 0 1 1 1 1 0 1 11 1
0 1 1 0 0 1 1 0 0 0 1 0 246 1
1 0 0 0 0 0 1 1 1 1 0 1 10 1
0 0 0 0 0 0 1 0 1 0 1 0 223 1
0 1 1 1 0 1 1 0 1 0 0 1 57 1
0 0 0 0 0 0 1 0 0 0 0 0 193 1
0 0 1 1 0 0 1 0 1 0 0 1 100 1
0 0 1 1 0 1 0 0 0 0 1 1 10 1
0 0 1 0 1 1 0 0 0 0 1 0 4 1
0 0 0 0 1 1 0 0 0 0 0 1 4 1
1 1 1 0 1 0 1 1 0 1 1 1 25 1
0 0 0 1 0 0 0 0 0 0 1 1 13 1
cont...
59
P EC F EP FR ES I QD CF TA PJ TU tempos cens
0 1 0 0 0 1 1 0 1 0 0 0 37 1
0 0 1 0 0 0 0 0 0 1 1 0 92 1
0 0 0 0 0 0 1 0 1 0 0 1 11 1
0 1 1 0 1 0 1 0 1 0 0 1 84 1
0 1 0 0 0 0 1 0 1 0 0 1 9 1
1 1 1 0 0 0 1 1 1 1 0 1 180 1
0 0 0 0 0 1 1 1 1 0 1 0 63 1
0 1 1 1 0 0 1 0 1 0 0 1 240 1
0 0 1 0 0 0 1 0 0 0 0 1 63 1
0 1 1 0 0 0 1 0 1 0 0 1 5 1
1 0 0 1 0 0 1 1 1 0 0 1 219 1
0 1 1 0 1 1 1 0 1 0 1 0 148 1
0 1 0 0 0 1 0 0 1 0 0 0 29 1
0 1 1 0 0 0 1 0 1 0 0 0 66 1
0 1 1 0 0 0 1 0 1 0 1 1 83 1
0 1 1 0 1 1 1 0 1 0 0 1 38 1
0 0 0 0 1 1 1 0 1 1 0 1 8 1
0 0 1 1 1 0 1 0 1 0 1 0 11 1
0 0 1 0 0 0 0 1 0 1 1 0 159 1
0 0 0 0 0 1 1 0 1 1 0 1 167 1
0 0 0 0 0 0 1 0 1 0 1 1 91 1
1 0 0 0 0 1 0 1 0 1 1 1 16 1
1 0 0 0 0 0 0 1 1 1 1 1 61 1
0 1 1 0 0 0 1 0 1 0 0 1 131 1
cont...
60
P EC F EP FR ES I QD CF TA PJ TU tempos cens
0 0 0 0 0 0 1 0 0 0 0 1 101 1
0 0 0 0 0 0 0 0 1 0 1 1 7 1
1 0 0 1 0 0 1 1 1 0 0 1 47 1
0 0 0 0 1 0 1 1 1 0 1 0 145 1
0 1 1 0 1 0 1 0 0 0 0 0 268 1
1 0 0 0 0 0 0 1 1 0 1 0 21 1
0 1 1 0 0 0 1 0 0 0 0 1 53 1
0 0 1 0 1 1 0 1 1 0 1 1 30 1
1 0 0 0 0 0 1 1 0 0 0 1 78 1
0 0 0 0 0 0 0 1 1 0 1 1 85 1
0 1 1 0 0 0 1 1 1 0 0 1 221 1
1 1 1 0 0 1 1 1 0 0 0 1 75 1
0 1 1 0 0 1 1 0 1 0 0 1 120 1
0 0 1 0 0 0 0 0 0 0 0 0 19 1
1 0 1 1 0 0 0 1 1 0 1 1 82 1
0 0 1 0 0 1 0 1 0 0 0 0 41 1
0 1 1 0 0 1 1 0 1 1 0 0 194 1
0 0 0 0 0 0 0 0 1 0 1 1 100 1
0 1 1 0 0 1 0 0 0 0 1 0 61 1
1 0 0 0 0 0 0 1 0 0 1 0 191 1
0 0 0 1 0 0 0 0 0 0 0 0 10 1
0 1 0 0 1 0 1 0 0 0 0 1 30 1
0 1 1 0 0 0 1 0 1 0 0 1 211 1
0 1 1 0 0 0 1 0 1 0 0 1 69 1
cont...
61
P EC F EP FR ES I QD CF TA PJ TU tempos cens
0 0 1 0 0 0 0 1 1 1 1 0 6 1
0 0 0 0 0 1 0 0 1 0 0 0 29 1
0 1 1 0 0 1 1 0 1 0 0 0 77 1
0 1 1 0 0 0 1 0 1 0 1 1 96 1
0 1 1 0 1 0 1 0 1 0 1 1 270 0
1 0 0 0 1 1 0 1 0 1 1 1 270 0
0 0 0 0 0 0 1 0 1 0 0 0 270 0
0 1 1 0 0 1 1 0 1 0 0 1 270 0
0 0 0 0 0 1 1 0 1 0 1 1 270 0
0 0 1 1 0 0 0 1 0 0 1 0 270 0
0 1 1 0 1 0 0 0 1 0 0 0 270 0
1 0 0 1 0 0 1 1 1 1 0 1 270 0
0 0 0 0 0 0 0 0 0 0 1 0 270 0
0 0 0 0 0 0 1 0 1 1 0 0 270 0
1 1 1 0 0 0 1 1 1 0 0 1 270 0
0 0 0 0 0 1 0 1 1 0 0 1 270 0
0 0 1 0 1 0 1 0 1 0 1 1 270 0
0 0 0 0 0 0 0 1 0 0 1 0 270 0
0 0 0 0 0 0 1 0 1 0 1 0 270 0
0 0 0 0 1 0 1 0 0 0 0 1 270 0
0 0 0 0 1 0 1 0 1 0 0 1 270 0
0 1 1 0 1 0 1 0 1 0 0 1 270 0
0 1 1 0 0 0 1 0 0 0 0 1 270 0
0 1 1 0 0 0 1 0 1 1 0 1 270 0
cont...
62
P EC F EP FR ES I QD CF TA PJ TU tempos cens
0 0 0 0 1 0 1 0 1 0 0 0 270 0
0 1 1 0 0 0 1 0 0 0 0 1 270 0
0 0 1 0 0 0 1 0 1 0 1 1 270 0
0 0 1 0 0 0 0 1 0 0 0 0 270 0
0 1 1 0 0 0 1 0 1 0 0 0 270 0
0 1 1 1 0 0 1 0 1 1 0 0 270 0
0 0 0 0 0 0 1 0 1 1 0 0 270 0
0 1 1 0 0 1 1 0 1 0 0 1 270 0
0 1 1 0 1 1 1 0 1 0 0 1 270 0
0 1 1 0 0 0 1 0 0 0 0 1 270 0
1 0 0 0 0 0 0 1 0 0 1 0 270 0
0 0 0 0 0 0 1 0 0 0 0 0 270 0
1 0 1 1 0 0 1 1 1 0 1 0 270 0
0 1 1 0 1 0 0 0 1 0 0 1 270 0
1 1 1 1 0 0 0 1 1 0 0 1 270 0
0 1 1 0 1 0 1 0 0 0 0 0 270 0
1 0 0 1 0 0 1 1 0 1 0 1 270 0
0 0 1 0 0 0 1 0 1 0 0 0 270 0
0 1 0 0 0 0 0 0 0 0 1 1 270 0
0 1 0 1 0 0 1 0 1 1 1 0 270 0
0 0 0 0 0 1 1 0 1 0 0 0 270 0
0 0 0 0 0 0 1 0 0 1 0 1 270 0
63
ANEXO B: Rotina para a análise dos dados.
dados<-read.table(’’dados.txt’’, head=T)
attach(dados)
# dados
require(survival)
fit<-coxph(Surv(tempos,cens)~EC+ES+I+TU,data=dados,
x=T,method=’’breslow’’)
summary(fit)
fit$loglik
#-----------------------------
#Obtenção da Figura 4.1
par(mfrow=c(2,2))
fit1<-coxph(Surv(tempos[ES==0],cens[ES==0])~1,data=
dados,x=T,method=’’breslow’’)
ss<- survfit(fit1)
s0<-round(ss$surv,digits=5)
H0<- -log(s0)
plot(ss$time,log(H0),xlim=range(c(0,300)),xlab=
’’Tempos’’,ylab=expression(log(Lambda[0]*(t))),
bty=’’n’’,type=’’s’’)
fit2<-coxph(Surv(tempos[ES==1],cens[ES==1])~1,data=
dados,x=T,method=’’breslow’’)
ss<- survfit(fit2)
s0<-round(ss$surv,digits=5)
H0<- -log(s0)
lines(ss$time,log(H0),type=’’s’’,lty=2)
64
legend(200,-3,lty=c(2,1),c(’’ES = 1’’,’’ES =0’’),
lwd=1,bty=’’n’’,cex=0.7)
title(’’ES: Nível de escolaridade’’)
# Obs: Análogo para as demais covariáveis.
#----------------------------
B<-10000
lin<-nrow(dados)
x<-dados
# matriz que guarda os coeficientes
coefi<-matrix(0,B,4)
coefi[1,]<-fit$coef
set.seed(54321)
for(i in 2:B){
# obter a nova amostra
h=as.integer(runif(lin,1,141))
for(j in 1:lin){
hh=h[j]
x[j,]=dados[hh,]
}
# calcular os coeficientes
fit<-coxph(Surv(tempos,cens)~ES+I+TU+EC,data=x,x=T,
method=’’breslow’’)
coefi[i,]<-fit$coef
}
# armazenar os valores de ES, I, TU e EC
ES<-coefi[,1]
65
I<-coefi[,2]
TU<-coefi[,3]
EC<-coefi[,4]
# médias e variâncias dos dados
mean(ES)
mean(I)
mean(TU)
mean(EC)
var(ES)
var(I)
var(TU)
var(EC)
#------------------------------
# iteração
iter <- 50000
# Variáveis
Beta <- c(0,iter)
Sigma <- c(0,iter)
# valor inicial
Beta[1] <- 0.6
Sigma[1] <- 0.06
# taxa de aceitação
txacBeta <- 0
txacSigma <- 0
Media <- 0.5843961
sigmaaux <- 0.06212787
66
# dados
x <- ES
n <- 10000
# truncamento à direita de lim
rnt<- function(n,m,s,lim)
{
res<-qnorm(pnorm(lim,mean=m,sd=s)+runif(n)*(1-pnorm
(lim,mean=m,sd=s)),mean=m,sd=s)
}
# processo iterativo
for (i in 2:iter) {
# Beta
soma <- 0
BetaCand <- rnt(1,Media,sqrt(sigmaaux),0)
cand1 <- log(dnorm(BetaCand,0,10000000000000000000))
cand2 <- log(dnorm(Beta[i-1],0,1000000000000000000))
for (j in 1:n) {
soma <- soma + (x[j]-Beta[i-1])^2
}
cond1 <- -1/2*((Beta[i-1]-Media)/Sigma[i-1])^2+
((2-n)/2)*log(soma)
for (j in 1:n) {
soma <- soma + (x[j]-BetaCand)^
}
cond2 <- -1/2*((BetaCand-Media)/Sigma[i-1])^2+
((2-n)/2)*log(soma)
67
b <- cond1+cand1-cond2-cand2
alfa <- min(exp(b) ,1)
a <- runif(1,0,1)
if (a<=alfa) {
Beta[i] <- BetaCand
txacBeta <- txacBeta + 1
}else {
Beta[i] <- Beta[i-1]
}
# sigma
SigmaCand <- runif(1,0,1)
cand1 <- dunif(SigmaCand,0,1)
cand2 <- dunif(Sigma[i-1],0,1)
cond1 <- sqrt(SigmaCand)
cond2 <- sqrt(Sigma[i-1])
b <- (cond1*cand1)/(cond2*cand2)
alfa <- min(b,1)
# parte da aceitação
a <- runif(1,0,1)
if (a<=alfa) {
Sigma[i] <- SigmaCand
txacSigma <- txacSigma + 1
}else {
Sigma[i] <- Sigma[i-1]
}
}
68
# convergência
# carregar biblioteca do BOA
library(boa)
# Cria a matriz de análise
Conv<-matrix(0,iter,2,dimnames=list(c(1:iter),
c(’’Beta’’,’’Sigma’’)))
Conv[,1] <- Beta
Conv[,2] <- Sigma
# Raftery e Lewis
boa.randl(Conv, 0.025, 0.005, 0.95, 0.001)
# Geweke
boa.geweke(Conv, 0.1, 0.5)
# Heidelberger e Welch
boa.handw(Conv, 0.1, 0.05)
# Gelman e Rubin
# Executado pelo boa.menu() seguir os passos
dessa função
# Função de autocorrelação
boa.acf(Conv,c(1,5,10,20,30,40,50))
#------------------------------
# Tamanho da amostra Final
#------------------------------
# burn= período de aquecimento da cadeia
# thin = salto para independência
burn <- 5000
thin <- 10
69
# tamanho final da amostra
final <- (iter-burn)/thin
aux4 <- burn+1
# Novas variáveis guardam os valores finais
Betaf <- rep(0,final)
Sigmaf <- rep(0,final)
for (i in 1:final) {
Betaf[i] <- Beta[aux4]
Sigmaf[i] <- Sigma[aux4]
aux4 <- aux4+thin
}
# Média e desvio-padrão
cat(mean(Betaf),sd(Betaf),’’\n’’)
cat(mean(Sigmaf),sd(Sigmaf),’’\n’’)
library(boa)
# Intervalo de credibilidade HPD - cada um
boa.hpd(Betaf,0.05)
boa.hpd(Sigmaf,0.05)
#-----------------------------
# Obtenção da FIGURA 4.2
par(mfrow=c(1,2))
plot(Betaf, type=’’l’’,xlab=’’Iterações’’,ylab=
’’Beta (ES)’’)
f1.d <- density(Betaf)
hist(Betaf, prob=T,xlab=’’Beta (ES)’’,
ylab=’’Frequência’’,main=’’’’)
70
lines(f1.d)
par(mfrow=c(1,2))
plot(Betaf, type=’’l’’,xlab=’’Iterações’’,
ylab=’’Beta (ES)’’)
f1.d <- density(Betaf)
hist(Betaf, prob=T,xlab=’’Beta (ES)’’,
ylab=’’Frequência’’,main=’’’’)
lines(f1.d)
#------------------------------
# O procedimento é análogo para as covariáveis TU, I
e EC.
#------------------------------
# Caso a priori for truncada à esquerda de lim usa-se:
rnt <- function(n,m,s,lim)
{
res<-qnorm(pnorm(lim,mean=m,sd=s)*runif(n),mean=m,sd=s)
}
#------------------------------
71