Escolar Documentos
Profissional Documentos
Cultura Documentos
DM
Setembro | 2014
DIMENSES: 45 X 29,7 cm
PAPEL: COUCH MATE 350 GRAMAS
IMPRESSO: 4 CORES (CMYK)
ACABAMENTO: LAMINAO MATE
NOTA*
Caso a lombada tenha um tamanho inferior a 2 cm de largura, o logtipo institucional da UMa ter de rodar 90 ,
para que no perca a sua legibilidade|identidade.
Caso a lombada tenha menos de 1,5 cm at 0,7 cm de largura o laoyut da mesma passa a ser aquele que consta
no lado direito da folha.
DISSERTAO DE MESTRADO
ORIENTAO
Ana Maria Corteso Pais Figueira da Silva Abreu
ii
Agradecimentos
com muita alegria e com sentimento de realizao pessoal que termino
esta etapa da minha vida. No teria sido possvel termin-la se no tivesse
tido a colaborao das pessoas que fazem parte do meu dia-a-dia. E, no
poderia deixar de as agradecer por, directa ou indirectamente, me inuenciarem nesta jornada.
O meu primeiro agradecimento dirigido a Deus, pois tem-me sempre
guiado num bom caminho, sempre com sade, vontade de viver e sobretudo
com vontade de superar-me todos os dias como ser humano.
Um especial e enorme agradecimento minha Orientadora, a Professora
Dr. Ana Maria Abreu, que sem ela, nada disto teria sido possvel, pois soube
sempre como me ajudar a ultrapassar os obstculos que foram surgindo,
incentivou-me, mostrou sempre dar valor ao meu trabalho e esforo, teve
muita pacincia e foi sem dvida muito dedicada a este trabalho. Por tudo
isto e muito mais, agradeo do fundo do meu corao.
a
meu dia mais alegre e divertido. s minhas queridas amigas e colegas, Eva
Henriques, Fbia Camacho, Helena Teixeira, Carla Spnola, Graa Paulo e
rica Serro, um obrigado por sempre poder contar com elas, simplesmente
para me fazerem sorrir ou pelo conforto de um ombro.
Carina Alves e Mariana Rodrigues, que comearam por ser minhas
colegas e que acabaram por se tornar minhas tutoras e amigas. Agradeo
tambm s minhas Chefes e aos meus colegas de trabalho que me ajudaram
e apoiaram, de alguma forma.
Aos meus Professores que me acompanharam ao longo destes anos acadmicos, obrigada pelo conhecimento que me transmitiram e alguns at, carinho
e amizade.
A todos os meus familiares, amigos, professores e colegas de escola e de
curso que contriburam para a pessoa que sou hoje e que de alguma maneira
me ajudaram no decorrer da minha vida.
Agradeo-vos a todos, do fundo do meu corao!
iv
Resumo
O principal objectivo desta dissertao dar a conhecer as potencialidades
da linguagem R pois ainda existem algumas reservas quanto sua utilizao.
E nada melhor que a anlise de sobrevivncia, por ser um tema da estatstica
com grande impacto no mundo das doenas e novas curas, para mostrar como
este programa apresenta grandes vantagens.
Esta dissertao ento composta por quatro captulos.
No primeiro captulo introduzimos alguns conceitos fundamentais da anlise de sobrevivncia, os quais serviro de suporte para o terceiro captulo.
Assim sendo, apresentamos um pouco da sua histria, conceitos bsicos, conceitos novos numa perspectiva de regresso diferente da que estamos habituados, tendo como objectivo a construo de modelos de regresso tendo
sempre em conta mtodos para averiguar se o modelo o mais adequado ou
no.
No segundo captulo apresentamos o R, o package R Commander (que j
tem um interface mais amigvel), o package survival (talvez o mais importante na anlise de sobrevivncia clssica), bem como outros packages que
podero ser teis para quem quiser aprofundar o seu uso nesta rea.
O terceiro captulo o que aplica os conhecimentos dos dois anteriores
e no qual pretendemos dar a conhecer algumas das muitas possibilidades
de utilizao deste software nesta rea da Estatstica. Este dividido em
trs, ou seja, est dividido consoante as etapas que vamos precisando para
trabalhar a nossa base de dados, comeando pela anlise descritiva, para
conhecermos os dados que temos, depois a funo de sobrevivncia, por ser
um conceito importante e por m, a construo de modelos de regresso, no
paramtricos e paramtricos.
Por ltimo, apresentamos as nossas concluses deste trabalho.
Palavras-Chave: Anlise de Sobrevivncia, linguagem R, package survival, R Commander.
vi
Abstract
The main goal of this dissertation is to show the potentials of the R
language in order to overtake some reservations in terms of its usage. Due
of the great impact in the world of diseases and new ways of healing, survival
analysis is the best way to show the potential and advantages of this program.
This dissertation has four chapters.
In the rst chapter we will introduce some fundamental concepts of the
survival analysis, which will serve as a support to the third chapter. We will
present some of his history, basic concepts, and new concepts in a dierent
perspective of regression, having in mind methods to evaluate if the model
ts the data.
In the second chapter we introduce the R, the package R Commander
(has a friendly interface), the package survival (the most important in the
classical survival analysis), like some other packages that could be useful to
whom would like to improve their knowledge in this area.
On the third chapter we apply the knowledge of the previous chapters
and the usage of this software in this statistical area. It is divided in three,
according to the stages needed to work with the data, beginning by descriptive analysis, to know the data we have, then the survival functions, because
its an important concept and, at the end, by constructing regression models,
parametric non-parametric.
To nish we will present the conclusions of this work.
Key-words: Package survival, R Commander, R language, Survival
Analysis.
vii
viii
ndice
1 Anlise de Sobrevivncia
1.1 Introduo . . . . . . . . . . .
1.2 Conceitos bsicos . . . . . . .
1.3 Censura . . . . . . . . . . . .
1.4 Estimador de Kaplan-Meier .
1.5 Variveis explanatrias . . . .
1.6 Modelos de Regresso . . . . .
1.6.1 Introduo . . . . . . .
1.6.2 Modelo de Cox . . . .
1.6.3 Modelos Paramtricos
1.7 Resduos de Schoenfeld . . . .
2 A linguagem R
2.1 Noes gerais sobre o R .
2.2 Alguns packages teis para
2.2.1 R Commander . .
2.2.2 survival . . . . . .
2.2.3 Outros packages . .
.
a
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
2
4
8
10
11
11
13
16
19
. . . . . . . . . . . . . . .
Anlise de Sobrevivncia
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
21
21
24
25
30
30
.
.
.
.
.
.
.
35
37
38
42
44
44
51
56
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Concluso
57
Bibliograa
63
ix
Lista de Figuras
1.1 Monotonia da Funo de Risco. . . . . . . . . . . . . . . . . .
1.2 Vrios tipos de censura direita. . . . . . . . . . . . . . . . .
2.1
2.2
2.3
2.4
2.5
Janela do R. . . . . . . . . . . . . . . . . . . . . . .
Janela de ajuda do comando RSiteSearch. . . . . .
Janela do R Commander. . . . . . . . . . . . . . .
Importao de cheiros de texto, do clipboard ou da
Interface do RcmdrPlugin.EZR . . . . . . . . . . .
.
.
.
.
.
22
23
25
27
29
38
38
xi
. . . . .
. . . . .
. . . . .
internet.
. . . . .
4
5
40
41
41
42
43
45
46
47
48
3.12 Teste de independncia do Qui-quadrado para testar se as variveis 4 ou mais ndulos (node4 ) e recorrncia (rec) so independentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.13 Resduos de Schoenfeld para as variveis idade (age) e extenso do tumor (extent). . . . . . . . . . . . . . . . . . . . . . .
3.14 Resduos de Schoenfeld para a varivel recorrncia (rec). . . .
3.15 Modelo de Cox nal com as covariveis idade (age), extenso
do tumor (extent)
(rec). . . . . . . . . . . . . . .
h e recorrncia
i
3.16 Grco de log
log Sb0 (t) versus o logaritmo do tempo de
vida. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.17 Modelo de Weibull sem covariveis. . . . . . . . . . . . . . . .
3.18 Comando que fornece os valores da funo especicada, neste
caso, a funo que gerou o modelo de regresso de Weibull,
mas com mais casas decimais. . . . . . . . . . . . . . . . . . .
3.19 Obteno dos parmetros da recta atravs da funo ConvertWeibull do package SurvRegCensCov. . . . . . . . . . . . . . .
3.20 Modelo Weibull com as covariveis idade (age), extenso do
tumor (extent) e recorrncia (rec). . . . . . . . . . . . . . . . .
3.21 Modelo de regresso Log-logstico sem covariveis. . . . . . . .
3.22 Modelo de regresso log-logstico com as covariveis idade (age),
extenso do tumor (extent) e recorrncia (rec). . . . . . . . . .
3.23 Funo de risco. . . . . . . . . . . . . . . . . . . . . . . . . . .
xii
49
50
50
51
52
52
53
53
54
55
55
56
Captulo 1
Anlise de Sobrevivncia
1.1
Introduo
1.2
Conceitos bsicos
P (t
dt!0
T < t + dt)
dt
P (t
T < t + dtjT
dt
dt!0
t)
f (t)
S(t)
Z t
h(u)du
(1.1)
h(u)du
log S(t)
1.3
Censura
possvel observar o seu valor exacto, mas se consegue obter um limite inferior para esse valor (censura direita), ou um limite superior (censura
esquerda), ou ambos (censura intervalar).
Existem vrios tipos de censura, como j referimos, que podem ocorrer,
mas a mais comum, a censura direita.
A censura ocorre devido, essencialmente, a trs motivos:
o estudo chegou ao m sem que fosse observado o acontecimento de
interesse;
o indivduo em estudo ca perdido para follow-up;
o indivduo retirado do estudo por algum motivo, relacionado com o
tempo de vida.
A Figura 1.2 reete o que pode acontecer com os indivduos no estudo,
onde Y representa o tempo de vida dos indivduos durante o perodo de
observao.
Na primeira situao, A, o indivduo entra no incio do estudo e experiencia o evento, ou a morte, no ano 6, o que signica ter um tempo de vida
de 6 anos. No caso do indivduo B, entra no incio do estudo e continua vivo
no trmino do mesmo, conferindo-lhe um tempo de vida de, pelo menos 12
anos, isto , tem um tempo censurado de 12 anos. O indivduo C, entra mais
tarde no estudo, no 3o ano, mas retirado do estudo no 5o ano porque o
5
Y < t + dt; = 1] = P [t
T < t + dt]P [C
t + dt]
Y < t + dt; = 0] = P [t
C < t + dt]P [T
t + dt]
G(t)]g fg(t)S(t)g1
i=1
oQ
n n
[1
i=1
G (ti )] [g (ti )]
1 ); :::; (tn ; n ),
n
Q
() L =
i=1
n
Q
[h (ti )] i S (ti )
(1.2)
i=1
1.4
Estimador de Kaplan-Meier
Y ni
i:t(i) t
di
ni
i:t(i) t
di
ni
i:t(i) t
di
ni (ni
di )
(1.3)
Apesar de ser o intervalo mais usado, apresenta alguns problemas, nomeab 0 ) esdamente devido ao facto de ser simtrico, pois quando a estimativa S(t
tiver prxima de 0 ou 1, os seus limites podem estar fora do intervalo (0; 1).
Como alternativa
a estei intervalo, pode-se usar uma transformao, por eh
b 0 ) e calcular o seu intervalo de conana. Aos intervaxemplo, log
log S(t
los de conana obtidos desta forma d-se o nome de intervalos de conana
ponto-a-ponto (pointwise), por dizerem respeito a instantes especcos.
A distribuio do tempo de vida , geralmente, assimtrica positiva, sendo
prefervel usar a mediana como medida central de localizao. Ento, sendo
ti o i-simo instante de morte com i = 1; :::; r, a estimativa da mediana do
tempo de vida dada por:
n
o
b (i) ) 0:5
m = min t(i) : S(t
1.5
Variveis explanatrias
1.6
Modelos de Regresso
1.6.1
Introduo
com a exigncia de que ' (0) = 1, onde ' (z) representa o risco relativo.
Neste modelo, as covariveis tm um efeito multiplicativo na funo de
risco.
Um exemplo, o modelo de Cox (modelo semi-paramtrico), mas
tambm existem modelos paramtricos, consoante a distribuio de
probabilidade que seja usada para modelar o tempo de vida.
Modelo de tempo de vida acelerado: Este modelo, em termos de variveis aleatrias dado por T = T0 = (z), onde a T0 corresponde a
11
(z) ;
(0) = 1. As funes de
S(t; z) = S0 (t (z))
p zp
e quando t ! 1,
Visto que os resultados obtidos ao ajustar este modelo so semelhantes aos obtidos utilizando o modelo de regresso de Cox com covariveis dependentes do tempo, este modelo no tem muita utilizao
prtica (Collett [3]).
12
1.6.2
Modelo de Cox
1 z1
+ ::: +
p zp )
(1.5)
z2 )g
(1.6)
(por exemplo, a idade), pode no fazer sentido admitir que o caso padro
corresponde a considerar que a covarivel nula. Nesta situao, usual
convencionar que o caso padro corresponde mdia dessa covarivel. Por
exemplo, no caso da covarivel zj a funo de risco para o i-simo indivduo
escrita na forma:
h(t; zi ) = h0 (t) exp(
1 zi1
+ ::: +
j (zij
z j ) + ::: +
p zip )
1 z11
+ ::: +
1 z21 + ::: +
j z1j
+ ::: +
j z2j + ::: +
p z1p )
p z2p )
= exp( j (z1j
z2j ))
e queremos estudar o efeito de um novo tratamento face ao tratamento tradicional. Os indivduos foram distribudos de forma aleatria pelos dois grupos
de tratamento e registou-se o tempo at obteno de valores normais para
a glicose. Temos ento que:
e 1 representa o risco (propenso) para atingir os nveis normais de
glicose num indivduo a que foi administrado o novo tratamento, face
a um indivduo com valores idnticos de peso e glicose a que tenha sido
administrado o tratamento tradicional, visto que
e
h(t; z1 = 1; z2 = j; z3 = k)
h(t; z1 = 0; z2 = j; z3 = k)
h(t; z1 = i; z2 = j + 1; z3 = k)
h(t; z1 = i; z2 = j; z3 = k)
h(t; z1 = i; z2 = j; z3 = k + 1)
h(t; z1 = i; z2 = j; z3 = k)
(1.7)
l2Ri
onde Ri = R(t(i) ) = fj : tj
t(i) g o conjunto de risco no instante t(i) , ou
seja, o conjunto de ndices associados aos indivduos em observao imediatamente antes do instante t(i) e t(1) < ::: < t(k) , k < n so os k tempos de
vida distintos.
A funo L( ) considerada por Cox, no a verosimilhana habitual
(1.2), que para o modelo de Cox tomaria a forma:
L[ ; h0 (t)] =
n
Q
i=1
0
Pexp( zi0)
exp( zl )
i2D l2Ri
h0 (ti )
i2D
l2Ri
15
zi )
exp( 0 zl )
n
Q
zi ) 1
S0 (ti )exp(
zi )
i=1
(1.8)
Ijk ( ) = E
Para a construo de L( ); apenas foram consideradas observaes distintas uma vez que observaes empatadas tm probabilidade nula sob um modelo contnuo. No entanto, em estudos prticos, possvel obter observaes
empatadas, essencialmente devido escala de medida utilizada. Nesses casos,
necessrio usar uma aproximao da funo de verosimilhana proposta por
Peto [7] e Breslow [8].
Kalbeisch e Prentice [9], obtiveram um estimador no paramtrico de
S0 (t) uma vez obtido b a partir da verosimilhana parcial. Quando no h
observaes empatadas, este reduz-se a:
Y
Sb0 (t) =
bi
i:t(i) t
com:
B
bi = B
@1
1exp(
exp b z(i) C
C
P
0
A
b
exp( zl )
b0 z(i) )
l2Ri
1.6.3
Modelos Paramtricos
Apesar do modelo de Cox ser o mais utilizado na anlise de sobrevivncia, Efron [10] mostrou que se consegue mais ecincia na obteno dos estimadores de parmetros de regresso em modelos paramtricos, sob certas
circunstncias, do que no modelo de Cox.
Por essa razo, vamos apresentar algumas distribuies contnuas univariadas, as mais utilizadas na anlise de sobrevivncia, e com elas construir
alguns modelos de regresso.
16
S(t) = exp (
t)
exp(
t )
S(t) = exp (
t )
( t)
exp(
( )
t)
1 Rx
u
( )0
> 0,
I( ; t),
du
(1 + t )2
t 1
,
1+ t
S(t) =
1
1+ t
exp( 0 z)
(1.9)
t )exp(
z)
1.7
Resduos de Schoenfeld
1
0
P
b0 z
l
l2Ri zjl exp
se ti no censurado
e aji = P
b0 z
se ti censurado
l
l2Ri exp
com j = 1; :::; p e como j vimos anteriormente, Ri o conjunto dos indivduos em risco no instante ti .
Quando uma observao censurada, o resduo tem o valor zero, por
denio. Para distinguir estes dois casos em que o tempo de vida observado
coincide verdadeiramente com o previsto pelo modelo, habitual assinalar
como valores omissos os resduos nulos associados a observaes censuradas.
Para o caso da morte ser observada no instante ti , o resduo associado
a esse indivduo pode ser interpretado como a diferena entre o valor da
covarivel zj e a mdia ponderada dos valores dessa covarivel, para todos
os indivduos em risco nesse instante. O peso associado a cada um desses
indivduos exp b0 zl .
A verosimilhana parcial L( ) verica a igualdade:
19
n
P
@ log L b
( ) = rji = 0
@ j
i=1
0
onde b = (b1 ; :::; bp )0 so as estimativas de mxima verosimilhana dos coecientes j das covariveis. Assim, a soma dos resduos de todos os indivduos
em estudo sempre nula para cada covarivel. Quando as amostras so
grandes, os resduos so no correlacionados e o valor esperado de rji zero.
Quando interpretamos o grco dos resduos de Schoenfeld versus o tempo
de vida (ou as ordens dos tempos de vida), se os dados se dispuserem numa
nuvem de pontos aleatria, centrada em zero, ento estamos perante um
modelo adequado para os dados.
Uns anos mais tarde, Grambsch e Therneau [12] propuseram uma verso
padronizada destes resduos que se revelaram mais ecazes para vericar o
modelo de riscos proporcionais aps o ajustamento do modelo de Cox.
20
Captulo 2
A linguagem R
2.1
2.2
2.2.1
R Commander
O R Commander um package do R que possui menus e caixas de dilogo, desenvolvido por John Fox em 2003 com base no package tcltk. Assim,
o R passou a ter uma interface mais amigvel.
Para instalar o R Commander temos de recorrer ao comando: >install.packages("Rcmdr"). Sempre que pretendermos us-lo, teremos de o carregar,
atravs do comando >library(Rcmdr). A primeira vez que o carregarmos,
surge uma janela onde nos perguntado se queremos instalar aquela lista de
packages que so necessrios utilizao do R Commander, se aceitarmos a
sua sugesto, temos a facilidade de que os packages j cam disponveis.
A janela do R Commander, composta por sete partes (assinaladas pelas
setas), como mostra a Figura 2.3.
menus estiver a cinzento, isso quer dizer que essa funo no est
disponvel. Isso acontece, ou por no haver dados para executar essas
aces, ou por os dados no serem adequados para esses procedimentos;
2. barra de ferramentas: funes relacionadas com a base de dados que
est activa. O primeiro item indica qual a base de dados que est
activa; o segundo item serve para alterar ou acrescentar algum valor; o
terceiro item serve apenas para visualizar a base de dados e o ltimo
item indica qual o modelo que est disponvel;
3. R Script: ao utilizarmos os menus, ir aparecer todo o cdigo que
envolveu a operao realizada. Embora existam menus, pode-se introduzir o cdigo manualmente e, nesse caso, tem de ser introduzido nesta
janela;
4. R Markdown: quando estamos neste separador, aparece o boto Generate HTML report e se clicarmos, gerado um documento numa pgina
de html no browser, com o input e o output. Mais informaes sobre
este separador, encontram-se no menu Help;
5. Submit: este boto serve para dar o ok no comando introduzido manualmente. Quando o comando implica mais de uma linha, preciso
selecion-las todas primeiro e s depois clicar no boto, pois caso contrrio, apenas submetido o comando da linha onde se encontra o
cursor;
6. Output: todos os comandos introduzidos no R Script sero reproduzidos novamente neste espao (a vermelho), acrescido do resultado que o
comando implique (a azul);
7. Messages: so reportadas as mensagens de erro (a vermelho), informativas (a azul) ou apenas de aviso (a verde).
Uma componente muito importante a compilao/obteno da base de
dados. Existem trs possibilidades para o fazer:
1. Criao de uma base directamente no R Commander: Se seleccionarmos no menu Data !New data set..., aparece uma janela onde
podemos introduzir o nome do cheiro (sem espaos). Uma nova janela
com aspecto de uma folha de clculo, chamada Data Editor, ca activa,
onde somos livres de introduzir toda a informao que pretendemos. Se
quisermos alterar o nome das variveis, dando dois cliques em cima da
mesma, aparece uma janela onde podemos escolher o type, numeric
26
RcmdrPlugin.KMggplot2
Este package essencialmente grco, til sobretudo para fazer os
grcos da estimativa de Kaplan-Meier da funo de sobrevivncia. Os
grcos podem ser mais elaborados pois, para a sua construo esto
disponveis as funcionalidades do package ggplot2 [15]. um package
recente (23 de Janeiro de 2013) e detm a verso 0.2-0.
RcmdrPlugin.survival
Este package uma extenso do que j existe no R Commander, acrescentando novos itens aos menus j existentes. Existem itens
especcos para o modelo de Cox, modelo de regresso paramtrico,
estimao de curvas de sobrevivncia, juntamente com facilidades no
manuseamento dos dados, testa diferenas entre as curvas de sobrevivncia e possui uma variedade de testes, diagnsticos e grcos.
Nesta data, a verso disponvel a 1.0-4 e foi criada a 17 de Janeiro
de 2007. Para mais informaes sobre este package e as suas funcionalidades, consulte-se [16].
2.2.2
survival
Este package o mais importante no domnio da anlise de sobrevivncia pois serve de base para muitos outros. uma ferramenta para dados
de sobrevivncia onde podemos fazer anlises descritivas, testes para duas
amostras, modelos de tempo de vida acelerado paramtricos, modelo de Cox,
conseguimos ter observaes censuradas em todos os modelos, intervalos censurados para modelos paramtricos e Case-cohort designs (estudo coorte).
No necessrio que este package esteja a ser usado com o R Commander,
mas uma clara vantagem se for assim usado, pois o acesso s funes
facilitado atravs dos menus.
Neste momento, a verso disponvel a 2.37-7. Consultar [17].
Para instalar e correr o package, o procedimento idntico aos outros.
2.2.3
Outros packages
30
eha
Das vrias funes que este package possui, destaca-se a funo
coxreg, a qual uma generalizao da funo coxph do package survival.
Permite tambm o uso de modelos de tempo de vida acelerado com
as distribuies de Weibull, Gompertz, log-logstica, log-normal e de
valores extremos. Possui a verso 2.4-1. Consultar [18].
KMsurv
Este package , essencialmente, a compilao das bases de dados
utilizadas no trabalho de Klein e Moeschberger [19]. possvel obter-se tabelas de mortalidade. Neste momento, possui a verso 0.1-5.
muhaz
Este package possui funes que permitem obter estimativas da
funo de risco para dados que possuam censura. Neste momento,
a verso disponvel a 1.2.5. Consultar [20].
pec
Na anlise de sobrevivncia, um par de indivduos designado de
concordante se o risco de ocorrer o acontecimento de interesse previsto
pelo modelo inferior para o indivduo no qual esse acontecimento foi
observado mais tarde. A probabilidade de concordncia (ndice-C)
a frequncia de pares concordantes entre todos os pares de indivduos.
Este ndice pode ser usado para medir e comparar a potncia discriminante entre vrios modelos de risco. Este package permite o clculo
deste ndice na presena de observaes censuradas direita. Neste
momento, a verso disponvel a 2.2.9. Consultar [21].
prodlim
uma implementao fcil e amigvel para estimadores no paramtricos com historial de eventos censurados de anlise de sobrevivncia. Implementa um algoritmo rpido e alguns recursos que no esto
includos na funo survt (cria curvas de sobrevivncia a partir de
frmulas, ou seja, KM, modelo de Cox ajustado previamente, ou modelo acelerado de tempos de falha) do package survival. Possui a verso
1.4.3. Consultar [22].
relsurv
Este package adequado para o clculo da sobrevivncia relativa.
Engloba a regresso com modelos aditivos (os mais usuais), modelos
31
survMisc
Possui essencialmente funes para anlise de sobrevivncia, fazendo
uma extenso do package survival. Por exemplo, atravs da funo
lrSS possvel determinar a dimenso da amostra por forma a detectar
diferenas entre as funes de sobrevivncia e a funo genSurv permite
gerar amostras aleatrias. Possui a verso 0.4.2. Consultar [30].
SurvRegCensCov
Este package destina-se a permitir a estimao de um modelo de
regresso paramtrico em que se usa a distribuio de Weibul para a
varivel que representa o tempo de vida dos indivduos. Tem vrias
novidades que no se encontram noutros packages que englobam este
modelo, como sejam obter o valor das estimativas nas vrias parametrizaes do modelo Weibul, permitir considerar uma covarivel com
informao omissa, na presena de outras com informao completa,
entre outras. Possui a verso 1.3. Consultar [31].
Todos estes packages funcionam sobre o R Commander, ou simplesmente
sobre o R. So instalados todos da mesma forma ( excepo do survcomp),
assim como precisam de ser todos carregados quando se pretende utiliz-los. Para mais informaes sobre outros packages com funes usuais na
anlise de sobrevivncia, consultar o excelente resumo elaborado por Allignol
e Latouche [32]. Existe tambm um outro trabalho realizado que poder
servir de manual para trabalhar com o R com dados de sobrevivncia, [33].
33
34
Captulo 3
Anlise de Sobrevivncia com o
R
O primeiro passo para iniciarmos esta anlise consiste em ter uma base
de dados. Visto que no possuamos nenhuma e que, juntamente com o
package survival so instaladas algumas, optamos por usar a base colon que,
por ter bastantes dados e variveis, considermos ser uma boa aposta para
apresentarmos vrias situaes. Aps carregarmos o package survival e o
plug-in RcmdrPlugin.survival, escolhemos a base de dados atravs do menu
Data!Data in packages!Read data set from an attached package..., escolhemos o package survival e a Data set colon. Se em vez de clicarmos em
OK, clicarmos em Help on selected data set, abre uma janela no browser com
a informao sobre os dados que escolhemos.
Realmente o R possui uma compilao de base de dados slida, mas
muitas vezes tem pouca informao, ou poucos casos ou at mesmo poucas
variveis. Devido a essas razes, esta base de dados foi cuidadosamente
escolhida, pois preenchia todos esses requisitos, acrescentando o facto de que,
na informao facultada possua links com os artigos que foram publicados
na altura.
Esta base de dados composta por 929 indivduos com cancro do clon,
o qual foi classicado no estadio IIIB (T3-T4, N1 e M0) ou IIIC (qualquer T,
N2 e M0), onde T representa o tamanho do tumor, N o nmero de ndulos
positivos e M a presena (M1) ou ausncia (M0) de metstases.
Os doentes foram classicados em trs grupos, consoante o tipo de tratamento adjuvante utilizado no combate ao cancro, ou seja, o grupo de observao, o grupo ao qual foi administrada a toxina levamisole e o grupo ao
qual foi administrada a combinao da toxina de levamisole e uorouracil
(5-FU ).
Os doentes que entraram no estudo, [34], estavam inscritos entre Maro
35
3.1
Anlise descritiva
3.2
Funo de sobrevivncia
Figura 3.3: Comandos e respectivos outputs para a estimativa de Kaplan-Meier da funo de sobrevivncia.
3.2.1
Algumas variantes
Como j vericmos, ainda existe um leque abrangente de packages disponveis para trabalhar dados de sobrevivncia. Por ser um conceito importante, escolheu-se o package RcmdrPlugin.KMggplot2, para podermos explorar melhor o estimador de Kaplan-Meier. J referimos que este package tem
muito potencial no que diz respeito a grcos. Vamos apresentar um exemplo.
Depois do carregamento, aparece uma nova janela aps aceitarmos a reiniciao, semelhante do R Commander, mas com um novo menu chamado
KMggplot2. Para obtermos a estimao da funo de sobrevivncia, usamos
os menus KMggplot2 !Kaplan-Meier plot... e aparece uma janela onde pode42
Note-se que s aparecem duas linhas para a mediana, uma vez que no
possvel ser calculada para o grupo que foi sujeito ao tratamento Lev+5FU.
43
3.3
Modelos de regresso
3.3.1
Modelo de Cox
Para construirmos este modelo, consideramos que as variveis so signicativas para entrar no modelo se = 0:10.
Numa primeira instncia, todas as variveis entraram no modelo a m de
testar como se comporta o modelo de Cox. Obteve-se os comandos atravs do
menu Statistics!Fit models!Cox regression model....Podemos ver o output
deste comando na Figura 3.8.
De todas as variveis que foram introduzidas, podemos destacar as seis
que foram signicativas: age (p value = 0:000348), extent (p value =
0:032605), node4 (p value = 0:000317), nodes (p value = 0:093575),
obstruct (p value = 0:024627) e rec (p value = 2e 16).
Note-se que a varivel nodes s signicativa se considerarmos um nvel
de signicncia de 0:1. Atendendo a que esta varivel muito parecida
varivel node4 (que j se revelou signicativa para o modelo) e juntando o
facto de que o intervalo de conana associado conter o valor 1 (0:9956; 1:058),
essa covarivel no ser considerada no modelo. Por outro lado, a varivel rec,
que acrescentmos base de dados inicial, mostrou ser bastante importante
para o modelo, pois no s o seu p-value extremamente pequeno como o seu
valor de exp( ) distancia-se muito de 1 (20:2226) e o intervalo de conana
(14:5180; 28:169).
Repare-se que, uma vez que a varivel rx tem trs categorias, apenas
existem duas linhas para esta varivel: a que diz respeito ao grupo que foi
administrado Levamisole e 5-FU e a que diz respeito ao grupo de observao, no sendo visvel o grupo que foi administrado apenas Levamisole.
Isto deve-se ao facto de este grupo ser o de controlo (tratamento padro),
pois, por um lado pretendemos saber se existem diferenas entre os dois tipos
de tratamento e se h diferenas entre fazer ou no fazer o tratamento padro
(objectivo do estudo inicial).
O prximo passo consiste em construir o modelo apenas com as covariveis
44
45
No primeiro modelo (CoxModel.2 ), observamos que, a um nvel de signicncia de 0:05, o pressuposto de proporcionalidade das funes de risco
violado em todas as variveis, excepo da idade (age), pois a nica
varivel em que o p-value (p) superior a 0:05. Para que mais variveis
possam entrar no modelo, vamos considerar para critrio de entrada um nvel
de signicncia de 0:10 e assim incluem-se as variveis extent e node4, para
as quais no h violao do pressuposto de riscos proporcionais. Facilmente
reparamos que este no o modelo mais adequado, pois o p-value Global
muito pequeno. Vericou-se que o tempo de sobrevivncia era explicado em
54:4% (R2 = 0:544).
No modelo CoxModel.3 retirmos a varivel com o p-value mais pequeno
no teste proporcionalidade das funes de risco, ou seja, a varivel obstruct.
O modelo continua a no ser o melhor, apesar do aumento do p-value Global,
que passou para 0:0203 e os dados continuam a ser bem explicados s com
estas variveis (R2 = 0:541).
Para construir o modelo seguinte (CoxModel.4 ), a prxima varivel a
retirar a rec (p < 0:05). O valor de p-value Global baixa signicativamente,
o que implica que essa varivel tem interesse para o modelo. E at mesmo
48
Figura 3.12: Teste de independncia do Qui-quadrado para testar se as variveis 4 ou mais ndulos (node4 ) e recorrncia (rec) so independentes.
Atravs da observao grca dos resduos de Schoenfeld (Figura 3.13)
para estas duas variveis tambm se pode concluir que a proporcionalidade
das funes de risco no violada.
De facto, os resduos tm um padro aleatrio (com algumas, mas poucas,
observaes isoladas) em torno do zero.
Quanto varivel rec, os resduos que se situam sensivelmente a partir do
tempo 3:4 (anos), exibem um padro crescente (Figura 3.14), o que sugere
violao do princpio de proporcionalidade das funes de risco. A acompanhar esta concluso est o valor obtido do p-value desta varivel no modelo
CoxModel.5. Assim sendo, para melhorar o modelo seria prefervel considerar
a covarivel rec dependente do tempo, eventualmente com corte nos 3:4 anos.
Ento o modelo de Cox nal tem a seguinte expresso:
h(t; z) = h0 (t) exp(
1 age
2 extent
3 rec)
ou ainda:
h(t; z)
= exp( 1 age + 2 extent + 3 rec)
h0 (t)
Assim, substituindo os parmetros pelas respectivas estimativas (Figura
3.15), obtm-se:
h(t; z)
= exp(0:009853 age + 0:251529 extent + 3:062296 rec)
h0 (t)
49
50
Figura 3.15: Modelo de Cox nal com as covariveis idade (age), extenso
do tumor (extent) e recorrncia (rec).
3.3.2
Modelos paramtricos
i
log Sb0 (t) versus o logaritmo do tempo de
= log
) b = 0:999144732
= log
) b = 0:1064965
Figura 3.19: Obteno dos parmetros da recta atravs da funo ConvertWeibull do package SurvRegCensCov.
Em seguida calculou-se o log t atravs do menu Data! Manage variable in active data set! Compute new variable...! Seleccionar a varivel
53
Novamente com o intuito de podermos comparar os dois modelos de regresso paramtricos, vamos considerar o modelo log-logstico com as covariveis age, extent e rec (Figura 3.22).
3.3.3
Algumas variantes
56
Captulo 4
Concluso
Nesta dissertao foi lanado o desao de estudar a anlise de sobrevivncia num software que, primeira vista, poder no ser muito convidativo a
experimentar. Aps uma busca sobre este tema, deparmo-nos com muitos
outros trabalhos acadmicos na mesma rea, mas com realizao noutros
softwares mais apelativos, nem que seja devido existncia de menus e por
j serem familiares de alguma forma. Todos os programas tm as suas vantagens e desvantagens e a verdade que, no meio acadmico, o factor da
disponibilidade das licenas gratuitas para os alunos e docentes uma clara
vantagem, mas quando passamos vida real, deparamo-nos com um factor
econmico que pode no ser assim to fcil de contornar. Assim, achou-se
que seria bom explorar uma ferramenta que est ao alcance de todos ns,
gratuitamente e com a grande vantagem que podemos sempre melhor-lo.
Optou-se ento por estudar a anlise de sobrevivncia, que foi um tema
que nos cativou devido sua importncia na estatstica e ao tipo de dados
com que trabalha, e que foi fundamental apresent-lo no primeiro captulo,
dando a conhecer os conceitos bsicos, conceitos novos, tendo como objectivo
a construo de modelos de regresso e optou-se por dar a conhecer melhor o
software de estatstica R, que o apresentmos no segundo captulo, dando a
conhecer a sua origem, a sua evoluo e como se encontra no momento actual
e que, sem estes conceitos, seria difcil mostrar a sua aplicabilidade.
Encontram-se artigos das mais variadas partes do mundo com a utilizao
do R, mas de Portugal pouca coisa existe, o que sugere que esta ferramenta
ainda pouco usada.
Como j vimos no decorrer desta dissertao, este software apresenta
vantagens e desvantagens. Em termos de vantagens, destacam-se trs que
so realmente muito importantes: o facto de ser gratuito; o facto de ser
de cdigo aberto, onde podemos criar as nossas prprias funes, modelar
as que j existem s novas situaes, fazendo do R, uma ferramenta muito
57
59
60
Bibliograa
[1] Marubini, E., Valsecchi, M.G. (1995) - Analysing Survival Data from
Clinical Trials and Observational Studies. New York: Wiley.
[2] Kaplan, E.L., Meier, P. (1958) - Non-parametric estimation from incomplete observations. Journal of the American Statistical Association, 53,
457-481.
[3] Collett, D. (2003) - Modelling Survival Data in Medical Research. 2nd
edition, Chapman & Hall/CRC, Boca Raton.
[4] Cox, D.R. (1972) - Regression models and life-tables (with discussion).
Journal of the Royal Statistical Society Series B 34, 187-220.
[5] Rocha C., Papoila A.L. (2009) - Anlise de Sobrevivncia, XVII Congresso da Sociedade Portuguesa de Estatstica SPE.
[6] Andersen, P.K., Gill, R.D. (1982) - Coxs regression model for counting
processes: A large sample study. Annals of Statistics, 10, 1100-1120.
[7] Peto, R., Peto, J. (1972) - Asymptotically e cient rank invariant test
procedures (with discussion). Journal of the Royal Statistical Society,
Series A, 135, 185-206.
[8] Breslow, N.E. (1970) - A generalized Kruskal-Wallis test for comparing
k samples subject to unequal patterns of censorship. Biometrika, 57,
579-594.
[9] Kalbeisch, J.D., Prentice, R.L. (1973) - Marginal likelihoods based on
Coxs regression and life model. Biometrika, 60, 267-278.
[10] Efron, B. (1977) - The e ciency of Coxs likelihood function for censored
data. Journal of the American Statistical Association, 72, 557-565.
[11] Schoenfeld, D.A. (1982) - Partial residuals for the proportional hazards
regression model. Biometrika, 69, 239-241.
61
Consul-
Consultado
Consul-
Consultado
[27] http://cran.dcc.fc.up.pt/web/packages/smcure/smcure.pdf.
tado a 28/07/2014.
Consul-
Con-
63