Você está na página 1de 17

Universidade Federal do Par

Instituto de Cincias Exatas e Naturais


Faculdade de Estatstica
Estatstica Aplicada

ANLISE DE SOBREVIVNCIA
(MDULO II)

Franciely Farias da Cunha


(201007840014), aluna do curso
de bacharelado em Estatstica
pela Universidade Federal do
Par.

Belm
2014
1. Anlise de Sobrevivncia

A anlise de sobrevivncia uma das reas da estatstica que mais cresceu nas
ltimas dcadas do sculo passado. Uma evidncia desse sucesso o nmero de
aplicaes da Anlise de Sobrevivncia na medicina, o uso desta tcnica cresceu de
11% em 1979, para 32% em 1989, sendo a rea da estatstica que mais se destacou no
perodo avaliado. Em anlise de sobrevivncia, a varivel resposta geralmente o
tempo at a ocorrncia de um evento de interesse, sendo esse tempo denominado
tempo de falha (COLOSIMO; GIOLO, 2006).
A principal caracterstica da tcnica de Anlise de Sobrevivncia a presena
de censura, que basicamente a observao parcial da resposta, ou seja, por alguma
razo o relacionamento do cliente observado foi interrompido antes do final do
estudo. Isto significa que toda a informao referente resposta se resume ao
conhecimento de que o tempo de falha superior quele observado.

1.1 Dados Censurados

A censura pode ser causada por vrios fatores, tais como:


Perda de contato com o paciente;
Recusa do paciente em continuar participando do estudo;
bito do paciente devido a outras causas.
Dentre outras...
Dessa forma, a Anlise de Sobrevivncia refere-se basicamente a situaes
mdicas envolvendo dados censurados.

1.1.2 Tipos de Censura

Existem 3 tipos de censura, sendo elas: censura direita, censura esquerda e


censura intervalar.
Censura direita: aquela em que o tempo de ocorrncia do evento est
direita do tempo de interesse, ou seja, o tempo entre o incio do estudo e o evento
maior do que o tempo observado.
Censura esquerda: aquela que acontece quando no conhecemos o
momento da ocorrncia do evento, mas sabemos que a durao do evento menor
que a observada.
Censura intervalar: aquela que acontece em estudos em que os pacientes so
acompanhados em visitas peridicas e conhecido somente que o evento de interesse
ocorreu em um certo intervalo de tempo.

1.2 Dados Truncados


uma condio que exclui certos indivduos do estudo, nestes estudos os
pacientes no so acompanhados a partir do tempo inicial, mas somente aps
experimentarem um certo evento.
1.2.1 Tipos de Truncamento

Truncamento direita: o critrio de seleo inclui somente os que sofreram o


evento, logo o risco superestimado, comum em estudos que partem do bito.
Truncamento esquerda: ocorre quando os indivduos j experimentaram o
evento antes do incio do estudo, muito comum no uso de dados prevalentes.

2. Funo de Sobrevivncia

Esta uma das principais funes probabilsticas usadas para descrever


estudos de sobrevivncia. A funo de sobrevivncia definida como a probabilidade
de uma observao no falhar at um certo tempo t, ou seja, a probabilidade de uma
observao sobreviver ao tempo t. Em termos probabilsticos, isto escrito como:

( ) P(T t). (1)

Em consequncia, a funo de distribuio acumulada definida como a


probabilidade de uma observao no sobreviver ao tempo t, isto , ( ) S(t).
Ou seja, em um estudo mdico onde o evento de interesse a morte, a funo
de sobrevivncia fornece a probabilidade de um indivduo sobreviver alm de um
tempo t. A funo de sobrevivncia uma funo no crescente no tempo com as
propriedades de que a probabilidade de sobreviver pelo menos ao tempo zero 1 e a
probabilidade de sobreviver no tempo infinito 0.
Para descrever a funo de sobrevivncia geralmente utilizada uma
representao grfica de S(t), ou seja, o grfico de S(t) versus t que chamado de
curva de sobrevivncia. Uma curva ngreme representa razo de sobrevivncia baixo
ou curto tempo de sobrevivncia e uma curva de sobrevivncia gradual ou plana
representam taxa de sobrevivncia alta ou sobrevivncia longa.

3. Funo de Taxa de Falha ou de Risco

A probabilidade da falha ocorrer em um intervalo de tempo [t1, t2) pode ser


expressa em termos da funo de sobrevivncia como:

( ) ( ) (2)

A taxa de falha no intervalo [t1, t2) definida como a probabilidade de que a


falha ocorra neste intervalo, dado que no ocorreu antes de t1, dividida pelo
comprimento do intervalo. Assim, a taxa de falha no intervalo [t1, t2) expressa por:

( ) ( )
. (3)
( ) ( )

De forma geral, redefinindo o intervalo como [t, t + ), a expresso (2)


assume a seguinte forma:

() ( )
() (4)
()

Assumindo bem pequeno, (t) representa a taxa de falha instantnea no


tempo t condicional sobrevivncia at o tempo t. Observe que as taxas de falha so
nmeros positivos, mas sem limite superior. A funo de taxa de falha (t) bastante
til para descrever a distribuio do tempo de vida de pacientes. Ela descreve a
forma em que a taxa instantnea de falha muda com o tempo.
A funo de taxa de falha de T , ento, definida como:

(
() . (5)
4. Estimao da Funo de Sobrevivncia

Um passo inicial nos estudos de tempo de vida usualmente a estimao da


sobrevivncia. Estes estudos frequentemente apresentam observaes censuradas, o
que requer tcnicas estatsticas especializadas para acomodar a informao contida
nestas observaes. Algumas tcnicas estatsticas podem ser utilizadas para analisar
dados de tempo de sobrevivncia na presena de censura. Podem ser citados trs
estimadores no-paramtricos usados para estimao da funo de sobrevivncia,
sendo eles:
Estimador de Kaplan-Meier
Estimador de Nelson Aalen
Estimador da Tabela de Vida
Dentre outros.
Estes estimadores so conhecidos como no-paramtricos, pois usam os prprios
dados para estimar as quantidades necessrias da anlise, sem fazer uso de suposies
a respeito da forma da distribuio dos tempos de sobrevivncia.
Existem diversos modelos em Anlise de Sobrevivncia, neste trabalho vamos
dar destaque ao Modelo de Regresso de COX por ser o modelo mais utilizado em
Anlise de Sobrevivncia.

5. Modelo de Regresso de COX

O modelo de regresso de COX permite a anlise de dados provenientes de


estudos de tempo de vida em que a resposta o tempo at a ocorrncia de um evento
de interesse, ajustando por covariveis.
Considere p covariveis, de modo que x seja um vetor com componentes x =
(x1,...,xp). A expresso geral do modelo de regresso de COX considera:

() ( ) ( ) (6)

em que g uma funo no-negativa que deve ser especificada, tal que g(0) = 1. Este
modelo composto pelo produto de dois componentes, um no-paramtrico e outro
paramtrico. O componente no-paramtrico, ( ), no especificado e uma
funo no negativa do tempo. Ele usualmente chamado de funo de base ou
basal, pois ( ) ( ) quando x = 0. O componente paramtrico frequentemente
usado na seguinte forma multiplicativa:

( ) { } { } (7)

em que o vetor de parmetros associado s covariveis. Esta forma garante que


( ) seja sempre no-negativa. Outras formas para a funo ( ) foram propostos
na literatura por Storer et al. (1983). Entretanto, a forma multiplicativa a mais
utilizada e adotada neste texto. Observe que a constante 0, presente nos modelos
paramtricos, no aparece no componente mostrado em (7). Isto ocorre devido
presena do componente no paramtrico no modelo que absorve este termo
constante.
Este modelo tambm denominado modelo de riscos proporcionais, pois a
razo das taxas de falhas de dois indivduos diferentes constante no tempo. Isto , a
razo das funes de taxa de falha para os indivduos i e j dada por:

( ) ( ) { }
( ) ( ) { }
{ } (8)

no depende do tempo, por exemplo, se um indivduo no incio do estudo tem um


risco de morte igual a duas vezes o risco de um segundo indivduo, ento, esta razo
de riscos ser a mesma para todo o perodo de acompanhamento.
A suposio bsica para o uso do modelo de regresso de COX , portanto,
que as taxas de falha sejam proporcionais ou, de forma equivalente para este modelo,
que as taxas de falha acumulada sejam tambm proporcionais.
O modelo de regresso de COX utilizado extensivamente em estudos
mdicos. A principal razo desta popularidade a presena do componente no-
paramtrico, que torna o modelo bastante flexvel.

6. Ajustando o Modelo de COX

O modelo de regresso de COX caracterizado pelos coeficientes s, que


medem os efeitos das covariveis sobre a funo de taxa de falha. Estas quantidades
devem ser estimadas a partir das observaes amostrais para que o modelo fique
determinado.
Um mtodo de estimao necessrio para se fazer inferncia a cerca dos
parmetros do modelo. O mtodo de mxima verossimilhana bastante conhecido
(COX; HINKLEY, 1974) e frequentemente utilizado para este propsito. A presena
do componente no-paramtrico ( ) na funo de verossimilhana torna este
mtodo inapropriado, ou seja, sabe-se que:

( ) ( ) ( )

(9)

( ) ( )

No modelo de COX,

( ) ( ) ( ) { }
{ { } } (10)

Assim, aplicando-se este resultado em (9), segue que:

( ) ( ) ( ) { }
{ } , (11)

que a funo do componente no-paramtrico ( ).


Uma soluo razovel consiste em condicionar a construo da funo de
verossimilhana ao conhecimento da histria passada de falhas e censuras para
eliminar esta funo de pertubao da verossimilhana.

7. Mtodo de Mxima Verossimilhana Parcial

Nos intervalos onde nenhuma falha ocorre no existe nenhuma informao


sobre o vetor de parmetros , pois h0(t) pode, teoricamente, ser identicamente igual
a zero em tais intervalos. Uma vez que necessrio um mtodo de anlise vlido
para todas h0(t) possveis, a considerao de uma distribuio condicional
necessria. Considere uma amostra de n indivduos, onde se tm k( n) falhas

distintas nos tempos t1 < t2 . . . < tk. A probabilidade condicional da i-sima

observao vir a falhar no tempo , conhecendo quais observaes esto sob risco
em ti :
( ) ( ) { } { }
(12)
( ) ( ) ( ) ( ) { } ( ) { }
em que, R( ) o conjunto dos ndices dos indivduos sob risco no tempo . Pode-se
verificar que ao utilizar a probabilidade condicional, o componente no-paramtrico

h0(t) desaparece da equao (12). A funo de verossimilhana parcial L() obtida

fazendo o produto dessas probabilidades condicionais, associadas aos distintos


tempos de falha, ou seja,

{ } { }
( ) (13)
( ) { } ( ) { }

em que o indicador de falha. Os valores de que maximizam a funo a funo


de verossimilhana parcial, L(), so obtidos resolvendo-se o sistema de equaes
definidos por U() = 0, em que U() o vetor do escore de derivadas de primeira
ordem da funo l() = ( ( )). Isto ,

{ }
( )
( ) [ } ] (14)
( ) {

A funo de verossimilhana parcial (12) assume que os tempos de sobrevivncia


so contnuos e, consequentemente, no pressupe a possibilidade de empates nos
valores observadores.

8. Adequao do Modelo de COX

O modelo de regresso de COX bastante flexvel devido a presena do


componente no-paramtrico. Mesmo assim, ele no ajusta a qualquer situao
clnica e, como qualquer outro modelo estatstico, requer o uso de tcnicas para
avaliar a sua adequao. Em particular, ele tem uma suposio bsica que a de
riscos proporcionais, a violao desta suposio pode acarretar srios vcios na
estimao dos coeficientes do modelo (STRUTHERS; KALBFLEISCH, 1986).
Existem diversos mtodos para avaliar a adequao do modelo de COX, dentre eles
podemos citar:
1. Avaliao da Qualidade Geral de Ajuste do Modelo
2. Avaliao da Proporcionalidade dos Riscos
2.1 Mtodo grfico descritivo
2.2 Mtodo com coeficiente dependente do tempo
2.3 Mtodo com covarivel dependente do tempo
3. Avaliao de Outros Aspectos do Modelo de COX
3.1 Pontos atpicos e forma funcional das covariveis
3.2 Pontos influentes

9. Aplicao

Exemplo: Uma empresa de telecomunicaes est interessada em modelar o tempo de


rotatividade dos seus clientes, a fim de determinar os fatores que esto associados
com aqueles clientes que mudam para outro servio. Para isso, uma amostra
aleatria de clientes selecionada, verificando o tempo que eles so clientes, se a
linha ainda est ativa, dentre outros fatores.

Para aplicar a tcnica pode-se utilizar o software SPSS, aps abrir o banco de dados
telco.sav, necessrio clicar em Analisar Sobrevivncia Regresso de COX.
1. Selecione como varivel de tempo, o nmero de meses em que o cliente ficou
utilizando o servio.
2. Selecione a varivel Churn como varivel status, que significa se a pessoa ainda
era cliente no ms anterior.

3. Clique em definir evento e coloque o valor 1, aps isso clique em continuar.


4. Na caixa de dilogo Regresso de COX, selecione as covariveis: idade (age),
tempo (em anos) no endereo atual (address), sexo (gender), estado civil (marital),
grau de escolaridade (ed), se aposentado (retire) e nmero de pessoas que residem
no domiclio (reside), selecione o mtodo RP (Mxima Verossimilhana) e
posteriormente, clique em prximo.

5. Selecione como covarivel a categoria do cliente definida como Custcat.


6. Clique em categrico e selecione as covariveis: estado civil (marital), grau de
escolaridade (ed), sexo (gender), se aposentado (retired) e categoria do cliente
(custat), depois clique em continuar.

7. Clique em diagramas e selecione os seguintes tipos de grfico: sobrevivncia e


risco. Selecione a varivel categoria do cliente (custcat) para ficar em linhas
separadas e clique em continuar e depois clique em OK.

10. Resultados da Aplicao

A varivel status aponta a ocorrncia do evento no ltimo ms do estudo. Se


o evento no ocorreu, o caso dito como censurado. Casos censurados no so
utilizados no clculo dos coeficientes de regresso, mas so utilizados para calcular o
risco de linha de base. O resumo de processamento dos casos mostra que 726 casos
so censurados.
Resumo de Processamento dos Casos
N Percent
Eventa 274 27,4%
Cases available in
Censored 726 72,6%
analysis
Total 1000 100,0%
Cases with missing values 0 0,0%
Cases with negative time 0 0,0%
Cases dropped Censored cases before the earliest event in a
0 0,0%
stratum
Total 0 0,0%
Total 1000 100,0%
a. Dependent Variable: Months with service

As variveis categricas so utilizadas para interpretar os coeficientes de


regresso para variveis dicotmicas. Por padro, a categoria de referncia a
ltima categoria de cada varivel.
Categoria da Varivel Codificadaa,d,e,f,g
Frequency (1)c (2) (3) (4)
0= Solteiro 505 1
Estado Civilb
1= Casado 495 0
1=Ens. Mdio Incompleto 204 1 0 0 0
2= Ens. Mdio Completo 287 0 1 0 0
Grau de Escolaridade 3= Ens. Sup. Incompleto
b 209 0 0 1 0
4= Ens. Sup. Completo 234 0 0 0 1
5=Ps-graduao 66 0 0 0 0
,00=No 953 1
Aposentadob
1,00=Sim 47 0
0=Masculino 483 1
Gnerob
1=Feminino 517 0
1= Servio Bsico 266 1 0 0
2=E-servio 217 0 1 0
Categoria do Clienteb
3=Plus servio 281 0 0 1
4= Servio Total 236 0 0 0

O processo de construo do modelo ocorre em dois blocos. No primeiro, um


algoritmo empregado passo a passo, para isso foi utilizado o teste qui quadrado. Se
a etapa foi adicionar uma varivel, a incluso faz sentido se o nvel de significncia
for inferior a 0,05. Se a etapa era remover uma varivel, a excluso faz sentido se o
nvel de significncia for superior a 0,10. Na primeira etapa, as variveis: idade,
tempo no endereo atual, grau de escolaridade e estado civil so adicionados ao
modelo.
Omnibus Tests of Model Coefficientse
Step -2 Log Global (score) Mudana da Etapa Mudana do Bloco
Probabilidade Anterior Anterior
Qui- df Sig. Qui- df Sig. Qui- df Sig.
quadrado quadrado quadrado
1a 3383,793 132,522 1 ,000 142,571 1 ,000 142,571 1 ,000
2 b 3352,281 149,154 2 ,000 31,512 1 ,000 174,083 2 ,000
3 c 3330,899 169,357 6 ,000 21,383 4 ,000 195,466 6 ,000
4 d 3318,417 182,012 7 ,000 12,481 1 ,000 207,947 7 ,000
a. Varivel Introduzida na Etapa Nmero 1: Idade
b. Varivel Introduzida na Etapa Nmero 2: tempo no endereo atual
c. Varivel Introduzida na Etapa Nmero 3: grau de escolaridade
d. Varivel Introduzida na Etapa Nmero 4: estado civil

A tabela a seguir relata o efeito da adio da varivel categoria do cliente.


Como o valor de significncia da mudana menor que 0,05, portanto, a varivel
categoria do cliente contribui para o modelo.
Omnibus Tests of Model Coefficientsa
-2 Log Overall (score) Change From Change From Previous
Likelihood Previous Step Block
Chi- df Sig. Chi-square df Sig. Chi-square df Sig.
square
3283,818 214,354 10 ,000 34,599 3 ,000 34,599 3 ,000
a. Beginning Block Number 2. Method = Enter

O modelo final inclui idade, estado civil, endereo, grau de escolaridade e


categoria do cliente. Como principais resultados, pode-se destacar:
Um cliente solteiro tem aproximadamente 2 vezes mais chance de deixar de
utilizar o servio da empresa, comparado com os clientes casados.
Um cliente com ensino mdio incompleto tem 56% de chance de deixar de
utilizar o servio, comparado com aqueles clientes que possuem ps-graduao.
Os coeficientes de regresso para os trs primeiros nveis da categoria do
cliente so em relao categoria de referncia, o que corresponde ao total de clientes
de servio. O coeficiente de regresso para a primeira categoria, que corresponde a
clientes de servios bsicos, sugere que o risco para os clientes do servio bsico 1,46
vezes maior do que o total de clientes do servio. Os coeficientes de regresso
sugerem que o risco para os clientes E-servio 0,61 vezes maior que do total de
clientes do servio, e o risco para os clientes do servio Plus 0,58 vezes maior que do
total de clientes do servio.
Variables in the Equation
B SE Wald df Sig. Exp(B)
Idade -,036 ,007 26,377 1 ,000 0,96
Estado civil ,402 ,123 10,627 1 ,001 1,50
Endereo -,055 ,010 28,566 1 ,000 0,95
Escolaridade 20,774 4 ,000
Escolaridade (1) -,822 ,272 9,145 1 ,002 0,44
Escolaridade (2) -,572 ,233 6,033 1 ,014 0,56
Escolaridade (3) -,417 ,233 3,201 1 ,074 0,66
Categ. cliente 34,561 3 ,000
Categ. cliente (1) ,377 ,166 5,141 1 ,023 1,46
Categ. cliente (2) -,488 ,170 8,199 1 ,004 0,61
Categ. cliente (3) -,537 ,195 7,586 1 ,006 0,58

A curva de sobrevivncia bsica uma exibio visual do tempo em meses de


um cliente deixar de utilizar o servio da empresa de telecomunicao. O eixo
horizontal mostra o tempo para evento. O eixo vertical mostra a probabilidade de
sobrevivncia. Assim, qualquer ponto na curva de sobrevida mostra a probabilidade
de que o cliente "mdio" continuar a ser um cliente passado esse tempo. Dessa
forma, podemos observar que passado 55 meses, a curva de sobrevivncia se torna
menos suave, indicando que o cliente pode deixar de utilizar o servio nesse perodo.
O grfico das curvas de sobrevida mostra que as categorias dos clientes
servio total e servios bsicos tm curvas de sobrevivncia mais baixas, pois os seus
coeficientes de regresso tem um tempo menor at a ocorrncia do evento.
11. Referncias

[1] COLOSIMO, E. A.; GIOLO, S. R. Anlise de Sobrevivncia Aplicada. Editora


Edgard Blucher, 2006.

[2] COX, D. R.; HINKLEY, D. V. Theoretical Statistics. Chapman and Hall,


London, 1974.

[3] STORER, B. E.; WACHOLDER, S.; BRESLOW, N. E. Maximum Likelihood


Fitting of General Risk Models to Stratified Data. Applied Statistics, p. 177-181, 1983.

[4] STRUTHERS, C. A.; KALBFLEISCH, J. D. Misspecified Proportional Hazards


Models. Biometrika, p. 363-369, 1986.