Regressão de Cox - COMO FAZER

Regresso de Cox
Viso global
Regresso de Cox, que implementa o modelo de riscos proporcionais ou modelo de durao, projetado para anlise de tempo at que um acontecimento ou de tempo entre eventos. uma ou mais variveis preditoras, covariveis chamados, so usados para prever um estatuto (do evento) varivel. A anlise univariada exemplo clssico o tempo de diagnstico de uma doena terminal at que o caso de morte (da a anlise de sobrevivncia). regresso de Cox tambm utilizado para a adopo de polticas / estudos de difuso (ver Jones & Branton, 2005). A sada central de estatstica a razo de risco. Observe que ao contrrio dos modelos paramtricos discutido na seco sobre a histria de modelos evento (EHA), regresso de Cox semi-paramtricos e no requer do pesquisador para especificar uma taxa de risco de base ou estimar o risco absoluto. Por esta razo, a regresso de Cox pode ser preferido em relao aos modelos paramtricos EHA quando no h nenhuma razo clara terico para postular uma relao de risco particular de base. Na maior parte dos casos, no h motivo to forte, clara e os pressupostos mais rigorosos de dados de modelos paramtricos EHA no se justificam, tornando os modelos de Cox a melhor escolha. Stata o pacote de software preferido para Cox de regresso e anlise de sobrevivncia. Alm Stata, Limdep outro pacote estatstico com amplo suporte para os modelos de histria do evento, incluindo os modelos de Cox. No Stata, declarar os dados com o comando stset, em seguida, executar a regresso de Cox com o comando stcox. Para a regresso de Cox ordinrio em SPSS (ex-SPSS), Analisar seleccionar, de sobrevivncia, regresso de Cox, entra a varivel tempo, introduzir a varivel covariveis (s); inserir a varivel de estado (a varivel evento) e definir eventos para especificar o valor da ocorrncia (ex., a morte = 1), em Opes voc pode querer verificar que voc quer 'Mostrar a funo de base "para obter o efeito de tempo apenas para comparao com os efeitos covarivel. regresso de Cox um modelo especfico dentro da categoria mais ampla de anlise da histria do evento. Para o tratamento
Contedo Principais conceitos e termos adequao do modelo Modelos A regresso de Cox Estratificada de regresso de Cox Regresso de Cox na Stata Regresso de Cox no SPSS / SPSS Estatstica Pressupostos SPSS / sada SPSS Perguntas mais frequentes Bibliografia
relacionados importante, ver a discusso em separado do histrico de eventos mtodos. Veja tambm a discusso em separado de Kaplan-Meier , um procedimento para estimar funes de sobrevivncia e risco, mas no efeitos covarivel. Veja tambm as tabelas de vida procedimento, utilizado para descritivo, estudos atuariais de durao onde o tempo a nica varivel salientes e censurada e casos de censura no diferem.
Termos e Conceitos Fundamentais

o
Variveis varivel de estado. Tambm chamado de evento ou censura varivel, a varivel de estado o dependente na regresso de Cox. O exemplo clssico a morte varivel binria em estudos mdicos, com a morte igual a 0 ou 1 para sobreviver morte. No entanto, o pesquisador pode atribuir um intervalo de valores ou uma lista de valores para o evento "condio", que no tem de ser "1". A varivel status analisada em relao a uma varivel de tempo (veja abaixo) ou com risco de taxa de sobrevivncia a sada central de regresso de Cox. Em um estudo de adoo de poltica como o evento de status, de regresso logstica se concentrar na anlise da varincia (o logit da) a adoo, no momento da coleta de dados. Em contraste, a regresso de Cox na anlise centra-se a probabilidade de aprovao em qualquer perodo de tempo. Porque alm de conjuntos histricos no se sabe o estado final para todas as observaes ou o tempo para alcanar o status final, dados censurados e conter casos de censura, que compatvel com os pressupostos da regresso de Cox, mas no com os de regresso logstica. varivel tempo. O tempo de durao varivel de medidas para o evento definido pela varivel de estado. A varivel tempo pode ser discreto ou contnuo. Normalmente, o "tempo" varivel um contador simples de unidades de tempo desde o incio da srie. Se o tempo medido por uma varivel de contador em unidades de tempo, o modelo de Cox assume que o risco aumenta linearmente com o tempo, condio de co-variveis no modelo. possvel, entretanto, para a varivel tempo para ser logartmica ou alguma outra funo do contador. A significncia ou no significncia de covariveis do modelo pode variar de acordo com o tipo de tempo varivel utilizada. Unidades menores intervalos de tempo, proporcionar mais tempo, o que aumenta a potncia dos modelos Cox (menos chance de um erro de Tipo II: pensando que no h relao entre as variveis dependentes do modelo, quando na verdade no existe). Anlise do tempo uma varivel de tempo, onde t = 0 o tempo de incio do risco. Aparecimento de risco significa quando a falha (ou o "evento"), primeiro torna-se possvel. Tempo de anlise rotulado de "t", ao passo que o "tempo" usado quando 0 tem outros significados, tais como incio da medio. A origem " o" tempo "quando o tempo de anlise, t = 0. Assim, t = tempo - origem. possvel que o tempo = t, se o evento (ex., a adoo) possvel de imediato, desde o incio da medio, mas nenhum caso ainda no foram efectuadas do evento (none adotaram). Stata pressupe tempo de anlise e t = tempo padro. No entanto, se a varivel tempo no conjunto de dados no refletem sendo 0 o incio do risco, mas h uma origem diferente, a origem da funo Stata () pode ajustar a varivel tempo de ser uma varivel de tempo de anlise. Alm disso, a escala () funo pode ajustar o intervalo de tempo para ser o que conveniente para a anlise (por exemplo, converter dias para anos). Isto feito no Stata usando o comando stset, discutido mais adiante na seo sobre "os dados em tempo de sobrevivncia (dados r)".
Covariveis so o preditor / variveis independentes em um model.Covariates Cox pode ser categrico (ex. sexo, raa ou contnua (ex. renda, idade). Covariates tambm pode ser um tempo fixo ou tempo-dependente, uma diferena que afeta a forma como a covarivel modelado em procedimentos Cox. Por exemplo, "contiguidade", (ex., codificadas 0 ou 1 para indicar se um estado era contguo a um determinado estado ou no) seria em tempo fixo. "renda familiar mdia", que alteraes por ano, seria tempo de varivel (dependente do tempo). Covariveis dependentes do atraso de tempo. Recomenda-se (ex., Box-Steffensmeier & Jones, 2004: 111) que covariveis dependentes do tempo de inscrio no formulrio defasados. Isso para evitar simultaneidade de causa e efeito. A covarivel visto como uma causa do evento, mas se altera o valor literalmente, ao mesmo tempo que o evento ocorre, a lgica de causa-efeito perdida mesmo que o novo valor da covarivel incorporado na taxa de risco. Alm disso, quando a medio do tempo do evento impreciso, ficando ajuda a garantir que as mudanas no tempo-dependente preceder covarivel eventos. Centralizador. Se o pesquisador estar analisando as taxas de risco de base, os dados devem ser centradas covarivel (subtrao da mdia) para que eles tenham um ponto zero natural. Caso contrrio, as taxas de risco de base, que so as taxas de tempo apenas quando todas as co-variveis so zero, esto estimados para os pontos que no existem no conjunto de dados, resultando em funes de risco enganosas de base (ver Box-Steffensmeier & Jones, 2004: 65) . covariveis categricas so variveis explicativas que podem ser utilizados em regresso de Cox. SPSS / SPSS ir convert-los automaticamente em um conjunto de variveis dummy, omitindo uma categoria, como usual (por padro, a ltima categoria, embora o SPSS / SPSS permite especificar manualmente a primeira vez). Cada varivel dummy ter seu prprio coeficiente de regresso. No necessrio especificar como covariveis categricas dicotmicas que j esto codificados indicador (0,1) a menos que o investigador deseja para especificar grupos para fins de parcelas. A interpretao deste coeficiente depende do tipo de esquema de codificao: 1. Indicador ", aka codificao dummy", o padro: coeficiente de regresso compara o efeito do manequim com a categoria de referncia (a categoria omitida das covariveis categricas, geralmente a ltima categoria - o SPSS / SPSS permite ao usurio especificar ou Apelido como categoria de referncia). 2. Desvio: O efeito de cada categoria, exceto a categoria de referncia comparado com o efeito mdio de todas as categorias. 3. Repetida: O efeito de cada categoria comparado com a categoria seguinte, exceto para a ltima categoria. 4. Diferena: Cada categoria diferente da primeira em relao ao efeito mdio de todas as categorias anteriores. 5. Helmert: Cada categoria diferente da do passado comparado com o efeito mdio de todas as categorias subseqentes. 6. Polinomial: As categorias so tratados como igualmente espaados ea covarivel transformado, quadrticos e cbicos componentes linear, etc O "categricas codificaes varivel" documentos tabela os cdigos reais aplicados e til quando h necessidade de lembrar que a categoria de referncia omitida.
Data de instalao e exemplo. Setup Os dados so discutidos abaixo. Na figura abaixo, o exemplo como implementado no SPSS / SPSS est prevendo tempo para a ratificao da Constituio E.U.. (SPSS / SPSS dados podem ser transferidos para o Stata simplesmente usando Arquivo, Salvar Como, a partir dos menus e selecionar uma das opes Stata para criar uma. Dta arquivo).
A varivel status "Status" e equivale a 1 para todos os estados uma vez que no h censura casos (todos os treze estados finalmente ratificado a Constituio). A varivel tempo "Days", de medio em dias o tempo que levou a aprovao da Constituio at a determinado estado ratificou. Outras variveis so fatores ou categricas (ex., o tamanho do estado: covariveis pequeno, mdio ou grande) ou contnua (ex., por cento que a votao para a ratificao passado) ou dichotomouse covariveis (ex., se o Estado foi um centro de Bill of Rights de presso).
Stata instalao. SPSS Embora os dados podem ser exportados diretamente para uso Stata, Stata, note que tem duas etapas necessrias antes de emitir o comando stcox de regresso de Cox. Declaraes. Deve-se usar o comando stset para declarar o tempo de anlise e variveis de incapacidade. No exemplo abaixo, o comando "Dias stset, falha (Status)". Isso faz com que Dias varivel tempo e Status da varivel fracasso. Para este exemplo, todos os casos, ter um status de 1, onde 1 indica falha (que neste exemplo significa a ratificao da Constituio: "falha" o evento de interesse, se o evento normativamente positivo ou negativo). variveis Dummy. Considerando que o SPSS / SPSS criar variveis dummy automaticamente se uma varivel declarada categrica categricas processando o boto (veja a figura acima), isso deve ser feito explicitamente no Stata. No exemplo desta seo, h uma varivel "Tamanho", para o tamanho do Estado, a partir de 1 = pequeno estado para estado 3 = grande. O cdigo Stata "tabular Size, gen (tamanhos)" a seguir cria as variveis dummy sizes1, sizes2 e sizes3 da varivel tamanho. Mais tarde, no comando stcox, sizes1 sizes2 e so utilizados como indicadores, com sizes3 ser omitidos como categoria de referncia. Os clculos resultantes da razo de verossimilhana e os coeficientes de risco so, ento, o mesmo para Stata e / SPSS SPSS.
Observaes Observaes censuradas direita. Um caso censuradas direita quando o tempo da falha / evento conhecido apenas por ter ocorrido aps t.That tempo , um caso de direito censurado um evento para o qual a censura (a indicada pela varivel de estado) ainda no tinha ocorrido no final do perodo de medio. Salvo disposio em contrrio, a observao "censurada" censuradas direita.
Esquerda observaes censuradas. Um caso da esquerda censurada no momento da falha / evento conhecido apenas por ter ocorrido antes do tempo t. observaes truncadas, tambm chamado de-truncado casos esquerdo, so aquelas que no mensurada em todos os perodos de tempo, at um determinado perodo de tempo, em seguida, so medidos, geralmente porque no (o evento ocorre) para que no perodo de tempo determinado. (Nota casos direita truncado so as mesmas observaes censuradas direita).
Funes As funes de sobrevida. A funo de sobrevida cumulativa a percentagem de casos que sobrevivem at um determinado ponto do tempo (por exemplo, para quando o conjunto de dados foi coletada). A funo de sobrevida de base a percentagem que iria sobreviver com base no tempo sozinho. A funo de sobrevivncia covarivel a percentagem que iria sobreviver dado a covarivel (s). O coeficiente de regresso padronizado (s) da covarivel (s) / so uma medida da importncia relativa da covarivel (s) para a sobrevivncia, controlando o tempo. Como razes de risco se prestam a uma discusso mais intuitivo, no entanto, os relatrios de resultados de regresso de Cox geralmente foco em funes de risco.
O SPSS / SPSS exemplo acima grficos das probabilidades acumuladas esperada de um estado, tendo o nmero de dias reflete no eixo X antes da votao para a ratificao da Constituio, para um estado hipottico, que est na mdia dos variveis preditoras, que so VotePct (cento favorecendo ratificao, refletindo a tenso dos votos) e tamanho (estados pequenos e mdios contra a categoria de referncia dos grandes Estados). Nota testes de significncia podem mostrar uma covarivel no significativa, entretanto.
Stata d um grfico similar usando o stcurve ", a sobrevivncia de comando postestimation" aps o comando real de regresso de Cox, que deve incluir o basesurv "()" comando para criar uma base varivel funo de sobrevivncia, aqui chamado de "base": stcox VotePct Direitos sizes1 sizes2 , Baseline basesurv ().
Riscos. O "perigo" o evento de ocorrncia de interesse. Em estudos de medicina o risco pode ser a morte. Em estudos industrial o perigo poderia ser avaria do motor. No entanto, o risco pode ter um significado positivo, como nos estudos de difuso de tempo para aprovao, onde o perigo a adoo da inovao. taxas de risco e taxas de risco so discutidas mais adiante, mas em breve: taxas de risco. A taxa de risco a probabilidade instantnea de determinado evento (por exemplo, a morte = 1 em um estudo mdico) que ocorrem em um determinado perodo de tempo, a sobrevida dada atravs de todos os intervalos de tempo antes. taxas de risco so apresentados graficamente em um grfico da funo de risco. As relaes do perigo. A taxa de risco calculado como base o logaritmo natural e elevado potncia de b: e b, escrito em folhas de clculo como a "funo exp (b)". Para uma covarivel contnua, a taxa de risco a relao entre a taxa de risco dado um aumento de uma unidade na covarivel para a taxa de risco sem esse aumento. Para uma covarivel codificados 0, 1 (ex., placebo = 0, tratamento = 1), a taxa de risco a estimativa da relao entre a taxa de risco em um grupo (ex., o grupo de tratamento) para a taxa de risco de outro grupo (ex., o grupo placebo). De qualquer forma, a taxa de risco uma medida de tamanho de efeito para avaliar o sentido ea importncia do efeito de uma varivel preditora do risco relativo do evento, controlando por outros preditores no modelo. Ou seja, o papel das variveis preditoras avaliado mais por olhar razes de risco de olhar para os coeficientes b Cox de regresso. riscos proporcionais. Um pressuposto fundamental do modelo de riscos proporcionais de Cox : a taxa de risco permanecer constante ao longo do tempo. O modelo de Cox no diz nada sobre a forma absoluta da curva formada por duas taxas de risco ao longo do tempo, s que a sua relao ser constante.
Note-se que riscos proporcionais significa que os riscos so proporcionais ao longo do tempo, no que eles so os mesmos ao longo do tempo. As encostas das taxas de riscos proporcionais para os dois grupos pode ser para baixo, por exemplo, indicando reduo de risco ao longo do tempo. Note tambm que as taxas de risco no so relaes de risco e suas respectivas interpretaes diferentes (isto uma confuso em uma parte da literatura existente utilizando regresso de Cox). verossimilhana parcial e por modelos de Cox so semi-paramtricos. modelos de Cox no assumimos nenhuma distribuio especfica para a forma da funo de risco, concentrando-se na previso da taxa de risco. modelos paramtricos, tais como exponencial ou log-linear de eventos modelos de anlise da histria, em contraste, necessrio especificar a forma assumida da funo de risco. modelos de Cox no usar a estimativa da probabilidade mxima, mas sim um mtodo de mxima verossimilhana parcial que requer apenas a ordem dos tempos de falha no, os intervalos entre os tempos de falha, ser conhecido quando a estimativa do ndice de risco. tempos de sobrevivncia real no so utilizados na estimativa da probabilidade parcial da funo de risco. Manipulao vezes falha vinculados. Idealmente, os mtodos de verossimilhana parcial no teria dados vinculados, mas sim uma ordenao simples de tempos de falha. Para lidar com o fato do mundo real que existe amarrado vezes falha, algoritmos de probabilidade parciais foram adaptados para lidar com laos. O mtodo de tratamento de laos pode ser definido pelo pesquisador em SPSS / SPSS e outros softwares. O mtodo padro (em SPSS / SPSS, Stata e SAS) o mtodo de Breslow. No entanto, para alm do mtodo de Breslow, trs outros mtodos esto disponveis: o mtodo Efron, o mtodo da verossimilhana marginal exato eo mtodo da verossimilhana parcial exato. O mtodo de Breslow adequada quando existem poucos laos. O mtodo Efron considerado mais preciso do que Breslow quando os laos so poucos. Quando os laos so numerosas, um dos mtodos exatos podem ser selecionados. A escolha do mtodo de desempate raramente afeta os resultados substantivos. No Stata, a sintaxe do comando geral Cox de regresso : stcox [varlist] [se] [no], [opes]. As opes para os quatro mtodos de tratamento disponveis so os laos de Breslow, efron, exactm e exactp. Para uma descrio mais pormenorizada do Breslow e outros algoritmos, consulte Caixa de Steffensmeier & Jones (2004: 54-58). Baseline taxa de risco. A taxa de risco podem ser divididos em risco a relao inicial (dependendo do tempo sozinho) e da covarivel ndice de risco (em funo da covarivel (s), o controle de tempo). A diferena entre o modelo de referncia eo modelo com covariveis mostra o efeito das covariveis do modelo. Ateno: BoxSteffensmeier & Jones (2004: 89 nota), "porque a estimativa de Cox, o risco de base to intimamente ligado ao dos dados observados, difcil generalizar estas estimativas para outras configuraes." Ou seja, as estimativas Cox da taxa de risco de base pode ser considerado overfitted. Isso discutido mais abaixo . Uma vez que os pesquisadores utilizam modelos Cox so enfocadas principalmente em razo de perigo da co-variveis, e no na razo de risco de base, isto pode ser irrelevante. Quando o investigador refere a dependncia de tempo to importante, no apenas o efeito das variveis independentes (covariveis), paramtricos evento anlise histrico modelos ainda podem ser preferidos,
Como ilustrado acima, a base de risco cumulativo para o modelo de interceptar e s o risco cumulativo na mdia de covariveis no modelo completo apresentado no "Survival" Tabela de SPSS SPSS output /. Isso discutido mais abaixo , na seo sobre a produo estatstica.
Hazard ratio com covariveis .. A taxa de risco de base representa o efeito da varivel tempo sozinho, quando todas as covariveis (s) = 0. A taxa de risco indica a probabilidade de um evento que ocorre mais rpido ou mais lento dado alguma covarivel (s), mas no diz quanto mais rpido ou mais lento (embora no seja raro na literatura para encontrar a taxa de risco interpretado dessa maneira). Interpretando taxas de risco so discutidas abaixo , na seo de estatsticas. Exemplo. Hazard ratios abaixo de 1,0 indicam que o mais covarivel, menor o risco. Hazard ratios acima de 1,0 indicam que quanto maior a covarincia, maior o perigo. Assim, em um modelo de vida determinado tipo de gerador eltrico ou rolamentos de esferas e dada carga eltrica, se "rolamentos" = 0 para o estilo antigo e rolamentos = 1 para o novo estilo, ea taxa de risco de rolamentos 0,06, isto significa que vai do velho para o novo estilo rolamentos reduziu o risco de o gerador no, controlando a carga. A taxa de risco de 0,06 a variao proporcional em perigo quando os rolamentos da varivel aumenta em 1 unidade (ou seja, vai de 0 velho estilo para um novo estilo). Se, no entanto, intervalos de confiana a alta ea baixa na taxa de risco incluram rolamentos 1.0, no poderamos ter certeza de um nvel de confiana de 95% rolamentos que
realmente fez a diferena. Para o mesmo modelo, como ilustrado acima para a funo de sobrevivncia covarivel, a funo de risco covarivel parecido com este:
Um grfico similar gerado pelo Stata, mostrada abaixo. No Stata, este gerado pelo comando postestimation ", stcurve, cumhaz". O comando antes de regresso Cox deve ter solicitado o creastion de uma varivel de risco de base acumulada, aqui chamado baselinech: ex. "Stcox VotePct Direitos sizes1 sizes2, basechazard baselinech ()".
Compare isso com o grfico da funo de risco em si (no cumulativo), como abaixo foi gerado com o comando postestimation Stata "stcurve, em perigo". Este comando requer o comando stcox antes usar o basehc (opcional) para definir uma varivel baseling funo de risco, aqui baselinehc: "stcox VotePct Direitos sizes1 sizes2, basehc" (baselinehc).
Para o tempo-invariante covariveis contnuas. A taxa de risco para notempo-variando covariveis a quantidade de mudanas no risco da ocorrncia de cada unidade de mudana na covarivel. Por exemplo, um hazard ratio de 1,12 significa que h um aumento de 12% na taxa de ocorrncia de um aumento de 1 unidade na covarivel, controlando para outras variveis no modelo. A taxa de risco de 1,05 significa que para um aumento de 1 unidade na covarivel, h um aumento de 5% na taxa de risco da varivel evento que est sendo estudada. A taxa de risco de 1,1 para a covarivel idade significaria que um aumento de um ano de idade estaria associada com um 0,1 (10%) aumento na taxa de risco. Dez aumento de anos de idade que corresponde a 1,1 = 10 = 2,59 aumentar a taxa de risco por um fator de aumento de 2,59% = 159. Para variveis no tempo covariveis contnuas, a taxa de risco a quantidade a taxa de ocorrncia mudanas para uma unidade de mudana no tempodependente da funo da covarivel. Para covariveis binrio. Onde a covarivel uma varivel dicotmica agrupamento, como o sexo, a taxa de risco para o sexo = 1 est na comparao com o grupo do gnero = 0 (ex., se a relao for superior a 1,0, o sexo um grupo = mais provvel que incorrer o evento). Por exemplo, uma vez que o evento no curou 0/healed = = 1, o placebo covarivel = 0 / tratamento = 1, e uma taxa de risco calculado de 3,0, podemos dizer que uma pessoa no grupo de tratamento que sobreviveu a um determinado momento tem trs vezes mais chances (odds sentido, no de probabilidade) como uma pessoa no grupo placebo de ser curado no incremento da prxima vez. Uma vez que a taxa de risco uma constante, podemos tambm dizer que por uma chance de 3:01 uma
pessoa no grupo de tratamento mais provvel que alcance o estado de cura de uma pessoa em um grupo placebo. Este tambm o mesmo que dizer que h um 04/03 = 75% de chance da pessoa no grupo de tratamento ser curado em primeiro lugar. No podemos dizer que a pessoa tratada vai curar trs vezes mais rpido, nem o tempo de cicatrizao cortado em um tero, nem que trs vezes mais pessoas tratadas sero curadas por um determinado tempo (veja Spruance et al., 2004). Como segundo exemplo, para o evento "governador reeleito = 0, no reeleito = 1," para o "estado republicano covarivel = 0, o estado democrtico = 1," a taxa de risco de 1,5 significa que um governador de um estado democrtico que foi no escritrio de tempo t tem uma chance de 1,5:1 (ou 3:2) de no ser reeleito no tempo t +1, em comparao com um governador de um estado republicano. Isto equivale a dizer que h 60% (05/03), oportunidade que a durao no cargo at o caso de reeleio no vai ocorrer mais cedo por um governador de um estado democrtico em comparao com um em um estado republicano. coeficientes de risco de covariveis Quando o coeficiente de regresso unexponentiated para a funo de risco covarivel maior do que 0 para uma dada covarivel, em perigo (sobrevivncia ou no) est aumentando enquanto que os aumentos covarivel. Se inferior a 0, risco est diminuindo e aumentando a probabilidade de sobrevivncia como covarivel que diminui. O coeficiente exponencial a razo de risco e interpretada em relao ao 1.0, no 0, como discutido acima. Uma vez que um caso com o menor tempo para o evento mais provvel que incorrer o evento, as taxas de risco so tambm muitas vezes interpretada como a probabilidade de ocorrncia de um determinado caso. Pela mesma razo, as taxas de risco de no avaliar os efeitos absolutos, o risco de apenas relativa. Os intervalos de confiana pode ser calculado em torno de uma taxa de risco. ndices medianos. Porque a taxa de risco relativo, mas no mostra efeito absoluto, outras medidas de tempo podem ser utilizados para avaliar a magnitude do efeito sobre o tempo de durao. A relao dos tempos mediana o candidato bvio para tal medida. Por exemplo, em um estudo do efeito de pastilhas de zinco sobre a durao do resfriado comum, a relao entre o tempo de cicatrizao mdio entre pastilhas de zinco e os grupos placebo losango seria medir o efeito das pastilhas de zinco sobre o tempo de durao absoluta. Tabelas de vida, discutido abaixo, esto entre os meios para calcular tempo mdio de uso em propores medianas. Tabelas de vida. Relacionados, mas no faz parte do SPSS / SPSS 's mdulo Cox so tabelas de vida , acessado em SPSS / SPSS selecionando Analisar, Sobrevivncia, Tbuas de Vida. A tabela a vida lhe dar o nmero de entrar e sair da piscina de risco em qualquer intervalo de tempo, o nmero de expostos ao risco, o nmero de destino, proporo que encerra, a proporo de sobrevivncia, as propores cumulativas, ea taxa de risco e seu erro padro para cada intervalo de tempo. Unrau & Coleman (2006), por exemplo, tabelas de vida de usar para analisar as taxas de risco para o abuso de crianas em termos de tempo de descarga de um programa de servios sociais, sugerindo a aplicao da poltica a ser decisivo quanto tempo aps o trmino do programa para agendar o acompanhamento social dos trabalhadores visitas.
o o
Modelo de ajuste usando a razo de verossimilhana, a AIC, e anlise de resduos discutida na seo sobre anlise histrico evento . Modelos. Vrios modelos de regresso de Cox existem para caber vrios conjuntos de pressupostos de dados / situaes.
constante de modelos de regresso de Cox-Time. Nestes modelos, covariveis so constantes ao longo do tempo por um determinado assunto / observao (ex., sexo = 1 ou driverstatus = 1). No SPSS / SPSS, esta opo suporta tipos de terrenos e de poupana das variveis de diagnstico no est disponvel no modelo tempo-dependente. No SPSS / SPSS, Anlise selecionar, sobrevivncia, regresso de Cox. No Stata, o comando verifica stvary para ver se so covariveis constante de tempo ou tempo-dependente, e executa o comando stcox regresso de Cox. dependente modelos de regresso de Cox-Time. Nestes modelos, uma covarivel varia ao longo do tempo e pode haver constante covariveis tambm. Isto significa risco relativo (razo de risco observado linha de base) varia ao longo do tempo. Riscos ainda so proporcionais ao longo do tempo, mas s dentro dos blocos de tempo formado por mudanas nas covariveis. Isto , cada vez que uma mudana significativa no valor covarivel, h um "salto" para cima ou para baixo em perigo, mas tambm entre os perigos saltos so proporcionais. No SPSS / SPSS, Anlise selecionar, Survival, Cox w / dependente do tempo de covariveis. No Stata, o comando stcox usado em conjunto com a TVC (varlist) opo de declarar variveis no tempo covariveis. Tempo variando covariveis podem ser continuamente varivel (ex., aumento da idade de 1 unidade cada vez que aumenta o tempo t em 1) ou pode ser discreta variao (ex., o rendimento pode subir, ser o mesmo, ou ir para baixo do perodo de tempo ao tempo perodo, em nenhum padro estabelecido). O coeficiente de regresso, b, continua a ser a mesma para diferentes covariveis tempo, mas o efeito varia de acordo com a magnitude da varivel. modelos de fragilidade. modelos de fragilidade face situao em que o mesmo indivduo pode enfrentar o perigo mais uma vez, levantando a possibilidade de que, devido a alguma causa no mensurvel e talvez desconhecido (ou seja, a causa da "heterogeneidade no observada"), alguns assuntos podem ser mais provveis do que outros a experincia repetida perigos. Esta probabilidade a fragilidade "do assunto e nos modelos padro Cox um efeito desmedido. Fragilidade do modelo modelos o efeito fragilidade como um efeito aleatrio. Assim, modelos de fragilidade so anlogas s de regresso com efeitos aleatrios. Ao estimar a fragilidade como uma causa da heterogeneidade no observada como um efeito aleatrio, os coeficientes para as variveis medidas so menos tendenciosos. Alm disso, claro, o efeito de fragilidade (nu) estimado e pode ser plotado no eixo y contra caseid no eixo x, mostrando que os casos so os mais frgeis. A fragilidade assumida ser constante ao longo do tempo, independente das covariveis, e ser elaborada a partir de uma determinada distribuio (geralmente de gama), que o pesquisador deve especificar. modelos de fragilidade pode ser mal se tendenciosa fragilidade est correlacionada com as co-variveis (Hausman, 1978) ou a distribuio de errado assumido (Blossfeld & Rohwer, 1995). Fragilidade modelos so suportados pelo Stata , mas no pelo SPSS / SPSS. Condicional modelos de fragilidade. modelos de fragilidade condicional modificar modelos de fragilidade para ajustar para a dependncia do evento. Estudos de simulao de BoxSteffensmeier & DeBoef (2006) demonstraram a superioridade dos modelos de fragilidade condicional em relao aos modelos padro de fragilidade em condies de dependncia do evento. modelos de fragilidade condicional estratificar casos por nmero de eventos (1 para a primeira experincia do evento, duas para o segundo, etc.) Se a estimativa de varincia fragilidade significativo em um modelo de fragilidade condicional, depois heerogeneity observado afeta o modelo de dependncia, ao explicar o caso. Veja tambm BoxSteffensmeier, DeBoef & Joyce (2007), onde os modelos de fragilidade condicional foram personalizados programados na linguagem R .. Evento dependncia existe quando enfrentando o evento um momento anterior afeta a probabilidade de experimentar o evento um momento posterior. Para verificar a dependncia do evento, parcela do risco cumulativo de y por x tempo, estratificando-se pelo nmero de eventos. Quando depdendence evento apresentar, a diferentes estratos ir mostrar claramente diferentes curvas de risco cumulativo em funo de modelos padro Cox.
eventos modelos repetidos, tambm chamado de "episdio vrios" modelos, so direcionados para situaes onde os eventos de repetio, tais como ataques mltiplos com uma doena e cura para os doentes, ot vrios perodos de paz e de guerra para as naes. eventos repetidos so discutidas mais adiante na seo de anlise de histrico de eventos , mas pode ser implementado como modelos de Cox tambm. Stata mas no SPSS / SPSS suporta modelos repetidos eventos. Competindo modelos de riscos, tambm chamado de "mltiplos destinos" modelos, so dirigidos a situaes em que o evento terminal pode ocorrer mais de uma razo. Por exemplo, na terminao de guerras pode ocorrer atravs da negociao ou a derrota. modelos concorrentes riscos tratar razes diferentes como diferentes eventos, permitindo a comparao das funes de risco em riscos competitivos. modelos de riscos competitivos so discutidas mais adiante na seo de anlise de histrico de eventos , mas pode ser implementado como modelos de Cox tambm. Stata mas no SPSS / SPSS suporta modelos concorrentes riscos.
A regresso de Cox. Como em outras formas de regresso, regresso de Cox suporta "stepwise", bem como "enter" (todas as variveis do modelo entrou em uma etapa) e "block" (variveis entrou em blocos especificado pelo usurio), mtodos para a insero de variveis independentes (as covariveis ). A cada passo, os mtodos stepwise adicionar a varivel com maior pontuao significativa. Alm disso, em cada etapa, o residual do qui-quadrado calculado e exibido nas variveis "Not in a equao" da tabela. Se o residual do qui-quadrado significativo, pelo menos uma das variveis ainda a ser adicionado ao modelo significativa. critrio de entrada. A estatstica de contagem utilizado pelo SPSS / SPSS como critrio de entrada. Em cada etapa, a varivel com a estatstica de maior pontuao no nas variveis "na equao de mesa" a prxima a ser inserido na etapa seguinte. critrios de remoo na regresso "Se o mandato Removido mesa", uma "perda do quiquadrado" estatstica calculada em cada etapa, refletindo a contribuio das variveis para o modelo. Para qualquer determinada varivel, a varivel removida se o significado da perda do qui-quadrado maior do que 0,10. "Omnibus Testes de modelo de coeficientes" tabela usa-2LL para testar a mudana a partir da etapa anterior, ou a mudana do bloco anterior (se a entrada de bloco usado, caso contrrio esta ser a mesma da etapa anterior). Se a importncia global 0,05 ou menos, em qualquer etapa, ento pelo menos uma das variveis no modelo em que ponto significativa. Se a mudana de significado etapa anterior 0,05 ou menos, em qualquer etapa, a varivel adicionada em que etapa significativo. Se a mudana de significado bloco anterior 0,05 ou menos, em qualquer etapa, a varivel (s) acrescentar a este bloco / so significativas. No passo a passo para trs, onde est a remover uma varivel de cada etapa, se o significado da mudana> 0,10, convencional a concluir que a excluso dessa varivel se justifica. Este critrio de remoo geralmente baseada na razo de verossimilhana com base em estimativas de mxima verossimilhana parcial, mas o usurio pode selecionar, em vez da razo de verossimilhana com base em estimativas de parmetros condicionais (semelhante, mas mais rpido computacionalmente), ou a estatstica de Wald.
Regresso de Cox estratificado. Ao entrar covarivel categrica no "Strata" caixa de dilogo de regresso de Cox no SPSS / SPSS, ir obter um perigo funes distintas de base para cada valor da varivel categrica. Algum poderia fazer isso, claro, se pensava que tinham funes diferentes categorias de base diferente, que no foram proporcionais (se fosse proporcional, pode-se usar o would-be varivel estratificao como covarivel; proporcionalidade pode ser verificado pela LogMinus- Log parcelas de sobrevivncia, discutidos abaixo, na seo sobre "Parcelas"). Porque preciso assumir os mesmos efeitos em todas as categorias, apenas um conjunto de coeficientes agrupados so
computados para as co-variveis (indicadores). A varivel estratificao no tratado como um preditor e no os coeficientes so calculados por ele.
Regresso de Cox Com ou Sem-Dependent Covariates Tempo em Stata. No Stata, regresso de Cox executado com o comando stcox depois de declarar uma sobrevida formato dataset tempo com o comando stset, discutido acima. covariveis dependentes do tempo, se houver, so declarados no comando stcox usando o TVC (varlist) opo. O STS, agitar e comandos ltable gerar resultados estatsticos relacionados com a anlise de sobrevivncia. O comando stcurve pode ser usado com ou stcox StrEG para produzir sobrevivncia, risco e parcelas risco cumulativo de funes, que permitem a comparao dessas funes entre os diferentes nveis de covariveis. O STS gerar comando adiciona novas variveis para o conjunto de dados baseado em risco previamente modelados e funes relacionadas. Nas variantes de stcox discutido abaixo, presume-se que j declarou stset / definido o conjunto de dados o tempo de sobrevivncia, como descrito acima. Exemplos disso so a manual de Stata. Cox de regresso simples com dados no censurados. Comando: rolamentos de carga stcox. Para um conjunto de dados sobre quanto tempo geradores eltricos ltima at a falha, a carga e os rolamentos so covariveis que no variam no tempo. A sintaxe do comando geral stcox (varlist). A varivel tempo at a falha failtime, declarado pelo stset mais cedo e por isso no mencionados no comando stcox. Todos os casos (geradores) falharam, no h ainda geradores de trabalho (sem censura casos). A probabilidade de registro e sua probabilidade tambm impresso. Se a probabilidade de a probabilidade de registro 0,05 ou menos, o modelo como um todo importante. A tabela de sada principal ir mostrar a relao de risco, o seu erro padro, o seu nvel de probabilidade, e seus intervalos de confiana. Cox de regresso com dados censurados. Comando: idade stcox droga. Para um conjunto de dados sobre o tratamento do cncer, onde drogas = 1 significa que o paciente recebeu um medicamento contra o cncer ao invs de um placebo. Anteriormente o comando stset studytime definida como a varivel tempo para o evento e definir a varivel morreu como a varivel de evento. Se morreu = 0, estes pacientes ainda estavam vivos no final do estudo e constitui censura casos. Quanto mais o ndice de risco calculado para a droga abaixo de 1,0, mais que a droga reduziu o risco de morte por cncer, controlando para a idade. Quanto maior a taxa de risco para a idade acima de 1,0, mais o aumento da idade a probabilidade de morte por cncer, o controle de tratamento da toxicodependncia .. Cox de regresso com variveis no tempo discreto covariveis. Comando: posttran idade stcox surg ano. Para o conjunto de dados de transplante de corao Stanford. H 1 ou 2 registros por paciente, dependendo se eles receberam um transplante. Anteriormente, stset t1 definido como a varivel tempo e morreu como o mesmo varivel, e id como a varivel id. A Surg varivel = 1 quando o paciente teve uma cirurgia cardaca prvia. A varivel ano foi o ano em que o paciente foi aceito no programa de transplante. Se posttran = 1, o paciente recebeu um transplante e, portanto, uma covarivel posttran discretos variantes no tempo. O modelo especificado da mesma, no entanto, como os exemplos anteriores. Cox de regresso com varivel contnua e em tempo covariveis. Comando: idade stcox, TVC (drug1, drug2) texp (exp (-. 035 * _T)) nolog. Para um conjunto de dados sobre a pneumonia, onde os dados para drug1 e drug2 so os nveis de dosagem de duas drogas, respectivamente, ea idade uma covarivel. Mais cedo, o comando stset tempo definido como a varivel tempo e curadas como varivel de evento. Tivesse sido o comando idade stcox drug1 drug2, as taxas de risco calculado que mostram o efeito da idade, drug1 ou drug2, cada um controlando para as outras duas, assumindo a nveis da dosagem de drug1 drug2 e manteve-se constante em todo o corpo do paciente ao longo do tempo. No entanto, o comando mais complexo com a TVC () e texp () podem manipular o modelo mais realista supor que o nvel desses frmacos tempo varivel, especificamente que a quantidade da droga no organismo diminui ao longo do tempo. A (TVC drug1, drug2) opo declara drug1 e drug2 ser
varivel no tempo covariveis. O texp (exp (-. 035 _t *)) opo especifica a funo de definir o modo como as co-variveis declaradas variveis com o tempo mudam ao longo do tempo neste caso, diminuindo exponencialmente pela funo exp (-, 35t), onde _t = t = tempo de anlise . O parmetro nolog suprime um registro de sada intermediria. A sada similar regresso Cox comum, mas as funes de risco so calculados de forma diferente e os grupos de sada do co-variveis em conjuntos no-tempo-dependente e tempo-dependente. O modelo simples, sem a TVC () e texp funes () d a razo de risco para, por exemplo, para controlar drug1 drug2 e idade, e uma taxa de risco a variao proporcional em perigo quando o nvel de dosagem de drug1 aumenta em 1 unidade. O modelo mais complexo com a TVC () e texp funes () d a razo de risco para uma droga como uma funo decrescente do tempo, controlando drug2 como uma funo decrescente do tempo e da idade, ea taxa de risco para drug1 proporcional mudana de perigo quando o nvel de concentrao no sangue (ou seja, drug1 * exp (-. 35t)) aumenta de uma unidade. Regresso de Cox com fragilidade compartilhada. Um exemplo dado no manual de Stata um experimento com a insero do cateter e infeco subseqente possvel, com cada um tendo duas inseres (em pocas diferentes) e, portanto, a possibilidade de duas infeces distintas. Aqui a unidade de anlise a insero, agrupados por assunto, com a fragilidade compartilhada presumido. Comando: Feminino Idade stcox, compartilhada (paciente). Neste conjunto, o paciente a identificao do paciente, mas no usado como uma varivel id convencional, mas sim como uma varivel de fragilidade compartilhada. Idade e sexo feminino so contnuos e dicotmica covariveis, respectivamente. As relaes do perigo ser computado, mas diferentemente interpretado como antes. Abaixo a tabela principal razo de risco, Stata ir imprimir um valor de teta, seu erro padro e um teste de log-verossimilhana da teta. Se o teste de log-verossimilhana da teta significativa (por exemplo, <0,05), ento h um efeito significativo fragilidade (neste caso, um efeito significativo nvel do paciente, alm de nvel de insero de efeitos). Se quisermos, em uma segunda etapa, podemos testar para ver quais os pacientes so menos ou mais frgil (ou seja, menos ou mais contribuem para a fragilidade do paciente-nvel). Isto seria feito com o comando feminino idade stcox, compartilhada (paciente) efeitos (nu), seguido pelo tipo de comando (nu) e nu paciente da lista. Isso cria uma tabela do paciente, nu, que uma medida da fragilidade. Quanto maior o nu, o mais frgil do paciente, ou seja, o mais provvel para enfrentar o perigo. Cox de regresso com dados de falhas mltiplas. Podemos querer analisar os dados em que o evento de interesse pode ocorrer mais de uma vez para o mesmo caso. Stata suporte e isso envolve, tendo cada caso com mltiplas falhas e criar novos processos com id novo, um para cada falha. Isso feito com o stgen, egen, classificar, substituir, gen, e stset comandos como descrito no StataCorp (2005: 136-138), mas no sero discutidos aqui. Tipos de estimativas de varincia. Stata suporta estimativa convencional de matrizes de covarincia-varincia, por padro, e trs outras alternativas usurio especificveis, descrito no manual de Stata. Para obter as alternativas, o add vce opes (robusta), vce (bootstrap), ou vce (canivete) para o comando stcox. Alternativamente, robusto um sinnimo para vce (robusta). Basta adicionar uma vrgula seguida de forte aps a varlist stcox.
Regresso de Cox Com e Sem-Dependent Covariates Tempo em SPSS / SPSS. regresso de Cox assume que os valores comuns de qualquer observao dada sobre cada covarivel no variam ao longo do tempo (ex., "churchattendancerate" da pessoa com CaseID = 437 a mesma em cada perodo de tempo; ex., sexo = 1 no varia ao longo do tempo para um indivduo). modelos de Cox pode, no entanto, ser adaptado para covariveis que variam ao longo do tempo para os mesmos indivduos. Isso requer clculo diferente, mas as tabelas de sada so praticamente os mesmos e interpretado o mesmo. Tais modelos so modelos de risco no-proporcional. Sem-covariveis dependentes do tempo. No SPSS / SPSS, Anlise selecionar, sobrevivncia, regresso de Cox.
Com covariveis dependentes do tempo No SPSS / SPSS, Anlise selecionar, Sobrevivncia, w Cox / Time-Dep Cov ...; define (opcionalmente transformar) em "Compute Time-Dependent Cov" caixa de dilogo, clique no boto Model para entrar a varivel tempo, o Estado varivel (e definir o seu evento, ex. bito = 1) e introduza o covariveis. Para covariveis tempo-dependentes do tipo (1) acima, selecione T_COV_ ea covarivel e clique em> o "= a * b> boto", para obter um termo de interao em tempo covarivel entrou na lista covarivel. Para covariveis tempo-dependentes do tipo (2) acima, clique no boto Colar para abrir o Editor de sintaxe, onde voc pode digitar uma expresso lgica complexa. Selecionando a opo Cox tempo-dependente insere automaticamente uma varivel de tempo, T_, no topo da lista de variveis. Na caixa de dilogo 'Compute TimeDependent Cov, voc pode transform-lo (por exemplo, para os dados semanais, T_/52 iria transform-lo anual) ou deix-lo como T_. De qualquer maneira, uma nova varivel chamada T_COV_ criado para uso na anlise. 1. Ordinria covariveis dependentes do tempo. Caso a varivel sistematicamente em relao ao tempo (a varivel T_), ento um termo de interao criado com o tempo (ex., T_COV_ * churchattendancerate). 2. Segmentado covariveis dependentes do tempo. Se a varivel no sistematicamente relacionado com o tempo, ento preciso criar uma expresso lgica que relaciona a varivel de tempo em cada perodo de tempo (ex., vamos ser CA1 freqncia igreja no tempo 1, CA2 in Time 2, etc, a Time 4: (T_ <1) * CA1 + (T_> = 1 & T_ <2) * CA2 + (T_> = 2 & T_ + <3) * CA3 (T_> = 3 & T_ <4) * CA4). Neste exemplo, qualquer lgica sub-expresso (ec. (T_ <1) A verdade avaliado como um e multiplicado pela varivel correspondente CA, e os outros so zerados.
Estatstica taxa de risco, tambm chamado de "odds ratio" ou Exp (B). A taxa de risco a probabilidade de o evento ocorrer no tempo t + 1, dada a sobrevivncia ao tempo t. A taxa de risco de 1,0 indica que as variveis no modelo no tm nenhum efeito no tempo de eventos para a varivel de estado. Quanto mais a relao de risco inferior a 1,0, o maior da covarivel, menor as chances de o evento ocorrer (aumento previsto o tempo de sobrevivncia). Quanto mais acima de 1.0, mais as variveis aumentam as chances de o evento ocorrer (ex., a morte = 1: diminuir o tempo de sobrevivncia previsto). O risco relativo a razo de risco para o caso em que a covarivel uma dicotomia, de modo que quando codificado 0,1, a 1 indica a presena de uma caracterstica. Nesse caso, a caracterstica no tem qualquer influncia sobre o evento, quando o seu risco relativo de 1,0, e aumenta a probabilidade do evento, quando o seu risco relativo superior a 1.0, etc Por exemplo, se uma covarivel o tabagismo (0, 1), com um fumo ser pesado, e se a taxa de risco (Exp (B)) de 1,1, e se o evento a morte = 1, ento o risco de morte 1,1 vezes maior para fumantes do que para a luz e no-fumantes (fumantes = 0), controlando para outras variveis em qualquer modelo. Os intervalos de confiana em Exp (B) so produzidos pelo SPSS / SPSS e outros pacotes, dando a inferior e superior de confiana dos limites de 95% em torno do valor da Exp (B). Se o valor de 1,0 encontra-se dentro destes limites de confiana, no se pode ter 95% de certeza de que a covarivel tem qualquer efeito e deve relat-lo como no-significativa. SPSS / SPSS. A taxa de risco aparece como Exp (B) nas variveis "na equao" mesa de sada do SPSS SPSS /. Stata:. Como discutido anteriormente na seo de regresso de Cox simples , o comando stcox gera a taxa de risco, por padro, juntamente com o seu erro padro, valor de p, e
intervalos de confiana. Adicionando o Nohr "opo para o comando stcox suprime taxas de risco e causas dos coeficientes de risco correspondente a ser impresso. Interpretao do odds ratio discutida nas sees de anlise loglinear e regresso logstica . Teste da razo de verossimilhana do modelo, tambm chamado de teste de omnibus ou-2LL ou -2 log verossimilhana. Se-2LL significativo, o modelo como um todo importante. Ou seja, se Sig.> 0,05 (o padro usual da cincia social), ento o efeito de covariveis (s) no pode ser considerado como diferente de zero. Isto significa que pelo menos uma das covariveis contribui significativamente para a explicao de durao para o evento. Significa, tambm, o modelo significativamente melhor do que o modelo nulo, que o modelo de tempo apenas quando todas as covariveis so 0.
Na figura acima, o nulo (intercepto-only) modelo tinha-2LL = 45,104. O modelo completo tinha-2LL = 32,224, um modelo de diferena qui-quadrado de 12,88, o que significativo ao nvel 0,012. Ou seja, as co-variveis contribuem significativamente para a explicao de dias de durao dos estados, at a ratificao da Constituio, que o exemplo simples usado aqui ..
Comparado com outros testes. O teste da razo de verossimilhana preferido sobre o teste ou o teste de Wald pontuao como forma de avaliar a significncia do modelo geral de modelos logsticos. A estatstica de pontuao. SPSS / SPSS e alguns outros pacotes de sada tambm uma estatstica escore (aka global, qui-quadrado ou total do qui-quadrado) como critrio de significncia alternativa para o modelo, mas o teste da razo de verossimilhana o teste padro. No entanto, a pontuao usado na regresso stepwise Cox no SPSS / SPSS, que em cada etapa adiciona a varivel com o maior nmero de pontos significativos. Para a ilustrao acima, o nvel de significncia a mesma (0,012), seja por razo de probabilidade qui-quadrado ou global (score) do quiquadrado. SPSS / SPSS:. A probabilidade estatstica -2 log aparece no "-2 log verossimilhana" da tabela do SPSS / SPSS. testes de razo de probabilidade Stepwise aparecer no "modelo de coeficientes tabela 'no SPSS / SPSS. Stata: O teste da razo de verossimilhana gerado pelo comando stcox, como ilustrado abaixo. A verossimilhana da -16,11219 corresponde ao 2LL em SPSS SPSS sada / de 32,224 (multiplicar por -2 para conseguir isso). A taxa de probabilidade quiquadrado e seu significado (Prob) permanecem os mesmos em ambos os programas.
razo de verossimilhana so discutidas mais adiante na seo de regresso logstica coeficientes de regresso. A maioria dos pacotes que as estatsticas mostrem o coeficiente de regresso (B) para cada covarivel, o erro padro de B (SE), o seu valor de significncia de teste de Wald, os graus de liberdade (df), eo valor de significncia do coeficiente, todas semelhantes e interpretado como na regresso logstica . SPSS / SPSS faz isso nas variveis "na equao" mesa ilustrado abaixo. Se Sig.> 0,05 (o padro usual da cincia social), ento o efeito covarivel no pode ser considerado como diferente de zero. Ou seja, se sig (Wald) <0,05, em seguida, a pesquisadora conclui que a varivel til para o modelo. coeficientes de regresso positivo significa que o perigo aumenta covarivel (uma maior probabilidade de que a morte = 1, por ex.), enquanto os coeficientes negativos correspondem ao risco reduzido. Note-se que o teste 2LL prefervel ao teste de Wald ao testar o modelo global.
Exemplo. Na ilustrao acima, os dias at a ratificao da Constituio estadual est prevista a partir de diversas covariveis. No Modelo 1, a proximidade da votao (VotePct) um preditor significativo. Mas no modelo 2, quando um indicador binrio adicionado, o que reflecte ou no o Estado foi fortemente envolvido na luta para incluir um Bill of Rights na Constituio (Direitos), a varivel Direitos torna-se significativo e controle de direitos, torna-se no VotePct significativa. (Claro, com todos os 13 estados de origem dos dados, os dados no so uma amostra e qualquer efeito, no importa quo pequena, no devida a chance de amostragem). Direitos foi codificado 1 = fortemente envolvida, 0 = no, por isso o sinal negativo do coeficiente de Direitos Modelo 2 significa reduo de risco (da ratificao do evento), que se traduz em mais dias, at a ratificao. Da mesma forma, o sinal positivo do VotePct covarivel no modelo 1 significa maior risco de ratificao, o que equivale a poucos dias at a ratificao. Ou seja, quanto mais perto da votao (VotePct inferior) ou estar na maior categoria Bill of Rights (1 = muito) ambos tendem a aumentar at o dia ratificao quando considerados isoladamente, mas, quando consideradas em conjunto, controla os direitos de VotePct.
Como mostrado na figura acima, Stata gera os coeficientes mesmo perigo razo por padro (observe o Nohr "opo no utilizada para suprimir taxas de risco em favor dos coeficientes de risco). Stata rtulos as taxas de risco, como tal, no ", Exp (b)" como no SPSS / SPSS.
A razo de chances. Exp (B) na sada acima a razo de chances, que tambm a razo de risco para uma dada covarivel. Exp (B) a mudana prevista no perigo de um aumento unitrio no indicador. Odds ratio de 1,0 significa que o co-varivel no tem efeito sobre as probabilidades associadas ao cargo. Odds ratio acima de 1.0 esto associados com risco aumentado do evento (neste caso, antes da ratificao e, portanto, menos dia). Odds ratio abaixo de 1.0 esto associados com risco de diminuio do evento (neste caso, depois da ratificao e mais dias de durao). Assim razes odds acima de 1.0 correspondem aos coeficientes b positivo e odds ratio abaixo de 1.0 correspondem a coeficientes b negativos. Para covariveis categricas, deve-se interpretar que diz respeito categoria de referncia. Por exemplo, na ilustrao acima, tamanho categrica (1 = pequenos estados, os estados 2 = mdio e 3 (categoria de referncia) = grandes estados. O odds ratio para as pequenas (1) e mdio (2) estados so menos de 1,0, indicando que, em comparao aos estados grandes (3, a categoria de referncia), sendo pequena ou mdia aumentou o risco, ou seja, estados pequenos e mdios ratificado antes. Assim, grandes estados tiveram mais dias para ratificar a Constituio estabelece. Medium ratificado em poucos dias , indicado pelo odds ratio para o tamanho = 2 sendo a mais baixa (mais distante de 1,0). Matriz de correlao dos coeficientes de regresso um dos quadros do SPSS SPSS output / sada e de outros pacotes. Ele usado para verificar a multicolinearidade. Idealmente, nenhum par de preditores altamente correlacionadas. A ilustrao abaixo mostra multicolinearidade no indicado para os preditores no modelo 2, discutido acima.
As variveis categricas. No SPSS / SPSS e outros pacotes, se uma varivel categrica, em seguida, haver uma linha geral (ex., "religio"), bem como uma linha para cada no-omisso de valor (ex., "religio" (1) , a religio "(2)", etc.) A linha geral no ter entradas para B, SE, Exp (b) intervalos, ou confiana, mas ter um valor de Wald e da importncia correspondente (veja abaixo). Este significado global Wald testa a hiptese nula de que todos os coeficientes para o efeito que a varivel categrica zero. Se a importncia global Wald 0,05 ou menos, o pesquisador pode concluir que pelo menos um dos coeficientes de efeito diferente de zero. SPSS / SPSS: O coeficiente de regresso no padronizados, "B" aparece nas variveis "na equao" tabela do SPSS / SPSS. Stata: Aps a montagem de um modelo de regresso de Cox com stcox, pode ser reinvoked coeficientes de regresso para mostrar um pouco do que taxas de risco: stcox. Nohr. Sada ser muito semelhante ao padro, mas com coeficientes substitudo por razes de risco. Baseline risco, sobrevivncia e taxas de risco cumulativo. Baseline risco cumulativo a taxa de risco para o modelo, s o tempo quando todas as co-variveis = 0. Como ilustrado abaixo, ao invs de ser uma taxa nica, a base da funo risco acumulado exibido para vrias vezes representados como linhas, cada uma com uma linha de base correspondente taxa de risco cumulativo. Geralmente essa taxa aumenta com o tempo. taxas de risco cumulativo Baseline so mais fceis de interpretar quando dados numricos covarivel foram normalizados (no o caso ilustrado abaixo), fazendo com que meios covarivel a zero, com taxas de risco de base interpretado como de tempo somente para as pessoas na mdia dos covarivel (s ). Quando as co-variveis so categricas, a taxa ser para as pessoas na categoria "0" para cada covarivel.
As taxas de sobrevivncia. A coluna "Sobrevivncia na sada SPSS SPSS / d a taxa de sobrevivncia estimada para a linha de tempo especificado aps o incio do risco do evento, de pessoas ou outras unidades de observao a mdia da covarivel (s). No exemplo acima, o incio do risco a adoo da Constituio, os estados so as unidades de observao, eo evento a ratificao da Constituio (o "risco" do evento). A taxa de sobrevida o percentual estimado de casos que no tiveram o evento de interesse pela linha do tempo especificado. Na ilustrao acima, por 224 dias aps a aprovao da Constituio de Filadlfia, 36% dos estados no haviam ratificado. Parcelas cumulativas de sobrevivncia. Neste lote, anteriormente ilustrado acima , apoiada pela SPSS / SPSS e outros pacotes, o eixo X ainda tempo de sobrevida. O eixo Y, no entanto, a sobrevivncia cumulativa. As curvas representam um indivduo hipottico (ou outra unidade de anlise), com valores mdios na covarivel (s) a qualquer momento, representado no eixo X. A curva (s) mostram como diminui a sobrevida cumulativa ao longo do tempo para tais indivduos hipotticos. Se uma varivel categrica tem dois valores (por exemplo, 0 = no-fumadores ou light, 1 = tabagismo pesado), ento haver uma parcela de sobrevivncia acumulada para cada valor, permitindo a comparao. declive parcelas de sobrevida acumulada abaixo da esquerda para a direita desde cumulativa sobrevivncia diminui medida que aumenta o tempo de sobrevivncia. Taxas cumulativas de perigo. O perigo "cumulativa" coluna na sada SPSS SPSS / semelhante, mas para o modelo em que o tempo ea covarivel (ex., idade) so preditores. Matematicamente, o risco cumulativo a negativa do registro da sobrevivncia. Parcelas cumulativas de perigo. Neste enredo, tambm ilustrado anteriormente referido , apoiada pela SPSS / SPSS e outros pacotes, o eixo X o tempo de
sobrevivncia. O eixo Y risco cumulativo. As curvas representam um indivduo hipottico (ou qualquer outra unidade de anlise), com valores mdios na covarivel (s) a qualquer momento como representado no eixo X. A curva (s) mostrar como os aumentos de risco acumulado ao longo do tempo para tais indivduos hipotticos. Se uma varivel categrica tem dois valores (por exemplo, 0 = no-fumadores ou light, 1 = tabagismo pesado), ento haver uma parcela de risco cumulativo para cada valor, permitindo a comparao. declive parcelas risco cumulativo at esquerda para a direita a partir da origem na esquerda. SPSS / SPSS: Como discutido acima, o "Quadro de sobrevivncia" na sada de SPSS SPSS / contm a linha de base e previu taxas de risco. As tarifas so apresentadas de uma pessoa hipottica escores que, na mdia do covarivel (s). Linhas da tabela so os intervalos de tempo (ex, 0,5 anos, 1,0 anos, 1,5 anos, etc.) SPSS / SPSS gera uma mdia "de covariveis tabela", dando meios covarivel (por exemplo, a idade mdia em um estudo das mortes por doena, ou escore mdio de produtividade em um estudo de promoes). Stata: No Stata, o comando grfico sts gera grficos das funes-Meier de sobrevida Kaplan (grfico r), o Nelson-Aalen funo de risco cumulativa (grfico st, nd), a funo de risco estimada (grfico r, em perigo), e mais , com base em uma anlise previamente calculado com o comando stcox. Trata-se de parcelas com o tempo de anlise sobre o eixo x ea estimativa de sobrevida (1-0) ou a estimativa do risco cumulativo (0-1) no eixo y. Se o "por" parmetro adicionado, o grfico ir exibir curvas duas ou mais funes, uma para cada valor da varivel, (ex., grfico de r, de (droga) vai dar uma parcela de funo para a droga e droga = 0 = 1 se droga tem dois valores). Ou seja, o "por" parmetro permite a comparao de sobrevivncia ou de funes entre os diferentes nveis de perigo de uma covarivel discretos. Se algum quiser sobrevivncia ou de perigo funes como uma tabela em vez de um grfico, este pode ser realizado com a lista sts comando, que tambm pode ter um "por" parmetro. Teste de igualdade das funes de sobrevivncia. Stata, utilizando o comando teste sts, realiza um teste de log-rank (o padro) ou testes alternativos (o de Wilcoxon (Breslow) teste de diferenas nas funes de sobrevivncia, por grupo, o teste de Cox da igualdade, o teste Tarone-Ware da igualdade , o teste Peto-Prentice-Peto de igualdade), o teste de FlemingHarrington generalizada da igualdade). O nmero mximo de grupos de 800. Por exemplo, supondo que um comando stcox j executado, o comando sts gnero de ensaio, Wilcoxon d o teste de Wilcoxon para a igualdade das funes de sobrevivncia por sexo. Qualquer que seja o teste escolhido, obtm-se um valor de qui-quadrado eo significado para esse valor. Se o valor da significncia (p) = <0,05, em seguida, os grupos diferem significativamente pela funo de sobrevivncia. O padro de teste de log-rank apropriado quando a cada tempo de falha deve ser dado o mesmo peso, como quando o pesquisador acredita que as funes de risco so proporcionais entre os grupos. O teste de Wilcoxon pesos, em nmero de indivduos no grupo de risco no momento da falha e adequado quando o pesquisador acredita que as funes de risco no variar proporcionalmente entre os grupos, mas os padres de censura so semelhantes entre os grupos. Os pesos Tarone-Ware teste pela raiz quadrada do nmero de indivduos restantes no grupo de risco no momento da falha e semelhante hipteses para o teste de Wilcoxon; peso nas duas vezes anteriores falha mais fortemente, mas Wilcoxon mais. O teste Peto-Prentice-Peto apropriado quando as funes de risco so assumidos como noproporcional entre os grupos, mas este teste no afetado por semelhana ou dissemelhana de censura padres em grupos. paramtrica em modelos de sobrevivncia Stata, o comando StrEG suporta modelos de sobrevivncia que no seja o modelo de risco proporcional de Cox. Estes so a exponencial, Weibull, log-normal, log-logstico, Gompertz, e os modelos da gama. A produo destes modelos ainda contm um teste de verossimilhana do modelo como um todo, as taxas de risco para as co-variveis, e tambm um teste de parmetro de forma paramtrica assumiu a funo de risco de base (isto relatado como o valor de p "/ ln_p "seguindo as taxas de risco.
parcelas Padro. O boto Parcelas no dilogo SPSS SPSS / permite que o usurio especifique preditores categrica para criar grficos padro, onde os padres so o perigo ou sobrevivncia funes plotados separadamente para cada nvel das variveis categricas, como ilustrado abaixo.
No exemplo acima, a previso categrico tamanho, referindo-se um estado pequena, mdia ou grande. Com relao ao exemplo de ratificao da Constituio, um grande debate no Convenes Constitucionais causa de compromissos entre Estados grandes e pequenos, de modo que possam ser de interesse para comparar estados no que diz respeito funo de risco (onde o "perigo" a ratificao do da Constituio, o tempo e at dia ratificao). Na ilustrao acima, vemos que as funes de risco previstos foram de fato diferente para pequenas, mdias e grandes estados. (Nota: O tamanho no foi um preditor significativo de durao uma vez que outras variveis foram controladas, mas desde que os dados so uma enumerao de todos os 13 estados originais e no uma amostra aleatria, o significado no tem o seu significado normal e relevncia).
Outlier anlise com DfBeta. A opo Salvar da caixa de dilogo de regresso de Cox no SPSS / SPSS, ilustrada acima permite o clculo da estatstica de DfBeta para cada caso, para cada varivel. DfBeta uma medida de quanto um determinado processo ir afetar o coeficiente de regresso para uma dada covarivel. Quanto maior o DfBeta para um determinado caso, para uma dada covarivel, o que mais removendo caso do conjunto de dados ir alterar o coeficiente b para que covarivel. Ou seja, quanto maior o dfBeta, mais o caso "influente" para que covarivel. Influentes casos pode ser manchado, visualmente, pela plotagem DfBeta para uma varivel contra a varivel de ID de caso. Altos valores de bandeira pode DfBeta erros de codificao ou erros de amostragem, ou podem chamar a ateno para clusters de casos que exigem um modelo diferente.
A sada DfBeta salvo acima tem quatro DfBetas para representar os quatro termos do Modelo 2 do exemplo utilizado neste mdulo, a fim de que entraram no modelo: VotePct, Size (1), tamanho (2), e Direitos. No Modelo 2, dos Direitos foi o nico preditor significativo. Nas variveis "na equao" tabela acima , dos Direitos tinha um parmetro coeficiente de -4,227. DFB4_1 estimativas da mudana esse coeficiente se que caso seja removido. Remover SC teria mais efeito em um sentido negativo. Remover NC teria mais efeito em uma direo positiva. A direo positiva corresponde a aumento de risco (de ratificao, caso o estado) e, portanto, menos dias de durao para ratificao. NC teve entre os maiores duraes, para remov-lo seria deixar um dataset com menos dias de durao em mdia. No entanto, a maior DfBeta positivo no corresponde necessariamente a unidade com a maior pontuao de tempo (que seria RI, que no um outlier pelo critrio DfBeta). Pelo contrrio, DfBeta reflete efeitos sobre a durao do evento para uma varivel particular depois de outras variveis no modelo so controladas. .
Parcelas. Alm da produo de estatsticas, o boto de Lotes em regresso de Cox no SPSS / SPSS apoia risco cumulativo, a sobrevida cumulativa, log-log-minus, e parcial lotes residuais. Use of these plots is discussed above in the "Baseline hazard, survival, and cumulative hazard rates" section and below in the "Assumptions" section. The Plots button dialog for PASW/SPSS is shown below.
Pressupostos
o
Assumption of proportional hazards . Cox regression with time-invariant covariates assumes that the ratio of hazards for any two observations is the same across time periods. For instance, in a timeinvariant Cox model the ratio of hazards for persons a and b should be the same this year as in the period 10 years from now. This can be a false assumption, as when 10 years from now person B is in their 70's, when mortality spikes, considering age as the covariate. This is a critical assumption of Cox regression and must be checked for each covariate. Gray (1996; quoted in Box-Steffensmeier & Zorn, 2001: 974) has reported as much as a 90% reduction in the power of significance tests (power = chance of false negatives, rejecting the existence of true covariate effects) when rates cross rather than are proportionate. If a covariate fails this assumption, then for hazard ratios that increase over time for that covariate, relative risk is overestimated (that is, for diverging hazards, coefficient estimates are inflated). For ratios that decrease over time, relative risk is often underestimated (that is, for converging hazards, coefficient estimates are deflated and biased toward zero). ["Converging" means that the hazard rates for two groups formed by a covariate factor are tending toward the same rate over time]. Correspondingly, standard errors are incorrect and significance tests are decreased in power (BoxSteffensmeier & Zorn, 2001: 972). It is common for a covariate to fail the assumption of proportional hazards, and the implication for estimation should be reported. There are alternative ways to check:
Partial residual plots (Schoenfeld residuals PH test) , Graphical methods may be used to examine covariates. In SPSS one may create a plot of scaled Schoenfeld residuals on the y axis against time on the x axis, with one such plot per covariate. A lowess smoothing line summarizing the residuals should be close to the horizontal 0 reference line for the y axis, since the average value of residuals at an tiime should be zero if the effects of the covariate being plotted are proportional (see Box-Steffensmeier & Zorn, 2001: 978-981). Partial residual
methods are the most common and preferred methods for testing for non-proportionality in Cox models. In PASW/SPSS select "Partial residual plots" under the Plots button after first having saved partial residuals by checking "Partial residuals" in the "Save New Variables" dialog box under the Save button in the Cox regression dialog. The X axis is survival time. The Y axis is the partial residual for a given covariate. In a well-fitting model, distribution of residuals over time is random. This can be checked further in the Chart Editor by adding a loess smoothing line or linear regression line to show non-random trends. If random, fit lines should not diverge much from the Y-axis 0 reference line. In Stata. A statistical version is available in Stata by issuing the "estat phtest" postestimation command, provided the prior stcox command requested Schoenfeld residuals with the schoenfeld() option as illustrated in the figure below. The null hypothesis is that there is a 0 slope of the log hazard ratio regressed on time. A finding of nonsignificance, as in the figure below, accepts the null hypothesis and means the proportional hazards assumption is not violated.
Martingale residual plots . If Martingale residuals on Y are plotted against the linear predictor (the right-hand side of the model equation) on X, there should be no pattern of correlation if the proportional hazards assumption is met. PASW/SPSS does not save martingale residuals directly but they may be computed as mresid = event-haz_1, where event is the event variable and haz_1 is the variable saved under the Save option for the cumulative hazard function. The Save option saves the linear predictor values under the default variable name of X'Beta where XBeta is linear combination of mean corrected covariates times regression coefficients from the final model. Survival probability plots . A plot of cumulative survival on the y axis and analysis time on the x axis may be generated for two or more groups of a covariate. If the lines cross, the covariate violates the proportional hazards assumption. This is an indication that it is a time-dependent variable. PASW/SPSS: The covariate in question is entered as a "Strata" variable, not in the Covariates box. Inder the Plots button, select "Survival". Stata: In Stata, the stcoxkm command may be run after defining data with stset but before running stcox (stcoxkm runs Cox itself, for comparision purposes). One can add a "by" parameter (ex., stcoxkm, by(gender) ) to get multiple pairs of predicted/observed curves, one pair for each value of a discrete covariate. There will be one curve for observed and one for predicted values. If the two lines are close together, the proportional hazards assumption is not violated. This tests if the proportional hazards
assumption is valid for all groups. The sthplot command is a similar test, also supporting a "by" parameter: if the proportional hazards assumption is valid, the lines for the "by" variable should be parallel and not cross. Log minus log plots (log-log plots or LML plots). Alternatively, use the log minus log test of proportionality . In this test, requested under the Plots button in PASW/SPSS, have specified the categorical covariate as the Strata variable. When entered as a Strata variable rather than as a covariate, proportional hazard functions are not enforced for each level of the categorical variable. The cumulative survival estimate after the ln(-ln) transformation is applied to the estimates. The X axis is survival time. The Y axis is log minus log. If the survival plots for the groups of a single categorical covariate are oughly parallel (and certainly should not cross), then the baseline survival functions are parallel and the researcher rejects the need to conduct stratified Cox regression. That is, if there is no violation, the hazard function lines or LML for each category should be parallel. Intersecting survival, hazard function, or LML lines indicate clear violation of the assumption of proportional hazards. The LML method is not recommended for multiple covariates or when a covariate is continuous (see BoxSteffensmeier & Zorn, 2001: 975-976). Time interaction test . If the assumption of proportional hazards is not violated for a given numerical (continuous or categorical) covariate, then the interaction term between that covariate and time (ex., age*time or more commonly, age*log(time)) can be added to the model as in regression, and should have a regression coefficient not significantly different from zero. If the time interaction effect is significant for a covariate, then the proportional hazards assumption is violated and the covariate should be modeled as time-dependent. In the PASW/SPSS option for "Cox Regression with a Time-Dependent Covariate" one may add time-covariate interactions to the model and if the interaction is not significant, then the covariate in question is not time-dependent and would not violate the proportional hazards assumption in Cox regression. Categorical covariates . For a given categorical covariate, one may compute the baseline hazard function for each category of that covariate. The shape of the baseline hazard functions should be similar if the assumption of proportional hazards is not violated. In PASW/SPSS, click Plots, check the "Hazard" checkbox, and enter the categorical covariate in the "Separate lines for" textbox. Piecewise regression method . Though considered an imprecise "rule of thumb" method, one may divide the sample into observations above and below the median survival times, then model each sample separately to see if the estimated hazard ratio for each covariate coefficient is the same, thus supporting the proportional hazards assumption. Harrell's rho . A rho coefficient may be computed for each covariate. A significant rho means that covariate violates the proportional hazards assumption. Relation to Cox regression with time-dependent covariates . If a covariate fails the test of proportional hazards, this is evidence that it is time-dependent and one needs to abandon ordinary Cox regression in favor of Cox regression with time-dependent covariates. Alternatively, one may include a time-covariate interaction term in the model. As a third alternative, the covariate may be entered as a Strata variable, but then regression coefficients are not computed so this is only an option when the covariate is not of research interest. True starting time . The ideal model for survival analysis would be manufacturing of a motor or light bulb, where there is a true zero time (the time of manufacture, before which failure is logically impossible). In medicine, the true zero point is often birth, before which death from a disease is impossible. However, the true zero time in other analyses may be less clear. This is the case in most time-to-adoption studies, where what is adopted is an innovation or piece of legislation. If the zero point is arbitrary or ambiguous, this means that the data series will be different depending on starting point and hence the computed hazard rate coeffiicients will differ, perhaps markedly. (Except if there are no data on predictor variables for, say, years 1900-1980 in a study of 1900-2000, the coefficients will be the same as for a study of 1981-2000). If there is ambiguity about the true starting time, at a minimum the researcher should conduct a sensitivity analysis to see how coefficients may change
o o
according to different starting points for data on the predictor variables. Sensitivity analysis may or may not lead the researcher to conclude that Cox modeling is inappropriate. Clearly defined events . The status variable must be unambiguously defined, so that any subject for any time period, that subject may be clearly assigned (usually to status=0 or status=1, depending on whether the event of interest had occurred). "Ordinary" Cox modeling deals with situations where the unit of analysis has a risk of a particular event, not a series of different types of events. If the actual data have events representing multiple states, the researcher should use more complex multiple event models for such data. For example, the model for "diplomatic resolution" may be very different from the model for "military resolution," and subsuming both under "conflict resolution" will yield estimates unsatisfactory for explaining either state when using usual single-event Cox models. Rather, multiple states should be modeled explicitly. Absence of outliers . As in nearly all forms of analysis, outlier cases can bias estimates. See above for a discussion of statistical output used in analysis of possible outliers. No small samples . Precision of parameter estimates using the partial likelihood methods employed in Cox models can be much less than for maximum likelihood methods employed in parametric event history models. Therefore, according to Box-Steffensmeier & Jones (1997: 1434), "this [Cox] method should not be used with small samples." Proper model specification . As in other forms of regression, the Cox (and parametric EHA models) regression coefficients may change substantially and even reverse direction if previously omitted relevant variables are added to the model, or if irrelevant but correlated variables are removed from the model. In an event history analysis (EHA) context, this is discussed as the problem of unobserved heterogeneity , meaning bias introduced by omitting important explanatory variables. Unobserved heterogeneity (the effects of variance in important but unobserved variables) is associated with downward bias in duration dependence (Vermunt and Moors, 2005: 10). Unobserved heterogeneity also biases estimates of covariate effects. Unobserved heterogeneity may be addressed by including random effects in the EHA model, using a time-constant latent covariate. See Heckman and Singer (1982) on random effects procedures. See BoxSteffensmeier & Jones (2004: Chapter 9) for an extended discussion of unobserved heterogeneity and ways to deal with it, including frailty models (including a random parameter in the hazard rate to represent unmeasured risk factors) and split-population models (dividing observations into a sample that will never experience the event and a sample at true risk of experiencing the event, so as to avoid the bias that arises when large numbers of cases are not "truly" at risk). Model-trimming strategies apply to Cox and other EHA models. Since coefficient size is a function of other covariates in the model, including inappropriate covariates, when the hazard ratio for some covariates is found to be non-significant, the researcher should drop the most non-significant covariate from the model, re-run the analysis, and proceed stepwise until there are no more non-significant covariates in the final model. It is possible that substantive interpretation of the final covariates may differ from inferences that might have been made for the model including non-significant covariates. Few ties . Because Cox methods rely on order of events, handling ties poses a computational problem. Although there are methods for handling ties (ex., the Breslow method is most often used), as a rule of thumb, there should be 5% or fewer tied observations in the dataset to still assume insignificant bias (Prentice & Farewell, 1986: 14). Independent observations . EHA models assume the observation's event status at one point in time does not predict the observation's event status at a subsequent point in time. Lack of independence leads to error terms being correlated, which in turn leads to biased estimates of standard error and significance. This is the problem of autocorrelation in time series analysis. Since in diffusion studies and many other social science areas independence is not a sound assumption to make, time dependence must be modeled. For instance, a time variable may be included as a covariate, and/or a surrogate variable added such as number of neighbors adopting the innovation in a diffusion study. Robust estimators . When data independence is an issue, the problem can be mitigated by the use of robust variance estimation , which relaxes assumptions about the distribution of error
terms. Less commonly, clustered standard errors may be computed, which relaxes assumptions of independence even further. Clustering accounts for serial time or spatial dependence by dividing the data into groups defined by a grouping variable, then computes standard error across clusters. With time series data, one should assume that it is quite possible that data will be temporally dependent (the value at time t+1 is partly a function of its value at time t). This is related to the autocorrelation problem in time series analysis . In Cox and other EHA models, however, the researcher need not de-trend the data but only use "robust variance estimation", which refers to algorithms by Lin & Wei (1989) and Huber (1967) to adjust standard errors for time dependency. Robust estimation is usually the default in Cox and EHA software. It results in the same parameter estimates as standard variance (algorithms assuming independence) but higher standard errors. That is, robust estimation increases the possibility that parameters will be found to be non-significant. Robust estimation is recommended for parameter estimation for time-dependent covariates unless the researcher can demonstrate lack of time dependency in the data (that is, robust estimation should be used most of the time).
o
o o
Not applying single-event models to multiple event data . "Ordinary" Cox modeling deals with situations where the unit of analysis has a risk of an event, and after the event occurs the unit drops out of the risk pool. If the actual data are multiple event in nature, meaning the unit is still at risk even after the event occurs the first time, the use of single-event models in serial fashion assumes that experiencing an event in the past has no influence on experiencing the event in the future. Since this assumption may well not be met, hazard ratios will be biased. Instead, the researcher should use more complex multiple event models for such data. Exogenous covariates . Interpretation of hazard ratios in models with time-varying covariates assumes those covariates are exogenous (covariate values may affect duration to event, but duration does not cause the values of the covariate). Box-Steffensmeier & Jones (2004: 112) give the example of casualties as a time-dependent covariate in a model of war duration: the Cox model assesses if casualties affect war duration, but if war duration also causes casualties (as it would), casualties is an endogenous covariate and Interpretation of hazard ratios will be biased for that covariate. Unfortunately, there is no accepted method of dealing with endogenous covariates, yet leaving out a causally important endogenous covariate may be a form of model misspecification, with equally problematic implications. The researcher is forced to choose the path of lesser evil. This problem is not unique to Cox modeling. Factor invariance . It is assumed that the causal factor structure is the same at the end as at the beginning of the study period. Baseline distribution of survival times . Cox regression does not assume any particular baseline distribution of survival times, unlike parametric survival analysis models such as Weibull models, exponential models, and other models as found in Stata's streg procedure (see above). Put another way, Cox regression does not assume any particular distribution shape for the duration times of events. This is because the "dependent variable" in Cox regression is not the event or time to event, but rather the hazard rate. As such Cox regression is more robust than parametric models if the other assumptions of Cox regression are met. Hazard rate linearity . Se o tempo medido por uma varivel de contador em unidades de tempo, o modelo de Cox assume que o risco aumenta linearmente com o tempo, condio de co-variveis no modelo. Log linearity . Covariates are assumed to be linearly related to the log of the hazard function. This is tested by running the model without the given covariate, then computing martingale residuals and plotting them on the y axis against the omitted covariate on the x axis. If the loess smoothing line through the scatterplot is close to linear, there is log linearity for that covariate. If log linearity is not present, one may have to transform the covariate (ex., use the square). PASW/SPSS does not save martingale residuals, but it does save values for the cumulative hazard; then use Transform, Compute
o o
Variable to compute martingale = event - Haz_1, where event is the event variable and Haz_1 is the saved cumulative hazard variable. No high multicollinearity . Not having high multicollinearity is an assumption of Cox regression, as in other forms of regression. The "Correlation Matrix of Regression Coefficients" table in PASW/SPSS output checks this. If there are multiple highly correlated covariates, one strategy is to include in the model only one variable from the set of intercorrelated variables. Random sampling of data is assumed. This is discussed further in the FAQ section below . No censoring patterns . Censored cases must be independent of the survival distribution. Censored data are the cases where the event never occurs (where the status variable remains equal to 0) for all time periods. There should be no pattern to these cases, which instead should be missing at random. For example, it could be all censored cases in a public policy study are cases which were ineligible for policy benefits, thereby affecting their status on the status variable. When there is no patterning, subjects entering in different time cohorts should be similar on the average.
Example of PASW/SPSS Cox Regression Output

o
Cox Regression output from PASW/SPSS 14
Perguntas mais freqentes

o
Why can't we just use OLS or logistic regression to analyze time until event data? There are four main reasons: 0. Censored data are not handled by traditional methods. Any given dataset on, say, disease and death, will contain data on people who have the disease and died (the uncensored observations) and people who have the disease but who have not yet died (the censored observations, meaning that the data on how long they will live is not yet known). Censored observations occur in all time to event data unless the data are historical, with all data present for all observations. Traditional regression methods would require either dropping censored cases, thereby risking sample selection bias, or treating censored cases the same as those for whom the event (ex., death) occurred in the final time period. thereby also biasing computed coefficients. Whereas the usual regression model uses ordinary least squares or maximum likelihood estimation of parameters, Cox regression uses partial likelihood methods, which do not assume uncensored data. In Cox regression, the computation of the regression coefficients is based only on the uncensored cases, but all cases are used when estimating the baseline hazard. Thus Cox regression uses all available information and is considered a full information method, whereas OLS and logistic regression are partial information methods when censored data are present. 1. Time varying independent variables can be handled in Cox regression but not in traditional regression. 2. Event distribution . Traditional regression requires events be well distributed over time. However, event analysis frequently centers on the analysis of rare events which are not well distributed. With such data, most time periods will have a value of zero. The large numbers of zeros may inflate correlations and parameter estimates in traditional regression, which is why techniques such as Poisson regression are more appropriate.
3. Full effect vs. net effect . Also, OLS and logistic regression on cross-sectional data yields effect sizes which show net effect. When the variable in question "cuts both ways," effects could even cancel out, yielding an effect size of zero and the erroneous conclusion that the variable did not matter (ex., education in the short term decreases the likelihood of being employed but in the long term increases the likelihood of being employed; for a population ages 18-22, it is possible that these cross-cutting effects would cancel out). Even when there is not complete self-canceling, traditional regression on cross-sectional data lacks the ability to establish causal direction of the net effects. Moreover, if the process being studied is not stable over time, even the net effects found in cross-sectional regression will be misleading (if, for instance, the proportion of unemployed to employed varies greatly over time in a study of the effects of eduction on employment). To study such processes, one needs a time series method which traces the individual through various states (ex., unemployment, employment) over a long period of time during which various relevant events (ex., degree completion) may occur. Couldn't I use Poisson or logistic regression instead of event history models when analyzing time to event? 1. Cross-sectional OLS using duration times as the dependent variable was the original approach. However, OLS does not allow assessment of time-varying predictors unless such variables are aggregated, but aggregation intoduces bias of its own. OLS models of duration times can even generate impossible negative durations. 2. Time series regression using count of cases experiencing the event in a given time period became a second popular approach. Because counts were the dependent, Poisson regression was often used in place of OLS regression. While this approach supports time-varying predictors, it does not support individual-level (id-level) effects. 3. Logistic regression using a binary (0, 1) event variable as the dependent became another popular approach, but this did not support time-varying predictors either. For further discussion of why event history methods like Cox regression or survival analysis are preferred to using logit or probit regression in diffusion studies, click here . When would one use a parametric event history analysis model rather than a Cox model? Only when one has strong theoretical reasons for positing a particular distribution (shape) for the baseline hazard function, which is very rarely. Cox models can generate the same information as EHA parametric models without having to make as strong data assumptions. Box-Steffensmeier & Jones (2004: 66) write, "there are few instances we can think of where one would naturally prefer a parametric duration model over a Cox-type event history model for most kinds of social science applications." Also, as noted by Buckley & Westerland (2004), in the past there has been over-reliance on parametric EHA models such as logit and probit which, unlike Cox models, require the researcher to specify duration dependence (the shape of the hazard rate over time), misspecification of which can lead to computed standard errors which are too large or too small, leading to errors of inference.
Describe data setup for Cox regression Event history data setup . If there are no time-varying covariates, event history data setup has a code for the unit of analysis (ex., states), a 0-1 code for whether the risk event (the "censoring variable") ever occurred for that unit, a duration (time elapsed) count variable (ex., 12 for 12 time units since onset of risk), and one or more columns for the time-fixed covariate(s). If there is a time-varying covariate, there must also be a duration (time periods to event) variable and each unit of analysis must have a separate row for each time the covariate changes in value. More often, however, the counting process data setup is used for time dependent data. Of course, data setup must be compatible with the software used. Data setup in Stata is discussed below .
Counting process data setup . Time dependent data and multiple event data (where the risk event may occur more than once for the same unit of analysis) are usually entered in "counting process" format. Each unit of analysis (ex., states) has an id code and is represented by as many rows of data as there are time periods (ex., years). There is also a column for the time periods (ex., years from 1980, 1981, etc.). There are also columns for the start or stop interval number, with the start representing the start of risk and coded 0 (thus start/stop 3,4 would be the start of the 4th year of risk and the stop would be the end of the 4th year). The start of "0" would not necessarily be the same actual year for every unit if for some reason the start of risk varied by unit. There would also be a column for the risk event (the "censoring indicator"), coded 0 or 1, with 1 being the occurrence of the event. And there would be additional columns for the timevarying and time-fixed covariates. Discontinuous risk intervals . Under unusual circumstances, some units of analysis might not have rows for some time periods (ex., some years) if risk did not exist for those periods. For example, in a study of peace=0, war=1, a country already at war would not be at risk of war, so that country would have a row for the year war started but would have no further rows until it was again at risk of another war (that is, the first year of peace). Cox data setup in Stata: Survival time data (st data) is a data format in which each observation is a time span for a given observation (subject). There is an id variable which indicates the subject associated with the given observation. If the id variable is omitted, it is assumed all observations pertain to a single subject ("single-record st data"). There are variables t and t0, where the span is (t0, t), meaning the period from just after analysis time t0 up to and including time t. If there is no t0 variable, t0 is assumed to equal 0. For instance, the t0 variable might be labeled "Begin" and the t variable labeled "End." There may also be an event (aka status or failure) variable, d, for each observation, where d=1 if the observation failed (the event occurred) during that particular span but if not, is 0. For instance, the event variable d might be labeled "Died" or "Adopted." If there is no event variable, it is assumed that all observations fail (the event occurs) at time t. There may also be covariate variables (ex., Age, Income). In Stata, Cox regression and related survival analysis is performed on st data. Declaring st data in Stata is the first step in Cox regression in Stata (unless you have ct data, discussed below), accomplished with the stset command. In the menu system, select Statistics, Survival Analysis, Setup & Utilities, Declare data to be survival-time data. Enter the time variable and the failure variable. The stset command declares the researcher's data format. At a bare minimum, the time variable must be declared. There are various variants depending on whether the st data also have an id variable, a t0 variable, or an event variable. Covariates will be utilized if in the dataset and do not have to be declared. Examples are from the Stata manual: 0. Single record data . Command: stset failure. For a dataset on electric generator lifetimes, with three variables: failtime (the t or analysis time variable), load (a covariate), and bearings (another covariate). Failure is assumed to occur at time = failtime. The t0 variable is assumed to be 0. 1. Single-record data with censoring . Command: stset failtime, failure(failed). For a similar dataset but with an event variable called 'failed' as well as failtime, load, and bearings. If the event variable is zero (failed = 0) for an observation, failtime is the time, t, at the point of observation and no failure occurred (ex., measurement was stopped at time t and the case is censored, meaning we know the generator will fail at some point after t but we do not know when). 2. Multiple-record data . Command: stset t, id(patid) failure(died). For a dataset on patients where patid is the patient id; t is the analysis time at the point of measurement; died is the event variable (0 or 1, with 1 = died); and there are covariates also. 3. Multiple-record data with multiple events . Command: stset day, id(patid) fail(code==402). For dataset with patid = patient id; day = the time variable (t); code =
hospital patient status codes, where 402 = death; and there are covariates. So this command is saying day is the time variable, patid is the id variable, and code=402 is equivalent to the event variable = 1. (Note the actual command must have two equal signs). 4. Multiple record data recording time rather than t (analysis time) . Command: stset curday, id(patid) fail(code==402) origin(time adday). For a similar dataset, but with adday containing the day of admission (entered in time units) and curday containing the time variable (number of days since the ward opened in this case). The origin for a given patient is (curday - adday). Analysis is done on curday adjusted for adday. That is, the origin() function converts the time variable into an analysis time variable. Note: in Stata, dates may be displayed in date format but are, in fact, integers, so in this example, curday could be a date variable without any change to the command syntax. 5. Multiple record data with time from event . Command: stset curday, id(patid) fail(code==402) origin(code==286). Let hospital code 286 mean "patient undergoes operation." Then for the same dataset as above, this command analyzes time from operation until death (code==402). That is, having an operation is considered the onset of risk in this command syntax. In the one above, admission to hospital was considered onset of risk. 6. Multiple record dataset with delayed entry of observations . Command: stset curday, id(patid) fail(code--402) origina(time adday) enter(code=152). Let hospital code 152 indicate a patient is given a test. The enter() function adds a patient to the analysis only once a record indicates the patient has had the test (code==152). That is, observations for this patient after the one with code=152 will be in the sample. 7. Scaling time data . Sometimes the original time variable must be adjusted not only for a different origin (ex., the original time variable has 0 as the start of measurement, not the onset of risk) using the origin() function, but also there is a need to convert time units using the scale() function. For instance, the original time variable may be in days, but the researcher wants years. Since there are 365.25 days in a year, adding the function scale(365.25) to the stset command line will rescale the timevar variable as desired. The default is scale(1), which accepts the time units as originally entered. 8. Other functions . Not discussed here, Stata also provides a number of additional functions such as enter() and exit() for specifying when an observation is in the sample; and if(), ever(), never(), and after() for conditional inclusion, 9. Temporary re-declaration of st data . Not discussed here, Stata supports the streset command to temporarily re-declare a previously declared st dataset, but with different options (ex., a different definition of time origin). 10. Other data setup commands . The Stata command stfill is used to fill in missing values, as by carrying forward covariate values from the first observation. The stbase command resets all variables in a multiple-record dataset to the base values in the earliest record for the subject. The command stgen will create new covariates as functions of time variables and covariates (ex., create the variable evervoted if for any time period the variable voted=1). The command stsplit will create multiple records out of one record, as to add a time-varying covariate which will be the same for existing variables but have different values of the covariate for each of the new records. 11. Error messages . Stata does a certain amount of data format error-checking, with error messages for "event time missing," "entry time missing," "multiple records at the same instant," and "overlapping records," among others. Count time data (ct data) is an alternative data format in which each observation is a time. For each time, there are variables for the number known to fail during that time; the number of right-censored cases (see below); and the number of new cases added during the given time. In Stata, ct data is first converted to st data using the ctset (declare data to be count-time data) and cttost (convert ct data to st data) commands.
Snapshot data is a common real-world data format that must be converted to st data format. Rather than have separate t0 (begin) and t (end) variables, there is just a time-of-observation variable. In Stata one converts snapshot data to st data using the snapspan command (syntax: snapspan idvar timevar varlist). Stata will take the earliest timevar and make that t0 and use time units since t0 to create the analysis time, t, variable entries. The varlist variables in the converted st dataset will have the values from the corresponding observations of the snapshot dataset. Any variables not in varlist will have the values carried forward from the t0 record/observation.
Why is no intercept coefficient reported for Cox models? In Cox models, the intercept is incorporated in the baseline hazard function.
Since the Cox model does not posit any particular baseline hazard ratio, how can the baseline hazard function be retrieved? The survivor function can be estimated from the order of failure times, the risk at any given failure time, and the assumption of a constant hazard rate between failure times. From the survival function, the hazard function can be derived. See the summary by Box-Steffensmeier & Jones, 2004: 64-65; or the original articles by Kalbfleisch & Prentice, 1973, 1980. Note that the estimate of the baseline hazard function in Cox models is data-driven, whereas in parametric event history analysis models, the baseline hazard function is selected based on theory, or possibly based on comparisons of model fit among several alternative parametric models, each positing a shape of the baseline hazard function.
Does SPSS support multilevel Cox regression? No, although the strata option does generate different baseline hazard functions for subgroups of a categorical variable. Stata software does support multilevel Cox regression.
Can I use Cox regression with non-random samples? Boehmke, Morey, & Shannon (2006) conducted Monte Carlo simulations on this question, coming to the conclusion that "sample selection issues can lead to biased parameter estimates, including the appearance of (nonexistent) duration dependence" (p.192). The authors further found that nonrandom selection of samples could lead to "inaccurate predicted hazard and survival functions" and "erroneous conclusions about what factors influence (or do not influence) the duration process of interest" (p. 205).
Bibliografia
o
Boehmke, Frederick J., Morey, Daniel S., & Shannon, Megan (2006). Selection bias and continuoustime duration models: Consequences and a proposed solution. American Journal of Political Science 50(1): 192207. Blossfeld, Hans-Peter; Golsch, Katrin; & Rohwer, Gtz (2007). Event history analysis with Stata . Mahwah, NJ: Lawrence Erlbaum Associates.
o o o o o o o
o o o
o o o o o o o
o o
Blossfeld, Hans-Peter; Rohwer, Gtz (1995). Techniques of event history modeling . Mahwah, NJ: Lawrence Erlbaum. Box-Steffensmeier, Janet M. & DeBoef, Suzanna (2006). Repeated events survival models: The conditional frailty model. Statistics in Medecine 25: 3518-3533. Box-Steffensmeier, Janet M.; DeBoef, Suzanna; & Joyce, Kyle A. (2007). Event dependence and heterogeneity in duration models: The conditional frailty model. Political Analysis 15(3): 237-256. Box-Steffensmeier, Janet M. & Jones, Bradford S. (1997). Time is of the essence: Event history models in political science. American Journal of Political Science . 41(4): 1414-1461. Box-Steffensmeier, Janet M. & Jones, Bradford S. (2004). Event history modeling: A guide for social scientists . NY: Cambridge University Press. Box-Steffensmeier, Janet M. & Zorn, Christopher JW (2001). Duration models and proportional hazards in political science. American Journal of Political Science 45(4): 972-988. Buckley, Jack, & Chad Westerland. (2004). Duration dependence, functional form, and correct standard errors: Improving EHA models of state policy diffusion. State Politics and Policy Quarterly 4( 1): 94113. Cleves,Mario Alberto; Gould, William; Gutierrez, Roberto; & Marchenko, Yulia (2008). An introduction to survival analysis using Stata, Second ed. . College Station, TX: Stata Press. Stata is a preferred software package for Cox regression and survival analysis, and this is perhaps the mostrecommended Stata text for it. Gray, Todd Edward (1996). The impact of deviations from the proportional hazards assumption on power in the analysis of survival data.. Unpublished MPH Thesis, Department of Biostatistics, Rollins School of Public Health, Emory University. Hausman, Jerry A. (1978). Specification tests in econometrics. Econometrica 46: 1251-1271. Hosmer, DW & Lemeshow, S. (1999). Applied survival analysis . NY: John Wiley & Sons. Huber, PJ (1967) The behavior of maximum likelihood estimates under non-standard conditions. In Proceedings of the Fifth Berkely Symposium on Mathematical Statistics and Probability . Berkeley: University of California Press. Jones, Bradford S, & Branton, Regina P. (2005). Beyond logit and probit: Cox duration models of single, repeating, and competing events for state policy adoption. State Politics and Policy Quarterly 5(4): 420-443. Kalbfleisch, JD & Prentice, RL (1973). Marginal likelihoods based on X\Cox's regression and life model. Biometrika 60, 267-278. Kalbfleisch, JD & Prentice, RL (1980). The statistical analysis of failure rate data . NY: John Wiley. Klein, JP & Moeschberger, ML (1997). Survival analysis: Techniques for censored and truncated data . NY: Springer. Lin, DY & LJ Wei (1989). The robust inference for the Cox proportional hazards model. Journal of the American Statistical Association 84: 1074-1078. Mills, Melinda (2010). Introducing survival and event history analysis . London: Sage. Provides R examples. Prentice, RL & Farewell, BT (1986). Relative risk and odds ratio regression. Annual Review of Public Health 7: 335-338. Ragusa, Jordan Michael (2010). The lifecycle of public policy: An event history analysis of repeals to landmark legislaive enactments, 1951-2006. American Politics Research XX(X): 1-37. Published online in July, 2010, and downloaded from apr.sagepub.com. Provides an example of using event history analysis using Stata. Spruance, SI; Reid, JE; Grace, M.; & Samore, M. (2004). Hazard ratio in clinical trials. Antimicrobial Agents and Chemotherapy 48(8), 2787-2792. StataCorp (2005). Stata survival analysis and epidemiological tables reference manual release 9 . College Station, TX: StataCorp LP. Lists all Stata commands and options pertaining to Cox regression and survival analysis, with examples. Unrau, YA & Coleman, H. (2006). Evaluating program outcomes as event histories. Administration in Social Work 30(1): 45-65.
@c 2006, 2008, 2009, 2010 G. David Garson last updated 9/7/2010.
Estatstica Mdica e Epidemiologia (153133) Anlise de Sobrevivncia (semana 02)

Hazard / taxas de insucesso, de regresso de Cox
K. Poortema, 24-10-2006
NDICE 1 2 3 4 5 6 7 Funo de sobrevivncia e funo de risco Distribuies de taxa de falha Kaplan Meier Os modelos de regresso modelo de riscos proporcionais Modelagem e ensaios no modelo de riscos proporcionais Atribuio
Seo 1: Funo de sobrevivncia e funo de risco

Esta parte do curso de Medicina de Estatstica e Epidemiologia negcios com a modelagem e anlise de dados que tem como principal ponto final do tempo at que um evento ocorre. Tais eventos so referidos genericamente como falhas que o evento pode, por exemplo, ser o desempenho de uma determinada tarefa em uma experincia de aprendizagem em psicologia ou mudana de residncia, em um estudo demogrfico. As principais reas de aplicao, no entanto, so estudos mdicos sobre doenas crnicas e ensaios de vida industrial. Ns supomos que as observaes esto disponveis no tempo de falha independente indivduos. Deixar ser a varivel aleatria no negativo que representa o tempo de falha de um indivduo arbitrrio. Supomos que a distribuio de probabilidade de descrito por uma funo de densidade . Iremos introduzir a funo de sobrevivncia ea funo de risco que caracterizam a distribuio de tambm. A funo de sobrevivncia definida por (1)
e igual a , Onde a distribuio cumulativa de . (Nota para cada nmero no caso de uma funo de densidade). Desde a funo de distribuio cumulativa especifica a distribuio de , A distribuio de especificado como tambm pela funo de sobrevivncia . A funo de risco especifica a taxa instantnea de falha em sobrevivncia em condicional ao tempo e definida pelo limite de da seguinte proporo: (2) Tomado esse limite obtemos (3) . Note que a derivada da funo de sobrevivncia igual a . A distribuio dos especificado por sua funo de risco, mas tambm porque a funo de sobrevivncia determinado pela funo de risco: (4) (Nota: )
Seo 2: Distribuio de taxa de falha

Nesta seo, apresentamos uma srie de modelos de distribuio de . O parmetro de uma distribuio exponencial obtida para tendo a funo de ser um perigo constante: (Com , Da
e siga com bastante facilidade. Assim, para a distribuio exponencial da taxa de falha instantnea independente da de modo que a chance condicional de falha no depende de quanto tempo o indivduo foi a julgamento. Isso conhecido como a propriedade sem memria da distribuio exponencial. Uma verificao emprica da distribuio exponencial para um conjunto de dados de sobrevivncia fornecido por traar o log da estimativa da funo de sobrevivncia versus . Essa parcela dever aproximar de uma reta passando pela origem como se pode concluir a partir de (7). Uma importante generalizao da distribuio exponencial permite uma dependncia de potncias da funo risco no tempo. Isso produz os dois parmetros da distribuio Weibull com funo de risco (8) . Esta funo risco montona decrescente para montona crescente para e reduz a uma constante, se . Para a distribuio Weibull obtemos (9) (10) Uma verificao emprica para a distribuio Weibull fornecido por uma parcela da estimativa de contra . A trama deve dar cerca de uma linha reta.
Em geral, a distribuio de uma falha ou tempo de sobrevivncia a inclinao. Skew distribuies podem ser modelados por meio de uma distribuio lognormal ou uma distribuio gama to bem. Se tem uma distribuio lognormal, ento isso significa que tem uma distribuio normal, descrito por expectativa e uma varincia . A distribuio gama pode ser considerada como uma outra generalizao da distribuio exponencial, a sua funo densidade , onde a conhecida gama de funes muito bem: ( ). Para a densidade (11) se reduz a densidade da distribuio exponencial, a nota .
Seo 3: Estimador de Kaplan Meier

A anlise de sobrevivncia est preocupado em estudar o tempo entre a entrada de um estudo e um evento posterior. Originalmente, a anlise estava preocupado com o tempo at morte, da o nome, mas a anlise de sobrevivncia aplicvel a muitas reas, bem como a mortalidade. Uma caracterstica comum de dados de sobrevivncia censura, isso significa que a falha exata tempos de um certo nmero de indivduos no so conhecidos. Existem vrias razes para censurar, para citar alguns: Alguns pacientes podem ter deixado o estudo inicial, so perdidos de seguimento. Exemplos: a emigrao, os acidentes fatais no trnsito (concorrente de risco) Estudo termina quando um tempo fixo atingido (direito de censura do tipo I) Estudo ens quando um nmero fixo de ocorrer uma falha (direito de censura do tipo II) Nestes exemplos, h direito a censura, o que significa que algumas vezes o fracasso no so conhecidas. Para estes uma falha desconhecida vezes s se sabe que o tempo de falha superior a um valor conhecido, chamado censurar o tempo. Neste texto, vamos supor que o processo de censura independente do processo que pretende estudar. Alm disso, consideramos apenas a censura direita. Estudamos a sobrevivncia de 49 pacientes com cncer colorretal Dukes'C. Os tempos de sobrevivncia (meses) de dois grupos de tratamento so os seguintes.
Control ( Tratamento (
)
3+ 6 6 6 6 8 8 12 12 12 + 15 + 16 + 18 + 18 + 20 22 + 24 28 + 28 + 28 + 30 30 + 33 + 42
cido linolico,
1+ 5+ 6 6 9+ 10 10 10 + 12 12 12 12 13 + 15 + 16 + 20 + 24 24 + 27 + 32 34 + 36 + 36 + 44 +
12 +
Aqui + significa censura. A primeira entrada (3 +) do grupo controle significa que o paciente deixou o estudo, depois de meses de sobrevida 3. Assim, o tempo de sobrevivncia correspondente conhecido por ser superior a 3 meses, 3 (meses) o tempo de censura do paciente. Para o grupo de tratamento que deve estimar a funo de sobrevivncia . Para a estimativa do usamos o estimador de Kaplan Meier, tambm chamado de estimador produto limite. Suponha que os tempos de sobrevivncia, incluindo observaes censuradas, de um grupo homogneo de pacientes so representados por . Ns assumimos que os tempos de sobrevivncia (pacientes) j esto ordenados de tal forma que . Para um dado valor encontrar o maior valor de tal forma que , A probabilidade ento estimado pela (13) onde o nmero de indivduos, pouco antes do tempo vivo (O dia k ordenou o tempo de sobrevivncia) e denota o nmero de pessoas que morreram na hora . Vamos determinar as estimativas para o grupo de tratamento. A estimativa da Frmula (13) o produto de fatores . Para observaes censuradas 1 + 5 + e esses fatores igual a 1. Recebemos para . Aps a recepo do estimador de Kaplan Meier, obtemos (14) para (15) para (16) para (17) para para A estimativa Kaplan Meier apenas um passo funo, funo esta etapa somente as mudanas no tempo de sobrevida com um resultado positivo , Para o grupo de tratamento com esses tempos so 6, 10, 12, 24 e 32. Cada fator no estimador de Kaplan Meier representa uma menos uma taxa de risco calculado. Tempo de sobrevivncia considerarmos o nmero de pessoas ainda vivas, algumas vezes chamado o nmero de risco, este o nmero . Ento, a probabilidade de sobreviver condional estimado de forma direta pela . parcela seguinte um grfico da estimativa da funo de sobrevivncia do grupo de tratamento.
A parcela correspondente do grupo de controle a seguinte.
Seco 4: Os modelos de regresso

Na seo 2 distribuies de sobrevivncia foram introduzidas diversas para a modelagem da experincia de sobrevivncia de uma populao homognea. Normalmente, no entanto, existem variveis explicativas sobre a qual pode depender tempo de falha. Assim, torna-se interessante considerar generalizaes destes modelos a ter em conta as informaes de variveis explicativas.
Considere vezes falha de indivduos. Para cada indivduo temos valores de variveis explicativas. Observe que o explicativas podem incluir tanto variveis quantitativas e variveis qualitativas como grupo de tratamento, esta pode ser incorporada atravs do uso de variveis indicadoras. O principal problema tratado nesta seo a de modelagem a relao entre o tempo de falha e as variveis explicativas. A distribuio exponencial pode ser generalizado para obter um modelo de regresso, permitindo que a taxa de falha a funo de . Em modelos de regresso uma prtica comum que a varivel dependente depende das variveis explicativas apenas por uma funo linear , onde so parmetros desconhecidos. Para a distribuio exponencial, temos uma funo de risco constante . Em um modelo de regresso para anlise de sobrevivncia pode-se tentar modelar a dependncia dos motivos tomando a) perigo de nova taxa (a ser , A) a nova taxa de risco ( considerado como sendo uma constante ( ) Algumas vezes a funo da funo linear . taxas de risco a ser positiva, natural de escolher a funo de tal forma que positiva, independentemente dos valores de . Por esta razo, muitas vezes leva , A taxa de risco em um modelo de regresso ento modelado por . Na anlise de sobrevivncia tempo de falha acelerado modelos so obtidos atravs de modelagem do tempo de falha log em vez do tempo de falha em si. Vamos explicar o que a hiptese (21) sobre a funo de risco significa que se ns estudamos o tempo de falha log . Vamos usar o seguinte fato da teoria da probabilidade: se tem a distribuio exponencial com parmetro ento podemos escrever onde uma varivel aleatria com uma distribuio exponencial com parmetro . Observe que a funo de sobrevivncia igual a , que igual a (7), a funo de sobrevivncia de uma distribuio exponencial com parmetro , Portanto, de fato e so idnticos no que diz respeito sua distribuio. Conseqncias da (21) so:
Por tempo de falha log que quase se um modelo de regresso tradicional. Note que o termo o intercepto (constante) do modelo de regresso, este prazo pode ser estimado considerando que ambos os e no podem ser estimados. A perturbao no tem uma distribuio normal, em vez podemos dizer que tem a distribuio exponencial com parmetro . De (24) pode-se concluir que os efeitos das covariveis (variveis explicativas) atuam aditivamente na . Lembre comeamos com (21): o ato multiplicatively covariveis sobre a taxa de risco. Vamos agora considerar a distribuio Weibull, portanto, uma funo de risco dada por (8). Para a distribuio Weibull anlogo de (21) :
, como uma questo de fato, a taxa de risco de base passa a ter
. Voltamos a estudar o tempo de falha log . Usando a teoria da probabilidade, podemos afirmar o seguinte: se tem uma distribuio de Weibull com parmetros e ento podemos escrever onde tem a distribuio exponencial com parmetro . Para provar isso, ns mostramos que a funo de sobrevivncia equals (9), a funo de sobrevivncia da distribuio de Weibull: , o que equivale a expresso (9). De (26) e pode-se obter:
com . Esta equao de regresso uma generalizao de (25), conforme o esperado. Mais uma vez os efeitos das covariveis ato aditiva no tempo de falha de log.
Seco 5: O modelo de riscos proporcionais

Um modelo com uma taxa de risco especificados pelo (21) chamado de modelo de riscos proporcionais. Equao (21) parte integrante do modelo de regresso com uma distribuio exponencial para o tempo de falha. Desde os efeitos das covariveis so ditas multiplicatively agir sobre a taxa de risco. No caso da distribuio Weibull nosso modelo pode ser chamado de um modelo de riscos proporcionais tambm. O modelo de risco proporcional mais famoso o modelo de riscos proporcionais de Cox. No modelo de riscos proporcionais de Cox falha independente vezes so estudados, cuja distribuio descrita por uma funo de risco dada por
onde uma base-line funo de risco indeterminado arbitrria que especifica uma distribuio contnua para uma taxa de falha. Casos especiais so (Distribuio exponencial) e (Distribuio de Weibull), mas uma das caractersticas mais importantes do modelo de Cox que nenhum modelo paramtrico feita para a linha de funo de risco-base .
Seo 6: Modelagem e ensaios no modelo de riscos proporcionais

SPSS (como outros programas) fornece estimativas e erros-padro, por exemplo para os parmetros no modelo de riscos proporcionais de Cox. aplicao de "Cox de regresso para um tem que escolher em SPSS Anlise primeiro, depois de Sobrevivncia e, finalmente, Cox de regresso. Para testar a teoria demonstrando que aplicar o modelo de riscos proporcionais aos dados da seo 3. No SPSS temos que preencher os dados da matriz da seguinte maneira. Uma coluna contm os tempos de sobrevivncia 49. A segunda coluna indica se os tempos de sobrevivncia so censurados ( ) Ou no , Portanto, esta coluna contm apenas os nmeros 0 e 1. A terceira coluna indica a que cada grupo pertence o tempo de sobrevida, utilizou-se o nmero 0 para o controle eo nmero 1 para o grupo de tratamento, assim que esta coluna contm apenas os nmeros 0 e 1 tambm. Ns demos as colunas (variveis) nomes: sobrevivncia, censor e tratamento. Para produzir a sada relevante tem que escolher o tempo de sobrevivncia, censor de status (define evento nico valor 1) e tratamento como covarivel. Use 'mtodo ainda: digite'.
Temos agora deve investigar se os grupos diferem muito em relao ao tempo de sobrevida. Ns aplicamos um modelo de riscos proporcionais com motivos (varivel covarivel) tratamento. Fazendo isso, assumimos que a funo de risco para um indivduo dada por
com o sendo os valores do tratamento varivel, . Para investigar se h realmente uma diferena entre os dois grupos, ou se existe realmente um efeito do tratamento, testamos a hiptese nula contra a hiptese alternativa . H que ter como estatstica de teste com sendo a estimativa da e sendo o erro padro correspondente. A distribuio da estatstica de teste aproximada pela distribuio normal padro sob a hiptese nula. A hiptese nula rejeitada se ou . Usando SPSS uma parte da produo a seguinte: B SE 0,430 Wald 0,345 df 1 Sig. 0,557 Exp (B) 0,777
tratamento
Como o fator de podem ser absorvidos pela funo de risco de base , Nenhuma estimativa para o dado. De sada, vemos e , Da o resultado de . Tendo em nvel de significncia de 5%, rejeitamos se ou , Equivalentemente, se . Em vez de SPSS apresenta uma Wald Estatstica igual a . Esta estatstica Wald tem distribuio qui-quadrado com um grau de liberdade sob a hiptese nula: nvel de significncia de 5% significa que a hiptese nula rejeitada se a estatstica de Wald , Isso torna um teste equivalente. Para os dados da seo 3, no temos de rejeitar a hiptese nula, nenhum efeito do tratamento pode ser provada (a nvel de significncia de 5%). Para a atribuio desta parte do curso de Medicina de Estatstica e Epidemiologia um conjunto de dados tem de ser estudada, chamamos esse conjunto de dados os dados de amamentao. Os dados esto contidos pelo breastfeeding.sav arquivo do sistema SPSS. A amamentao dados aos dados relativos aos 925 primeiros filhos nascidos cujas mes escolheram para o aleitamento materno. As seguintes variveis so registradas: Durao Censura corrida Pobreza Fumar lcool Idade Nascimento Escola Pr-natal durao do aleitamento materno (semanas) 1 para amamentar concluda, 0 para censurados (ainda amamentando) raa da me ( branco, preto, outros) me em situao de pobreza ( sim, no) a me fumou no nascimento da criana ( sim, no) uso de lcool me ao nascimento do filho ( sim, no) idade da me ao nascimento do filho ano de nascimento da criana anos de escolaridade (nvel superior) O pr-natal, aps trs meses rd ( sim, no)
Para uma primeira preparao para a atribuio estudamos como a durao depende do Nascimento covarivel. Inspeo do conjunto de dados revela que o resultado do Nascimento covarivel intervalos de 78 (representando 1978) para 86. Para este tipo de covarivel no til para assumir uma taxa de risco de forma (31) com o sendo agora os valores do Nascimento covarivel. O nascimento covarivel mais uma varivel categrica. Talvez a durao do aleitamento materno diferente para os bebs de diferentes anos de nascimento. Diferenas de ano para ano pode ser modelada atravs da atribuio de efeitos para os nveis (resultados) do Nascimento covarivel. Isso pode ser feito atravs da introduo de variveis de indicadores. No caso dos dados de aleitamento materno nos introduzir variveis indicadoras para o nascimento covarivel definidos como segue:
se o resultado de nascimento de 78 e em outro lugar, se o resultado de nascimento de 79 e em outros lugares, ..., se o resultado de nascimento de 85 e em outros lugares. Usando essas variveis o indicador de taxa de risco e, portanto, o nosso modelo, torna-se
onde so os valores das variveis de cada indicador . De acordo com a frmula a relao entre os riscos de taxas de nascimento dos anos 78 e 86 igual a . Da mesma forma, a relao entre os riscos de taxas de nascimento dos anos 79 e 86 igual a . Assim, para os respectivos resultados da covarivel temos agora (possivelmente) diferentes (multiplicativo) e efeitos aqui no ano de nascimento 86 serve como valor de referncia. Em vez de o ltimo valor o primeiro valor pode ser escolhido como valor de referncia (categoria ) em SPSS. Usando SPSS o seguinte resultado obtido.
B nascimento nascimento (1) nascimento (2) nascimento (3) nascimento (4) nascimento (5) nascimento (6) nascimento (7) nascimento (8) -0,799 -0,722 -0,947 -0,707 -0,703 -0,666 -0,715 -0,402
SE 0,433 0,424 0,423 0,419 0,420 0,419 0,421 0,421
Wald 18,411 3,406 2,901 5,019 2,853 2,800 2,529 2,890 0,911
df 8 1 1 1 1 1 1 1 1
Sig. 0,018 0,065 0,089 0,025 0,091 0,094 0,112 0,089 0,340
Exp (B) 0,450 0,486 0,388 0,493 0,495 0,514 0,489 0,669
Na primeira coluna da tabela de parmetros so indicados, respectivamente, o nascimento (1), nascimento (2), ..., ao nascer (8). Testando a hiptese nula contra a hiptese alternativa para cada indicador varivel nenhuma hiptese nula deve ser rejeitada ao nvel de significncia de 5%, excepto um (verifique isso). Contudo, no til para testar para cada varivel indicadora do Nascimento covarivel. Em vez disso, pode testar se todos os efeitos do Nascimento covarivel so zero. Vamos testar a hiptese nula contra a hiptese alternativa . SPSS apresenta (o resultado) uma estatstica de teste Wald sob a hiptese nula a sua distribuio a distribuio qui quadrado com 8 graus de liberdade (df) e tem de se rejeitar a hiptese nula para valores grandes da estatstica de teste. Os graus de liberdade depende do nmero de variveis indicadoras, pode ser diferente para os conjuntos de dados diferentes. Em nossos testes problema que temos de rejeitar se Wald (Chi quadrado com df , O nvel de significncia de 5%). Desde o resultado das Wald 18,411 estamos aqui rejeitar a hiptese nula. Conclumos que a distribuio (de) Durao depende do Nascimento covarivel. Ns no damos uma frmula explcita para a estatstica Wald com (aqui) de 8 graus de liberdade. Acabamos de indicar como trabalhar com ele.
Seco 7: Atribuio
Antes de comear: consultar o texto do arquivo Sobre SPSS.doc. Use SPSS quando voc faz as peas A en B desta tarefa.
Voc no tem que escrever um relatrio para este trabalho. Apenas faa a sua sada do computador e suas prprias anotaes com voc para uma oral) de discusso (com o professor sobre as respostas das partes A e B. Para fazer uma nomeao para o servio: enviar um e-mail ( k.poortema @ ewi.utwente . nl ) ou anel (074) 4893379.
Parte Um Selecione um nmero de subgrupos e parcelas de estudo da estimativa de Kaplan Meier da funo de sobrevivncia, a fim de responder s seguintes questes. Ao invs de parcelas da funo de sobrevivncia voc pode usar terrenos da funo de risco ou em funo da funo de sobrevivncia. (1) a distribuio da durao do aleitamento materno bem modelada por meio de uma distribuio de Weibull ou uma distribuio exponencial para os subgrupos escolhidos? (2) O modelo de riscos proporcionais de ajustar os dados? Parte B Agora vamos supor que o modelo de riscos proporcionais de Cox vlido para os dados de aleitamento materno. Investigar dentro desse modelo em que o covariveis dependentes) Durao varivel (depende realmente. Para as covariveis idade e escola (e Nascimento) decidir se voc tomar as covariveis categricas como covarivel (em caso afirmativo, v para etc ..., categricas no menu de Regresso de Cox). Em caso de covariveis categricas voc no precisa se preocupar com as variveis indicadoras descrito na seo 6: SPSS apresenta essas variveis indicador automaticamente. aspectos importantes: Tente explicar a durao varivel dependente to bom quanto possvel, mas se abstenha de incluir co-variveis (variveis explicativas) que parecem ser suprfluos. Seguir uma estratgia clara, a fim de selecionar as covariveis. Use testes estatsticos.

Regressão de Cox - COMO FAZER

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Regressão de Cox - COMO FAZER

Enviado por

Direitos autorais:

Formatos disponíveis

Regresso de Cox

Termos e Conceitos Fundamentais

Example of PASW/SPSS Cox Regression Output

Cox Regression output from PASW/SPSS 14

Perguntas mais freqentes

@c 2006, 2008, 2009, 2010 G. David Garson last updated 9/7/2010.

Estatstica Mdica e Epidemiologia (153133) Anlise de Sobrevivncia (semana 02)

Seo 1: Funo de sobrevivncia e funo de risco

Seo 2: Distribuio de taxa de falha

Seo 3: Estimador de Kaplan Meier

A parcela correspondente do grupo de controle a seguinte.

Seco 4: Os modelos de regresso

, como uma questo de fato, a taxa de risco de base passa a ter

Seco 5: O modelo de riscos proporcionais

Seo 6: Modelagem e ensaios no modelo de riscos proporcionais

SE 0,433 0,424 0,423 0,419 0,420 0,419 0,421 0,421

Você também pode gostar