Você está na página 1de 12

ARTIGOS ESPECIAL / ARTIGOS ESPECIAIS

O que não fazer em estatística médica Neal Alexander 1

Doença 1Infectious Unidade de Epidemiologia. London School of Higiene e Medicina

O Que Não Fazer médica em Estatística Tropical. Keppel Street, Londres WC1E 7HT, Reino Unido. E-mail:
neal.alexander@lshtm.ac.uk

Abstrato Resumo
Tem havido grandes esforços para melhorar a aplicação de Tem havido Grandes esforços na Aplicação de methods
métodos estatísticos na pesquisa médica, apesar de alguns erros e Estatísticos na Pesquisa médica, embora algumas concepções
equívocos persistem. Neste artigo vou rever alguns dos temas que equivocadas AINDA persistam. Sem Presente Artigo faz-se Uma
mais frequentemente causam problemas: a) comparação de dois Revisão de Alguns Tópicos Que frequentemente causam Problemas:
métodos de medição clínica; b) comparação dos valores da linha de a) Comparação de Dois Métodos de Medidas Clínicas; b)
base entre os braços de um estudo randomizado; c) ausência de Comparação de valores de base de between OS Braços de hum
evidência em oposição a evidência da ausência; e d) de regressão Ensaio randomizado; c) Ausencia de Evidência em Oposição a
para a média. Eu também irá revisitar um erro estatístico de uma das Evidência de ausencia; ed) Regressão meio A. Uma revisita EAo
minhas próprias publicações. Eu rever algumas das causas do mau Erros Estatísticos em Uma de Minhas Próprias Publicações also E
uso contínuo de estatísticas, e fazer algumas sugestões para Feita. Foi Feita a Revisão de algumas Causas fazer USO
modificar a formação de pesquisadores médicos estatísticos e não inadequado da Estatística, Assim Como algumas Sugestões São
estatísticos, a fim de aliviar este. Dadas para MODIFICAR a Formação de Pesquisadores Médicos
Estatísticos e Não Estatísticos.

Palavras-chave Estatística, Bioestatística

Palavras-chave Estatística, Bioestatística

Rev. Bras. Saúde Matern. Infantil, Recife, 7 (3):. 327-338, Jul. / Set. De 2007 327
Alexander N.

Introdução é pequeno, a conclusão pode ser alcançado que os dois métodos


têm 'acordo significativo'. 8/6

A qualidade das estatísticas na pesquisa médica tem recebido


muita atenção ao longo dos últimos vinte anos. Muitos livros e Por um coeficiente de correlação não mede acordo
artigos de revistas têm tentado melhorar a compreensão e
prática estatística, e os editores de revistas têm colocado mais
ênfase sobre estes aspectos. Um episódio ilustrativo foi o reforço Podemos começar perguntando-nos qual é o significado da p valor
da análise estatística no The Lancet após a controvérsia e (<0,0001) calculado para a Figura 1A. Em geral, um pequeno p valor
precipitação trágica, de um relatório que tinha publicado de significa que a estatística de teste é maior do que seria esperado por
sobrevida em pacientes que frequentam o Centro de Ajuda acaso. O significado exato de 'por acaso' é definido pela hipótese
Cancer Bristol. 1,2 nula do teste estatístico a ser feito. No exemplo actual, a hipótese
nula é que os dois métodos de medição são independentes. Uma vez
Nos últimos anos, o uso de métodos estatísticos parece ter que os dois métodos foram concebidos para medir a mesma
melhorado, embora os erros persistem. 3 Neste artigo vou rever quantidade (pressão sanguínea sistólica) seria surpreendente se
alguns dos mais comum deles. Para cada um deles, vou tentar fossem completamente independentes. No entanto, algum tipo de
explicar a natureza do erro, e sugerir uma alternativa válida. No relação entre eles não significa que eles são intercambiáveis. Por
entanto, a melhoria contínua em análises estatísticas publicadas exemplo, se um nutricionista pode adivinhar o peso de uma pessoa
exigirá mais de explicação contínuo de métodos corretos. Vou para dentro de, digamos, 5 kg, em seguida, suas estimativas serão
sugerir que um dos obstáculos para a melhoria da prática é a correlacionados com as medidas de um conjunto de escalas, mas
relação pobre, que muitas vezes se refere entre pesquisadores isso não significa que a balança pode ser dispensado. Em vez disso,
estatísticos e não estatísticos. Assim, quero apresentar mais de seria necessário saber o número de quilogramas, ou mmHg no
uma lista de erros. Então eu vou incluir uma descrição de um exemplo pressão arterial, dentro do qual os dois métodos concordar.
método que às vezes é dito ser errônea, mas na verdade é válido Este não pode ser inferida a partir do coeficiente de correlação ou p Valor
(embora abaixo do ideal). E eu também irá apresentar um erro sozinha.

que eu fiz em um dos meus próprias publicações.

Um problema específico com o coeficiente de correlação


é que a sua magnitude depende do intervalo de dados.
Suponha que o acordo entre dois métodos é constante ao
Quantificação acordo entre dois métodos de medição clínica longo do intervalo de dados, no sentido de que a diferença
média entre eles é constante. Suponha-se que os dados
divididos em duas metades, consoante se está acima ou
Como a tecnologia médica desenvolve, há muitas vezes uma abaixo do valor médio, e, em seguida, calcular um coeficiente
necessidade de comparar dois métodos de medição a mesma de correlação para cada metade. Cada um destes dois
quantidade. Nós também pode precisar de avaliar a concordância entre coeficientes de correlação vai ser menor do que o coeficiente
réplicas feitas pelo mesmo observador (repetibilidade) ou em diferentes de correlação para o conjunto de dados completo, embora o
laboratórios (reprodutibilidade). 4 grau de concordância é (por hipótese) da mesma ao longo do
intervalo de dados. Isso mostra que o coeficiente de
correlação não mede o grau de concordância. Outra maneira
de pensar nisso é imaginar um novo ponto de dados, de
Exemplo: pressão arterial medida por braçadeira e monitor de dedo acordo com os dados originais, mas a um valor muito menor
ou muito maior. p valor diminuição, mesmo que o ponto de
dados adicional é que reflecte a mesma relação que os dados
Como um exemplo da comparação de dois métodos de medição, vamos originais.
considerar um conjunto de dados de dois métodos de medição da
pressão arterial. Duzentas pessoas tiveram sua pressão arterial sistólica
medido uma vez usando uma braçadeira standard, e uma vez usando
um monitor de dedo. 5 A Figura 1a mostra um comum, mas incorrecta, a De passagem, pode-se observar um outro problema com a
abordagem para a análise de tais dados. Uma série de medições é abordagem mostrada na Figura 1a. A linha de regressão é muitas
representada graficamente contra o outro, e um coeficiente de vezes incluído, mesmo que isso quebra a simetria entre as duas
correlação é calculado. O correspondente p valor é muitas vezes também variáveis. Isso ocorre porque os resultados da regressão dependem
calculado e, se este de qual variável é escolhido como o resultado, e que como o

328 Rev. Bras. Saúde Matern. Infantil, Recife, 7 (3):. 327-338, Jul. / Set. De 2007
O que não fazer em estatística médica

preditor. Mas não há nenhuma razão para preferir uma variável sobre a outra medida de saber se há uma diferença sistemática entre os
para qualquer um desses papéis. Ao contrário de correlação, regressão não é métodos. Na Figura 1b, a diferença média é -4.3 mmHg, ou
simétrica em termos de suas duas variáveis ​de entrada. seja, a braçadeira lê, em média, 4,3 mmHg mais baixa do
que o monitor de dedo. Isto é mostrado como o central das
três linhas horizontais a tracejado. A variação de acordo
pode ser medido pelo desvio padrão das diferenças. No
abordagem correta: método de Bland e Altman nosso exemplo, isto é 14,6 mmHg. Se as diferenças têm uma
distribuição aproximadamente Gaussiana ( 'normal'), em
Uma avaliação significativa de acordo irá ser expressa em seguida, 95% deles se-ão na gama entre a média e mais ou
termos de unidades de medição (mmHg no nosso exemplo), menos 1,96 vezes o desvio padrão. Em nossos dados neste
em vez de um coeficiente de correlação ou p valor. Isto é intervalo é de -32.9 mmHg a +24.3 mmHg. Em outras
mostrado na Figura 1b, na qual o eixo vertical representa a palavras, podemos esperar que, em 95% das ocasiões, a
diferença entre as duas medições, e o eixo horizontal é a sua medida braço cuff entre 32,9 mmHg menos, e 24,3 mmHg
média. Este mostra se o tamanho da diferença mais, do que o monitor dedo. As extremidades desta gama
betweenmethod muda com a magnitude da quantidade a ser são chamados os limites de concordância.
medida. No nosso exemplo, não há nenhum sinal de que este
é o caso: a dispersão no eixo vertical não parece aumentar ou
diminuir dependendo do valor do eixo horizontal.

Podemos calcular a média da diferença como um A técnica simples descrito acima foi

A Figura 1a

Avaliando acordo do manguito braço e monitor de dedo na medição da pressão arterial sistólica.
250
pressão sanguínea sistólica (mm Hg) medido pelo monitor de dedo

200
150
100
50

100 150 200 250

pressão sanguínea sistólica (mm Hg) medida pelo braço de braçadeira 50

Os resultados do monitor dedo plotados contra os da braçadeira. Esta é a base da técnica incorrecto para a medição de acordo:

o cálculo de um coeficiente de correlação e o valor de p (neste exemplo, 0,83 e <0,0001, respectivamente).

Rev. Bras. Saúde Matern. Infantil, Recife, 7 (3):. 327-338, Jul. / Set. De 2007 329
Alexander N.

Figura 1b

Bland-Altman da diferença entre os dois métodos (braço manguito menos monitor de dedo), versus sua média.

40
20
braço manguito - monitor do localizador (mm Hg)

0
- 20
- 40
- 60

150 200

média de braçadeira e monitor de dedo (mm Hg) 100

A linha horizontal tracejada central é a diferença média (-4,3 mmHg). As outras linhas tracejadas horizontais são os limites de

concordância: 24,3 mmHg e-32.9 mmHg. Estes limites são iguais à diferença média mais e menos 1,96 vezes o desvio padrão das

diferenças. A diferença entre os dois métodos irá situar-se entre estes limites em 95% de ocasiões.

proposto por Bland-Altman, 10 cujos trabalhos se tornaram No entanto, se os dados são contagens, por exemplo, de parasitas ou células

dois dos mais citados na literatura médica. 9-11 CD4, em seguida, uma transformação de raiz quadrada pode ser eficaz. 12

A escolha de eixos na Figura 1b garante uma falta de


correlação entre os mesmos. Pode ser tentador para traçar a
diferença contra um único um dos métodos, especialmente se um Os testes de hipóteses de variáveis ​basais
deles é um padrão aceito, mas isso vai introduzir uma correlação
espúria. 5 Pode ser demonstrado matematicamente que, se denotar É comum o uso de testes de hipóteses estatísticos para comparar as
os dois métodos X 1 e X 2, então X 1- X 2 não está correlacionada com X 1+ X variáveis ​de linha de base entre os braços de um julgamento, e usar os
2 mas está intrinsecamente correlacionados com qualquer X 1 ou X 2. resultados para avaliar como 'bem sucedido' foi a randomização. Por
exemplo, Bassuk et al. 13

realizou um ensaio de antioxidantes para a prevenção de eventos


É muitas vezes o caso de que a diferença absoluta entre cardiovasculares em 8171 profissionais de saúde do sexo feminino. Os
os métodos é maior para valores mais elevados das medições autores testaram cada uma das 28 variáveis ​de linha de base, três
reais. Nesses casos, o enredo irá mostrar uma maior dispersão vezes, comparando cada intervenção (vitamina E, vitamina C e
à direita do eixo horizontal, e os limites de acordo não será beta-caroteno) ao seu respectivo placebo. Dos 84 testes de hipóteses
aplicável em toda a gama de dados. Repetindo a técnica de feito, 8 p os valores foram inferiores a 5%. Os autores dizem que este
Bland e Altman sobre os logaritmos dos valores podem número era 'baixa, e não maior do que o que seria esperado por
resolver o problema. Obteve-se os resultados em termos de acaso'. Eles concluíram "A randomização foi bem sucedido, como
razões em vez de diferenças. evidenciado por semelhante

330 Rev. Bras. Saúde Matern. Infantil, Recife, 7 (3):. 327-338, Jul. / Set. De 2007
O que não fazer em estatística médica

distribuições de demográficas de base, saúde e características ( p> 0,05), é tentador concluir que a intervenção não funciona. No
comportamentais entre os grupos de tratamento ". entanto, isso não é necessariamente uma conclusão válida. Um
No entanto, o uso de testes de hipóteses para tentar medir o resultado que não é estatisticamente significativa é, em si
sucesso de uma randomização é ilógico, e pode desviar a atenção mesmo, uma ausência de evidência: este não é o mesmo como
de um problema real. Para ver porque é ilógico, devemos prova de ausência. 20 Como vimos nas seções anteriores do
novamente nos perguntar: qual é a hipótese nula? Aqui, a hipótese papel atual, devemos pensar não só sobre a p
nula é que a diferença entre-braço observado na linha de base era
variável devido ao acaso. No entanto, porque o julgamento foi valor, mas também a magnitude do efeito. Por exemplo, um estudo com um

randomizado, sabemos que uma diferença de uma variável de linha tamanho muito reduzido da amostra seria capaz de detectar apenas um efeito

de base foi devido ao acaso. Em outras palavras, a randomização muito grande. Em outras palavras, um p

garante que a hipótese nula é verdadeira. A única razão para usar valor maior do que 0,05 podem ser devido ao tamanho da amostra

um teste de hipótese de fazer uma comparação entre o braço de insuficiente, em vez de um pequeno efeito. A maneira mais fácil de pensar

uma variável da linha de base é se uma duvida que a randomização sobre o tamanho do efeito é através de intervalos de confiança (geralmente

foi feito correctamente. 14,15 Os investigadores não deve ter razão intervalos de 95% de confiança). Um intervalo de confiança de 95% para um

para duvidar disso! parâmetro significa uma gama que são 95% de confiança contém o valor do

parâmetro verdadeiro.

Alguns autores usam esse tipo de teste de hipóteses para Como exemplo, podemos considerar o julgamento de um)
identificar variáveis ​para ajustar em análise posterior. Por exemplo, Ellis et intervenções de mudança de comportamento; b) gestão de síndromas
al. 16 fez um estudo randomizado do efeito de uma cartilha educativa como métodos de reduzir o VIH
sobre a disposição das mulheres a participar num ensaio de tratamento transmissão, feito em Uganda rural por Kamali et al. 21 As duas
para câncer de mama. Eles fizeram testes de hipóteses de 16 variáveis intervenções tinham razões de taxa de incidência de HIV (em relação
​de base. Duas variáveis, ansiedade e depressão, tinha ao controlo) de 0,94 e 1,00, respectivamente, com p valores de 0,72 e
0,98. Os autores concluíram que "as intervenções que usamos foram
p valores inferiores a 5%, e estes foram incluídos na análise insuficientes para reduzir HIV-1 incidência". No entanto, os intervalos
multivariada subsequente. No entanto, como Assmann et al. 17 destacam-se: de confiança para estas razões de taxas mostram que o estudo não se
'A desequilíbrio significativo não importa se um fator de não prever o pode descartar um benefício útil de qualquer intervenção. 22 O intervalo
resultado, enquanto que um desequilíbrio não significativa pode se de confiança de 95% para a relação da taxa de intervenções de
beneficiar de ajuste covariável se o fator é um preditor forte'. Em outras mudança de comportamento foi 0,60-1,45, e para a gestão sindrômica
palavras, testes de hipóteses não são uma base adequada para decidir foi 0,63-1,58. Assim, por exemplo, as intervenções de mudança de
as variáveis ​para que se ajustar. comportamento pode ser capaz de reduzir a incidência do HIV por
tanto quanto 40%. Eles também podem aumentar a incidência em até
Isso não significa que os valores iniciais não devem ser relatados, 45%: de qualquer forma, não podemos dizer a partir deste estudo.
apenas que testes de hipóteses deles são 'filosoficamente doentia, de
nenhum valor prático e potencialmente enganosa'. 15 A importância de
desequilíbrio de referência deve ser avaliado de acordo com o tamanho
de diferença, e o grau de associação da variável com o resultado. Este e outros cenários são mostrados na Figura 2. A conclusão
desequilíbrio de linha de base é improvável que seja um problema, de um estudo particular deve depender não apenas na p valor, mas
exceto em pequenos ensaios. No entanto, se existem quaisquer também sobre se o intervalo de confiança inclui tamanhos
variáveis ​consideradas fortes preditores do resultado, eles podem ser clinicamente importantes efeito. Podemos dizer que uma redução da
ajustados para, e isso deve ser previamente especificado no plano de incidência do HIV em 40% seria clinicamente importante. Assim, com
análise. 18 base em seu intervalo de confiança, podemos colocar o Kamali et al. 21 julgamento
na categoria mais à esquerda da Figura 2: 'não podem confirmar ou
Não é aconselhável ajustar para muitas variáveis ​na análise excluir um efeito importante'.
primária, porque isso pode diminuir a precisão da comparação
entre-braço. 19 Na verdade, não pode haver nenhuma razão forte
para ajustar para qualquer uma das variáveis ​iniciais. Nesse caso,
muitas vezes é aconselhável para a análise primária a ser ajustado. 18

Regressão para a média e a alterao desde o limiar

Ausência de evidência não é evidência de ausência Regressão à média é um fenômeno que foi estudado nos
primeiros dias de estatísticas médicas. Francis Galton
Se um estudo não consegue encontrar um efeito estatisticamente significativo analisadas as alturas dos pais e

Rev. Bras. Saúde Matern. Infantil, Recife, 7 (3):. 327-338, Jul. / Set. De 2007 331
Alexander N.

Figura 2

Usando o intervalo de confiança de um efeito da intervenção para chegar a uma conclusão sobre a sua importância clínica.

magnitude do efeito da
intervenção versus controle

clinicamente importante
beneficiar

valor nulo (por exemplo

0 para a diferença

×
em meios, ou uma

proporção de taxa ou ×
odds ratio)
×
×
clinicamente importante
×
detrimento

não pode efeito presente, mas efeito presente, mas nenhuma evidência efeito
confirmar nem não está claro se clinicamente de um efeito; clinicamente
excluir um é clinicamente insignificante qualquer efeito é importante
efeito importante clinicamente

importante insignificante

O eixo vertical mostra a magnitude do efeito, com maiores benefícios em relação ao topo, e detrimentos maiores no sentido da parte inferior. As linhas verticais

mostram intervalos de confiança de estudos hipotéticos. Na parte inferior da figura são conclusões que podem ser extraídas de cada grupo de intervalos de

confiança.

crianças, e descobriram que os pais invulgarmente altas tendem a ter significa que um treinador que recebe o prêmio um mês tende a
crianças que também eram altos, mas não tão alto quanto seus pais. fazer mal ao próximo mês. No entanto, deve-se ter em mente que,
Da mesma forma, os pais curtos tendem a ter crianças que não eram por definição, um vencedor do prêmio tem feito excepcionalmente
tão curto como eles eram: em outras palavras, mais perto da média. bem, e um nível de desempenho que é difícil de alcançar é ainda
Este fenômeno foi chamado de regressão à média. 23 mais difícil de manter. Análise de pontos por jogo mostra que os
treinadores cujas equipas de ganhar em um mês geralmente caem
A palavra "regressão" veio a ser aplicada não só para este ligeiramente para trás no mês subseqüente, mas ainda fazer muito

fenômeno, mas a técnica estatística para quantificar isso, que bem. 25

logo provou ser aplicável a outros problemas também. Os dois


sentidos da palavra ainda pode causar confusão. Na pesquisa médica, incapacidade de responder por regressão à

média pode levar a vários tipos de problema. 26,27 Por exemplo, ao planear

Pode-se pensar regressão à média como resultado de estudos, é comum buscar populações em que os níveis da doença são
uma espécie de viés de seleção. Everitt 24 elevados. Se isso varia ao longo do tempo, então é provável que um nível

descreve-o como 'o fenómeno que uma variável que é extremo na extremamente elevado será seguido por aqueles que não são tão alta. Isso

sua primeira medição tendem a estar mais perto do centro da pode significar que os cálculos de energia estavam otimistas. Outro

distribuição para uma medição mais tarde'. Podem surgir exemplo é a mudança da linha de base. Se os pacientes em um ensaio

problemas quando se esquece que um critério para estar no são seleccionados com base em valores extremos de uma variável, em

conjunto de dados foi uma medida extrema inicial. Um exemplo seguida, que a variável é provável que mostram a regressão da média, em

esportivo pode ser útil. No futebol britânico, há prêmios para o comparação com os seus níveis de linha de base. Isso pode levar os

melhor treinador (coach) do mês. Alguns jornalistas falam sobre a investigadores a pensar que um benefício é devido a

'maldição do gerente do mês'. este

332 Rev. Bras. Saúde Matern. Infantil, Recife, 7 (3):. 327-338, Jul. / Set. De 2007
O que não fazer em estatística médica

a intervenção oferecido ao paciente. endpoint em um estudo controlado, por causa da regressão à


Um exemplo é mostrado na Figura 3, que contém os dados a média. No entanto, não é inválido para fazê-lo. Análise de
partir do grupo de placebo de um estudo de terapias para a asma. 28 Os pontuação mudança é imparcial no sentido de que, se repetido ao
pacientes com volume expiratório forçado baixo em um segundo (VEF 1) longo de vários ensaios do mesmo projeto, em média dá a
no início do estudo tenderam a ter aumentado nas duas semanas de resposta correta. 19

follow-up, enquanto que aqueles com alta FEV baseline 1 tinha No entanto, existe uma alternativa mais poderosa, chamada
diminuído. Lembre-se, este é o braço placebo. Imagine que nós de análise de covariância ou ANCOVA. (Embora ANCOVA é
tínhamos feito um estudo não-controlado com a mudança da linha de apenas um tipo de análise de regressão, aqui vou persistir em
base como um ponto final, e incluiu apenas aqueles com os menores chamá-lo ANCOVA para evitar uma possível confusão com
valores de FEV 1. Nesse estudo, teria observado um aumento médio, regressão à média.) ANCOVA usa os dados para avaliar o
mesmo que a intervenção foi tão ineficaz como placebo. Claro, grau de correlação entre a linha de base e valores finais, e faz
sabemos que os braços de controle são para ajudar a proteger contra o ajuste nessa base. Em contraste, a análise de pontuação de
este tipo de armadilha. Na seção seguinte, vamos olhar com mais mudança assume eficazmente uma correlação de 1, embora
detalhes sobre como levar em conta os valores de base em um estudo na prática isso é menos. Isto significa que, em qualquer
controlado. conjunto de dados particular, regressão à média vai
sobreajuste para o valor da linha de base. As mais-ajustes
podem ser positivo ou negativo, e, portanto, graças à
randomização, eles se anulam mutuamente se em média
mais ensaios do mesmo projeto. No entanto, eles fazem o
Comparando-se a mudança da linha de base entre os braços em um erro padrão da análise das mudanças pontuação mais
ensaio randomizado elevada do que a de ANCOVA.

I uma vez foi aconselhado por um colega estatística contra utilizando a alteração

da linha de base ( 'mudar pontuação') como um

Figura 3

Exemplo de regressão para a média.


1
mudar no FEV1 (litros) a partir da linha de base para duas semanas

0
-1

1.0 1.5 2,0 2,5 3,0 3,5

FEV1 (litros) no início do estudo

FEV 1 = volume expiratório forçado no primeiro segundo, na linha de base, e duas semanas depois de receber o placebo, em um ensaio de ensaio

de terapias para a asma. 28 Aqueles com os menores valores na linha de base tendem a ter aumentado em duas semanas, ao passo que aqueles

com os maiores valores tendem a ter diminuído.

Rev. Bras. Saúde Matern. Infantil, Recife, 7 (3):. 327-338, Jul. / Set. De 2007 333
Alexander N.

Uma análise não ajustada simples terão menor erro padrão variável de desfecho foi o log do tempo médio de sobrevivência, não
do que a pontuação de mudança (mas não menor do que uma média ou proporção para o qual os pesos proporcional n seria
ANCOVA), se a correlação entre a linha de base e as medições justificada. Eu não tentar derivar o erro de amostragem da nossa
de seguimento da variável de saída têm uma correlação inferior a variável de resultado, embora não é que eu tive sorte a este respeito
0,5. Por exemplo, Hsieh et al. 29 fez um estudo randomizado de (ver abaixo).
acupressão versus A terapia física para a dor lombar. Analisaram
cada um dos nove resultados por ANCOVA e por mudança da
linha de base, em dois tempos diferentes de seguimento (Tabela “Erro padrão do logaritmo da sobrevivência média para

3 do seu papel). Para cada um desses 18 análises, ANCOVA tem metarregressão

o intervalo de confiança estreito.


Se assumirmos uma taxa de mortalidade constante λ num único estudo, então

o tempo de sobrevivência será tirada a partir de uma distribuição exponencial,

Como vimos para testes de hipóteses de variáveis ​iniciais, o qual tem uma média / λ e variância 1 / λ 2,39 Para estimar a variância do log da

as variáveis ​sobre as quais se ajustar, se houver, deve ser média da amostra ( x), podemos usar Taylor série (o 'método delta'): var ( y ( x)) ≈

definido no plano de análise. Se optar por ajustar a medida de ( d y / d x) 2 var ( x). 40 Nós temos y ( x) = registro( x), assim d y ( x) / d x = 1 / x.

referência da variável de resultado, então a opção mais


poderosa é usar ANCOVA (análise de regressão), embora assim var (log ( x)) ≈ (1 / x) 2

analisando mudança de base não é inválido. var ( x) = ( 1 / x) 2 ( 1 / λ) 2 / N, que é avaliada pelo valor esperado de x, ou seja,

um / λ. Então var (log ( x)) ≈ 1 / n. Finalmente, temos a variação do logaritmo

da mediana, e não a média. Mas, uma vez que a mediana é uma

constante (log e 2) vezes a média, o desvio do seu logaritmo é a mesma

Um erro que eu fiz: pesos em meta-regressão que a variância do logaritmo da sua média. Aliás, podemos notar que a

variância de amostragem (1 / n) não depende de λ. Isso explica por que a

Algumas análises estatísticas exigir alguns pontos de dados a ser transformação logarítmica estabilizou a variação na análise original

dado mais peso do que outros. Por exemplo, uma pesquisa de (apesar de eu não perceber que na época) “.

amostra podem ser realizadas para estimar a prevalência de uma


determinada condição, tal como a prevalência de já ter tido um teste
de HIV no Reino Unido. 30 Esta pesquisa teve uma frequência de
amostragem maior na Grande Londres porque 'prevalência de
comportamentos de risco era esperado para ser maior'. Isto significa O segundo problema, o qual é mais geral para meta-análise, é
que, ao estimar a prevalência nacional, os dados Grande Londres que o erro de amostragem, e as variáveis ​de previsão, não é
deve ser dado menos peso, para impedi-los contribuindo necessariamente a única fonte de variação entre estudos. Em
excessivamente com os resultados. Em geral, o peso de qualquer regressão, de dispersão sobre a linha pode ser maior do que pode
ponto de dados deve ser proporcional ao recíproco (1 dividido por) ser explicado por pequenos estudos tenham grande erro de
sua variância de amostragem. amostragem. Em outras palavras, pode haver diferenças reais nos
efeitos subjacentes que não são captadas por uma linha de
regressão e erro de amostragem. Meta-análise usa um 'efeito
Outro tipo de análise que requer ponderação é exemplo é aleatório' para representar esta variação adicional. No entanto, o
meta-análise, ou seja, a tentativa para resumir os resultados de meu câncer de ovário meta-análise original não permitia essa
estudos separados em uma única análise. Aqui, estudos maiores possibilidade.
são dadas mais peso. Em 1991, realizada a parte estatística de
uma meta-análise do papel da cirurgia citorredutora máxima para Eu repetida a análise usando o método 'metaregression'
o cancro do ovário. 31 Eu dei a cada estudo um peso proporcional descrito por Knapp e Hartung, 32 implementado no comando
ao seu número de pacientes. Isso foi feito em uma base 'metareg' no software STATA. Para isso, é necessário
heurística, ligada à ideia de que o erro padrão de uma média ou especificar o erro padrão da variável dependente para cada
proporção é proporcional ao inverso da raiz quadrada do estudo, ou seja, do logaritmo do tempo médio de
tamanho da amostra (1 / √ n). Uma vez que a variância da amostra sobrevivência. Seguindo o raciocínio no apêndice, podemos
é o quadrado do erro padrão, escolhendo os pesos para ser definir isso para ser 1 / √ n. Isto corresponde aos pesos
proporcional ao n garante, por um significativo ou proporção, que utilizados na análise inicial, utilizadas para representar o erro
são inversamente proporcionais à variância da amostragem. de amostragem aleatória. Mas o novo método também
permite estimar variação sistemática entre os estudos.

Havia dois problemas com isso. Em primeiro lugar, a A Figura 4 mostra a relação entre o resultado

334 Rev. Bras. Saúde Matern. Infantil, Recife, 7 (3):. 327-338, Jul. / Set. De 2007
O que não fazer em estatística médica

Figura 4

Meta-análise de Cirurgia máxima Cytoreductive (MCS) em cancer31 ovário

50

40
tempo médio de sobrevivência em meses (escala log)

30

20

10

0 20 40 60 80

por cento com a cirurgia máxima cytoreductive

O eixo horizontal representa a percentagem de cada grupo de estudo para os quais MCS foi alcançado. A área de cada círculo é

proporcional ao número de doentes no grupo de estudo. As linhas representam as regressões do logaritmo da mediana

sobrevivência (eixo vertical) sobre a percentagem de um MCS) a análise original ingènua ponderados (linha sólida) e b) de

meta-regression32 (linha a tracejado).

, Tempo de sobrevivência médio variável (log-transformados) e a se confunde com outras variáveis, em particular: a) o tipo de
percentagem de cada grupo de estudo que experimentou cirurgia quimioterapia, tal como medido pela intensidade e a inclusão de
citorredutora máxima (MCS). Cada estudo é representado por um platina de dose; e b) a mistura caso, tal como medido pela
círculo, com a área de cada um sendo proporcional ao tamanho percentagem com doença Fase IV. Na análise original, para
da amostra, e, por conseguinte, para os pesos da análise original. ajustamento destes factores reduziu o efeito de MCS
A regressão correspondente (com apenas MCS como um preditor) consideravelmente, de 16,3% para 4,1%. Usando o Knapp e
calcula um aumento de 16,3% no tempo de sobrevivência médio Hartung 32 metaregression método, a estimativa ajustada é de 7,3%
para cada aumento de 10% no MCS. Meta-regressão indica que por 10% de aumento no MCS. Há ainda evidências de variação
há, de fato variação diferente do erro de amostragem. Isso é superior a variação de amostragem (o p valor para τ 2 ainda é inferior
medido pelo parâmetro τ 2, eo teste da hipótese nula de que τ 2 = 0 tem a 0,001). Esta estimativa corrigida para MCS é visivelmente maior
um p valor inferior a 0,001. Em outras palavras, há fortes do que a estimativa inicial, embora ainda muito menor do que
evidências de que a variação entre-estudo não é apenas devido a aquele não ajustado.
erro de amostragem. No entanto, a estimativa da relação entre o
tempo de sobrevivência e MCS é semelhante à análise original:
14,6% (em vez de 16,3%) aumentar por aumento de 10% no
MCS.
Discussão

Podemos ver algumas características comuns desses problemas em

A principal conclusão do trabalho original era que a estatísticas médicas. Equívocos, muitas vezes surgem, baseando-se

relação entre MCS e tempo de sobrevida acriticamente em p valores, e pode ser

Rev. Bras. Saúde Matern. Infantil, Recife, 7 (3):. 327-338, Jul. / Set. De 2007 335
Alexander N.

dissipado por pensar sobre exatamente o que se entende por p valor de mais de uma afinidade para números. Daí a presença em alguns
uma determinada análise. Compreensão também é auxiliado por usando departamentos e institutos de pessoas que são conhecidas como
intervalos de confiança para interpretar análise estatística em clínica soluções de problemas estatísticos, mesmo que eles não formalmente
termos. 33 Mais têm essa responsabilidade. Tais 'gurus' muitas vezes passam um bom
em geral, análises cujos parâmetros não podem ser relacionados de volta à trabalho, ajudado, claro, pelo seu conhecimento da área biomédica que
realidade clínica deve ser vista com cautela na melhor das hipóteses. produziu os dados. No entanto, não deve haver uma necessidade para
eles a existir paralelo e separado de, estatísticos mais formalmente
Infelizmente, no entanto, artigos pedagógicos como este e treinados.
outros recursos de educação, não pode por si só aumentar a
qualidade das estatísticas em revistas médicas para um nível Alguns destes problemas poderiam ser aliviados, fazendo a
aceitável: é preciso considerar fatores que são mais parte aproximação entre a formação de disciplinas biológicas e
integrante do processo de fazer pesquisa médica. estatísticos. educação estatística de estudantes de medicina às
vezes é pobre, com a atitude ambivalente dos estudantes à
Embora a análise estatística às vezes é uma parte necessária de informação numérica, muitas vezes agravada por uma forma
uma publicação de pesquisa, nem sempre é valorizado pelos demasiado matemática de ensino. Nos últimos anos, alguns
pesquisadores, e do próprio processo de publicação pode, por vezes, esforços têm sido feitos para melhorar isso, e eu acredito que isso
promover tal atitude. Brando 34 relata que várias vezes ele disse a poderia beneficamente ser espelhado na educação dos
colegas que os seus dados não precisa de quaisquer testes de biostatisticians. Em particular, muitos dos problemas acima
hipóteses, uma vez que os resultados foram completamente claro, poderia ser facilitada se mestres biostatistical graus foram mais
apenas para ser informado de que eles precisavam p valores para vezes ganhou dentro biomédica
começar o trabalho publicado. O caminho de menor resistência para
publicação pode ser ainda para executar uma análise que pode ser institutos de pesquisa e incluiu
usado para polvilhar o trabalho com os símbolos destinados a imprimir o trabalho experimental, talvez como parte de um curso de dois anos.
leitor, tal como χ 2 e p valores, sem ser necessariamente a escolha Esse trabalho também deve ser parte da educação continuada, como
correta, ou mesmo sem descrever o método no texto. 35,36 pioneira por Stephen Evans no Hospital de Londres, onde os
estatísticos participaram plantões e tornou-se familiarizado com os
métodos de medição. 37 Embora existam argumentos contra ela 38

No entanto, seria insuficiente para culpar tais ocorrências na


preguiça de investigadores (apesar de que às vezes pode Eu também acho que o caminho normal de carreira para os estatísticos
desempenhar um papel). Devemos também nos perguntar o que médicos deveriam incluir a ganhar um grau de doutoramento (no Reino
barreiras existem para aceder consultoria estatística correta. Pode-se Unido isso nem sempre é o caso). Sendo responsável por um projeto de
ser que simplesmente não há estatística disponível para consulta. Eu tal dimensão pesquisa aumenta a capacidade para o trabalho futuro, e
acredito que outras razões incluem conflitos de personalidade e falta faz para uma carreira paralela à de outros acadêmicos. Esta e meus
de terreno comum, outros sugestões destinam-se a promover o respeito mútuo entre
entre estatisticamente e colegas estatísticos e não estatísticos. Devemos tentar garantir que a
biomedically pessoal treinado. Isso pode ser mais evidente entre escolha de um método estatístico válido não é uma provação
estaticistas e médicos. Os membros destes dois grupos muitas vezes desconcertante, mas uma tarefa que pode ser feito confortavelmente,
têm dificuldade para estabelecer um relacionamento. Os estatísticos mesmo que às vezes demorado: menos como escrever um orçamento
podem muitas vezes têm 'uma certa timidez' 37 mas, como os médicos, pedido de subvenção, e mais como decidir o que têm para o jantar .
pode ser baixa no tato, e rica em orgulho. Os estatísticos muitas vezes
têm extensa formação em matemática, a 'rainha das ciências', com os
médicos são muitas vezes o quadro de maior prestígio em institutos de
pesquisa. O fato de que os seus percursos formativos têm sido
geralmente separado desde a escola secundária, até um estatístico
junta-se um instituto de pesquisa, acentua a dificuldade em estabelecer
uma relação de trabalho produtiva.

Muitos pesquisadores biomédicos não são particularmente numerate.

Eles podem até ter 'escolhido ciência biológica em uma tentativa de evitar

a matemática'. 37 Isso pode ajudar a explicar por que alguns pesquisadores

biomédicos preferem procurar o aconselhamento de um dos seus colegas

que tem formação semelhante a sua própria, mas quem tem

336 Rev. Bras. Saúde Matern. Infantil, Recife, 7 (3):. 327-338, Jul. / Set. De 2007
O que não fazer em estatística médica

Agradecimentos

Sou grato ao Dr. Carl-Johan Lamm e seus colegas no


Astra-Zeneca permissão para usar dados do estudo clínico da
asma, o Dr. James Carpenter para facilitar o contato com eles, e
Dr. Cynthia Braga, Prof. Eulalio Cabral Filho e Dr. Jailson de
Barros Correia pelo convite para fazer a apresentação no
Instituto Materno Infantil Prof. Fernando Figueira, IMIP, na
cidade de Recife, Estado de Pernambuco, Brasil, em que este
artigo se baseia. Agradeço também ao Prof. Richard Hayes para
sugestões úteis.

Referências

1. Bagenal FS, Easton DF, Harris E, Chilvers CED, McElwain TJ. Sobrevida de 12. Alexander N, Bethony J, Corrêa-Oliveira R, Rodrigues LC, Hotez P, Brooker S.

pacientes com câncer de mama assistir Central de Ajuda Cancer Bristol. Repetibilidade de contagens emparelhados. Stat Med. 2007; 26: 3566-77.

Lanceta. 1990; 336: 606-10.

2. Smith R. Caridade Comissão censura instituições de caridade de câncer britânicos. Br Med 13. Bassuk SS, Albert CM, Cook NR, Zaharris E, MacFadyen JG, Danielson E,

J. 1994; 308: 155-6. Van Denburgh H, enterra JE, Manson JE. antioxidante estudo
cardiovascular das mulheres: concepção e características basais dos
3. Welch GE, Gabbe SG. As estatísticas de uso no American Journal of
participantes. Saúde da Mulher J. (Larchmt). 2004; 13: 99-117.
Obstetrics and Gynecology: mudou alguma coisa? Am J Obstet Gynecol.
2002; 186: 584-6.
14. Altman DG, dore CJ. comparações de aleatorização e de linha de base em ensaios
4. Braun-Munzinger RA, Southgate BA. Repetibilidade e reprodutibilidade de
clínicos. Lanceta. 1990; 335: 149-53.
contagem de ovos de Schistosoma haematobium na urina. Trop Med
Parasitol. 1992; 43: 149-54. 15. S. Senn Teste para o equilíbrio da linha de base em ensaios clínicos. Stat Med.1994; 13:

1715-1726.
5. Bland JM, Altman DG. Comparando-se os métodos de medição: por
traçando diferença contra o método padrão é enganador. Lanceta. 1995; 16. Ellis PM, Butow PN, Tattersall MH. Informar os doentes de cancro da mama sobre

346: 1085-9. ensaios clínicos: um ensaio clínico randomizado de uma cartilha educativa. Ann

Oncol. 2002; 13: 1414-1423.


6. Kapeller P, Barber R, RJ Vermeulen, Ader H, Scheltens P, W Freidl, Almkvist O,
Moretti M, del Ser T, Vaghfeldt P, Enzinger C, Barkhof F, Inzitari D, Erkinjunti t, 17. Assmann SF, Pocock SJ, Enos LE, Kasten LE. A análise de subgrupos e outros

Schmidt R, F Fazekas , Grupo de Missão Europeu de idade Relacionado com a (mis) utiliza de dados da linha de base em ensaios clínicos. Lanceta. 2000; 355:

matéria muda. classificação visual de mudanças relacionadas à idade da 1064-9.

substância branca na ressonância magnética: comparação escala, 18. Conferência Internacional de Harmonização; orientação em princípios estatísticos
concordância entre e correlações com medições quantitativas. Acidente para ensaios clínicos; disponibilidade - FDA. Aviso prévio. Fed Regist. 1998; 63:
vascular encefálico. 2003; 34: 441-5. 49583-98.

19. questões Senn S. estatísticos no desenvolvimento de medicamentos. Chichester: Wiley; 1997.

7. Gil Z, Abergel A, S Spektor, Khafif A, Fliss DM. Paciente, cuidador, e


cirurgião percepções de qualidade de vida após a cirurgia de base do
20. Altman DG, JM Bland. Ausência de evidência não é evidência de ausência. Br
crânio anterior. Arch Otolaryngol Head Neck Surg. 2004; 130: 1276-1281.
Med J. 1995; 311: 485.

21. Um Kamali, Quigley H, Nakiyingi J, J Parente, KengeyaKayondo J, R Gopal,


8. Desai MEU, Lai S, Barmet C, Weiss RG, Stuber M. A reprodutibilidade de 3D
Ojwiya A, Hughes P, Carpenter LM, gestão Whitworth J. Sindrômicas de
ressonância magnética vaso coronário imagens da parede respirar
intervenções de mudança de comportamento sexualmente transmissíveis
livremente. Eur Heart J. 2005; 26: 2320-4.
sobre a transmissão Uganda: uma comunidade randomizado. Lanceta. 2003;
9. Altman DG, JM Bland. Medição na medicina: a análise de estudos de 361: 645-52.
comparação de métodos. Estatístico. 1983; 32: 307-17.

22. Alderson P. Ausência de evidência não é evidência de ausência. Br Med J.


10. Bland MJ, Altman DG. Métodos estatísticos para estimar a concordância 2004; 328: 476-7.
entre dois métodos de medição clínica. Lanceta. 1986; 1: 307-10.
23. Kevles DJ. Em nome da eugenia. Cambridge: Harvard University Press;
1995.
11. JM Bland, Altman DG. Esta semana, o clássico citação: comparando
24. Everitt B. Cambridge dicionário de estatísticas nas ciências médicas.
métodos de medição clínica. Conteúdo Curr. 1992; CM20: 8.
Cambridge: Cambridge University Press; 1995.

Rev. Bras. Saúde Matern. Infantil, Recife, 7 (3):. 327-338, Jul. / Set. De 2007 337
Alexander N.

25. Pullein K. O gerente da maldição mês é uma falácia. O guardião. 2005 Dez 32. Knapp testes L, J. Hartung melhoradas para um efeito aleatório
2. Disponível a partir de: metarregressão com um único co-variável. Stat Med. 2003; 22: 2693-710.
http://football.guardian.co.uk/News_Story/0,1563,1656124,00.html? gusrc
= rss. [2007 20 de abril].
33. Gardner MJ, Altman DG. Os intervalos de confiança, em vez de valores de P:
26. Morton V, Torgerson DJ. Efeito da regressão à média na tomada de estimativa em vez de testes de hipóteses. Br Med J. (Clin Res Ed) 1986; 292:
decisão na área da saúde. Br Med J. 2003; 326: 1083-1084. 746-50.

34. Bland M. Uma introdução à estatística médica. Oxford: Oxford University


27. JM Bland, Altman DG. Alguns exemplos de regressão à média. Br Med J. Press; 1987.
1994; 309: 780.
35. Oliver D, Municipal JC. Uso de estatísticas sobre a literatura cirúrgica e
28. Carpenter J, S Pocock, Lamm CJ. Lidar com falta de dados de ensaios clínicos em: uma fenômeno do órfão P'. Aust NZJ Surg. 1989; 59: 449-51.
abordagem baseada em modelo aplicado aos ensaios de asma. Stat Med. 2002; 21:

1043-1066.
36. crítica Alexander N. papel como um método educacional em epidemiologia.
29. Hsieh LL, Kuo CH, Lee HL, Yen AM, Chien KL, Chen TH. O tratamento de Professor Med. 2003; 25: 287-90.
dor lombar de acupuntura e terapia física: randomized controlled trial. Br
37. Altman DG, JM Bland. Melhorar a compreensão dos médicos de estatísticas. J
Med J. 2006; 332: 696-700.
Real Stat Soe. [Série A] 1991; 154: 223-67.

38. Pocock SJ. A vida como um estatístico médico acadêmico e como sobreviver a
30. Burns, F, Fenton KA, Morison G, Mercer C, Erens B, Campo
ela. Stat Med. 1995; 14: 209-22.
J, Copas AJ, Wellings K, Johnson AM. Os factores associados com o teste de
39. Evans, H, N Hastings, distribuições Peacock B. estatísticos. New York:
HIV entre negros africanos na Grã-Bretanha. Sex Transm Infect. 2005; 81:
Wiley; 2000.
494-500.
40. Armitage P, Berry L, Matthews JNS. Métodos estatísticos em médica
31. Hunter RW, Alexander NDE, Soutter WP. Meta-análise de cirurgia no
pesquisa. Oxford: Blackwell Científico
carcinoma do ovário avançado: é a cirurgia citorredutora máximo um
publicações; 2001.
determinante independente de prognóstico? Am J Obstetr Gynecol. 1992;
166: 504-11.

Recebido em 13 de abril de 2007 Versão apresentada final,


em 10 de julho de 2007 Aprovado em 31 de julho de 2007

338 Rev. Bras. Saúde Matern. Infantil, Recife, 7 (3):. 327-338, Jul. / Set. De 2007

Você também pode gostar