Dispercochrane

08/02/2024, 10:57 Capítulo 6: Escolha de medidas de efeito e cálculo de estimativas de efeito | Treinamento Cochrane
Cochrane Evidência confiável.

Decisões informadas.
Treinamento Melhor saude.
Capítulo 6: Escolhendo medidas de efeito e calculando estimativas

de efeito
Julian PT Higgins, Tianjing Li, Jonathan J Deeks
Pontos chave:
Os tipos de dados de resultados que os autores da revisão provavelmente encontrarão são

dados dicotômicos, dados contínuos, dados ordinais, dados de contagem ou taxa e dados de
tempo até o evento.
Existem várias formas diferentes de comparar dados de resultados entre dois grupos de
intervenção (“medidas de efeito”) para cada tipo de dados. Por exemplo, os resultados
dicotómicos podem ser comparados entre grupos de intervenção utilizando uma razão de risco,
uma razão de probabilidades, uma diferença de risco ou um número necessário para tratar. Os
resultados contínuos podem ser comparados entre grupos de intervenção usando uma
diferença média ou uma diferença média padronizada.
As medidas de efeito são medidas de razão (por exemplo, razão de risco, razão de
probabilidade) ou medidas de diferença (por exemplo, diferença média, diferença de risco). As
medidas de proporção são normalmente analisadas em uma escala logarítmica.
Os resultados extraídos dos relatórios de estudo podem precisar ser convertidos para um
formato consistente ou utilizável para análise.
Como citar este capítulo: Higgins JPT, Li T, Deeks JJ (editores). Capítulo 6: Escolhendo medidas de
efeito e calculando estimativas de efeito. In: Higgins JPT, Thomas J, Chandler J, Cumpston M, Li T,
Page MJ, Welch VA (editores). Manual Cochrane para Revisões Sistemáticas de Intervenções versão
6.4 (atualizado em agosto de 2023). Cochrane, 2023. Disponível em
www.training.cochrane.org/handbook (http://www.training.cochrane.org/handbook) .
6.1 Tipos de dados e medidas de efeito #seção-6-1
6.1.1 Tipos de dados #seção-6-1-1
Um passo inicial fundamental na análise dos resultados dos estudos de eficácia é identificar o tipo
de dados para as medições dos resultados. Ao longo deste capítulo, consideramos dados de
resultados de cinco tipos comuns:
https://training.cochrane.org/handbook/current/chapter-06 1/80
1. dados dicotômicos (ou binários), onde o resultado de cada indivíduo é uma das duas únicas
respostas categóricas possíveis;
2. dados contínuos, onde o resultado de cada indivíduo é uma medida de uma quantidade
numérica;
3. dados ordinais (incluindo escalas de medição), onde o resultado de cada indivíduo é uma das
várias categorias ordenadas, ou gerados pela pontuação e soma de respostas categóricas;
4. contagens e taxas calculadas a partir da contagem do número de eventos vivenciados por cada
indivíduo; e
5. dados de tempo até o evento (normalmente sobrevivência) que analisam o tempo até que um
evento ocorra, mas onde nem todos os indivíduos no estudo vivenciam o evento (dados
censurados).
As formas como o efeito de uma intervenção pode ser avaliado dependem da natureza dos dados
recolhidos. Neste capítulo, para cada um dos tipos de dados acima, revisamos definições,
propriedades e interpretação de medidas padrão de efeito de intervenção e fornecemos dicas sobre
como as estimativas de efeito podem ser calculadas a partir de dados que provavelmente serão
relatados em fontes como artigos de periódicos. Fórmulas para estimar efeitos (e seus erros padrão)
para as medidas de efeito comumente usadas são fornecidas na RevMan Web Knowledge Base em
Algoritmos estatísticos e cálculos usados no Review Manager
(https://documentation.cochrane.org/revman-kb/statistical-methods-210600101.html)
(https://documentation.cochrane.org/revman-kb/statistical- métodos-210600101.html), bem como
outros livros padrão (Deeks et al 2001). O Capítulo 10 (/handbook/current/chapter-10) discute
questões na seleção de uma dessas medidas para uma meta-análise específica.
6.1.2 Medidas de efeito #seção-6-1-2
Por medidas de efeito , referimo-nos a construções estatísticas que comparam dados de resultados
entre dois grupos de intervenção. Os exemplos incluem odds ratio (que comparam as
probabilidades de um evento entre dois grupos) e diferenças médias (que comparam valores
médios entre dois grupos). As medidas de efeito podem ser amplamente divididas em medidas de
razão e medidas de diferença (às vezes também chamadas de medidas relativas e absolutas,
respectivamente). Por exemplo, o odds ratio é uma medida de razão e as diferenças médias são uma
medida de diferença.
As estimativas do efeito descrevem a magnitude do efeito da intervenção em termos de quão

diferentes foram os dados dos resultados entre os dois grupos. Para medidas de efeito de razão, um
valor de 1 representa nenhuma diferença entre os grupos. Para medidas de diferença, um valor 0
representa nenhuma diferença entre os grupos. Valores superiores e inferiores a estes valores
“nulos” podem indicar benefícios ou danos de uma intervenção experimental, dependendo tanto de
como as intervenções são ordenadas na comparação (por exemplo, A versus B ou B versus A), como
da natureza do resultado. .
Os verdadeiros efeitos das intervenções nunca são conhecidos com certeza e só podem ser
estimados pelos estudos disponíveis. Cada estimativa deve sempre ser expressa com uma medida
dessa incerteza, como um intervalo de confiança ou erro padrão (SE).
6.1.2.1 Uma nota sobre medidas de razão de efeito de intervenção: o uso de escalas logarítmicas
#seção-6-1-2-1
Os valores das medidas de razão do efeito da intervenção (tais como razão de probabilidade, razão
de risco, razão de taxa e razão de risco) geralmente passam por transformações logarítmicas antes
de serem analisados, e podem ocasionalmente ser referidos em termos de seus valores log
transformados (por exemplo, probabilidades logarítmicas). razão). Normalmente, a transformação
logarítmica natural (log base e , escrita 'ln') é usada.
Todas as estatísticas resumidas de rácio têm as características comuns de que o valor mais baixo
que podem assumir é 0, que o valor 1 corresponde a nenhum efeito de intervenção e que o valor
mais alto que podem assumir é infinito. Esta escala numérica não é simétrica. Por exemplo, embora
um odds ratio (OR) de 0,5 (uma redução para metade) e um OR de 2 (uma duplicação) sejam opostos
de modo que a média deles não tenha efeito, a média de 0,5 e 2 não é um OR de 1, mas um OR de
1,25. A transformação logarítmica torna a escala simétrica: o logaritmo de 0 é menos infinito, o
logaritmo de 1 é zero e o logaritmo de infinito é infinito. No exemplo, o log do OR de 0,5 acima é –
0,69 e o log do OR de 2 é 0,69. A média de –0,69 e 0,69 é 0, que é o valor logarítmico transformado de
um OR de 1, implicando corretamente nenhum efeito de intervenção em média.
As exibições gráficas para meta-análises realizadas em escalas de proporção geralmente usam uma
escala logarítmica. Isto tem o efeito de fazer com que os intervalos de confiança pareçam simétricos,
pelas mesmas razões.
6.1.2.2 Uma nota sobre os efeitos dos juros #seção-6-1-2-2
Os autores da revisão não devem confundir medidas de efeito com efeitos de interesse . O efeito de
interesse em qualquer análise específica de um ensaio randomizado é geralmente o efeito da
atribuição à intervenção (o efeito de “intenção de tratar”) ou o efeito da adesão à intervenção (o
efeito “por protocolo”). Esses efeitos são discutidos no Capítulo 8, Seção 8.2.2
(/handbook/current/chapter-08#section-8-2-2) . Os dados coletados para inclusão em uma revisão
sistemática e os cálculos realizados para produzir estimativas de efeito diferirão de acordo com o
efeito de interesse dos autores da revisão. Na maioria das vezes, nas Revisões Cochrane, o efeito de
interesse será o efeito da atribuição à intervenção, para a qual será procurada uma análise de
intenção de tratar. A maior parte deste capítulo está relacionada a esta situação. Contudo, podem
ser encontradas análises específicas que estimaram o efeito da adesão à intervenção.
6.2 Desenhos de estudo e identificação da unidade de análise #seção-6-2
6.2.1Questões de unidade de análise #seção-6-2-1
Um princípio importante nos ensaios randomizados é que a análise deve levar em conta o nível em
que ocorreu a randomização. Na maioria das circunstâncias, o número de observações na análise
deve corresponder ao número de “unidades” que foram randomizadas. Num desenho de grupo
paralelo simples para um ensaio clínico, os participantes são randomizados individualmente para
um dos dois grupos de intervenção, e uma única medição para cada resultado de cada participante
é coletada e analisada. No entanto, existem inúmeras variações deste design. Os autores devem
considerar se em cada estudo:
1. grupos de indivíduos foram randomizados em conjunto para a mesma intervenção (isto é,

ensaios randomizados por cluster);
2. os indivíduos foram submetidos a mais de uma intervenção (por exemplo, num ensaio cruzado
ou tratamento simultâneo de múltiplos locais em cada indivíduo); e
3. houve múltiplas observações para o mesmo resultado (por exemplo, medições repetidas,
eventos recorrentes, medições em diferentes partes do corpo).
Os autores da revisão devem considerar o impacto na análise de qualquer agrupamento,

correspondência ou outras características de design não padronizadas dos estudos incluídos (ver
Quadro 6.2.a do MECIR ). Segue-se uma lista mais detalhada de situações em que normalmente
surgem questões relativas à unidade de análise, juntamente com orientações para discussões
relevantes em outras partes deste Manual .
Quadro 6.2.a do MECIR Expectativas relevantes para a condução das revisões de intervenção
C70: Abordando projetos não padronizados ( obrigatório )
Considere o impacto na análise Estudos randomizados por cluster, estudos cruzados,

de agrupamento, estudos envolvendo medidas em múltiplas partes do
correspondência ou outras corpo e outros desenhos precisam ser abordados
características de desenho não especificamente, uma vez que uma análise ingênua
padronizadas dos estudos pode subestimar ou superestimar a precisão do
incluídos. estudo. A não contabilização do agrupamento
provavelmente superestimará a precisão do estudo,
ou seja, fornecerá intervalos de confiança muito
estreitos e um peso muito grande. A falha em levar em
conta a correlação provavelmente subestimará a
precisão do estudo, ou seja, fornecerá intervalos de
confiança muito amplos e um peso muito pequeno.
6.2.2 Ensaios randomizados por cluster #seção-6-2-2
Em um ensaio randomizado por cluster, grupos de participantes são randomizados para diferentes
intervenções. Por exemplo, os grupos podem ser escolas, aldeias, consultórios médicos, pacientes
de um único médico ou famílias (ver Capítulo 23, Secção 23.1 (/handbook/current/chapter-
23#section-23-1) ).
6.2.3 Ensaios cruzados #seção-6-2-3
Num ensaio cruzado, todos os participantes recebem todas as intervenções em sequência: são
randomizados de acordo com uma ordem de intervenções e os participantes atuam como seu
próprio controle (ver Capítulo 23, Seção 23.2 (/handbook/current/chapter-23#section-23-2) ).
6.2.4 Observações repetidas sobre os participantes #seção-6-2-4
Em estudos de longa duração, os resultados podem ser apresentados durante vários períodos de
acompanhamento (por exemplo, aos 6 meses, 1 ano e 2 anos). Os resultados de mais de um ponto
no tempo para cada estudo não podem ser combinados em uma metanálise padrão sem erro de
unidade de análise. Algumas opções para selecionar e calcular estimativas de efeito são as
seguintes:
1. Obtenha dados individuais dos participantes e realize uma análise (como análise do tempo até
o evento) que utilize todo o acompanhamento de cada participante. Alternativamente, calcule
uma medida de efeito para cada participante individual que incorpore todos os pontos no
tempo, como o número total de eventos, uma média geral ou uma tendência ao longo do
tempo. Ocasionalmente, tais análises estão disponíveis em relatórios publicados.
2. Defina vários resultados diferentes, com base em diferentes períodos de acompanhamento, e
planeje análises separadas. Por exemplo, os prazos podem ser definidos para reflectir o
acompanhamento a curto, médio e longo prazo.
3. Selecione um único ponto no tempo e analise apenas os dados neste momento para os estudos
em que são apresentados. Idealmente, este deve ser um momento clinicamente importante. Às
vezes, pode ser escolhido para maximizar os dados disponíveis, embora os autores devam estar
cientes da possibilidade de vieses no relato.
4. Selecione o acompanhamento mais longo de cada estudo. Isto pode induzir uma falta de
consistência entre os estudos, dando origem à heterogeneidade.
6.2.5 Eventos que podem ocorrer novamente #seção-6-2-5
Se o resultado de interesse for um evento que pode ocorrer mais de uma vez, deve-se tomar
cuidado para evitar um erro de unidade de análise. Os dados de contagem não devem ser tratados
como se fossem dados dicotômicos (ver Seção 6.7 ).
6.2.6 Múltiplas tentativas de tratamento #seção-6-2-6
Da mesma forma, múltiplas tentativas de tratamento por participante podem causar um erro na
unidade de análise. Deve-se ter cuidado para garantir que o número de participantes randomizados,
e não o número de tentativas de tratamento, seja usado para calcular os intervalos de confiança. Por
exemplo, em estudos de subfertilidade, as mulheres podem passar por múltiplos ciclos, e os autores
podem usar erroneamente os ciclos como denominador em vez das mulheres. Isto é semelhante à
situação nos ensaios randomizados por conglomerados, exceto que cada participante é o “cluster”
(ver métodos descritos no Capítulo 23, Seção 23.1 (/handbook/current/chapter-23#section-23-1) ).
6.2.7 Múltiplas partes do corpo I: partes do corpo recebem a mesma intervenção

#seção-6-2-7
Em alguns estudos, as pessoas são randomizadas, mas múltiplas partes (ou locais) do corpo
recebem a mesma intervenção, sendo feito um julgamento de resultado separado para cada parte
do corpo, e o número de partes do corpo é usado como denominador na análise. Por exemplo, os
olhos podem ser erroneamente usados como denominador sem ajuste para a não independência
entre os olhos. Isto é semelhante à situação em estudos randomizados por conglomerados, exceto
que os participantes são os “clusters” (ver métodos descritos no Capítulo 23, Seção 23.1
(/handbook/current/chapter-23#section-23-1) ).
6.2.8 Múltiplas partes do corpo II: partes do corpo recebem diferentes intervenções
#seção-6-2-8
Uma situação diferente é aquela em que diferentes partes do corpo são randomizadas para
diferentes intervenções. Os projetos de “boca dividida” em saúde bucal são desse tipo, nos quais
diferentes áreas da boca recebem diferentes intervenções. Estes ensaios têm semelhanças com os
ensaios cruzados: enquanto nos estudos cruzados os indivíduos recebem múltiplas intervenções em
momentos diferentes, nestes ensaios recebem múltiplas intervenções em locais diferentes. Consulte
os métodos descritos no Capítulo 23, Seção 23.2 (/handbook/current/chapter-23#section-23-2) . É
importante distinguir estes ensaios daqueles em que os participantes recebem a mesma
intervenção em vários locais (Secção 6.2.7 ).
6.2.9 Grupos de intervenção múltipla #seção-6-2-9
Estudos que comparam mais de dois grupos de intervenção precisam ser tratados com cuidado.
Esses estudos são frequentemente incluídos em meta-análises, fazendo comparações múltiplas
entre todos os pares possíveis de grupos de intervenção. Um sério problema de unidade de análise
surge se o mesmo grupo de participantes for incluído duas vezes na mesma meta-análise (por
exemplo, se 'Dose 1 vs Placebo' e 'Dose 2 vs Placebo' forem ambos incluídos na mesma meta-
análise). análise, com os mesmos pacientes que receberam placebo em ambas as comparações). Os
autores da revisão devem abordar vários grupos de intervenção de uma forma apropriada que evite
a omissão arbitrária de grupos relevantes e a contagem dupla de participantes (ver Quadro 6.2.b do
MECIR ) (ver Capítulo 23, Seção 23.3 (/handbook/current/chapter-23#section-23-3) ). Uma opção é a
meta-análise de rede, conforme discutido no Capítulo 11 (/handbook/current/chapter-11) .
Quadro 6.2.b do MECIR Expectativas relevantes para a condução de revisões de intervenção
C66: Abordando estudos com mais de dois grupos ( Obrigatório )
Se forem incluídos estudos A exclusão de grupos relevantes diminui a precisão e

com vários braços , analisar a contagem dupla aumenta a precisão falsamente;
múltiplos grupos de ambos são inadequados e desnecessários.
intervenção de uma forma Estratégias alternativas incluem a combinação de

apropriada que evite a grupos de intervenção, a separação de comparações
omissão arbitrária de grupos em diferentes parcelas florestais e o uso de meta-
relevantes e a contagem dupla análises de múltiplos tratamentos.
de participantes.
6.3 Extraindo estimativas de efeito diretamente #seção-6-3
Nas revisões de ensaios randomizados, geralmente é recomendado que os dados resumidos de

cada grupo de intervenção sejam coletados conforme descrito nas Seções 6.4.2 e 6.5.2 , para que os
efeitos possam ser estimados pelos autores da revisão de forma consistente entre os estudos.
Ocasionalmente, porém, é necessário ou apropriado extrair uma estimativa do efeito diretamente
de um relatório de estudo (alguns podem referir-se a isto como extração de dados “baseada em
contraste” em vez de extração de dados “baseada em braço”). Algumas situações em que este é o
caso incluem:
1. Para tipos específicos de ensaios randomizados: as análises de ensaios randomizados por

agrupamento e ensaios cruzados devem levar em conta o agrupamento ou a correspondência
de indivíduos, e muitas vezes é preferível extrair estimativas de efeito das análises realizadas
pelos autores do ensaio (ver Capítulo 23 (/handbook/current/chapter-23) ).
2. Para análises específicas de ensaios randomizados: pode haver outras razões para extrair
estimativas de efeito diretamente, como quando as análises foram realizadas para ajustar as
variáveis usadas na randomização estratificada ou na minimização, ou quando a análise de
covariância foi usada para ajustar as medidas iniciais de um resultado. Outros exemplos de
análises sofisticadas incluem aquelas realizadas para reduzir o risco de viés, para lidar com
dados faltantes ou para estimar um efeito “por protocolo” utilizando análise de variáveis
instrumentais (ver também Capítulo 8 (/handbook/current/chapter-08) ).
3. Para tipos específicos de resultados: os dados relativos ao tempo até ao evento não são
convenientemente resumidos por estatísticas resumidas de cada grupo de intervenção e é
geralmente mais conveniente extrair taxas de risco (ver Secção 6.8.2 ). Da mesma forma, para
dados ordinais e dados de taxas, pode ser conveniente extrair estimativas de efeitos (ver
Secções 6.6.2 e 6.7.2 ).
4. Para estudos não randomizados: ao extrair dados de estudos não randomizados, podem estar
disponíveis estimativas de efeitos ajustadas (por exemplo, odds ratios ajustadas de análises de
regressão logística ou razões de taxas ajustadas de análises de regressão de Poisson). Estas são
geralmente preferíveis às análises baseadas em estatísticas resumidas, porque normalmente
reduzem o impacto da confusão. As variáveis que foram utilizadas para ajuste devem ser
registradas (ver Capítulo 24 (/handbook/current/chapter-24) ).
5. Quando os dados resumidos para cada grupo não estão disponíveis: ocasionalmente, os dados
resumidos para cada grupo de intervenção podem ser procurados, mas não podem ser
extraídos. Nessas situações, poderá ainda ser possível incluir o estudo numa meta-análise
(utilizando o método genérico de variância inversa) se uma estimativa do efeito for extraída
diretamente do relatório do estudo.
Uma estimativa do efeito pode ser apresentada juntamente com um intervalo de confiança ou um
valor P. Geralmente é necessário obter um SE a partir desses números, uma vez que os
procedimentos de software para realizar meta-análises usando médias ponderadas de variância
inversa genéricas geralmente recebem dados de entrada na forma de uma estimativa de efeito e seu
SE de cada estudo (ver Capítulo 10, Seção 10.3 (/handbook/current/chapter-10#section-10-3) ). O
procedimento para obter um SE depende se a medida de efeito é uma medida absoluta (por
exemplo, diferença média, diferença média padronizada, diferença de risco) ou uma medida de
razão (por exemplo, razão de chances, razão de risco, razão de risco, razão de taxa). Descrevemos
esses procedimentos nas Seções 6.3.1 e 6.3.2 , respectivamente. No entanto, para dados de
resultados contínuos, os casos especiais de extração de resultados para uma média de um braço de
intervenção e de extração de resultados para a diferença entre duas médias são abordados na
Secção 6.5.2 .
Uma limitação desta abordagem é que as estimativas e os SE da mesma medida de efeito devem ser
calculados para todos os outros estudos na mesma meta-análise, mesmo que forneçam os dados
resumidos por grupo de intervenção. Por exemplo, quando os números em cada categoria de
resultado por grupo de intervenção são conhecidos para alguns estudos, mas apenas as OR estão
disponíveis para outros estudos, então as OR precisariam ser calculadas para o primeiro conjunto de
estudos para permitir a meta-análise com o segundo conjunto de estudos. estudos. Um software
estatístico como o RevMan pode ser usado para calcular essas RUP (neste exemplo, analisando-as
primeiro como dados dicotômicos), e os intervalos de confiança calculados podem ser
transformados em SEs usando os métodos da Seção 6.3.2 .
6.3.1 Obtenção de erros padrão de intervalos de confiança e valores P: medidas

absolutas (diferenças) #seção-6-3-1
Quando um intervalo de confiança (IC) de 95% está disponível para uma medida de efeito absoluto
(por exemplo, diferença média padronizada, diferença de risco, diferença de taxa), então o SE pode
ser calculado como
Para intervalos de confiança de 90%, 3,92 deve ser substituído por 3,29, e para intervalos de
confiança de 99%, deve ser substituído por 5,15. Considerações específicas são necessárias para
dados de resultados contínuos ao extrair diferenças médias. Isso ocorre porque os intervalos de
confiança deveriam ter sido calculados usando distribuições t, especialmente quando os tamanhos
amostrais são pequenos: consulte a Seção 6.5.2.3 para obter detalhes.
Quando os valores exatos de P são citados juntamente com as estimativas do efeito da intervenção,
é possível derivar SEs. Embora todos os testes de significância estatística produzam valores P, testes
diferentes utilizam abordagens matemáticas diferentes. O método aqui assume que os valores de P
foram obtidos através de uma abordagem particularmente simples de dividir a estimativa do efeito
pelo seu SE e comparar o resultado (denotado como Z) com uma distribuição normal padrão (os
estatísticos referem-se frequentemente a isto como um teste de Wald).
O primeiro passo é obter o valor Z correspondente ao valor P relatado em uma tabela da

distribuição normal padrão. Um SE pode então ser calculado como
Como exemplo, suponha que um resumo de conferência apresente uma estimativa de diferença de
risco de 0,03 (P = 0,008). O valor Z que corresponde a um valor P de 0,008 é Z = 2,652. Isso pode ser
obtido em uma tabela de distribuição normal padrão ou em um programa de computador (por
exemplo, inserindo =abs(normsinv(0.008/2)) em qualquer célula de uma planilha do Microsoft
Excel). O SE da diferença de risco é obtido dividindo a diferença de risco (0,03) pelo valor Z (2,652),
que dá 0,011.
Nos casos em que os testes de significância utilizaram outras abordagens matemáticas, os SE

estimados podem não coincidir exactamente com os SE verdadeiros. Para valores P obtidos de
testes t para dados de resultados contínuos, consulte a Seção 6.5.2.3 .
6.3.2 Obtenção de erros padrão de intervalos de confiança e valores P: medidas de

proporção #seção-6-3-2
O processo de obtenção de SE para medidas de razão é semelhante ao das medidas absolutas, mas
com um primeiro passo adicional. As análises das medidas de razão são realizadas na escala
logarítmica natural (ver Seção 6.1.2.1 ). Para uma medida de razão, como razão de risco, razão de
chances ou razão de risco (que aqui denotamos genericamente como RR), primeiro calcule
Então as fórmulas da Seção 6.3.1 podem ser usadas. Observe que o SE se refere ao logaritmo da
medida de razão. Ao usar o método genérico de variância inversa no RevMan, os dados devem ser
inseridos na escala logarítmica natural, ou seja, lnRR e o SE de lnRR, conforme calculado aqui (ver
Capítulo 10, Seção 10.3 (/handbook/current/chapter-10#section-10-3) ).
6.4 Dados de resultados dicotômicos #seção-6-4
6.4.1 Medidas de efeito para resultados dicotômicos #seção-6-4-1
Os dados de resultados dicotômicos (binários) surgem quando o resultado para cada participante é
uma de duas possibilidades, por exemplo, vivo ou morto, ou melhora clínica ou nenhuma melhora
clínica. Esta seção considera as possíveis estatísticas resumidas a serem usadas quando o resultado
de interesse tem essa forma binária. As medidas de efeito mais comumente encontradas usadas em
ensaios randomizados com dados dicotômicos são:
1. a razão de risco (RR; também chamada de risco relativo);

2. a razão de chances (OR);
3. a diferença de risco (RD; também chamada de redução absoluta do risco); e

4. o número necessário para tratar um resultado adicional benéfico ou prejudicial (NNT).
Os detalhes dos cálculos das três primeiras medidas são apresentados na Caixa 6.4.a. Os números
necessários para tratar são discutidos em detalhes no Capítulo 15, Seção 15.4
(/handbook/current/chapter-15#section-15-4) , pois são usados principalmente para a comunicação
e interpretação de resultados.
Os métodos para meta-análise de dados de resultados dicotômicos são abordados no Capítulo 10,
Seção 10.4 (/handbook/current/chapter-10#section-10-4) .
À parte: como os acontecimentos de interesse podem ser desejáveis em vez de indesejáveis, seria
preferível utilizar um termo mais neutro do que risco (como probabilidade), mas por uma questão
de convenção utilizamos os termos razão de risco e diferença de risco em todo o processo. Também
utilizamos o termo “razão de risco” em vez de “risco relativo” para fins de consistência com outra
terminologia. Os dois são intercambiáveis e ambos convenientemente abreviados para 'RR'. Note-se
também que tivemos cuidado com a utilização das palavras “risco” e “taxas”. Essas palavras são
frequentemente tratadas como sinônimos. Contudo, tentámos reservar a utilização da palavra
“taxa” para o tipo de dados “contagens e taxas”, onde descreve a frequência de eventos num
período de tempo medido.
Quadro 6.4.a Cálculo da razão de risco (RR), razão de chances (OR) e diferença de risco (RD) a partir
de uma tabela 2×2
Os resultados de um ensaio randomizado de dois grupos com resultado

dicotômico podem ser exibidos como uma tabela 2✕2:
Evento Nenhum
(' evento
Total
Sucesso (' Falhar
') ')
Intervenção
SE FE NE _
experimental
Intervenção
SC _ Futebol _ NC
comparadora
onde S E, S C, F E e F C são os números de participantes com cada resultado ('S' ou

'F') em cada grupo ('E' ou 'C'). As seguintes estatísticas resumidas podem ser
calculadas:
6.4.1.1 Risco e probabilidades #seção-6-4-1-1
Na conversação geral, os termos “risco” e “probabilidades” são usados indistintamente (e também

com os termos “acaso”, “probabilidade” e “probabilidade”) como se descrevessem a mesma
quantidade. Nas estatísticas, contudo, o risco e as probabilidades têm significados particulares e
são calculados de maneiras diferentes. Quando a diferença entre eles é ignorada, os resultados de
uma revisão sistemática podem ser mal interpretados.
Risco é o conceito mais familiar aos profissionais de saúde e ao público em geral. O risco descreve a
probabilidade com que ocorrerá um resultado de saúde. Na investigação, o risco é normalmente
expresso como um número decimal entre 0 e 1, embora ocasionalmente seja convertido numa
percentagem. Nas tabelas de 'Resumo dos resultados' nas Revisões Cochrane, é frequentemente
expresso como um número de indivíduos por 1000 (ver Capítulo 14, Secção 14.1.4
(/handbook/current/chapter-14#section-14-1-4) ). É simples compreender a relação entre um risco e
a ocorrência provável de eventos: numa amostra de 100 pessoas, o número de eventos observados
será, em média, o risco multiplicado por 100. Por exemplo, quando o risco é 0,1, cerca de 10 pessoas
em cada 100 terão o evento; quando o risco é de 0,5, cerca de 50 pessoas em cada 100 terão o
evento. Numa amostra de 1.000 pessoas, esses números são 100 e 500, respectivamente.
Probabilidades é um conceito que pode ser mais familiar aos jogadores. As 'probabilidades'
referem-se à razão entre a probabilidade de um determinado evento ocorrer e a probabilidade de
não ocorrer e pode ser qualquer número entre zero e infinito. No jogo, as probabilidades descrevem
a relação entre o tamanho dos ganhos potenciais e a aposta no jogo; na área da saúde é a razão
entre o número de pessoas com o evento e o número sem. É comumente expresso como uma
proporção de dois números inteiros. Por exemplo, uma probabilidade de 0,01 é frequentemente
escrita como 1:100, uma probabilidade de 0,33 como 1:3 e uma probabilidade de 3 como 3:1. As
probabilidades podem ser convertidas em riscos e os riscos em probabilidades, utilizando as
fórmulas:
A interpretação das probabilidades é mais complicada do que a de um risco. A maneira mais simples
de garantir que a interpretação está correta é primeiro converter as probabilidades em risco. Por
exemplo, quando as probabilidades são de 1:10, ou 0,1, uma pessoa terá o evento para cada 10 que
não o fizerem e, usando a fórmula, o risco do evento é 0,1/(1+0,1)=0,091. Numa amostra de 100,
cerca de 9 indivíduos terão o evento e 91 não. Quando as probabilidades são iguais a 1, uma pessoa
terá o evento para cada pessoa que não o tiver, portanto, em uma amostra de 100, 100✕1/(1+1)=50
terá o evento e 50 não.
A diferença entre probabilidades e risco é pequena quando o evento é raro (conforme ilustrado no
exemplo acima, onde um risco de 0,091 foi considerado semelhante a uma probabilidade de 0,1).
Quando os eventos são comuns, como acontece frequentemente nos ensaios clínicos, as diferenças
entre probabilidades e riscos são grandes. Por exemplo, um risco de 0,5 equivale a uma
probabilidade de 1; e um risco de 0,95 equivale a probabilidades de 19.
As medidas de efeito para ensaios randomizados com resultados dicotômicos envolvem a

comparação de riscos ou probabilidades de dois grupos de intervenção. Para compará-los, podemos
observar a sua proporção (razão de risco ou razão de probabilidade) ou a diferença de risco
(diferença de risco).
6.4.1.2 Medidas de efeito relativo: razão de risco e razão de chances #seção-6-4-1-2
As medidas de efeito relativo expressam o resultado esperado num grupo em relação ao resultado
esperado no outro. O rácio de risco (RR, ou risco relativo) é o rácio do risco de um evento nos dois
grupos, enquanto o rácio de probabilidades (OR) é o rácio das probabilidades de um evento (ver
Caixa 6.4.a ). Para ambas as medidas, um valor de 1 indica que os efeitos estimados são os mesmos
para ambas as intervenções.
Nem a razão de risco nem a razão de probabilidade podem ser calculadas para um estudo se não
houver eventos no grupo comparador. Isto porque, como pode ser visto nas fórmulas do Quadro
6.4.a , estaríamos tentando dividir por zero. A razão de probabilidade também não pode ser
calculada se todos no grupo de intervenção vivenciarem um evento. Nestas situações, e noutras em
que os SE não podem ser calculados, é habitual adicionar ½ a cada célula da tabela 2✕2 (por
exemplo, o RevMan faz esta correção automaticamente quando necessário). No caso em que
nenhum evento (ou todos os eventos) são observados em ambos os grupos, o estudo não fornece
informações sobre a probabilidade relativa do evento e é omitido da meta-análise. Isto é totalmente
apropriado. Os zeros surgem especialmente quando o evento de interesse é raro, como resultados
adversos não intencionais. Para uma discussão mais aprofundada sobre a escolha das medidas de
efeito para esses dados esparsos (muitas vezes com muitos zeros), consulte o Capítulo 10, Seção
10.4.4 (/handbook/current/chapter-10#section-10-4-4) .
As taxas de risco descrevem a multiplicação do risco que ocorre com o uso da intervenção
experimental. Por exemplo, uma taxa de risco de 3 para uma intervenção implica que os
acontecimentos com intervenção são três vezes mais prováveis do que os acontecimentos sem
intervenção. Alternativamente, podemos dizer que a intervenção aumenta o risco de eventos em
100×(RR–1)%=200%. Da mesma forma, uma razão de risco de 0,25 é interpretada como a
probabilidade de um evento com intervenção ser um quarto daquela sem intervenção. Isto pode ser
expresso alternativamente dizendo que a intervenção diminui o risco de eventos em 100×(1–

RR)%=75%. Isto é conhecido como redução do risco relativo (ver também Capítulo 15, Secção
15.4.1 (/handbook/current/chapter-15#section-15-4-1) ). A interpretação da importância clínica de
uma determinada razão de risco não pode ser feita sem o conhecimento do risco típico de eventos
sem intervenção: uma razão de risco de 0,75 poderia corresponder a uma redução clinicamente
importante de eventos de 80% a 60%, ou a uma pequena, redução menos importante clinicamente
de 4% para 3%. O que constitui clinicamente importante dependerá do resultado e dos valores e
preferências da pessoa ou população.
O valor numérico da razão de risco observado deve estar sempre entre 0 e 1/CGR, onde CGR
(abreviatura de 'risco do grupo comparador', às vezes referido como risco do grupo de controle ou
taxa de evento de controle) é o risco observado do evento no grupo comparador expresso como um
número entre 0 e 1. Isto significa que para eventos comuns são impossíveis valores elevados de
razão de risco. Por exemplo, quando o risco observado de eventos no grupo comparador é de 0,66
(ou 66%), então a razão de risco observada não pode exceder 1,5. Este limite aplica-se apenas a
aumentos de risco e pode causar problemas quando os resultados de uma análise são extrapolados
para uma população diferente na qual os riscos do grupo comparador estão acima dos observados
no estudo.
Os rácios de probabilidades, tal como as probabilidades, são mais difíceis de interpretar (Sinclair e
Bracken 1994, Sackett et al 1996). As razões de probabilidade descrevem a multiplicação das
probabilidades do resultado que ocorre com o uso da intervenção. Para compreender o que significa
um rácio de probabilidades em termos de alterações no número de eventos, é mais simples
convertê-lo primeiro num rácio de risco e, em seguida, interpretar o rácio de risco no contexto de um
típico risco de grupo de comparação, conforme descrito aqui. A fórmula para converter uma razão
de chances em uma razão de risco é fornecida no Capítulo 15, Seção 15.4.4
(/handbook/current/chapter-15#section-15-4-4) . Às vezes pode ser sensato calcular o RR para mais
de um risco assumido de grupo comparador.
6.4.1.3 Aviso: OR e RR não são iguais #seção-6-4-1-3
Como o risco e as probabilidades são diferentes quando os eventos são comuns, a razão de risco e a
razão de chances também diferem quando os eventos são comuns. Esta não equivalência não indica
que nenhuma delas esteja errada: ambas são formas inteiramente válidas de descrever um efeito de
intervenção. Podem surgir problemas, contudo, se o rácio de probabilidades for mal interpretado
como um rácio de risco. Para intervenções que aumentam as probabilidades de ocorrência de
eventos, o rácio de probabilidades será maior do que o rácio de risco, pelo que a interpretação
errada tenderá a sobrestimar o efeito da intervenção, especialmente quando os eventos são
comuns (com, digamos, riscos de eventos superiores a 20%). Para intervenções que reduzem as
probabilidades de ocorrência de eventos, a razão de probabilidade será menor do que a razão de
risco, de modo que, mais uma vez, a interpretação errada sobrestima o efeito da intervenção. Este
erro de interpretação é, infelizmente, bastante comum em relatórios publicados de estudos
individuais e revisões sistemáticas.
6.4.1.4 Medida de efeito absoluto: a diferença de risco #seção-6-4-1-4
A diferença de risco é a diferença entre os riscos observados (proporções de indivíduos com o

resultado de interesse) nos dois grupos (ver Caixa 6.4.a ). A diferença de risco pode ser calculada
para qualquer estudo, mesmo quando não há eventos em nenhum dos grupos. A diferença de risco
é simples de interpretar: descreve a diferença no risco de eventos observado entre intervenções
experimentais e comparativas; para um indivíduo, descreve a diferença estimada na probabilidade
de vivenciar o evento. Contudo, a importância clínica de uma diferença de risco pode depender do
risco subjacente de eventos na população. Por exemplo, uma diferença de risco de 0,02 (ou 2%)
pode representar uma alteração pequena e clinicamente insignificante de um risco de 58% para
60% ou uma alteração proporcionalmente muito maior e potencialmente importante de 1% para
3%. Embora a diferença de risco forneça informações mais diretamente relevantes do que as
medidas relativas (Laupacis et al 1988, Sackett et al 1997), ainda é importante estar ciente do risco
subjacente dos eventos e das consequências dos eventos, ao interpretar uma diferença de risco. As
medidas absolutas, como a diferença de risco, são particularmente úteis quando se consideram os
compromissos entre os prováveis benefícios e os prováveis danos de uma intervenção.
A diferença de risco é naturalmente limitada (como a razão de risco), o que pode criar dificuldades
na aplicação dos resultados a outros grupos de pacientes e ambientes. Por exemplo, se um estudo
ou meta-análise estima uma diferença de risco de –0,1 (ou –10%), então para um grupo com um
risco inicial de, digamos, 7% o resultado terá uma probabilidade negativa estimada impossível de –3
%. Cenários semelhantes para aumentos de risco ocorrem no outro extremo da escala. Tais
problemas só podem surgir quando os resultados são aplicados a populações com riscos diferentes
daqueles observados nos estudos.
O número necessário para tratar é obtido pela diferença de risco. Embora seja frequentemente
utilizado para resumir resultados de ensaios clínicos, os NNTs não podem ser combinados numa
meta-análise (ver Capítulo 10, Secção 10.4.3 (/handbook/current/chapter-10#section-10-4-3) ).
Contudo, os rácios de probabilidades, os rácios de risco e as diferenças de risco podem ser
utilmente convertidos em NNT e utilizados na interpretação dos resultados de uma meta-análise,
conforme discutido no Capítulo 15, Secção 15.4 (/handbook/current/chapter-15#section-15-4) .
6.4.1.5 Qual é o evento? #seção-6-4-1-5
No contexto de resultados dicotómicos, as intervenções de saúde destinam-se a reduzir o risco de

ocorrência de um resultado adverso ou a aumentar a probabilidade de um bom resultado. É comum
usar o termo “evento” para descrever qualquer resultado ou estado de interesse na análise de dados
dicotômicos. Por exemplo, quando os participantes apresentam sintomas específicos no início do
estudo, o evento de interesse é geralmente a recuperação ou a cura. Se os participantes estiverem
bem ou, alternativamente, em risco de algum resultado adverso no início do estudo, então o evento
é o início da doença ou a ocorrência do resultado adverso.
É possível alternar eventos e não eventos e considerar, em vez disso, a proporção de pacientes que
não se recuperam ou que não vivenciam o evento. Para meta-análises que utilizam diferenças de
risco ou rácios de probabilidades, o impacto desta mudança não tem grandes consequências: a
mudança simplesmente muda o sinal de uma diferença de risco, indicando um tamanho de efeito
idêntico na direção oposta, enquanto que para rácios de probabilidades o novo rácio de
probabilidades é o recíproco (1/ x ) da razão de chances original.
Em contraste, mudar o resultado pode fazer uma diferença substancial nas taxas de risco, afectando
a estimativa do efeito, a sua significância estatística e a consistência dos efeitos da intervenção
entre os estudos. Isto ocorre porque a precisão de uma estimativa do rácio de risco difere
marcadamente entre as situações em que os riscos são baixos e aquelas em que os riscos são
elevados. Numa meta-análise, o efeito desta reversão não pode ser previsto facilmente. A
identificação, antes da análise dos dados, de qual razão de risco tem maior probabilidade de ser a
estatística resumida mais relevante é, portanto, importante. Muitas vezes é conveniente optar por
focar no evento que representa uma mudança de estado. Por exemplo, em estudos de tratamento
onde todos começam num estado adverso e a intenção é “curar” isto, pode ser mais natural focar na
“cura” como o evento. Alternativamente, em estudos de prevenção onde todos começam num
estado “saudável” e a intenção é prevenir um evento adverso, pode ser mais natural concentrar-se
no “evento adverso” como o evento. Uma regra geral é focar no estado menos comum como o
evento de interesse. Isto reduz os problemas associados à extrapolação (ver Secção 6.4.1.2 ) e pode
levar a menos heterogeneidade entre os estudos. Quando as intervenções visam reduzir a
incidência de um evento adverso, há evidências empíricas de que as razões de risco do evento
adverso são mais consistentes do que as razões de risco do não evento (Deeks 2002).
6.4.2 Extração de dados para resultados dicotômicos # seção-6-4-2
Para calcular estatísticas resumidas e incluir o resultado numa meta-análise, os únicos dados
necessários para um resultado dicotómico são os números de participantes em cada um dos grupos
de intervenção que experimentaram e que não experimentaram o resultado de interesse (os
números necessários para preencher uma tabela padrão 2×2, como no Quadro 6.4.a ). No RevMan,
estes podem ser inseridos como os números com o resultado e o tamanho total da amostra para os
dois grupos. Embora, em teoria, isto seja equivalente a recolher os números totais e os números que
experimentam o resultado, nem sempre é claro se os números totais comunicados correspondem
ao tamanho total da amostra ou apenas àqueles para os quais o resultado foi medido ou observado.
É preferível recolher os números de observações reais, pois evita suposições sobre quaisquer
participantes para os quais o resultado não foi medido. Ocasionalmente, os números de
participantes que vivenciaram o evento devem ser derivados de percentagens (embora nem sempre
seja claro qual denominador utilizar, porque as percentagens arredondadas podem ser compatíveis
com mais de um numerador).
Às vezes, o número de participantes e o número de eventos não estão disponíveis, mas uma
estimativa de efeito, como uma razão de chances ou uma razão de risco, pode ser relatada. Esses
dados podem ser incluídos em meta-análises (usando o método genérico de variância inversa)
apenas quando são acompanhados por medidas de incerteza, como SE, intervalo de confiança de
95% ou um valor P exato (ver Seção 6.3 ).
6.5 Dados de resultados contínuos #seção-6-5
6.5.1 Medidas de efeito para resultados contínuos #seção-6-5-1
O termo 'contínuo' em estatística refere-se convencionalmente a uma variável que pode assumir
qualquer valor em um intervalo especificado. Ao lidar com dados numéricos, isso significa que um
número pode ser medido e relatado com um número arbitrário de casas decimais. Exemplos de
dados verdadeiramente contínuos são peso, área e volume. Na prática, podemos usar os mesmos
métodos estatísticos para outros tipos de dados, mais comumente escalas de medição e contagens
de grandes números de eventos (ver Seção 6.6.1 ).
Uma característica comum dos dados contínuos é que uma medida usada para avaliar o resultado
de cada participante também é medida na linha de base, ou seja, antes da administração das
intervenções. Isto dá origem à possibilidade de calcular efeitos com base na mudança da linha de
base (também chamada de pontuação de mudança ). Quando as medidas de efeito são baseadas
na mudança da linha de base, uma única medição é criada para cada participante, obtida
subtraindo a medição pós-intervenção da medição da linha de base ou subtraindo a medição da
linha de base da medição pós-intervenção. As análises prosseguem então como para qualquer outro
tipo de variável de resultado contínua.
Duas estatísticas resumidas são comumente usadas para meta-análise de dados contínuos: a
diferença média e a diferença média padronizada. Estes podem ser calculados quer os dados de
cada indivíduo sejam medidas pós-intervenção ou medidas de mudança em relação à linha de base.
Também é possível medir os efeitos tomando proporções de médias ou utilizando outras
alternativas .
Às vezes, os revisores podem considerar dicotomizar medidas de resultados contínuos para que o
resultado do estudo possa ser expresso como razão de chances, razão de risco ou diferença de risco.
Isto pode ser feito para melhorar a interpretação dos resultados (ver Capítulo 15, Secção 15.5
(/handbook/current/chapter-15#section-15-5) ), ou porque a maioria dos estudos apresenta
resultados após dicotomizar uma medida contínua. Os resultados relatados como médias e SDs
podem, sob algumas suposições, ser convertidos em riscos (Anzures-Cabrera et al 2011).
Normalmente é assumida uma distribuição normal para a variável de resultado dentro de cada
grupo de intervenção.
Os métodos para metanálise de dados de resultados contínuos são abordados no Capítulo 10, Seção
10.5 (/handbook/current/chapter-10#section-10-5) .
6.5.1.1 A diferença média (ou diferença de médias) #seção-6-5-1-1
A diferença média (MD, ou mais corretamente, 'diferença nas médias') é uma estatística padrão que
mede a diferença absoluta entre o valor médio em dois grupos de um ensaio randomizado. Estima a
quantidade pela qual a intervenção experimental altera o resultado, em média, em comparação
com a intervenção comparadora. Pode ser usado como uma estatística resumida em meta-análise
quando as medições dos resultados em todos os estudos são feitas na mesma escala.
À parte: as análises baseadas nesta medida de efeito foram historicamente denominadas análises de
'diferença média ponderada' (WMD) na Base de Dados Cochrane de Revisões Sistemáticas . Este
nome é potencialmente confuso: embora a meta-análise calcule uma média ponderada destas
diferenças nas médias, nenhuma ponderação está envolvida no cálculo de um resumo estatístico de
um único estudo. Além disso, todas as meta-análises envolvem uma combinação ponderada de
estimativas, mas não utilizamos a palavra “ponderada” quando nos referimos a outros métodos.
6.5.1.2 A diferença média padronizada #seção-6-5-1-2
A diferença média padronizada (SMD) é usada como estatística resumida na meta-análise quando
todos os estudos avaliam o mesmo resultado, mas o medem de diversas maneiras (por exemplo,
todos os estudos medem a depressão, mas usam escalas psicométricas diferentes). Nesta
circunstância é necessário padronizar os resultados dos estudos em uma escala uniforme antes que
possam ser combinados. O SMD expressa o tamanho do efeito da intervenção em cada estudo em
relação à variabilidade entre participantes nas medidas de resultados observadas naquele estudo.
(Mais uma vez, na realidade, o efeito da intervenção é uma diferença de médias e não uma média de
diferenças.)
Assim, estudos cuja diferença de médias seja a mesma proporção do desvio padrão (DP) terão o
mesmo DMP, independentemente das escalas reais utilizadas para fazer as medidas.
No entanto, o método assume que as diferenças nos DP entre os estudos refletem diferenças nas
escalas de medição e não diferenças reais na variabilidade entre as populações de estudo. Se em
dois ensaios o efeito verdadeiro (medido pela diferença nas médias) for idêntico, mas os SDs forem
diferentes, então os SMDs serão diferentes. Isto pode ser problemático em algumas circunstâncias
onde são esperadas diferenças reais na variabilidade entre os participantes em diferentes estudos.
Por exemplo, quando os primeiros ensaios explicativos são combinados com ensaios pragmáticos
posteriores na mesma revisão, os ensaios pragmáticos podem incluir uma gama mais ampla de
participantes e podem, consequentemente, ter SDs mais elevados. O efeito global da intervenção
também pode ser difícil de interpretar, uma vez que é relatado em unidades de DP e não em
unidades de qualquer uma das escalas de medição utilizadas na revisão, mas estão disponíveis
várias opções para ajudar na interpretação (ver Capítulo 15, Secção 15.6
(/handbook/current/chapter-15#section-15-6) ).
O termo “tamanho do efeito” é frequentemente utilizado nas ciências sociais, particularmente no

contexto da meta-análise. Os tamanhos dos efeitos normalmente, embora nem sempre, referem-se
a versões do SMD. Recomenda-se que o termo 'SMD' seja usado nas Revisões Cochrane em
preferência a 'tamanho do efeito' para evitar confusão com o uso mais geral e simples deste último
termo como sinônimo de 'efeito de intervenção' ou 'estimativa de efeito'.
Deve-se notar que o método SMD não corrige diferenças na direção da escala. Se algumas escalas
aumentam com a gravidade da doença (por exemplo, uma pontuação mais elevada indica
depressão mais grave) enquanto outras diminuem (uma pontuação mais elevada indica depressão
menos grave), é essencial multiplicar os valores médios de um conjunto de estudos por –1 (ou
alternativamente, subtrair a média do valor máximo possível para a escala) para garantir que todas
as escalas apontem na mesma direção, antes da padronização (ver Quadro 6.5.a do MECIR ).
Qualquer ajuste desse tipo deve ser descrito na seção de métodos estatísticos da revisão. O SD não
precisa ser modificado.
Quadro 6.5.a do MECIR Expectativas relevantes para a condução de revisões de intervenção
C61: Combinação de diferentes escalas ( Obrigatório )
Se os estudos forem Às vezes, as escalas têm pontuações mais altas que

combinados com escalas refletem um resultado “melhor” e, às vezes,
diferentes, garantir que pontuações mais baixas refletem um resultado
pontuações mais altas para “melhor”. Resultados sem sentido (e enganosos)
resultados contínuos tenham surgem quando são combinadas estimativas de
todas o mesmo significado efeitos com significados clínicos opostos .
para qualquer resultado
específico ; explicar a direção
da interpretação; e informar
quando as direções forem
invertidas.
Diferentes variações do SMD estão disponíveis dependendo exatamente da escolha de SD escolhida

para o denominador. A definição específica de SMD usada nas Revisões Cochrane é o tamanho do
efeito conhecido nas ciências sociais como g de Hedges (ajustado) . Isto utiliza um DP agrupado no
denominador, que é uma estimativa do DP com base nos dados dos resultados de ambos os grupos
de intervenção, assumindo que os SD nos dois grupos são semelhantes. Em contraste, o delta de
Glass ( Δ ) utiliza apenas o DP do grupo comparador, com base no facto de que se a intervenção
experimental afecta a variação entre pessoas, então tal impacto da intervenção não deve influenciar
a estimativa do efeito.
Para superar problemas associados à estimativa de DS em pequenos estudos, e com diferenças reais
entre estudos na variabilidade entre pessoas, às vezes pode ser desejável padronizar o uso de uma
estimativa externa de SD. As estimativas externas podem ser derivadas, por exemplo, de uma
análise transversal de muitos indivíduos avaliados utilizando a mesma medida de resultados
contínuos (a amostra de indivíduos pode ser derivada de um grande estudo de coorte).
Normalmente, presumir-se-ia que a estimativa externa é conhecida sem erros, o que provavelmente
será razoável se se basear num grande número de indivíduos. Sob esta suposição, seriam utilizados
os métodos estatísticos utilizados para MDs, com tanto o MD quanto seu SE divididos pelo SD
derivado externamente.
6.5.1.3 A proporção de médias #seção-6-5-1-3
A proporção de médias (RoM) é uma estatística menos comumente usada que mede a diferença
relativa entre o valor médio em dois grupos de um ensaio randomizado (Friedrich et al 2008). Estima
o valor pelo qual o valor médio do resultado é multiplicado para os participantes da intervenção
experimental em comparação com a intervenção comparadora. Por exemplo, um RoM de 2 para
uma intervenção implica que a pontuação média nos participantes que recebem a intervenção
experimental é, em média, duas vezes mais elevada que a do grupo sem intervenção. Pode ser
usado como uma estatística resumida em meta-análise quando as medições dos resultados só
podem ser positivas. Assim, é adequado para avaliações únicas (pós-intervenção), mas não para
medidas de mudança em relação à linha de base (que podem ser negativas).
Uma vantagem do RoM é que ele pode ser utilizado em metanálises para combinar resultados de
estudos que utilizaram diferentes escalas de medida. Contudo, é importante que estas diferentes
escalas tenham limites inferiores comparáveis. Por exemplo, uma RoM pode ser usada de forma
significativa para combinar resultados de um estudo usando uma escala que varia de 0 a 10 com
resultados de um estudo que varia de 1 a 50. No entanto, é improvável que seja razoável combinar
resultados de RoM de um estudo usando uma escala que varia de 0 a 10 com resultados de RoM de
um estudo usando uma escala que varia de 20 a 30: não é possível obter valores de RoM fora da faixa
de 0,67 a 1,5 no último estudo, enquanto tais valores são facilmente obtidos no estudo anterior. RoM
não é uma medida de efeito adequada para o último estudo.
A RoM pode ser uma escolha particularmente adequada de medida de efeito quando o resultado é
uma medição física que só pode assumir valores positivos, mas quando diferentes estudos utilizam
diferentes abordagens de medição que não podem ser facilmente convertidas de uma para outra.
Por exemplo, foi utilizado numa meta-análise onde estudos avaliaram a produção de urina
utilizando algumas medidas que se ajustaram, e outras que não, ao peso corporal (Friedrich et al
2005).
6.5.1.4 Outras medidas de efeito para dados de resultados contínuos #seção-6-5-1-4
Outras medidas de efeito para dados de resultados contínuos incluem o seguinte:
Diferença padronizada em termos de diferenças mínimas importantes (MID) em cada escala . Isto
expressa a DM como uma proporção da quantidade de mudança em uma escala que seria
considerada clinicamente significativa (Johnston et al 2010).
Fração evitada . Isso expressa o MD nas pontuações de mudança em relação à mudança média
do grupo comparador. Assim, descreve quanta mudança no grupo comparador poderia ter sido
evitada pela intervenção experimental. Tem sido comumente usado em odontologia (Dubey et
al 1965).
Diferença na variação percentual em relação à linha de base . Esta é uma versão do MD em que
cada grupo de intervenção é resumido pela variação média dividida pelo nível médio basal,
expressando-o assim como uma percentagem. A medida tem sido frequentemente utilizada,
por exemplo, para resultados como nível de colesterol, pressão arterial e glaucoma. É
necessário cuidado para garantir que o SE considere corretamente a correlação entre os valores
iniciais e pós-intervenção (Vickers 2001).
Mapeamento direto de uma escala para outra . Se estiverem disponíveis fatores de conversão
que mapeiem uma escala para outra (por exemplo, libras para quilogramas), então estes
deverão ser usados. Também estão disponíveis métodos que permitem estimar esses fatores de
conversão (Ades et al 2015).
6.5.2 Extração de dados para resultados contínuos # seção-6-5-2
Para realizar uma meta-análise de dados contínuos usando MDs, SMDs ou proporções de médias, os
autores da revisão devem procurar:
o valor médio das medidas de desfecho em cada grupo de intervenção;

o desvio padrão das medidas de resultados em cada grupo de intervenção; e
o número de participantes para os quais o resultado foi medido em cada grupo de intervenção.
Devido aos relatórios deficientes e variáveis, pode ser difícil ou impossível obter estes números a
partir dos resumos de dados apresentados. Os estudos variam nas estatísticas que utilizam para
resumir a média (por vezes utilizando medianas em vez de médias) e a variação (por vezes
utilizando SE, intervalos de confiança, intervalos interquartis e intervalos em vez de DP). Eles
também variam na escala escolhida para analisar os dados (por exemplo, medições pós-intervenção
versus mudança da linha de base; escala bruta versus escala logarítmica).
Um erro particularmente enganoso é interpretar erroneamente um SE como um SD. Infelizmente,

nem sempre é claro o que está a ser relatado e pode ser necessário algum raciocínio inteligente e
comparação com outros estudos. SDs e SEs são ocasionalmente confundidos nos relatórios de
estudos, e a terminologia é usada de forma inconsistente.
Quando necessário, informações faltantes e esclarecimentos sobre as estatísticas apresentadas

deverão ser sempre solicitados aos autores. No entanto, para diversas medidas de variação existe
uma relação algébrica aproximada ou direta com o DP, pelo que pode ser possível obter a estatística
necessária mesmo quando esta não é publicada em artigo, conforme explicado nas Secções 6.5.2.1
a 6.5.2.6 . Mais detalhes e exemplos estão disponíveis em outros lugares (Deeks 1997a, Deeks
1997b). A Seção 6.5.2.7 discute opções sempre que os SDs permanecerem ausentes após tentativas
de obtê-los.
Às vezes, os números de participantes, meios e SDs não estão disponíveis, mas foi relatada uma
estimativa de efeito, como MD ou SMD. Esses dados podem ser incluídos em metanálises usando o
método genérico de variância inversa somente quando forem acompanhados por medidas de
incerteza, como SE, intervalo de confiança de 95% ou um valor P exato. Um SE adequado a partir de
um intervalo de confiança para um DM deve ser obtido usando as etapas iniciais do processo
descrito na Seção 6.5.2.3 . Para SMDs, consulte a Seção 6.3 .
6.5.2.1 Extração pós-intervenção versus mudança dos dados da linha de base #seção-6-5-2-1
Normalmente, os estudos numa revisão terão relatado uma mistura de alterações dos valores
iniciais e pós-intervenção (ou seja, valores em vários momentos de acompanhamento, incluindo o
“valor final”). Alguns estudos relatarão ambos; outros reportarão apenas pontuações de mudança
ou apenas valores pós-intervenção. Tal como explicado no Capítulo 10, Secção 10.5.2
(/handbook/current/chapter-10#section-10-5-2) , tanto os valores pós-intervenção como as
pontuações de mudança podem por vezes ser combinados na mesma análise, pelo que isto não é
necessariamente um problema. Os autores podem desejar extrair dados sobre as alterações dos
resultados iniciais e pós-intervenção se os meios e SDs necessários estiverem disponíveis (ver Seção
6.5.2.7 para casos em que os SDs aplicáveis não estão disponíveis). A escolha da medida relatada
nos estudos pode estar associada à direção e magnitude dos resultados. Os autores da revisão
devem buscar evidências sobre se tal relato seletivo pode ser o caso em um ou mais estudos (ver
Capítulo 8, Seção 8.7 (/handbook/current/chapter-08#section-8-7) ).
Um último problema com a extração de informações sobre mudanças a partir das medidas de base
é que muitas vezes as medidas de base e pós-intervenção podem ter sido relatadas para diferentes
números de participantes devido a visitas perdidas e desistências do estudo. Pode ser difícil
identificar o subconjunto de participantes que reportam medições iniciais e pós-intervenção para os
quais as pontuações de mudança podem ser calculadas.
6.5.2.2 Obtenção de desvios padrão de erros padrão e intervalos de confiança para médias de
grupo #seção-6-5-2-2
Um desvio padrão pode ser obtido do SE de uma média multiplicando pela raiz quadrada do
tamanho da amostra:
Ao fazer esta transformação, o SE deve ser calculado dentro de um único grupo de intervenção e
não deve ser o SE da diferença média entre dois grupos de intervenção.
O intervalo de confiança para uma média também pode ser usado para calcular o DP. Mais uma vez,
o seguinte aplica-se ao intervalo de confiança para um valor médio calculado dentro de um grupo
de intervenção e não para estimativas de diferenças entre intervenções (para estas, consulte a
Secção 6.5.2.3 ). A maioria dos intervalos de confiança relatados são intervalos de confiança de 95%.
Se o tamanho da amostra for grande (digamos, maior que 100 em cada grupo), o intervalo de
confiança de 95% será de 3,92 SE (3,92=2✕1,96). O DP para cada grupo é obtido dividindo a largura
do intervalo de confiança por 3,92 e depois multiplicando pela raiz quadrada do tamanho da
amostra nesse grupo:
Para intervalos de confiança de 90%, 3,92 deve ser substituído por 3,29, e para intervalos de
confiança de 99% deve ser substituído por 5,15.
Se o tamanho da amostra for pequeno (digamos, menos de 60 participantes em cada grupo), então
os intervalos de confiança deveriam ter sido calculados usando um valor da distribuição. Os
números 3,92, 3,29 e 5,15 são substituídos por números ligeiramente maiores específicos da
distribuição t, que podem ser obtidos nas tabelas da distribuição t com graus de liberdade iguais ao
tamanho da amostra do grupo menos 1. Detalhes relevantes da distribuição t estão disponíveis
como apêndices de muitos livros de estatística ou de pacotes padrão de planilhas de computador.
Por exemplo, a estatística t para um intervalo de confiança de 95% a partir de um tamanho de
amostra de 25 pode ser obtida digitando = tinv(1-0,95,25-1) em uma célula de uma planilha do
Microsoft Excel (o resultado é 2,0639). O divisor, 3,92, na fórmula acima seria substituído por
2✕2,0639=4,128.
Para tamanhos de amostra moderados (digamos entre 60 e 100 em cada grupo), pode ter sido
utilizada a distribuição ou uma distribuição normal padrão. Os autores da revisão devem procurar
evidências de qual delas e usá-las na distribuição em caso de dúvida.
Como exemplo, considere os dados apresentados a seguir:
Tamanho
da
Grupo amostra Significar IC 95%
Intervenção
experimental 25 32.1 (30,0, 34,2)
Intervenção
comparadora 22 28,3 (26,5, 30,1)
Os intervalos de confiança deveriam ter sido baseados em distribuições t com 24 e 21 graus de

liberdade, respectivamente. O divisor para o grupo de intervenção experimental é 4,128, acima. O
DP para este grupo é √25✕(34,2–30,0)/4,128=5,09. Os cálculos para o grupo comparador são
realizados de maneira semelhante.
É importante verificar se o intervalo de confiança é simétrico em relação à média (a distância entre o

limite inferior e a média é igual à distância entre a média e o limite superior). Se este não for o caso,
o intervalo de confiança pode ter sido calculado com base em valores transformados (ver Secção
6.5.2.4 ).
6.5.2.3Obtenção de desvios padrão de erros padrão, intervalos de confiança, estatísticas t e

valores P para diferenças nas médias #seção-6-5-2-3
Os desvios padrão podem ser obtidos a partir de um SE, intervalo de confiança, estatística t ou valor
P que se relaciona com uma diferença entre médias em dois grupos (ou seja, o MD). O MD é
necessário nos cálculos da estatística t ou do valor P. Uma suposição de que os SDs das medidas de
resultados são os mesmos em ambos os grupos é necessária em todos os casos. O mesmo SD é
então usado para ambos os grupos de intervenção. Descrevemos primeiro como uma estatística
pode ser obtida a partir de um valor P, depois como um SE pode ser obtido a partir de uma
estatística ou de um intervalo de confiança e, finalmente, como um SD é obtido a partir do SE. Os
autores da revisão podem selecionar as etapas apropriadas neste processo de acordo com os
resultados que estão disponíveis para eles. Métodos relacionados podem ser usados para derivar
SDs de certas estatísticas F, uma vez que tirar a raiz quadrada de uma estatística F pode produzir a
mesma estatística t. Freqüentemente, é necessário cuidado para garantir que uma estatística F
apropriada seja usada. Recomenda-se o aconselhamento de um estatístico experiente.
(1) Do valor P à estatística t
Quando os valores reais de P obtidos a partir de testes t são citados, a estatística t correspondente
pode ser obtida a partir de uma tabela da distribuição t. Os graus de liberdade são dados por N E +N
C –2, onde N E e N C são os tamanhos amostrais nos grupos experimental e comparador. Ilustraremos
com um exemplo. Considere um ensaio de uma intervenção experimental (N E =25) versus uma
intervenção comparadora (N C =22), onde o MD=3,8. O valor P para comparação foi P = 0,008, obtido
por meio de teste t para duas amostras.
A estatística t que corresponde a um valor P de 0,008 e 25+22–2=45 graus de liberdade é t=2,78. Isso
pode ser obtido em uma tabela de distribuição t com 45 graus de liberdade ou em um computador
(por exemplo, inserindo = tinv(0,008, 45) em qualquer célula de uma planilha do Microsoft Excel).
Dificuldades são encontradas quando níveis de significância são relatados (como P<0,05 ou mesmo
P=NS (“não significativo”, o que geralmente implica P>0,05) em vez de valores exatos de P. Uma
abordagem conservadora seria considerar o valor de P em o limite superior (por exemplo, para
P<0,05 considere P=0,05, para P<0,01 considere P=0,01 e para P<0,001 considere P=0,001).No
entanto, esta não é uma solução para resultados relatados como P=NS, ou P>0,05 (ver Seção 6.5.2.7
).
(2) Da estatística t ao erro padrão
A estatística t é a razão entre o MD e o SE do MD. O SE do MD pode, portanto, ser obtido dividindo-o

pela estatística t:
onde denota 'o valor absoluto de X'. No exemplo, onde MD=3,8 e t=2,78, o SE do MD é obtido
dividindo 3,8 por 2,78, o que dá 1,37.
(3) Do intervalo de confiança ao erro padrão
Se um intervalo de confiança de 95% estiver disponível para o MD, então o mesmo SE pode ser
calculado como:
contanto que o julgamento seja grande. Para intervalos de confiança de 90%, divida por 3,29 em vez
de 3,92; para intervalos de confiança de 99%, divida por 5,15. Se o tamanho da amostra for pequeno
(digamos, menos de 60 participantes em cada grupo), então os intervalos de confiança deveriam ter
sido calculados usando a distribuição. Os números 3,92, 3,29 e 5,15 são substituídos por números
maiores específicos tanto para a distribuição t quanto para o tamanho da amostra, e podem ser
obtidos em tabelas da distribuição t com graus de liberdade iguais a N E +N C –2, onde N E e N C são
os tamanhos amostrais nos dois grupos. Detalhes relevantes da distribuição t estão disponíveis
como apêndices de muitos livros de estatística ou em pacotes padrão de planilhas de computador.
Por exemplo, a estatística t para um intervalo de confiança de 95% de uma comparação de um
tamanho de amostra de 25 com um tamanho de amostra de 22 pode ser obtida digitando = tinv(1-
0,95,25+22-2) em uma célula de um Planilha Microsoft Excel.
(4) Do erro padrão ao desvio padrão
O SD intragrupo pode ser obtido a partir do SE do MD usando a seguinte fórmula:
No exemplo,
Observe que este SD é a média dos SD dos braços experimental e comparador e deve ser inserido
duas vezes no RevMan (uma para cada grupo de intervenção).
6.5.2.4 Transformações e dados distorcidos #seção-6-5-2-4
Os estudos podem apresentar estatísticas resumidas calculadas após uma transformação ter sido
aplicada aos dados brutos. Por exemplo, podem estar disponíveis médias e SDs de valores
logarítmicos (ou, equivalentemente, uma média geométrica e seu intervalo de confiança). Tais
resultados devem ser recolhidos, pois podem ser incluídos em meta-análises, ou – com certos
pressupostos – podem ser transformados de volta à escala bruta (Higgins et al 2008).
Por exemplo, um ensaio relatou respostas de anticorpos meningocócicos 12 meses após a vacinação
com a vacina contra meningite C e uma vacina de controle (MacLennan et al 2000), como títulos
médios geométricos de 24 e 4,2 com intervalos de confiança de 95% de 17 a 34 e 3,9 a 4,6,
respectivamente. Esses resumos foram obtidos encontrando as médias e intervalos de confiança
dos logaritmos naturais das respostas de anticorpos (para vacina 3,18 (IC 95% 2,83 a 3,53) e controle
1,44 (1,36 a 1,53)) e tomando seus exponenciais (anti-logs ). Uma meta-análise pode ser realizada na
escala dessas respostas logarítmicas naturais de anticorpos, em vez das médias geométricas. Os SDs
dos dados transformados em logaritmo podem ser derivados do último par de intervalos de
confiança usando métodos descritos na Seção 6.5.2.1 . Para uma discussão mais aprofundada sobre
meta-análise com dados distorcidos, consulte o Capítulo 10, Seção 10.5.3
(/handbook/current/chapter-10#section-10-5-3) .
6.5.2.5 Intervalos interquartis #seção-6-5-2-5
Os intervalos interquartis descrevem onde estão os 50% centrais dos resultados dos participantes.
Quando os tamanhos das amostras são grandes e a distribuição do resultado é semelhante à
distribuição normal, a largura do intervalo interquartil será de aproximadamente 1,35 DP. Noutras
situações, e especialmente quando a distribuição do resultado é assimétrica, não é possível estimar
um DP a partir de um intervalo interquartil. Note-se que a utilização de intervalos interquartis em
vez de desvios padrão pode muitas vezes indicar que a distribuição do resultado está distorcida.
Wan e colegas forneceram uma extensão dependente do tamanho da amostra para a fórmula para
aproximar o DP usando o intervalo interquartil (Wan et al 2014).
6.5.2.6Intervalos #seção-6-5-2-6
Os intervalos são muito instáveis e, ao contrário de outras medidas de variação, aumentam quando
o tamanho da amostra aumenta. Eles descrevem os extremos dos resultados observados, e não a
variação média. Uma abordagem comum tem sido aproveitar o fato de que, com dados
normalmente distribuídos, 95% dos valores estarão dentro de 2✕SD de cada lado da média. O DP
pode, portanto, ser estimado em aproximadamente um quarto da faixa típica de valores de dados.
Este método não é robusto e recomendamos que não seja utilizado. Walter e Yao basearam um
método de imputação nos valores mínimo e máximo observados. O aprimoramento do método
“intervalo” proporcionou uma tabela de consulta, de acordo com o tamanho da amostra, de fatores
de conversão de intervalo para SD (Walter e Yao 2007). Métodos alternativos foram propostos para
estimar SDs a partir de intervalos e quantis (Hozo et al 2005, Wan et al 2014, Bland 2015), embora,
até onde sabemos, estes não tenham sido avaliados usando dados empíricos. Como regra geral,
recomendamos que os intervalos não sejam usados para estimar SDs.
6.5.2.7Nenhuma informação sobre variabilidade #seção-6-5-2-7
SDs ausentes são uma característica comum de meta-análises de dados de resultados contínuos.
Quando nenhum dos métodos acima permite o cálculo dos SDs a partir do relatório do ensaio (e a
informação não está disponível pelos avaliadores), então o autor da revisão pode ser forçado a
imputar ('preencher') os dados faltantes se não quiser excluir o estudo a partir da meta-análise.
A imputação mais simples é pegar emprestado o SD de um ou mais estudos. Furukawa e colegas

descobriram que a imputação de SDs de outros estudos na mesma meta-análise, ou de estudos em
outra meta-análise, produziu resultados aproximadamente corretos em dois estudos de caso
(Furukawa et al 2006). Se vários SDs candidatos estiverem disponíveis, os autores da revisão devem
decidir se usarão a média, o mais alto, um valor “razoavelmente alto” ou alguma outra estratégia.
Para metanálises de MDs, a escolha de um DP mais alto reduz o peso do estudo e produz um
intervalo de confiança mais amplo. No entanto, para meta-análises de SMD, a escolha de um DP
mais elevado irá enviesar o resultado para uma falta de efeito. Alternativas mais complicadas estão
disponíveis para fazer uso de múltiplos SDs candidatos. Por exemplo, Marinho e colegas
implementaram uma regressão linear de log(SD) sobre log(média), devido a uma forte relação linear
entre os dois (Marinho et al 2003).
Todas as técnicas de imputação envolvem fazer suposições sobre estatísticas desconhecidas e é

melhor evitar usá-las sempre que possível. Se a maioria dos estudos numa meta-análise tiver SDs
em falta, estes valores não devem ser imputados. Uma abordagem narrativa poderá então ser
necessária para a síntese (ver Capítulo 12 (/handbook/current/chapter-12) ). Contudo, a imputação

pode ser razoável para uma pequena proporção de estudos que incluam uma pequena proporção
dos dados, se permitir a sua combinação com outros estudos para os quais estejam disponíveis
dados completos. Devem ser utilizadas análises de sensibilidade para avaliar o impacto da alteração
dos pressupostos assumidos.
6.5.2.8 Imputação de desvios padrão para alterações da linha de base #seção-6-5-2-8
Um caso especial de falta de SDs é para alterações nas medições da linha de base. Muitas vezes,
apenas as seguintes informações estão disponíveis:
Linha de
base Final Mudar
Intervenção
experimental
(tamanho da quer dizer, quer dizer,
amostra) SD SD significar
Intervenção
comparadora
(tamanho da quer dizer, quer dizer,
amostra) SD SD significar
Observe que a mudança média em cada grupo pode ser obtida subtraindo a média pós-intervenção
da média da linha de base, mesmo que não tenha sido apresentada explicitamente. Porém, as
informações desta tabela não permitem calcular o DP das alterações. Não podemos saber se as
mudanças foram muito consistentes ou muito variáveis entre os indivíduos. Algumas outras
informações em um artigo podem nos ajudar a determinar o SD das mudanças.
Quando não há informações suficientes disponíveis em um artigo para calcular os SDs para as
mudanças, elas podem ser imputadas, por exemplo, usando SDs de mudança em relação à linha de
base para a mesma medida de resultado de outros estudos na revisão. No entanto, a adequação de
usar um DP de outro estudo depende de os estudos utilizarem a mesma escala de medição, terem o
mesmo grau de erro de medição, terem o mesmo intervalo de tempo entre a medição inicial e a
medição pós-intervenção e numa população semelhante.
Quando são apresentadas análises estatísticas que comparam as próprias alterações (por exemplo,
intervalos de confiança, SE, estatísticas t, valores P, estatísticas F), podem ser utilizadas as técnicas
descritas na Secção 6.5.2.3 . Observe também que uma alternativa a esses métodos é simplesmente
usar uma comparação de medidas pós-intervenção, que em um ensaio randomizado estima, em
teoria, a mesma quantidade que a comparação de mudanças em relação à linha de base.
A seguinte técnica alternativa pode ser usada para calcular ou imputar SDs faltantes para alterações
da linha de base (Follmann et al 1992, Abrams et al 2005). Um número normalmente não relatado,
conhecido como coeficiente de correlação, descreve quão semelhantes foram as medidas iniciais e
pós-intervenção entre os participantes. Aqui descrevemos (1) como calcular o coeficiente de
correlação de um estudo que é relatado com detalhes consideráveis e (2) como imputar um desvio
padrão da linha de base em outro estudo, fazendo uso de um coeficiente de correlação calculado ou
imputado. Observe que os métodos em (2) são aplicáveis tanto aos coeficientes de correlação
obtidos usando (1) quanto aos coeficientes de correlação obtidos de outras formas (por exemplo,
por argumento fundamentado). Os métodos em (2) devem ser usados com moderação porque
nunca se pode ter certeza de que uma correlação imputada é apropriada. Isto ocorre porque as
correlações entre os valores iniciais e pós-intervenção geralmente diminuirão, por exemplo, com o
aumento do tempo entre as medições iniciais e pós-intervenção, bem como dependendo dos
resultados, características dos participantes e efeitos da intervenção.
(1) Cálculo de um coeficiente de correlação a partir de um estudo relatado com detalhes

consideráveis
Suponha que um estudo apresente meios e SDs para mudança, bem como para medições iniciais e
pós-intervenção ('Finais'), por exemplo:
Linha de base Final Mudar
Intervenção
experimental
(tamanho de média = 15,2 média = 16,2 média = 1,0
amostra 129) DP = 6,4 DP = 7,1 DP = 4,5
Intervenção
comparadora
(tamanho da média = 15,7 média = 17,2 média = 1,5
amostra 135) DP = 7,0 DP = 6,9 DP = 4,2
Uma análise da mudança em relação à linha de base está disponível neste estudo, usando apenas os
dados da coluna final. Podemos utilizar outros dados neste estudo para calcular dois coeficientes de
correlação, um para cada grupo de intervenção. Vamos usar a seguinte notação:
Intervenção
experimental
(tamanho da ,
amostra ) , ,
Intervenção
comparadora
(tamanho da ,
amostra ) , ,
O coeficiente de correlação no grupo experimental, Corr E , pode ser calculado como:
e da mesma forma para a intervenção comparadora, para obter Corr C . No exemplo, estes acabam
sendo
Quando o SD inicial ou pós-intervenção não estiver disponível, ele poderá ser substituído pelo
outro, desde que seja razoável assumir que a intervenção não altera a variabilidade da medida do
resultado. Assumindo que os coeficientes de correlação dos dois grupos de intervenção são
razoavelmente semelhantes entre si, uma média simples pode ser tomada como uma medida
razoável da similaridade das medições iniciais e finais em todos os indivíduos no estudo (no
exemplo, a média de 0,78 e 0,82 é 0,80). Recomenda-se que os coeficientes de correlação sejam
calculados para muitos (se não todos) estudos na metanálise e examinados quanto à consistência.
Se os coeficientes de correlação diferirem, então ou os tamanhos das amostras são demasiado
pequenos para uma estimativa fiável, a intervenção está a afectar a variabilidade nas medidas de
resultados, ou o efeito da intervenção depende do nível de referência, e é melhor evitar a utilização
da média. Além disso, se for obtido um valor inferior a 0,5 (os coeficientes de correlação situam-se
entre –1 e 1), então há poucos benefícios em utilizar a alteração da linha de base e uma análise das
medidas pós-intervenção será mais precisa.
(2) Imputação de um desvio padrão de mudança em relação à linha de base usando um

coeficiente de correlação
Agora considere um estudo para o qual falta o DP das alterações em relação à linha de base. Quando
os SDs iniciais e pós-intervenção são conhecidos, podemos imputar o SD faltante usando um valor
imputado, Corr, para o coeficiente de correlação. O valor Corr pode ser calculado a partir de outro
estudo na meta-análise (usando o método em (1)), imputado de outro lugar, ou hipotetizado com
base em argumentos fundamentados. Em todas estas situações, deverá ser realizada uma análise de
sensibilidade, experimentando diferentes valores de Corr, para determinar se o resultado global da
análise é robusto à utilização dos coeficientes de correlação imputados.
Para imputar um SD da mudança da linha de base para a intervenção experimental, use
e da mesma forma para a intervenção comparadora. Novamente, se algum dos SD (na linha de base
e pós-intervenção) não estiver disponível, então um pode ser substituído pelo outro, desde que seja
razoável assumir que a intervenção não altera a variabilidade da medida do resultado.
Como exemplo, considere os seguintes dados:
Intervenção média = 12,4 média = 15,2 média = 2,8

experimental DP = 4,2 DP = 3,8
(tamanho de
amostra 35)
Intervenção média = 10,7 média = 13,8 média = 3,1

comparadora DP = 4,0 DP = 4,4
(tamanho da
amostra 38)
Usando o coeficiente de correlação calculado na etapa 1 acima de 0,80, podemos imputar a

mudança do SD da linha de base no grupo comparador como:
6.5.2.9 Faltando meios #seção-6-5-2-9
Valores médios ausentes às vezes ocorrem para dados de resultados contínuos. Se, em vez disso,
estiver disponível uma mediana, esta será muito semelhante à média quando a distribuição dos
dados for simétrica e, por isso, ocasionalmente poderá ser utilizada diretamente em meta-análises.
No entanto, as médias e as medianas podem ser muito diferentes umas das outras quando os dados
estão distorcidos, e as medianas são frequentemente reportadas porque os dados estão distorcidos
(ver Capítulo 10, Secção 10.5.3 (/handbook/current/chapter-10#section-10-5-3) ). No entanto, Hozo e
colegas concluem que a mediana pode muitas vezes ser um substituto razoável para uma média
(Hozo et al 2005).
Wan e colegas propuseram uma fórmula para imputar um valor médio ausente com base nas
estatísticas resumidas do quartil inferior, mediana e quartil superior (Wan et al 2014). Bland derivou
uma aproximação para uma média ausente usando o tamanho da amostra, os valores mínimo e
máximo, os valores do quartil inferior e superior e a mediana (Bland 2015). Ambas as abordagens
assumem resultados normalmente distribuídos, mas foi observado um bom desempenho ao
analisar resultados distorcidos; o mesmo estudo de simulação indicou que o método Wan tinha
melhores propriedades (Weir et al 2018). As advertências sobre a imputação de valores resumidas
na Seção 6.5.2.7 devem ser observadas.
6.5.2.10 Combinando grupos #seção-6-5-2-10
Às vezes é desejável combinar dois subgrupos relatados em um único grupo. Por exemplo, um
estudo pode reportar resultados separadamente para homens e mulheres em cada um dos grupos
de intervenção. As fórmulas da Tabela 6.5.a podem ser utilizadas para combinar números num único
tamanho de amostra, média e desvio padrão para cada grupo de intervenção (ou seja, combinando
homens e mulheres em cada grupo de intervenção neste exemplo). Observe que a fórmula de
aparência bastante complexa para o DP produz o DP das medidas de resultados como se o grupo
combinado nunca tivesse sido dividido em dois . Este SD é diferente do SD agrupado usual que é
usado para calcular um intervalo de confiança para um MD ou como denominador no cálculo do
SMD. Este SD agrupado usual fornece um SD dentro do subgrupo em vez de um SD para o grupo
combinado, fornecendo assim uma subestimação do SD desejado.
Estas fórmulas também são apropriadas para utilização em estudos que compararam três ou mais
intervenções, duas das quais representam a mesma categoria de intervenção definida para efeitos
da revisão. Nesse caso, pode ser apropriado combinar estes dois grupos e considerá-los como uma
única intervenção (ver Capítulo 23, Secção 23.3 (/handbook/current/chapter-23#section-23-3) ). Por
exemplo, 'Grupo 1' e 'Grupo 2' podem referir-se a duas variantes ligeiramente diferentes de uma
intervenção para a qual os participantes foram randomizados, tais como doses diferentes do mesmo
medicamento.
Quando há mais de dois grupos para combinar, a estratégia mais simples é aplicar a fórmula acima
sequencialmente (ou seja, combinar o Grupo 1 e o Grupo 2 para criar o Grupo '1+2', depois combinar
o Grupo '1+2' e o Grupo 3 para criar Grupo '1+2+3' e assim por diante).
Tabela 6.5.a Fórmulas para combinar estatísticas resumidas em dois grupos: Grupo 1 (com
tamanho amostral = N 1 , média = M 1 e DP = DP 1 ) e Grupo 2 (com tamanho amostral = N 2 , média =
M 2 e DP = SD2 )
Grupos combinados
Tamanho da
amostra
Significar
SD
6.6 Dados de resultados ordinais e escalas de medição #seção-6-6
6.6.1 Medidas de efeito para resultados ordinais e escalas de medição #seção-6-6-1
Os dados de resultados ordinais surgem quando cada participante é classificado em uma categoria
e quando as categorias têm uma ordem natural. Por exemplo, um resultado “tricotómico”, como a
classificação da gravidade da doença em “ligeira”, “moderada” ou “grave”, é do tipo ordinal. À
medida que o número de categorias aumenta, os resultados ordinais adquirem propriedades
semelhantes aos resultados contínuos e provavelmente terão sido analisados como tal num ensaio
randomizado.
As escalas de medição são um tipo particular de resultado ordinal frequentemente utilizado para
medir condições que são difíceis de quantificar, tais como comportamento, depressão e
capacidades cognitivas. As escalas de medição normalmente envolvem uma série de perguntas ou
tarefas, cada uma das quais é pontuada e as pontuações são então somadas para produzir uma
“pontuação” total. Se os itens não forem considerados de igual importância, poderá ser utilizada
uma soma ponderada.
Estão disponíveis métodos para analisar dados de resultados ordinais que descrevem efeitos em
termos de razões de probabilidade proporcionais (Agresti 1996). Suponha que existam três
categorias ordenadas em termos de desejabilidade, de modo que 1 seja a melhor e 3 a pior. Os
dados poderiam ser dicotomizados de duas maneiras: ou a categoria 1 constitui um sucesso e as
categorias 2 e 3 um fracasso; ou as categorias 1 e 2 constituem um sucesso e a categoria 3 um
fracasso. Um modelo de probabilidades proporcionais assume que existe uma razão de
probabilidades igual para ambas as dicotomias dos dados. Portanto, a razão de chances calculada a
partir do modelo de chances proporcionais pode ser interpretada como as chances de sucesso na
intervenção experimental em relação ao comparador, independentemente de como as categorias
ordenadas possam ser divididas em sucesso ou fracasso. Métodos (especificamente modelos de
regressão logística policotômica) estão disponíveis para calcular estimativas de estudo do log odds
ratio e seu SE.
Métodos específicos para dados ordinais tornam-se complicados (e desnecessários) quando o

número de categorias é grande. Na prática, escalas ordinais mais longas adquirem propriedades
semelhantes a resultados contínuos e são frequentemente analisadas como tal, enquanto escalas
ordinais mais curtas são frequentemente transformadas em dados dicotómicos através da
combinação de categorias adjacentes até restarem apenas duas. Este último é especialmente
apropriado se estiver disponível um ponto de corte defensável e estabelecido. Contudo, a escolha
inadequada de um ponto de corte pode induzir viés, particularmente se for escolhido para
maximizar a diferença entre dois braços de intervenção num ensaio randomizado.
Quando as escalas ordinais são resumidas utilizando métodos para dados dicotómicos, um dos dois
conjuntos de categorias agrupadas é definido como o evento e os efeitos da intervenção são
descritos utilizando taxas de risco, razões de probabilidade ou diferenças de risco (ver Secção 6.4.1 ).
Quando as escalas ordinais são resumidas utilizando métodos para dados contínuos, a pontuação
média é calculada em cada grupo e o efeito da intervenção é expresso como MD ou SMD, ou
possivelmente como RoM (ver Secção 6.5.1 ). Serão encontradas dificuldades se os estudos
resumirem os seus resultados utilizando medianas (ver Secção 6.5.2.5 ). Os métodos para meta-
análise de dados de resultados ordinais são abordados no Capítulo 10, Seção 10.7
(/handbook/current/chapter-10#section-10-7) .
6.6.2Extração de dados para resultados ordinais #seção-6-6-2
Os dados a serem extraídos para resultados ordinais dependem de a escala ordinal ser dicotomizada
para análise (ver Seção 6.4 ), tratada como um resultado contínuo (ver Seção 6.5.2 ) ou analisada
diretamente como dados ordinais. Esta decisão, por sua vez, será influenciada pela forma como os
autores do estudo analisaram e relataram os seus dados. Pode ser impossível pré-especificar se a
extração de dados envolverá o cálculo do número de participantes acima e abaixo de um limite
definido, ou valores médios e DPs. Na prática, é sensato extrair dados em todas as formas em que
são apresentados, pois não ficará claro qual é a forma mais comum até que todos os estudos
tenham sido revistos. Em algumas circunstâncias, mais de uma forma de análise pode ser
justificadamente incluída numa revisão.
Quando os dados ordinais devem ser dicotomizados e existem diversas opções para selecionar um
ponto de corte (ou a escolha do ponto de corte é arbitrária), é sensato planejar desde o início a
investigação do impacto da escolha do ponto de corte em uma sensibilidade. análise (ver Capítulo
10, Seção 10.14 (/handbook/current/chapter-10#section-10-14) ). Para coletar os dados que seriam
utilizados para cada dicotomização alternativa, é necessário registrar os números em cada categoria
de escalas ordinais curtas para evitar ter que extrair dados de um artigo mais de uma vez. Esta
abordagem de registar todas as categorizações também é sensata quando os estudos utilizam
escalas ordinais curtas ligeiramente diferentes e não está claro se existe um ponto de corte que seja
comum a todos os estudos que possa ser utilizado para dicotomização.
Também é necessário registar os números em cada categoria da escala ordinal para cada grupo de
intervenção quando for utilizado o método da razão de probabilidades proporcional (ver Capítulo
10, Secção 10.7 (/handbook/current/chapter-10#section-10-7) ).
6.7 Dados de contagem e taxa #seção-6-7
6.7.1 Medidas de efeito para contagens e taxas #seção-6-7-1
Alguns tipos de eventos podem acontecer a uma pessoa mais de uma vez, por exemplo, um enfarte
do miocárdio, uma reação adversa ou uma hospitalização. Pode ser preferível, ou necessário,
abordar o número de vezes que estes eventos ocorrem, em vez de simplesmente se cada pessoa
experimentou ou não um evento (ou seja, em vez de tratá-los como dados dicotómicos). Chamamos
esse tipo de dados de dados de contagem . Para fins práticos, os dados de contagem podem ser
convenientemente divididos em contagens de eventos raros e contagens de eventos comuns.
As contagens de eventos raros são frequentemente referidas como 'dados de Poisson' nas
estatísticas. As análises de eventos raros concentram-se frequentemente nas taxas . As taxas
relacionam as contagens ao período de tempo durante o qual elas poderiam ter acontecido. Por
exemplo, o resultado de um braço de um ensaio clínico poderia ser a ocorrência de 18 infartos do
miocárdio (IM), em todos os participantes desse braço, durante um período de 314 pessoas-anos de
acompanhamento (ou seja, o número total de anos durante os quais todos os participantes foram
acompanhados coletivamente). A taxa é de 0,057 por pessoa-ano ou 5,7 por 100 pessoas-ano. A
estatística resumida normalmente usada na meta-análise é a taxa de taxa (também abreviada para
RR), que compara a taxa de eventos nos dois grupos dividindo uma pela outra.
Suponha que eventos EE ocorreram durante T E pessoas-anos de acompanhamento no grupo de

intervenção experimental, e eventos EC durante T C pessoas-anos no grupo de intervenção
comparador. A proporção da taxa é:
Como medida de rácio, este rácio de taxas deve então ser transformado em log para análise (ver
Secção 6.3.2 ). Um SE aproximado da razão da taxa logarítmica é dado por:
Uma correção de 0,5 pode ser adicionada a cada contagem no caso de zero eventos. Note-se que a
escolha da unidade de tempo (ou seja, paciente-mês, mulher-ano, etc.) é irrelevante, uma vez que é
eliminada do rácio de taxas e não figura no SE. No entanto, as unidades ainda devem ser exibidas na
apresentação dos resultados do estudo.
Também é possível usar uma diferença de taxas (ou diferença de taxas) como uma estatística
resumida, embora isto seja muito menos comum:
Um SE aproximado para a diferença de taxa é:
As contagens de eventos mais comuns, como contagens de dentes cariados, perdidos ou obturados,
podem muitas vezes ser tratadas da mesma forma que os dados de resultados contínuos. O efeito
de intervenção utilizado será o DM que irá comparar a diferença no número médio de eventos
(possivelmente padronizados para um período de unidade de tempo) vivenciados pelos
participantes do grupo de intervenção em comparação com os participantes do grupo comparador.
6.7.2Extração de dados para contagens e taxas #seção-6-7-2
Os dados que são inerentemente contagens podem ter sido analisados de diversas maneiras. Tanto
os investigadores primários quanto os autores da revisão precisarão decidir se tornarão o resultado
de interesse dicotômico, contínuo, de tempo até o evento ou uma taxa (ver Seção 6.8 ).
Embora seja preferível decidir antecipadamente como os dados de contagem serão analisados
numa revisão, a escolha é muitas vezes determinada pelo formato dos dados disponíveis e,
portanto, não pode ser decidida até que a maioria dos estudos tenha sido revista. Os autores da
revisão devem planejar a extração dos dados de contagem na forma em que são relatados.
Por vezes, não estão disponíveis dados detalhados sobre eventos e pessoas-ano em risco, mas os
resultados calculados a partir deles estão. Por exemplo, pode ser apresentada uma estimativa de
um rácio de taxas ou diferença de taxas. Esses dados podem ser incluídos em meta-análises apenas
quando são acompanhados por medidas de incerteza, como um intervalo de confiança de 95% (ver
Secção 6.3 ), a partir do qual pode ser obtido um SE e o método genérico de variância inversa
utilizado para meta-análise.
6.7.2.1Extraindo contagens como dados dicotômicos #section-6-7-2-1
Um erro comum é tentar tratar os dados de contagem como dados dicotômicos. Suponha que no
exemplo que acabamos de apresentar, os 18 IM em 314 pessoas-ano surgiram de 157 pacientes
observados em média durante 2 anos. Pode-se ficar tentado a citar os resultados como 18/157, ou
mesmo 18/314. Isto é inapropriado se vários IM do mesmo paciente pudessem ter contribuído para
o total de 18 (digamos, se os 18 surgiram através de 12 pacientes com IM único e 3 pacientes com 2
IM cada). O número total de eventos poderia, teoricamente, exceder o número de pacientes,
tornando os resultados absurdos. Por exemplo, ao longo de um ano, 35 participantes epilépticos
num estudo poderiam sofrer um total de 63 convulsões.
Para considerar o resultado como um resultado dicotômico, o autor deve determinar o número de
participantes em cada grupo de intervenção e o número de participantes em cada grupo de
intervenção que vivenciaram pelo menos um evento (ou algum outro critério apropriado que
classificou todos os participantes em um dos seguintes). dois grupos possíveis). Qualquer elemento
de tempo nos dados é perdido através desta abordagem, embora possa ser possível criar uma série
de resultados dicotómicos, por exemplo, pelo menos um AVC durante o primeiro ano de
acompanhamento, pelo menos um AVC durante os primeiros dois anos de seguimento.
acompanhamento e assim por diante. Pode ser difícil derivar tais dados de relatórios publicados.
6.7.2.2Extraindo contagens como dados contínuos #section-6-7-2-2
Para extrair contagens como dados contínuos (ou seja, o número médio de eventos por paciente),
devem ser seguidas as orientações da Secção 6.5.2 , embora deva ser dada especial atenção à
probabilidade de os dados serem altamente distorcidos.
6.7.2.3Extraindo contagens como dados de tempo até o evento #section-6-7-2-3
Para eventos raros que podem acontecer mais de uma vez, um autor pode se deparar com estudos
que tratam os dados como o tempo até o primeiro evento. Para extrair contagens como dados de
tempo até o evento, as orientações da Seção 6.8.2 devem ser seguidas.
6.7.2.4Extraindo contagens como dados de taxa #section-6-7-2-4
Quando for possível extrair o número total de eventos em cada grupo e a quantidade total de
pessoas-tempo em risco em cada grupo, os dados de contagem poderão ser analisados como taxas
(ver Capítulo 10, Seção 10.8 (/handbook/current/chapter-10#section-10-8) ). Observe que o número
total de participantes não é necessário para uma análise dos dados de taxas, mas deve ser
registrado como parte da descrição do estudo.
6.8 Dados de tempo até o evento #seção-6-8
6.8.1 Medidas de efeito para resultados no tempo até o evento #seção-6-8-1
Os dados de tempo até o evento surgem quando o interesse está focado no tempo decorrido antes
que um evento seja vivenciado. São conhecidos genericamente como dados de sobrevivência na
literatura de estatística médica, uma vez que a morte é frequentemente o evento de interesse,
particularmente no cancro e nas doenças cardíacas. Os dados de tempo até o evento consistem em
pares de observações para cada indivíduo: primeiro, um período de tempo durante o qual nenhum
evento foi observado e, segundo, um indicador de se o final desse período de tempo corresponde a
um evento ou apenas ao final de um evento. observação. Os participantes que contribuem com um
período de tempo que não termina num evento são considerados “censurados”. O tempo livre de
eventos contribui com informações e eles são incluídos na análise. Os dados sobre o tempo até o
evento podem basear-se em outros eventos além da morte, como a recorrência de um evento de
doença (por exemplo, o tempo até o final de um período sem ataques epilépticos) ou a alta
hospitalar.
Os dados de tempo até o evento às vezes podem ser analisados como dados dicotômicos. Isto exige
que o estado de todos os pacientes num estudo seja conhecido num momento fixo. Por exemplo, se
todos os pacientes foram acompanhados durante pelo menos 12 meses, e a proporção que sofreu o
evento antes dos 12 meses for conhecida para ambos os grupos, então uma tabela 2✕2 pode ser
construída (ver Quadro 6.4.a ) e a intervenção efeitos expressos como razões de risco, razões de
probabilidade ou diferenças de risco.
Não é apropriado analisar dados relativos ao tempo até ao evento utilizando métodos para
resultados contínuos (por exemplo, utilizando tempos médios até ao evento), uma vez que os
tempos relevantes só são conhecidos para o subconjunto de participantes que tiveram o evento. Os
participantes censurados devem ser excluídos, o que quase certamente introduzirá preconceitos.
A forma mais apropriada de resumir os dados relativos ao tempo até ao evento é utilizar métodos de
análise de sobrevivência e expressar o efeito da intervenção como uma taxa de risco . O perigo é
semelhante em noção ao risco, mas é subtilmente diferente na medida em que mede o risco
instantâneo e pode mudar continuamente (por exemplo, o risco de morte de uma pessoa muda
quando se atravessa uma estrada movimentada). Uma taxa de risco descreve quantas vezes mais
(ou menos) é provável que um participante sofra o evento em um determinado momento se receber
a intervenção experimental em vez da intervenção comparadora. Ao comparar intervenções num
estudo ou meta-análise, muitas vezes é feita uma suposição simplificada de que a taxa de risco é
constante ao longo do período de acompanhamento, embora os próprios riscos possam variar
continuamente. Isso é conhecido como suposição de riscos proporcionais.
6.8.2Extração de dados para resultados de tempo até o evento #seção-6-8-2
A meta-análise de dados de tempo até o evento geralmente envolve a obtenção de dados

individuais dos pacientes dos investigadores originais, a reanálise dos dados para obter estimativas
da taxa de risco e sua incerteza estatística e, em seguida, a realização de uma meta-análise (ver
Capítulo 26 (/handbook/current/chapter-26) ). . A realização de uma meta-análise utilizando
informações resumidas de artigos publicados ou relatórios de ensaios clínicos é muitas vezes
problemática, uma vez que as estatísticas resumidas mais apropriadas muitas vezes não são
apresentadas.
Quando são apresentadas estatísticas resumidas, podem ser utilizadas três abordagens para obter
estimativas das taxas de risco e da sua incerteza a partir de relatórios de estudos para inclusão
numa meta-análise utilizando os métodos genéricos de variância inversa. Para orientação prática, os
revisores devem consultar Tierney e colegas (Tierney et al 2007).
A primeira abordagem pode ser usada quando os experimentadores analisaram os dados usando
um modelo de riscos proporcionais de Cox (ou alguns outros modelos de regressão para dados de
sobrevivência). Os modelos de Cox produzem estimativas diretas da razão de risco logarítmica e seu
SE, que são suficientes para realizar uma meta-análise genérica de variância inversa. Se a taxa de
risco for citada num relatório juntamente com um intervalo de confiança ou valor P, uma estimativa
do SE pode ser obtida conforme descrito na Secção 6.3 .
A segunda abordagem é estimar a taxa de risco aproximadamente usando estatísticas calculadas

durante uma análise log-rank. A colaboração com um estatístico experiente é aconselhada se esta
abordagem for seguida. A razão de risco logarítmico (experimental em relação ao comparador) é
estimada por (O−E)/V, que tem SE=1/√V, onde O é o número observado de eventos na intervenção
experimental, E é o log-rank esperado número de eventos na intervenção experimental, O−E é a
estatística log-rank e V é a variância da estatística log-rank (Simmonds et al 2011).
Estas estatísticas podem por vezes ser extraídas de estatísticas citadas e curvas de sobrevivência
(Parmar et al 1998, Williamson et al 2002). Alternativamente, às vezes pode ser feito uso de dados
agregados para cada grupo de intervenção em cada ensaio. Por exemplo, suponha que os dados
incluam o número de participantes que realizam o evento durante o primeiro ano, segundo ano, etc,
e o número de participantes que estão livres do evento e ainda em acompanhamento no final de
cada ano. Uma análise log-rank pode ser realizada nesses dados, para fornecer os valores O – E e V,
embora seja necessário pensar cuidadosamente no tratamento dos tempos censurados. Devido ao
agrupamento grosseiro, a razão de risco logarítmica é estimada apenas aproximadamente. Em
algumas revisões, tem sido referido como uma razão de probabilidade logarítmica (Early Breast
Cancer Trialists' Collaborative Group 1990). Quando os intervalos de tempo são grandes, uma
abordagem mais apropriada é aquela baseada na sobrevivência censurada por intervalo (Collett
1994).
A terceira abordagem é reconstruir dados aproximados de participantes individuais a partir de

curvas de Kaplan-Meier publicadas (Guyot et al 2012). Isto permite a reanálise dos dados para
estimar a taxa de risco e também permite abordagens alternativas para a análise dos dados de
tempo até o evento.
6.9 Resultados condicionais disponíveis apenas para subconjuntos de

participantes #seção-6-9
Alguns resultados do estudo podem ser aplicáveis apenas a uma proporção de participantes. Por
exemplo, em ensaios de subfertilidade, a proporção de gravidezes clínicas que abortam após o
tratamento é frequentemente de interesse para os médicos. Por definição, este resultado exclui os
participantes que não atingem um estado intermediário (gravidez clínica), portanto a comparação
não é de todos os participantes randomizados. Como regra geral, é melhor redefinir tais resultados
para que a análise inclua todos os participantes randomizados. Neste exemplo, o resultado poderia
ser se a mulher teve uma “gravidez bem-sucedida” (engravidar e atingir, digamos, 24 semanas ou o
termo). Se o aborto espontâneo for o resultado de interesse, então a análise apropriada pode ser
realizada utilizando dados individuais dos participantes, mas raramente é possível utilizando dados
resumidos. Outro exemplo é fornecido por um resultado de morbilidade medido a médio ou longo
prazo (por exemplo, desenvolvimento de doença pulmonar crónica), quando existe uma
possibilidade distinta de uma avaliação da morbilidade que impeça a morte. Uma forma
conveniente de lidar com tais situações é combinar os resultados, por exemplo, “morte ou doença
pulmonar crónica”.
Os desafios surgem quando um resultado contínuo (por exemplo, uma medida de capacidade
funcional ou qualidade de vida após um AVC) é medido apenas naqueles que sobrevivem até ao
final do acompanhamento. Duas opções insatisfatórias são: (i) atribuir zero pontuações de
capacidade funcional para aqueles que morrem (o que pode não representar adequadamente o
estado de morte e tornará o resultado gravemente distorcido), e (ii) analisar os dados disponíveis
(que devem ser interpretados como uma comparação não aleatória aplicável apenas aos
sobreviventes). Os resultados destas análises devem ser interpretados tendo em conta qualquer
disparidade na proporção de mortes entre os dois grupos de intervenção. Estão disponíveis opções
mais sofisticadas, que podem ser cada vez mais aplicadas pelos autores dos ensaios (Colantuoni et
al 2018).
6.10 Informações do capítulo #seção-6-10
Editores: Julian PT Higgins, Tianjing Li, Jonathan J Deeks
Agradecimentos: Este capítulo baseia-se em versões anteriores do Manual . Para obter detalhes
sobre autores e editores anteriores do Manual , consulte Prefácio. Agradecemos a Judith Anzures,
Mike Clarke, Miranda Cumpston, Peter Gøtzsche e Christopher Weir pelos comentários úteis.
Financiamento: JPTH é membro do Centro de Pesquisa Biomédica do Instituto Nacional de

Pesquisa em Saúde (NIHR) dos Hospitais Universitários Bristol NHS Foundation Trust e da
Universidade de Bristol. JJD recebeu apoio do NIHR Birmingham Biomedical Research Center dos
University Hospitals Birmingham NHS Foundation Trust e da University of Birmingham. JPTH
recebeu financiamento do prêmio NF-SI-0617-10145 de Pesquisador Sênior do Instituto Nacional de
Pesquisa em Saúde. As opiniões expressas são de responsabilidade do(s) autor(es) e não
necessariamente do NHS, do NIHR ou do Departamento de Saúde.
6.11 Referências #seção-6-11
Abrams KR, Gillies CL, Lambert PC. Meta-análise de ensaios relatados de forma heterogênea que
avaliam a mudança desde o início do estudo. Estatísticas em Medicina 2005; 24 : 3823–3844.
Ades AE, Lu G, Dias S, Mayo-Wilson E, Kounali D. Síntese simultânea dos efeitos do tratamento e
mapeamento para uma escala comum: uma alternativa à padronização. Métodos de Síntese de
Pesquisa 2015; 6 : 96–107.
Agresti A. Uma introdução à análise de dados categóricos . Nova York (NY): John Wiley & Sons; 1996.
Anzures-Cabrera J, Sarpatwari A, Higgins JPT. Expressar resultados de meta-análises de resultados

contínuos em termos de riscos. Estatísticas em Medicina 2011; 30 : 2967–2985.
Bland M. Estimativa da média e desvio padrão do tamanho da amostra, três quartis, mínimo e
máximo. Jornal Internacional de Estatística em Pesquisa Médica 2015; 4 : 57–64.
Colantuoni E, Scharfstein DO, Wang C, Hashem MD, Leroux A, Needham DM, Girard TD. Métodos
estatísticos para comparar resultados funcionais em ensaios clínicos randomizados com alta
mortalidade. BMJ 2018; 360 : j5748.

Dispercochrane

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Dispercochrane

Enviado por

Direitos autorais:

Formatos disponíveis

08/02/2024, 10:57 Capítulo 6: Escolha de medidas de efeito e cálculo de estimativas de efeito | Treinamento Cochrane

Cochrane Evidência confiável.

Capítulo 6: Escolhendo medidas de efeito e calculando estimativas

Julian PT Higgins, Tianjing Li, Jonathan J Deeks

Os tipos de dados de resultados que os autores da revisão provavelmente encontrarão são

6.1 Tipos de dados e medidas de efeito #seção-6-1

6.1.1 Tipos de dados #seção-6-1-1

6.1.2 Medidas de efeito #seção-6-1-2

As estimativas do efeito descrevem a magnitude do efeito da intervenção em termos de quão

6.1.2.2 Uma nota sobre os efeitos dos juros #seção-6-1-2-2

6.2 Desenhos de estudo e identificação da unidade de análise #seção-6-2

6.2.1Questões de unidade de análise #seção-6-2-1

1. grupos de indivíduos foram randomizados em conjunto para a mesma intervenção (isto é,

Os autores da revisão devem considerar o impacto na análise de qualquer agrupamento,

C70: Abordando projetos não padronizados ( obrigatório )

Considere o impacto na análise Estudos randomizados por cluster, estudos cruzados,

6.2.2 Ensaios randomizados por cluster #seção-6-2-2

6.2.3 Ensaios cruzados #seção-6-2-3

6.2.4 Observações repetidas sobre os participantes #seção-6-2-4

6.2.5 Eventos que podem ocorrer novamente #seção-6-2-5

6.2.6 Múltiplas tentativas de tratamento #seção-6-2-6

6.2.7 Múltiplas partes do corpo I: partes do corpo recebem a mesma intervenção

6.2.9 Grupos de intervenção múltipla #seção-6-2-9

Quadro 6.2.b do MECIR Expectativas relevantes para a condução de revisões de intervenção

C66: Abordando estudos com mais de dois grupos ( Obrigatório )

Se forem incluídos estudos A exclusão de grupos relevantes diminui a precisão e

intervenção de uma forma Estratégias alternativas incluem a combinação de

6.3 Extraindo estimativas de efeito diretamente #seção-6-3

Nas revisões de ensaios randomizados, geralmente é recomendado que os dados resumidos de

1. Para tipos específicos de ensaios randomizados: as análises de ensaios randomizados por

6.3.1 Obtenção de erros padrão de intervalos de confiança e valores P: medidas

O primeiro passo é obter o valor Z correspondente ao valor P relatado em uma tabela da

Nos casos em que os testes de significância utilizaram outras abordagens matemáticas, os SE

6.3.2 Obtenção de erros padrão de intervalos de confiança e valores P: medidas de

6.4 Dados de resultados dicotômicos #seção-6-4

6.4.1 Medidas de efeito para resultados dicotômicos #seção-6-4-1

1. a razão de risco (RR; também chamada de risco relativo);

3. a diferença de risco (RD; também chamada de redução absoluta do risco); e

Os resultados de um ensaio randomizado de dois grupos com resultado

onde S E, S C, F E e F C são os números de participantes com cada resultado ('S' ou

6.4.1.1 Risco e probabilidades #seção-6-4-1-1

Na conversação geral, os termos “risco” e “probabilidades” são usados ​indistintamente (e também

As medidas de efeito para ensaios randomizados com resultados dicotômicos envolvem a

6.4.1.2 Medidas de efeito relativo: razão de risco e razão de chances #seção-6-4-1-2

expresso alternativamente dizendo que a intervenção diminui o risco de eventos em 100×(1–

6.4.1.3 Aviso: OR e RR não são iguais #seção-6-4-1-3

6.4.1.4 Medida de efeito absoluto: a diferença de risco #seção-6-4-1-4

A diferença de risco é a diferença entre os riscos observados (proporções de indivíduos com o

6.4.1.5 Qual é o evento? #seção-6-4-1-5

No contexto de resultados dicotómicos, as intervenções de saúde destinam-se a reduzir o risco de

6.4.2 Extração de dados para resultados dicotômicos # seção-6-4-2

6.5 Dados de resultados contínuos #seção-6-5

6.5.1 Medidas de efeito para resultados contínuos #seção-6-5-1

6.5.1.1 A diferença média (ou diferença de médias) #seção-6-5-1-1

6.5.1.2 A diferença média padronizada #seção-6-5-1-2

O termo “tamanho do efeito” é frequentemente utilizado nas ciências sociais, particularmente no

Quadro 6.5.a do MECIR Expectativas relevantes para a condução de revisões de intervenção

C61: Combinação de diferentes escalas ( Obrigatório )

Se os estudos forem Às vezes, as escalas têm pontuações mais altas que

Diferentes variações do SMD estão disponíveis dependendo exatamente da escolha de SD escolhida

6.5.1.3 A proporção de médias #seção-6-5-1-3

6.5.1.4 Outras medidas de efeito para dados de resultados contínuos #seção-6-5-1-4

Outras medidas de efeito para dados de resultados contínuos incluem o seguinte:

Na conversação geral, os termos “risco” e “probabilidades” são usados indistintamente (e também