Você está na página 1de 411

Arminda Lucia Siqueira

Dimensionamento
de amostra
para estudos
na área da saúde
Dimensionamento
de amostra para estudos
na área da saúde

Arminda Lucia Siqueira


Dimensionamento de amostra para estudos na área da saúde

Produção editorial: Folium Editorial

© 2017 by Arminda Lucia Siqueira

Folium Editorial
Av. Carandaí, 161 – Sala 702
30130-060 – Belo Horizonte – MG
Tel.: (31) 3287-1960
folium@folium.com.br

Ficha catalográfica

S619 d Siqueira, Arminda Lucia


Dimensionamento de amostra para estudos na área da
saúde / Arminda Lucia Siqueira – Belo Horizonte –
Folium Editorial, 2017.

413p.

ISBN: 978-85-84500-22-2

1. Estatística 2. Dimensionamento de amostra


3. Amostra em saúde
CDD: 314.16
CDU: 519.1.42

Todos os direitos autorais reservados e protegidos pela Lei nº 9.610, de fevereiro de 1998. É proibi-
da a duplicação desta obra, no todo ou em parte, sob quaisquer formas ou por quaisquer meios (ele-
trônico, mecânico, gravação, fotocópia ou outros) sem a permissão prévia, por escrito, do Autor.
A Autora

Arminda Lucia Siqueira

Professora aposentada do Departamento de Estatística da Universidade Federal de Minas Gerais


(UFMG), instituição onde iniciou sua carreira acadêmica. Graduada e mestre em Estatística pelo
Instituto de Matemática e Estatística da Universidade de São Paulo (USP), obteve o doutorado em
Bioestatística na School of Public Health, University of California, Los Angeles (UCLA), Estados
Unidos. Em seu pós-doutorado, desenvolveu pesquisa na Medical and Pharmaceutical Statistics
Research Unit (MPS), University of Reading, Inglaterra. Sua área de atuação é em Bioestatística, com
destaque para aplicações na área da saúde. Sua trajetória acadêmica inclui ensino e orientação na
graduação e pós-graduação, desenvolvimento de pesquisa na área de Bioestatística e colaborações em
projetos da área da saúde. Há muitos anos preocupa-se com o problema de dimensionamento de
amostras. Como produto da experiência acumulada ao longo dos anos e de sua dedicação ao estudo do
assunto, surge o “Dimensionamento de amostra para estudos na área da saúde”.
Quantos participantes precisamos recrutar para nosso estudo? Talvez esta seja uma das mais frequentes
perguntas feitas a consultores estatísticos. Investigadores principais, os coordenadores de ensaios
clínicos ou de qualquer tipo estudo da área da saúde sempre discutem esta questão com suas equipes
por ocasião do planejamento do estudo. Tal preocupação justifica-se já que, além dos aspectos práticos
envolvidos, como custos e logística, o cálculo apropriado do tamanho de amostras é atualmente uma
exigência dos protocolos de pesquisas clínicas, epidemiológicas e de experimentação animal.

A determinação do tamanho da amostra, cuja notação tradicional é 𝑛, está entre as tarefas mais
comumente encontradas na prática estatística. Existe ampla gama de métodos para o cálculo de 𝑛 e do
poder de teste, assunto relacionado. Inoue et al. (2005) exploram paralelos entre métodos clássicos
(frequentistas) e bayesianos para determinar o tamanho da amostra e ilustram com vários exemplos.
Neste texto, o enfoque é exclusivamente baseado em métodos frequentistas. Os métodos podem ser
aproximados ou exatos, sendo que a implementação do segundo é bem mais complexa.

Por muito tempo e por vários motivos, não havia tanta preocupação e até mesmo negligência com a
questão do dimensionamento de amostra. Mais recentemente, pela exigência da informação do
tamanho de amostra em protocolos de pesquisas da área da saúde, há mais relato da metodologia
empregada, mas não necessariamente os métodos são os mais adequados, ainda se percebendo carência
de conhecimentos sobre o assunto, sendo pouco frequente ver-se um trabalho com um plano amostral e
dimensionamento do estudo que sejam impecáveis.

Frequentemente a forma padrão para a determinação do tamanho de amostras é por meio de fórmulas
fechadas, com métodos aproximados ou não. Às vezes processos iterativos são necessários ou ainda as
soluções podem ser obtidas por simulações. Deve-se mencionar que as contas necessárias para o
dimensionamento de amostra e cálculo de poder dos testes são geralmente elementares, pois envolvem
operações matemáticas básicas ou funções matemáticas não muito complicadas.

Por outro lado, existem várias dificuldades na prática. Por exemplo, tipicamente as fórmulas de
tamanho de amostra/poder dependem de parâmetros associados às distribuições das variáveis
estudadas, que na prática em geral são desconhecidos. Na etapa do planejamento, incluindo o cálculo
do tamanho da amostra, naturalmente os dados não foram coletados e, portanto, as estimativas dos
parâmetros só serão conhecidas após o término do estudo. Como solução, informações sobre os
parâmetros são buscadas na literatura (embora nunca sejam exatamente correspondentes ao que o
estudo planejado trata) ou o desenvolvimento de um estudo-piloto.

Este livro é fruto de muitos anos de atuação no tema, com o desenvolvimento de projetos acadêmicos,
orientação de alunos e publicação de alguns trabalhos tanto em eventos científicos como em periódicos
indexados. Além da compilação de publicações da literatura, estão incluídos vários trabalhos de
pesquisas pessoais, a maioria com colaboradores. O texto cobre grande variedade de situações e há
vasta lista de referências bibliográficas. Procurou-se apresentar todos os métodos de forma bem
didática, com muitos exemplos para fácil utilização de profissionais que não são da área da Estatística.
Propositalmente, os detalhes técnicos foram evitados, mas podem ser encontrados nas referências
citadas. A seguir, apresenta-se uma resenha do livro.

No primeiro capítulo são introduzidos conceitos básicos relacionados a dimensionamento de amostra,


destacando-se aspectos práticos. No final do capítulo apresenta-se um resumo dos principais pontos,
além de serem identificados erros comuns que devem ser evitados e feitas algumas recomendações
sobre o assunto.

O capítulo 2 é sobre a determinação do tamanho da amostra em estudos envolvendo médias para uma,
duas ou várias amostras. São consideradas várias situações, segundo tipo de planejamento (amostras
independentes ou pareadas) e ocorrência ou não do pressuposto de homocedastidade.

O capítulo 3 trata do problema de determinação do tamanho da amostra em estudos envolvendo


proporções para uma e duas amostras (independentes ou não). Neste caso, ampla gama de métodos está
disponível na literatura. São descritos os métodos mais tradicionais, sendo fornecidas referências
de outros.

No capítulo 4 são apresentadas fórmulas para dimensionamento de amostras de planejamentos muito


utilizados em pesquisas epidemiológicas e clínicas. São considerados os estudos observacionais (estudo
de coorte, estudo do tipo caso-controle e estudo transversal) e os estudos ditos experimentais,
comumente chamados de ensaios clínicos controlados. O capítulo finaliza com uma seção dedicada a
noções de amostragem e aos cálculos do tamanho de amostra para os esquemas amostrais tradicionais.
No capítulo 5 são introduzidos os principais conceitos relacionados a estudos de não inferioridade,
superioridade e equivalência. São ressaltadas formas apropriadas de calcular o tamanho de amostras
para algumas situações, com destaque para testes de médias e proporções em estudos de
não inferioridade e para estudos de bioequivalência.

O capítulo 6 trata do dimensionamento de amostras para estudos envolvendo análises de correlação e


regressão linear, bem como para modelos de regressão logística com resposta binária, modelos para
dados ordinais e modelos de regressão de Poisson. Em alguns casos, consideram-se regressão simples e
também a múltipla.

O capítulo 7 aborda o dimensionamento de amostras para métodos de sobrevivência. Foram


considerados, por exemplo, o método de Kaplan-Meier, o teste de log-rank, o modelo de regressão de
Cox e algumas situações em ensaios de superioridade, não inferioridade e equivalência.

O capítulo 8 trata do dimensionamento de amostras para estudos de acurácia de testes diagnósticos, em


que um dos métodos a serem comparados é o padrão-ouro. Entretanto, na prática nem sempre a
verdadeira condição do paciente é conhecida. Assim, em muitas situações, o objetivo é apenas avaliar a
concordância de métodos considerados clinicamente aceitáveis. Novamente, uma questão importante
que aparece no planejamento de estudos de concordância é sobre o tamanho de amostra necessário para
atingir a precisão desejada, assunto do capítulo 9. O enfoque é no dimensionamento de amostras para
estudos que utilizam o coeficiente kappa e que têm dois avaliadores, sendo que a resposta pode ter duas
ou mais categorias.

O capítulo 10 reúne vários temas especiais relacionados ao dimensionamento de amostras, tais como:
métodos não paramétricos, modelos lineares generalizados, dados grupados e longitudinais, além de
poder exato. Também são apresentados comentários sobre estudos sequenciais e metanálise.

O capítulo 11 mostra levantamento do que há disponível em termos de softwares e programas com


implementação de cálculos de tamanho de amostra e de poder de teste para vários tópicos tratados
neste texto, com apresentação de vários exemplos. Como as ferramentas computacionais para cálculos
do tamanho de amostra e/ou poder são bastante amplas, naturalmente não é possível ter cobertura
exaustiva. O objetivo principal foi fornecer visão geral, mas a opção de concentração do texto foi o
software Excel®. Praticamente todas as fórmulas fechadas dos capítulos 2 a 10 estão programadas em
planilhas Excel® e encontram-se disponibilizadas para os leitores do livro. Assim, é possível não só
repetir os cálculos, treinar os raciocínios, como também fazer os cálculos para outros problemas
similares. Nos títulos de todos os exemplos em que há planilhas com fórmulas programadas aparece o
seguinte símbolo: ╬╬. No capítulo, incluem-se alguns comentários e apresentam-se detalhes da
utilização desse tipo de planilha.

O livro finaliza com dois apêndices. O Apêndice A resume as noções básicas sobre inferência
estatística utilizadas ao longo do texto, que também servirão para tornar a nomenclatura e notação o
mais uniforme possível. No Apêndice B apresentam-se uma tabela de números aleatórios e algumas
tabelas das distribuições de probabilidades mencionadas no texto.

Mesmo com certa experiência e gosto na preparação de textos acadêmicos, foi grande desafio a
organização do material, ao qual me dediquei por tempo considerável. Uma das dificuldades na prática
foi verificar a correspondência dos termos e enfoques e unificar as notações dos trabalhos, além de
manter certa uniformidade de quantidade expressiva de publicações sobre as mais variadas técnicas
estatísticas. Apesar do grande esforço, reconheço que alguns detalhes ou até mesmo inacurácias
possam ter passado despercebidos e tenho consciência de que sempre há possibilidade de
aprimoramentos do texto.

Apesar de ser a única autora, houve contribuições, mesmo que indiretas, especialmente de
colaboradores em trabalhos científicos, as provenientes de discussões e/ou interações com colegas e
alunos sobre alguns tópicos tratados no livro, entre outras. Para não haver omissões, minha opção foi
não citar nomes, exceto o de Eduardo Abreu, pela sua dedicação e ajuda na preparação do livro,
fazendo inúmeras revisões e conferências do material, além de suas sugestões.

Finalmente, espero ter produzido material útil para auxiliar no dimensionamento de amostras de
estudos na área da saúde, especialmente para profissionais que não sejam da área da Estatística.
Minha expectativa é de que o cuidadoso uso do texto possa direcionar os leitores a serem capazes de
identificar fórmulas do tamanho de amostra adequadas, tal que estudos sejam dimensionados de forma
apropriada tecnicamente e aceitável do ponto de vista econômico e ético.

Arminda Lucia Siqueira

Belo Horizonte, maio de 2017


Sumário

Capítulo 1
Considerações sobre planejamento e dimensionamento de amostras em estudos na área da saúde
1.1 Introdução
1.2 Conceitos básicos relacionados a dimensionamento de amostra
1.2.1 Critérios para determinação do tamanho da amostra
1.2.2 Significância, poder, erros do tipo I e do tipo II
1.2.3 Curva de poder
1.2.4 Tamanho mínimo do efeito (diferença mínima esperada)
1.2.5 Precisão (margem de erro), desvio absoluto e desvio relativo
1.3 Aspectos práticos relacionados a dimensionamento de amostra
1.3.1 Dificuldades na aplicação das fórmulas de tamanho de amostra
1.3.2 Alguns cuidados ou ajustes necessários na aplicação das fórmulas de tamanho de amostra
a) Uso do erro-padrão em vez do desvio-padrão
b) Ajuste para desistências
1.3.3 Estudos balanceados e não balanceados
1.3.4 Fórmulas fechadas versus solução via simulação
1.3.5 Minimização do tamanho de amostra
1.3.6 Como aumentar o tamanho da amostra de forma a atingir o poder desejado
1.3.7 Estratégia quando há mais de um desfecho primário
1.3.8 Situações mais complexas (métodos multivariados)
1.3.9 Cálculo do poder post hoc
1.3.10 Arredondamento e precisão utilizados nos cálculos
1.3.11 Indicação das fórmulas de tamanho da amostra
1.4 Considerações adicionais
1.5 Leitura recomendada
1.6 Notação utilizada no texto
1.7 Resumo do capítulo

Capítulo 2
Dimensionamento de amostras para estudos envolvendo médias
2.1 Introdução
2.2 Tamanho de amostra para estimação e testes de hipóteses para uma média para variáveis
com distribuição normal
2.2.1 Estimação de uma média no caso em que a variância é conhecida
2.2.2 Teste para uma média no caso em que a variância é conhecida
2.2.3 Teste para uma média no caso em que a variância é desconhecida


2.3 Tamanho de amostra para estimação e testes de hipóteses para duas médias no caso de
amostras independentes
2.3.1 Estimação da diferença de duas médias
2.3.2 Teste para a diferença de duas médias para três casos, dependendo se as variâncias e
tamanhos de amostras são ou não iguais
1º caso: variâncias e tamanhos iguais (𝜎!! = 𝜎!! = 𝜎 ! e 𝑛! = 𝑛! = 𝑛),
variância (𝜎 ! ) conhecida
2º caso: variâncias iguais e tamanhos desiguais (𝜎!! = 𝜎!! = 𝜎 ! e 𝑛! ≠ 𝑛! )
3º caso: variâncias e tamanhos desiguais (𝜎!! ≠ 𝜎!! e 𝑛! ≠ 𝑛! )
2.3.3 Incorporação do custo no cálculo do tamanho da amostra
2.4 Tamanho de amostra para a comparação de duas médias no caso de amostras pareadas
2.4.1 Intervalo de confiança para a diferença de médias no caso de amostras pareadas
2.4.2 Teste de hipóteses para a diferença de médias no caso de variância conhecida e
amostras pareadas
2.4.3 Teste de hipóteses para a diferença de médias no caso de variância não conhecida e
amostras pareadas
2.5 Tamanho de amostra para várias médias para variáveis com distribuição normal
2.5.1 Comparações pareadas
2.5.2 Comparações simultâneas
2.6 Considerações adicionais
2.6.1 Desconhecimento dos parâmetros que aparecem nas fórmulas de tamanho de amostra
2.6.2 Comparação de grupos de forma não paramétrica
2.7 Recursos computacionais para os cálculos do tamanho da amostra e/ou do poder

Capítulo 3
Dimensionamento de amostras para estudos envolvendo proporções
3.1 Introdução
3.2 Tamanho de amostra para estimação e testes de hipóteses para uma proporção
3.2.1 Estimação de uma proporção
3.2.2 Teste para uma proporção
3.3 Tamanho de amostra para estimação e testes de hipóteses para proporções no caso
de duas amostras independentes
3.3.1 Estimação da diferença de duas proporções
3.3.2 Teste para a diferença de duas proporções
3.3.3 Teste para a razão de chances (odds ratio)
3.4 Tamanho de amostra para duas proporções no caso de duas amostras pareadas
3.5 Recursos computacionais para os cálculos do tamanho da amostra e/ou do poder

Capítulo 4
Dimensionamento de amostras para planejamentos básicos de estudos epidemiológicos
e clínicos e para os esquemas amostrais tradicionais
4.1 Introdução
4.2 Estudos de coorte
4.2.1 Tamanho de amostra para estimação do risco relativo usando precisão relativa em estudos de coorte


4.2.2 Tamanho de amostra para testes de hipóteses para a diferença entre proporções
em estudos de coorte
1º caso: hipóteses bilaterais
2º caso: hipóteses unilaterais
4.3 Estudos caso-controle
4.3.1 Tamanho de amostra para estimação da razão de chances (odds ratio) usando
a precisão relativa (𝑑!"# ) em estudos caso-controle
4.3.2 Tamanho de amostra para testes de hipóteses sobre diferença entre proporções
em estudos caso-controle
1º caso: hipóteses bilaterais
2º caso: hipóteses unilaterais
4.4 Estudos com amostras pareadas ou emparelhadas para respostas categóricas
4.4.1 Tamanho de amostra para o caso de amostras pareadas (duas categorias)
4.4.2 Tamanho de amostra para o caso de amostras emparelhadas (três ou mais categorias)
4.5 Estudos transversais
4.5.1 Tamanho de amostra em estudos transversais
4.6 Ensaios clínicos controlados
4.6.1 Tamanho de amostra em ensaios clínicos controlados
4.7 Noções de amostragem e cálculos do tamanho da amostra para
os esquemas amostrais tradicionais
4.7.1 Amostragem aleatória simples (AAS)
Tamanho de amostra usando amostragem aleatória simples (AAS)
Tamanho de amostra para estimação de médias usando
amostragem aleatória simples (AAS)
Tamanho de amostra para estimação de proporções usando
amostragem aleatória simples (AAS)
4.7.2 Amostragem sistemática (AS)
Tamanho de amostra usando amostragem sistemática (AS)
4.7.3 Amostragem estratificada (AE)
Tamanho de amostra usando amostragem estratificada (AE)
Tamanho de amostra para estimação de proporções usando
amostragem estratificada (AE)
Tamanho de amostra para estimação da proporção 𝑃! com precisão absoluta
usando amostragem estratificada (AE)
Tamanho de amostra para estimação da proporção 𝑃! com precisão relativa
usando amostragem estratificada (AE)
Tamanho de amostra para estimação de médias usando
amostragem estratificada (AE)
4.7.4 Amostragem por conglomerados (AC)
Tamanho de amostra usando amostragem por conglomerados (AC)
4.7.5 Combinação dos esquemas básicos de amostragem
4.8 Recursos computacionais para os cálculos do tamanho da amostra e/ou do poder


Capítulo 5
Dimensionamento de amostras para ensaios de não inferioridade, superioridade e equivalência
5.1 Introdução
5.1.1 Conceitos básicos
5.2 Ensaios de não inferioridade e de superioridade
5.2.1 Tamanhos de amostra de ensaios de não inferioridade para o caso de
grupos paralelos e resposta contínua (diferença de médias)
Método de amostras grandes
Método de Satterwaite
Método para o caso em que as variâncias são iguais, mas desconhecidas
5.2.2 Tamanho de amostra de ensaios de não inferioridade para o caso de
grupos paralelos e resposta binária
Teste de Wald
Teste do escore
Métodos exatos
Diferença de proporções versus odds ratio
Acurácia das fórmulas fechadas para o tamanho de amostra via o teste de Wald
e o teste do escore quando a medida odds ratio é usada
5.3 Estudos de bioequivalência
5.3.1 Tamanho de amostra em estudos de bioequivalência
5.3.2 Impacto da má-especificação de parâmetros envolvidos no cálculo do
tamanho da amostra em estudos de bioequivalência
5.3.3 Considerações finais
5.4 Recursos computacionais para os cálculos do tamanho da amostra e/ou do poder

Capítulo 6
Dimensionamento de amostras para estudos envolvendo
correlação entre variáveis e modelos de regressão
6.1 Introdução
6.2 Correlação e regressão linear
6.2.1 Correlação e regressão linear simples
6.2.2 Tamanho de amostra para teste de correlação e regressão linear simples
6.2.3 Regressão linear múltipla
6.2.4 Tamanho de amostra em regressão linear múltipla
6.3 Regressão logística (resposta binária)
6.3.1 Modelo de regressão logística com uma variável explicativa
6.3.2 Modelo de regressão logística múltipla
6.3.3 Tamanho de amostra em modelos de regressão logística
6.4 Modelos para dados ordinais
6.4.1 Tamanho de amostra para dados ordinais
6.4.2 Comparação de métodos de cálculo de tamanho de amostra para dados ordinais
6.5 Regressão de Poisson
6.5.1 Tamanho de amostra em regressão de Poisson
6.6 Recursos computacionais para os cálculos do tamanho da amostra e/ou do poder


Capítulo 7
Dimensionamento de amostras para métodos de sobrevivência
7.1 Introdução
7.1.1 Conceitos básicos em análise de sobrevivência
Tempo do paciente e tempo do estudo
Censura
Função de sobrevivência
Função de risco ou risco instantâneo ou de taxa de falha (hazard)
Curvas de sobrevivência
Método de Kaplan-Meier
Comparação de curvas de sobrevivência
7.2 Comparação de dois grupos em análise de sobrevivência
7.2.1 Tamanho de amostra para a comparação de funções de taxas de risco
sob a condição de riscos proporcionais
1º enfoque: cálculo do número de eventos (mortes ou de forma geral, falhas)
2º enfoque: cálculo do número total de participantes do estudo
7.2.2 Tamanho de amostra com o pressuposto de sobrevivência com distribuição exponencial
para os dois grupos e com ajuste de abandonos (dropouts) de participantes
7.3 Modelo de regressão de Cox
Modelo de Cox
Interpretação dos coeficientes
Inferência estatística
7.3.1 Tamanho de amostra para o modelo de Cox
Modelo de Cox com uma única variável binária
Modelo de Cox com uma única covariável não binária
Efeito de ajuste de covariáveis
7.4 Comparação de dois grupos em ensaios de superioridade, não inferioridade
e equivalência em análise de sobrevivência
7.4.1 Comparação de dois grupos usando o modelo exponencial
Testes de superioridade, não inferioridade e equivalência (modelo exponencial)
Tamanho de amostra para ensaios de igualdade, superioridade,
não inferioridade e equivalência (modelo exponencial)
Tamanho de amostra para ensaios de igualdade, superioridade, não inferioridade
e equivalência (modelo exponencial) com ajuste para perdas
7.4.2 Comparação de dois grupos utilizando o modelo de Cox
Testes de superioridade, não inferioridade e equivalência (modelo de Cox)
Tamanho de amostra para ensaios de não inferioridade,
superioridade e equivalência (modelo de Cox)
7.4.3 Comparação de dois grupos para ensaios de não inferioridade utilizando o teste log-rank
Tamanho de amostra para a comparação de dois grupos em ensaios
de não inferioridade utilizando o teste log-rank
7.5. Tópicos adicionais
7.5.1 Outras considerações sobre o modelo de riscos proporcionais e alternativas
7.5.2 Análise de sobrevivência para dados grupados


7.5.3 Análise de sobrevivência com eventos múltiplos
7.6 Recursos computacionais para os cálculos do tamanho da amostra e/ou do poder

Capítulo 8
Dimensionamento de amostras para estudos de acurácia de testes diagnósticos
8.1 Introdução
8.1.1 Medidas usadas em estudos de acurácia de testes diagnósticos
Sensibilidade e especificidade
Estimação da sensibilidade e especificidade
Medidas obtidas pela combinação da sensibilidade e da especificidade
Odds ratio
Índice de Youden
Razão de verossimilhanças
Acurácia ou probabilidade de um resultado de teste correto
8.1.2 Valores de predição
8.1.3 Decisões incorretas: falso-positivo e falso-negativo
8.1.4 Testes diagnósticos baseados em variáveis contínuas
Efeito do ponto de corte na qualidade de um teste diagnóstico
Escolha do ponto de corte
Curva ROC
8.2 Tamanho de amostra para estudos de acurácia de testes diagnósticos
8.2.1 Estimação da sensibilidade e/ou especificidade
8.2.2 Teste de hipóteses ou intervalo de confiança para a comparação
da acurácia de um único teste com um valor pré-especificado
Razões de verossimilhanças
8.2.3 Utilização da curva ROC
Comparação de dois testes diagnósticos usando a diferença
entre medidas de acurácia baseadas na curva ROC
Área total sob a curva ROC
Área parcial sob a curva ROC
8.2.4 Comparação da acurácia de dois testes
Comparação de sensibilidade/especificidade no caso de grupos independentes
Comparação de sensibilidade/especificidade no caso de amostras pareadas
Estudo de equivalência de sensibilidade baseado no teste de McNemar
Teste de McNemar para amostras pareadas em estudos de acurácia
8.3 Considerações finais
8.4 Recursos computacionais para os cálculos do tamanho da amostra e/ou do poder

Capítulo 9
Dimensionamento de amostras para estudos de concordância
9.1 Introdução
9.1.1 O coeficiente kappa com dois resultados possíveis (categorias binárias)
9.1.2 O coeficiente kappa com dois ou mais resultados possíveis (categorias multinomiais)
9.1.3 O coeficiente kappa ponderado (categorias ordinais)


9.2 Tamanho de amostra em estudos de concordância baseados no coeficiente kappa
quando há dois avaliadores
9.2.1 Tamanho de amostra em estudos de concordância usando o coeficiente kappa
quando a variável resposta apresenta apenas duas categorias
Hipóteses simples (comparação de kappa com um valor pré-especificado)
Teste de hipóteses (comparação de dois coeficientes de concordância kappa)
9.2.2 Tamanho de amostra em estudos de concordância usando o coeficiente kappa
quando a variável resposta apresenta duas ou mais categorias
Tamanho de amostra e poder do teste de concordância
Tamanho de amostra com o enfoque de intervalo de confiança
Tamanho de amostra com o enfoque de testes de hipóteses
9.2.3 Tamanho de amostra em estudos de concordância usando o coeficiente kappa ponderado
9.3 Considerações finais
9.4 Recursos computacionais para os cálculos do tamanho da amostra e/ou do poder

Capítulo 10
Tópicos especiais em dimensionamento de amostras
10.1 Introdução
10.2 Métodos não paramétricos
10.2.1 Tamanho de amostra para testes não paramétricos no caso de uma amostra
Teste de Wilcoxon para uma amostra
Teste de Wilcoxon para dados pareados
Teste do sinal
10.2.2 Tamanho de amostra para o teste de Wilcoxon para duas amostras
(teste Wilcoxon-Mann-Whitney ou teste de Mann-Whitney)
10.2.3 Tamanho de amostra para o teste de Kruskal-Wallis (comparação de mais de dois grupos)
10.3 Modelos lineares generalizados
10.3.1 Tamanho de amostra para modelos lineares generalizados
10.4 Dados grupados e longitudinais
10.4.1 Tamanho de amostra para dados grupados e longitudinais
10.5 Poder exato
10.6 Estudos sequenciais e delineamentos adaptativos
10.7 Metanálise
10.8 Recursos computacionais para os cálculos do tamanho da amostra e/ou do poder

Capítulo 11
Implementações computacionais para dimensionamento de amostras
11.1 Introdução
11.2 Softwares para cálculo do tamanho de amostra e do poder
11.2.1 Softwares comerciais
1- Pass®
2- nQuery Advisor®
3- Minitab®
11.2.2 Softwares acadêmicos, governamentais, pacotes do software livre R e uso de planilhas Excel®


1- PS: Power and Sample Size Calculation
2- Programa desenvolvido pelo LEE para o cálculo de tamanho de amostra
para pesquisas em ciências da saúde
3- Epi Info
4- OpenEpi
5- Software livre R
a) Pacote pwr do software livre R
b) Pacote TrialSize do software livre R
c) Pacote HMISC do software livre R
d) Pacote MESS do software livre R
e) Pacote powerSurvEpi do software livre R
6- Excel®
11.3 Exemplos utilizando os recursos computacionais
11.3.1 Pacote prw do software livre R
11.3.2 Pacote TrialSize do software livre R
11.3.3 Pacote HMISC do software livre R
11.3.4 Planilhas Excel®
11.3.5 Pass®
11.3.6 nQuery Advisor®
11.3.7 Epi Info
11.4 Resumo de softwares/programas utilizados por capítulo

Referências

Apêndice A
Noções sobre inferência estatística

Apêndice B
Tabelas de números aleatórios e distribuições de probabilidades

Links para download das planilhas de Excel®


1.1 Introdução

Pesquisas clínicas, epidemiológicas, de experimentação animal, da área da saúde e em qualquer área do


conhecimento, devem começar com cuidadoso planejamento pautado nas boas práticas na condução
de pesquisas científicas dentro dos padrões éticos, tanto para a coleta de dados como para a
apresentação dos resultados. Além de vasta literatura, existem vários documentos relacionados ao tema,
como o de 2014 intitulado “Código de Boas Práticas Científicas”, disponível no site da Fapesp.
Para cada tipo de estudo existem especificidades que naturalmente devem ser observadas, mas um
ponto é comum a todos: na etapa do planejamento do estudo, seu dimensionamento é fundamental,
mas, em geral, o cálculo de tamanho de amostra não é trivial.

Em estudo denomina-se censo ou recenseamento se todas as unidades da população serão examinadas,


ou seja, se o levantamento da população deve ser exaustivo, enquanto que amostra é se apenas uma
parte delas será avaliada. A equipe responsável pelo planejamento do estudo deve decidir qual tipo de
coleta é mais apropriado. Por exemplo, no caso da triagem de doenças em recém-nascidos (teste do
pezinho), do registro de doenças de notificação compulsória e da contagem populacional, o censo é a
meta, embora em geral dificilmente a cobertura de 100% seja atingida. Entretanto, se o desejo é estudar
aspectos particulares ou comparativos nessas populações, a amostragem deverá ser o método de
escolha, porque será possível investigar maior número de características, em mais detalhe, mas em
tempo mais curto e com menor custo. Na prática da pesquisa, especialmente clínica, epidemiológica e
com experimentação animal, a maioria absoluta dos dados é amostral.
Uma questão que surge na prática é como coletar as amostras. A resposta é que depende do tipo de
estudo, já que cada um tem suas especificidades. Para ilustrar, em um ensaio clínico, naturalmente as
amostras devem ser colhidas entre os grupos de comparação, por exemplo, o grupo-tratamento e o
grupo-controle. Já para pesquisas de opinião pública, de intenção de votos ou, de forma geral, ligadas a
Ciências Sociais, a amostragem é bem diferente, como pode ser constatado em literatura especializada.
O documento intitulado “Publicação de Pesquisas Eleitorais”, mas que se insere no contexto de
pesquisas de opinião relacionadas a temas sociais e políticos, encontra-se disponível em
http://www.abraji.org.br/midia/arquivos/file1248208128.pdf. Trata-se de publicação de 2008, que
embora não seja tão recente dá boa ideia da metodologia de amostragem e cálculo de tamanho de
amostra. Barbetta (2014) é outra referência para a metodologia de pesquisa em Ciências Sociais.
Como será discutido no capítulo 5, a amostragem utilizada em estudos de bioequivalência, exigidos
para a aprovação de medicamentos genéricos, é bem específica. O ponto principal é que, em cada tipo
de pesquisa a amostra deve ser representativa.

A unidade amostral é definida como a menor parte enumerável da população, também chamada de
elemento, e pode ser simples (por exemplo, o indivíduo) ou um conglomerado (por exemplo, um grupo,
uma escola, um hospital, um conjunto de elementos). Uma amostra pode ser probabilística, com
probabilidade de cada elemento igual ou distinta, não probabilística ou intencional. Mais detalhes
podem ser obtidos, por exemplo, em Bolfarine e Bussab (2005).

A Figura 1.1 ilustra a extração de amostra de uma população.

Figura 1.1 - Ilustração de amostra extraída de uma população.


O levantamento amostral não implica a perda de qualidade de informação em relação ao censo, desde
que a amostra seja representativa da população da qual a amostra foi extraída. Outra observação
importante é que o uso inadequado de um procedimento amostral pode levar a viés (vício) de
interpretação. O plano amostral é o conjunto de etapas que possibilitam a definição do tamanho e a
forma como a amostra será coletada.

Os principais esquemas amostrais são: a) amostragem aleatória simples (AAS); b) amostragem


sistemática (AS); c) amostragem estratificada (AE); d) amostragem por conglomerados (AC).
Na prática, é frequente a combinação dos esquemas básicos e muitas vezes a amostragem é feita em
mais de um estágio. Por exemplo, a amostragem por conglomerado pode ser realizada no primeiro
estágio, seguida da AAS no segundo estágio.

A AAS é um esquema conceitualmente simples, que serve como referência, mas não considera a
heterogeneidade da população e também nem sempre é de fácil implementação e pode ter alto custo,
por isso nem sempre é viável. A AS é um dos esquemas de amostragem mais simples para serem
implementados na prática. Para o mesmo tamanho de amostra, a precisão da AE é superior à da AAS e
tem a vantagem de considerar a heterogeneidade da população. Já o esquema AC, embora seja de baixo
custo, apresenta precisão inferior ao AAS e AE. Em resumo, para o mesmo tamanho de amostra, com a
AE é possível diminuir o erro amostral e aumentar a precisão dos estimadores que seriam obtidos pela
AAS. A AC é recomendada especialmente em populações muito grandes e dispersas. Sua principal
vantagem é a redução de custos, mas a variabilidade amostral é geralmente superior à que seria obtida
pela AAS ou AE. Em cada caso deve ser investigado qual será o esquema amostral mais adequado.

No capítulo 4 serão apresentados comentários sobre esquemas amostrais de maneira resumida bem
como algumas fórmulas de cálculo de tamanho de amostra nesse contexto. A literatura estatística sobre
este tema é vasta e diversa. Livros clássicos de técnicas de amostragem, como Kish (1965) e Cochran
(1977), além de outros mais recentes, como Silva (2004), Bolfarine e Bussab (2005) e Levy e
Lemeshow (2008), são de leitura obrigatória.

O processo de amostragem começa com a determinação do tamanho da amostra adequado para garantir
a precisão, confiabilidade e poder de generalização das informações obtidas. De maneira geral, o plano
amostral tem dois componentes interligados: o método de seleção (aleatório, por sorteio, ou não) e o
método estatístico, que será usado na análise dos dados. Um determina o outro, observados os cuidados
que cada parte exige para ser bem executada.
A chave de uma pesquisa é como e quanto amostrar. A representatividade da população na amostra, ou
validade, é assegurada pelo planejamento científico da pesquisa, que pode, grosso modo, ser dividida
nas seguintes etapas: formulação do problema; escolha do tipo de estudo (experimental ou
observacional, aleatorizado); escolha da unidade amostral (paciente, família, enfermaria, hospital,
bairro, cidade, turma de escola, etc.); escolha dos fatores que devem ser incluídos no estudo (hábitos
pessoais, história da doença na família, etc.); escolha das variáveis que serão consideradas; definição de
critérios de inclusão e exclusão dos elementos; adoção de procedimentos claros, simples, reprodutíveis
e acordados pela comunidade científica, pelos quais os tratamentos serão alocados às unidades
amostrais; coleta de dados; produção de resultados; análise dos resultados e relatório contendo as
conclusões; discussão das limitações do estudo e possíveis aprimoramentos para pesquisas futuras.
A Estatística exerce importante papel em todas essas etapas, como ferramenta da organização da
acumulação e validação do conhecimento.

Estudo na área da saúde pode ser observacional ou experimental (por exemplo, para comparar
medicamentos e tratamentos). Neste segundo tipo, o pesquisador interfere de maneira deliberada no
curso natural dos acontecimentos, em contraposição aos estudos observacionais. Naturalmente, existem
questões éticas envolvidas, mas que são disciplinadas pela Convenção de Helsinque. O protocolo do
estudo é avaliado por um comitê de ética.

No Brasil, a Resolução 196/96, emitida em 1996 pelo Conselho Nacional de Saúde, regulamentou os
aspectos éticos envolvendo seres humanos. Foi substituída e atualizada pela Resolução 466/2012, que
foi publicada em 13 de junho de 2013 no Diário Oficial da União e encontra-se disponível na Internet.
A Comissão Nacional de Ética em Pesquisa (CONEP) tem como principal atribuição examinar
aspectos éticos das pesquisas que envolvem seres humanos. Também é de responsabilidade da Conep
elaborar e atualizar as diretrizes e normas para a proteção dos participantes de pesquisa, além de
coordenar a rede de Comitês de Ética em Pesquisa das instituições.

Os protocolos de todos os estudos envolvendo seres humanos devem ser submetidos a um Comitê de
Ética em Pesquisa (CEP). Os estudos devem atender a todos os requisitos éticos necessários a uma
pesquisa científica realizada com seres humanos, tais como a participação voluntária, a privacidade dos
participantes e a confidencialidade de informações. O estudo deve começar após sua aprovação no CEP
e assinatura por todos os voluntários no documento chamado consentimento livre e esclarecido.

Pesquisas na área de saúde realizadas com cobaias também estão sujeitas às normas das boas práticas
em pesquisa e aprovação por um comitê de ética para uso de animais. Em algumas instituições é
denominado Comitê de Ética em Experimentação Animal (CETEA).

Estudo observacional pode ser: descritivo, analítico (coorte, caso-controle, de corte transversal) ou
ecológico. O estudo experimental é chamado de ensaio clínico aleatorizado ou ensaio clínico
controlado e o termo mais usado na comunidade médica é ensaio clínico randomizado. O planejamento
(delineamento ou desenho) de um estudo depende basicamente do seu tipo (por exemplo, se
observacional ou experimental, se prospectivo, retrospectivo ou de corte transversal, etc.) e da forma
como a amostra vai ser coletada (por exemplo, se há ou não pareamento, além do tipo de amostragem).

O roteiro para o planejamento de um estudo na área da saúde consiste basicamente em: a) explicitar
os objetivos e as hipóteses de pesquisa; b) especificar claramente a população-alvo; c) listar as
variáveis a serem consideradas; d) determinar o tamanho da amostra e esquematizar os métodos de
coletar os dados, incluindo o tipo de amostragem; e) preparar o questionário, a ficha de coleta de dados
ou, de forma geral, o instrumento que deve ser validado, caso isso não tenha sido feito em estudos
anteriores; f) especificar o cronograma do estudo; g) submeter o projeto/protocolo do estudo a um
comitê de ética em pesquisa; h) selecionar a amostra e coletar os dados; i) editar, codificar e entrar os
dados de forma eletrônica e fazer a consistência dos mesmos; j) analisar os dados; k) relatar os achados.
Aspecto importante do planejamento na maioria dos estudos é o tamanho da amostra (𝑛), isto é, o
número de participantes ou, de forma mais geral, de unidades amostrais. O dimensionamento da
amostra deve ser específico a cada situação e obviamente deve ser adequado para se obter a desejada
precisão – o valor de 𝑛 não deve ser menor nem maior do que seria necessário.

No capítulo 4 serão apresentados, de forma resumida, alguns tipos de delineamentos de estudos na área
da saúde, como tipo caso-controle, de coorte, transversal e ensaio clínico controlado. No capítulo 5
também é citado brevemente o estudo de bioequivalência.

O tamanho da amostra desempenha importante papel na fase do planejamento de qualquer tipo de


estudo da área da saúde. Tende-se a pensar que quanto maior a amostra, melhor será e que, se possível,
a coleta de dados até deveria ser exaustiva. Entretanto, na prática, por questões éticas, por restrições de
tempo, de recursos humanos e materiais e de custo, o tamanho da amostra deve ser o menor possível.
É impensável submeter um número desnecessário de pessoas ou quaisquer seres vivos a intervenções
ou situações que modifiquem o ritmo natural da vida apenas para se obter dados que em nada
contribuirão para se atingir as metas prefixadas na pesquisa. Assim, procura-se assegurar que haja
número suficiente de participante no estudo para garantir conclusões confiáveis.
Eng (2003) e vários outros autores chamam a atenção para o fato de que estudos clínicos sem o
tamanho de amostra suficiente podem falhar na detecção de um efeito significativo quando realmente
ele existe. Naturalmente, deve haver um balanço já que pode haver o recrutamento de número
desnecessário de participantes, especialmente em estudos com altos custos. Assim, a solução ideal é
que, para cada situação, seja feito o cálculo correto do tamanho da amostra, ou pelo menos bem
próximo da situação considerada.

De forma geral, pode-se dizer que o principal objetivo de ensaios clínicos é demonstrar a eficácia e
segurança de medicamentos e tratamentos. Além disso, tais estudos podem ser usados para encontrar
novos usos e mesmo o aprimoramento de drogas e tratamentos já existentes. Em geral, ensaios clínicos
são muito caros e quase sempre trabalhosos, frequentemente complexos, envolvendo muitos recursos
financeiros, pessoais e mesmo demanda de tempo considerável. Assim, é fundamental o bom
planejamento do estudo, sendo que o tamanho da amostra é um dos elementos.

Se existe um tratamento comprovadamente eficaz, seria eticamente inaceitável alocar mais pacientes ao
tratamento a ser testado. Assim, no cálculo do tamanho de amostra de um ensaio clínico, devem-se
levar em consideração as características dos participantes (pacientes), demandas clínicas, financeiras e
aspectos éticos e gerais do estudo.

O primeiro passo do estudo é formular claramente as hipóteses de pesquisa. O tamanho da amostra é


criticamente dependente do objetivo do estudo, da variável resposta considerada (desfecho) e como ela
é resumida, da proposta acerca do tamanho do efeito a ser avaliado e do método de calcular a estatística
do teste ou, de forma mais geral, do tipo de análise estatística a ser realizada.

Métodos de dimensionamento de amostra devem ser específicos a cada tipo de dados: binários,
ordinais, contínuos (por exemplo, normal), de sobrevivência, etc. Além disso, sempre que possível
deve-se fazer o cálculo para o tipo de análise estatística que deverá ser feita. Por exemplo, se será
utilizada regressão logística, o dimensionamento deve ser feito para esta técnica estatística e cálculos
para métodos mais simples, como baseados em proporções, devem ser evitados.

Como já comentado, a maioria dos ensaios clínicos é bem complexa. Entretanto, para o
dimensionamento da amostra é aceitável fazer certas simplificações, como, por exemplo, inicialmente
fazer os cálculos apenas para a variável considerada mais importante. Posteriormente, o tamanho da
amostra deve ser ajustado por alguns fatores, tais como desistências, covariáveis, a fim de obter um
número suficiente de indivíduos tal que a avaliação estatística seja válida.
O dimensionamento de amostras frequentemente é determinado por fórmulas fechadas, aproximadas ou
não. Embora fórmulas fechadas sejam práticas e convenientes, suas acurácias variam e podem até
mesmo ser questionadas. Por exemplo, Kupper e Hafner (1989) discutem se algumas fórmulas simples
e difundidas de tamanho da amostra são apropriadas. Eventualmente, soluções alternativas podem ser
preferidas. Fórmulas fechadas podem ser calculadas manualmente, isto é, com auxílio de calculadoras
ou usando tabelas que são disponíveis em muitos textos e sites. A utilização de tabelas específicas para
tamanho de amostra ou poder em geral não é um procedimento muito prático e acurado, já que
apresenta a limitação de ter a solução apenas para as entradas da tabela. Em muitos casos, há grande
sensibilidade a alterações dos termos envolvidos nas fórmulas, isto é, para valores relativamente
próximos de um termo que entra na fórmula, os tamanhos da amostra correspondentes são bem
distintos. Este fato é ilustrado em alguns exemplos no texto.

Às vezes, processos iterativos são necessários para o dimensionamento de amostras, exigindo


programação, possivelmente trabalhosa, ou ainda as soluções podem ser obtidas por simulações.
De forma geral, o dimensionamento tanto por fórmulas fechadas como por métodos que usam processo
iterativo é comumente feito utilizando-se programas/softwares específicos. Comentários adicionais
serão fornecidos no capítulo 11, que trata de recursos computacionais.

Embora a determinação do tamanho da amostra seja parte fundamental no planejamento do estudo,


anos atrás isso era constantemente negligenciado, seja por cálculos inadequados, seja por seu completo
esquecimento. Muitas vezes o problema só era trazido à tona na análise dos dados ou mesmo na
publicação do trabalho.

Utsch (2000) fez um levantamento e análise da utilização da metodologia de dimensionamento de


amostras em 134 trabalhos finais de pós-graduação (mestrado e doutorado) aprovados na Faculdade de
Medicina da UFMG entre 1995 e 1998. Constatou que apenas 27 (20,15%) apresentaram a metodologia
de amostragem, sendo que somente em 13 (48,15%) havia a descrição completa do procedimento.
Dos 30 trabalhos experimentais, apenas seis (20%) relataram o cálculo e dos 104 observacionais, 25
(24,04%). Curiosamente, nenhum estudo com animais indicou o cálculo de tamanho de amostra.
Concluiu, então, que a conscientização do valor dessa fase da pesquisa é incipiente, sugerindo
desconhecimento tanto da metodologia, como das repercussões de sua inadequação.

Acredita-se que atualmente o quadro tenha melhorado, mas ainda há necessidade de mais atenção para
este tópico em trabalhos de pós-graduação e em geral em publicações científicas na área da saúde.
1.2 Conceitos básicos relacionados a dimensionamento de amostra

O dimensionamento de amostras pode ser direcionado para a estimação de parâmetros ou para testes de
hipóteses sobre eles. Kupper e Hafner (1989) fornecem evidências empíricas de que ocorre
subestimação com as fórmulas de dimensionamento de amostra destinadas à estimação, mas que as
fórmulas que incorporam o poder do teste funcionam muito bem, mesmo para situações de pequenas
amostras, ao menos no caso de comparação de duas médias.

Por outro lado, outros autores, como Gardner e Altman (1986) e Bland (2009), argumentam a tendência
a dimensionar amostras utilizando intervalos de confiança em vez dos tradicionais valores-p.
Tal conduta é muito mais interessante pela dificuldade de interpretar testes de significância,
especialmente quando o resultado não for significante. De fato, vários periódicos têm sugerido que o
método baseado em intervalos de confiança seja preferido e foi até mesmo endossado pelo
Consolidated Standards of Reporting Trials (CONSORT) como forma padrão para a apresentação de
ensaios clínicos. O CONSORT é um manual a respeito dos ensaios clínicos, criado na década de 90 e
que apresenta uma série de recomendações.

Neste texto, serão apresentados os dois enfoques (estimação e testes de hipóteses) para o
dimensionamento de amostra, sendo que em muitas situações serão consideradas as duas versões.
Noções básicas sobre inferência estatística estão abordadas no Apêndice A.

A seguir, são apresentados e comentados os conceitos básicos de dimensionamento de amostras


(SCHULZ e GRIMES, 2005).

1.2.1 Critérios para determinação do tamanho da amostra

De forma geral, os critérios estabelecidos na determinação do tamanho da amostra são: precisão, erros
associados a testes de hipóteses, alguma estrutura da população estudada (por exemplo, razão entre o
número de casos e controles ou entre indivíduos expostos a um determinado fator em relação aos não
expostos), custo ou, ainda, a combinação de alguns deles.

Os elementos essenciais para o dimensionamento de amostras são: fixar o nível de confiança e o


tamanho mínimo do efeito que se quer detectar; e em testes de hipóteses, acrescenta-se o poder
estatístico do teste, que por simplificação será chamado apenas de poder.
1.2.2 Significância, poder, erros do tipo I e do tipo II

Como definido no Apêndice A, 𝛼 e 𝛽 denotam as probabilidades dos erros tipo I e II. O nível de
confiança e o poder do teste associados são, respectivamente, 1 − 𝛼 e 1 − 𝛽. Assim, o intervalo será
construído com nível de confiança de (1 − 𝛼)100% e o poder do teste, o complementar do erro do
tipo II, será fixado em (1 − 𝛽)100 %. Para o nível de significância mais comum (5%), o
correspondente intervalo teria 95% de confiança.

Em muitas situações, são utilizadas aproximações pela distribuição normal e os percentis dependem do
procedimento com que se vai trabalhar: intervalo de confiança, teste de hipótese bilateral ou unilateral.
Para a notação usual são apresentados no Quadro 1.1 os percentis (𝑧) mais utilizados na prática, por
exemplo, 𝑧1−𝛼/2 para hipóteses bilaterais e 𝑧1−𝛼 para hipóteses unilaterais.

Quadro 1.1 - Percentis da distribuição normal padrão

𝛼 1−𝛼 𝑧1−𝛼/2 𝑧1−𝛼 𝛽 1−𝛽 𝑧1−𝛽


0,01 0,99 2,5758 ≅ 2,58 2,3264 ≅ 2,33 0,01 0,99 2,3264 ≅ 2,33
0,05 0,95 1,9597 ≅ 1,96 1,6449 ≅ 1,64 0,05 0,95 1,6449 ≅ 1,64
0,10 0,90 1,6449 ≅ 1,64 1,2816 ≅ 1,28 0,10 0,90 1,2816 ≅ 1,28
0,20 0,80 1,2816 ≅ 1,28 0,8416 ≅ 0,84 0,20 0,80 0,8416 ≅ 0,84

Se houver testes alternativos, naturalmente será escolhido aquele que tiver mais poder. Em geral,
quanto maior o tamanho da amostra (𝑛), maior será o poder correspondente e tipicamente a função
cresce monotonicamente com 𝑛, embora em alguns casos (por exemplo, para resposta binária) a função
não tem tal comportamento, aparentando uma serra.

Em geral, fixa-se um valor do poder, frequentemente 80%, 85%, 90%, 95% ou até mesmo 99%, mas
especialmente para variáveis discretas, o poder real, isto é, o valor atingido, não é exatamente o valor
fixado, como mostrado na Figura 1.2, referente à saída do Pass®14: note a diferença entre o poder
fixado em 90% (Target Power) e o poder real (Actual Power). Trata-se do dimensionamento de
amostras quando duas curvas ROC são comparadas. Este assunto será discutido no capítulo 8 e a saída
do Pass®14 para essa situação será comentada no capítulo 11.
(a) Tipo de dados: contínuo

(b) Tipo de dados: discreto

Figura 1.2 - Saída (Output) do Pass®14 referente ao dimensionamento de amostras quando duas curvas
ROC são comparadas, com destaque para o poder fixado (Target Power) e poder real (Actual Power)
para dois tipos de dados (contínuo e discreto).
1.2.3 Curva de poder

Quando se fala em um único valor de poder, significa que foi fixado um valor do parâmetro na hipótese
alternativa. Na realidade, para tamanho de amostra 𝑛, pode-se construir a curva de poder, que consiste
em colocar no eixo vertical o valor do poder (1 − 𝛽) para vários valores do parâmetro testado (em
geral, de forma padronizada) no eixo horizontal.

Como exemplo, considere-se a situação em que há interesse em testar as seguintes hipóteses sobre uma
média (𝜇), 𝐻0 : 𝜇 = 𝜇0 = 67 versus 𝐻1 : 𝜇 ≠ 67, supondo-se que a variável estudada tem distribuição
normal, que o desvio-padrão (𝜎) é conhecido e igual a 3, que o tamanho de amostra é 25 (𝑛 = 25) e
que o nível de significância é fixado em 5% (𝛼 = 0,05). A Figura 1.3 apresenta a curva do poder
(1 − 𝛽) em função de alguns valores de 𝜇 (que por estarem no eixo 𝑥 serão chamados de 𝑥), em torno
𝜎 𝜎 𝜎 𝜎 𝜎 𝜎
de 𝜇0 : {𝜇0 − 3 ; 𝜇0 − 2 ; 𝜇0 − 1 ; 𝜇0 ; 𝜇0 + 1 ; 𝜇0 + 2 ; 𝜇0 + 3 } = {65,2; 65,8; 66,4;
√ 𝑛 √ 𝑛 √ 𝑛 √ 𝑛 √ 𝑛 √𝑛

67,0; 67,6; 68,2; 68,8}. Os valores da curva no eixo 𝑥 e os correspondentes valores de 𝛽 e 1 − 𝛽


(poder) estão apresentados no Quadro 1.2.

Quadro 1.2 - Valores de 𝑥 (𝜇) e os correspondentes valores de 1 − 𝛽 (poder)


𝑥 (𝜇) 65,5 66 66,5 67 67,5 68 68,5
𝛽 0,29 0,62 0,87 0,95 0,87 0,62 0,29
1−𝛽 0,71 0,38 0,13 0,05 0,13 0,38 0,71
0,7

0,6

0,5

0,4
Poder
0,3

0,2

0,1

0,0
65,5 66,0 66,5 67,0 67,5 68,0 68,5
x

Figura 1.3 - Curva do poder para testar as hipóteses 𝐻0 : 𝜇 = 67 versus 𝐻1 : 𝜇 ≠ 67,


𝜎 = 3 e tamanho de amostra igual a 25 (𝑛 = 25).

1.2.4 Tamanho mínimo do efeito (diferença mínima esperada)

O número de pacientes necessários para se fazer uma comparação adequada dos efeitos de dois
tratamentos depende da magnitude da diferença entre eles a ser detectada, denominada tamanho do
efeito, tamanho mínimo do efeito ou diferença mínima esperada.

Podem-se procurar diferenças de todas as magnitudes, mas para detectar diferenças muito pequenas são
necessárias amostras grandes, o que na prática pode ser inviável. Por outro lado, para detectar
diferenças grandes entre os grupos a serem comparados, por exemplo, grandes efeitos terapêuticos,
pouquíssimos pacientes precisam ser recrutados, mas isso pode não interessar na prática.

Em outras palavras, a diferença mínima esperada mede a menor diferença da comparação entre os
grupos que o investigador gostaria que o estudo detectasse. Quanto menor for a diferença mínima
esperada, maior será o tamanho da amostra necessário para detectar a significância estatística.
A definição da diferença mínima esperada é subjetiva e é baseada em julgamento clínico e na
experiência com o problema investigado. Os resultados de estudos-pilotos ou de uma revisão da
literatura também podem orientar a seleção de uma diferença mínima razoável.

Como ilustração, considere-se um estudo planejado para comparar um procedimento padrão de


diagnóstico tendo acurácia de 80% com novo procedimento, cuja acurácia é desconhecida, mas que se
espera seja superior à do procedimento padrão. Provavelmente não haveria relevância clínica se a
acurácia do novo procedimento fosse de apenas 81%, ou seja, ganho de um ponto percentual.
Entretanto, o investigador acredita que haveria melhora clinicamente importante se a acurácia do novo
procedimento fosse de 90%. Portanto, a escolha da diferença mínima esperada seria de 10% (0,10).

Uma distinção que deve ser feita aqui é entre o efeito estatisticamente significativo e o efeito
clinicamente relevante; na maioria das vezes, eles são coincidentes. Quando não o forem, deve-se
discutir e interpretar cuidadosamente essa discrepância.

1.2.5 Precisão (margem de erro), desvio absoluto e desvio relativo

A precisão estatística da magnitude do efeito observado está relacionada à estabilidade da estimativa e


em geral é expressa por meio de um intervalo de confiança. É a distância, em ambas as direções, da
estimativa em relação ao verdadeiro valor populacional, por exemplo, proporção, média, diferença de
̂
∣𝜃−𝜃∣
média. Para desvio absoluto, é representada por 𝑑𝑎𝑏𝑠 = 𝜃̂ − 𝜃 e para desvio relativo por 𝑑𝑟𝑒𝑙 = 𝜃 ,

sendo 𝜃 o parâmetro populacional desconhecido e 𝜃̂ o valor estimado.

A precisão 𝑑𝑎𝑏𝑠 é especificada diretamente e na mesma unidade da estimativa que se pretende calcular.
Já para 𝑑𝑟𝑒𝑙 a precisão não é direta e sim proporcional, isto é, é expressa como porcentagem em relação
ao verdadeiro parâmetro.

Nomenclatura alternativa para precisão que aparece na literatura é margem de erro. Uma pergunta de
interesse é qual é a margem de erro aceitável. Barros e Victora (1998) exemplificam com o problema
de desnutrição infantil cuja prevalência supostamente seria esperada em torno de 10%. Argumentam
que não seria razoável fixar o erro em 10% nem em 1%, mas um valor de 3% poderia ser escolhido.

1.3 Aspectos práticos relacionados a dimensionamento de amostra

Nesta seção são apresentados alguns comentários práticos relacionados ao dimensionamento de


amostra, tais como: como lidar com o fato de que as fórmulas dependem de quantidades desconhecidas;
alguns cuidados necessários, como ajuste para possíveis desistências, sobre o balanceamento de
amostras; o uso de simulação para obter a solução do tamanho de amostra e o cálculo do poder no final
do estudo (poder post hoc).
1.3.1 Dificuldades na aplicação das fórmulas de tamanho de amostra

Além da identificação da forma apropriada para o cálculo do tamanho da amostra, uma grande
dificuldade encontrada na prática diz respeito aos valores populacionais desconhecidos que aparecem
nas fórmulas. Para se ter ideia de tais valores, são utilizados como fontes estudos anteriores realizados
em populações e condições semelhantes, estudos-pilotos e estudos-pilotos internos, em que os dados
iniciais são posteriormente incorporados ao estudo (BIRKETT e DAY, 1994, entre outros).
Outro procedimento estatístico altamente recomendável é a análise de sensibilidade, que consiste em
variar os parâmetros e/ou termos envolvidos nas fórmulas entre um leque de valores plausíveis e então
determinar o tamanho que seja viável na prática.

1.3.2 Alguns cuidados ou ajustes necessários na aplicação das fórmulas de tamanho de amostra

a) Uso do erro-padrão em vez do desvio-padrão

Em várias situações, deve-se tomar cuidado com as informações necessárias para o cálculo do tamanho
de amostra. Por exemplo, no dimensionamento de médias, tipicamente é necessário entrar com o valor
do desvio-padrão (𝐷𝑃). Como já comentado, quase sempre tais valores são desconhecidos, sendo
portanto necessário buscar as informações em artigos científicos. Nem sempre, o 𝐷𝑃 aparece explícito
na publicação, mas muitas vezes pode ser recuperado, por exemplo, a partir de um
intervalo de confiança.

Um erro comum é a utilização do erro-padrão (𝐸𝑃) que tipicamente é bem menor que o 𝐷𝑃 e é o valor
que aparece com mais frequência em artigos científicos. Por exemplo, seja uma variável aleatória 𝑋
com distribuição normal, 𝑋~𝑁(𝜇, 𝜎), 𝜎 = 𝐷𝑃. A média obtida a partir de uma amostra de tamanho 𝑛
𝜎 𝜎
(𝑋̅) também tem distribuição normal, 𝑋̅~𝑁(𝜇, ); o erro-padrão da média é 𝐸𝑃(𝑋̅) = . Se 𝐷𝑃 =
√𝑛 √𝑛
𝜎 100
𝜎 = 100 e 𝑛 = 100, 𝐸𝑃(𝑋̅) = = = 10, ou seja, neste caso, 𝐸𝑃(𝑋̅) = 10 é 10 vezes menor que
√𝑛 10

𝐷𝑃 = 100. Como será discutido no capítulo 2, um fato intuitivo é que quanto menor o valor de 𝐷𝑃,
menor será 𝑛. Assim, se no cálculo do tamanho da amostra for usado 𝐸𝑃 no lugar de 𝐷𝑃, o tamanho de
amostra (𝑛) será bem menor do que o necessário.

Em Altman e Bland (2005) da série de notas sobre Estatística publicadas no British Medical Journal,
são encontrados alguns comentários sobre 𝐷𝑃 e 𝐸𝑃.
b) Ajuste para desistências

Para os cálculos de tamanho de amostra/poder, deve-se levar em conta que os pacientes elegíveis
podem desaparecer, recusar a participar do estudo ou até mesmo desistir. Além disso, a equipe
responsável pelo estudo pode falhar no registro de pacientes elegíveis. Assim, uma recomendação é
aumentar o tamanho de amostra em 10 a 20%, mas nem sempre isso é possível.

1.3.3 Estudos balanceados e não balanceados

Em geral, há a possibilidade de se planejar estudos balanceados ou não, isto é, grupos com tamanhos de
amostra iguais ou diferentes. O caso balanceado é o mais comum, mesmo porque em geral proporciona
simplificações nos desenvolvimentos do tamanho de amostra, sendo que muitas vezes não é possível ou
é bastante complexo o desenvolvimento para o caso não balanceado. O desbalanceamento pode ocorrer
por diversos motivos, por exemplo, em consequência às desistências dos participantes, e não por
planejamento do estudo.

Um ponto importante é sobre a razão ótima entre o número de pacientes com e sem a condição
estudada. Poder máximo é geralmente atingido tendo igual número de observações nos grupos - quando
há balanceamento - embora isso nem sempre seja possível e ideal e, neste caso, fórmulas apropriadas
devem ser utilizadas. Dependendo da doença investigada, pode ser mais fácil recrutar pacientes com ou
sem a doença. Nessas situações, um planejamento balanceado pode não ser prático. Além disso, nem
sempre um delineamento balanceado é ótimo.

Existem também questões particulares a determinado tipo de planejamento. Por exemplo, Taylor
(1986) discute como o tamanho da amostra, o poder e a eficiência de um teste estatístico estão
relacionados ao número de controles em um estudo caso-controle com emparelhamento.

Nos capítulos seguintes, a grande maioria das fórmulas apresentadas é específica para estudos
balanceados e em alguns casos é incluído o caso mais geral de estudos não balanceados.

1.3.4 Fórmulas fechadas versus solução via simulação

A forma mais tradicional e prática de calcular o tamanho de amostra ou poder do teste é utilizar
fórmulas fechadas. Em situações em que tais fórmulas não existem, métodos de simulação podem ser
utilizados como importante ferramenta geral.
Landau e Stahl (2013) discutem o cálculo do poder e do tamanho de amostra em estudos médicos por
meio de simulação quando expressões fechadas não são disponíveis. Exemplificam com três situações
práticas bastante importantes: estudos longitudinais quando há desistências; estudos observacionais
com erros de medição; ensaios clínicos aleatorizados para estimativa de efeito causal quando
não há conformidade.

1.3.5 Minimização do tamanho de amostra

Beam (1992) ressalta que quando dois testes diagnósticos são comparados, se for adotado o
delineamento pareado no qual cada paciente é submetido aos dois testes, o poder dos testes estatísticos
é sempre superior ou igual ao não pareado (amostras independentes) e que o poder para hipóteses
unilaterais é sempre maior do que o de bilaterais. Naturalmente, quanto mais poder, maior a
possibilidade de redução do tamanho de amostra.

Browner et al. (2015) listam várias estratégias para minimizar o tamanho de amostra e maximizar o
poder. Uma delas é usar medidas contínuas em vez de adotar categorias. É muito comum expressar o
resultado do diagnóstico de doenças em termos binários (por exemplo, alternado ou normal; tipo de
lesão classificada como pequena ou grande, etc.). Para tamanho fixo de amostra, a utilização da medida
real em vez da proporção referente à categoria produz aumento de poder. Isso acontece porque, para o
mesmo tamanho da amostra, testes estatísticos que incorporam a utilização de valores contínuos são
mais poderosos do que os que utilizam proporções. Outra estratégia para minimizar o tamanho da
amostra é utilizar medidas mais precisas e esquemas de dados pareados, como já comentado no
parágrafo anterior.

1.3.6 Como aumentar o tamanho da amostra de forma a atingir o poder desejado

Frequentemente os resultados de estudos isolados não são decisivos porque cada estudo inclui poucos
pacientes ou escassos eventos clínicos. Consequentemente, as estimativas de medidas de interesse
(média, proporção, risco relativo, razão de chances, etc.) desses estudos são instáveis e há risco
acentuado de se obter “resultado negativo” associado ao erro do tipo II - a não identificação de
diferença realmente existente. Uma possível solução consiste na agregação de resultados de vários
estudos, procedimento conhecido como estudo multicêntrico, geralmente cada um com pequeno
tamanho de amostra, para formar um estudo com grande tamanho de amostra. A contribuição de cada
estudo pode ser ponderada de acordo com seu tamanho. A vantagem é que esse procedimento pode
resultar em poder estatístico adequado para detectar diferenças significativas se elas existem.
É particularmente útil quando a doença e/ou os resultados dos eventos de interesse são raros.
O planejamento de um estudo multicêntrico exige cuidados especiais, como a uniformização de
protocolos e de condutas.

1.3.7 Estratégia quando há mais de um desfecho primário

Se houver mais de um desfecho e um deles for considerado mais importante do que os outros, ele pode
servir como base para o cálculo do tamanho de amostra. Um problema surge quando existem vários
desfechos considerados igualmente importantes. Estratégia comumente adotada é repetir os cálculos do
tamanho da amostra para cada desfecho, um de cada vez, e em seguida selecionar o maior número
como o tamanho da amostra necessário para responder a todas as perguntas de interesse.

1.3.8 Situações mais complexas (métodos multivariados)

Em procedimentos mais simples, determina-se o tamanho de amostra adequado baseando-se apenas em


uma variável de destaque no estudo, o que não garante que seja suficiente para as outras variáveis
também de interesse. Em alguns casos pode ser necessária a incorporação de mais variáveis
explicativas, levando à utilização de métodos mais sofisticados e complexos, como métodos
multivariados. Esse problema aparece, por exemplo, quando os dados são coletados por meio de
questionário composto de muitos itens ou quando várias covariáveis são consideradas em uma
análise multivariada.

Os dados de muitos estudos são coletados por meio de questionários e uma pergunta frequente que
surge é sobre o número de questionários (portanto, o número de participantes, ou seja, o tamanho de
amostra do estudo) necessários para garantir a precisão desejada. Alguns comentários sobre quantos
questionários são suficientes estão disponíveis em https://intentionalmuseum.com/2016/02/24/sample-
size-how-many-questionnaires-is-enough/. Na literatura não há muito material sobre a determinação do
tamanho da amostra nesse contexto, portanto, sendo necessário fazer algumas adaptações da
metodologia, mas isso não será tratado neste texto.

Cohen (1988) dedica um capítulo a métodos multivariados e Ryan (2013) apresenta alguns comentários
e referências sobre o assunto. No software Pass® há alguns métodos de cálculo de tamanho de amostra
para métodos multivariados.
1.3.9 Cálculo do poder post hoc

O cálculo do poder é sabidamente útil no planejamento de estudos. Há vasta literatura e até mesmo um
costume difundido entre pesquisadores de, no final do estudo, fazer o cálculo do poder referente ao
tamanho de amostra do estudo. Assim, o cálculo do poder é feito depois que os dados forem coletados e
analisados. Em outras palavras, se o estudo já foi realizado, alternativamente pode-se calcular o poder
associado ao tamanho de amostra considerado. Os cálculos de poder post hoc são em geral feitos
quando os resultados não são significantes. Naturalmente, o grau de dificuldade encontrado é
exatamente o mesmo nos dois procedimentos: fixar o tamanho da amostra e determinar o poder ou
dimensionar a amostra de forma a obter determinado poder. O ponto principal é se o cálculo do poder
a posteriori faz sentido. Vários autores argumentam que não!

Hoenig e Hensey publicaram, em 2001, um artigo com um curioso título cuja tradução é “O abuso de
poder: a falácia generalizada de cálculos de poder para análise de dados”. Os autores apresentam vários
argumentos, mostrando que a abordagem de cálculo de poder post hoc é falha. A proposta deles é a
utilização da equivalência de testes de hipótese e intervalo de confiança.

Walters (2009) debate sobre a polêmica questão do poder post hoc, não aprovando tal abordagem.
O método alternativo mais interessante e recomendado por ele e outros autores, como no site pessoal de
Lenth (2001) e Hoenig e Heisey (2001) é utilizar intervalos de confiança.

1.3.10 Arredondamento e precisão utilizados nos cálculos

Na regra básica de arredondamento, os dígitos excedentes devem ser descartados se o último deles é
menor que cinco e, caso contrário, o último dígito retido é acrescido de um. Por exemplo, se os dados
forem anotados como 87,72; 90,58 e 98,04, então os arredondamentos para apenas uma casa decimal
serão, respectivamente, 87,7; 90,6 e 98,0. Já em dimensionamento de amostra, a convenção é sempre
arredondar o valor obtido para cima, isto é, o inteiro imediatamente superior, e não usar a regra básica
de arredondamento. Por exemplo, se o cálculo do tamanho de amostra fornece o valor 652,33, deve-se
arredondar para 653. Para os números citados anteriormente (87,72; 90,58 e 98,04), o arredondamento
para cima resulta em 88, 91 e 99.

Algumas fórmulas são bastante sensíveis à precisão dos dados, isto é, número de casas decimais
utilizado nos cálculos. Esse fato será demonstrado no capítulo 11 para dimensionamento de amostra
pelo método não paramétrico para dados ordinais (exemplo 6.6 do capítulo 6).
1.3.11 Indicação das fórmulas de tamanho da amostra

Nas fórmulas de tamanho de amostra, é sempre correto escrever 𝑛 ≥ ⋯ em vez de 𝑛 = ⋯ (ou seja, usar
o sinal de ≥ no lugar do sinal de igualdade depois de 𝑛), já que um valor superior certamente atenderá
ao critério estabelecido - um tamanho de amostra maior sempre atende às condições preestabelecidas.
Essa duplicidade de indicação nas fórmulas aparece em artigos, livros e textos sobre o assunto.
Entretanto, por uniformidade, neste texto será utilizado apenas o sinal de igualdade.

1.4 Considerações adicionais

A equipe de pesquisadores deve ter domínio dos procedimentos de identificação e recrutamento dos
indivíduos que deverão participar do estudo, das técnicas de medidas ou variáveis em geral, da análise
dos dados, além da forma de apresentar e divulgar os resultados. A obtenção da amostra é uma questão
central, já que, além de garantir boa representatividade da população, a quantidade de elementos
amostrados é essencial para o poder de generalização das conclusões.

A boa interação entre profissionais das áreas de Estatística e do estudo considerado é de extrema
importância, desde o planejamento da pesquisa, incluindo o tamanho da amostra, até a análise e
interpretação dos resultados dos métodos aplicados. Assim, um aspecto importante é que o responsável
pelos cálculos, especialmente se for da área da Estatística, tenha pelo menos conhecimentos básicos da
área da pesquisa e que se envolva o máximo possível com a equipe que vai conduzir o estudo e não se
ater apenas aos aspectos técnicos/estatísticos.

Antes de iniciar o estudo, além do importante problema de determinar qual o tamanho de amostra que
garanta suficiente poder de teste para o nível de confiança desejado, deve-se sondar se há condições
que permitam a realização da pesquisa, como, por exemplo, se o tempo a ser gasto para incorporar o
número necessário de pacientes é viável, além do custo e outros fatores para a execução do estudo.
O planejamento de um estudo, e em particular o dimensionamento adequado de amostras, apresenta
ainda outras características que devem ser mencionadas e que serão comentadas a seguir.

Não realizar estudos sem capacidade de detectar potenciais diferenças entre os grupos pode ser melhor
do que publicar resultados “negativos”, que não indicam diferença dos grupos, por questões ligadas ao
planejamento e aos métodos estatísticos. Um dos problemas que podem acompanhar a não detecção de
diferença significativa em um estudo é o tamanho de amostra insuficiente. Freiman et al. publicaram,
em 1978, importante trabalho sobre a influência do pequeno tamanho dos grupos de ensaios clínicos
“negativos”. Em cada uma das 71 publicações revisadas, todas com variável discreta como desfecho
principal (redução de mortalidade ou do número de pacientes com complicações, por exemplo),
fixando-se o nível de significância em 5% (𝛼 = 0,05), estudou-se a probabilidade de erro tipo II (𝛽)
resultante. Considerando clinicamente importante uma redução de 25% em relação ao controle,
somente quatro ensaios (5,63%) possuíam tamanho que garantia poder de pelo menos 90%
(𝛽 ≤ 0,10), o padrão de ensaios clínicos. Concluíram que, mais do que a ausência de diferença entre os
grupos, existia a incapacidade de detectá-la.

A aplicação das diversas fórmulas e tabelas desenvolvidas para o dimensionamento de amostras em


situações complexas deve ser criteriosa, já que muitas vezes sua utilização direta pode ser controversa
(KUPPER e HAFNER, 1989). Deve ficar claro que as fórmulas não são receitas mágicas.
Sua utilização deve ser precedida de estudo cauteloso do problema para permitir a escolha do melhor
meio de cálculo. De forma geral, essas fórmulas são desenvolvidas para amostragem aleatória simples.
Para manter a precisão definida, o tamanho da amostra deverá ser reavaliado a partir do design effect,
termo que designa a razão entre a variância obtida com os diversos métodos de amostragem e a
variância com amostragem aleatória simples. Assim, para um design effect estimado em dois, o
tamanho da amostra deveria ser duplicado. Mais detalhes e referências sobre esse assunto serão
fornecidos no capítulo 4.

Caso ocorra interrupção precoce, o poder do estudo também pode ser avaliado. Em ensaios clínicos, o
compromisso ético determina a necessidade de se testar periodicamente as hipóteses de interesse para
se interromper o estudo se for constatada ineficácia da nova terapia, sua superioridade ou efeitos
adversos claramente superiores. Este é um dos princípios básicos de estudos sequenciais. Como já
comentado, se o tamanho da amostra não for adequado, pode ter como consequência a não detecção de
eventuais diferenças dos tratamentos. O recomendado é não finalizar o estudo enquanto não se tenha
alcançado um número de indivíduos que garanta poder de teste suficiente.

A possibilidade de se incorporar a estrutura dos dados ao cálculo do tamanho de amostra, por exemplo,
se as amostras serão independentes ou pareadas, é de vital importância. Também se deve ter em mente
que a característica e o tipo da variável de interesse, o tipo de estudo, além do método de amostragem
adotado, interferem no dimensionamento de amostra.
1.5 Leitura recomendada

Neste capítulo foi apresentada uma compilação dos principais conceitos gerais ligados ao tema de
tamanho de amostra e poder de teste. Comentários adicionais e mais detalhes podem ser obtidos nos
dois primeiros capítulos de Chow et al. (2008) e especialmente no primeiro capítulo da tese de Tracy
(2009), disponível na Internet. Além disso, no quadro 1.3 são citados vários textos, alguns até com
títulos curiosos. Alguns tópicos resumidos anteriormente foram parcialmente extraídos destes textos,
mas a leitura completa e cuidadosa é fortemente recomendada.

Quadro 1.3 – Textos selecionados sobre tamanho de amostras e poder de teste


 BLAND, J.M. Some problems with sample size. Conferência proferida pelo Professor Martin
Bland no evento “Joint Meeting of the Dutch Pathological Society and the Pathological Society
of Great Britain & Ireland”, Leeds, July 4th, 2008. Disponível em: https://www-
users.york.ac.uk/~mb55/talks/pathsamp.pdf.
 BLAND, J. M. The tyranny of power: is there a better way to calculate sample size? British Medical
Journal, v. 339, p. b3985, 2009.
 LIU, G.; SNAVELY, D. Power and sample size considerations in clinical trials: a simple review for
practical clinical researchers. Bio/Pharma Quartly Journal, v. 9, n. 2, 2003.
 HOENIG, J. M.; HENSEY, D. M. The abuse of power: the pervasive fallacy of power calculation for
data analysis. The American Statistician, v. 55, n. 1, p. 19-24, 2001.
 LANDAU, S.; STAHL, D. Sample size and power calculations for medical studies by simulation when
closed form expressions are not available. Statistical Methods Medical Research, v. 22, n. 3, p. 324,
2013.
 LENTH, R.V. Some practical guidelines for effective sample size determination. The American
Statistician, v. 55, n. 3, p. 187-193, 2001.
 SCHULZ K. F.; GRIMES, D. A. Sample size calculations in randomised trials: mandatory and
mystical. Lancet, v. 365, p. 1348-53, 2005.
 WALTERS, S. J. Consultants’ forum: should post hoc sample size calculations be done?
Pharmaceutical Statistics, v. 8, n. 2, p. 163-169, 2009.

1.6 Notação utilizada no texto

Houve tentativa de unificação de notação nos capítulos seguintes, embora nem sempre tenha sido
completamente possível. A notação básica está listada a seguir para evitar alguma dúvida ou no caso de
eventual omissão:

1. 𝑛 designa o tamanho de amostra. Em vários casos, houve a introdução de índices para distinguir a
situação e/ou o método considerado.

2. 𝛼 e 𝛽 designam, respectivamente, as probabilidades do erro do tipo I e tipo II.


3. 𝑧1−𝛼/2 e 𝑧1−𝛼 designam os percentis da distribuição normal padrão que correspondem a nível de
confiança de (1 − 𝛼), respectivamente, para hipóteses bilateral e unilateral.

4. 𝑧1−𝛽 designa o percentil da distribuição normal padrão correspondendo ao poder de (1 − 𝛽).

5. 𝑡𝑣;1−𝛼/2 e 𝑡𝑣;1−𝛼 designam os percentis da distribuição 𝑡 de Student que correspondem a nível


de confiança de (1 − 𝛼), respectivamente, para hipóteses bilateral e unilateral, sendo 𝑣 os
graus de liberdade.

1.7 Resumo do capítulo

Nos quadros 1.4 a 1.7 apresentam-se resumos, incluindo as principais ideias sobre dimensionamento de
amostras, os cuidados ao se utilizar uma fórmula e/ou comparar métodos, erros comuns que devem ser
evitados e recomendações no processo de dimensionamento de amostras.

Quadro 1.4 - Principais ideias sobre dimensionamento de amostras


 Idealmente, o cálculo do tamanho da amostra deve começar bem no início do estudo, uma atividade em
conjunto com a equipe da pesquisa.
 Os métodos de dimensionamento de amostra devem ser específicos a cada tipo de dados e esquema
amostral. Sempre que possível, deve-se fazer o cálculo para o tipo de análise estatística que deverá ser
realizada posteriormente.
 Enfoques para o dimensionamento de amostras: estimação de parâmetros ou testes de hipóteses sobre
eles.
 Os métodos de cálculo podem ser: o método frequentista (o adotado no texto), o método bootstrap e o
método bayesiano, entre outros.
 Os elementos essenciais para o dimensionamento de amostras são: fixar o nível de confiança e o
tamanho mínimo do efeito que se quer detectar; no enfoque de testes de hipóteses, acrescentar o poder
estatístico do teste desejado.
 Para o dimensionamento da amostra, é aceitável fazer certas simplificações (por exemplo, inicialmente
fazer os cálculos apenas para a variável considerada mais importante). Posteriormente, o tamanho da
amostra deve ser ajustado por alguns fatores, tais como desistências e covariáveis, a fim de obter um
número suficiente de indivíduos tal que a avaliação estatística seja válida.
 Frequentemente, a forma padrão para a determinação do tamanho de amostra é por meio de fórmulas
fechadas, aproximadas ou não. Às vezes processos iterativos são necessários ou ainda as soluções
podem ser obtidas por simulações.
 Na prática, há dificuldades na aplicação das fórmulas de tamanho de amostra, já que os valores
populacionais que aparecem nas fórmulas são desconhecidos. A estratégia é pesquisar fontes de
estudos anteriores realizados em populações e condições semelhantes, estudos-pilotos e análise de
sensibilidade, que consiste em variar os parâmetros e/ou termos envolvidos nas fórmulas entre um
leque de valores plausíveis, e então determinar o tamanho que seja viável na prática.
 Quando o tamanho de amostra não for suficiente, pode haver falha na detecção de efeitos significativos
e/ou associações entre fatores, quando realmente existirem. Por outro lado, um número desnecessário
de elementos na amostra não é considerado um procedimento ético, além de aumento de custos. Assim,
procura-se assegurar que haja um número suficiente de participantes no estudo para garantir conclusões
confiáveis.
 Para prevenção de perdas, desistências e dados faltantes, uma recomendação é aumentar o tamanho de
amostra (𝑛) por uma quantidade prevista de perdas; se não houver informação, sugere-se aumentar 𝑛
em 10 a 20%, se for possível.
 Cálculos de poder post hoc, uma prática comum, embora polêmica, devem ser evitados ou pelo menos
interpretados cuidadosamente. O método alternativo de utilizar o intervalo de confiança é mais
recomendado por vários autores.
 O tamanho de amostra pode ser aumentado por meio de estudos multicêntricos, cujo planejamento
exige cuidados especiais, como a uniformização de protocolos e de condutas.
 Quando o delineamento for pareado, o poder é sempre superior ou igual ao não pareado, isto é,
amostras independentes.
 O poder (𝑃) correspondente a hipóteses unilaterais (𝑈𝑛𝑖) é sempre maior ou igual do que o de
hipóteses bilaterais (𝐵𝑖): 𝑃𝑈𝑛𝑖 ≥ 𝑃𝐵𝑖 . Já para o tamanho de amostra (𝑛) é o contrário, tipicamente
𝑛𝐵𝑖 ≥ 𝑛𝑈𝑛𝑖 .
 As estratégias para minimizar o tamanho de amostra incluem utilizar: a) variáveis contínuas como
desfecho em vez de torná-las categóricas; b) medidas mais precisas; c) esquema de pareamento.
 A convenção é sempre arredondar o valor obtido para cima, isto é, o inteiro imediatamente superior,
e não usar a regra básica de arredondamento.

Quadro 1.5 - Cuidados ao se utilizar uma fórmula e/ou comparar métodos


 Verificar se o cálculo refere-se: a) ao tamanho de amostra total ou por grupo; b) a hipóteses uni ou
bilaterais; c) a método assintótico ou exato.
 Verificar se os pressupostos do método aplicado estão validados para a situação considerada.
 Se for o caso, investigar qual aproximação foi utilizada e se é aplicável à situação considerada.

Quadro 1.6 - Erros comuns que devem ser evitados


 Planejar o tamanho da amostra tarde demais durante o delineamento do estudo ou, mais sério ainda,
durante a execução do estudo. O ideal é que seja feito o mais cedo possível para que, se necessário,
possíveis alterações possam ser viáveis.
 Planejar o tamanho da amostra para o tipo de dados não correspondente ao do estudo, lembrando que
se o interesse for avaliar porcentagem ou taxas, a variável analisada é dicotômica.
 Várias fórmulas são desenvolvidas para o caso de amostras aleatórias simples (AAS). Quando os dados
forem organizados em conglomerados, não é apropriado utilizar as fórmulas para AAS, devendo-se ter
o cuidado de levar em conta o fator produzido pelo conglomerado.

 É errôneo pensar que quanto maior for o tamanho da população (𝑁), maior terá que ser o tamanho da
amostra (𝑛). As fórmulas mostram que a relação de 𝑛 em função de 𝑁 é crescente, mas se estabiliza
à medida que 𝑁 aumenta. Em outras palavras, para se ter uma amostra representativa, não
necessariamente se deve tomar determinado percentual do tamanho da população.

Quadro 1.7 - Recomendações no processo de dimensionamento de amostras


 Estar sempre preparado para possíveis abandonos (dropouts) e para casos com dados faltantes
(missing data).
 Como a maioria das fórmulas é desenvolvida para o caso de grupos com iguais tamanhos, se este não
for o caso, deve-se procurar a forma de cálculo apropriada.
2.1 Introdução

Este capítulo é sobre a determinação do tamanho da amostra em estudos envolvendo médias para uma,
duas ou várias amostras. No caso de duas amostras, são considerados grupos paralelos ou não.
Entende-se por planejamento de grupos em paralelo o caso em que as amostras são independentes. Não
sendo independentes, as amostras podem ser, por exemplo, pareadas.

Para o dimensionamento de amostra, considera-se o enfoque de estimação e o de teste de hipóteses. Em


muitos casos, a variável resposta é supostamente normal. Avalia-se o impacto do conhecimento ou não
da variância, da igualdade entre as variâncias (homocedasticidade) e do balanceamento dos grupos, isto
é, se os tamanhos da amostra dos grupos são iguais.

O caso de várias médias é analisado pelo modelo de análise de variância (ANOVA) com apenas um
fator. Para o dimensionamento de amostras utilizam-se comparações pareadas e simultâneas.

2.2 Tamanho de amostra para estimação e testes de hipóteses para uma média para
variáveis com distribuição normal

Nesta seção considera-se o dimensionamento para médias no caso de uma amostra. Um exemplo típico
é o estudo clínico com único braço, no qual a intervenção é aplicada a um grupo de participantes do
estudo. Supõe-se que a variável de interesse 𝑋 tenha distribuição normal com média 𝜇 e variância 𝜎 2 .
2.2.1 Estimação de uma média no caso em que a variância é conhecida

Para uma amostra de tamanho 𝑛, um intervalo aproximado com (1 − 𝛼)100% de confiança é dado por
(𝑥̅ − 𝑧1−𝛼/2 𝜎/√𝑛; 𝑥̅ + 𝑧1−𝛼/2 𝜎/√𝑛), sendo 𝑥̅ a média amostral e 𝑧1−𝛼/2 o percentil de ordem
(1 − 𝛼/2)100% da normal padrão.

Especificando que o máximo comprimento do intervalo de confiança (IC) permitido seja, por exemplo,
2𝐷, resulta que 𝐷 = 𝑧1−𝛼/2 𝜎/√𝑛. O tamanho de amostra (𝑛) é o que satisfaz a equação apresentada e
é dado por:

𝑧1−𝛼/2 𝜎 2 (𝑧1−𝛼/2 )2 𝜎 2
𝑛=( ) = (2.1)
𝐷 𝐷2

Nota-se que à medida que o nível de significância diminui e a variância aumenta, 𝑛 aumenta, mas sua
relação com 𝐷 é inversa, já que este termo aparece no denominador, ou seja, quanto menor for 𝐷,
maior deverá ser o valor de 𝑛, o que é intuitivo.

Exemplo 2.1 - Tamanho de amostra para a estimação de uma média no caso em que a variância
é conhecida ╬╬

Suponha-se que a variável aleatória nível da hemoglobina (𝑋) em mulheres jovens com determinada
faixa etária gozando de boa saúde tenha distribuição normal com desvio-padrão de 1 g/dL. A questão é
a determinação do tamanho de amostra necessário para realizar um estudo que tenha como objetivo
estimar a média de 𝑋, fixando-se o nível de significância em 5% e o comprimento do IC em 0,4, ou
1
seja, 𝐷 = 0,2. Pela fórmula (2.1), 𝑛 = (1,96)2 × (0,2)2 = 96,04. Assim, deverão ser recrutadas

97 mulheres.

Para grupos de mulheres com outras características, por exemplo, com diagnóstico de determinada
doença e/ou em outras faixas etárias, espera-se que a variabilidade seja superior e, consequentemente,
também o tamanho de amostra vai aumentar. A Tabela 2.1 ilustra algumas possibilidades, mantendo-se
constante o valor de 𝐷.
Tabela 2.1 - Cálculo de tamanho de amostra (𝑛), utilizando a fórmula (2.1), para
estimação de uma média (𝜇) no caso em que a variância (𝜎 2 ) é conhecida

𝜎 2 (g/dL)2 𝜎 (g/dL) 𝑛
1 1 97
2,25 1,5 217
4 2 385
6,25 2,5 601
9 3 865
Nota: nível de significância = 5%; 𝐷 = 0,2.

Por exemplo, tomando-se por referência o grupo de menor variabilidade (𝜎 = 1), quando o desvio-
padrão dobra (𝜎 = 2), o tamanho da amostra torna-se praticamente quatro vezes maior (385/97=3,97);
se o desvio-padrão é o triplo do valor inicial, o tamanho de amostra correspondente aumenta quase
nove vezes (865/97=8,92).

2.2.2 Teste para uma média no caso em que a variância é conhecida

As hipóteses de interesse são 𝐻0 : 𝜇 = 𝜇0 e 𝐻1 : 𝜇 ≠ 𝜇0 , sendo 𝜇0 o valor preestabelecido ou um valor


de referência. Supostamente, as variâncias sob 𝐻0 e 𝐻1 são iguais (𝜎 2 ). Fixando-se o nível de
significância em 𝛼 e o poder do teste em (1 − 𝛽), o tamanho da amostra é:

2
(𝑧1−𝛼/2 + 𝑧1−𝛽 ) 𝜎 2
𝑛= (2.2)
(𝜇 − 𝜇0 )2

Pela fórmula (2.2) percebe-se claramente que há relação de aumento do tamanho da amostra (𝑛) à
medida que o valor da variância (𝜎 2 ) cresce. Isso é importante especialmente se durante a execução do
estudo houver suspeita de que a variância que está sendo encontrada na amostra é superior àquela
utilizada no cálculo de 𝑛. Além disso, ao fixar menor erro do tipo I (nível de significância 𝛼) e maior
poder (1 − 𝛽), há necessidade de aumentar 𝑛. Por outro lado, quanto menor a diferença esperada entre
a média 𝜇 e o valor de referência 𝜇0 (𝜇 − 𝜇0 ), maior deverá ser 𝑛.

Para testar hipóteses unilaterais, por exemplo, 𝐻0 : 𝜇 = 𝜇0 e 𝐻1 : 𝜇 > 𝜇0 , basta substituir 𝑧1−𝛼/2 por
𝑧1−𝛼 , o percentil de ordem (1 − 𝛼)100% da normal padrão, ou seja, o tamanho da amostra é
2
(𝑧1−𝛼 +𝑧1−𝛽 ) 𝜎2
𝑛= . Ryan (2013) apresenta apenas a fórmula para o caso unilateral e discute a validade
(𝜇−𝜇0 )2
do cálculo do poder no caso de hipóteses bilaterais, o que não chega a ser unanimidade na literatura.

Exemplo 2.2 - Tamanho de amostra para teste de uma média no caso em que a variância
é conhecida ╬╬

Em estudo sobre a influência de drogas bloqueadoras do canal de cálcio na frequência cardíaca de


pacientes com angina instável, quer-se identificar mudanças de pelo menos cinco batidas por minuto
nessa medida. Utilizando a fórmula (2.2) para 𝜎 2 = 102 = 100, poder = 0,90 e 𝛼 = 0,05, obtém-se
𝑛 = 43. Alterando-se a variância para 152 = 225, o novo tamanho da amostra será 95.
As demonstrações dos cálculos estão apresentadas no Quadro 2.1.

Quadro 2.1 - Cálculos para o tamanho de amostra utilizando a fórmula (2.2)

𝜎2 Tamanho de amostra (𝑛)

2
2 (𝑧1−𝛼/2 + 𝑧1−𝛽 ) 𝜎 2 (1,96 + 1,2816)2 100
10 = 100 𝑛= = = 42,03 ≅ 43
(𝜇 − 𝜇0 )2 52

2
2 (𝑧1−𝛼/2 + 𝑧1−𝛽 ) 𝜎 2 (1,96 + 1,2816)2 225
15 = 225 𝑛= = = 94,57 ≅ 95
(𝜇 − 𝜇0 )2 52

2.2.3 Teste para uma média no caso em que a variância é desconhecida

Para testar as hipóteses 𝐻0 : 𝜇 = 𝜇0 e 𝐻1 : 𝜇 > 𝜇0 , sendo 𝜇0 o valor preestabelecido ou um valor de


referência, mas agora com a variância desconhecida, deve-se usar o teste 𝑡. Os primeiros trabalhos
sobre a determinação do tamanho da amostra para testes 𝑡 incluem Guenther (1981).

Na fórmula (2.2) deve-se substituir a variância teórica (𝜎 2 ) pela variância amostral (𝜎̂ 2 ) e os percentis
da normal padrão pelos da distribuição 𝑡 de Student. Fixando-se o nível de significância em 𝛼 e o poder
do teste em (1 − 𝛽), a fórmula para o tamanho da amostra fica então:

(𝑡1−𝛼,𝑛−1 + 𝑡1−𝛽,𝑛−1 )2 𝜎̂ 2
𝑛= (2.3)
(𝜇 − 𝜇0 )2

Embora aparentemente seja uma fórmula simples, a solução de (2.3), 𝑛, deve ser resolvida de forma
iterativa, já que os percentis da distribuição 𝑡 são função de 𝑛. Para hipóteses bilaterais, basta substituir
(𝑡1−𝛼/2,𝑛−1 +𝑡1−𝛽,𝑛−1 )2 𝜎
̂2
𝑡1−𝛼,𝑛−1 por 𝑡1−𝛼/2,𝑛−1 , neste caso, a fórmula (2.3) torna-se 𝑛 = .
(𝜇−𝜇0 )2

Exemplo 2.3 - Tamanho de amostra para teste de uma média no caso em que a variância
é desconhecida

Para ilustrar a utilização da fórmula (2.3), vamos considerar poder de 80%, 𝛼 = 0,05, 𝜇 = 52,
𝜇0 = 50, 𝜎̂ = 3 e hipótese unilateral. Assumindo que o desvio-padrão seja conhecido (𝜎 = 3),
utilizando-se a fórmula (2.2) para hipótese unilateral (substituir 𝑧1−𝛼/2 por 𝑧1−𝛼 ), obtém-se
2
(𝑧1−𝛼 +𝑧1−𝛽 ) 𝜎2 (1,64+0,84)2 32
𝑛= = = 13,84, ou seja, 𝑛 = 14 participantes do estudo devem ser
(𝜇−𝜇0 )2 (52−50)2

recrutados. Espera-se ligeiro aumento de 𝑛 como resultado do desconhecimento do desvio-padrão.


Como a solução de (2.3) é um pouco trabalhosa, apresenta-se o resultado do método em que a variância
é desconhecida, obtido pelo software Pass®14: 𝑛 = 16, que corresponde ao poder de 81,557%; para
𝑛 = 15, o poder é de 79,083%.

2.3 Tamanho de amostra para estimação e testes de hipóteses para duas médias no
caso de amostras independentes

Assim como na seção para uma amostra (seção 2.2), nesta será considerado o dimensionamento para
duas amostras no contexto de estimação e testes de hipóteses.

Sejam 𝑋1 e 𝑋2 as variáveis de interesse referentes aos grupos 1 e 2, cujas médias são 𝜇1 e 𝜇2 e suas
variâncias são 𝜎12 e 𝜎22 , respectivamente. As seções a seguir mostram formas de determinação do
tamanho de amostra dos dois grupos: 𝑛1 e 𝑛2 .

2.3.1 Estimação da diferença de duas médias

A diferença entre as médias de duas populações independentes 𝜇1 − 𝜇2 é estimada pela diferença das
médias amostrais 𝑥̅1 − 𝑥̅2 . Lembrando que a variância do estimador da diferença das médias (𝑋̅1 − 𝑋̅2 )
é 𝑉𝑎𝑟(𝑋̅1 − 𝑋̅2 ) = 𝑉𝑎𝑟(𝑋̅1 ) + 𝑉𝑎𝑟(𝑋̅2 ) = 𝜎12 /𝑛1 + 𝜎22 /𝑛2 e assumindo homocedasticidade
(𝜎12 = 𝜎22 = 𝜎 2 ), 𝑉𝑎𝑟(𝑋̅1 − 𝑋̅2 ) = 𝜎 2 /𝑛1 + 𝜎 2 /𝑛2 = 𝜎 2 (1/𝑛1 + 1/𝑛2 ). Além disso, se os grupos têm
tamanhos iguais (𝑛1 = 𝑛2 = 𝑛), 𝑉𝑎𝑟(𝑋̅1 − 𝑋̅2 ) = 2𝜎 2 /𝑛.
O desvio da estimativa de 𝜇1 − 𝜇2 em relação ao valor verdadeiro em ambas as direções é dado por
𝐷 = 𝑧1−𝛼/2 √2𝜎 2 /𝑛. Alternativamente, 𝐷 pode ser pensado como a diferença mínima a ser detectada.
Assim, o tamanho da amostra para as situações em que se quer estimar as médias nos dois grupos
estudados é:

(𝑧1−𝛼/2 )2 (2𝜎 2 )
𝑛= (2.4)
𝐷2

Exemplo 2.4 - Tamanho de amostra para estimação da diferença de duas médias no caso em que
a variância é conhecida ╬╬

Estudando-se o tempo médio de cicatrização de feridas não contaminadas em indivíduos sadios e em


desnutridos encontrou-se que o desvio-padrão foi de sete dias em ambos os grupos (𝜎 = 7). Pela
fórmula (2.4), o número de elementos em cada grupo para se realizar novo estudo considerando-se a
diferença mínima que se quer detectar de 1 (𝐷 = 1) e o nível de significância de 1% (𝛼 = 0,01) será
de 653. Se 𝐷 = 3, 𝑛 cai para 73. Os cálculos estão demonstrados no Quadro 2.2.

Quadro 2.2 - Cálculos para o tamanho de amostra utilizando a fórmula (2.4)

𝐷 Tamanho de amostra (𝑛)

𝑧1−𝛼/2 2 (2𝜎 2 ) 2,582 (2 × 72 )


1 𝑛= = = 652,33 ≅ 653
𝐷2 12

3 𝑧1−𝛼/2 2 (2𝜎 2 ) 2,582 (2 × 72 )


𝑛= = = 72,48 ≅ 73
𝐷2 32

2.3.2 Teste para a diferença de duas médias para três casos, dependendo se as variâncias e
tamanhos de amostras são ou não iguais

Para os casos discutidos a seguir, supõe-se que a variável analisada siga a distribuição normal. De
forma esquemática, para os dois grupos (1 e 2), 𝑋1𝑗 ~𝑁(𝜇1 , 𝜎12 ), 𝑗 = 1, ⋯ , 𝑛1 e 𝑋2𝑗 ~𝑁(𝜇2 , 𝜎22 ),
𝑗 = 1, ⋯ , 𝑛2 .

Para testar as hipóteses 𝐻0 : 𝜇1 = 𝜇2 versus 𝐻1 : 𝜇1 ≠ 𝜇2 , são considerados três casos que podem
acontecer na prática: variâncias e tamanhos iguais, variâncias iguais, mas grupos com tamanhos
desiguais e variâncias e tamanhos desiguais.

Estipula-se que a razão entre os tamanhos de amostras dos dois grupos seja 𝛾 = 𝑛2 /𝑛1 . Assim, o
problema consiste em calcular o tamanho de amostra do grupo 1 (𝑛1 ), já que o do grupo 2 está
determinado a partir do primeiro: 𝑛2 = 𝛾𝑛1 .

1º caso: variâncias e tamanhos iguais (𝝈𝟐𝟏 = 𝝈𝟐𝟐 = 𝝈𝟐 e 𝒏𝟏 = 𝒏𝟐 = 𝒏), variância (𝝈𝟐 ) conhecida

Para testar as seguintes hipóteses bilaterais (𝐻0 : 𝜇1 = 𝜇2 e 𝐻1 : 𝜇1 ≠ 𝜇2 ), quando as variâncias dos


dois grupos são iguais, a variância para a distribuição amostral de (𝑋̅1 − 𝑋̅2) é 𝑉𝑎𝑟(𝑋̅1 − 𝑋̅2 ) = 2𝜎 2 /𝑛,
sendo 𝜎 obtido a partir de informação da literatura ou de estudos-pilotos. Supondo que a variância σ2
𝑋̅1 −𝑋̅2
seja conhecida, pode-se utilizar o teste Z, cuja estatística é 𝑍 = e que sob 𝐻0 tem distribuição
√2𝜎2 /𝑛

normal padrão.

A fórmula para cálculo do tamanho de amostra para cada um dos dois grupos (𝑛1 = 𝑛2 = 𝑛, portanto,
o tamanho de amostra total é 2𝑛) e que incorpora o nível de significância (𝛼) e o poder do teste
(1 − 𝛽), além da diferença mínima das médias que se quer detectar (𝐷), é dada por:

2
2𝜎 2 (𝑧1−𝛼/2 + 𝑧1−𝛽 ) (2.5)
𝑛=
𝐷2

Exemplo 2.5 - Tamanho de amostra com o enfoque de teste para diferença de duas médias
no caso de variâncias e tamanhos iguais ╬╬

Para verificar-se a existência de diferença no tempo médio de permanência na instituição entre dois
grupos submetidos à cirurgia abdominal eletiva e não eletiva, é necessário calcular os tamanhos de
amostras necessários para detectar diferença mínima de dois dias entre os grupos (𝐷 = 2) para nível de
significância de 5% (𝛼 = 0,05) e poder igual a 0,90 e 0,80. Sabendo-se que o desvio-padrão do tempo
de permanência no hospital é idêntico nos dois grupos e que seu valor é igual a quatro dias (𝜎 = 4),
utilizando-se a fórmula (2.5), obtêm-se 85 e 63, respectivamente.

Se fosse utilizada a fórmula (2.4), que não leva em consideração o poder do teste, mantendo 𝛼 = 0,05,
o tamanho de amostra seria 31, muito inferior aos valores obtidos a partir de (2.5). Para 𝛼 = 0,01 e
𝛼 = 0,10, os tamanhos de amostra são 54 e 22, respectivamente.

2º caso: variâncias iguais e tamanhos desiguais (𝝈𝟐𝟏 = 𝝈𝟐𝟐 = 𝝈𝟐 e 𝒏𝟏 ≠ 𝒏𝟐 )

Guenther (1981) derivou fórmulas simples para calcular tamanho de amostra baseado no teste 𝑡 de
Student que utiliza a variância combinada, supondo a igualdade das variâncias dos dois grupos (ver,
por exemplo, capítulo 7 de SIQUEIRA e TIBÚRCIO, 2011).

Schouten (1999) apresenta fórmulas que são a extensão do trabalho de Guenther, válidas para a
situação em que os tamanhos das amostras são diferentes. Além disso, considera também o caso de
heterocedasticidade, isto é, variâncias dos dois grupos diferentes. Nos dois casos, mostra qual é a
situação em que os custos totais são mínimos. Inicialmente, é apresentada a conhecida fórmula para se
obter poder ≥ 1 − 𝛽. O número de elementos no primeiro grupo (𝑛₁) é dado por:

1+𝛾 𝜎 2
𝑛₁ = (𝑡𝑣;1−𝛼/2 + 𝑡𝑣;1−𝛽 )2 ( )( ) (2.6)
𝛾 𝜇1 − 𝜇2

Em (2.6), 𝑡𝑣;1−𝛼/2 e 𝑡𝑣;1−𝛽 são os percentis da distribuição 𝑡 de Student com 𝜈 = 𝑛1 + 𝑛2 − 2 graus de


liberdade, 𝛾 = 𝑛2 /𝑛1 , 𝜎 é o desvio-padrão que é igual nos dois grupos e (𝜇1 − 𝜇2 ) é a diferença das
médias a ser detectada. Segundo Schouten (1999), o efeito de tratamento de um desvio-padrão
(𝜇1 − 𝜇2 = 𝜎) é raro de acontecer em pesquisa médica. Um efeito de pelo menos meio desvio-padrão
(𝜇₁ − 𝜇₂ = 𝜎/2) pode ser considerado se um tratamento novo está sendo comparado ao placebo. A
verdadeira diferença no efeito de pelo menos um quarto do desvio-padrão (𝜇₁ − 𝜇₂ = 𝜎/4) deve ser
relevante quando dois tratamentos ativos são comparados. O Quadro 2.3 resume os efeitos comentados.

Quadro 2.3 - Interpretação dos efeitos de tratamentos

Efeito de tratamento Situação sobre a comparação a ser realizada


𝜇1 − 𝜇2 = 𝜎 Ocorre raramente em pesquisa médica
𝜇₁ − 𝜇₂ = 𝜎/2 Tratamento novo está sendo comparado ao placebo
𝜇₁ − 𝜇₂ = 𝜎/4 Relevante quando dois tratamentos ativos são comparados

Como os percentis 𝑡𝑣;1−𝛼/2 e 𝑡𝑣;1−𝛽 que aparecem em (2.6) dependem de 𝑛1 e 𝑛2 , a solução deve ser
obtida de forma iterativa. Uma simplificação muito comum, válida para amostras “grandes”, é a
substituição dos percentis da distribuição 𝑡 de Student pelos da distribuição normal padrão. Assim, a
fórmula (2.6) seria reescrita como:

1+𝛾 𝜎 2
𝑛₁ ≅ (𝑧1−𝛼/2 + 𝑧1−𝛽 )2 ( )( ) (2.7)
𝛾 𝜇1 − 𝜇2

O procedimento é utilizado em dois passos. Primeiro, obtém-se por meio da fórmula (2.7) o valor de 𝑛₁
(portanto, os graus de liberdade correspondentes) e, em seguida, o percentil da distribuição 𝑡 é usado
para a aplicação da fórmula (2.6). Ainda assim, é uma forma de cálculo aproximada.

Utilizando o trabalho de Guenther (1981), Schouten (1999) deriva uma fórmula simples que
aproximadamente fornece os mesmos resultados da solução exata e que é especialmente útil nos casos
de amostras pequenas. Seguindo os detalhes técnicos da seção 2 de Schouten (1999), chega-se que a
fórmula de 𝑛₁ que garante poder ≥ (1 − 𝛽) é dada por:

1+𝛾 𝜎 2 (𝑧1−𝛼/2 )2
𝑛1 = (𝑧1−𝛼/2 + 𝑧1−𝛽 )2 ( )( ) + (2.8)
𝛾 𝜇1 − 𝜇2 2(1 + 𝛾)

De qualquer maneira, a melhor opção para o cálculo é utilizar algum software especializado,
como o Pass®14.

Para as três situações consideradas, as fórmulas (2,6), (2.7) e (2.8), o tamanho de amostra total é
𝑛1 + 𝑛2 , sendo que 𝑛2 é obtido a partir da relação 𝛾 = 𝑛2 /𝑛1 . Em outras palavras, primeiro calcula-se
𝑛1 pela fórmula (2.6), (2.7) ou (2.8) e depois 𝑛2 é obtido por 𝑛2 = 𝛾𝑛1 .

Exemplo 2.6 - Comparação das fórmulas (2.6), (2.7) e (2.8)

Considere-se a comparação de dois tratamentos com as seguintes informações: 𝜇1 = 10, 𝜇2 = 6 e


𝜎 = 4. Foram fixados 𝛼 = 0,05, poder do teste de 90% e 𝛾 = 𝑛2 /𝑛1 = 2.

O Quadro 2.4 resume os resultados das fórmulas (2.6), (2.7) e (2.8). Para a aplicação da fórmula (2.6) é
necessário um software específico em que tenha sido implementado algum algoritmo apropriado. Por
exemplo, o software Pass®14 fornece as seguintes soluções: 𝑛1 = 17; 𝑛2 = 34 (correspondendo ao
poder real de 90,985%).

Alternativamente, uma solução aproximada pode ser obtida iniciando-se com o valor do percentil da
normal padrão. Por exemplo, pela fórmula (2.7), 𝑛1 = 16, 𝑛2 = 32, tal que 𝜈 = 16 + 32 − 2 = 46 e
𝑡𝜈;1−𝛼/2 = 2,01290, 𝑡𝜈;1−𝛽 = 1,30023 tal que 𝑛1 = 17 e 𝑛2 = 34 a partir da simplificação do uso
da fórmula (2.6).

Os resultados obtidos pelas fórmulas são exatamente os mesmos ou diferem de apenas um elemento
no grupo 1. Dependendo dos valores dos termos que aparecem nas fórmulas, pode haver diferença
mais acentuada.

Quadro 2.4 - Cálculos de tamanho de amostra utilizando as fórmulas (2.6), (2,7) e (2.8)

Fórmula 𝑛1 𝑛2
2
1+𝛾 𝜎 2 × 17
𝑛1 = (𝑡𝑣;1−𝛼/2 + 𝑡𝑣;1−𝛽 )2 ( ) (𝜇 ) = 17 (Pass®14)
𝛾 1 −𝜇2 = 34
2
1+𝛾 𝜎
𝑛1 = (𝑡𝑣;1−𝛼/2 + 𝑡𝑣;1−𝛽 )2 ( ) (𝜇 ) (2.6).
𝛾 1 −𝜇2
Por simplificação, iniciando com os percentis da normal
padrão, fórmula (2.7):
(2.6) 1+𝛾 𝜎 2
𝑛1 ≅ (𝑧1−𝛼/2 + 𝑧1−𝛽 )2 ( ) (𝜇 ) = 2 × 17
𝛾 1 −𝜇2
3 4 2 = 34
(1,96 + 1,28)2 2 (4) = 15,75 ≅ 16. Os graus de liberdade
são 𝜈 = 𝑛1 + 𝑛2 − 2 = 16 + 32 − 2 = 46 e 𝑡𝜈;1−𝛼/2 =
2,01290, 𝑡𝜈;1−𝛽 = 1,30023. Substituindo os valores em
3 0,5 2
(2.6): 𝑛1 = (2,01290 + 1,30023)2 2 (0,5) = 16,47 ≅ 17.

1+𝛾 𝜎 2
(2.7) 𝑛1 = (𝑧1−𝛼/2 + 𝑧1−𝛽 )2 ( )( ) 2 × 16
𝛾 𝜇1 − 𝜇2
3 4 2 = 32
= (1,96 + 1,28)2 2 (4) = 15,75 ≅ 16

1+𝛾 𝜎 2 (𝑧1−𝛼/2 )2
(2.8) 𝑛1 = (𝑧1−𝛼/2 + 𝑧1−𝛽 ) ( 2
)( ) + 2 × 17
𝛾 𝜇1 − 𝜇2 2(1 + 𝛾)
3 4 2 1,96 = 34
= (1,96 + 1,28)2 2 (4) + = 16,07 ≅ 17
6

3º caso: variâncias e tamanhos desiguais (𝝈𝟐𝟏 ≠ 𝝈𝟐𝟐 e 𝒏𝟏 ≠ 𝒏𝟐 )

Quando não é assumido que as variâncias são iguais, o teste de Smith-Welch-Satterthwaite (𝑆𝑊𝑆) pode
ser utilizado para a comparação de médias. A estatística do teste é 𝑆𝑊𝑆 = (𝑥̅1 − 𝑥̅2 )/𝑆𝐸,
𝑆𝐸 = √𝑠12 /𝑛₁ + 𝑠22 /𝑛2 , sendo (𝑥̅1 ; 𝑥̅2 ) e (𝑠12 ; 𝑠22 ), respectivamente, as médias e as variâncias amostrais
dos dois grupos. Sob 𝐻0 , 𝑆𝑊𝑆 tem distribuição 𝑡 de Student com graus de liberdade que dependem de
𝑛₁, 𝑛2 e de 𝜏 = 𝜎22 /𝜎12 .

Schouten (1999) mostra que para se obter poder do teste ≥ (1 − 𝛽) em hipóteses bilaterais, o número
de elementos do grupo 1 (𝑛1 ) depende: a) dos percentis 𝑧1−𝛼/2 e 𝑧1−𝛽 da distribuição normal padrão,
correspondentes ao nível de significância 𝛼 e ao poder (1 − 𝛽), respectivamente; b) da razão entre as
variâncias (𝜏 = 𝜎22 /𝜎12 ); c) da razão entre as alocações dos dois grupos (𝛾 = 𝑛2 /𝑛1 ); d) da diferença
das médias a ser detectada (𝜇1 − 𝜇2 ). A expressão para 𝑛1 é dada por:

𝜏+𝛾
2
𝜎1 2 𝜏2 + 𝛾 3
𝑛1 = (𝑧1−𝛼/2 + 𝑧1−𝛽 ) ( )( ) + (𝑧 )2 (2.9)
𝛾 𝜇1 − 𝜇2 2𝛾(𝜏 + 𝛾)2 1−𝛼/2

(𝜏+𝛾)𝜎12
Naturalmente a fórmula (2.9) pode ser reescrita como 𝑛1 = (𝑧1−𝛼/2 + 𝑧1−𝛽 )2 × 𝛾(𝜇 2
+
1 −𝜇2 )

𝜏2 +𝛾3
(𝑧1−𝛼/2 )2, como aparece em Schouten (1999).
2𝛾(𝜏+𝛾)2

2.3.3 Incorporação do custo no cálculo do tamanho da amostra

Na prática, uma questão importante no dimensionamento do estudo é incorporar o custo. Supondo que
os custos unitários dos tratamentos 1 e 2 sejam, respectivamente, 𝑐1 e 𝑐2 , o custo total é 𝑛1 𝑐1 + 𝑛2 𝑐2 .

Pode-se mostrar que, para o caso de variâncias iguais, ao se utilizar a fórmula (2.7), o custo total
mínimo é obtido quando a razão 𝑛2 /𝑛1 é estabelecida de acordo com a seguinte condição:

𝑐1
𝛾𝑚𝑖𝑛 = √ (2.10)
𝑐2

Para o caso de variâncias desiguais, a condição para se obter custo total mínimo utilizando a
fórmula (2.10) negligenciando o último termo é:

𝜎2 𝑐1 𝜎22 𝑐1
𝛾𝑚𝑖𝑛 = √ = √ (2.11)
𝜎1 𝑐2 𝜎12 𝑐2
Para o caso particular em que 𝑐1 = 𝑐2 = 1, o custo total mínimo acontece quando 𝑛2 /𝑛1 = 𝜎2 /𝜎1 .

Exemplo 2.7 - Tamanho de amostra para a comparação das médias de dois tratamentos
levando-se em consideração os custos ╬╬

Na comparação de dois tratamentos (1 e 2), a variável estudada segue aproximadamente a distribuição


normal e o custo do tratamento 1 é quatro vezes maior que o do tratamento 2 (𝑐1 = 4𝑐2 ). Espera-se que
a diferença entre os efeitos dos tratamentos seja aproximadamente igual a duas unidades (𝜇1 − 𝜇2 = 2).
Deseja-se determinar o número de indivíduos a serem alocados a cada tratamento, de tal forma que a
comparação seja realizada no nível de significância de 5%, poder do teste da diferença entre as médias
igual a 90% e com custo total mínimo, em cada um dos seguintes casos:

Caso 1: A suposição de homocedasticidade é razoável e por estudos anteriores estima-se que as


variâncias dos dois grupos são iguais a 10 (𝜎12 = 𝜎22 = 10 ⟺ 𝜏 = 𝜎22 /𝜎12 = 1)

𝑛 𝑐
Nessas condições, segundo a fórmula (2.10) o custo total mínimo acontece se 𝛾 = 𝑛2 = √𝑐1 = √4 = 2,
1 2

(1+𝛾)𝜎2
ou seja, 𝑛2 = 2𝑛1. Assim, pela fórmula (2.7), 𝑛₁ = (𝑧1−𝛼/2 + 𝑧1−𝛽 )2 = (1,96 +
𝛾(𝜇1 −𝜇2 )2
(1+2)10
1,28)2 = 39,3660. Portanto, 𝑛₁ = 40, 𝑛2 = 80 e o total da amostra é 𝑛₁ + 𝑛2 = 120.
2(2)2

Caso 2: A suposição de homocedasticidade não é razoável e por estudos anteriores estima-se que a
variância do tratamento 2 seja o dobro da variância do tratamento 1, que é igual a 10 (𝜎₁² = 10 e
𝜎22 = 20 ⟺ 𝜏 = 𝜎22 /𝜎12 = 2)

𝑛 𝜎2 𝑐
Nessas condições, segundo a fórmula (2.11), o custo total mínimo acontece se 𝛾 = 𝑛2 = √𝜎22 𝑐1 =
1 1 2

(𝜏+𝛾)𝜎12 (𝜏2 +𝛾3 )(𝑧1−𝛼/2 )2


√2 × 4 = √8 = 2,83. Assim, pela fórmula (2.9), 𝑛1 = (𝑧1−𝛼/2 + 𝑧1−𝛽 )2 𝛾(𝜇 )2
+ =
1 −𝜇2 2𝛾(𝜏+𝛾)
3
(2+√8)10 (22 +√8 )1,962
(1,96 + 1,28)2 2 + = 48,55. Portanto, 𝑛₁ = 49 e 𝑛2 = √8(49) = 138,59 ≅ 139 e
√8(2) 2√8(2+√8)

o total da amostra é 𝑛1 + 𝑛2 = 49 + 139 = 188.


Caso 3: A suposição de homocedasticidade não é razoável e por estudos anteriores estima-se que a
variância tratamento 1 seja o dobro da variância do tratamento 2, que é igual a 10 (𝜎12 = 20 e
𝜎22 = 10 ⟺ 𝜏 = 𝜎22 /𝜎12 = 1/2)

𝑛 𝜎2 𝑐
Nessas condições, segundo a fórmula (2.11), o custo total mínimo acontece se 𝛾 = 𝑛2 = √𝜎22 𝑐1 =
1 1 2

(𝜏+𝛾)𝜎12 (𝜏2 +𝛾3 )(𝑧1−𝛼/2 )2


√2 =1,41. Assim, pela fórmula (2.9), 𝑛1 = (𝑧1−𝛼/2 + 𝑧1−𝛽 )2 )2
+ =
𝛾(𝜇1 −𝜇2 2𝛾(𝜏+𝛾)
3
(0,5+√2)20 (0,52 +√2 )1,962
(1,96 + 1,28)2 + = 73,23. Portanto, 𝑛₁ = 74 e 𝑛2 = 105 e o total da amostra
√2(2)2 2√2(0,5+√2)

é 𝑛₁ + 𝑛2 = 179.

2.4 Tamanho de amostra para a comparação de duas médias no caso de


amostras pareadas

O esquema do pareamento é uma estratégia de planejamento bastante utilizada. Em geral, o


planejamento de amostras pareadas melhora a precisão das estimativas das diferenças entre as médias
dos tratamentos. Observam-se características ou mede-se a variável resposta de interesse em pares de
indivíduos ou em pares de observações de um mesmo indivíduo em momentos diferentes.

No planejamento do estudo, deve-se tomar cuidado para que as características importantes dos
indivíduos que integram o mesmo par sejam tão semelhantes quanto possível. O tratamento é
administrado a um dos elementos do par e o outro é mantido como controle. Como os indivíduos no
par são semelhantes, exceto no que se refere ao tratamento recebido, a principal vantagem do
procedimento é isolar na medida do possível o efeito do tratamento. Em algumas situações o par é
constituído do mesmo indivíduo em duas ocasiões diferentes.

O pareamento é muito utilizado em planejamento de estudos da área da saúde, tanto para variáveis
quantitativas, em especial contínuas, como para respostas binárias (discutido no capítulo 3). Além da
situação em que medidas são tomadas no mesmo indivíduo, por exemplo, em ocasiões diferentes, o
esquema de pareamento inclui o delineamento em que um caso é pareado com um controle, tendo
como objetivo o controle de eventuais fatores de confusão. Nesses exemplos, as amostras são pareadas
e não independentes.
Para amostras pareadas, por exemplo, na situação de uma medida basal e a outra após o tratamento, a
ideia fundamental é trabalhar com a diferença das medidas dentro de cada par, já que ela reflete o efeito
do tratamento.

Podem-se distinguir três tipos de pareamento: autopareamento, pareamento natural e


pareamento artificial.

O autopareamento ocorre quando o indivíduo serve como seu próprio controle, como na situação em
que recebe duas drogas administradas em ocasiões diferentes. Por exemplo, o nível de colesterol foi
medido antes e depois do programa. A comparação de dois órgãos no mesmo indivíduo, como braços,
pernas, olhos, narinas, segundo alguma característica estudada, também constitui um autopareamento.

O pareamento natural consiste em formar pares tão homogêneos quanto possível, controlando os
fatores que possam interferir na resposta, sendo que o pareamento aparece de forma natural.
Por exemplo, em experimentos de laboratório, podem-se formar pares de cobaias selecionadas da
mesma ninhada; em investigações clínicas, gêmeos univitelinos são muitos usados.

No pareamento artificial escolhem-se indivíduos com características semelhantes, levando-se em


consideração idade, sexo, nível socioeconômico, estado de saúde ou, em geral, fatores que podem
influenciar de maneira relevante a variável resposta.

Na prática, podem existir dificuldades no conhecimento das características que devem ser controladas e
mesmo as conhecendo pode ser difícil formar pares homogêneos, como, por exemplo, no caso em que
o número de fatores é muito alto. Em muitas situações, embora desejável, torna-se difícil ou mesmo
impossível a implementação do planejamento com amostras pareadas.

A situação de interesse é a comparação de dois grupos com variável resposta contínua e com o
planejamento de amostras pareadas. A variável resposta é denotada por X1 e 𝑋2, respectivamente, para
os dois grupos a serem comparados e os dados são pares de observações:
(𝑥11 , 𝑥21 ), (𝑥12 , 𝑥22 ), ⋯ , (𝑥1𝑛 , 𝑥2𝑛 ).

Para cada par, toma-se a diferença das duas observações: 𝑑1 = 𝑥11 − 𝑥21 , 𝑑2 = 𝑥12 − 𝑥22 , ⋯ ,
𝑑𝑛 = 𝑥1𝑛 − 𝑥2𝑛 . A partir dessas diferenças, a média e o desvio-padrão são calculados da forma usual:
∑ 𝑛 𝑛
∑ (𝑑𝑖 −𝑑) ̅ 2
𝑑𝑖
𝑑̅ = 𝑖=1 e 𝑠𝑑 = √ 𝑖=1𝑛−1 . Outra notação adotada para 𝑠𝑑 é 𝜎̂𝑑 .
𝑛
2.4.1 Intervalo de confiança para a diferença de médias no caso de amostras pareadas

O intervalo de (1 − 𝛼)100% de confiança para a média das diferenças (𝜇𝑑 ) ou, equivalentente, para a
𝑠𝑑 𝑠𝑑
diferença das médias (𝜇1 − 𝜇2 ) dos dois grupos é dado por: (𝑑̅ − 𝑡1−𝛼/2;𝑛−1 ; 𝑑̅ + 𝑡1−𝛼/2;𝑛−1 ).
√𝑛 √𝑛

O termo 𝑡1−𝛼/2;𝑛−1 é o percentil de ordem (1 − 𝛼/2)100% da distribuição 𝑡 de Student com (𝑛 − 1)


graus de liberdade, 𝑛 é o número de pares, 𝑑̅ e 𝑠𝑑 são a média e desvio-padrão, cujas fórmulas,
∑ 𝑛 𝑛
∑ (𝑑𝑖 −𝑑) ̅ 2
𝑑𝑖
já apresentadas, são 𝑑̅ = 𝑖=1 e 𝑠𝑑 = √ 𝑖=1𝑛−1 . Registra-se que o intervalo é simétrico em
𝑛

torno de 𝑑̅.

Assumindo que a variância das diferenças (𝜎𝑑2 ) seja conhecida, o intervalo de (1 − 𝛼)100% de
𝜎 𝜎
confiança para a média das diferenças (μd ) é dado por: (𝑑̅ − 𝑧1−𝛼/2 𝑛𝑑 ; 𝑑̅ + 𝑧1−𝛼/2 𝑛𝑑 ).
√ √

Para o comprimento do intervalo de 2𝐷 (ou metade igual a 𝐷) e confiança de (1 − 𝛼)100%,


o tamanho de amostra é:

(𝑧1−𝛼/2 )2 𝜎𝑑2
𝑛= (2.12)
𝐷2

Se a variância 𝜎𝑑2 não for conhecida, ela pode ser estimada a partir de um estudo-piloto ou obtida por
outra forma, por exemplo, de informações de estudos preliminares similares. O raciocínio para obter a
fórmula do tamanho de amostra no caso em que o parâmetro 𝜎𝑑2 é desconhecido é o mesmo que o
anterior, bastando trocar o percentil da normal padrão (𝑧1−𝛼/2 ) pelo da 𝑡 de Student. Neste caso,
a solução é numérica e fixando-se o comprimento do intervalo de (1 − 𝛼)100% de confiança em 2𝐷
(ou metade igual a 𝐷), a fórmula para o tamanho de amostra é dada por:

(𝑡1−𝛼/2;𝑛−1 )2 𝜎̂𝑑2
𝑛= (2.13)
𝐷2

Exemplo 2.8 - Tamanho de amostra baseado em intervalo de confiança para a diferença de


médias no caso de amostras pareadas ╬╬

Supondo que 𝜎𝑑 = 4 e que o comprimento do intervalo seja 2 (𝐷 = 1), para construir intervalo de 95%
(𝑧1−𝛼/2 )2 𝜎𝑑2
de confiança para a média das diferenças 𝜇𝑑 pela fórmula (2.12) chega-se a 𝑛 = =
𝐷2
(1,96)2 (4)2
= 61,47, ou seja, 62 participantes.
12

Supondo agora que a variância não seja conhecida, a solução obtida pelo software Pass® 14 é 𝑛 = 64,
o mesmo resultado obtido pela fórmula (2.13) após arredondamento para cima e empregando o
̂𝑑2
(𝑡1−𝛼/2;𝑛−1 )2 𝜎 (1,99962)2 (4)2
mesmo raciocínio descrito no exemplo 2.6: 𝑛 = = = 63,9757. Assim,
𝐷2 12

são necessários 64 participantes no estudo.

2.4.2 Teste de hipóteses para a diferença de médias no caso de variância conhecida


e amostras pareadas

De maneira geral, o problema de comparação de dois grupos, com médias μ1 e μ2 , é formulado pelas
hipóteses 𝐻0 : 𝜇1 = 𝜇2 versus 𝐻1 : 𝜇1 ≠ 𝜇2 , que é equivalente a testar 𝐻0 : 𝜇1 − 𝜇2 = 0 versus
𝐻1 : 𝜇1 − 𝜇2 ≠ 0. Entretanto, no caso de amostras pareadas, é o mesmo que fazer testes para a média
das diferenças (𝜇𝑑 ). Assim, a hipótese de diferença de médias (𝜇1 − 𝜇2 ) é igual à hipótese da média
das diferenças (𝜇𝑑 ).

Resumindo, em termos da notação: 𝐻0 : 𝜇1 − 𝜇2 = 0 versus 𝐻1 : 𝜇1 − 𝜇2 ≠ 0 ⇔ 𝐻0 : 𝜇𝑑 = 0 versus


𝐻1 : 𝜇𝑑 ≠ 0. Nota-se que na verdade trabalhar com a diferença equivale ao caso de teste para
única média.

Nesta seção considera-se uma situação não muito encontrada na prática em que a variância das
diferenças (𝜎𝑑2 ) é conhecida, mas que é ilustrativa em termos de tamanho de amostra. Neste caso, a
estatística do teste é 𝑍 = 𝑑̅ /𝜎𝑑 , sendo 𝑑̅ a média, cuja fórmula foi apresentada no início da seção 2.4.

A fórmula para o desvio-padrão das diferenças é 𝜎𝑑 = 𝜎X1 − X2 = √𝜎𝑋21 + 𝜎𝑋22 − 2𝜎𝑋1 𝑋2 , sendo 𝜎𝑋1 𝑋2 a

covariância entre 𝑋1 e 𝑋2 , que também pode ser escrita em termos da correlação (𝜌𝑋1 𝑋2 ) e dos desvios-
padrão das duas variáveis (𝜎𝑋1 e 𝜎𝑋2 ): 𝜎𝑋1 𝑋2 = 𝜌𝑋1 𝑋2 𝜎𝑋1 𝜎𝑋2 .

Como os dados são transformados nas diferenças (𝑑1 , 𝑑2 , ⋯ , 𝑑𝑛 ), o tamanho de amostra (𝑛) é similar
ao caso do teste para uma média, dado pela fórmula (2.2), substituindo-se 𝜇 − 𝜇0 e 𝜎 por 𝜇𝑑 e 𝜎𝑑 ,
respectivamente. Para testar hipóteses bilaterais, 𝑛 é dado por:
2
(𝑧1−𝛼/2 + 𝑧1−𝛽 ) 𝜎𝑑2
𝑛= (2.14)
𝜇𝑑

Para testar hipóteses unilaterais, basta substituir o percentil 𝑧1−𝛼/2 por 𝑧1−𝛼 . A fórmula (2.14) torna-se,
2
então, 𝑛 = (𝑧1−𝛼 + 𝑧1−𝛽 ) 𝜎𝑑2 /𝜇𝑑 .

Exemplo 2.9 - Tamanho de amostra para o teste para a diferença de médias supondo-se que a
variância seja conhecida no caso de amostras pareadas ╬╬

Para ilustrar o dimensionamento de um estudo no caso de amostras pareadas, considere-se a situação de


uma medida basal e a outra após o tratamento, que sob 𝐻0 possui média 𝜇𝑑 = 0, sendo a diferença a ser
detectada 𝜇𝑑 = 1.

Sabe-se que os desvios-padrão das duas medidas são iguais e numericamente iguais a cinco
(𝜎𝑋1 = 𝜎𝑋2 = 5) e que a correlação entre as variáveis é 0,80 (𝜌𝑋1 𝑋2 = 0,80). Portanto, o desvio-padrão

da diferença é calculado como 𝜎𝑑 = √𝜎𝑋21 + 𝜎𝑋22 − 2𝜎𝑋1 𝑋2 = √𝜎𝑋21 + 𝜎𝑋22 − 2𝜌𝑋1 𝑋2 𝜎𝑋1 𝜎𝑋2 =

√25 + 25 − 2(0,80)(5 × 5) = √10 e, consequentemente, a variância é 𝜎𝑑2 = 10.

Fixando o nível de significância em 5% e o poder em 80%, a aplicação da fórmula (2.14) com hipótese
2
(𝑧1−𝛼 +𝑧1−𝛽 ) 𝜎𝑑2 (1,645+0,84)2 10
unilateral será 𝑛 = = = 61,75. Dessa forma, será necessário recrutar 62
𝜇𝑑 1

participantes para o estudo. Utilizando o software Pass®14, o resultado obtido é 𝑛 = 62 e o poder


correspondente é 0,80104.

A Tabela 2.2 mostra os resultados da aplicação da fórmula (2.14) para vários valores da correlação
entre as variáveis, mantendo as outras entradas constantes: 𝜇𝑑 = 1, 𝜎𝑋1 = 𝜎𝑋2 = 5, 𝛼 = 0,05 e poder
de 80%. Nota-se que à medida que a correlação entre as duas variáveis (𝜌𝑋1 𝑋2 ) diminui, o tamanho da
amostra (𝑛) aumenta.
Tabela 2.2 - Tamanhos de amostras (𝑛), obtidos pela fórmula (2.14), para diversos valores de
coeficientes de correlação entre as variáveis (𝜌𝑋1 𝑋2 ) para poder 80% e nível de significância de 5%

𝜌𝑋1 𝑋2 𝑛
0,01 307
0,05 294
0,10 279
0,20 248
0,30 217
0,40 186
0,50 155
0,60 124
0,70 93
0,80 62
0,85 47
0,90 31
0,95 16
0,99 4
Nota: 𝜇𝑑 = 1, 𝜎𝑋1 = 𝜎𝑋2 = 5

2.4.3 Teste de hipóteses para a diferença de médias no caso de variância não conhecida
e amostras pareadas

Considerando a mesma formulação anterior, mas agora para a situação mais realística em que a
variância não é conhecida, o teste 𝑡 para amostras pareadas é utilizado para testar as hipóteses de
diferença de média de dois grupos. Para testar as hipóteses 𝐻0 : 𝜇𝑑 = 0 versus 𝐻1 : 𝜇𝑑 ≠ 0, a estatística
𝑑̅
do teste é 𝑡𝑑 = , sendo 𝑛 o número de pares, 𝑑̅ e 𝑠𝑑 , respectivamente, a média e desvio-padrão,
𝑠𝑑 /√𝑛

cujas fórmulas foram apresentadas no início da seção 2.4. Nesse caso, a distribuição de referência é a 𝑡
de Student com (𝑛 − 1) graus de liberdade. A regra do teste consiste em rejeitar 𝐻0 se
|𝑡𝑑 | ≥ 𝑡𝑛−1; 1−𝛼/2 , sendo 𝑡𝑛−1; 1−𝛼/2 o percentil de ordem (1 − 𝛼/2)100% da distribuição 𝑡 de Student
com (𝑛 − 1) graus de liberdade.

Para hipóteses unilaterais, a modificação da regra de decisão citada anteriormente para hipóteses
bilaterais é apenas trocar o percentil da distribuição de referência. Por exemplo, para testar as hipóteses
𝐻0 : 𝜇𝑑 ≤ 0 versus 𝐻1 : 𝜇𝑑 > 0, rejeita-se 𝐻0 se 𝑡𝑑 ≥ 𝑡𝑛−1; 1−𝛼 , sendo 𝑡𝑛−1; 1−𝛼 o percentil de ordem
(1 − 𝛼)100% da distribuição 𝑡 de Student com (𝑛 − 1) graus de liberdade.
Assim como no teste para comparação de duas médias no caso de amostras independentes “grandes”,
a distribuição da estatística do teste para médias com alto número de pares (𝑛) pode ser aproximada
pela distribuição normal, ou seja, o valor da estatística apresentada (do teste 𝑡) pode ser comparado ao
percentil da distribuição normal padrão (z). Neste caso, para testar 𝐻0 : 𝜇𝑑 = 0 𝑣𝑒𝑟𝑠𝑢𝑠 𝐻1 : 𝜇𝑑 ≠ 0,
rejeita-se 𝐻0 se 𝑑̅/(𝑠𝑑 /√𝑛) = 𝑑̅/(𝜎̂𝑑 /√𝑛) ≥ 𝑧1−𝛼/2 . Esta pode ser uma aproximação interessante em
termos de fórmula para tamanho de amostra, pela facilidade de cálculo.

Utilizando o teste 𝑡, o tamanho de amostra pode ser uma simples modificação da fórmula (2.13), que
para hipóteses bilaterais é dado por:

2
(𝑡1−𝛼/2,𝑛−1 + 𝑡1−𝛽,𝑛−1 ) 𝜎̂𝑑2
𝑛= (2.15)
𝜇𝑑

Como explicado anteriormente, para hipóteses unilaterais basta substituir o percentil 𝑡1−𝛼/2,𝑛−1 por
2
̂𝑑2
(𝑡1−𝛼,𝑛−1 +𝑡1−𝛽,𝑛−1 ) 𝜎
𝑡1−𝛼,𝑛−1 , tornando-se a fórmula (2.15): 𝑛 = .
𝜇𝑑

Novamente valem os mesmos comentários já feitos quando envolvem os percentis da distribuição 𝑡 de


Student, significando que a aplicação da fórmula (2.15) não é direta e sim iterativa. Portanto,
recomenda-se o uso de um software específico em que um algoritmo confiável tenha
sido implementado.

Exemplo 2.10 - Tamanho de amostra com o enfoque de teste de hipóteses para a diferença de
médias supondo-se variância não conhecida no caso de amostras pareadas

Com as mesmas informações do exemplo 2.9, o resultado obtido pelo software Pass® 14 é 𝑛 = 64 e o
poder correspondente é 0,80495. A partir desse resultado (𝑛 = 64), pode-se fazer mais uma
2
̂𝑑2
(𝑡1−𝛼,𝑛−1 +𝑡1−𝛽,𝑛−1 ) 𝜎
verificação da fórmula (2.15), com a adaptação para o caso unilateral: 𝑛 = =
𝜇𝑑
2
̂𝑑2
(𝑡1−𝛼,64−1 +𝑡1−𝛽,64−1 ) 𝜎 (1,66940+0,84736)2 10
= = 63,34. Arredondado esse número para cima, chega-se ao
𝜇𝑑 1

mesmo resultado obtido pelo software, isto é, 𝑛 = 64.

No exemplo 2.9, os dois desvios-padrão e a correlação foram assumidos conhecidos, mas na prática
eles precisam ser estimados, por exemplo, a partir de um estudo-piloto. Para as medidas antes e depois,
especialmente as últimas, e para outros tipos de dados pareados, pode ser inviável estimar desvios-
padrão, sendo, portanto, necessário assumir que a variabilidade antes e depois seja a mesma, ainda que
seja um pressuposto muito instável.

2.5 Tamanho de amostra para várias médias para variáveis com distribuição
normal

Análise de variância (ANOVA, abreviatura que vem do inglês, ANalysis Of VAriance) é um conjunto
de técnicas estatísticas apropriadas para a comparação de vários grupos (por exemplo, tratamentos),
tendo como resposta uma variável quantitativa (𝑌), sendo que a média é a medida usada para
caracterizar o grupo. Apesar do nome, análise de variância é uma técnica estatística relativa a teste para
médias e não de variâncias! Pode ser aplicada em vários tipos de delineamentos: um fator, dois ou mais
fatores (experimentos fatoriais ou hierárquicos), completos ou incompletos, balanceados (mesmo
tamanho de amostra para todos os grupos) ou não balanceados.

Nesta seção será considerada apenas a ANOVA com um fator (em inglês, One-Way ANOVA ou
Single-Factor ANOVA). Uma discussão sobre o dimensionamento de amostra para outros
planejamentos experimentais pode ser encontrada, por exemplo, no capítulo 6 de Ryan (2013).

Considere-se a situação de 𝑘 grupos balanceados a serem comparados, cada grupo com 𝑛 observações.
O modelo para a ANOVA com um fator é 𝑦𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝜀𝑖𝑗 = 𝜇𝑖 + 𝜀𝑖𝑗 , 𝑖 = 1,2, ⋯ , 𝑘, 𝑗 = 1,2, ⋯ , 𝑛
sendo 𝑦𝑖𝑗 a observação do 𝑗-ésimo indivíduo no 𝑖-ésimo tratamento, 𝜇 é a média geral, 𝜏𝑖
e 𝜇𝑖 = 𝜇 + 𝜏𝑖 são, respectivamente, o efeito e a média do 𝑖-ésimo tratamento e 𝜀𝑖𝑗 é o erro
aleatório não observável.

Para o modelo considerado, supõe-se que 𝜀𝑖𝑗 ~𝑁(0, 𝜎 2 ) e que cada uma dessas variáveis são
mutuamente independentes. Consequentemente, as respostas são independentes e seguem o modelo
normal, isto é, 𝑌𝑖𝑗 ~𝑁(𝜇𝑖 , 𝜎 2 ), e os grupos apresentam a mesma variabilidade, havendo
homocedasticidade.

As hipóteses a serem testadas são: 𝐻0 : 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑘 versus 𝐻1 : pelo menos uma desigualdade.


A ideia principal para testar tais hipóteses é a partição da variabilidade total (dos dados em relação à
média geral 𝑦̅) em duas parcelas: variabilidade entre grupos (das médias 𝑦̅𝑖 em relação à média geral 𝑦̅)
e variabilidade dentro do grupo, também chamada de residual (dos dados de cada grupo em relação à
𝑘 𝑛
̅)2 ) é dada por
𝑖 A partição da soma de quadrados total (𝑆𝑄𝑡𝑜𝑡𝑎𝑙 = ∑𝑖=1 ∑𝑗=1(𝑦𝑖𝑗 − 𝑦
média do grupo 𝑦̅).
𝑆𝑄𝑡𝑜𝑡𝑎𝑙 = 𝑆𝑄𝑒𝑛𝑡𝑟𝑒 + 𝑆𝑄𝑑𝑒𝑛𝑡𝑟𝑜 , sendo 𝑆𝑄𝑒𝑛𝑡𝑟𝑒 = 𝑛 ∑𝑘𝑖=1(𝑦̅𝑖 − 𝑦̅)2, 𝑆𝑄𝑑𝑒𝑛𝑡𝑟𝑜 = ∑𝑘𝑖=1 ∑𝑛𝑗=1(𝑦𝑖𝑗 − 𝑦̅𝑖 )2,
∑𝑛
𝑗=1 𝑦𝑖𝑗 ∑𝑘 ̅𝑖 ∑𝑘 𝑛
𝑖=1 ∑𝑗=1 𝑦𝑖𝑗
𝑖=1 𝑦
𝑦̅𝑖 = e 𝑦̅ = = . O parâmetro 𝜎 2 pode ser estimado por 𝑆𝑄𝑒𝑛𝑡𝑟𝑒 /𝑘(𝑛 − 1).
𝑛 𝑘 𝑘𝑛

Quando o resultado do teste 𝐹 for significante, o próximo passo é fazer comparações múltiplas e a
questão que pode ser levantada é como elas afetam na determinação do tamanho de amostra.
Witte et al. (2000) tratam desse assunto no contexto do ajuste de Bonferroni. Outras referências sobre
determinação do tamanho de amostra relacionadas a comparações múltiplas são: Schwertman (1987),
Pan e Kupper (1999) e Bang et al. (2005).

A referência para as seções a seguir sobre cálculo de poder e cálculo do tamanho de amostra para
comparações pareadas e simultâneas é o trabalho de Chow et al. (2008).

2.5.1 Comparações pareadas

Na prática, há interesse em fazer comparações de médias dos tratamentos duas a duas. Neste caso, as
hipóteses de interesse são 𝐻0 : 𝜇ℎ = 𝜇𝑙 versus 𝐻1 : 𝜇ℎ ≠ 𝜇𝑙 , para alguns pares (ℎ, 𝑙). Como são 𝑘
tratamentos (ou grupos), há 𝑘(𝑘 − 1)/2 possíveis comparações.

Para 𝜏 ≤ 𝑘(𝑘 − 1)/2 comparações de interesse, rejeita-se 𝐻0 no nível de significância 𝛼 se


|√𝑛 (𝑦̅ℎ − 𝑦̅𝑙 )/√2 𝜎̂| > 𝑡1−𝛼/2𝜏;𝑘(𝑛−1). O poder desse teste é dado por:

√𝑛𝐷ℎ𝑙 √𝑛𝐷ℎ𝑙
1 − Γ𝑘(𝑛−1) (𝑡1−𝛼/2𝜏,𝑘(𝑛−1) | ) + Γ𝑘(𝑛−1) (−𝑡1−𝛼/2𝜏,𝑘(𝑛−1) | )
√2 𝜎 √2 𝜎
(2.16)
√𝑛|𝐷ℎ𝑙 |
≈ 1 − Γ𝑘(𝑛−1) (𝑡1−𝛼/2𝜏,𝑘(𝑛−1) | )
√2 𝜎

Em (2.16), 𝐷ℎ𝑙 = 𝜇ℎ − 𝜇𝑙 , 𝑡1−𝛼/2𝜏,𝑘(𝑛−1) é o percentil de ordem (1 − 𝛼/2𝜏)100% da distribuição 𝑡 de


Student com 𝑘(𝑛 − 1) graus de liberdade e Γ𝑘(𝑛−1) (. |𝜃) é a função distribuição acumulada da
distribuição 𝑡 não central com 𝑘(𝑛 − 1) graus de liberdade e parâmetro de não centralidade
𝜃 = (√𝑛|𝐷ℎ𝑙 |)/(√2𝜎). Para se detectar diferença clinicamente significante entre as médias 𝜇ℎ e 𝜇𝑙 ,
diga-se igual a 𝐷ℎ𝑙 , o tamanho da amostra necessário para atingir poder (1 − 𝛽) é:
𝑛 = 𝑚𝑎𝑥{𝑛ℎ𝑙 } para todas comparações de interesse (2.17)

√𝑛ℎ𝑙 |𝐷ℎ𝑙 |
Em (2.17), 𝑛ℎ𝑙 é obtido resolvendo-se a equação Γ𝑘(𝑛ℎ𝑙−1) (𝑡1−𝛼/2𝜏,𝑘(𝑛ℎ𝑙−1) | ) = 𝛽.
√2 𝜎

Quando o tamanho da amostra for suficientemente grande, vale a seguinte aproximação:

2(𝑧1−𝛼/2𝜏 + 𝑧1−𝛽 )2 𝜎 2
𝑛ℎ𝑙 = (2.18)
(𝐷ℎ𝑙 )2

Na fórmula (2.18), 𝑧1−𝛼/2𝜏 e 𝑧1−𝛽 são os percentis de ordem (1 − 𝛼/2𝜏)100% e (1 − 𝛽)100% da


normal padrão e os outros termos da fórmula já foram definidos.

2.5.2 Comparações simultâneas

As hipóteses de interesse são: 𝐻0 : 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑘 versus 𝐻1 : 𝜇ℎ ≠ 𝜇𝑙 para índices tais que


1 ≤ ℎ < 𝑙 ≤ 𝑘. Fixando o nível de significância em 𝛼, a hipótese nula (𝐻0 ) é rejeitada se o valor da
𝑛𝑆𝑄𝑒𝑛𝑡𝑟𝑒 /(𝑘−1)
estatística 𝐹𝜇 = 𝑆𝑄 > 𝐹1−𝛼,𝑘−1,𝑘(𝑛−1), sendo 𝐹1−𝛼,𝑘−1,𝑘(𝑛−1) o percentil da distribuição 𝐹
𝑑𝑒𝑛𝑡𝑟𝑒 /𝑘(𝑛−1)

com (𝑘 − 1) e 𝑘(𝑛 − 1) graus de liberdade referentes ao numerador e denominador, respectivamente.

2
Sob a hipótese alternativa, o poder do teste é 𝑃𝑟(𝐹𝜇 > 𝐹1−𝛼,𝑘−1,𝑘(𝑛−1) ) ≈ 𝑃𝑟(𝑛𝑆𝑄𝑒𝑛𝑡𝑟𝑒 > 𝜎 2 𝜒1−𝛼,𝑘−1 ),
2
sendo 𝜒1−𝛼,𝑘−1 o percentil de ordem (1 − 𝛼)100% da distribuição qui-quadrado com (𝑘 − 1) graus de
liberdade. Sob a hipótese alternativa, 𝑛𝑆𝑄𝑒𝑛𝑡𝑟𝑒 /𝜎 2 tem distribuição qui-quadrado com (𝑘 − 1) graus de
1 1
liberdade e parâmetro de não centralidade 𝜆 = 𝑛Δ, sendo Δ = 𝜎2 ∑𝑘i=1(𝜇𝑖 − 𝜇̅ )2 e 𝜇̅ = 𝑘 ∑𝑘𝑗=1 𝜇𝑗 .

Para atingir poder igual a (1 − 𝛽), primeiro deve-se determinar 𝜆 resolvendo-se a seguinte equação:

2 2
Χ𝑘−1 (𝜒1−𝛼,𝑘−1 |𝜆) = 𝛽 (2.19)

2 (. |𝜆)
Em (2.19), Χ𝑘−1 é a função distribuição acumulada da distribuição qui-quadrado não central com
(𝑘 − 1) graus de liberdade e parâmetro de não centralidade 𝜆. O tamanho de amostra para cada grupo
é dado por:

𝜆 (2.20)
𝑛=
Δ
Exemplo 2.11 - Tamanho de amostra de um ensaio clínico utilizando ANOVA com um fator
(comparações pareadas e simultâneas) ╬╬

O objetivo é o planejamento de um ensaio clínico envolvendo a comparação de quatro tratamentos,


com grupos em paralelo e cujos dados serão analisados por meio de uma ANOVA com um único fator.
Assumindo que o desvio-padrão de cada grupo seja 𝜎 = 3,5 e que as verdadeiras médias sejam
𝜇1 = 8,25; 𝜇2 = 11,75; 𝜇3 = 12,00; 𝜇4 = 13,00, quer-se determinar o tamanho da amostra a partir
das comparações pareadas e simultâneas.

Supondo-se que haja interesse na comparação do tratamento 1 com os demais tratamentos, há três
possíveis comparações pareadas. A Tabela 2.3 apresenta os tamanhos de amostra obtidos pela fórmula
(2.18), considerando-se o nível de significância de 5% e poder de 80% e 90%.

Tabela 2.3 - Tamanhos de amostra (𝑛ℎ𝑙 ), aplicando-se a fórmula (2.18), para comparações
pareadas, considerando-se o nível de significância de 5%

Diferença Tamanho de amostra (𝑛ℎ𝑙 )


Comparação observada poder = 80% poder = 90%
1 vs 2 -3,50 21 28
1 vs 3 -3,75 19 24
1 vs 4 -4,75 12 15
Nota: 𝜇1 = 8,25; 𝜇2 = 11,75; 𝜇3 = 12,00; 𝜇4 = 13,00; 𝜎 = 3,5

1
Para comparações simultâneas, Δ = 𝜎2 ∑𝑘i=1(𝜇𝑖 − 𝜇̅ )2 = 1,05 e resolvendo a equação (2.19) para o

nível de significância de 5% e poder de 80%, obtém-se que o parâmetro de não centralidade (𝜆) é
10,91. Assim, pela fórmula (2.20), o tamanho de amostra é 𝑛 = 𝜆/Δ = 10,91/1,05 = 10,39, sendo de
11 o tamanho de amostra por grupo. Já para o poder de 90% e mantendo-se 𝛼 = 0,05, 𝑛 = 𝜆/Δ =
14,18/1,05 = 13,50, são 14 indivíduos por grupo.

2.6 Considerações adicionais

Nesta seção serão apresentados brevemente alguns comentários práticos relacionados ao cálculo de
tamanho da amostra no contexto de comparação de médias, tais como: o que fazer quando os
parâmetros que aparecem nas fórmulas não são conhecidos e a utilização de métodos alternativos não
detalhados neste capítulo.
2.6.1 Desconhecimento dos parâmetros que aparecem nas fórmulas de tamanho de amostra

Como já comentado, os parâmetros necessários para o cálculo do tamanho da amostra são normalmente
desconhecidos. Por exemplo, em geral o desvio-padrão não é conhecido e pode até mesmo haver
dificuldade na obtenção de alguma informação acerca de quais seriam os valores razoáveis.
Uma sugestão seria usar o valor do desvio-padrão igual a 1/6 do intervalo esperado da variável
estudada (𝑋). Isso é especialmente verdade (ou pelo menos é bastante razoável) quando 𝑋 segue a
distribuição normal.

Quando não se conhece os parâmetros, uma estratégia típica é a utilização de estimativas de estudos-
piloto como se fossem os verdadeiros parâmetros. No entanto, essa abordagem não leva em
consideração o erro de amostragem. Uma solução alternativa seria utilizar o enfoque bayesiano.
No contexto de ensaios clínicos, Wang et al. (2005) sugerem o método bayesiano com priori não
informativa para refletir a incerteza dos parâmetros induzida por erros amostrais.

2.6.2 Comparação de grupos de forma não paramétrica

Vários métodos tratados neste capítulo assumem que a variável analisada segue a distribuição normal.
Quando não se conhece a distribuição ou para outros tipos de distribuição além da normal, uma opção é
utilizar métodos não paramétricos. O dimensionamento de amostra com esse enfoque para algumas
situações está descrito no capítulo 10.

2.7 Recursos computacionais para os cálculos do tamanho da amostra


e/ou do poder

A maioria das fórmulas fechadas de tamanho de amostra do capítulo foi programada em planilhas
Excel® e encontram-se disponíveis para os leitores (ver informações na apresentação do livro;
os exemplos com fórmulas programadas estão sinalizados por ╬╬).

Alternativamente, alguns cálculos de tamanho de amostra e/ou do poder dos testes discutidos ou
relacionados ao assunto do capítulo podem ser obtidos pelos seguintes softwares/programas citados no
capítulo 11: Pass®, nQuery Advisor®, PS: Power and Sample Size Calculation, o programa
desenvolvido pelo Laboratório de Epidemiologia e Estatística (LEE) do Instituto Dante Pazzanese de
Cardiologia e os pacotes pwr e HMISC do software livre R, entre outros.
3.1 Introdução

Muitos problemas da área da saúde podem ser formalizados em termos de proporções. Em algumas
situações, há o interesse em avaliar apenas uma proporção ou seu correspondente percentual.
Por exemplo, o objetivo pode ser estimar a prevalência de determinada doença na população.
Outra situação muito comum na prática é comparar duas proporções, por exemplo, as prevalências
de uma doença em duas regiões ou em dois grupos de pacientes, sendo um deles submetido a
determinada intervenção.

Este capítulo trata do importante problema de determinação do tamanho da amostra em estudos


envolvendo proporções para uma e duas amostras (independentes ou não). Nesse contexto, o cálculo do
tamanho da amostra depende de muitos fatores, tais como o tipo de solução adotada (exata, assintótica,
com correção de continuidade), o método estatístico empregado (clássico ou bayesiano), a medida de
comparação a ser usada (diferença de proporções, odds ratio) e mesmo o teste aplicado (Wald, escore,
razão de verossimilhanças, exato de Fisher). Significativa gama de métodos para o dimensionamento
de amostra está disponível na literatura. Neste capítulo serão apresentados os métodos mais
tradicionais. Em várias seções será considerado tanto o enfoque de estimação como o de teste de
hipóteses. Os leitores interessados podem consultar os métodos não discutidos aqui (tais como para o
método exato de Fisher e a aproximação que utiliza a função arcseno, entre tantos outros)
implementados em softwares especializados (por exemplo, no Pass®) citados no final do capítulo
e no capítulo 11.
3.2 Tamanho de amostra para estimação e testes de hipóteses para uma proporção

De maneira geral, em muitas situações existe interesse em estudar a proporção de elementos em certa
população que possuem determinada característica, como a proporção de crianças que desenvolveram
reações adversas à vacinação, a proporção de alunos em uma escola com distúrbios visuais ou a
prevalência de diabetes mellitus em determinada região com específica faixa etária. Nessas situações,
cada elemento da população está associado à variável binária 𝑌 (𝑌𝑖 = 1, se o elemento 𝑖 possui a
∑𝑁
𝑖=1 𝑌𝑖
característica e 𝑌𝑖 = 0, caso contrário). Então, para uma população de tamanho 𝑁, 𝑃 = é a
𝑁

proporção de elementos que possuem a característica de interesse. Como 𝑌𝑖 assume apenas os valores
∑𝑁
𝑖=1(𝑌𝑖 −𝑃)
2
0 e 1, a variância é dada por 𝜎 2 = = 𝑃(1 − 𝑃).
𝑁

Nesta seção será considerado o dimensionamento no caso de uma amostra no contexto de estimação e
testes de hipóteses.

3.2.1 Estimação de uma proporção

Dada uma amostra observada de tamanho 𝑛, seja 𝑚 o número de elementos da amostra que possuem a
∑ 𝑛
𝑌𝑖 𝑚
característica investigada. Um estimador não viciado de 𝑃 é dado por 𝑃̂ = 𝑖=1 = 𝑛 e sua variância é
𝑛

𝑉𝑎𝑟(𝑃̂) = 𝜎²/𝑛 = 𝑃(1 − 𝑃)/𝑛.

O objetivo é determinar o tamanho da amostra 𝑛 de tal forma que o estimador 𝑃̂ obtido tenha erro
máximo de estimação igual a 𝑑𝑎𝑏𝑠 , com determinado grau de confiança: (1 − 𝛼)100%. De maneira
mais específica, o problema consiste em determinar 𝑛 de modo que:

𝑃𝑟⁡(|𝑃̂ − 𝑃⁡| ≤ 𝑑𝑎𝑏𝑠 ) ≅ 1 − 𝛼 (3.1)

Alternativamente, pode-se dizer que o termo 𝑑𝑎𝑏𝑠 que aparece em (3.1) representa a precisão ou
distância de 𝑃̂, em ambas as direções, do verdadeiro valor populacional 𝑃.

Como o estimador 𝑃̂⁡segue aproximadamente uma distribuição normal, com média 𝑃 e variância
𝑃(1 − 𝑃)/𝑛, tem-se que:
𝑃(1 − 𝑃)
𝑃𝑟 (|𝑃̂ − 𝑃| ≤ 𝑧1−𝛼/2 √ )≅1−𝛼 (3.2)
𝑛

Para 𝑑𝑎𝑏𝑠 fixo e sendo 𝑧1−𝛼/2 o percentil de ordem (1 − 𝛼/2)100% da distribuição normal padrão,
comparando (3.1) e (3.2), a solução para o problema proposto consiste em determinar 𝑛 de tal
forma que:

𝑃(1 − 𝑃)
𝑑𝑎𝑏𝑠 = 𝑧1−𝛼/2 √ (3.3)
𝑛

Resolvendo (3.3) em 𝑛, obtém-se que o tamanho de amostra em termos de precisão absoluta é,


portanto:

𝑃(1 − 𝑃)
𝑛 = (𝑧1−𝛼/2 )2 (3.4)
(𝑑𝑎𝑏𝑠 )2

Lembrando que a precisão relativa é definida como 𝑑𝑟𝑒𝑙 = (𝑃̂ − 𝑃)/𝑃, após manipulação da
probabilidade apresentada em (3.2), fazendo o mesmo tipo de raciocínio para obter a fórmula (3.4) e
chamando 𝑑𝑟𝑒𝑙 = 𝑑𝑎𝑏𝑠 /𝑃, o tamanho da amostra em termos da precisão relativa é dado por:

1−𝑃
⁡𝑛 = (𝑧1−𝛼/2 )2 (3.5)
(𝑑𝑟𝑒𝑙 )2 ⁡𝑃

Para utilizar a fórmula (3.4), é necessário inserir um valor (uma estimativa) para 𝑃. Tal valor pode ser
obtido utilizando-se pesquisas anteriores ou uma amostra-piloto. Uma forma alternativa consiste em
utilizar o fato de que a função 𝑃(1 − 𝑃) = 𝑃 − 𝑃2 tem representação gráfica de uma parábola, como
mostra a Figura 3.1, característica que pode auxiliar o pesquisador que desconhece o valor de 𝑃.
0,25

0,20

0,15
P(1-P)

0,10

0,05

0,00

0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
P

Figura 3.1 - Gráfico da parábola 𝑃(1 − 𝑃) = 𝑃 − 𝑃2 .

Como a função 𝑃(1 − 𝑃) atinge seu máximo quando 𝑃 = 0,50, o maior valor de 𝑛 em (3.4) é obtido
nessa condição, isto é, ocorre quando 𝑃(1 − 𝑃) = 1/4. Substituindo-se 𝑃(1 − 𝑃) = 1/4 em (3.4),
obtém-se:

(𝑧1−𝛼/2 )2
𝑛= (3.6)
4(𝑑𝑎𝑏𝑠 )2

Neste caso, possivelmente a amostra estará super dimensionada e por isso esta fórmula é conhecida
como método conservador de dimensionamento de amostra.

Exemplo 3.1 - Tamanho da amostra para a estimação de prevalência de uma doença – precisão
absoluta e precisão relativa ╬╬

Para estimar a prevalência de uma doença em uma população, foi realizado estudo-piloto obtendo-se
prevalência de 5% (𝑃 = 0,05).

Utilizando a fórmula (3.4), considerando nível de significância de 5% (𝛼 = 0,05) ou,


equivalentemente, confiança de 95%, precisão absoluta da estimativa igual a 𝑑𝑎𝑏𝑠 = 0,01 resulta em
𝑛 = (𝑧1−𝛼/2 )2 𝑃(1 − 𝑃)/(𝑑𝑎𝑏𝑠 )2 = 1,962 (0,05 × 0,95)/0,012 = 1824,76 ≅ 1825. Assim, é
necessário incluir no estudo 1.825 indivíduos. Alterando a precisão absoluta para 𝑑𝑎𝑏𝑠 = 0,03,
mantendo-se a mesma confiança, 𝑛 = 203.⁡Para valor de 𝑑𝑎𝑏𝑠 três vezes maior, o tamanho da amostra
cai aproximadamente nove vezes (1825/203⁡ = ⁡8,99 ≅ 9).
Ainda para 𝛼 = 0,05,⁡substituindo-se a precisão absoluta 𝑑𝑎𝑏𝑠 pela precisão relativa (𝑑𝑟𝑒𝑙 ), os cálculos
ao aplicar a fórmula (3.5) para 𝑑𝑟𝑒𝑙 = 0,15 são: 𝑛 = (𝑧1−𝛼/2 )2 (1 − 𝑃)/(𝑑𝑟𝑒𝑙 )2 ⁡𝑃) = 1,962 ×
(1 − 0,05)/(0,152 0,05) = 3243,90.⁡O tamanho da amostra (𝑛) resultante é 3.244. Mantendo-se todos
os termos constantes, mas trocando 𝑑𝑟𝑒𝑙 para 0,30 e 0,50, os valores de 𝑛 são, respectivamente,
811 e 292.

Exemplo 3.2 - Tamanho da amostra para a estimação de prevalência de uma doença usando
precisão absoluta (continuação do exemplo 3.1) ╬╬

Neste exemplo será investigado o impacto da troca dos elementos que aparecem na fórmula para o
cálculo do tamanho de amostra para uma proporção. A Tabela 3.1 apresenta os resultados da aplicação
da fórmula (3.4) para possíveis valores de 𝑃, três níveis de significância e cinco valores de precisão
absoluta de estimativa (𝑑𝑎𝑏𝑠 ). A Figura 3.2 mostra graficamente os resultados dispostos na Tabela 3.1.

Pode-se notar a simetria dos valores de 𝑛 em torno do valor máximo de elementos necessários quando
𝑃 = 0,50. Como esperado, quanto mais alto o valor de⁡𝛼, menor será o tamanho da amostra para o
valor de 𝑑𝑎𝑏𝑠 fixo. Por outro lado, fixando 𝛼, à medida que o valor de 𝑑𝑎𝑏𝑠 cresce, 𝑛 diminui.

Independentemente do valor de 𝑃, ao se comparar 𝛼 = 0,01 com 𝛼 = 0,05, as razões dos valores de 𝑛


são de aproximadamente 1,73. Por exemplo, para 𝑑𝑎𝑏𝑠 = 0,01, a razão é 3152/1825 = 1,73.
Comparando-se 𝛼 = 0,01 com 𝛼 = 0,10 e depois 𝛼 = 0,05 com 𝛼 = 0,10, as razões dos valores de 𝑛
são de aproximadamente 2,45 e 1,42, respectivamente.

Na Tabela 3.2 são apresentados os valores da razão entre 𝑛 obtido quando 𝑑𝑎𝑏𝑠 = 0,01 e os demais
valores (𝑑𝑎𝑏𝑠 = 0,02; ⁡0,03; ⁡0,05; ⁡0,10). Por exemplo, para 𝛼 = 0,01, 𝑛 = 3152 e 𝑛 = 788, para
𝑑𝑎𝑏𝑠 = 0,01 e 𝑑𝑎𝑏𝑠 = 0,02, respectivamente. Assim, 3152/788 = 4,00.

Há um padrão na Tabela 3.2: a razão entre os valores de 𝑛 quando 𝑑𝑎𝑏𝑠 = 0,01 e 𝑑𝑎𝑏𝑠 = 0,02 é de
aproximadamente 4; comparando 𝑑𝑎𝑏𝑠 = 0,01 com 𝑑𝑎𝑏𝑠 = 0,03 e 𝑑𝑎𝑏𝑠 = 0,05, as razões de 𝑛 são
aproximadamente 9 e 25; e para 𝑑𝑎𝑏𝑠 = 0,10, a razão quase chega a 100.
Tabela 3.1 - Tamanho de amostra (𝑛), obtido pela fórmula (3.4), para diferentes proporções (𝑃),
para três níveis de significância (𝛼 = 0,01; 0,05; 0,10) e cinco valores da precisão da
estimação (𝑑𝑎𝑏𝑠 = 0,01; 0,02; 0,03; 0,05; 0,10)
𝑃
𝛼 𝑑𝑎𝑏𝑠
0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95
0,01 3152 5972 10616 13934 15924 16588 15924 13934 10616 5972 3152
0,02 788 1493 2654 3484 3981 4147 3981 3484 2654 1493 788
0,01 0,03 351 664 1180 1549 1770 1844 1770 1549 1180 664 351
0,05 127 239 425 558 637 664 637 558 425 239 127
0,10 32 60 107 140 160 166 160 140 107 60 32
0,01 1825 3458 6147 8068 9220 9604 9220 8068 6147 3458 1825
0,02 457 865 1537 2017 2305 2401 2305 2017 1537 865 457
0,05 0,03 203 385 683 897 1025 1068 1025 897 683 385 203
0,05 73 139 246 323 369 385 369 323 246 139 73
0,10 19 35 62 81 93 97 93 81 62 35 19
0,01 1286 2435 4329 5682 6494 6764 6494 5682 4329 2435 1286
0,02 322 609 1083 1421 1624 1691 1624 1421 1083 609 322
0,10 0,03 143 271 481 632 722 752 722 632 481 271 143
0,05 52 98 174 228 260 271 260 228 174 98 52
0,10 13 25 44 57 65 68 65 57 44 25 13

Tabela 3.2 - Razão entre os tamanhos de amostra da Tabela 3.1 calculados para 𝑑𝑎𝑏𝑠 = 0,01 e os
outros valores (𝑑𝑎𝑏𝑠 = 0,02; 0,03; 0,05; 0,10) para três níveis de significância (𝛼 = 0,01; 0,02; 0,05)

𝑑𝑎𝑏𝑠 =0,01 𝑃
𝛼
versus 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95
0,02 4,00 4,00 4,00 4,00 4,00 4,00 4,00 4,00 4,00 4,00 4,00
0,03 8,98 8,99 9,00 9,00 9,00 9,00 9,00 9,00 9,00 8,99 8,98
0,01
0,05 24,82 24,99 24,98 24,97 25,00 24,98 25,00 24,97 24,98 24,99 24,82
0,10 98,50 99,53 99,21 99,53 99,53 99,93 99,53 99,53 99,21 99,53 98,50
0,02 3,99 4,00 4,00 4,00 4,00 4,00 4,00 4,00 4,00 4,00 3,99
0,03 8,99 8,98 9,00 8,99 9,00 8,99 9,00 8,99 9,00 8,98 8,99
0,05
0,05 25,00 24,88 24,99 24,98 24,99 24,95 24,99 24,98 24,99 24,88 25,00
0,10 96,05 98,80 99,15 99,60 99,14 99,01 99,14 99,60 99,15 98,80 96,05
0,02 3,99 4,00 4,00 4,00 4,00 4,00 4,00 4,00 4,00 4,00 3,99
0,03 8,99 8,99 9,00 8,99 8,99 8,99 8,99 8,99 9,00 8,99 8,99
0,10
0,05 24,73 24,85 24,88 24,92 24,98 24,96 24,98 24,92 24,88 24,85 24,73
0,10 98,92 97,40 98,39 99,68 99,91 99,47 99,91 99,68 98,39 97,40 98,92
𝛼 = 0,01
18000 d_abs
0,01
16000 0,02
0,03
14000 0,05
0,10

12000

10000
n
8000

6000

4000

2000

0,0 0,2 0,4 0,6 0,8 1,0


P

𝛼 = 0,05
10000 d_abs
0,01
0,02
0,03
8000 0,05
0,10

6000

n
4000

2000

0,0 0,2 0,4 0,6 0,8 1,0


P

𝛼 = 0,10
7000 d_abs
0,01
0,02
6000 0,03
0,05
0,10
5000

4000

n
3000

2000

1000

0,0 0,2 0,4 0,6 0,8 1,0


P

Figura 3.2 - Tamanho de amostra em função da proporção (𝑃), para três níveis de significância (𝛼 =
0,01; 0,05; 0,10) e cinco valores da precisão da estimação (𝑑𝑎𝑏𝑠 = 0,01; 0,02; 0,03; 0,05; 0,10).
3.2.2 Teste para uma proporção

Seja 𝑃 a proporção de certo atributo encontrada em uma população e suponha-se que a investigação
consista em comparar a proporção populacional com um valor preestabelecido 𝑃0 . Assim, esse
problema pode ser formalizado por meio do teste das hipóteses 𝐻0 :⁡𝑃⁡ = ⁡ 𝑃0 ⁡versus 𝐻1 :⁡𝑃⁡ ≠ ⁡ 𝑃0 , aqui
ilustrado pelo caso bilateral.

Para o cálculo do tamanho da amostra 𝑛, consideram-se o poder do teste (1 − 𝛽) e a probabilidade do


erro tipo I, 𝛼. Rejeita-se 𝐻0 , no nível de significância 𝛼, se ∣ 𝑃̂ − 𝑃0 ∣> 𝑐, ou seja, se 𝑃𝑟⁡(∣ 𝑃̂ − 𝑃0 ∣>
𝑐) = 𝛼/2. Como, sob 𝐻0 , a distribuição de 𝑃̂ é aproximadamente 𝑁(𝑃0 ; 𝑃0 (1 − 𝑃0 )/𝑛), o valor de
𝑐,⁡frequentemente chamado de ponto crítico, será dado por:

𝑃0 (1 − 𝑃0 )
𝑐 = 𝑃0 + 𝑧1−𝛼/2 ⁡√ (3.7)
𝑛

Como, sob 𝐻1 , a distribuição de 𝑃̂ é aproximadamente 𝑁(𝑃₁; 𝑃₁(1 − 𝑃₁)/𝑛), o valor de 𝑐 será:

𝑃1 (1 − 𝑃1 )
𝑐 = 𝑃1 + 𝑧1−𝛽 ⁡√ (3.8)
𝑛

Igualando (3.7) a (3.8) e considerando-se 𝑃0 o valor preestabelecido ou fixado com o qual se compara
a proporção obtida na amostra e o valor da hipótese alternativa 𝑃₁, pode-se calcular 𝑛 a partir
da fórmula:

2
(𝑧1−𝛼/2 √𝑃0 (1 − 𝑃0 ) + 𝑧1−𝛽 √𝑃1 (1 − 𝑃1 )) (3.9)
𝑛=
(𝑃1 − 𝑃₀)2

Como não se sabe se 𝑃1 é maior ou menor que 𝑃0 (a hipótese é bilateral), deve-se calcular 𝑛 duas
vezes: 𝑃1 < 𝑃₀ e 𝑃1 > 𝑃₀. O tamanho da amostra será o maior dos dois números. Para o caso de
hipóteses unilaterais, basta substituir o percentil 𝑧1−𝛼/2 que aparece em (3.9) pelo percentil 𝑧1−𝛼 .
Dessa forma, 𝛼 não deve ser distribuído nas duas caudas (𝛼/2 em cada cauda da curva), mas deve ser
2
(𝑧1−𝛼 √𝑃0 (1−𝑃0 )+𝑧1−𝛽 √𝑃1 (1−𝑃1 ))
acumulado completamente em uma cauda, resultando na fórmula 𝑛 = (𝑃1 −𝑃0 )2
.
Exemplo 3.3 - Tamanho da amostra para o teste para uma proporção ╬╬

Após mudar a abordagem terapêutica padrão em um hospital, deseja-se verificar se a taxa de sucesso
no tratamento continua a mesma, no caso, 70%, com capacidade de detectar diferença de pelo menos
10 pontos percentuais.

Fixando-se o poder em 80% e a confiança em 95%, a questão é calcular o número de pacientes para um
estudo que tem como objetivo avaliar a nova terapêutica. Pela informação fornecida, 𝑃₀ = 0,70 e, por
precaução, devem-se considerar as duas situações: 10 pontos percentuais acima de 70% (80%) ou a
situação menos favorável de estar abaixo de 70%, correspondendo a apenas 60% de sucesso.
Os cálculos necessários aplicando a fórmula (3.9) são apresentados no Quadro 3.1.

Quadro 3.1 - Cálculos aplicando a fórmula (3.9)


2
(𝑧1−𝛼/2 √𝑃0 (1 − 𝑃0 ) + 𝑧1−𝛽 √𝑃1 (1 − 𝑃1 ))
Condição 𝑛=
(𝑃1 − 𝑃₀)2
2
(1,96√0,70(0,30) + 0,84√0,80(0,20))
𝑃1 > 𝑃₀ (𝑃1 = 0,80) 𝑛= = 152,32 ≅ 153
(0,80 − 0,70)2
2
(1,96√0,70(0,30) + 0,84√0,60(0,40))
𝑃1 < 𝑃₀⁡(𝑃1 = 0,60) 𝑛= = 171,53 ≅ 172
(0,60 − 0,70)2

Assim, se 𝑃1 > 𝑃₀ o tamanho de amostra necessário será 153 e 172 quando 𝑃1 < 𝑃₀. Neste exemplo,
o valor de 𝑛 obtido com 𝑃1 < 𝑃₀⁡é superior e, portanto, deve ser escolhido para a realização do estudo.

3.3 Tamanho de amostra para estimação e testes de hipóteses para proporções no


caso de duas amostras independentes

Um problema comum em pesquisa na área da saúde, que aparece frequentemente em todos os tipos de
estudos clínicos, é comparar dois grupos a partir do resultado observado em uma variável dicotômica.
A variável de interesse é a ocorrência de um evento, como o desenvolvimento de uma doença ou a
existência de certo atributo, por exemplo, albinismo.

O problema de comparação das probabilidades de ocorrência do evento ou do atributo nos dois grupos
(𝑃1 e 𝑃2 ) pode ser formulado, assim como na seção para uma amostra (seção 3.2), no contexto de
estimação e testes de hipóteses. As seções a seguir referem-se ao dimensionamento de amostras para a
estimação da diferença de duas proporções e para testes de hipóteses baseados em dois parâmetros:
diferença de duas proporções ou na medida conhecida como odds ratio.

3.3.1 Estimação da diferença de duas proporções

Sejam 𝑃1 ⁡e 𝑃2⁡ ⁡as proporções dos elementos em duas populações independentes que possuem a
característica de interesse e 𝑃̂1 e 𝑃̂2 seus respectivos estimadores. A diferença absoluta entre as
proporções (𝑃1 − 𝑃2⁡ ) é denominada diferença de risco e pode ser estimada por 𝑃̂1 − 𝑃̂2⁡ , isto é,
a diferença das proporções amostrais.

O estimador (𝑃̂1 − 𝑃̂2 ) tem aproximadamente distribuição normal, com média (𝑃1 − 𝑃2⁡ ) e variância
𝑃1 (1 − 𝑃1 )/𝑛1⁡ + 𝑃2 (1 − 𝑃2 )/𝑛2⁡ .

Seguindo a mesma lógica da situação de uma única proporção, supondo que os grupos são de igual
tamanho (𝑛1⁡ = 𝑛2⁡ = 𝑛), a quantidade 𝑑𝑎𝑏𝑠 equivalente à distância em ambas as direções dos erros de
estimativas das diferenças das proporções pode ser escrita como:

𝑃̂1 (1 − 𝑃̂1 ) + 𝑃̂2 (1 − 𝑃̂2 ) (3.10)


𝑑𝑎𝑏𝑠 = ⁡ 𝑧1−𝛼/2 √
𝑛

A partir da fórmula (3.10), obtém-se a seguinte expressão para o cálculo de 𝑛:

(𝑧1−𝛼/2 )2⁡ [𝑃̂1 (1 − 𝑃̂1 ) + 𝑃̂2 (1 − 𝑃̂2 )]


𝑛= (3.11)
(𝑑𝑎𝑏𝑠 )2

Exemplo 3.4 - Tamanho de amostra para a estimação da diferença de duas proporções no caso de
duas amostras independentes ╬╬

Para determinar a prevalência de obesidade em duas diferentes populações definidas pela condição
socioeconômica, foi realizado estudo-piloto tendo sido obtidas as seguintes estimativas: 𝑃̂1 = 0,40⁡
e 𝑃̂2 = 0,28.
Considerando-se que os dois grupos deverão ter o mesmo tamanho (𝑛1⁡ = 𝑛2⁡ = 𝑛), fixando-se o nível
de significância em 5% (𝛼 = 0,05) e erro máximo de estimação igual a 0,10 (𝑑𝑎𝑏𝑠 = 0,10),
o tamanho de amostra para cada grupo, obtido a partir da fórmula (3.11) é 170. Os cálculos estão
mostrados no Quadro 3.2.

Quadro 3.2 - Cálculos aplicando a fórmula (3.11)

(𝑧1−𝛼/2 )2⁡ [𝑃̂1 (1 − 𝑃̂1 ) + 𝑃̂2 (1 − 𝑃̂2 )]


⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡𝑛 =
(𝑑𝑎𝑏𝑠 )2

1,962⁡ [0,40(0,60) + 0,28(0,72)]


= = 169.69 ≅ 170
(0,10)2

3.3.2 Teste para a diferença de duas proporções

No contexto de testes de hipóteses, o problema de comparação das proporções dos dois grupos
(𝑃1 e 𝑃2 ) é formulado pelas hipóteses: ⁡𝐻0 :⁡𝑃1 = 𝑃2 ⁡𝑣𝑒𝑟𝑠𝑢𝑠⁡𝐻1 :⁡𝑃1 ⁡ ≠ 𝑃2 .

Para o cálculo do tamanho de cada grupo (𝑛1⁡ e 𝑛2⁡ ), deve-se estabelecer a diferença mínima que
se quer detectar juntamente com o nível de significância e o poder apropriados. Assim, como na
seção anterior, 𝑉𝑎𝑟(𝑃̂1 − 𝑃̂2 ) = 𝑉𝑎𝑟(𝑃̂1 ) + 𝑉𝑎𝑟(𝑃̂2 ) = 𝑃1 (1 − 𝑃1 )/𝑛1⁡ + 𝑃2 (1 − 𝑃2 )/𝑛2⁡ . Sob 𝐻0 ,
considerando 𝑃1 = 𝑃2 = 𝑃, 𝑉𝑎𝑟(𝑃̂1 − 𝑃̂2 ) = 𝑃(1 − 𝑃)/𝑛1⁡ + 𝑃(1 − 𝑃)/𝑛2⁡ = 𝑃(1 − 𝑃)(1/𝑛1⁡ +
1/𝑛2⁡ ) e se 𝑛1⁡ = 𝑛2⁡ = 𝑛, 𝑉𝑎𝑟(𝑃̂1 − 𝑃̂2 ) = 2𝑃(1 − 𝑃)/𝑛.

Definindo o ponto médio das proporções 𝑃̅ = (𝑃1 + 𝑃2 )/2⁡e assumindo balanceamento (𝑛1⁡ = 𝑛2⁡ =
𝑛), o tamanho de cada grupo (𝑛) necessário para se testar hipóteses bilaterais será obtido por:

2
(𝑧1−𝛼/2 √2𝑃̅ (1 − 𝑃̅) + 𝑧1−𝛽 √𝑃1 (1 − 𝑃1 ) + 𝑃2 (1 − 𝑃2 ))
𝑛= (3.12)
(𝑃1 − 𝑃2 )2

Para o caso de hipóteses unilaterais, basta substituir o percentil 𝑧1−𝛼/2 que aparece em (3.12) pelo
percentil por 𝑧1−𝛼 . Dessa forma, 𝛼 não deve ser distribuído nas duas caudas como para hipóteses
bilaterais (𝛼/2 em cada cauda da curva), mas acumulado completamente em uma cauda.
Exemplo 3.5 - Tamanho de amostra utilizando o teste para a diferença de duas proporções ╬╬

Deseja-se realizar estudo para comparar eventual diferença entre dois tratamentos. Por estudos
anteriores, sabe-se que os percentuais nos dois grupos são 60% e 80%, isto é, 𝑃1 = 0,60 e 𝑃2 = 0,80.
Fixando-se nível de significância igual a 5% (𝛼 = 0,05) e poder igual a 0,90 e 0,80, os números de
pacientes em cada grupo (𝑛)⁡são 109 e 82, respectivamente. Os cálculos da aplicação da fórmula (3.12)
estão mostrados no Quadro 3.3.

Quadro 3.3 - Cálculos aplicando a fórmula (3.12)


2
(𝑧1−𝛼/2 √2𝑃̅(1 − 𝑃̅) + 𝑧1−𝛽 √𝑃1 (1 − 𝑃1 ) + 𝑃2 (1 − 𝑃2 ))
Poder 𝑛=
(𝑃1 − 𝑃2 )2

2
90% (1,96√2(0,7)(0,3) + 1,28√0,60(0,40) + 0,80(0,20))
𝑛= = 108,24 ≅ 109
(0,60 − 0,80)2

2
80% (1,96√2(0,7)(0,3) + 0,84√0,60(0,40) + 0,80(0,20))
𝑛= = 81,22 ≅ 82
(0,60 − 0,80)2

3.3.3 Teste para a razão de chances (odds ratio)

Suponha-se estudo planejado com dois grupos (por exemplo, o grupo que recebeu o tratamento e o
grupo-controle) a serem comparados em termos de proporções (respectivamente 𝑃1 e 𝑃2 ) e que a
medida de comparação seja do tipo razão, com a chamada razão de chances (em inglês, odds ratio),
1 𝑃 2 𝑃
definida como 𝑂𝑅 = (1−𝑃 ) / (1−𝑃 ). É muito comum utilizar a transformação logarítmica:
1 2

𝜃 = 𝑙𝑜𝑔{𝑂𝑅} = 𝑙𝑜𝑔{[𝑃1 (1 − 𝑃2 )]/[𝑃2 (1 − 𝑃1 )]}.

Se o objetivo é avaliar a evidência de diferença estatística entre os dois grupos utilizando a medida 𝑂𝑅
ou, equivalentemente, 𝜃 = 𝑙𝑜𝑔{𝑂𝑅}, as hipóteses podem ser formuladas como 𝐻0 : os dois tratamentos
têm igual efeito (𝑂𝑅 = 1 ⟺ 𝜃 = 0) versus 𝐻1 : os dois tratamentos não têm igual efeito (𝑂𝑅 ≠ 1 ⟺
𝜃 ≠ 0). A partir dessas hipóteses, uma fórmula para calcular o tamanho da amostra pode ser
determinada (CAMPBELL et al., 1995; JULIOUS et al., 1997, 2000; WHITEHEAD, 1993).

Segundo Whitehead (1993), a variância da estatística 𝑙𝑜𝑔 de odds ratio é 6/[𝑛1 (1 − (𝑃̅3 + (1 − 𝑃̅ )3 )],
sendo 𝑃̅ = (𝑃1 + 𝑃2 )/2. E segundo Julious (2010), o tamanho da amostra para cada grupo, supondo-se
balanceamento (𝑛1 = 𝑛2 = 𝑛), é dado por:

2
6(𝑧1−𝛼/2 + 𝑧1−𝛽 ) /(𝜃)2
𝑛= (3.13)
1 − (𝑃̅3 + (1 − 𝑃̅ )3 )

Outra possibilidade é fazer a comparação das proporções baseando-se na medida odds ratio utilizando-
se o teste de Wald. Segundo Wang et al. (2002), para hipóteses bilaterais, o tamanho de amostra para o
grupo 2 é dado por:

𝑧1−𝛼/2 + 𝑧1−𝛽 2 1 1
𝑛2(𝑊) = ( ) ( + ) (3.14)
𝜃1 𝑟𝑃1⁡ (1 − 𝑃1⁡ ) 𝑃2 (1 − 𝑃2 )

Em (3.14), o parâmetro⁡𝜃1 refere-se a possíveis valores de 𝑙𝑜𝑔(𝑂𝑅) sob 𝐻1 ; 𝛼 e (1 − 𝛽) são o nível de


significância e o poder do teste da comparação dos grupos 1 e 2, 𝑧1−𝛼/2 e 𝑧1−𝛽 ⁡são os percentis de
ordem (1 − 𝛼/2)100% e (1 − 𝛽)100% da normal padrão;⁡𝑟 é a razão dos tamanhos dos dois grupos;
𝑒𝑥𝑝{𝜃 }𝑃
𝑃1 = 1+(𝑒𝑥𝑝{𝜃1 }−1)𝑃
2
é a probabilidade de sucesso no grupo 1; 𝑃2 é a probabilidade antecipada de
1 2

sucesso no grupo 2. Para o grupo 1,⁡𝑛1(𝑊) = 𝑟𝑛2(𝑊) .

Finalmente, uma possibilidade bem simples para o dimensionamento de amostra que leva em conta a
medida odds ratio (𝑂𝑅) é pensar que, fixado um valor para 𝑂𝑅 e conhecido o valor da probabilidade
𝑃 (𝑂𝑅)
do grupo-controle (𝑃2 ), a probabilidade do outro grupo (𝑃1 ) pode ser reescrita como 𝑃1 = 1+𝑃2 (𝑂𝑅−1).
2

O próximo passo é utilizar a fórmula (3.12) para o dimensionamento de amostras baseado em diferença
de proporções, entrando como dados os valores de 𝑃1 e 𝑃2 além dos percentis 𝑧1−𝛼/2 e 𝑧1−𝛽 ⁡de ordem
(1 − 𝛼/2)100% e (1 − 𝛽)100% da normal padrão.

Exemplo 3.6 - Tamanho de amostra utilizando a medida odds ratio no caso de duas
amostras independentes ╬╬

Quando se espera observar 2% do evento pesquisado no grupo-controle (𝑃2 = 0,02) e supondo que um
valor de odds ratio igual a três (𝑂𝑅 = 3) seja considerado razoável para detectar a diferença entre os
𝑃 (𝑂𝑅) 0,02(3)
dois grupos, o percentual do grupo-tratamento é aproximadamente 6% (𝑃1 = 1+𝑃2 (𝑂𝑅−1) = 1+0,02(2) ≅
2

0,06). Fixando-se o nível de significância e o poder do teste em 5% e 95%, respectivamente, pela


fórmula (3.12) para a diferença de proporções, o número de elementos em cada grupo (𝑛) é 621,
resultando no total da amostra de 2 × 621 = 1.242. Ao se considerar hipótese unilateral, trocando
𝑧1−𝛼/2 por 𝑧1−𝛼 , o resultado cai para 𝑛 = 517 em cada grupo, portanto, o total da amostra
será de 1.034.

Aplicando a fórmula (3.13) na versão de hipótese bilateral com 𝑃1 = 0,06 e 𝑃2 = 0,02, que
corresponde a 𝑂𝑅 = 3,13, chega-se à conclusão de que 𝑛 = 521; invertendo-se os valores das
probabilidades, isto é, 𝑃1 = 0,02 e 𝑃2 = 0,06, que corresponde a 𝑂𝑅 = 1/3,13 = 0,32, 𝑛 = 521,
exatamente o mesmo valor obtido anteriormente. Já quando o valor de 𝑂𝑅 é forçado em ser
praticamente 3, 𝑛 = 577, bem superior aos obtidos anteriormente, havendo significante impacto do
valor de 𝑂𝑅 no valor de 𝑛.

Aplicando a fórmula (3.14) na versão de hipótese bilateral com 𝑃1 = 0,06, 𝑃2 = 0,02 e 𝑂𝑅⁡ = 3,13,
o tamanho da amostra em cada grupo é 688 e, portanto, um total de 1.376. Quando 𝑃1 = 0,0577,
𝑃2 = 0,02 e 𝑂𝑅 = 3,0, 𝑛 = 748, totalizando 1.496. A Tabela 3.3 resume os resultados utilizando as
três fórmulas: (3.12), (3.13) e (3.14).

Tabela 3.3 - Tamanhos de amostra obtidos pelas fórmulas (3.12), (3.13) e (3.14) para algumas
combinações de valores de probabilidade (𝑃1 e 𝑃2 ) de ocorrência do evento nos dois grupos

𝑃1 𝑃2 𝑂𝑅 Fórmula 𝑛 Total Bilateral?


0,02 0,06 3,0 (3.12) 621 1.242 Sim
0,02 0,06 3,0 (3.12) 517 1.034 Não
0,06 0,02 3,13 (3.13) 521 1.042 Sim
0,02 0,06 0,32 (3.13) 521 1.042 Sim
0,0577 0,02 3,0 (3.13) 577 1.154 Sim
0,06 0,02 3,13 (3.14) 688 1.376 Sim
0,0577 0,02 3,0 (3.14) 748 1.496 Sim
Nota: nível de significância de 5% e poder de 95%.

Em resumo, para a fórmula (3.12), como esperado, o tamanho de amostra é bem superior no caso de
hipótese bilateral comparado à hipótese unilateral. Quando 𝑃1 = 0,06, 𝑃2 = 0,02 e 𝑂𝑅 = 3,13,
o tamanho da amostra fornecido pela fórmula (3.14), 𝑛 = 688, é bem superior ao da fórmula (3.13):
𝑛 = 521, ou seja, são 167 indivíduos a mais por grupo ou 334 no total.
3.4 Tamanho de amostra para duas proporções no caso de duas amostras pareadas

É muito frequente o planejamento em que cada caso é pareado com um controle (ou emparelhado com
vários controles). Em inglês, esse planejamento é conhecido como Matched Case-Control.

O teste de McNemar é a forma usual para a comparação de proporções nos estudos em que os dados
foram coletados de forma pareada, quando cada caso tem apenas um controle. Será considerado o
contexto de experimento clínico com pareamento, mas o teste pode ser aplicado para outros tipos de
dados pareados, por exemplo, estudo caso-controle pareado ou avaliações feitas em duas ocasiões.

De forma geral, a nomenclatura adotada é sucesso (𝑆) e fracasso (𝐹) para a ocorrência ou não do
evento de interesse. Assim, os pares de elementos dos grupos tratamento e controle são: (𝑆, 𝑆), (𝑆, 𝐹),
(𝐹, 𝑆) e (𝐹, 𝐹). A distribuição de probabilidades e a forma de apresentação genérica dos dados a serem
analisados no processo de comparação estão mostradas nas tabelas 3.4 e 3.5.

Tabela 3.4 - Distribuição de probabilidades obtida em uma classificação de dados pareados


Tratamento
Controle Total
Sucesso (𝑆) Fracasso (𝐹)
Sucesso (𝑆) 𝑝11 𝑝12 𝑝1.
Fracasso (𝐹) 𝑝21 𝑝22 1 − 𝑝1.
Total 𝑝.1 1 − 𝑝.1 1

Tabela 3.5 - Distribuição dos resultados de uma classificação de dados pareados


(concordantes: 𝑆𝑆 e 𝐹𝐹; discordantes: 𝑆𝐹 e 𝐹𝑆)
Tratamento
Controle Total
Sucesso (𝑆) Fracasso (𝐹)
Sucesso (𝑆) 𝑘 𝑟 𝑛1
Fracasso (𝐹) 𝑠 𝑙 𝑛2
Total 𝑚1 𝑚2 𝑁

A hipótese de interesse é da igualdade das probabilidades marginais. Concentrando na probabilidade de


sucesso, 𝐻0 :⁡𝑝1. = 𝑝.1 versus 𝐻1 :⁡𝑝1. ≠ 𝑝.1 ou, equivalentemente, 𝐻0 :⁡𝑝1. − 𝑝.1 = 0 versus
𝐻1 :⁡𝑝1. − 𝑝.1 ≠⁡0. Como 𝑝1. − 𝑝.1 = (𝑝11 + 𝑝12 ) − (𝑝11 + 𝑝21 ) = 𝑝12 − 𝑝21 , a hipótese de interesse
pode ser reescrita como 𝐻0 : 𝑝12 = 𝑝21 versus 𝐻1 : 𝑝12 ≠ 𝑝21 , em termos das probabilidades das
discordâncias.
𝑟+𝑠 1 2
(|r− |− )
2 2 2
Usando a correção de continuidade, a estatística do teste de McNemar é: 𝑋𝑀𝑐𝑁 = 𝑟+𝑠 ⁡+
2

𝑟+𝑠 1 2
(|s− |− ) (|r−s|−1)2
2 2
⁡ 𝑟+𝑠 ⁡=⁡ . A regra de decisão do teste consiste em se rejeitar 𝐻0 quando
𝑟+𝑠
2

2 (|𝑟−𝑠|−1)2 2 2
𝑋𝑀𝑐𝑁 ⁡=⁡ ⁡ > ⁡ 𝜒1,1−𝛼 , sendo 𝜒1,1−𝛼 o percentil de ordem (1 − 𝛼)100% da distribuição qui-
𝑟+𝑠

quadrado com 1 grau de liberdade.

No caso de amostras pareadas, a razão de chances (odds ratio) é definida por: 𝑂𝑅𝑀𝑐𝑁 = 𝑝12 /𝑝21 e sua
̂ 𝑀𝑐𝑁 = 𝑟/𝑠, cujo desvio-padrão na escala logarítmica é dado por
estimativa reduz-se a 𝑂𝑅

̂ 𝑀𝑐𝑁 )) = √𝑟+𝑠 = √1 + 1. Um intervalo de confiança (𝐼𝐶) aproximado para a razão de


𝐷𝑃(𝑙𝑜𝑔(𝑂𝑅 𝑟𝑠 𝑟 𝑠

̂ 𝑀𝑐𝑁 ) ±
chances na escala logarítmica é construído da forma usual, ou seja, é dado por 𝑙𝑜𝑔(𝑂𝑅
̂ 𝑀𝑐𝑁 )) = (𝐿𝑖𝑛𝑓 ; 𝐿𝑠𝑢𝑝 ). 𝐼𝐶 depende da estimativa da razão de chances (𝑂𝑅
𝑧1−𝛼/2 𝐷𝑃(𝑙𝑜𝑔(𝑂𝑅 ̂ 𝑀𝑐𝑁 ) e de

seu desvio-padrão e ambos dependem dos números das discordâncias, além do percentil 𝑧1−𝛼/2 da
distribuição normal.

Para a obtenção do intervalo de confiança para o parâmetro 𝑂𝑅𝑀𝑐𝑁 , basta exponenciar 𝐿𝑖𝑛𝑓 e 𝐿𝑠𝑢𝑝 .
̂ 𝑀𝑐𝑁 ) ± 𝑧1−𝛼/2 𝐷𝑃(𝑙𝑜𝑔(𝑂𝑅
Assim, 𝑒𝑥𝑝{𝑙𝑜𝑔(𝑂𝑅 ̂ 𝑀𝑐𝑁 ))}. Existem formas alternativas para se calcular o

intervalo de confiança para a razão de chances para dados pareados (𝑂𝑅𝑀𝑐𝑁 ). Por exemplo, o método
utilizado no software EpiInfo difere do apresentado aqui.

Para dados pareados com resposta binária, usualmente a forma de cálculo de tamanho de amostra é
baseada na medida odds ratio (𝑂𝑅𝑀𝑐𝑁 = 𝑝12 /𝑝21 ). A seguir serão apresentadas as fórmulas de Connett
et al. (1987), que também aparecem em Julious et al. (1999). O nível de significância e o poder do teste
serão fixados em 𝛼 e (1 − 𝛽), respectivamente.

A fórmula para o número de pares discordantes é dada por:

2
(𝑧1−𝛼/2 (𝑂𝑅𝑀𝑐𝑁 + 1) + 2𝑧1−𝛽 √𝑂𝑅𝑀𝑐𝑁 )
𝑛𝑑𝑖𝑠𝑐 = (3.15)
(𝑂𝑅𝑀𝑐𝑁 − 1)2

O total da amostra, ou o número total de pares (𝑛𝑀𝑐𝑁 ), depende da proporção de discordâncias


(𝑝𝑑𝑖𝑠𝑐 = 𝑝12 + ⁡ 𝑝21 ), além de 𝑂𝑅𝑀𝑐𝑁 , do nível de significância e do poder da seguinte forma:
2
(𝑧1−𝛼/2 (𝑂𝑅𝑀𝑐𝑁 + 1) + 𝑧1−𝛽 √(𝑂𝑅𝑀𝑐𝑁 + 1)2 − (𝑂𝑅𝑀𝑐𝑁 − 1)2 𝑝𝑑𝑖𝑠𝑐 )
𝑛𝑂𝑅,𝑀𝑐𝑁 = (3.16)
(𝑂𝑅𝑀𝑐𝑁 − 1)2 𝑝𝑑𝑖𝑠𝑐

Na prática pode ser difícil estabelecer os valores de 𝑝12 e 𝑝21 , consequentemente a proporção de
discordâncias (𝑝𝑑𝑖𝑠𝑐 ) que aparece na fórmula (3.16), mas pode ser relativamente mais fácil especificar
as probabilidades marginais 𝑝1. e 𝑝.1. Como o tamanho de amostra máximo é obtido se as distribuições
forem independentes, de forma conservadora Royston (1993) sugeriu estimar 𝑝12 por 𝑝1. (1 − 𝑝.1 ) e
𝑝21 por 𝑝.1 (1 − 𝑝1. ).

Outros métodos serão apresentados ou comentados no capítulo 8 no contexto de estudos de acurácia de


testes de diagnósticos quando as amostras são pareadas.

Exemplo 3.7 - Tamanho de amostra utilizando a medida odds ratio no caso de duas
amostras pareadas ╬╬

Julious et al. (1999) apresentam dados de Morrison et al. (1991) sobre um estudo do tipo caso-controle
pareado baseado em 40 pares. O objetivo era identificar as razões pelas quais algumas crianças
recebem mais atendimentos de clínicos gerais fora do horário de atendimento que outras. Os casos
consistiam de crianças abaixo de 10 meses que foram identificadas como usuárias de alto atendimento
fora do horário, enquanto que os controles, crianças na mesma faixa de idade, foram as de baixo
atendimento dentro do horário. Houve pareamento de caso e controle por idade e sexo. As demais
condições avaliadas referem-se ao estado civil da mãe, classificadas da seguinte forma: ser solteira ou
divorciada (𝑆) e ser casada ou morar com o companheiro (𝐹).

Dos 40 pares do estudo de Morrison et al. (1991), houve 𝑟 + 𝑠 = 12 + 1 = 13 discordâncias. Assim,


2
𝑋𝑀𝑐𝑁 ̂ 𝑀𝑐𝑁 = 𝑟/𝑠 = 12 indicam diferença significativa entre os grupos
= 7,69 (valor-p=0,0056) e 𝑂𝑅
comparados.

Suponha-se que novo estudo similar ao de Morrison et al. (1991) tenha que ser planejado, mas os
pesquisadores esperam que 40% dos casos difiram de seus controles (𝑝𝑑𝑖𝑠𝑐 = 𝑝12 + ⁡ 𝑝21 = 0,40).
Além disso, os pesquisadores acreditam que a chance de uma mãe solteira ou divorciada ser uma
usuária de alto atendimento fora do horário é cerca de três vezes maior que a de uma mãe casada ou
que mora com o companheiro (𝑂𝑅𝑀𝑐𝑁 = 3).
Por exemplo, para o nível de significância de 5% e poder de 80%, aplicando a fórmula (3.16), são
necessários 77 casos e 77 controles (cálculos no Quadro 3.4), o que significa 156 participantes.

Quadro 3.4 - Cálculos aplicando a fórmula (3.16)

2
(𝑧1−𝛼/2 (𝑂𝑅𝑀𝑐𝑁 + 1) + 𝑧1−𝛽 √(𝑂𝑅𝑀𝑐𝑁 + 1)2 − (𝑂𝑅𝑀𝑐𝑁 − 1)2 𝑝𝑑𝑖𝑠𝑐 )
𝑛𝑂𝑅,𝑀𝑐𝑁 =
(𝑂𝑅𝑀𝑐𝑁 − 1)2 𝑝𝑑𝑖𝑠𝑐

2
(1,96(3 + 1) + 0,84√(3 + 1)2 − (3 − 1)2 0,40) 121,61
= = = 76,0046⁡ ≈ 77
(3 − 1)2 0,40 1,60

Agora, suponha-se que seja impossível especificar 𝑝12 e 𝑝21 , mas que se tenha a informação de que
10% de controles sejam de mães solteiras ou divorciadas comparadas com 30% dos casos, logo tem-se
ideia acerca das probabilidades marginais (𝑝1. = 0,1 e 𝑝.1 = 0,3). Assumindo independência, estima-se
que 𝑝12 seja 𝑝1. (1 − 𝑝.1 ) = 0,1 × 0,7 = 0,07, enquanto que 𝑝21 é estimado por 𝑝.1 (1 − 𝑝1. ) = 0,3 ×
0,9 = 0,27. Assim, 𝑝𝑑𝑖𝑠𝑐 = 𝑝12 + ⁡ 𝑝21 = 0,07 + 0,27 = 0,34 e 𝑂𝑅𝑀𝑐𝑁 = 𝑝12 /𝑝21 = 0,07/0,27 =
0,26.

A Tabela 3.6 e a Figura 3.3 mostram os números de pares calculados pela fórmula (3.16) para alguns
valores de odds ratio (𝑂𝑅𝑀𝑐𝑁 ) e da proporção de discordâncias 𝑝𝑑𝑖𝑠𝑐 = 𝑝12 + ⁡ 𝑝21 quando o poder é
fixado em 90%. Como 𝑛𝑀𝑐𝑁 fornece o número de casos que é igual ao número de controles, para obter
o número total de participantes basta multiplicar por dois.

A Tabela 3.7 mostra a relação entre os tamanhos das amostras apresentados na Tabela 3.6, com as seis
possíveis comparações dos valores de odds ratio. A notação 𝑛𝑖 /𝑛𝑗 denota a razão entre os tamanhos de
amostras, comparando 𝑂𝑅𝑀𝑐𝑁 = 𝑖 (no numerador) com 𝑂𝑅𝑀𝑐𝑁 = 𝑗 (no denominador). Por exemplo,
𝑛2 /𝑛3 é a razão entre os tamanhos de amostra referentes a 𝑂𝑅𝑀𝑐𝑁 = 2 e 𝑂𝑅𝑀𝑐𝑁 = 3.
Tabela 3.6 - Números de pares (𝑛𝑀𝑐𝑁 ), calculados pela fórmula (3.16), em um estudo do tipo
caso-controle pareado, para alguns valores de odds ratio (𝑂𝑅𝑀𝑐𝑁 ) e da proporção de
discordâncias (𝑝𝑑𝑖𝑠𝑐 ), nível de significância de 5% e poder de 90%

Odds ratio (𝑂𝑅𝑀𝑐𝑁 )


𝑝𝑑𝑖𝑠𝑐 = 𝑝12 + ⁡ 𝑝21
2 3 5 10
0,05 1.888 837 469 310
0,10 942 417 233 153
0,15 627 277 154 101
0,20 469 206 114 75
0,25 375 164 91 59
0,30 312 136 75 49
0,35 267 116 64 41
0,40 233 101 55 35
0,45 206 90 49 31
0,50 185 80 43 27
0,55 168 73 39 25
0,60 154 66 36 22
0,65 142 61 33 20
0,70 131 56 30 18
0,75 122 52 28 17
0,80 114 49 26 15
0,85 108 46 24 14
0,90 101 43 22 13
0,95 96 40 21 12
1,00 91 38 20 11
Tabela 3.7 - Razão dos tamanhos de amostras comparando
os valores de odds ratio (𝑂𝑅𝑀𝑐𝑁 ) da Tabela 3.6

Razão dos tamanhos de amostras


𝑝𝑑𝑖𝑠𝑐
𝑛2 /𝑛3 𝑛2 /𝑛5 𝑛2 /𝑛10 𝑛3 /𝑛5 𝑛3 /𝑛10 𝑛5 /𝑛10
0,05 2,26 4,03 6,09 1,78 2,70 1,51
0,10 2,26 4,04 6,16 1,79 2,73 1,52
0,15 2,26 4,07 6,21 1,80 2,74 1,52
0,20 2,28 4,11 6,25 1,81 2,75 1,52
0,25 2,29 4,12 6,36 1,80 2,78 1,54
0,30 2,29 4,16 6,37 1,81 2,78 1,53
0,35 2,30 4,17 6,51 1,81 2,83 1,56
0,40 2,31 4,24 6,66 1,84 2,89 1,57
0,45 2,29 4,20 6,65 1,84 2,90 1,58
0,50 2,31 4,30 6,85 1,86 2,96 1,59
0,55 2,30 4,31 6,72 1,87 2,92 1,56
0,60 2,33 4,28 7,00 1,83 3,00 1,64
0,65 2,33 4,30 7,10 1,85 3,05 1,65
0,70 2,34 4,37 7,28 1,87 3,11 1,67
0,75 2,35 4,36 7,18 1,86 3,06 1,65
0,80 2,33 4,38 7,60 1,88 3,27 1,73
0,85 2,35 4,50 7,71 1,92 3,29 1,71
0,90 2,35 4,59 7,77 1,95 3,31 1,69
0,95 2,40 4,57 8,00 1,90 3,33 1,75
1,00 2,39 4,55 8,27 1,90 3,45 1,82
Média 2,32 4,28 6,94 1,85 2,99 1,62
Desvio-padrão 0,04 0,17 0,66 0,05 0,23 0,09
CV(%) 1,75 4,08 9,49 2,51 7,81 5,55
Mínimo 2,26 4,03 6,09 1,78 2,70 1,51
Máximo 2,40 4,59 8,27 1,95 3,45 1,82
Nota: 𝑛𝑖 /𝑛𝑗 denota a razão entre os tamanhos de amostras comparando 𝑂𝑅𝑀𝑐𝑁 = 𝑖 (no numerador) com
𝑂𝑅𝑀𝑐𝑁 = 𝑗 (no denominador); por exemplo, 𝑛2 /𝑛3 é a razão entre os tamanhos de amostras referentes a
𝑂𝑅𝑀𝑐𝑁 = 2 e 𝑂𝑅𝑀𝑐𝑁 = 3.
2000 O R_McN
2,0
3,0
5,0
10,0
1500

n_McN 1000

500

0,0 0,2 0,4 0,6 0,8 1,0


p_disc

Figura 3.3 - Números de pares (𝑛𝑀𝑐𝑁 ), calculados pela fórmula (3.16), em estudo do tipo caso-controle
pareado, em função da proporção de discordâncias (𝑝𝑑𝑖𝑠𝑐 ) para alguns valores de odds ratio (𝑂𝑅𝑀𝑐𝑁 ),
nível de significância de 5% e poder de 90%.

Pela Tabela 3.6, nota-se que, além do esperado efeito inversamente proporcional do valor de odds ratio
no tamanho da amostra, isto é, à medida que 𝑂𝑅𝑀𝑐𝑁 aumenta, o número de pares (𝑛𝑀𝑐𝑁 ) necessário
diminui, há também o efeito da proporção de discordâncias (𝑝𝑑𝑖𝑠𝑐 ) nesse mesmo sentido: quanto maior
for o valor de 𝑝𝑑𝑖𝑠𝑐 , menor será o número de pares (𝑛𝑀𝑐𝑁 ) necessário para garantir o poder fixado.

Destaca-se que a proporcionalidade existe tanto ao se comparar entre os valores de odds ratio (𝑂𝑅𝑀𝑐𝑁 )
como também entre os valores de 𝑝𝑑𝑖𝑠𝑐 . Tal fato se reflete nas entradas da Tabela 3.7 (por exemplo, os
valores da coluna 𝑛2 /𝑛3 ⁡estão em torno de 2,32) e nas curvas bem suaves que aparecem na Figura 3.3.
Embora os cálculos não sejam mostrados, pode-se facilmente notar que na comparação dos tamanhos
de amostra entre os valores de proporção de discordâncias (𝑝𝑑𝑖𝑠𝑐 ), a constante de proporcionalidade é
bem próxima da razão entre os valores de 𝑝𝑑𝑖𝑠𝑐 . Por exemplo, as razões dos valores da linha da tabela
referente a 𝑝𝑑𝑖𝑠𝑐 = 0,05 com os da linha 𝑝𝑑𝑖𝑠𝑐 = 0,10 são aproximadamente dois, que é exatamente o
valor da razão entre os valores de 𝑝𝑑𝑖𝑠𝑐 (0,05/010 = 2). O mesmo acontece com todas as outras
comparações, a proporcionalidade sempre é mantida.
3.5 Recursos computacionais para os cálculos do tamanho da amostra
e/ou do poder

As fórmulas fechadas de tamanho de amostra do capítulo foram programadas em planilhas Excel® e


elas se encontram disponíveis para os leitores (ver informações na apresentação do livro; os exemplos
com fórmulas programadas estão sinalizados por ╬╬ ).

Alternativamente, alguns cálculos de tamanho de amostra e/ou do poder dos testes discutidos ou
relacionados ao assunto do capítulo (por exemplo, utilizando métodos exatos) podem ser obtidos pelos
seguintes softwares/programas citados no capítulo 11: Pass®, nQuery Advisor®, Minitab®, PS: Power
and Sample Size Calculation, o programa desenvolvido pelo Laboratório de Epidemiologia e Estatística
(LEE) do Instituto Dante Pazzanese de Cardiologia, Epi Info, OpenEpi e os pacotes pwr e MESS do
software livre R.
4.1 Introdução

Neste capítulo são apresentadas fórmulas para dimensionamento de amostras de planejamentos muito
utilizados em pesquisas epidemiológicas e clínicas. Três deles (estudo de coorte, estudo caso-controle e
estudo transversal) são observacionais, isto é, o pesquisador restringe-se à coleta de dados.
Especialmente em estudos do tipo caso-controle, deve-se prestar atenção no fato de ter ou não
pareamento entre casos e controles. Taylor (1986) discute sobre o número de controles em um estudo
caso-controle com emparelhamento. Também é destacado um estudo do tipo experimental, comumente
chamado de ensaio clínico.

Detalhes sobre os tipos de delineamentos de estudos na área da saúde considerados no capítulo podem
ser encontrados em Breslow e Day (1980, 1987), Chow e Liu (2013), Jekel et al. (2005), Haynes et al.
(2006), Matthews (2006), Pereira (2008), Rothman et al. (2008), Medronho et al. (2009), Gordis
(2010), Siqueira e Tibúrcio (2011) e Hulley et al. (2015), entre outros.

Assim como nos capítulos anteriores, o dimensionamento de amostras pode ser feito usando tanto o
enfoque de estimação como o de testes de hipóteses. Neste último caso, podem ser utilizadas hipóteses
unilaterais ou bilaterais, dependendo da situação analisada.
O capítulo finaliza com uma seção dedicada a noções de amostragem e aos cálculos do tamanho de
amostra para os esquemas amostrais tradicionais, já citados no capítulo 1.

4.2 Estudos de coorte

Estudo de coorte é uma forma de pesquisa observacional que acompanha indivíduos ao longo do
tempo, com interesse em avaliar algum desfecho, por exemplo, a ocorrência de uma doença.
Inicialmente, os participantes são distribuídos em grupos, de acordo com sua situação quanto à
exposição investigada. Identificam-se um grupo exposto ao fator de risco e o grupo-controle,
constituído de pessoas que não foram expostas. Os dois grupos são acompanhados por um período
de tempo e as incidências da doença são calculadas. A Figura 4.1 ilustra o esquema geral de um
estudo de coorte.

E+: Exposto; E-: Não Exposto; D+: Doente; D-: Não Doente.
Figura 4.1 - Esquema ilustrativo de estudo de coorte.

4.2.1 Tamanho de amostra para estimação do risco relativo usando precisão relativa em
estudos de coorte

Se as taxas de incidência são significativamente diferentes nos dois grupos comparados (𝐸 + e 𝐸 − ),


o pesquisador conclui que há associação entre a doença e o fator investigado. Entre os pacientes
expostos, seja 𝑃1 a proporção dos que desenvolveram a doença e 𝑃0 a proporção análoga entre os
pacientes não expostos. A medida de efeito da exposição ao fator recebe o nome de risco relativo (𝑅𝑅)
e é definida por 𝑅𝑅 = 𝑃1 /𝑃0 . Para obter a estimativa de 𝑅𝑅 dentro de uma precisão relativa 𝑑𝑟𝑒𝑙 ,
com confiança de (1 − 𝛼)100%, o tamanho de amostra necessário em cada grupo, supondo
balanceamento, isto é, 𝑛1 = 𝑛0 = 𝑛, é dado por:
1−𝑃 1−𝑃
(𝑧1−𝛼/2 )2 ( 𝑃 1 + 𝑃 0 )
1 0 (4.1)
𝑛𝐶,𝐼𝐶,𝑅𝑅 = 2
[𝑙𝑜𝑔(1 − 𝑑𝑟𝑒𝑙 )]

Note-se que uma das proporções pode ser escrita em função de 𝑅𝑅, por exemplo, 𝑃1 = 𝑅𝑅 × 𝑃0 , tal
que 𝑛 é função de 𝑅𝑅.

Exemplo 4.1 - Tamanho da amostra em estudo de coorte com enfoque em intervalo de confiança
do risco relativo utilizando a precisão relativa ╬╬

Em um estudo de coorte, esperara-se que a prevalência do desfecho pesquisado no grupo exposto (𝐸 + )


seja cerca de 20%. Quer-se calcular o tamanho de amostra de um estudo de coorte tal que a estimativa
do risco relativo esteja dentro de 10% do verdadeiro valor, que se acredita (com 95% de confiança) seja
de aproximadamente 2,0.

A partir das informações fornecidas de que 𝑃1 = 0,20 e que 𝑅𝑅 = 2,0, é possível calcular
𝑃0 = 𝑃1 /𝑅𝑅 = 0,20/2,0 = 0,10. Substituindo os valores de 𝑃1 , 𝑃0 , 𝑅𝑅 e da precisão relativa
estipulada (𝑑𝑟𝑒𝑙 = 0,10) na fórmula (4.1), obtém-se: 𝑛𝐶,𝐼𝐶,𝑅𝑅 = (1,96)2 [(0,80/0,20) + (0,90/0,10)]/
[𝑙𝑜𝑔(1 − 0,10)]2 = 4498,67. Após o arredondamento deste valor, conclui-se que 𝑛1 = 𝑛0 = 4.499,
ou que, no planejamento do estudo, será necessário recrutar 4.499 indivíduos para cada grupo (exposto
e não exposto), totalizando, assim, 8.998 indivíduos.

Supondo que o conhecimento seja acerca da prevalência do grupo não exposto (𝐸 − ), 𝑃0 = 0,20, tal
que 𝑃1 = 𝑅𝑅 × 𝑃0 = 2 × 0,20 = 0,40, 𝑛𝐶,𝐼𝐶,𝑅𝑅 = 1.904. Neste caso, devem ser recrutados 1.904
indivíduos em cada grupo, totalizando 3.808.

4.2.2 Tamanho de amostra para testes de hipóteses para a diferença entre proporções em
estudos de coorte

1º caso: hipóteses bilaterais

A comparação entre os grupos pode ser formulada pelo teste de hipóteses de diferenças entre as
proporções: 𝐻0 : 𝑃0 − 𝑃1 = 0 versus 𝐻1 : 𝑃0 − 𝑃1 ≠ 0 ou, equivalentemente, 𝐻0 : 𝑅𝑅 = 1 e 𝐻1 : 𝑅𝑅 ≠ 1.
Definindo a média entre as duas proporções, 𝑃̅ = (𝑃1 + 𝑃0 )/2, o tamanho da amostra necessário para
cada grupo, supondo balanceamento, isto é, 𝑛1 = 𝑛0 = 𝑛, pode ser obtido pela expressão:

2
[𝑧1−𝛼/2 √2𝑃̅(1 − 𝑃̅) + 𝑧1−𝛽 √𝑃1 (1 − 𝑃1 ) + 𝑃0 (1 − 𝑃0 )]
𝑛𝐶,𝑇𝐻2,𝐷𝑖𝑓𝑃𝑟𝑜𝑝 = (4.2)
(𝑃1 − 𝑃0 )2

2º caso: hipóteses unilaterais

Para o teste unilateral, 𝐻0 : 𝑃0 − 𝑃1 = 0 versus 𝐻1 : 𝑃0 − 𝑃1 > 0 (ou 𝐻1 : 𝑃0 − 𝑃1 < 0), novamente


com 𝑛1 = 𝑛0 = 𝑛, tem-se que:

2
[𝑧1−𝛼 √2𝑃̅ (1 − 𝑃̅) + 𝑧1−𝛽 √𝑃1 (1 − 𝑃1 ) + 𝑃0 (1 − 𝑃0 )]
𝑛𝐶,𝑇𝐻1,𝐷𝑖𝑓𝑃𝑟𝑜𝑝 = (4.3)
(𝑃1 − 𝑃0 )2

Note que a única diferença entre (4.2) e (4.3) são os primeiros percentis que aparecem nas fórmulas,
relacionados ao termo 𝛼: 𝑧1−𝛼/2 e 𝑧1−𝛼 para hipóteses bilaterais e unilaterais, respectivamente.

Fazendo 𝑃0 = 𝑃1 /𝑅𝑅 e, consequentemente, 𝑃̅ = (𝑃1 + 𝑃0 )/2 = 𝑃1 (1 + 1/𝑅𝑅)/2, as expressões (4.2)


e (4.3) podem ser reescritas como:

2
1 1
[𝑧1−𝛼/2 √2𝑃̅(1 − 𝑃̅ ) + 𝑧1−𝛽 √𝑃1 (1 + 𝑅𝑅 ) − 𝑃12 (1 + )]
𝑅𝑅 2 (4.4)
𝑛𝐶,𝑇𝐻2,𝑅𝑅 = 2
1
[𝑃1 (1 − 𝑅𝑅 )]

2
1 1
[𝑧1−𝛼 √2𝑃̅(1 − 𝑃̅) + 𝑧1−𝛽 √𝑃1 (1 + ) − 𝑃12 (1 + )]
𝑅𝑅 𝑅𝑅2 (4.5)
𝑛𝐶,𝑇𝐻1,𝑅𝑅 =
1 2
[𝑃1 (1 − 𝑅𝑅 )]

As expressões (4.4) e (4.5) são interessantes na prática, já que às vezes pode ser difícil conhecer ou
estimar as duas probabilidades (𝑃1 e 𝑃0 ). Assim, o cálculo de 𝑛 depende somente da incidência da
doença no grupo exposto (𝑃1 ) e do risco relativo (𝑅𝑅), possivelmente mais fácil de ser estipulado.

Uma vez especificado o valor de 𝑃0 , o valor de 𝑅𝑅 é limitado por 0 < 𝑅𝑅 < 1/𝑃0 . Essa desigualdade
contrasta com o fato de que tamanhos de amostra são possíveis para qualquer valor de 𝑃0 .
Por exemplo, se é esperado que no grupo dos não expostos aproximadamente 40% apresentam o
desfecho pesquisado, então os valores de 𝑅𝑅 estão no intervalo: 0 < 𝑅𝑅 < 1/0,4 = 2,5. Assim, neste
caso, a hipótese alternativa 𝐻1 : 𝑅𝑅 = 3 não faz sentido. Este tipo de restrição não acontece para o
planejamento do tipo caso-controle.

Exemplo 4.2 - Tamanho da amostra em estudo de coorte com enfoque em teste de hipóteses para
o risco relativo ╬╬

Em estudo de coorte, os participantes dos dois grupos de exposição (𝐸 + e 𝐸 − ) foram acompanhados


durante dois anos. A pergunta é quantos participantes deveriam ser recrutados em cada grupo para a
comparação do efeito da exposição, assumindo-se que sejam esperados 35% do desfecho no grupo não
exposto (𝑃0 = 0,35) e que a proporção entre o grupo 𝐸 + seja a metade da proporção do grupo 𝐸 −
(𝑅𝑅 = 0,50). O problema pode ser formalizado pelo teste das seguintes hipóteses: 𝐻0 : 𝑅𝑅 = 1 versus
𝐻1 : 𝑅𝑅 ≠ 1.

Como 𝑅𝑅 = 0,50, 𝑃1 = 𝑅𝑅 × 𝑃0 = 0,50 × 0,35 = 0,175 e 𝑃̅ = (𝑃1 + 𝑃0 )/2 = (0,175 +


0,350)/2 = 0,2625, usando a fórmula (4.2) para poder de 90% e o nível de significância de 5%,
como mostrado no Quadro 4.1, são necessários 131 participantes em cada grupo.

Quadro 4.1 - Cálculos do tamanho de amostra utilizando a fórmula (4.2)

2
̅ (1 − 𝑃
[𝑧1−𝛼/2 √2𝑃 ̅ ) + 𝑧1−𝛽 √𝑃1 (1 − 𝑃1 ) + 𝑃0 (1 − 𝑃0 )]
𝑛𝐶,𝑇𝐻2,𝐷𝑖𝑓𝑃𝑟𝑜𝑝 =
(𝑃1 − 𝑃0 )2
2
[1,96√2(0,2625)(0,7375) + 1,28√0,175(0,825) + 0,35(0,65)]
= = 130,63
(0,350 − 0,175)2

Exemplo 4.3 - Equivalência entre as fórmulas (4.2) e (4.4) - hipóteses bilaterais ╬╬

No exemplo 4.2, foi utilizada a fórmula (4.2). Pelo enunciado do exemplo, 𝑅𝑅 = 0,50 e já foi
calculado que 𝑃1 = 0,175 e 𝑃̅ = 0,2625. Aplicando agora a fórmula (4.4), como demonstrado no
Quadro 4.2, chega-se ao mesmo tamanho de amostra: 131 participantes em cada grupo.
Quadro 4.2 - Cálculos do tamanho de amostra utilizando a fórmula (4.4)

2
1 1
[𝑧1−𝛼/2 √2𝑃̅ (1 − 𝑃̅) + 𝑧1−𝛽 √𝑃1 (1 + 𝑅𝑅 ) − 𝑃12 (1 + )]
𝑅𝑅 2
𝑛𝐶,𝑇𝐻2,𝑅𝑅 =
1 2
[𝑃1 (1 − 𝑅𝑅 )]

2
1 1
[1,96√2(0,2625)(0,7375) + 1,28√0,175 (1 + ) − (0,175)2 (1 + )]
0,50 (0,50)2
= 2
1
[0,175 (1 − )]
0,50

(1,220 + 0,781)2 (2,001)2


= = = 130,743
(−0,175)2 0,030625

Exemplo 4.4 - Impacto da incidência no cálculo do tamanho da amostra ╬╬

Uma pergunta que pode surgir é sobre o impacto da incidência da doença no tamanho da amostra.
Espera-se que, para determinada precisão, o tamanho da amostra necessário para o estudo de doenças
raras seja maior que para o de outras situações, isto é, para incidências mais altas. Entretanto, se em um
grupo a incidência da doença é a metade que em outro grupo, o que acontece com o tamanho da
amostra? Para saber exatamente o valor, é necessário fazer as contas.

Para ilustrar o impacto da incidência no cálculo do tamanho da amostra em estudos de coorte, serão
consideradas três situações: doenças a) raras; b) não tão raras; c) relativamente comuns. Para o grupo
exposto, serão considerados os seguintes percentuais (incidências): a) 0,1% (𝑃1 = 0,001); b) 1%
(𝑃1 = 0,01); c) 10% (𝑃1 = 0,10). A Tabela 4.1 mostra os tamanhos de amostras obtidos pela
aplicação da fórmula (4.2) para diferentes valores de risco relativo, considerando nível de significância
de 5% e poder de 90%.
Tabela 4.1 - Tamanhos de amostras (𝑛), obtidos pela fórmula (4.2), em cada grupo
(exposto e não exposto) para diferentes riscos relativos e para três incidências
no grupo exposto: 𝑃1 = 0,001; 𝑃1 = 0,01; 𝑃1 = 0,10

Risco relativo 𝑛 (𝑃1 = 0,001) 𝑛 (𝑃1 = 0,01) 𝑛 (𝑃1 = 0,10)


2 62.996 6.256 582
3 31.500 3.130 293
4 23.334 2.319 217
5 19.688 1.957 184
10 14.260 1.418 133

Por exemplo, para 𝑃1 = 0,10 e 𝑅𝑅 = 2, 𝑃0 = 𝑃1 /𝑅𝑅 = 0,10/2 = 0,05 e 𝑃̅ = (𝑃1 + 𝑃0 )/2 = 0,075.
O Quadro 4.3 ilustra o cálculo de 𝑛 correspondente.

Quadro 4.3 - Cálculos do tamanho de amostra utilizando a fórmula (4.2)


(𝑃1 = 0,10, 𝑅𝑅 = 2, 𝑃̅ = 0,075)

2
[𝑧1−𝛼/2 √2𝑃̅(1 − 𝑃̅ ) + 𝑧1−𝛽 √𝑃1 (1 − 𝑃1 ) + 𝑃0 (1 − 𝑃0 )]
𝑛𝐶,𝑇𝐻2,𝐷𝑖𝑓𝑃𝑟𝑜𝑝 =
(𝑃1 − 𝑃0 )2
2
[1,96√2 × 0,075(0,925) + 1,28√0,10(0,90) + 0,05(0,95)] (0,730 + 0,475)2
= = = 580,81 ≅ 581
(0,10 − 0,05)2 0,0025

Os resultados da Tabela 4.1 foram obtidos com auxílio de uma planilha Excel® e a pequena diferença
em relação ao cálculo apresentado (582 na tabela e 581 na demonstração do cálculo) ocorre por questão
de aproximação.

4.3 Estudos caso-controle

Estudo caso-controle é uma pesquisa observacional, em geral de forma retrospectiva, em que dois
grupos são comparados em relação à exposição ao fator de risco. O caso é definido como aquele com a
doença (ou que apresenta o desfecho ou uma condição específica) e o controle é o que não apresenta
a doença. Nesta pesquisa, busca-se estimar a proporção de expostos ao fator de risco nos grupos de
casos e de controles.
O estudo começa com o levantamento da história clínica de todos os pacientes selecionados. A seguir,
procura-se saber se o fator de risco está presente mais frequentemente entre os casos do que entre os
controles. Se a evidência for suficiente, o pesquisador concluirá que existe associação entre o fator de
risco e a doença. Sejam 𝑃1∗ e 𝑃0∗ a proporção de expostos entre doentes e não doentes, respectivamente.
A medida de associação frequentemente utilizada é chamada de razão de chances (odds ratio) e é
𝑃 ∗ /(1−𝑃 ∗ ) 𝑃 ∗ (1−𝑃 ∗ )
definida por 𝑂𝑅 = 𝑃1∗/(1−𝑃1∗) = 𝑃1∗(1−𝑃0∗). Com esse tipo de delineamento estima-se a prevalência e não a
0 0 0 1

incidência de determinado desfecho de interesse. A Figura 4.2 ilustra o esquema geral de um estudo do
tipo caso-controle.

F+: Fator de risco presente; F-: Fator de risco ausente; C+: Caso; C- : Controle
Figura 4.2 - Esquema ilustrativo de estudo do tipo caso-controle.

A seguir serão apresentadas algumas formas de calcular o tamanho de amostra dentro do enfoque de
intervalo de confiança ou de teste de hipóteses utilizando a medida razão de chances (odds ratio) ou
diferença de proporções baseadas em trabalhos tradicionais. As seguintes referências tratam da
determinação do tamanho de amostra em estudos do tipo caso-controle em diferentes contextos:
Lubin et al. (1988), Satten e Kupper (1990), Nam e Fears (1992), Hwang et al. (1994), Foppa e
Spiegelman (1997), Qiu et al. (2000), Gauderman (2002), Santis et al. (2004), Hanley et al. (2005) e
M’Lan et al. (2006).

4.3.1 Tamanho de amostra para estimação da razão de chances (odds ratio) usando a precisão
relativa (𝒅𝒓𝒆𝒍 ) em estudos caso-controle

O tamanho da amostra em cada grupo, 𝑛1 = 𝑛0 = 𝑛, necessário para estimar a razão de chances (odds
ratio) com confiança (1 − 𝛼) e dentro de uma precisão relativa 𝑑𝑟𝑒𝑙 , é dado por:
1 1
(𝑧1−𝛼/2 )2 ( + )
𝑃1∗ (1 − 𝑃1∗ ) 𝑃0∗ (1 − 𝑃0∗ ) (4.6)
𝑛𝐶𝐶,𝐼𝐶 =
[𝑙𝑜𝑔(1 − 𝑑𝑟𝑒𝑙 )]2

Como comentado no início da seção, em (4.6), 𝑃1∗ e 𝑃0∗ representam as proporções de expostos entre
doentes e não doentes, respectivamente, usando a definição de odds ratio, a proporção 𝑃1∗ pode ser
𝑂𝑅(𝑃 ∗ )
escrita como 𝑃1∗ = 𝑂𝑅(𝑃∗)+(1−𝑃
0
∗ ).
0 0

Exemplo 4.5 - Tamanho da amostra em estudo caso-controle com enfoque em intervalo de


confiança para a razão de chances (𝑶𝑹) ╬╬

Planeja-se estudo caso-controle e espera-se que a proporção de expostos entre os controles seja de 0,30
e a razão de chances seja de 2. Deseja-se calcular o tamanho de amostra em cada grupo (de casos e de
controles), com balanceamento dos grupos, com 95% de confiança, supondo-se que a distância entre a
razão de chances estimada e a verdadeira esteja dentro de: a) 10%; b) 25%; c) 50%. Ou seja, os desvios
relativos são a) 𝑑𝑟𝑒𝑙 = 0,10 b) 𝑑𝑟𝑒𝑙 = 0,25; c) 𝑑𝑟𝑒𝑙 = 0,50.

A partir das informações fornecidas (𝑃0∗ = 0,30 e 𝑂𝑅 = 2), conclui-se que a proporção de expostos
𝑂𝑅(𝑃 ∗ ) 2(0,30)
entre os casos seja 𝑃1∗ = 𝑂𝑅(𝑃∗)+(1−𝑃
0
∗ ) = 2(0,30)+0,70 = 0,46. Os cálculos dos tamanhos da amostra
0 0

utilizando a fórmula (4.6) estão mostrados no Quadro 4.4 (a notação 𝑛𝐶𝐶,𝐼𝐶 foi simplificada para 𝑛).

Quadro 4.4 - Cálculos dos tamanhos da amostra utilizando a fórmula (4.6)

1 1 𝑛
(𝑧1−𝛼/2 )2 ( ∗ + )
Item 𝑃1 (1 − 𝑃1∗ ) 𝑃0∗ (1 − 𝑃0∗ ) (nº de casos = nº de
𝑛=
[𝑙𝑜𝑔(1 − 𝑑𝑟𝑒𝑙 )]2 controles)

1,962 (1/[0,46 × 0,64] + 1/[0,30 × 0,70])


a) 𝑛= ≅ 3040,31 𝑛 = 3.041
[𝑙𝑜𝑔(1 − 0,10)]2

1,962 (1/[0,46 × 0,64] + 1/[0,30 × 0,70])


b) 𝑛= ≅ 407,91 𝑛 = 408
[𝑙𝑜𝑔(1 − 0,25)]2

1,962 (1/[0,46 × 0,64] + 1/[0,30 × 0,70])


c) 𝑛= ≅ 70,26 𝑛 = 71
[𝑙𝑜𝑔(1 − 0,50)]2

Nota: a notação 𝑛𝐶𝐶,𝐼𝐶 da fórmula (4.6) foi simplificada para 𝑛.


Assim, para cada situação considerada, serão necessários 3.041, 408 e 71 pacientes em cada grupo
(casos e controles), respectivamente, e, portanto, o dobro de participantes: a) 6.082; b) 816; c) 142.

4.3.2 Tamanho de amostra para testes de hipóteses sobre diferença entre proporções em
estudos caso-controle

Sejam 𝑃1∗ e 𝑃0∗ a proporção de expostos entre doentes (casos) e não doentes (controles).

1º caso: hipóteses bilaterais

Em estudos do tipo caso-controle, a associação entre o fator de risco e a doença pode ser formalizada
em termos das diferenças entre as proporções pelas hipóteses 𝐻0 : 𝑃1∗ − 𝑃0∗ = 0 versus 𝐻1 : 𝑃1∗ − 𝑃0∗ ≠ 0,
o que é equivalente a testar as hipóteses em termos de razão de chances (𝑂𝑅) 𝐻0 : 𝑂𝑅 = 1 versus
𝐻1 : 𝑂𝑅 ≠ 1. A fórmula para calcular o tamanho de amostra é dada por:

2
[𝑧1−𝛼/2 √2𝑃0∗ (1 − 𝑃0∗ ) + 𝑧1−𝛽 √𝑃1∗ (1 − 𝑃1∗ ) + 𝑃0∗ (1 − 𝑃0∗ ) ]
𝑛𝐶𝐶,𝑇𝐻2 = (4.7)
(𝑃1∗ − 𝑃0∗ )2

Note-se a semelhança da fórmula (4.7) com a (4.2), que também é para dimensionamento de amostra
usando a diferença de proporção, mas para estudos de coorte. A diferença básica entre as duas fórmulas
é que dentro da primeira raiz quadrada, para o planejamento caso-controle, aparece 2𝑃0∗ (1 − 𝑃0∗ ),
enquanto que na fórmula (4.2), 2𝑃̅(1 − 𝑃̅ ). Como definido na seção anterior, 𝑃0∗ representa a proporção
de expostos entre o grupo de não doentes e 𝑃̅ é a média entre as proporções dos dois grupos
comparados. O raciocínio para explicar tal modificação é que, em estudos do tipo caso-controle, a
média das proporções não seria tão apropriada já que eventualmente o grupo de controles é muito
maior. Além disso, o conhecimento acerca da taxa de exposição entre os controles é, em geral, melhor
do que entre os casos. Daí a lógica de usar 𝑃0∗ . Por outro lado, usar a média 𝑃̅ reflete a incerteza em
relação à proporção comum dos dois grupos.

2º caso: hipóteses unilaterais

Para o dimensionamento de amostras quando se quer testar hipóteses unilaterais, por exemplo, em
termos das proporções, 𝐻0 : 𝑃1∗ − 𝑃0∗ = 0 versus 𝐻1 : 𝑃1∗ − 𝑃0∗ > 0, ou de forma equivalente em termos
de odds ratio, 𝐻0 : 𝑂𝑅 = 1 versus 𝐻1 : 𝑂𝑅 > 1, de forma análoga ao caso de hipóteses bilaterais, (basta
trocar 𝑧1−𝛼/2 por 𝑧1−𝛼 ), tem-se que:

2
[𝑧1−𝛼 √2𝑃0∗ (1 − 𝑃0∗ ) + 𝑧1−𝛽 √𝑃1∗ (1 − 𝑃1∗ ) + 𝑃0∗ (1 − 𝑃0∗ ) ]
𝑛𝐶𝐶,𝑇𝐻1 = (4.8)
(𝑃1∗ − 𝑃0∗ )2

Exemplo 4.6 - Tamanho da amostra em estudo caso-controle com enfoque em teste de hipóteses
para vários valores da razão de chances (𝑶𝑹) ╬╬

Supondo que em um estudo caso-controle a proporção de expostos entre os controles seja de 2%


(𝑃0∗ = 0,02), fixando-se a razão de chance (𝑂𝑅), pode-se calcular a proporção de expostos para o
𝑂𝑅(𝑃 ∗ ) 3(0,02)
grupo dos casos (𝑃1∗ ). Por exemplo, para 𝑂𝑅 = 3, 𝑃1∗ = 𝑂𝑅(𝑃∗)+(1−𝑃
0
∗ ) = 3(0,02)+(1−0,02) = 0,058.
0 0

A Tabela 4.2 mostra os tamanhos de amostras para vários valores de 𝑂𝑅, quando o nível de
significância e o poder foram fixados em 5% e 95%, utilizando-se as fórmulas (4.7) e (4.8), para
hipóteses bilaterais e unilaterais, respectivamente.

Tabela 4.2 - Tamanho de amostra (𝑛) em cada grupo (casos e controles) para diferentes valores
de razão de chance (𝑂𝑅) com os correspondentes valores de 𝑃1∗ quando 𝑃0∗ = 0,02

OR 𝑃1∗ 𝑛 (hipóteses bilaterais)* 𝑛 (hipóteses unilaterais) #


1,5 0,030 5.975 5.022
2,0 0,039 1.655 1.402
2,5 0,049 806 686
3,0 0,058 492 421
3,5 0,067 339 292
4,0 0,075 252 218
4,5 0,084 197 171
5,0 0,093 160 139
Nota: nível de significância: 5%; poder: 95%; *fórmula (4.7); # fórmula (4.8).

Como esperado, à medida que a razão de chances (𝑂𝑅) aumenta, 𝑛 diminui. Além disso, os valores
referentes a hipóteses bilaterais são superiores aos das hipóteses unilaterais, um acréscimo que vai
de 15 a 20%.
Exemplo 4.7 - Tamanho da amostra em estudo caso-controle com enfoque em teste de hipóteses
para a razão de chances (𝑶𝑹) ╬╬

Em estudo caso-controle não pareado com o objetivo de verificar possíveis fatores de risco de
determinada doença, constatou-se que um dos fatores estudados está presente em 9,5% dos controles.
Para conduzir novo estudo, com confiança de 95%, poder de 80% e odds ratio que se quer identificar
com valor mínimo igual a 2, o tamanho de amostra para cada grupo calculado a partir da fórmula (4.7)
será de 240. Se o poder for aumentado para 90%, o tamanho da amostra sobe para 330. Os cálculos do
tamanho de amostra estão mostrados no Quadro 4.5 (a notação 𝑛𝐶𝐶,𝑇𝐻2 foi simplificada para 𝑛).

Quadro 4.5 - Cálculos dos tamanhos da amostra utilizando a fórmula (4.7)


com 𝑃0∗ = 0,095; 𝑂𝑅 = 2; 𝛼 = 0,05
2
[𝑧1−𝛼/2 √2𝑃0∗ (1 − 𝑃0∗ ) + 𝑧1−𝛽 √𝑃1∗ (1 − 𝑃1∗ ) + 𝑃0∗ (1 − 𝑃0∗ ) ]
Poder 𝑛=
(𝑃1∗ − 𝑃0∗ )2
2
80% [1,96√2(0,095)(0,905) + 0,84√0,1735(0,8265) + (0,095)(0,905) ]
𝑛= = 239,58
(0,1735 − 0,095)2

2
90% [1,96√2(0,095)(0,905) + 1,28√0,1735(0,8265) + (0,095)(0,905) ]
𝑛= = 329,89
(0,1735 − 0,095)2
Nota: a notação 𝑛𝐶𝐶,𝑇𝐻2 da fórmula (4.7) foi simplificada para 𝑛; 𝑃1∗ : proporção de expostos entre doentes (casos);
𝑃0∗ : proporção de expostos entre não doentes (controles).

4.4 Estudos com amostras pareadas ou emparelhadas para respostas categóricas

Como já comentado na seção 2.4 do capítulo 2, o pareamento (match em inglês) é interessante


estratégia de planejamento. É especialmente importante para o controle dos fatores de confusão.
Quando usado para a coleta dos dados, deve também influir na análise, ou seja, no método estatístico
empregado. É recomendada a leitura do artigo da série de notas estatísticas do British Medical Journal
intitulado “Matching”, de Bland e Altman (1994).

Exemplo típico é o estudo de caso-controle pareado, em inglês: matched case-control. No pareamento,


cada par é formado por um caso e um controle. Entretanto, existe a extensão de mais de um controle
para cada caso, que aqui será denominado emparelhamento.
A seguir serão apresentadas formas de dimensionamento de amostra, primeiramente para o caso de
duas categorias (amostras pareadas) e depois para a situação mais geral de três ou mais categorias.
O caso de duas categorias, que já foi discutido no capítulo 3, aqui tem notação nova para ser unificada
ao caso de três categorias, podendo haver a repetição de alguns detalhes, mas com comentários
adicionais e diferente enfoque.

4.4.1 Tamanho de amostra para o caso de amostras pareadas (duas categorias)

O teste de McNemar é uma forma apropriada para comparação de proporções nos estudos em que os
dados foram coletados de forma pareada, quando cada caso tem apenas um controle.

No contexto de experimento clínico com pareamento, a nomenclatura usualmente adotada é sucesso (S)
e fracasso (F) para a ocorrência ou não do evento de interesse. Assim, os pares de elementos dos
grupos tratamento e controle são: (S,S), (S,F), (F,S) e (F,F). O teste pode ser aplicado para outros tipos
de dados pareados, por exemplo, estudo caso-controle pareado ou avaliações feitas em duas ocasiões.

Uma formulação mais geral seria considerar a resposta binária (𝑋 = 0 ou 𝑋 = 1), cujos pares formados
são (00), (01), (10) e (11). A distribuição de probabilidades bem como a forma de apresentação
genérica dos dados encontram-se na Tabela 4.3 para a situação específica de avaliação pré e
pós-tratamento.

Tabela 4.3 - Distribuição de probabilidades e frequências (entre parênteses)


obtidas em uma classificação de dados pareados

Resposta Resposta pós-tratamento


Total
pré-tratamento 𝑋=0 𝑋=1
𝑋=0 𝑝00 (𝑛00 ) 𝑝01 (𝑛01 ) 𝑝0. (𝑛0. )
𝑋=1 𝑝10(𝑛10 ) 𝑝11(𝑛11 ) 𝑝1. (𝑛1. )
Total 𝑝.0(𝑛.1 ) 𝑝.1(𝑛.1 ) 1 (𝑛..)

̂ 𝑀𝑐𝑁 = 𝑝01, cujo desvio-


A estimativa para a razão de chances (odds ratio) neste caso é dada por 𝑂𝑅 𝑝 10

𝑝 +𝑝 1 1
̂ 𝑀𝑐𝑁 )) = √ 01 10 = √ + . Intervalo de confiança
padrão na escala logarítmica é 𝐷𝑃 (𝑙𝑜𝑔(𝑂𝑅 𝑝 𝑝 𝑝 𝑝
01 10 01 10

aproximado para razão de chances na escala logarítmica é construído da forma usual, ou seja, é dado
̂ 𝑀𝑐𝑁 ) ± 𝑧1−𝛼/2 𝐷𝑃 (𝑙𝑜𝑔(𝑂𝑅
por 𝑙𝑜𝑔(𝑂𝑅 ̂ 𝑀𝑐𝑁 )) = (𝐿𝑖𝑛𝑓 , 𝐿𝑠𝑢𝑝 ), sendo 𝑧1−𝛼/2 o percentil de ordem
(1 − 𝛼/2)100% da distribuição normal padrão. Para a obtenção do intervalo de confiança para
̂ 𝑀𝑐𝑁 ) ±
𝑂𝑅𝑀𝑐𝑁 , basta aplicar a função exponencial em 𝐿𝑖𝑛𝑓 e 𝐿𝑠𝑢𝑝 , isto é, 𝑒𝑥𝑝 {𝑙𝑜𝑔(𝑂𝑅

̂ 𝑀𝑐𝑁 ))}.
𝑧1−𝛼/2 𝐷𝑃 (𝑙𝑜𝑔(𝑂𝑅

Existem formas alternativas para se calcular o intervalo de confiança para a razão de chances para
dados pareados. Por exemplo, o método utilizado no EpiInfo difere do apresentado aqui.

A hipótese de interesse é que o pós-tratamento é equivalente ao pré-tratamento, ou seja, que há


igualdade das probabilidades marginais. Concentrando na probabilidade da categoria 1, as hipóteses
são formuladas como 𝐻0 : 𝑝1. = 𝑝.1 versus 𝐻1 : 𝑝1. ≠ 𝑝.1 ou 𝐻0 : 𝑝1. − 𝑝.1 = 0 versus 𝐻1 : 𝑝1. − 𝑝.1 ≠ 0.
Como 𝑝1. − 𝑝.1 = (𝑝10 + 𝑝11 ) − (𝑝01 + 𝑝11 ) = 𝑝10 − 𝑝01, a hipótese de interesse pode ser reescrita
como 𝐻0 : 𝑝10 = 𝑝01 versus 𝐻1 : 𝑝10 ≠ 𝑝01.

Os pares que produziram os mesmos resultados nos dois elementos do par, tanto para o elemento do
pré como do pós-tratamento, a saber, os pares (0,0) e (1,1), não contêm informação para discriminar
𝑝1. de 𝑝.1. Pode-se pensar que, se 𝐻0 é verdadeira, se os dois grupos são equivalentes, as discordâncias
observadas são fruto do acaso. Então, se 𝑛01 e 𝑛10 são valores semelhantes, sob 𝐻0 espera-se a metade
do número de discordâncias: (𝑛01 + 𝑛10 )/2. Portanto, a hipótese 𝐻0 deve ser rejeitada se a distância
entre os valores observados e esperados for grande.

Existem diferentes versões da estatística do teste de McNemar. Usando ou não a correção de


𝑛 +𝑛 1 2
(|𝑛01 − 01 10 |− )
2 2 2
continuidade (cuja indicação é c/cc ou s/cc), ela é 𝑋𝑀𝑐𝑁,𝑐/𝑐𝑐 = 𝑛01 +𝑛10 +
2

𝑛 +𝑛 1 2
(|𝑛10 − 01 10 |− ) (|𝑛01 −𝑛10 |−1)2 (𝑛01 −𝑛10 )2
2 2 2
𝑛01 +𝑛10 = e 𝑋𝑀𝑐𝑁,𝑠/𝑐𝑐 = , respectivamente. A regra de decisão do
𝑛01 +𝑛10 𝑛01 +𝑛10
2

2 (|𝑛01 −𝑛10 |−1)2 2 2 2


teste consiste em se rejeitar 𝐻0 quando 𝑋𝑀𝑐𝑁,𝑐/𝑐𝑐 = > 𝜒1,1−𝛼 (ou 𝑋𝑀𝑐𝑁,𝑐/𝑐𝑐 > 𝜒1,1−𝛼 ),
𝑛01 +𝑛10
2
sendo χ1,1-α o percentil de ordem (1 − 𝛼)100% da distribuição qui-quadrado com 1 grau de liberdade.
𝑛01 −𝑛10
Alternativamente, a estatística do teste pode ser definida como 𝑍𝑀𝑐𝑁 = , que sob 𝐻0 tem
√𝑛01 +𝑛10

assintoticamente distribuição normal padrão.

Segundo Chow et al. (2008), utilizando o teorema central do limite, pode-se mostrar que para um
tamanho de amostra 𝑛, o poder do teste de McNemar referente à estatística 𝑍𝑀𝑐𝑁 é dado por:
√𝑛(𝑝01 − 𝑝10 ) − 𝑧1−𝛼/2 √𝑝01 + 𝑝10
Φ( ) (4.9)
√𝑝01 + 𝑝10 − (𝑝01 − 𝑝10 )2

Na fórmula (4.9), Φ é a função distribuição acumulada da normal padrão, 𝑧1−𝛼/2 é o percentil de


ordem (1 − 𝛼/2)100% da normal padrão e os demais termos são as probabilidades definidas na
Tabela 4.3. Fixando o poder em (1 − 𝛽), chega-se ao seguinte tamanho de amostra quando se utiliza o
teste de McNemar:

2
(𝑧1−𝛼/2 √𝑝01 + 𝑝10 + 𝑧1−𝛽 √(𝑝01 + 𝑝10 ) − (𝑝01 − 𝑝10 )2 ) (4.10)
𝑛𝑀𝑐𝑁 =
(𝑝10 − 𝑝01 )2

A fórmula (4.10) expressa em termos da razão (𝑅𝐷𝑖𝑠𝑐 ) entre as probabilidades das discordâncias e da
soma (𝑆𝐷𝑖𝑠𝑐 ) delas (𝑅𝐷𝑖𝑠𝑐 = 𝑝01 /𝑝10 e 𝑆𝐷𝑖𝑠𝑐 = 𝑝01 + 𝑝10 ) fica sendo:

2
(𝑧1−𝛼/2 (𝑅𝐷𝑖𝑠𝑐 + 1) + 𝑧1−𝛽 √(𝑅𝐷𝑖𝑠𝑐 + 1)2 − (𝑅𝐷𝑖𝑠𝑐 − 1)2 𝑆𝐷𝑖𝑠𝑐 ) (4.11)
𝑛𝑀𝑐𝑁,𝑅𝐷𝑖𝑠𝑐,𝑆𝐷𝑖𝑠𝑐 =
(𝑅𝐷𝑖𝑠𝑐 − 1)2 𝑆𝐷𝑖𝑠𝑐

Existem outros trabalhos que apresentam fórmulas alternativas para o cálculo do tamanho de amostra
quando o teste McNemar for utilizado, em geral empregando as probabilidades de discordâncias.
Entretanto, segundo Lachenbruch (1992), é mais difícil especificar tais probabilidades do que as
probabilidades marginais nas quais a proposta de seu trabalho foi baseada. Lachenbruch (1992)
desenvolve fórmulas para o cálculo do tamanho de amostra utilizando enfoque de análise condicional,
não condicional e o que ele denomina de método não ajustado. Compara seu método com os de
Schlesselman (1982) e de Connett et al. (1987).

O método de Machin et al. (1997), denominado condicional, consiste em considerar a distribuição


binomial para um número fixo de pares discordantes, mas usa a aproximação da binomial para a
normal para obter a fórmula para o tamanho de amostra, que é dada por:

2
(𝑧1−𝛼/𝑆 (𝑂𝑅𝑀𝑐𝑁 + 1) + 𝑧1−𝛽 √(𝑂𝑅𝑀𝑐𝑁 + 1)2 − (𝑂𝑅𝑀𝑐𝑁 − 1)2 𝑃𝐷)
𝑛 𝑀𝑎𝑐ℎ𝑖𝑛 = (4.12)
𝑒𝑡 𝑎𝑙 (1997) (𝑂𝑅𝑀𝑐𝑁 − 1)2 𝑃𝐷

Em (4.12), 𝑃𝐷 = 𝑝01 + 𝑝10 é a soma das proporções dos pares discordantes, 𝑂𝑅𝑀𝑐𝑁 = 𝑝01 /𝑝10 é a
razão de chances, 𝛼 é o nível de significância, (1 − 𝛽) é o poder do teste e 𝑧1−𝛼/𝑆 é o percentil da
distribuição normal padrão, sendo que 𝑠 = 1 ou 𝑠 = 2 para hipóteses unilaterais ou bilaterais,
respectivamente. Note-se que essa é exatamente a fórmula (3.16) apresentada no capítulo 3.
Com a unificação da notação, 𝑆𝐷𝑖𝑠𝑐 = 𝑃𝐷 e 𝑅𝐷𝑖𝑠𝑐 = 𝑂𝑅𝑀𝑐𝑁 , observe-se também a equivalência das
fórmulas (4.11) e (4.12).

Schork e Williams (1980) publicaram uma fórmula que fornece os resultados exatos para o caso não
condicional utilizando a enumeração de todos os possíveis desfechos da distribuição binomial.
Essa formulação encontra-se implementada no software Pass®.

Exemplo 4.8 - Tamanho da amostra utilizando o teste de McNemar ╬╬

Para a comparação do resultado do tratamento, cuja classificação é dicotômica (𝑋 = 0: normal; 𝑋 = 1:


anormal), com a situação basal (pré-tratamento), pode-se utilizar o teste de McNemar. Utilizando
informações de estudos similares, espera-se que 50% dos pacientes que inicialmente eram classificados
na categoria anormal após o tratamento sejam considerados normais, isto é, 𝑝10 = 0,50, enquanto que
20% dos que eram considerados normais na situação basal passem para a categoria anormal
(𝑝01 = 0,20).

Fixando o nível de significância em 5% e o poder em 80%, pela aplicação de (4.10) chega-se a:


2 2
(𝑧1−𝛼/2 √𝑝01 +𝑝10 +𝑧1−𝛽 √𝑝10 +𝑝01 −(𝑝01 −𝑝10 )2 ) (1,96√0,20+0,50+0,84√0,50+0,20−(0,20−0,50)2 )
𝑛𝑀𝑐𝑁 = = =
(𝑝10 −𝑝01 )2 (0,50−0,20)2

58,57 ≈ 59. Se o valor de 𝑝10 aumentasse para 0,55 (𝑝10 = 0,55), mesmo mantendo o valor de
𝑝01 (𝑝01 = 0,20), 𝑛𝑀𝑐𝑁 cairia para 46.

Se o poder for trocado para 90%, 𝑛𝑀𝑐𝑁 = 78 quando 𝑝10 = 0,50 e 𝑝01 = 0,20; o tamanho da amostra
necessário cai para 61 quando 𝑝10 = 0,55, mantendo 𝑝01 = 0,20.

4.4.2 Tamanho de amostra para o caso de amostras emparelhadas (três ou mais categorias)

Na seção anterior foi discutido o teste de McNemar para variáveis dicotômicas, ou seja, referente a
duas categorias. Para situações com três ou mais categorias, outros testes devem ser aplicados.
A Tabela 4.4 apresenta a distribuição de probabilidades bem como a forma de apresentação genérica
dos dados com três ou mais categorias para a situação específica de avaliação pré e pós-tratamento.
Tabela 4.4 - Distribuição de probabilidades e frequências (entre parênteses) obtidas
em uma classificação de dados emparelhados, tendo 𝑟 ≥ 3 categorias

Resposta Resposta pós-tratamento


Total
pré-tratamento 1 2 ⋯ 𝑟
1 𝑝11(𝑛11 ) 𝑝12(𝑛12 ) ⋯ 𝑝1𝑟 (𝑛1𝑟 ) 𝑝1. (𝑛1. )
2 𝑝21 (𝑛21 ) 𝑝22 (𝑛22 ) ⋯ 𝑝2𝑟 (𝑛2𝑟 ) 𝑝2. (𝑛2. )
⋮ ⋮ ⋮ ⋱ ⋮ ⋮
𝑟 𝑝𝑟1(𝑛𝑟1 ) 𝑝𝑟2(𝑛𝑟2 ) ⋯ 𝑝𝑟𝑟 (𝑛𝑟𝑟 ) 𝑝𝑟. (𝑛𝑟. )
Total 𝑝.1(𝑛.1 ) 𝑝.2(𝑛.2 ) ⋯ 𝑝.𝑟 (𝑛.𝑟 ) 1 (𝑛..)

Para o caso geral de tabelas de contingência de dimensão 𝑟 × 𝑟, generalizações do teste de McNemar


foram desenvolvidas por Stuart (1955) e Maxwell (1970) para homogeneidade total e por Bowker
(1949) para simetria. Em alguns textos da literatura aparece o teste Stuart-Maxwell, mas como se pode
notar, os trabalhos foram desenvolvidos em épocas diferentes e provavelmente de forma independente,
já que na publicação de 1970 não há referência alguma ao trabalho de 1955. Alguns detalhes sobre
essas três publicações (BOWKER, 1949; STUART, 1955 e MAXWELL 1970) podem ser encontrados
na seção 2.4.2 de Tang et al. (2012).

Para testar a inexistência do efeito de tratamento, formulam-se as seguintes hipóteses: 𝐻0 : 𝑝𝑖𝑗 = 𝑝𝑗𝑖
para todo 𝑖 ≠ 𝑗 e 𝐻1 : 𝑝𝑖𝑗 ≠ 𝑝𝑗𝑖 para alguns casos em que 𝑖 ≠ 𝑗. Segundo Chow et al. (2008),
(𝑛𝑖𝑗 −𝑛𝑗𝑖 )2
a estatística do teste de Stuart-Maxwell é dada por 𝑆𝑀 = ∑𝑖<𝑗 . Entretanto, essa estatística
𝑛𝑖𝑗 +𝑛𝑗𝑖

aparece em Bowker (1949) e Maxwell (1970) e, segundo Tang et al. (2012), ela é a do teste de Bowker
(e não a do teste de Stuart-Maxwell, para este é fornecida outra estatística).

Como o dimensionamento de amostra a ser apresentado a seguir foi baseado em Chow et al. (2008),
serão fornecidos os mesmos detalhes. Mas para evitar a confusão acerca do nome do teste (Stuart-
Maxwell ou Bowker), ao nome da estatística será acrescentada a letra 𝐵. Assim, a estatística é a mesma
(𝑛𝑖𝑗 −𝑛𝑗𝑖 )2
anterior, mas recebeu novo nome: 𝐵𝑆𝑀 = ∑𝑖<𝑗 . Sob 𝐻0 , 𝐵𝑆𝑀 segue distribuição
𝑛𝑖𝑗 +𝑛𝑗𝑖

qui-quadrado com 𝑟(𝑟 − 1)/2 graus de liberdade. Fixando o nível de significância em 𝛼, a hipótese
nula é rejeitada se 𝐵𝑆𝑀 > 𝜒1−𝛼,𝑟(𝑟−1)/2, sendo 𝜒1−𝛼,𝑟(𝑟−1)/2 o percentil de ordem (1 − 𝛼)100% da
distribuição qui-quadrado com 𝑟(𝑟 − 1)/2 graus de liberdade.

Assintoticamente, 𝐵𝑆𝑀 tem distribuição qui-quadrado não central com 𝑟(𝑟 − 1)/2 graus de liberdade
e parâmetro de não centralidade igual a 𝛿. Fixando o poder em (1 − 𝛽), 𝛿 pode ser obtido resolvendo-

se a seguinte equação: 𝐹𝑟(𝑟−1) (𝜒 2 𝑟(𝑟−1) |𝛿) = 𝛽, sendo 𝐹𝑟(𝑟−1) (. |𝛿) a função acumulada da
2 1−𝛼, 2
2

distribuição qui-quadrado não-central com graus de liberdade 𝛼 e parâmetro de não-centralidade 𝛿.


Se 𝛿𝛼,𝛽 é a solução de 𝛿 e usando as probabilidades apresentadas na Tabela 4.4 (de forma genérica,
𝑝𝑖𝑗 ), o tamanho da amostra é dado por:

−1
(𝑝𝑖𝑗 − 𝑝𝑗𝑖 )2
𝑛𝐵𝑆𝑀 = 𝛿𝛼,𝛽 (∑ ) (4.13)
𝑝𝑖𝑗 + 𝑝𝑗𝑖
𝑖<𝑗

Exemplo 4.9 - Tamanho de amostra para o caso de amostras emparelhadas com três categorias

Para uma situação com três categorias (𝑟 = 3) com distribuição de probabilidades obtida em um
estudo-piloto mostrada na Tabela 4.5, quer-se fazer o dimensionamento para o estudo definitivo,
fixando-se o nível de significância em 5% e o poder do teste em 80%.

Tabela 4.5 - Distribuição de probabilidades obtidas em uma classificação


de dados emparelhados tendo três categorias

Resposta Resposta pós-tratamento


Total
pré-tratamento 1 2 3
1 0,120 0,160 0,160 0,440
2 0,080 0,120 0,120 0,320
3 0,040 0,080 0,120 0,240
Total 0,240 0,360 0,400 1

O primeiro passo é estimar o parâmetro de centralidade (𝛿𝛼,𝛽 ) a partir da equação


2 2
𝐹𝑟(𝑟−1)/2 (𝜒1−𝛼,𝑟(𝑟−1)/2 |𝛿) = 𝛽, ou seja, 𝐹3 (𝜒0,95,3 |𝛿) = 0,20, resultando no valor do 𝛿𝛼,𝛽 = 10,903.
(𝑝12 −𝑝21 )2 (0,160−0,080)2
Os cálculos do somatório envolvido na fórmula (4.13) são: a) 𝑗 = 2: = =
𝑝12 +𝑝21 0,160+0,080

(𝑝13 −𝑝31 )2 (𝑝23 −𝑝32 )2 (0,160−0,040)2 (0,120−0,080)2


0,027; b) 𝑗 = 3: + = + = 0,072 + 0,008. Portanto,
𝑝13 +𝑝31 𝑝23 +𝑝32 0,160+0,040 0,120+0,080

(𝑝𝑖𝑗 −𝑝𝑗𝑖 )2
∑𝑖<𝑗 = 0,027 + 0,072 + 0,008 = 0,107. O tamanho de amostra é obtido a partir da fórmula
𝑝𝑖𝑗 +𝑝𝑗𝑖

−1
(𝑝𝑖𝑗 −𝑝𝑗𝑖 )2 10,903
(4.13), 𝑛𝐵𝑆𝑀 = 𝛿𝛼,𝛽 (∑𝑖<𝑗 𝑝𝑖𝑗 +𝑝𝑗𝑖
) = 0,107
= 101,897 ≈ 102, sendo necessário recrutar, então,

102 participantes.
4.5 Estudos transversais

O estudo transversal - também conhecido como estudo de corte transversal, estudo seccional ou, ainda,
estudo de prevalência, em inglês, cross-sectional study - é uma forma de pesquisa que consiste em
coletar dados em determinado tempo, após um corte no tempo, sem seguimento (follow-up). Assim,
para cada participante do estudo, tanto a exposição como também o desfecho (por exemplo, a doença)
são observados simultaneamente. Funciona como uma fotografia do que acontece naquele instante,
como ilustrado na Figura 4.3.

E+: Exposto; E-: Não Exposto; D+: Doente; D-: Não Doente
F+: Fator de Risco presente; F-: Fator de Risco ausente; C+: Caso; C-: Controle
Figura 4.3 - Esquema ilustrativo de estudo transversal.

Estudos tranversais são apropriados para medir prevalência de condições de saúde, determinadas
exposições (por exemplo, fatores de risco de certas doenças) e outras características da população.
Podem medir atitudes, comportamentos, história pessoal ou familiar, fatores genéticos, existentes
ou condições de saúde anteriores ou qualquer outro fator que não necessita de acompanhamento
para ser avaliado.

Para dados discretos, podem ser utilizadas as seguintes medidas de efeito: razão ou diferença de
proporção ou, ainda, razão de chances (odds ratio).
4.5.1 Tamanho de amostra em estudos transversais

Em estudos transversais, as fórmulas de tamanho de amostra dependem naturalmente do tipo de


resposta. Tipicamente, para variáreis binárias em que os grupos (por exemplo, exposto e não exposto)
serão comparados pela diferença de proporções (ou pela razão de chances), as fórmulas do capítulo 3
podem ser utilizadas. Se, por outro lado, a resposta for contínua, a comparação das médias dos grupos
pode ser feita por um dos métodos descritos no capítulo 2.

4.6 Ensaios clínicos controlados

Ensaio clínico controlado, também conhecido como ensaio clínico aleatorizado ou, ainda, ensaio
clínico randomizado, é realizado geralmente com o objetivo de verificar, entre dois ou mais
tratamentos, qual é o mais efetivo. Trata-se de estudo prospectivo planejado, por exemplo, para avaliar
o tratamento mais apropriado para futuros pacientes com determinada condição médica.

É, na verdade, um experimento médico seguindo os princípios da experimentação científica, que avalia


a segurança e eficácia de novas drogas ou procedimentos terapêuticos usando humanos.
Diferentemente de estudos observacionais, os ensaios clínicos controlados estão sujeitos a questões
éticas, disciplinadas pela convenção de Helsinque.

Os critérios de inclusão e exclusão de pacientes e também de suas alocações nos tratamentos devem ser
cuidadosamente estabelecidos. Após um critério de admissão ter sido definido, os pacientes são,
à medida que entram no experimento, alocados de maneira aleatória no grupo-controle, que recebe a
terapêutica padrão, ou no grupo-tratamento, que recebe a terapêutica sendo testada. Naturalmente,
os mesmos cuidados devem ser oferecidos aos grupos a serem comparados. Terminado o experimento,
técnicas estatísticas são aplicadas para se decidir se há ou não diferença na eficácia das terapias
envolvidas.

O conhecimento, pelo paciente ou pelo médico, do tratamento a ser administrado pode influir na
resposta ao mesmo, não a partir de fatores extrínsecos, mas diretamente pelo processo de
autossugestão, o que pode trazer vícios ao estudo clínico. Uma maneira de eliminar esse problema é
realizar, sempre que possível, experimentos cegos, nos quais o paciente ou o médico não conhece o
tratamento, ou duplo-cego, no qual ambas as partes desconhecem o tratamento. Esse ideal, entretanto,
nem sempre é viável. Esse tipo de estudo propicia intervenções dos pesquisadores, por exemplo, a
interrupção da pesquisa antes do prazo previsto.
Ensaios clínicos podem assumir diferentes formas. Entretanto, todos são prospectivos, já que as
observações são tomadas ao longo do tempo após a alocação no tratamento. A variável resposta pode
ser quantitativa ou qualitativa. Podem ser considerados grupos paralelos, correspondendo a amostras
independentes, ou do tipo crossover, para o caso de amostras pareadas ou emparelhadas (FLEISS,
1986). Comparação entre esses dois tipos de esquemas pode ser encontrada em Senn (2002) e Jones e
Kenward (2015).

Em estudos para desenvolvimento de medicamentos, dois agentes ativos podem ser comparados ou
eventualmente um dos grupos pode receber o placebo. Além disso, dois aspectos devem ser avaliados:
segurança e eficácia. Em geral, as pesquisas são realizadas em várias etapas ou fases. Detalhes sobre
essas fases podem ser encontrados, por exemplo, em Everitt e Pickles (2004).

4.6.1 Tamanho de amostra em ensaios clínicos controlados

Em ensaios clínicos controlados, as perguntas-chave relacionadas ao tamanho da amostra estão ligadas


ao objetivo principal do estudo, à principal medida de resposta do paciente, como os dados serão
analisados para detectar diferenças entre os tratamentos e qual é a menor diferença entre os tratamentos
a ser detectada.

Todos os comentários feitos nesta seção, que estão longe de ser extensivos, apenas dão a ideia de quão
ampla é a metodologia de dimensionamento de tamanho de amostra para ensaios clínicos controlados.
Por exemplo, se a comparação de tratamentos será feita por meio de proporções ou médias, pode-se
utilizar a mesma metodologia apresentada nos capítulos 2 e 3. O próximo capítulo trata do
dimensionamento de estudos especiais, os ensaios de não inferioridade e equivalência. De forma geral,
é necessário identificar a forma apropriada de dimensionar o estudo em cada caso específico.

O capítulo 7 de Ryan (2013), dedicado a ensaios clínicos, apresenta mais comentários e pouquíssimas
fórmulas. O livro de Chow et al. (2008) traz excelente conteúdo e trata-se de referência no assunto
por ser bastante completo, mas o leitor deve estar atento para errinhos, a maioria tipográficos,
em muitas fórmulas.

4.7 Noções de amostragem e cálculos do tamanho da amostra para os esquemas


amostrais tradicionais

O termo amostragem remete imediatamente aos grandes levantamentos de dados (surveys), pesquisas
de opinião, de mercado e de intenção de voto, por serem as situações mais conhecidas e tradicionais
das técnicas de amostragem, embora seu leque de aplicações seja mais amplo. Nesta seção, serão
resumidos brevemente os esquemas amostrais mais utilizados na prática, especialmente voltados para
os estudos epidemiológicos e clínicos, seguidos de comentários ligados ao dimensionamento de
amostra. Além disso, serão apresentadas fórmulas de cálculo do tamanho de amostra para algumas
situações, baseadas especialmente em Bolfarine e Bussab (2005) e Levy e Lemeshow (2008).

Segundo o livro de Bolfarine e Bussab (2005), plano amostral refere-se ao protocolo que descreve os
métodos e as medidas utilizadas na amostragem. Eles apresentam uma lista de tópicos no Apêndice B
que devem ser levados em conta em um levantamento amostral. O plano amostral está intimamente
ligado ao processo de sorteio dos elementos que vão compor a amostra e aos métodos de estimação dos
parâmetros, geralmente médias e totais, e de modo que se possam obter suas variâncias. Na literatura
estatística, os esquemas amostrais são mais voltados para a estimação do que para testes de hipóteses.

Como já mencionado no capítulo 1, os principais esquemas amostrais são: a) amostragem aleatória


simples (AAS); b) amostragem sistemática (AS); c) amostragem estratificada (AE); e d) amostragem
por conglomerados (AC). Na prática, é frequente a combinação dos esquemas básicos e muitas vezes a
amostragem é feita em mais de um estágio. Por exemplo, no primeiro estágio pode ser uma AC e no
segundo estágio uma AAS.

O efeito do tipo de amostragem pode ser avaliado por uma medida conhecida como design effect, em
geral abreviada por deff. É definida como a razão entre duas variâncias do estimador de interesse:
no numerador referente a determinada amostragem (por exemplo, AE) e no denominador a variância
calculada para AAS, que é considerada a referência. Por exemplo, para avaliar o efeito da estratificação
𝑉𝑎𝑟(𝑋̅ )𝐴𝐸
na estimação da média, calcula-se 𝑑𝑒𝑓𝑓𝐴𝐸,𝑋̅ = .
𝑉𝑎𝑟(𝑋̅ )𝐴𝐴𝑆

A seguir, são apresentados comentários sobre os esquemas amostrais de maneira resumida. Para mais
detalhes, textos sobre o assunto devem ser consultados. Destacam-se os clássicos como Kish (1965),
Cochran (1977) e Levy e Lemeshow (2008), além das publicações em português: Silva (2004), com
aplicações na área da saúde, e Bolfarine e Bussab (2005), com detalhes bem mais técnicos do que a
referência anterior. Naturalmente, cada esquema amostral requer um tipo de dimensionamento de
amostra apropriado. São apresentadas também algumas fórmulas de cálculos de tamanhos de amostra
dentro desse contexto.
4.7.1 Amostragem aleatória simples (AAS)

Para aplicar a amostragem aleatória simples (AAS), é necessário ter um sistema de referência (em
inglês frame), que é a lista de todos os elementos da população. O sorteio é feito entre todos os
elementos do sistema de referência de forma aleatória, utilizando uma tabela de números aleatórios (ver
Apêndice B). O procedimento para o sorteio encontra-se implementado em vários programas
de computador, tanto comerciais como de uso livre, e em geral sua utilização é extremamente simples.
A amostragem pode ser com ou sem reposição.

A grande vantagem desse tipo de sorteio é o fato de não deixar dúvida quanto às probabilidades dos
elementos que devem entrar na amostra. Esse tipo de amostragem é a referência para comparação entre
os esquemas amostrais, pelas propriedades teóricas advindas do sorteio equiprovável.

Entretanto, uma desvantagem considerável da AAS é que, para se realizar o sorteio, há necessidade da
lista de todos os elementos da população de base (frame), completa e atualizada, o que nem sempre é
possível. Em estudos epidemiológicos e clínicos, existem situações em que a população pode ser muito
bem definida pelos critérios de inclusão e de exclusão, mas não ser possível reunir todos os elementos
em uma única lista para, então, proceder ao sorteio. Um exemplo disso são os estudos prospectivos
(estudos de coorte e ensaios clínicos) de pacientes recrutados em um serviço de saúde; sabe-se quem é
elegível para fazer parte do estudo, mas não se tem a lista de todos os possíveis pacientes. Também em
estudos retrospectivos (estudos caso-controle ou coortes históricas), pode-se ter acesso a uma lista de
todos os pacientes atendidos em um determinado período de tempo passado, mas deve-se filtrá-los para
compor a amostra.

Como exemplo em que a ASS é viável, pode-se citar o sorteio de um tipo de profissional, por exemplo,
médicos, para participar de um estudo. A partir da lista completa do Conselho Regional desse tipo de
profissional, é possível sortear a amostra e, então, obter as informações desejadas. Outro exemplo é a
pesquisa sobre a satisfação dos afiliados de um plano de saúde. Nesse caso, é possível realizar uma
AAS já que existe a lista de todos os afiliados.

O exemplo descrito a seguir está ilustrado na Figura 4.4. Suponha-se que de um grupo de 100 pacientes
cujos dados estão organizados em uma planilha será selecionada uma AAS de tamanho n = 20,
sem reposição. Para o sorteio, pode-se utilizar a tradicional urna ou, alternativamente, uma tabela
de números aleatórios ou, ainda, um algoritmo de geração de números aleatórios. Nesse caso, a amostra
será composta pelos elementos marcados: 3, 7, 12, 15, 19, 27, 30, 43, 45, 49, 51, 64, 68, 72, 76, 79, 81,
83, 98, 100.

Figura 4.4 - Ilustração da amostragem aleatória simples (AAS).

Tamanho de amostra usando amostragem aleatória simples (AAS)

As fórmulas apresentadas nos capítulos 2 e 3 para dimensionamento de amostras para médias e


proporções, respectivamente, e na verdade a maioria das fórmulas deste texto, aplicam-se para esse
esquema amostral. Em geral, as fórmulas de tamanho de amostra são desenvolvidas supondo AAS,
embora nem sempre fique implícito.

Levy e Lemeshow (2008) apresentam fórmulas de dimensionamento de amostra para a média e para a
proporção quando for utilizado o esquema AAS, supondo-se que o tamanho da população (𝑁) seja
conhecido e as fórmulas aproximadas correspondentes quando 𝑁 for considerado grande. Os outros
termos que aparecem nas fórmulas são definidos a seguir.

Tamanho de amostra para estimação de médias usando amostragem aleatória simples (𝐀𝐀𝐒)

Supondo-se que a variável analisada (𝑋) tenha média 𝜇𝑋 e variância 𝜎𝑋2 , a fórmula para o cálculo de
tamanho de amostra quando se quer estimar a média sob o esquema de AAS é:

(𝑧1−𝛼/2 )2 𝑁𝑉𝑋2
𝑛𝑚é𝑑𝑖𝑎(𝐴𝐴𝑆) = (4.14)
(𝑧1−𝛼/2 )2 𝑉𝑋2 + (𝑁 − 1)𝑑 2

Em (4.14), 𝑧1−𝛼/2 é o percentil de ordem (1 − 𝛼/2)100% da distribuição normal padrão, 𝑁 é o


tamanho da população, 𝑉𝑋2 é a variância padronizada da variável analisada, definida por
𝑉𝑋2 = 𝜎𝑋2 /(𝜇𝑋 )2, e 𝑑 é a precisão desejada. Se 𝑁 for grande, a fórmula (4.14) reduz-se a:

(𝑧1−𝛼/2 )2 𝑉𝑋2
𝑛𝑚é𝑑𝑖𝑎(𝐴𝐴𝑆,𝑁↑) = (4.15)
𝑑2

Tamanho de amostra para estimação de proporções usando amostragem aleatória simples (AAS)

Para a estimação de proporção, a fórmula para cálculo de tamanho de amostra sob o esquema
de AAS é:

(𝑧1−𝛼/2 )2 𝑁𝑃𝑌 (1 − 𝑃𝑌 )
𝑛𝑝𝑟𝑜𝑝(𝐴𝐴𝑆) = (4.16)
(𝑧1−𝛼/2 )2 𝑃𝑌 (1 − 𝑃𝑌 ) + (𝑁 − 1)𝑑2 𝑃𝑌2

Em (4.16), 𝑃𝑌 é a proporção populacional da característica investigada, tipicamente desconhecida.


Os demais termos são os mesmos que apareceram em (4.14) e já foram definidos. Se 𝑁 for grande,
a fórmula (4.16) reduz-se a:

(𝑧1−𝛼/2 )2 (1 − 𝑃𝑌 )
𝑛𝑝𝑟𝑜𝑝(𝐴𝐴𝑆,𝑁↑) = (4.17)
𝑑2 𝑃𝑌

O nível de confiança é fixado de forma arbitrária, usualmente 95%, mas Levy e Lemeshow (2008)
utilizam o termo certeza virtual quando o nível de significância é bastante alto, quase 100%. Quando a
distribuição subjacente é a normal padrão, N(0,1), é equivalente a três desvios para cima e para baixo,
que cobre aproximadamente 99,7% da curva, caso em que 𝑧1−𝛼/2 = 3,0.

Exemplo 4.10 - Tamanho de amostra para estimar a média quando for adotada a amostragem
aleatória simples ╬╬

Em estudo-piloto considerando-se o tamanho da população igual a 1.000, foi possível obter as


seguintes informações: a média da variável analisada (𝑋) é 70 e o desvio-padrão é 14. Assim,
𝑁−1 2 999
̂𝑋
𝜎 2 ( )𝑠𝑋 ( )(14)2
a variância padronizada 𝑉𝑋2 é estimada por 𝑉̂𝑋2 = ̂ 𝑋 )2
= 𝑁
̂ 𝑋 )2
= 1000
= 0,04. Para o estudo
(𝜇 (𝜇 (70)2

definitivo, cujo tamanho da população é 2.500 (𝑁 = 2.500), fixando a precisão em 𝑑 = 0,1 e o nível
de confiança em 95%, a solução da aplicação da fórmula (4.14) é 16: 𝑛𝑚é𝑑𝑖𝑎(𝐴𝐴𝑆) =
(𝑧1−𝛼/2 )2 𝑁𝑉𝑋2 (1,96)2 ×2.500×0,04
= (1,96)2 ×0,04+(2.499)(0,1)2 = 15,28 ≅ 16. Para a certeza virtual (𝑧1−𝛼/2 = 3),
(𝑧1−𝛼/2 )2 𝑉𝑋2 +(𝑁−1)𝑑2
9×2.500×0,04
o tamanho da amostra sobe para 36: 𝑛𝑚é𝑑𝑖𝑎(𝐴𝐴𝑆) = 9×0,04+(2.499)(0,1)2 = 35,5 ≅ 36. O mesmo

resultado é obtido aplicando-se a fórmula (4.15).

Exemplo 4.11 - Tamanho de amostra para estimar a proporção quando for adotada a
amostragem aleatória simples ╬╬

Quer-se determinar o tamanho da amostra para estimar a proporção de indivíduos que estão satisfeitos
com o Plano de Saúde contratado em determinado segmento (por exemplo, pertencentes a certa faixa
de idade, com algum perfil de saúde, que possuem determinado tipo de plano, com direito a enfermaria
ou apartamento, etc.). O tamanho desse segmento de afiliados (“população”) é de 20.000
(𝑁 = 20.000).

O comitê responsável pela pesquisa decidiu que alguma ação corretiva deve ser tomada se menos de
80% dos afiliados estiverem satisfeitos. Neste caso, o comitê estaria preocupado com superestimativas
brutas da verdadeira proporção, mas provavelmente não seria muito problemático se a proporção
estimada fosse de 80% quando a verdadeira proporção fosse de 75%. Este raciocínio pode ser
formulado calculando-se o desvio relativo como 100 [(80 − 75) / 75]% = 6,67%, ou seja,
𝑑 = 0,0667.

Aplicando a fórmula (4.16), adotando a certeza virtual (𝑧1−𝛼/2 = 3) e fazendo 𝑃𝑌 = 0,80, tem-se que
(𝑧1−𝛼/2 )2 𝑁𝑃𝑌 (1−𝑃𝑌 ) 9×20.000×0,80×0,20
𝑛𝑝𝑟𝑜𝑝(𝐴𝐴𝑆) = (𝑧 2 2 2
= 9×0,80×0,20+(19.999)(0,0667)2 (0,80)2 = 493,29 ≅ 494. Assim, é
1−𝛼/2 ) (1−𝑃𝑌 )+(𝑁−1)𝑑 𝑃𝑌

necessário recrutar 494 indivíduos. Se o nível de confiança fosse 95%, o tamanho de amostra seria 214.
Utilizando a fórmula (4.17) para amostras grandes, os tamanhos de amostra correspondentes aos dois
níveis de significância são ligeiramente diferentes: 506 e 216.

4.7.2 Amostragem sistemática (AS)

Na amostragem sistemática (AS) utiliza-se um tipo de sorteio que segue sistemática preestabelecida,
por exemplo, a amostra pode ser composta dos seguintes elementos: 4º, 14º, 24º, 34º, etc. O esquema
geral consiste em sortear o primeiro elemento da amostra usando AAS e depois os elementos
subsequentes usando AS, isto é, com o mesmo espaçamento. De forma geral, consiste em dividir a
população de 𝑁 elementos em 𝑝 = 𝑁/𝑛 regiões. Seleciona-se aleatoriamente um número 𝑘 entre 1 e 𝑝,
que corresponde ao primeiro elemento da amostra. O segundo elemento será o que ocupa a posição
𝑘 + 𝑝; o terceiro, 𝑘 + 2𝑝, e assim por diante, até completar a amostra de 𝑛 elementos. A população
deve estar ordenada segundo algum critério não relacionado ao tema principal, de modo a tornar o
sorteio completamente aleatório, uma vez que a partida do sorteio é aleatória, embora os elementos
subsequentes não sejam nem sorteados. Existem variações na forma de seleção de amostra no esquema
AS que podem ser verificadas em textos de amostragem.

É muito utilizada em sorteio de residências, em pesquisas em domicílios de um bairro, quarteirão ou


setor censitário. Por exemplo, pode ser sorteada uma residência de uma rua, depois o entrevistador
deve pular determinado número de casas. É claro que, na prática, aparecem algumas dificuldades, pois
nem sempre as ruas são completamente regulares – por exemplo, pode ter um lote com mais de uma
residência ou mesmo entre casas ter um prédio de apartamentos. Torna-se necessário fazer um bom
planejamento, levando-se em conta o mapa da região em que a pesquisa será feita.

Uma das vantagens desse tipo de sorteio é que não há necessidade de se conhecer a lista completa
de elementos (frame), apenas o total deles, 𝑁. Além disso, há garantia de cobertura completa da lista,
já que o sorteio varrerá todas as 𝑝 regiões.

A principal vantagem é a facilidade de execução, porque o sorteio pode ser realizado durante o trabalho
de campo, desde que haja regras de seleção dos elementos claras e inequívocas, podendo ainda se fazer
substituições de elementos ausentes no momento do sorteio. Com as amostras de determinado
percentual do Censo Demográfico, desenhadas para pesquisar outras características populacionais que
não só a contagem populacional, é utilizado esse esquema.

A Figura 4.5 ilustra a seleção da amostra em uma listagem de 100 indivíduos, seguindo amostragem
sistemática: primeiro, foi selecionado um número entre um e 10 – supondo-se que o número três tenha
sido sorteado, depois foi sorteado o incremento (saiu seis) e, portanto, o próximo número será
3 + 6 = 9, o seguinte 9 + 6 = 15, e assim por diante. Assim, a partir do esquema de amostragem
sistemática, foi obtida a amostra com 17 elementos correspondentes às seguintes identificações: 3, 9,
15, 21, 27, 33, 39, 45, 51, 57, 63, 69, 75, 81, 87, 93 e 99.
Figura 4.5 - Ilustração da amostragem sistemática (AS).

Tamanho de amostra usando amostragem sistemática (AS)

Se a lista da qual a amostra sistemática será retirada estiver em forma aleatória, pode-se assumir que
AS seja aproximadamente equivalente à amostragem aleatória simples (AAS), caso em que as fórmulas
de tamanho de amostra para AAS podem ser utilizadas. Se este não for o caso, há dificuldades em se
obter as variâncias referentes à amostragem sistemática.

Levy e Lemeshow (2008) propõem uma fórmula que é ilustrada com um exemplo bastante completo e
exposto de forma bem didática. Na fórmula aparecem as estimativas e não os parâmetros, o que foge do
enfoque adotado na maioria das fórmulas apresentadas neste texto, mas que pode ser adaptado.

4.7.3 Amostragem estratificada (AE)

Em qualquer população, há diversidade de seus elementos em relação a várias características,


por exemplo, faixa etária, profissão, condições socioeconômicas, local de moradia (rural ou urbana),
entre tantas outras. Consequentemente, em muitas situações, a AAS e a AS não são adequadas, já que a
amostra seria extraída do sistema de referência da população como um todo, o que não garante a
representatividade de todas as características da população.

Para exemplificar, numa pesquisa que tenha como objetivo estimar o número total de leitos hospitalares
em determinado estado, é importante que todos os hospitais de diferentes portes (grande, médio e
pequeno) sejam adequadamente representados. Assim, o procedimento recomendado é primeiramente
estratificar os hospitais em três grupos (denominados estratos) de acordo com o tamanho. A estimativa
do total de leitos deve ser obtida pela combinação dos três estratos. Esta é a essência da amostragem
estratificada. Voltando aos dois exemplos apresentados na descrição de AAS, sorteio de um tipo de
profissional a partir da lista completa do Conselho Regional de Profissionais e estudo de satisfação de
afiliados de plano de saúde utilizando a lista dos afiliados, a AAS não seria tão adequada, já que não há
garantias de que os vários perfis de indivíduos estejam incluídos na amostra. Novamente, um
procedimento razoável seria formar estratos (por características de interesse na pesquisa) e retirar as
amostras de cada estrato.

De forma geral, em muitas situações, deseja-se estimar os parâmetros de interesse relativos a subgrupos
homogêneos da população. São exemplos as estimativas da prevalência de uma doença na zona urbana
e zona rural, estimativas entre homens e entre mulheres ou entre diferentes faixas etárias. Geralmente,
essa divisão da população em subgrupos, ou estratos, é artificial, imposta por necessidade do estudo.
Em termos práticos, quer-se obter estratos internamente homogêneos, de tal modo que as estimativas
de cada estrato sejam bem representativas e eventualmente componham uma estimativa global.

Os estratos são considerados como populações independentes, das quais serão retiradas amostras
igualmente independentes, por exemplo, utilizando AAS. O fato de as subpopulações serem
homogêneas significa que a variância interna é mínima e a variância entre os estratos é máxima.
Essa estrutura faz com que ao se ponderar as estimativas vindas de cada estrato em uma estimativa
global, a variabilidade final seja menor do que se se tivesse usado a AAS.

Em resumo, o procedimento na amostragem estratificada consiste na divisão da população em grupos,


sem interseção entre eles, os estratos, que são homogêneos internamente. A estratificação pode ser por
faixa etária, raça, atividade esportiva, como ilustrado na Figura 4.6, ou qualquer outra característica.

Figura 4.6 - Ilustração da amostragem estratificada (AE).


Em cada estrato, o tipo de amostragem pode ser AAS ou AS. É muito comum usar o procedimento em
que a probabilidade de um elemento ser incluído na amostra é proporcional ao tamanho (em inglês,
probability proportional to size, abreviado por PPS) – é a chamada alocação proporcional.
Por exemplo, considere-se que, em uma população, 40% sejam da raça branca, 35% da raça negra e
25% das demais raças. Assim, com alocação proporcional, a amostra de tamanho 𝑛 = 1.000 deve ser
constituída de 400 brancos, 350 negros e 250 de outras raças.

Em geral, a precisão de estimativas da AE é maior que as obtidas pela AAS. Esse efeito vai depender
do fator de estratificação. Além dessa importante vantagem, na AE é possível estimar quantidades de
interesse dentro de cada estrato e também no geral. Por exemplo, o objetivo pode ser estimar a
prevalência de uma doença na zona urbana e rural ou obter estimativas para cada sexo e para diferentes
faixas etárias. Com a AE é possível manter a composição da população segundo características de
interesse. Finalmente, a AE é muito utilizada por conveniência administrativa ou operacional.

Tamanho de amostra usando amostragem estratificada (AE)

As fórmulas de tamanho de amostra para a amostragem estratificada são específicas para cada tipo de
variável, medida, planejamento e situação em geral. Vários livros de amostragem dedicam alguma
seção para discutir este assunto, utilizando eventualmente diferentes metodologias.

Levy e Lemeshow (2008) consideram o contexto de estimação de parâmetros. Apresentam inicialmente


uma fórmula geral para o dimensionamento da média, sendo que a proporção representa um caso
particular quando a variável assume apenas dois valores: 0 e 1.

Existem vários tipos de partilha, isto é, para determinado tamanho de amostra geral, pode-se
estabelecer qual é a distribuição da amostra entre os estratos: partilha proporcional, partilha uniforme e
partilha ótima de Neyman. Uma excelente referência sobre o assunto é a seção 4.3 do livro Bolfarine e
Bussab (2005). A aplicação das fórmulas de tamanho de amostra apresentadas a seguir em geral é feita
no contexto das citadas partilhas.

Tamanho de amostra para estimação de proporções usando amostragem estratificada (AE)

Considerando a população dividida em 𝐻 estratos, cada um de tamanho 𝑁ℎ , tal que 𝑁1 + ⋯ + 𝑁𝐻 = 𝑁,


a proporção de um evento de interesse em cada estrato é 𝑃ℎ , ℎ = 1, ⋯ , 𝐻 e a proporção geral é
𝑁 ℎ 𝑃ℎ
𝑃𝑌 = ∑𝐻
𝑖=1 .
𝑁
𝑁 ℎ 𝑃ℎ ̂
Uma estimativa não viciada de 𝑃𝑌 é dada por 𝑃̂𝑌 = ∑𝐻 ̂
𝑖=1 𝑁 , sendo 𝑃ℎ a estimativa usual em cada

estrato baseada em 𝑛ℎ elementos. A variância associada ao estimador da proporção geral é


2
1 𝑁ℎ (𝑁ℎ −𝑛ℎ ) 𝑃ℎ (1−𝑃ℎ )
𝑉𝑎𝑟(𝑃̂𝑌 ) = 𝑁2 ∑𝐻
𝑖=1 . Se 𝑁ℎ for grande, comparado com 𝑛ℎ , a fórmula da variância
𝑁 −1 ℎ 𝑛 ℎ

1 𝑁ℎ 2𝑃
ℎ (1−𝑃ℎ )
simplifica-se para 𝑉𝑎𝑟(𝑃̂𝑌 , 𝑁ℎ ↑) = 𝑁2 ∑𝐻
𝑖=1 .
𝑛ℎ

Aplicando o teorema central do limite, a distribuição de 𝑃̂𝑌 é aproximadamente normal, tal que os
desenvolvimentos de fórmulas de tamanho de amostra são obtidos da forma usual. Serão consideradas
duas situações, precisão absoluta (𝑑𝑎𝑏𝑠 ) e precisão relativa (𝑑𝑟𝑒𝑙 ).

Tamanho de amostra para estimação da proporção 𝑷𝒀 com precisão absoluta usando


amostragem estratificada (AE)

Utilizando os resultados comentados no parágrafo anterior, Lemeshow et al. (1990) estabelecem a


seguinte fórmula do tamanho de amostra para estimar a proporção quando a precisão absoluta (𝑑𝑎𝑏𝑠 )
for utilizada:

(𝑧1−𝛼/2 )2 ∑𝐻 2
ℎ=1 𝑁ℎ 𝑃ℎ (1 − 𝑃ℎ )/𝑤ℎ
𝑛𝑝𝑟𝑜𝑝(𝐴𝐸,𝑑𝑎𝑏𝑠 ) = 2 (4.18)
𝑁 (𝑑𝑎𝑏𝑠 )2 + (𝑧1−𝛼/2 )2 ∑𝐻
ℎ=1[𝑁ℎ 𝑃ℎ (1 − 𝑃ℎ )]

Na fórmula (4.18), 𝑧1−𝛼/2 é o percentil de ordem (1 − 𝛼/2)100% da normal padrão, 𝑃ℎ é a proporção


de indivíduos no ℎ-ésimo estrato de tamanho 𝑁ℎ que possui a característica estudada, 𝑤ℎ = 𝑛ℎ /𝑛
representa a fração de observações alocadas no estrato ℎ, ℎ = 1, ⋯ , 𝐻, 𝑁 é o tamanho populacional e
𝑑𝑎𝑏𝑠 é a precisão absoluta. Para os casos em que a alocação é igual, 𝑤ℎ = 1/𝐻 para todos os estratos e
com estratificação proporcional, 𝑤ℎ = 𝑁ℎ /𝑁.

Quando o tamanho populacional 𝑁 é grande, a fórmula (4.18) simplifica-se para:

(𝑧1−𝛼/2 )2 ∑𝐻 2
ℎ=1 𝑁ℎ 𝑃ℎ (1 − 𝑃ℎ )/𝑤ℎ
𝑛𝑝𝑟𝑜𝑝(𝐴𝐸,𝑑𝑎𝑏𝑠, 𝑁↑) = (4.19)
𝑁 2 (𝑑𝑎𝑏𝑠 )2
Tamanho de amostra para estimação da proporção 𝑷𝒀 com precisão relativa usando
amostragem estratificada (AE)

Quando a amostragem estratificada é utilizada, segundo Levy e Lemeshow (2008), a fórmula para
obtenção do tamanho amostral total, isto é, para todos os estratos, é dada por
(𝑧1−𝛼/2 )2 𝐻 𝑁2 𝑃ℎ (1−𝑃ℎ )
∑ℎ=1 ℎ
𝑁2 𝑤 ℎ 𝑃2𝑌
(𝑧1−𝛼/2 )2 𝑁 𝑃
, que pode ser reescrita como:
(𝑑𝑟𝑒𝑙 )2 + 𝐻
∑ℎ=1 ℎ ℎ (1−𝑃ℎ )
𝑁2 𝑃2 𝑌

(𝑧1−𝛼/2 )2 ∑𝐻 2
ℎ=1 𝑁ℎ 𝑃ℎ (1 − 𝑃ℎ )/𝑤ℎ
𝑛𝑝𝑟𝑜𝑝(𝐴𝐸,𝑃𝑌) = 2 2 (4.20)
𝑁 𝑃𝑌 (𝑑𝑟𝑒𝑙 )2 + (𝑧1−𝛼/2 )2 ∑𝐻
ℎ=1[𝑁ℎ 𝑃ℎ (1 − 𝑃ℎ )]

Na fórmula (4.20), 𝑃𝑌 é a proporção populacional e 𝑑𝑟𝑒𝑙 é a precisão relativa. Na prática pode-se ter
uma ideia do valor de 𝑃𝑌 , que pode ser substituído diretamente na fórmula ou, alternativamente, 𝑃𝑌
pode ser calculado pela definição: 𝑃𝑌 = ∑𝐻
ℎ=1 𝑊ℎ 𝑃ℎ , sendo 𝑊ℎ = 𝑁ℎ /𝑁. Os demais termos foram

definidos após a fórmula (4.18).

Seguindo o raciocínio para a obtenção da fórmula anterior, Lemeshow et al. (1990) apresentam a
seguinte fórmula do tamanho de amostra para estimar a proporção quando a precisão relativa (𝑑𝑟𝑒𝑙 )
for utilizada:

(𝑧1−𝛼/2 )2 ∑𝐻 2
ℎ=1 𝑁ℎ 𝑃ℎ (1 − 𝑃ℎ )/𝑤ℎ
𝑛𝑝𝑟𝑜𝑝(𝐴𝐸,𝑑𝑟𝑒𝑙 ) = 2 (4.21)
(𝑑𝑟𝑒𝑙 )2 (∑𝐻 2 𝐻
𝑖=1 𝑁ℎ 𝑃ℎ ) + (𝑧1−𝛼/2 ) ∑ℎ=1[𝑁ℎ 𝑃ℎ (1 − 𝑃ℎ )]

Os termos e a notação das fórmulas (4.21) e (4.18) são os mesmos, o único termo distinto que aparece
em (4.21) é 𝑑𝑟𝑒𝑙 , enquanto que em (4.18) é utilizado 𝑑𝑎𝑏𝑠 . Na verdade a fórmula (4.21) pode ser
reescrita exatamente como a (4.20) quando 𝑊ℎ = 𝑁ℎ /𝑁, elas fornecem exatamente os mesmos
resultados. A opção por apresentar ambas as formas é que uma delas pode ser de preferência do leitor e
para esclarecer que as fórmulas dos textos (LEMESHOW et al., 1990; LEVY e LEMESHOW, 2008)
são as mesmas.

Quando 𝑁 for grande, a fórmula (4.21) simplifica-se para:

(𝑧1−𝛼/2 )2 ∑𝐻 2
ℎ=1 𝑁ℎ 𝑃ℎ (1 − 𝑃ℎ )/𝑤ℎ
𝑛𝑝𝑟𝑜𝑝(𝐴𝐸,𝑑𝑟𝑒𝑙, 𝑁↑) = 2
(4.22)
(𝑑𝑟𝑒𝑙 )2 (∑𝐻
𝑖=1 𝑁ℎ 𝑃ℎ )
Tamanho de amostra para estimação de médias usando amostragem estratificada (AE)

Considerando que a população esteja dividida em 𝐻 estratos, que a média estimada utilizando a
estratificação (∑𝐻
𝑖=1 𝑁ℎ 𝜇ℎ /𝑁) difira da verdadeira média 𝜇 por uma quantidade que não exceda

𝑑𝑎𝑏𝑠 100%, segundo Levy e Lemeshow (2008) a fórmula para calcular o tamanho de amostra é:

(𝑧1−𝛼/2 )2 𝐻 𝑁ℎ2 𝜎ℎ2


∑ℎ=1
𝑁2 𝑤ℎ 𝜇 2
𝑛𝑚é𝑑𝑖𝑎(𝐴𝐸) = (4.23)
(𝑧1−𝛼/2 )2 𝐻 𝑁ℎ 𝜎ℎ2
(𝑑𝑎𝑏𝑠 )2 + ∑ℎ=1 2
𝑁2 𝜇

Em (4.23) 𝑧1−𝛼/2 é o percentil de ordem (1 − 𝛼/2)100% da distribuição normal padrão, 𝑁ℎ , 𝜎ℎ2 ,


𝑛ℎ
𝑤ℎ = , 𝑛ℎ são, respectivamente, o tamanho populacional, a variância, o peso e o tamanho amostral
𝑛

do ℎ-ésimo estrato, ℎ = 1, ⋯ , 𝐻.

Se a alocação for feita de forma proporcional, a fórmula (4.23) reduz-se a:

𝑁(𝑧1−𝛼/2 )2 (𝜎𝑤2 /𝜇 2 )
𝑛𝑚é𝑑𝑖𝑎(𝐴𝐸,∝) = (4.24)
𝑁(𝑑𝑎𝑏𝑠 )2 + (𝑧1−𝛼/2 )2 (𝜎𝑤2 /𝜇 2 )

∑𝐻 2
𝑖=1 𝑁ℎ 𝜎ℎ
Em (4.24), 𝜎𝑤2 = representa a variância entre os elementos dentro do mesmo estrato, que
𝑁

também pode ser interpretada como a média ponderada das variâncias dos estratos com pesos iguais
aos tamanhos proporcionais do estrato (𝑁ℎ /𝑁); os demais termos foram definidos em (4.23).

De forma similar à metodologia da técnica de Análise de Variância, a variância populacional (𝜎 2 ) é


particionada em duas componentes (entre estratos e dentro dos estratos): 𝜎 2 = 𝜎𝑏2 + 𝜎𝑤2 , sendo
∑𝐻
𝑖=1 𝑁ℎ (𝜇ℎ −𝜇)
2
𝜎𝑏2 = , significando a variância entre a média dos estratos e 𝜎𝑤2 a variância definida no
𝑁

parágrafo anterior.

Definindo 𝑉𝑋2 = 𝜎𝑤2 /𝜇 2 e a razão 𝛾 = 𝜎𝑏2 /𝜎𝑤2 , a fórmula (4.24) pode ser reescrita como:

𝑁
(𝑧1−𝛼/2 )2 1 + 𝛾 𝑉𝑋2
𝑛𝑚é𝑑𝑖𝑎(𝐴𝐸,∝,𝛾) = (4.25)
𝑉𝑋2
𝑁(𝑑𝑎𝑏𝑠 )2 + (𝑧1−𝛼/2 )2 1+𝛾
Levy e Lemeshow (2008) também ilustram o dimensionamento de amostra para médias com
amostragem estratificada para a partilha ótima.

Exemplo 4.12 - Tamanho de amostra para estimar proporções quando for adotada amostragem
estratificada - adaptação do exemplo de Lemeshow et al. (1990) ╬╬

Foi realizado estudo tipo survey em três estratos (A, B e C) compostos de famílias, respectivamente,
com tamanhos de 2.000, 3.000 e 5.000, para estimação de certa proporção de uma característica de
interesse. Espera-se que os percentuais do evento pesquisado sejam 10%, 15% e 20%, respectivamente
nos três estratos (𝑃1 = 0,1; 𝑃2 = 0,15; 𝑃3 = 0,2). As informações sobre os estratos necessárias para o
cálculo do tamanho da amostra encontram-se na Tabela 4.6.

Tabela 4.6 - Informações sobre os estratos e resultados do cálculo do tamanho de amostra


com amostragem estratificada para estimar proporção em algumas situações
Tamanho de amostra
Sobre os estratos
(𝑑𝑎𝑏𝑠 = 0,03)
Estrato 𝑁ℎ 𝑤ℎ 𝑃ℎ Fórmula (4.18) Fórmula (4.19)
A 2.000 0,2 0,10 110 116
B 3.000 0,3 0,15 165 175
C 5.0.00 0,5 0,20 275 291
Total 10.000 1,0 550 582

Por definição, 𝑃𝑌 = ∑𝐻
ℎ=1 𝑊ℎ 𝑃ℎ , 𝑊ℎ = 𝑁ℎ /𝑁, 𝑃𝑌 = 0,2 × 0,10 + 0,3 × 0,15 + 0,5 × 0,20 = 0,165.

Considerando 𝑑𝑎𝑏𝑠 = 0,03, confiança de 95% e que a amostra será obtida por meio de alocação
proporcional, 𝑤ℎ = 𝑁ℎ /𝑁, a utilização da fórmula (4.18) indica que o tamanho de amostra necessário
para estimar a proporção do evento pesquisado é 549,59, o que equivale a 550 famílias. Distribuindo
proporcionalmente entre os estratos, têm-se 110 (10% de 550), 165 (15% de 550) e 275 famílias (20%
de 550) nos estratos A, B e C, respectivamente. Aplicando a fórmula (4.19), válida para 𝑁 grande,
chega-se ao número de 582 famílias, valor ligeiramente superior ao resultado anterior (550).

Estimando a proporção do evento pesquisado dentro de 5%, isto é, 𝑑𝑟𝑒𝑙 = 0,05, mantendo as demais
informações anteriores e aplicando as fórmulas (4.20) e (4.21), o número de famílias é de 4.348 e sobe
para 7.690 quando 𝑁 é grande, fórmula (4.22).

Considere-se agora que os tamanhos dos estratos sejam maiores (𝑁1 = 20.000; 𝑁2 = 30.000;
𝑁3 = 50.000) e que as probabilidades dos eventos sejam 𝑃1 = 0,05; 𝑃2 = 0,10; 𝑃3 = 0,15,
𝑃𝑌 = ∑𝐻
ℎ=1(𝑁ℎ /𝑁) × 𝑃ℎ = 0,2 × 0,05 + 0,3 × 0,10 + 0,5 × 0,15 = 0,115. Nas mesmas condições

anteriores e utilizando a fórmula (4.18), os tamanhos de amostra (número de famílias) necessários para
estimar a proporção do evento pesquisado referentes a cinco valores de 𝑑𝑎𝑏𝑠 são 3709 (𝑑𝑎𝑏𝑠 = 0,01),
954 (𝑑𝑎𝑏𝑠 = 0,02), 427 (𝑑𝑎𝑏𝑠 = 0,03), 241 (𝑑𝑎𝑏𝑠 = 0,04) e 154 (𝑑𝑎𝑏𝑠 = 0,05). A distribuição das
famílias para cada estrato é feita de forma proporcional aos pesos (𝑊ℎ = 𝑁ℎ /𝑁).

Exemplo 4.13 - Tamanho de amostra para estimar médias quando for adotada amostragem
estratificada - adaptação do exemplo de Levy e Lemeshow (2008) ╬╬

Um plano de saúde que atende a determinada instituição quer estimar o número médio de
hospitalizações de um segmento de seus afiliados (com determinadas características) com o objetivo de
fazer alguns planejamentos. A partir de um banco de dados nacional foi possível obter as informações
apresentadas na Tabela 4.7 segundo três faixas de idades (< 45 anos, 45 − 64 anos, ≥ 65 anos),
que no plano de saúde tinham, respectivamente, os tamanhos 𝑁1 = 600, 𝑁2 = 500, 𝑁3 = 400,
totalizando 1.500 afiliados.

Tabela 4.7 - Média e variância de episódios de hospitalizações de pacientes, segundo três faixas etárias
Média
Faixa etária (tamanho) Variância (𝜎ℎ2 )
(𝜇ℎ )
< 45 anos (𝑁1 = 600) 0,164 0,245
45 − 64 anos (𝑁2 = 500) 0,166 0,296
≥ 65 anos (𝑁3 = 400) 0,236 0,436

Supondo que as informações apresentadas na Tabela 4.7 representem bem os afiliados do plano de
∑𝐻
𝑖=1 𝑁ℎ 𝜇ℎ
saúde do planejamento, a média geral levando em conta a estratificação seria 𝜇 = =
𝑁

600(0,164)+500(0,166)+400(0,236) ∑𝐻
𝑖=1 𝑁ℎ (𝜇ℎ −𝜇)
2
= 0,184. A variância entre estratos é 𝜎𝑏2 = =
1500 𝑁
600(0,164−0,184)2 +500(0,166−0,184)2 +400(0,236−0,184)2
= 0,000989, enquanto que o outro tipo de variância
1500
∑𝐻 2
𝑖=1 𝑁ℎ 𝜎ℎ 600(0,245)+500(0,296)+400(0,436)
é 𝜎𝑤2 = = = 0,312933. Resumindo, 𝜎 2 = 𝜎𝑏2 + 𝜎𝑤2 =
𝑁 1500

0,000989 + 0,312933 = 0,313922, 𝑉𝑋2 = 𝜎𝑤2 /𝜇 2 = 0,313922/(0,184)2 = 9,27 e a razão


𝛾 = 𝜎𝑏2 /𝜎𝑤2 = 0,000989/0,313922 = 0,003150.
Considerando margem de erro de estimação igual a 20% (𝑑𝑎𝑏𝑠 = 0,20), alocação proporcional e
certeza virtual (𝑧1−𝛼/2 = 3,0), ao aplicar a fórmula (4.25) tem-se: 𝑛𝑚é𝑑𝑖𝑎(𝐴𝐸,∝,𝛾) =
𝑁 2 1500
(𝑧1−𝛼/2 )2 𝑉 9( )9,27
1+𝛾 𝑋 1+0,003150
𝑉 2 = 9,27 = 871,37 ≅ 872. Os tamanhos de amostra nos estratos
𝑁(𝑑𝑎𝑏𝑠 )2 +(𝑧1−𝛼/2 )2 𝑋 1500(0,20)2 +9( )
1+0,003150
1+𝛾

600 500
(faixas etárias) são 𝑛1 = 1500 × 872 = 348,8 ≅ 349, 𝑛2 = 1500 × 872 = 290,67 ≅ 291 e
400
𝑛3 = 1500 × 872 = 232,53 ≅ 233 ou para somar 872: 𝑛3 = 872 − (349 + 291) = 232.

Com confiança de 95%, o tamanho da amostra cai para 558, representando redução de 314 indivíduos
𝑁 2
(𝑧1−𝛼/2 )2 𝑉
1+𝛾 𝑋
ou, ainda, 36%. As contas para chegar a esse resultado são: 𝑛𝑚é𝑑𝑖𝑎(𝐴𝐸,∝,𝛾) = 𝑉 2 =
𝑁(𝑑𝑎𝑏𝑠 )2 +(𝑧1−𝛼/2 )2 𝑋
1+𝛾

1500
(1,96)2 ( )9,27
1+0,003150
2 2 9,27 = 557,59 ≅ 558. Se a confiança for de 90%, o tamanho de amostra é de
1500(0,20) +(1,96) ( )
1+0,003150

443 indivíduos, praticamente a metade do obtido no caso da certeza virtual.

4.7.4 Amostragem por conglomerados (AC)

As populações humanas agregam-se naturalmente em subgrupos, internamente heterogêneos, mas


similares entre si, na maioria das vezes compostos por elementos indissociáveis na prática.
Um exemplo disso são as turmas de uma mesma série escolar. Para se obter uma amostra de estudantes
dessa série, o mais prático é sortear uma turma e daí fazer um recenseamento ou uma nova
amostragem.

Esses aglomerados, chamados conglomerados (em inglês, clusters), são as unidades de sorteio.
Esse esquema amostral traz um complicador, que é a correlação dos elementos dentro do
conglomerado, a correlação intraclasse. Na prática, isso quer dizer que a aglomeração natural pode
levar à tendência a responder positiva ou negativamente a uma questão, como, por exemplo, intenção
de voto em determinado bairro ou a opinião sobre alguma questão de interesse em determinado
município.

A correlação intraclasse tem o efeito de aumentar a variância global ou, muito raramente, diminuir, se
comparada à obtida por uma AAS de elementos individuais. Essa correlação é a base para o
design effect (deff), medida definida no início da seção. No caso de o sorteio ser completamente
aleatório, o dimensionamento de amostras é feito a partir das fórmulas da AAS, multiplicando-se o
resultado lá obtido pelo deff.

Na maioria das vezes, dois ou mais processos de seleção são envolvidos (amostragem em
multiestágios) e a lista explicitando as unidades individuais só é necessária na última etapa.
Exemplificando de maneira simples (dois estágios): num primeiro momento é feita a amostragem
aleatória dos conglomerados e, daqueles selecionados, obtém-se a lista de elementos que serão
submetidos a um novo processo de amostragem.

A Figura 4.7 mostra as nove regionais da região metropolitana de Belo Horizonte-MG. Nesse caso, as
regionais podem ser consideradas conglomerados e, portanto, a amostragem por conglomerados (AC)
seria apropriada.

Figura 4.7 - Ilustração da amostragem por conglomerados (AC).

Em resumo, a AC é apropriada quando a população se agrega em subgrupos preexistentes,


denominados conglomerados. São exemplos de conglomerados: setores censitários, famílias,
domicílios, pacientes de um serviço, turmas de uma escola, etc. Um aspecto importante a ser
considerado é se os conglomerados são ou não de igual tamanho, sendo que as fórmulas são específicas
para cada caso. A amostragem por conglomerado pode ser em um único estágio, mas frequentemente é
realizada em dois estágios, caso em que naturalmente as fórmulas são mais complexas. As vantagens
desse tipo de amostragem são, além da economia na construção do cadastro, a redução do custo de
locomoção e acesso aos elementos.
Tamanho de amostra usando amostragem por conglomerados (AC)

A determinação do tamanho da amostra é considerada em uma pequena seção de Bolforine e Bussab


(2005). De forma mais completa, Levy e Lemeshow (2008) elaboraram fórmulas para o
dimensionamento de amostra com amostragem por conglomerado em um único estágio e também em
dois estágios. Neste último caso, a fórmula é apresentada tanto de forma mais geral como para o caso
em que os conglomerados são selecionados com probabilidade proporcional ao tamanho e com
reposição. Há exemplificação de forma bem didática.

4.7.5 Combinação dos esquemas básicos de amostragem

Na prática, é muito comum a combinação dos esquemas básicos de amostragem. Para exemplificar,
considere-se a seguinte situação: em uma população de 200 mil estudantes distribuídos em 2.000
escolas, deve-se planejar o sorteio de amostra de 500 escolares (n = 500).

Certamente, seria muito complicado implementar a AAS, enquanto que o esquema de AC é bem
prático. Pode-se realizar o sorteio em um estágio (por exemplo, 100 alunos em cinco escolas) ou em
mais de um estágio. Nesse caso, existem inúmeras possibilidades: sortear 10 escolas, duas turmas por
escola e 25 crianças por turma; alternativamente, podem-se sortear 50 escolas e de cada uma delas
sortear uma única turma e, a seguir, sortear 10 crianças de cada turma; uma terceira possibilidade seria
sortear 25 escolas, quatro turmas de cada escola e cinco crianças de cada turma.

No exemplo apresentado na AAS sobre o sorteio de médicos para participar de um estudo a partir da
lista completa do Conselho Regional de Medicina, pode-se fazer estratificação em termos de tempo em
que os médicos são formados, segundo sexo e especialidade, ou, ainda, considerando outras
características ou mesmo a combinação entre elas. Em cada estrato, pode-se usar a AAS, por exemplo.

No artigo intitulado “Fatores associados ao uso pesado de álcool entre estudantes das capitais
brasileiras”, de Galduróz et al. (2010), há o relato de amostragem estratificada por setores censitários
de cada cidade e por conglomerados, correspondentes às escolas selecionadas.
4.8 Recursos computacionais para os cálculos do tamanho da amostra
e/ou do poder

A maioria das fórmulas fechadas de tamanho de amostra do capítulo foi programada em planilhas
Excel® e encontra-se disponível para os leitores (ver informações na apresentação do livro;
os exemplos com fórmulas programadas estão sinalizados por ╬╬ ).

Alternativamente, alguns cálculos de tamanho de amostra e/ou do poder do teste discutidos no capítulo
e/ou relacionados ao assunto do capítulo podem ser obtidos pelos seguintes softwares/programas
citados no capítulo 11: Pass®, nQuery Advisor®, PS: Power and Sample Size Calculation, Epi Info, o
programa desenvolvido pelo Laboratório de Epidemiologia e Estatística (LEE) do Instituto Dante
Pazzanese de Cardiologia e o pacote pwr do software livre R.
5.1 Introdução

Na maioria dos ensaios clínicos, o objetivo principal é a avaliação da eficácia e segurança de um


produto. Por exemplo, pode ser de interesse mostrar que para algumas indicações a droga investigada
não deve ser aprovada, por ter eficácia equivalente à do placebo. Em alguns casos, o objetivo pode ser
avaliar se a droga estudada é superior ao agente ativo de controle. Pode também haver o interesse em
investigar se uma terapia nova é tão eficaz quanto a terapia padrão, tal que eventual diferença esteja
dentro de limites considerados clinicamente sem importância.

Na prática, a escolha do tipo de comparação depende do objetivo do estudo e três testes comumente
utilizados em ensaios clínicos são conhecidos na literatura, como superioridade, não inferioridade e
equivalência, sendo o primeiro deles o mais tradicional.

É cada vez mais difícil justificar o uso do placebo quando se testa a eficácia de novo tratamento.
Em vez disso, os ensaios clínicos controlados com produtos ativos são utilizados para testar se o novo
tratamento não é muito pior do que o controle ativo em termos de eficácia. Estudos de não
inferioridade são realizados em situações em que existe um tratamento ativo comprovadamente
eficiente enquanto ensaios controlados usando o placebo como controle não são aceitáveis por razões
éticas. Assim, os ensaios de não inferioridade com controle ativo são realizados quando o tratamento
é comparado a um tratamento estabelecido, tendo como objetivo demonstrar que não é inferior
a esse tratamento.
Ao aplicar o teste de não inferioridade, investiga-se se uma terapia nova (por exemplo, menos invasiva,
menos cara ou mais fácil de ser administrada) não é pior do que a terapia padrão por mais que uma
margem prefixada, ou seja, uma eventual diferença deve estar dentro de limites considerados
clinicamente sem importância. Esse limite é chamado de margem de não inferioridade. O teste de
superioridade é caso particular do teste de não inferioridade quando a margem de não inferioridade
assume valor específico, comumente zero.

Em muitas situações o objetivo não é demonstrar que um tratamento seja melhor que o outro, mas sim
que seu efeito não pode ser distinguido daquele esperado com outro tratamento. Em vez de testar se há
diferença estatisticamente significante, buscam-se evidências de que os dois tratamentos são
essencialmente equivalentes, que eventuais diferenças não apresentam consequências na prática.
Nesse caso, é indicado o teste de equivalência, que utiliza intervalo de equivalência. Assim, são
definidos os limites inferior e superior do intervalo e os tratamentos são equivalentes se as diferenças
dos parâmetros avaliados estiverem dentro desse intervalo. Mais detalhes podem ser encontrados em
Wellek, S. (2010), entre outros.

Existe vasta literatura sobre o assunto, destacando-se Pocock (1983), Everitt e Pickles (2004),
Piantadosi (2005), Matthews (2006), Wang e Bakhai (2006), Cook e DeMets (2008), Meinert (2012),
Chow e Liu (2013) e Friedman et al. (2015).

A escolha do tipo de teste (superioridade, não inferioridade e equivalência) depende do objetivo do


estudo. O dimensionamento da amostra, exigido em protocolos de ensaios clínicos, e o método
estatístico de análise de dados devem ser específicos a cada tipo de hipótese a ser testada.

Neste capítulo apresentam-se formas apropriadas de dimensionar amostras para algumas situações de
testes de não inferioridade, com destaque para os testes de médias e proporções. Considera-se, ainda,
o caso especial de equivalência, chamado de bioequivalência, cuja importante aplicação é a avaliação
de medicamentos genéricos. Para ilustrar a metodologia, são adaptados exemplos da literatura e/ou
simulados e também apresentados resultados de estudo(s) de simulação de Monte Carlo, extraídos da
literatura ou de nossa pesquisa pessoal. Não foi dado destaque ao teste de superioridade, que além
de ser um caso particular de não inferioridade, sua formulação já foi tratada indiretamente nos
capítulos anteriores.
5.1.1 Conceitos básicos

Nesta seção apresentam-se os principais conceitos relacionados a estudos de não inferioridade,


superioridade e equivalência necessários para o dimensionamento de amostra.

Excelentes referências sobre ensaios de não inferioridade são Wellek (2010) e Rothmann et al. (2012).
Os capítulos 1 e 2 do segundo livro são relacionados diretamente a esta seção. As traduções dos títulos
dos capítulos 1 e 2, bem como de algumas seções neles contidas, apresentadas a seguir, servem para
dar ideia de tópicos importantes. Capítulo 1: O que é um ensaio de não inferioridade;
seção 1.1: definição de não inferioridade; seção 1.2: razões para ensaios de não inferioridade;
seção 1.3: diferentes tipos de comparações; seção 1.4: uma história de ensaios de não inferioridade.
Capítulo 2: Considerações sobre ensaio de não inferioridade; seção 2.3.2: planejando um ensaio;
seção 2.3.3: selecionando a margem [de não inferioridade].

Para ensaios de superioridade, não inferioridade e equivalência, investigações de interesse sobre a


comparação de tratamentos ou, mais geral, de grupos, podem ser formuladas em termos de testes de
hipóteses e intervalos de confiança para um parâmetro de interesse (θ), por exemplo, a diferença de
médias ou proporções.

Para ilustrar, considere-se a comparação (por exemplo, em termos de médias) do novo tratamento (𝑇)
com o controle (𝐶), que pode ser um agente ativo ou o placebo. Seja 𝜃 = 𝜇 𝑇 − 𝜇𝐶 a diferença das
médias dos dois grupos a serem comparados, que pode ser entendida como a medida de vantagem de 𝑇
em relação a 𝐶. Considere-se a seguinte situação: 𝜃 > 0 significa que 𝑇 é superior a 𝐶 e se 𝜃 < 0,
a interpretação se inverte: 𝑇 é inferior a C; 𝜃 = 0 indica nenhuma diferença entre 𝑇 e 𝐶. Neste caso,
valores maiores da variável estudada (portanto, os correspondentes parâmetros) são resultados
favoráveis. Caso contrário (valores menores da variável estudada são favoráveis), para que a
interpretação de 𝜃 seja a mesma, a definição apropriada seria 𝜃 = 𝜇𝐶 − 𝜇 𝑇 . Portanto, na prática,
deve-se entender o que seria melhor: quando há redução ou aumento do valor da variável.

Em ensaio de superioridade tipicamente são testadas as seguintes hipóteses: 𝐻0 : 𝜃 ≤ 0 versus


𝐻1 : 𝜃 > 0. Se 𝐻0 é rejeitada no nível de significância 𝛼 (valor-p ≤ 𝛼), há indicação de que 𝑇 é superior
a 𝐶. Equivalentemente, a mesma conclusão é tirada se os limites do intervalo de (1 − 2𝛼)100% de
confiança situam-se acima do zero. Outra possibilidade para ensaios de superioridade é testar hipóteses
bilaterais: 𝐻0 : 𝜃 = 0 versus 𝐻1 : 𝜃 ≠ 0. Neste caso, basta usar a usual regra de decisão para esse tipo de
hipótese. Eventualmente, quer-se testar inferioridade, caso em que as hipóteses são escritas como
𝐻0 : 𝜃 ≥ 0 versus 𝐻1 : 𝜃 < 0. A inferioridade é demonstrada quando 𝐻0 é rejeitada.

Em ensaio de não inferioridade, em geral, as hipóteses são: 𝐻0 : 𝜃 ≤ 𝜃0 versus 𝐻1 : 𝜃 > 𝜃0 , sendo que
𝜃0 representa a margem de não inferioridade. Se 𝐻0 é rejeitada no nível de significância 𝛼 (quando
valor-p ≤ 𝛼), há indicação de que 𝑇 é não é inferior a 𝐶. Equivalentemente, a mesma conclusão é
tirada se os limites do intervalo de (1 − 2𝛼)100% de confiança situam-se acima da margem de
não inferioridade (𝜃0 ).

Em ensaio de equivalência, as hipóteses testadas simultaneamente são: 𝐻0− : 𝜃 ≤ 𝜃0− versus 𝐻1− : 𝜃 > 𝜃0−
e 𝐻0+ : 𝜃 ≥ 𝜃0+ versus 𝐻1+ : 𝜃 < 𝜃0+ , sendo 𝜃0− e 𝜃0+ as margens de tolerância inferior e superior,
respectivamente. Conclui-se pela equivalência entre 𝑇 e 𝐶 se ambas as hipóteses nulas forem rejeitadas
(com nível de significância 𝛼 em cada teste) ou, equivalentemente, se o intervalo de (1 − 2𝛼)100% de
confiança está completamente contido no intervalo formado pelas margens de tolerância inferior e
superior: (𝜃0− , 𝜃0+ ). Existem casos nos quais as margens de equivalência selecionadas são simétricas em
relação ao zero. Detalhes sobre os ensaios de equivalência em vários contextos podem ser encontrados,
por exemplo, em Wellek (2010).

O Quadro 5.1 resume as hipóteses típicas acerca de um parâmetro de interesse (𝜃) e a Figura 5.1
mostra a interpretação gráfica por meio de intervalos de confiança. Ressalta-se que na Figura 5.1(b)
o intervalo que contém o valor da margem de tolerância permite concluir que há evidência suficiente
para afirmar que existe não inferioridade entre os efeitos dos tratamentos em estudo.

Quadro 5.1 - Hipóteses típicas sobre o parâmetro 𝜃

Tipo de ensaio Margem Hipóteses a serem testadas

Superioridade - 𝐻0 : 𝜃 ≤ 0 𝑣𝑒𝑟𝑠𝑢𝑠 𝐻1 ∶ 𝜃 > 0


Não inferioridade 𝜃0 𝐻0 : 𝜃 ≤ 𝜃0 𝑣𝑒𝑟𝑠𝑢𝑠 𝐻1 ∶ 𝜃 > 𝜃0
𝐻0− : 𝜃 ≤ 𝜃0− 𝑣𝑒𝑟𝑠𝑢𝑠 𝐻1− : 𝜃 > 𝜃0−
Equivalência (𝜃0− , 𝜃0+ )
𝐻0+ : 𝜃 ≥ 𝜃0+ 𝑣𝑒𝑟𝑠𝑢𝑠 𝐻1+ : 𝜃 < 𝜃0+
𝐻0− : 𝜃 ≤ −𝜃0 𝑣𝑒𝑟𝑠𝑢𝑠 𝐻1− : 𝜃 > −𝜃0
Equivalência (−𝜃0 , 𝜃0 )
𝐻0+ : 𝜃 ≥ 𝜃0 𝑣𝑒𝑟𝑠𝑢𝑠 𝐻1+ : 𝜃 < 𝜃0

Em resumo, seguindo o enfoque tradicional, a superioridade de 𝑇 em relação a 𝐶 é demonstrada ao se


rejeitar 𝐻0 : 𝜃 ≤ 0. A não inferioriodade de 𝑇 em relação a 𝐶 é evidenciada quando o intervalo de
confiança (IC) para 𝜃 está acima da margem de não inferioridade 𝜃0 . O critério para dizer que 𝑇 é
equivalente a 𝐶 é que o IC para 𝜃 esteja dentro do intervalo (𝜃0− , 𝜃0+ ) ou (−𝜃0 , 𝜃0 ), se as margens de
equivalência forem simétricas em relação ao zero.

Figura 5.1 - Intervalos de confiança para um parâmetro de interesse (𝜃) ilustrando conclusões
a serem tiradas em estudos de: (a) superioridade; (b) não inferioridade; (c) equivalência.

Ponto importante é a escolha da margem de não inferioridade ou, para estudos de equivalência, da
margem de tolerância. Existem vários critérios, alguns estabelecidos pelas agências reguladoras, sendo
que o valor pode depender do tipo de variável, por exemplo, pode ser um percentual ou um valor
tomado na unidade da variável resposta. A escolha das margens ou limites depende de aspectos
técnicos e práticos. Alguns comentários relevantes podem ser encontrados, por exemplo, em Wiens
(2002) e Hung et al. (2005). Como pode ser visto em alguns exemplos do capítulo, a margem de não
inferioridade - ou margem de tolerância - tem impacto importante no cálculo do tamanho da amostra.
Exemplo 5.1 - Interpretação de resultados de ensaios de superioridade, não inferioridade
e equivalência

A seguir apresentam-se dois exemplos ilustrando alguns detalhes sobre os ensaios discutidos
anteriormente, especialmente a interpretação dos resultados. O primeiro é sobre a eficácia do novo
tratamento para controlar a pressão arterial. Como ilustração, são considerados os três ensaios:
superioridade, não inferioridade e equivalência. O segundo exemplo, extraído do manual do software
Pass® (cuja utilização é detalhada no capítulo 11), é sobre um ensaio de não inferioridade.

(a) Eficácia de novo tratamento para controlar a pressão arterial

Para este estudo, as perguntas formuladas foram: a) será que com o novo tratamento a pressão arterial
será reduzida de forma significativa comparada com o placebo? b) o novo tratamento é pelo menos tão
eficaz na redução da pressão arterial quanto o tratamento padrão? c) pode-se afirmar que o novo
tratamento não é diferente do tratamento padrão na redução da pressão arterial? O Quadro 5.2 resume
as informações necessárias para a discussão e o Quadro 5.3 mostra possíveis resultados bem como
suas interpretações.

Quadro 5.2 - Informações para três tipos de estudos: superioridade (S),


não inferioridade (NI) e equivalência (E)

Verdadeira redução na Chance de declarar


Tipo de ensaio
pressão arterial (mmHg) S/NI/E

0 Pequena (ex: 2,5%)


Superioridade (S)
10 Grande (ex: 90%)
-10 Pequena (ex: 2,5%)
Não inferioridade (NI)
0 Grande (ex: 90%)
-10 Pequena (ex: 2,5%)
Equivalência (E) 0 Grande (ex: 90%)
10 Pequena (ex: 2,5%)
Quadro 5.3 - Resultados em termos de intervalo de confiança e as conclusões para três tipos de estudos:
superioridade (S), não inferioridade (NI) e equivalência (E)

Estudo Intervalo de confiança (95%) para a redução na P.A. Conclusão

S demonstrada
S (novo tratamento – placebo)
S não demonstrada

NI demonstrada
NI (novo tratamento – padrão)
NI não demonstrada

E demonstrada
E (novo tratamento – padrão)
E não demonstrada

(b) Avaliação de novo tratamento por meio de estudo de não inferioridade

O tratamento padrão prescrito para determinada doença funciona em 70% das vezes (𝑝𝑃 = 0,70), mas
apresenta desvantagens tais como custo alto e eventualmente graves efeitos colaterais. Novo tratamento
promissor tem sido desenvolvido até o ponto de poder ser testado. Uma das primeiras perguntas que
devem ser respondidas é se ele é tão bom quanto o padrão. Mais especificamente, quer-se saber se pelo
menos 70% dos indivíduos tratados respondem ao novo tratamento.

Por causa das muitas vantagens do novo tratamento, os médicos estão dispostos a adotá-lo, mesmo que
seja ligeiramente menos eficaz do que o tratamento padrão. No entanto, eles devem determinar quanto
menos eficaz o novo tratamento pode ser e ainda assim possa ser prescrito. A questão é qual o critério a
ser adotado, por exemplo, se determinado percentual (69% ou 68% ou 65% ou, ainda, 60%)
responderem de forma positiva. Há uma percentagem inferior a 70% em que a diferença entre os dois
tratamentos não é considerada desprezível. Após exaustiva discussão com vários médicos, foi decidido
que, se for alcançada uma resposta de pelo menos 63%, o novo tratamento seria adotado.

A diferença entre essas duas percentagens (proporções) é chamada de margem de não inferioridade,
que neste exemplo é de 7% (0,07). Assim, deve-se projetar um experimento para testar a hipótese de
que a proporção do novo tratamento (𝑝𝑁 ) é de pelo menos 0,63. As hipóteses a serem testadas são
𝐻0 : 𝑝𝑁 − 𝑝𝑃 ≤ −0,07 versus 𝐻1 : 𝑝𝑁 − 𝑝𝑃 > −0,07. A rejeição da hipótese nula significa que 𝑝𝑁 é
pelo menos 0,63, havendo, portanto, indicação de não inferioridade do novo tratamento.

5.2 Ensaios de não inferioridade e de superioridade

Esta seção trata do dimensionamento de amostra para ensaios de não inferioridade e de seu caso
particular, o ensaio de superioridade, para comparação de médias e de proporções, ambas para o caso
de dois grupos com o planejamento em paralelo, que corresponde a amostras independentes.

Deve-se lembrar que estudos de não inferioridade são realizados com o objetivo de comparar dois
tratamentos, aqui denominados experimental ou teste (𝑇) e controle ativo (𝐶), para determinar se 𝑇
não é menos eficaz que 𝐶. O parâmetro de interesse utilizado para comparar os dois tratamentos será
denotado de forma geral por 𝜃. Em estudos de não inferioridade, as hipóteses a serem testadas são:

𝐻0 : 𝜃 ≤ 𝜃0 versus 𝐻1 : 𝜃 > 𝜃0 (5.1)

Como definido na seção 5.1, 𝜃0 é a margem de não inferioridade. Alternativamente, as hipóteses


podem ser expressas como 𝐻0 : 𝛿 ≤ 0 versus 𝐻1 : 𝛿 > 0, com 𝛿 = 𝜃 − 𝜃0 (SIQUEIRA et al., 2008).
Para testes de diferença de médias, o caso particular em que 𝜃0 = 0 corresponde exatamente ao
teste de superioridade.

Há relação direta entre testes de hipóteses e intervalo de confiança. A hipótese nula (𝐻0 ) é rejeitada em
favor da alternativa (𝐻1 ) se o intervalo de (1 − 2𝛼)100% de confiança (bilateral) para 𝜃 estiver acima
da margem de não inferioridade 𝜃0 . O nível de significância em geral é de 2,5% (e não 5%) e o poder
do teste tradicional é fixado em 80%, 90% ou 95%, sendo bem conhecido o impacto do poder no
tamanho da amostra.

5.2.1 Tamanhos de amostra de ensaios de não inferioridade para o caso de grupos paralelos e
resposta contínua (diferença de médias)

Em muitos estudos de não inferioridade, a variável resposta principal é uma medida contínua.
Em geral, as médias dos dois grupos são comparadas, ou seja, são testadas para verificar se elas
diferem por uma quantidade prefixada (𝜃0 ). Neste caso, existem vários métodos para o
dimensionamento da amostra. São destacados os seguintes métodos: a) método para amostras grandes
que emprega o teorema do limite central; b) método cuja estatística de teste utiliza os graus de
liberdade de Satterwaite; c) método baseado na estatística 𝑡 e que assume que as variâncias dos grupos
são desconhecidas, mas iguais.

Para a comparação dos grupos experimental ou teste (𝑇) e controle ativo (𝐶), em ensaios de não
inferioridade, o parâmetro de interesse é a diferença das médias dos dois grupos: 𝜃 = 𝜇 𝑇 − 𝜇𝐶 .
As hipóteses a serem testadas são formuladas como 𝐻0 : 𝜇 𝑇 − 𝜇𝐶 ≤ 𝜇0 versus 𝐻1 : 𝜇 𝑇 − 𝜇𝐶 > 𝜇0 , sendo
𝜃0 = 𝜇0 a margem de não inferioridade, um valor negativo. Essa formulação supõe que aumento do
valor de 𝜇 𝑇 é resultado favorável. Para o caso em que redução do valor de 𝜇 𝑇 for resultado favorável,
basta definir 𝜃 = 𝜇𝐶 − 𝜇 𝑇 . Assim, ao utilizar um software para realizar os cálculos, é importante
verificar as definições das entradas exigidas pelo programa para haver coerência nas interpretações.

Para cada um dos métodos citados anteriormente, as estatísticas dos testes utilizados e os intervalos de
confiança para 𝜃 = 𝜇 𝑇 − 𝜇𝐶 são apresentados no Quadro 5.4.

Quadro 5.4 - Estatísticas para testar as hipóteses 𝐻0 : 𝜇 𝑇 − 𝜇𝐶 ≤ 𝜇0 versus


𝐻1 : 𝜇 𝑇 − 𝜇𝐶 > 𝜇0 e intervalos de confiança (IC) para 𝜃 = 𝜇 𝑇 − 𝜇𝐶

Método Estatística do teste de hipóteses IC para 𝜃 = 𝜇 𝑇 − 𝜇𝐶


(𝑥̅ 𝑇 − 𝑥̅𝐶 ) − 𝜇0
𝑍= 𝑠𝑇2 𝑠𝐶2
Amostras 2
𝑠𝑇 𝑠𝐶2 (𝑥̅ 𝑇 − 𝑥̅𝐶 ) ± 𝑧1−𝛼⁄2 √ +
√ + 𝑛𝑇 𝑛𝐶
𝑛𝑇 𝑛𝐶
grandes
Distribuição sob 𝐻0 : ≈ 𝑁(0,1); 𝑧1−𝛼⁄2 : percentil (1 − 𝛼/2)100% da 𝑁(0,1).

(𝑥̅ 𝑇 − 𝑥̅𝐶 ) − 𝜇0
𝑆𝑊 = 𝑠2 𝑠2
2
𝑠𝑇 𝑠𝐶2 (𝑥̅ 𝑇 − 𝑥̅𝐶 ) ± 𝑡1−𝛼⁄2,𝜈 √ 𝑇 + 𝐶
√ + 𝑛𝑇 𝑛𝐶
𝑛𝑇 𝑛𝐶
Satterwaite 2
2
𝑠𝑇 𝑠𝐶2
(𝑛 + )
Distribuição sob 𝐻0 : 𝑡 central com 𝜈 𝑇 𝑛𝐶
𝜈=
graus de liberdade 4
𝑠𝑇 𝑠4
2 + 𝑛2 (𝑛𝐶 −1)
𝑛𝑇 (𝑛𝑇 −1) 𝐶 𝐶

(𝑥̅ 𝑇 − 𝑥̅𝐶 ) − 𝜇0
𝑇=
1 1
Variâncias √𝑠 2 (𝑛 + 𝑛 ) 𝑠2 𝑠2
𝑇 𝐶 (𝑥̅ 𝑇 − 𝑥̅𝐶 ) ± 𝑡1−𝛼⁄2,𝜈 √ 𝑇 + 𝐶
(𝑛𝑇 − 1)𝑠𝑇2 + (𝑛𝐶 − 1)𝑠𝐶2 𝑛𝑇 𝑛𝐶
iguais e
𝑠2 =
desconhecidas 𝑛𝑇 + 𝑛𝐶 − 2

Distribuição sob 𝐻0 : 𝑡 central com 𝜈 = 𝑛T + 𝑛C − 2 graus de liberdade; 𝑡1−𝛼⁄2,𝜈 :


percentil (1 − 𝛼/2)100% da distribuição 𝑡 com 𝜈 graus de liberdade.
No Quadro 5.4, (𝑥̅ 𝑇 , 𝑥̅𝐶 ), (𝑠𝑇2 , 𝑠𝐶2 ) e (𝑛T , 𝑛C ) são as médias, as variâncias amostrais e os tamanhos das
amostras, respectivamente, para os dois grupos comparados (𝑇 e 𝐶); 𝑧1−𝛼⁄2 e 𝑡1−𝛼⁄2,𝜈 são os percentis
de ordem (1 − 𝛼/2)100% das distribuições normal padrão e 𝑡 de Student com os graus de liberdade ν
indicados em cada caso.

Para o dimensionamento da amostra, a referência é Rothmann et al. (2012). Utilizados o enfoque de


teste de hipótese e a aproximação do tipo Satterwaite para os graus de liberdade, sob 𝐻1 , a estatística
𝑆𝑊, apresentada no Quadro 5.4, tem distribuição 𝑡 de Student não central com o parâmetro de não
ℎ2 /(𝑟+1)
centralidade dado por [(𝜇 𝑇 − 𝜇𝐶 ) − 𝜇0 ] / (𝜎𝐶 √ ), sendo 𝜇0 a margem de não inferioridade e
𝑛𝐶

(1+ℎ2 /𝑟)2
graus de liberdade dados por 𝜈 = 1/(𝑛 4 /[𝑟 2 (𝑟𝑛 −1)]
. Na expressão de 𝜈, ℎ = 𝜎𝑇 /𝜎𝐶 e 𝑟 = 𝑛𝑇 /𝑛𝐶 ,
𝐶− 1)+ℎ 𝐶

respectivamente, a razão entre os desvios-padrão e entre os tamanhos de amostra dos dois grupos.

A seguir são apresentadas as fórmulas para o dimensionamento de amostras referentes aos três métodos
considerados. Revendo a notação, para os três casos, 𝜇 𝑇 e 𝜇𝐶 são as médias dos grupos 𝑇 e 𝐶, 𝜎𝐶 é
o desvio-padrão do grupo 𝐶 e 𝜇0 é a margem de não inferioridade. O nível de significância é fixado
em 𝛼 × 100% (tipicamente 2,5%) e o poder é (1 − 𝛽) × 100% (tipicamente 80%, 90% ou 95%).
De forma geral, 𝑛T e 𝑛C são os tamanhos das amostras, respectivamente, para os dois grupos (𝑇 e 𝐶),
mas para mais clareza, haverá uma notação específica de acordo com o método. Por exemplo, para os
três métodos considerados (cujas estatísticas são representadas por 𝑍, 𝑆𝑊 e 𝑇), a notação para o
tamanho de amostra para o grupo-controle (𝐶) será 𝑛𝐶(𝑍) , 𝑛𝐶(𝑆𝑊) e 𝑛𝐶(𝑇) .

Método de amostras grandes

Para o método de amostras grandes, aquele baseado no teorema do limite central, o tamanho da
amostra para o grupo-controle é dado por:

ℎ2 𝜎𝐶 2
2
𝑛𝐶(𝑍) = (1 + ) ( ) (𝑧1−𝛼 + 𝑧1−𝛽 ) (5.2)
𝑟 𝜇 𝑇 − 𝜇𝐶 − 𝜇0

𝑛 𝜎
Em (5.2), 𝑟 = 𝑛𝑇 , ℎ = 𝜎𝑇, 𝑧1−𝛼 e 𝑧1−𝛽 são os percentis de ordem (1 − 𝛼)100% e (1 − 𝛽)100% da
𝐶 𝐶

distribuição normal padrão e 𝜇0 é a margem de não inferioridade. O cálculo do tamanho de amostra


para o grupo 𝑇 é bastante simples, basta multiplicar o tamanho da amostra obtido para o
grupo-controle, fórmula (5.2), por 𝑟: 𝑛𝑇(𝑍) = 𝑟𝑛𝐶(𝑍) .
Método de Satterwaite

Para o método em que são utilizados os graus de liberdade de Satterwaite, o tamanho da amostra para
o grupo-controle é dado por:

ℎ2 𝜎𝐶 2
2
𝑛𝐶(𝑆𝑊) = (1 + )( ) (𝑡1−𝛼,𝜈 + 𝑡1−𝛽,𝜈 ) (5.3)
𝑟 𝜇 𝑇 − 𝜇𝐶 − 𝜇0

Em (5.3), 𝑟 = 𝑛𝑇 /𝑛𝐶 , ℎ = 𝜎𝑇 /𝜎𝐶 , 𝑡1−α,ν e 𝑡1−β,ν são os percentis da distribuição 𝑡 de Student com os
(1+ℎ2 /𝑟)2
graus de liberdade 𝜈 = 1/(𝑛 . Para o grupo 𝑇, 𝑛𝑇(𝑆𝑊) = 𝑟𝑛𝐶(𝑆𝑊) .
4 /[𝑟 2 (𝑟𝑛 −1)]
𝐶 −1)+ℎ 𝐶

Método para o caso em que as variâncias são iguais, mas desconhecidas

Para o método que considera as variâncias dos dois grupos iguais, mas que sejam desconhecidas,
o tamanho da amostra para o grupo-controle é dado por:

1 𝜎𝐶 2
2
𝑛𝐶(𝑇) = (1 + ) ( ) (𝑡1−𝛼,𝜈 + 𝑡1−𝛽,𝜈 ) (5.4)
𝑟 𝜇 𝑇 − 𝜇𝐶 − 𝜇0

A fórmula (5.4) é um caso particular da fórmula (5.3) com ℎ = 𝜎𝑇 /𝜎𝐶 = 1 e 𝜈 = 2𝑛𝐶 − 2. Os demais
termos que aparecem em (5.4) são: 𝑟 = 𝑛𝑇 /𝑛𝐶 ; 𝑡1−α,ν e 𝑡1−β,ν são os percentis da distribuição 𝑡 de
Student com (𝜈 = 2𝑛𝐶 − 2) graus de liberdade. Para o grupo 𝑇, 𝑛𝑇(𝑇) = 𝑟𝑛𝐶(𝑇) .

Para a solução dos segundo e terceiro métodos, ocorre o processo de iteração, já que os graus de
liberdade dependem do tamanho da amostra, que é exatamente o que se quer encontrar. Assim,
naturalmente é mais fácil utilizar o primeiro método, mas que só é apropriado para “amostras grandes”.
O tamanho da amostra obtido para o caso de amostras grandes pode ser usado como valor inicial para
as iterações nos procedimentos envolvendo os percentis da distribuição 𝑡 de Student.

Outra observação importante é que não é essencial o conhecimento dos valores individuais das médias
𝜇 𝑇 e 𝜇𝐶 , basta ter ideia das diferenças 𝜇 𝑇 − 𝜇𝐶 , o que é mais fácil na prática.
Exemplo 5.2 - Interpretação de não inferioridade baseada nos testes e em intervalo de confiança
para os métodos considerados, planejamento em paralelo - adaptação de Rothmann et al. (2012)

Nas Tabelas 5.1 e 5.2 apresentam-se os dados de dois ensaios de não inferioridade, os resultados dos
testes e os intervalos de 95% de confiança para a diferença de médias de dois grupos (controle e
experimental ou tratamento) para os três métodos considerados na seção: a) método para amostras
grandes; b) método de Satterwaite; c) método para o caso em que as variâncias são iguais,
mas desconhecidas.

Tabela 5.1 - Informações sobre dois ensaios de não inferioridade


Grupo
Informação
Controle Experimental
Ensaio 1
Tamanho da amostra 25 30
Média 40,5 39,1
Desvio-padrão 2 7

Ensaio 2
Tamanho da amostra 50 55
Média 29,80 29,31
Desvio-padrão 4,82 6,87

Tabela 5.2 - Resultados dos testes, intervalos de 95% de confiança e sua correspondente
amplitude para os três métodos considerados para dois ensaios de não inferioridade

Ensaio 1 (𝑁 = 55) Método


Amostras Variâncias iguais
𝜇0 = −4 Satterwaite
grandes e desconhecidas
Valor-p 0,026 0,030 0,039
IC(95%) (-4,03;1,23) (-4,12;1,32) (-4,31;1,51)
Amplitude 5,26 5,44 5,82
Ensaio 2 (𝑁 = 105) Método
Amostras Variâncias iguais
𝜇0 = −3 Satterwaite
grandes e desconhecidas
Valor-p 0,015 0,016 0,017
IC(95%) (-2,75;1,76) (-2,78;1,79) (-2,82;1,83)
Amplitude 4,51 4,57 4,65
Nota: 𝜇0 é a margem de não inferioridade.
O nível de significância foi fixado em 2,5% e foram testadas as seguintes hipóteses:
𝐻0 : 𝜃 = 𝜇 𝑇 − 𝜇𝐶 ≤ 𝜇0 versus 𝐻1 : 𝜃 = 𝜇 𝑇 − 𝜇𝐶 > 𝜇0. Conforme detalhado a seguir, no primeiro ensaio
não há evidência acerca da não inferioridade, enquanto que no segundo a conclusão é pela
não inferioridade.

No primeiro ensaio, os intervalos de 95% de confiança contêm a margem de não inferioridade,


𝜇0 = −4. Como os valores-p encontrados são maiores que o nível de significância adotado (0,025),
a hipótese nula não é rejeitada. Portanto, não há evidência a favor da não inferioridade.

Já para o segundo ensaio, os intervalos de 95% de confiança não contêm a margem de não
inferioridade, 𝜇0 = −3. A hipótese nula é rejeitada, já que os valores-p encontrados são menores que
o nível de significância fixado em 0,025. Neste caso, há evidência a favor da não inferioridade.

Para amostras grandes, os testes estatísticos obtidos pelos três métodos mostraram similaridades.
Quando as amostras são pequenas, a estatística de teste 𝑍 não deve ser utilizada. Além disso,
o pressuposto da igualdade de variância deve ser validado para a utilização da estatística 𝑇 de forma
apropriada. Aqui os três métodos foram empregados para fins ilustrativos. Também é possível mostrar
o efeito da margem de não inferioridade nas conclusões a serem tiradas, ou seja, para os mesmos
dados, pode-se ou não concluir pela não inferioridade, dependendo da margem de não inferioridade
adotada (𝜇0 ).

Exemplo 5.3 - Determinação do tamanho da amostra para comparação de médias em estudos de


não inferioridade, grupos com planejamento em paralelo ╬╬

Na Tabela 5.3 são apresentados os resultados apenas para o primeiro método: amostras grandes para
dados seguindo a distribuição normal, fórmula (5.2). O nível de significância foi fixado em 2,5%,
foram considerados três valores de poder (80%, 90% e 95%) e três margens de não inferioridade
(−8,0; −9,0; −10,0). Os parâmetros necessários nos cálculos foram: 𝜇𝐶 = 40; 𝜇 𝑇 = 38;
𝜎𝐶 = 12; 𝜎𝑇 = 6, resultando em diferença de média de 𝜇 𝑇 − 𝜇𝐶 = −2 e razão entre os desvios-padrão
de ℎ = 𝜎𝑇 /𝜎𝐶 = 0,5. Foram considerados dois valores para a razão entre os tamanhos de amostra dos
dois grupos: 𝑟 = 𝑛𝑇 /𝑛𝐶 = 1 e 𝑟 = 𝑛𝑇 /𝑛𝐶 = 2.
Tabela 5.3 - Tamanho de amostra do grupo-controle (𝑛𝐶 ) e tamanho de amostra total (𝑁)
obtidos pelo método de amostras grandes (𝑛𝐶 = 𝑛𝐶(𝑍) ), fórmula (5.2)

Margem de não 𝑟 = 𝑛𝑇 /𝑛𝐶 = 1 𝑟 = 𝑛𝑇 /𝑛𝐶 = 2


Poder
inferioridade (𝜇0) 𝑛𝐶 𝑁 𝑛𝐶 𝑁
80% 15 30 13 39
-8,0 90% 19 38 18 54
95% 24 48 22 66
80% 12 24 11 33
-9,0 90% 16 32 15 45
95% 20 40 18 54
80% 10 20 9 27
-10,0 90% 14 28 12 36
95% 17 34 15 45
Nota: 𝑁 = tamanho da amostra total = 𝑛 𝑇 + 𝑛𝐶 = 𝑟𝑛𝐶 + 𝑛𝐶 = (𝑟 + 1)𝑛𝐶 ; 𝛼 = 0,025.

Como sempre, para garantir mais poder, é necessário aumentar o tamanho da amostra. Quanto maior a
margem de não inferioridade, menor será o tamanho da amostra e, naturalmente, para o caso em que
𝑟 = 𝑛𝑇 /𝑛𝐶 = 2, o tamanho da amostra total será sempre superior ao caso em que 𝑟 = 𝑛𝑇 /𝑛𝐶 = 1.

Para os cálculos dos tamanhos de amostra dos outros dois métodos recomenda-se a utilização de
software apropriado. O software Pass® utiliza a distribuição 𝑡 de Student não central, sendo boa opção
para dimensionar estudos de não inferioridade ou calcular o poder do teste.

A Tabela 5.4 mostra a comparação dos resultados dos três métodos. O nível de significância e o poder
foram fixados em 2,5% e 90%, respectivamente. A margem de não inferioridade foi de -10,0. Os
parâmetros necessários nos cálculos foram os mesmos especificados anteriormente para a Tabela 5.3.

Tabela 5.4 - Tamanho de amostra do grupo-controle (𝑛𝐶 ) para os três métodos para
duas razões entre os tamanhos de amostra dos dois grupos (𝑟 = 1 e 𝑟 = 2)
Razão entre os tamanhos de
Método amostra dos dois grupos
𝑟 = 𝑛𝑇 /𝑛𝐶 = 1 𝑟 = 𝑛𝑇 /𝑛𝐶 = 2
Amostras grandes 14 12
Satterwaite 15 14
Variâncias iguais e desconhecidas 15 11
Nota: nível de significância: 2,5%; poder: 90%; margem de não inferioridade: -10,0.

Neste caso, os resultados dos três métodos são bastante semelhantes, especialmente quando 𝑟 = 1.
Pode haver diferença entre os tamanhos de amostra, especialmente se a razão de alocação entre os dois
grupos distanciar-se de um e se as variâncias amostrais dos dois grupos comparados não são iguais.
Quando as variâncias não são muito diferentes e o tamanho da amostra é grande, os resultados dos três
métodos analisados tendem a ser similares.

5.2.2 Tamanho de amostra de ensaios de não inferioridade para o caso de grupos paralelos e
resposta binária

Em ensaios de não inferioridade quando a resposta é binária, o cálculo do tamanho da amostra depende
de muitos fatores, especialmente: a medida a ser usada - diferença de proporções, razão de chances
(odds ratio); teste (Wald, escore, razão de verossimilhanças, Fisher); tipo de solução (exata, assintótica,
com correção de continuidade); método estatístico (clássico ou bayesiano).

Considere-se um estudo planejado com dois grupos em paralelo tal que os indivíduos foram
aleatorizados em novo tratamento (𝑇) ou no controle ativo (𝐶). Sejam 𝑝𝑇 e 𝑝𝐶 as probabilidades de
sucessos, respectivamente, nos grupos 𝑇 e 𝐶, que têm tamanhos 𝑛𝑇 e 𝑛𝐶 . A comparação entre os dois
tratamentos pode ser feita pela diferença entre as proporções de sucesso dos dois grupos (𝑝𝑇 − 𝑝𝐶 ),
pela razão entre elas (𝑝𝑇 /𝑝𝐶 ), também chamada de risco relativo, ou, ainda, pela medida odds ratio
𝑝 𝑝
(𝑂𝑅), cuja definição é 𝑂𝑅 = (1−𝑝𝑇 ) / (1−𝑝𝐶 ) = [𝑝𝑇 (1 − 𝑝𝐶 )]/[(𝑝𝐶 (1 − 𝑝𝑇 )].
𝑇 𝐶

Inferência estatística e dimensionamento da amostra para estudos de não inferioridade com desfechos
binários tendem a se concentrar no parâmetro diferença de probabilidade, como discutido, por
exemplo, em Chan (2003), Dann e Koch (2008) e Julious e Owen (2011).

O risco relativo também tem sido considerado e, por exemplo, Tu (1998) apresenta um método para
calcular o tamanho da amostra para estudos de equivalência, que podem ser facilmente generalizadas
para a definição de ensaios de não inferioridade. Posteriormente, a medida odds ratio recebeu alguma
atenção. Algumas referências são: Wang et al. (2002), Wellek (2005) e Siqueira et al. (2015).

Julious (2010) realizou revisão usando diferentes medidas e métodos. Determinar o parâmetro de
interesse mais adequado em ensaios com dados binários é uma questão relevante. A hipótese de ter
diferença constante na probabilidade de sucesso, independentemente do valor para o controle ativo,
parece inadequada em muitas situações clínicas. A razão de chances fornece uma solução para esse
problema e também é o parâmetro natural do modelo de regressão logística, frequentemente utilizado
para a análise de dados binários, e pode incluir o ajuste para covariáveis. Para estudos de equivalência
ou de não inferioridade, vários autores recomendam a medida odds ratio em oposição ao risco relativo,
como discutido, por exemplo, em Tu (1998), Garrett (2003) e Wellek (2005).

Na literatura existem vários trabalhos sobre tamanho de amostra para estudos de não inferioridade no
contexto discutido (proporções, grupos paralelos). Julious (2010) apresenta fórmulas para o caso de
diferença de proporções com três métodos: usando respostas antecipadas (valores dos parâmetros
“conhecidos”) ou as respostas sob as hipóteses nulas e alternativas e ainda levando em conta a correção
de continuidade. Ainda para a comparação de dois tratamentos baseada em diferença de proporções e
para grupos paralelos, Julious e Owen (2010) destacam o método bayesiano.

Para comparar dois tratamentos em termos de odds ratio ou, equivalentemente pelo seu logaritmo,
𝜃 = 𝑙𝑜𝑔{[𝑝𝑇 (1 − 𝑝𝐶 )]/[(𝑝𝐶 (1 − 𝑝𝑇 )]}, as hipóteses a serem testadas são: 𝐻0 : 𝜃 = 𝜃0 versus
𝐻1 : 𝜃 > 𝜃0 . Detalhes sobre a inferência podem ser obtidos, por exemplo, em Siqueira et al. (2008).

Teste de Wald

Segundo Wang et al. (2002), para a comparação baseada na medida odds ratio utilizando o teste de
Wald, o número de indivíduos necessários no grupo-controle é dado por:

𝑧1−𝛼 + 𝑧1−𝛽 2 1 1
𝑛𝐶(𝑊) =( ) ( + ) (5.5)
𝜃1 − 𝜃0 𝑟𝑝1𝑇 (1 − 𝑝1𝑇 ) 𝑝𝐶 (1 − 𝑝𝐶 )

Em (5.5), 𝜃0 e 𝜃1 são os valores de 𝑙𝑜𝑔(𝑂𝑅) sob 𝐻0 e 𝐻1 , 𝑂𝑅 foi definido no início desta seção, 𝛼 e
(1 − 𝛽) são o nível de significância e o poder do teste da comparação dos grupos (𝑇 e 𝐶),
respectivamente, 𝑧1−𝛼 e 𝑧1−𝛽 são os percentis de ordem (1 − 𝛼)100% e (1 − 𝛽)100% da normal
𝑒𝑥𝑝{𝜃 }𝑝
padrão, 𝑟 é a razão dos tamanhos dos dois grupos, 𝑝1𝑇 = 1+(𝑒𝑥𝑝{𝜃1 }−1)𝑝
𝐶
é a probabilidade de sucesso
1 𝐶

no grupo 𝑇 sob 𝐻1 e 𝑝𝐶 é a antecipada probabilidade de sucesso no grupo 𝐶. Para o grupo 𝑇,


𝑛𝑇(𝑊) = 𝑟𝑛𝐶(𝑊) .

Teste do escore

Ainda para ensaios clínicos de não inferioridade e resposta binária e usando a medida odds ratio,
Siqueira et al. (2015) desenvolvem uma fórmula para o tamanho de amostra derivada utilizando o teste
do escore que também é comparada com a fórmula (5.5), baseada no teste de Wald. Ambas as fórmulas
têm forma fechada e são comparadas com simulações baseadas no teste da razão de verossimilhanças.

Para o dimensionamento de amostra no contexto de estudos de não inferioridade, avaliado com o teste
do escore e utilizando o logaritmo da medida odds ratio (para detalhes sobre o teste, ver
SIQUEIRA et al., 2008), será adotada a seguinte notação: 𝑝𝑇 e 𝑝𝐶 representam as probabilidades de
sucesso nos grupos tratamento e controle ativo, respectivamente; dos 𝑛𝑇 indivíduos do novo
tratamento, 𝑠𝑇 são sucessos e 𝑓𝑇 são fracassos (falhas). Os termos 𝑛𝐶 , 𝑠𝐶 e 𝑓𝐶 são definidos de forma
análoga para o grupo do controle ativo. O total de sucessos, fracassos e total de indivíduos no estudo
são denotados por 𝑠, 𝑓 e 𝑛. Como já definido, o logaritmo da medida odds ratio é dado por
𝜃 = 𝑙𝑜𝑔{[𝑝𝑇 (1 − 𝑝𝐶 )]/[(𝑝𝐶 (1 − 𝑝𝑇 )]}.

A seguir, são apresentados apenas alguns detalhes necessários para a aplicação da fórmula do tamanho
de amostra para testar as hipóteses 𝐻0 : 𝜃 = 𝜃0 versus 𝐻1 : 𝜃 > 𝜃0 ou, equivalentemente,
𝐻0 : 𝛿 = 0 versus 𝐻1 : 𝛿 > 0, com 𝛿 = 𝜃 − 𝜃0 .

Parametrizando a função de verossimilhança em termos de 𝛿 e 𝜆 = 𝑙𝑜𝑔{𝑝𝐶 /(1 − 𝑝𝐶 )}, a conhecida


estatística baseada no teste de Wald é dada por 𝑊 = 𝛿̂ 2 /𝑉𝑎𝑟(𝛿̂ ), sendo 𝛿̂ = 𝑙𝑜𝑔{𝑠𝑇 𝑓𝐶 /𝑠𝐶 𝑓𝑇 } − 𝜃0 e
𝑉𝑎𝑟(𝛿̂ ) = 𝑛𝑇 /(𝑠𝑇 𝑓𝑇 ) + 𝑛𝐶 /(𝑠𝐶 𝑓𝐶 ). A estatística do teste da razão de verossimilhanças é dada por
𝑅𝑉 = 2[𝑙(𝛿̂ , 𝜆̂) − 𝑙(0, 𝜆̂0 )], sendo 𝑙(𝛿, 𝜆) a função de verossimilhança avaliada em 𝛿 e 𝜆,
𝛿̂ = 𝑙𝑜𝑔{𝑠𝑇 𝑓𝐶 /𝑠𝐶 𝑓𝑇 } − 𝜃0 e 𝜆̂ = 𝑙𝑜𝑔{𝑠𝐶 /𝑓𝐶 } as estimativas de máxima verossimilhança de 𝛿 e 𝜆; 𝜆̂0 a
estimativa de máxima verossimilhança de 𝜆 calculada com restrição que 𝛿 = 0. Pode-se mostrar que
𝑒𝑥𝑝{𝜆̂0 } é a raiz positiva da equação quadrada:

𝑞(𝑥) = 𝑓𝑒𝑥𝑝{𝜃0 }𝑥 2 + [(𝑛𝑇 − 𝑠) 𝑒𝑥𝑝{𝜃0 } + (𝑛𝐶 − s)]𝑥 − 𝑠 = 0 (5.6)

Por desenvolvimentos tradicionais, chega-se que a estatística do teste do escore (𝑇𝐸) é dada por
̂0 +𝜃0 }
𝑠𝑇 −𝑓𝑇 𝑒𝑥𝑝{𝜆
𝑇𝐸 = 𝑍 2 /𝑉 e 𝑍/𝑉 fornece uma estimativa de 𝛿 com variância 1/𝑉, sendo 𝑍 = ̂0 +𝜃0 } e
1+𝑒𝑥𝑝{𝜆
̂0 +𝜃0 }
𝑛𝑇 𝑛𝐶 𝑒𝑥𝑝{𝜆
𝑉=𝑛 ̂ 2 ̂ 2
.
𝑇 𝑒𝑥𝑝{𝜃0 }(1+𝑒𝑥𝑝{𝜆0 }) +𝑛𝐶 (1+𝑒𝑥𝑝{𝜆0 +𝜃0 })

𝑧1−𝛼 +𝑧1−𝛽 2
O requerimento do poder do teste do escore é atingido aproximadamente quando 𝑉 = ( ) .
𝜃1 −𝜃0

O tamanho de amostra é determinado substituindo-se os termos 𝑠 e 𝑓 da equação quadrática (5.6) por


𝑒𝑥𝑝{𝜃 }𝑝
(𝑟 + 1)𝑛𝐶 𝑝̅1 e (𝑟 + 1)𝑛𝐶 (1 − 𝑝̅1 ), sendo 𝑝̅1 = (𝑟𝑝1𝑇 + 𝑝𝐶 )/(𝑟 + 1) e 𝑝1𝑇 = 1+(𝑒𝑥𝑝{𝜃1 }−1)𝑝
𝐶
,
1 𝐶

e usando as raízes positivas (𝜁) resultantes da solução da equação quadrática para substituir 𝑒𝑥𝑝{𝜆̂0 }
por 𝜁 em 𝑉.

Concluindo, para testar a hipótese de não inferioridade, 𝐻0 : 𝜃 = 𝜃0 versus 𝐻1 : 𝜃 > 𝜃0 , sendo 𝜃0 a


margem de não inferioridade, que é um valor negativo, via teste do escore (𝑇𝐸), pode-se mostrar que o
número de indivíduos necessários no grupo-controle é dado por:

𝑧1−𝛼 + 𝑧1−𝛽 2 𝑟 𝑒𝑥𝑝{𝜃0 } (1 + 𝜁)2 + (1 + 𝜁 𝑒𝑥𝑝{𝜃0 })2


𝑛𝐶(𝑇𝐸) = ( ) ( ) (5.7)
𝜃1 − 𝜃0 𝑟𝜁𝑒𝑥𝑝{𝜃0 }

Em (5.7), 𝜃0 e 𝜃1 são os valores de 𝑙𝑜𝑔(𝑂𝑅) sob 𝐻0 e 𝐻1 , 𝑂𝑅 foi definido no início desta seção, 𝛼 e
(1 − 𝛽) são o nível de significância e o poder do teste da comparação dos dois grupos (𝑇 e 𝐶),
respectivamente, 𝑧1−𝛼 e 𝑧1−𝛽 são os correspondentes percentis da normal padrão, 𝑟 é a razão dos
tamanhos dos dois grupos e 𝜁 é a raiz positiva da equação quadrática (5.6). Para o grupo 𝑇, 𝑛𝑇(𝑇𝐸) =
𝑟𝑛𝐶(𝑇𝐸) e o total geral da amostra é 𝑁 = 𝑛𝑇(𝑇𝐸) + 𝑛𝐶(𝑇𝐸) = 𝑟𝑛𝐶(𝑇𝐸) + 𝑛𝐶(𝑇𝐸) = (𝑟 + 1)𝑛𝐶(𝑇𝐸) .
Detalhes sobre o método podem ser encontrados em Siqueira et al. (2015).

Métodos exatos

Dimensionamento de amostras usando métodos exatos para avaliar não inferioridade quando a resposta
é binária foi proposto por Chan (2003). O foco é na diferença de duas proporções utilizando o método
não condicional para o teste de não inferioridade. Wellek (2010) apresenta o tradicional teste exato de
Fisher (FLEISS et al., 2003; TANG et al., 2012) para ensaios de não inferioridade em termos da
medida odds ratio e fornece um programa Fortran para calcular o tamanho da amostra.

Exemplo 5.4 - Efeito da escolha da margem de não inferioridade e da medida comparativa dos
grupos nos cálculos do tamanho da amostra para um ensaio de não inferioridade ╬╬

Pocock (2003) discute o efeito da escolha da margem de não inferioridade no tamanho da amostra para
um ensaio de não inferioridade, comparando um novo fármaco com o omeprazol para o tratamento de
infecção por Helicobacter pylori. A resposta binária foi a erradicação da infecção: sim ou não.

Para o cálculo do tamanho da amostra, estabeleceu-se que 𝛼 = 0,025, 𝛽 = 0,10 (ou seja, poder de
90%). E com base em dados anteriores sobre o omeprazol, foram escolhidos os seguintes valores de
probabilidade: 𝑝𝐶 = 0,85 e 𝑝1𝑇 = 0,85. Supondo-se que 𝑝0𝑇 = 0,70, chega-se que 𝜃0 = −0,887,
cuja correspondência ao valor de odds ratio é de 0,412. Os cálculos para obter 𝜃0 foram:
𝜃0 = 𝑙𝑜𝑔{[𝑝0𝑇 (1 − 𝑝𝐶 )] / [(𝑝𝐶 (1 − 𝑝0𝑇 )]} = 𝑙𝑜𝑔{[0,70 (1 − 0,85)] / [0,85 (1 − 0,70)]} =
𝑙𝑜𝑔{[0,70 (0,15)] / [0,85 (0,30)]} = 𝑙𝑜𝑔(0,41) = −0,887.

Considerando igual alocação de indivíduos por grupo de tratamento, a fórmula (5.5) fornece 210
indivíduos por grupo de tratamento, enquanto que o resultado da aplicação da fórmula (5.7) é 237.
A fórmula simples discutida por Pocock (2003), com base na diferença de probabilidades, resultou em
apenas 119 indivíduos por grupo de tratamento. Esse exemplo ilustra que a escolha da parametrização
para avaliar a diferença de tratamento pode impactar significativamente no tamanho da amostra. Em
termos da medida odds ratio, a margem de não inferioridade, neste exemplo, está bem longe de zero.

Rousson e Seifert (2008) fazem uma revisão da literatura e citam opções de margem de não
inferioridade com base em alguns artigos. Por exemplo, Tu (1998) considerou o valor de odds ratio de
0,8 por ser uma escolha habitual (o que dá um valor de 𝜃0 = −0,223), mas depois recomendou o valor
de odds ratio de 0,43 (𝜃0 = −0,844), o que corresponde a uma diferença nas proporções de 0,2 se
𝑝𝐶 = 0,5. Senn (2000) sugeriu odds ratio de 0,55 (𝜃0 = −0,598), o que corresponde a uma diferença
máxima possível em proporções de 0,15. O valor de odds ratio que Garrett (2003) propõe é 0,5
(𝜃0 = −0,693), argumentando que tal valor engloba as filosofias da Food and Drug Administration
(FDA) e do Comitê de Propriedades dos Produtos Medicionais, Committee on the Propriety of
Medicinal Products (CPMP).

No exemplo de Pocock, se 𝑝0𝑇 fosse definido como 0,75, (correspondendo a 𝜃0 = −0,640 e odds ratio
igual a 0,529), os tamanhos de amostra por grupo de tratamento aumentariam para 408 e 434 para as
fórmulas (5.5) e (5.7), respectivamente.

Exemplo 5.5 - Ensaio de não inferioridade usando a medida odds ratio – comparação de métodos

Para o contexto estudado, tamanhos de amostras foram calculados por vários métodos, usando
fórmulas fechadas, processos iterativos e simulações. Os cálculos podem ser programados e/ou obtidos
por programas específicos, tal como o software Pass®.
Adaptou-se aqui um exemplo apresentado por Rousson e Seifert (2008) comparando os resultados do
tamanho de amostra quando foi utilizado o teste de Wald e o teste exato de Fisher para a medida odds
ratio. Evidenciou-se também o impacto da escolha da margem de não inferioridade e da incerteza do
conhecimento de parâmetros envolvidos nos cálculos (no caso, 𝑝𝐶 , a probabilidade de sucesso do
grupo-controle).

Trata-se do planejamento de ensaio de não inferioridade que tinha como objetivo comparar o efeito de
novo medicamento para tratar vaginose bacteriana, a mais prevalente causa de vaginite, com o efeito do
uso do creme vaginal clindamicina, o medicamento de referência. Para mulheres não grávidas,
a literatura relata percentual de cura variando de 80 a 85% após completar o tratamento com o
medicamento de referência.

A Tabela 5.5 mostra o número de pacientes por grupo para valores de 𝑝𝐶 , variando de 80 a 85%,
com incremento de um ponto percentual, comparando dois testes.

Tabela 5.5 - Número de pacientes por grupo (𝑛𝑇 = 𝑛𝐶 ) em ensaio


de não inferioridade para o tratamento de vaginose bacteriana

Margem de não Possíveis valores de 𝑝𝐶


inferioridade (𝑂𝑅0 ) 80% 81% 82% 83% 84% 85%
Teste de Wald 0,7 770 801 835 873 917 967
Exato de Fisher 0,7 776 807 842 881 925 975
𝑂𝑅1 = 1,0

Teste de Wald 0,5 205 213 222 232 244 257


Exato de Fisher 0,5 209 218 227 238 250 264
Teste de Wald 0,3 68 71 74 77 81 85
Exato de Fisher 0,3 73 76 79 83 88 93
Teste de Wald 0,7 195 204 213 224 236 250
Exato de Fisher 0,7 194 202 212 222 234 248
𝑂𝑅1 = 1,5

Teste de Wald 0,5 94 98 103 108 114 121


Exato de Fisher 0,5 95 99 104 109 115 122
Teste de Wald 0,3 44 46 48 51 53 56
Exato de Fisher 0,3 43 49 51 54 56 60
Nota: nível de significância: 2,5%; poder do teste: 80%; 𝑂𝑅1 : odds ratio sob 𝐻1 .

À medida que 𝑝𝐶 e a margem de não inferioridade aumentam, há necessidade de mais pacientes. Por
outro lado, os tamanhos das amostras para 𝑂𝑅1 = 1,5 são inferiores aos correspondentes se 𝑂𝑅1 = 1.
Em geral, à medida que o valor de 𝑂𝑅1 aumenta, o tamanho da amostra diminui, mantendo os outros
elementos envolvidos nos cálculos constantes. Para 𝑂𝑅1 = 1,0, todos os tamanhos de amostra obtidos
pelo teste exato de Fisher são maiores do que os de Wald (a diferença varia de 4 a 8) e para
𝑂𝑅1 = 1,5, às vezes esse comportamento se repete ou se inverte, mas a diferença é sempre bem
pequena (varia de 1 a 4).

Exemplo 5.6 - Resultados de um estudo de simulação em ensaio de não inferioridade

Neste exemplo são apresentados os resultados de um pequeno estudo de simulação de Monte Carlo
usando a medida odds ratio para a comparação de dois tratamentos (𝑇 e 𝐶) em ensaio de não
inferioridade. A determinação do tamanho de amostra a partir de simulações foi baseada nos testes de
Wald e da razão de verossimilhanças com a medida odds ratio. O nível de significância nominal foi de
2,5% e o poder dos testes foi fixado em 90%. Assumiu-se igual alocação de indivíduos aos
tratamentos, isto é, 𝑛𝑇 = 𝑛𝐶 . Os cálculos de cada poder empírico foram baseados em 1.000.000 de
simulações. A Tabela 5.6 apresenta resultados para casos selecionados.

Tabela 5.6 - Tamanho de amostra para ensaios de não inferioridade usando a medida
odds ratio quando o nível de significância é 2,5% e o poder do teste é 90%

𝑝𝐶 = 0,8 𝑝𝐶 = 0,5
𝑂𝑅0 𝑂𝑅1
𝑊𝑓 𝐹 𝑊𝑆 𝑉𝑆 𝑊𝑓 𝐹 𝑊𝑆 𝑉𝑆
1,5 384 379 379 378 218 217 216 216
0,8 2,0 205 197 197 196 107 105 104 104
2,5 149 139 138 137 73 70 70 69
1,5 126 127 125 126 72 72 71 71
0,5 2,0 90 88 87 87 47 47 46 46
2,5 75 71 70 70 37 36 35 35
Nota: 𝑂𝑅0 : odds ratio sob 𝐻0 ; 𝑂𝑅1 : odds ratio sob 𝐻1 ; 𝑊𝑓 : teste de Wald por fórmula; 𝐹: teste exato de
Fisher; 𝑊𝑆 : teste de Wald por simulação; 𝑉𝑆 : teste da razão de verossimilhanças por simulação.

Os resultados das simulações a partir do teste da razão de verossimilhanças (𝑉𝑆 ) são muito semelhantes
aos do teste exato de Fisher (𝐹). A fórmula baseada no teste de Wald (𝑊𝑓 ) parece fornecer bons
resultados, quando comparados aos obtidos na simulação, tanto para o próprio teste de Wald (𝑊𝑆 )
quanto para o teste de razão de verossimilhanças (𝑉𝑆 ).

À medida que 𝑂𝑅1 aumenta, os tamanhos de amostras (𝑛) diminuem e o inverso vale para a margem
de não inferioridade (𝑂𝑅0 ), o que significa que, fixado o valor de 𝑂𝑅1 , os tamanhos de amostras
quando 𝑂𝑅0 = 0,8 são superiores aos correspondentes tamanhos calculados quando 𝑂𝑅0 = 0,5.
Os tamanhos de amostra relativos a 𝑊𝑓 tendem a ser ligeiramente maiores que os de 𝐹. Para a

diferença (𝑊𝑓 – 𝐹), os valores do mínimo são 1 e -1 e do máximo 10 e 4, respectivamente, para 𝑂𝑅0
igual a 0,8 e 0,5, enquanto que a diferença (𝑊𝑓 − 𝑉𝑆 ) varia de 2 a 12 e de 0 a 5 para os mesmos valores
de 𝑂𝑅0 , isto é, 0,8 e 0,5.

Diferença de proporções versus odds ratio

Quando os grupos são comparados em termos de diferença de proporções, o tamanho da amostra é


tipicamente bem menor do que o obtido quando a medida escolhida é odds ratio. Por exemplo, no
ensaio do exemplo 5.5 sobre tratamento de vaginose bacteriana, usando a medida odds ratio,
𝑂𝑅0 = 0,5 e 𝑝𝐶 = 0,80, o tamanho de amostra obtido pelo teste de Wald foi 𝑛𝐶 = 𝑛𝑇 = 205, portanto,
o total de 410 pacientes. Se a comparação dos tratamentos fosse feita em termos de diferença de
proporções, pode-se calcular que seriam necessários apenas 142 pacientes em cada grupo (total de
284), ou seja, haveria redução de 126 pacientes. Apesar dessa aparente vantagem da diferença de
proporções, cresce o interesse pela utilização da medida odds ratio. De fato, existem vantagens
discutidas na literatura (TU, 1998) e, por exemplo, aparece de forma natural na interpretação de
modelos de regressão logística, tão usados na área da saúde.

Acurácia das fórmulas fechadas para o tamanho de amostra via o teste de Wald e o teste do
escore quando a medida odds ratio é usada

De forma geral, fórmulas de forma fechada são procedimentos práticos e convenientes para a
estimativa do tamanho da amostra, como é o caso das fórmulas obtidas para os testes de Wald e escore
quando a medida odds ratio é usada para dados de resposta binária. Como em geral há aproximações
no desenvolvimento das fórmulas, torna-se importante a avaliação de suas acurácias e a comparação
entre elas. Siqueira et al. (2015) conduziram estudo de simulação relativamente extensivo, cobrindo
muitas situações que aparecem na prática. Ambas as fórmulas de forma fechada são comparadas com
simulações bastante apuradas (portanto, muito próximas do padrão-ouro) baseadas no teste da
razão de verossimilhanças.

Nenhuma fórmula é acurada para todos os casos considerados, como revelado pela comparação direta
com o resultado do teste da razão de verossimilhanças. Em alguns casos, o tamanho da amostra
calculado pelo método de Wald é maior do que o indicado pelo teste da razão de verossimilhanças, ao
passo que o tamanho da amostra obtido pelo teste do escore é menor do que o tamanho da amostra
determinado pelo teste de razão de verossimilhanças, levando à conclusão de que os testes Wald e
escore têm tendências opostas. A precisão depende da combinação de vários termos envolvidos nos
cálculos, como as probabilidades de sucesso do novo tratamento e controle ativo e a razão de chances
(sob as hipóteses nula e alternativa). Simulações adicionais realizadas para estudos de superioridade
(quando 𝜃0 = 0) mostraram que a fórmula fechada referente ao teste Wald tende a superestimar o
tamanho da amostra, enquanto que a fórmula fechada do teste de escore tende a subestimar o tamanho
da amostra em relação ao resultado do teste da razão de verossimilhanças. Para estudos de não
inferioridade, a acurácia também depende do valor da medida de odds ratio sob a hipótese alternativa.

Na gama de valores de parâmetros investigados, a fórmula fechada do teste de escore é razoavelmente


precisa quando as margens de não inferioridade são baseadas em odds-ratio de cerca de 0,5 ou superior
e quando a magnitude de odds ratio sob a hipótese alternativa encontra-se entre aproximadamente 1 e
2,5. A precisão geralmente diminui à medida que o valor de odds ratio sob a hipótese alternativa se
move para cima a partir de 1. À medida que o valor de margens de não inferioridade (em termos de
odds ratio) diminui de 0,5, a fórmula fechada relativa ao teste de escore superestima cada vez mais o
tamanho da amostra, independentemente da magnitude da razão de probabilidades sob a hipótese
alternativa. A fórmula fechada do teste de Wald também é razoavelmente acurada nos casos em que
fórmula fechada do teste de escore funciona bem. Fora dessas situações, a fórmula do teste de Wald
pode subestimar ou superestimar o tamanho da amostra, dependendo da margem de não inferioridade e
do valor da odds ratio sob a hipótese alternativa. Embora nenhuma fórmula seja acurada para todos os
casos, as duas abordagens (testes de Wald e escore) levam a cálculos satisfatórios do tamanho da
amostra para estudos de não inferioridade com dados binários quando o parâmetro de interesse é
odds ratio.

5.3 Estudos de bioequivalência

Em tese, um medicamento genérico pode substituir o medicamento referência sem interferir no


tratamento do paciente. Por não ser mais necessária toda a pesquisa obrigatória para o lançamento de
um novo fármaco, em geral o genérico possui custo muito mais baixo, forte atrativo, especialmente no
Brasil. Entretanto, para que o genérico seja comercializado, é necessário que ele seja declarado
bioequivalente ao de referência. Os estudos de bioequivalência são exigidos por órgãos reguladores
para a liberação de medicamentos genéricos para o mercado. Tais estudos devem ser conduzidos com
rigor científico e ético, seguindo metodologia específica. No Brasil, estudos de bioequivalência são
normatizados e fiscalizados pela Agência Nacional de Vigilância Sanitária (ANVISA).

Existem três etapas na investigação de bioequivalência: clínica, analítica e estatística. A equipe


estatística exerce importante papel em estudos de bioequivalência, tanto no planejamento como na
análise dos dados. No planejamento, destacam-se a determinação do cronograma de coleta e o cálculo
do número de voluntários, isto é, o tamanho da amostra.

Frequentemente, os participantes do estudo são voluntários sadios. Seguindo cronograma previamente


estabelecido, são coletadas amostras de sangue e determinadas as concentrações do fármaco para gerar
as seguintes medidas farmacocinéticas ilustradas na Figura 5.2 (a): área sob a curva de concentração
plasmática versus tempo (ASC), o pico de concentração plasmática (Cmax) e o tempo em que a
concentração máxima foi alcançada (Tmax).

O delineamento crossover 2x2 é o mais utilizado em estudos de bioequivalência. Nesse delineamento,


cada indivíduo recebe as duas formulações do fármaco em períodos diferentes. As formulações são
teste (o genérico a ser testado) e referência (o medicamento existente no mercado). A ordem na qual os
medicamentos são administrados é denominada sequência. Por exemplo, para os medicamentos
Teste (𝑇) e Referência (𝑅), as duas sequências são 𝑅𝑇 e 𝑇𝑅. O cronograma de coleta é de três a cinco
meias-vidas e o período de eliminação (washout) deve ser de aproximadamente sete meias-vidas.
O esquema está apresentado na Figura 5.2 (b).

(a) (b)
Figura 5.2 - (a) Curva de concentração para ilustrar as principais medidas farmacocinéticas
(ASC: área sob a curva; Cmax: concentração máxima; Tmax: tempo para atingir a
concentração máxima); (b) esquema de delineamento crossover 2x2.
Mais detalhes podem ser encontrados em resoluções e manual da ANVISA, bem como em literatura
especializada, como Patterson e Jones (2006), Chellini (2007), Hauschke et al. (2007), Chow e Liu
(2009), Niazi (2015), entre outros.

Para a comparação das formulações, o modelo correspondente ao planejamento crossover é:

𝑌𝑖𝑗𝑘 = 𝜇 + 𝑆𝑖𝑘 + 𝑃𝑗 + 𝐹(𝑗,𝑘) + 𝑅(𝑗−1,𝑘) + 𝜀𝑖𝑗𝑘 (5.8)

No modelo (5.8), os índices 𝑖, 𝑗 e 𝑘 são, respectivamente, para indivíduo (𝑖 = 1, 2, ⋯ , 𝑛𝑘 ), período


(𝑗 = 1, ⋯ , 𝑝) e sequência (𝑘 = 1, 2, ⋯ , 𝑔) e os termos envolvidos são: 𝑌𝑖𝑗𝑘 : variável resposta, por
exemplo, 𝑙𝑜𝑔(𝐴𝑆𝐶); 𝜇: média geral; 𝑆𝑖𝑘 : efeito do 𝑖-ésimo indivíduo na 𝑘-ésima sequência; 𝑃𝑗 : efeito
fixo do 𝑗-ésimo período tal que ∑𝑗 𝑃𝑗 = 0; 𝐹(𝑗,𝑘) : efeito fixo da formulação administrada na 𝑘-ésima
sequência e no 𝑗-ésimo período tal que ∑ 𝐹(𝑗,𝑘) = 0; 𝑅(𝑗−1,𝑘) : efeito fixo residual (carryover) de
primeira ordem da formulação administrada na 𝑘-ésima sequência e (𝑗 − 1)-ésimo período, tal que
∑ 𝑅(0,𝑘) = 0 e ∑ 𝑅(𝑗−1,𝑘) = 0; 𝜀𝑖𝑗𝑘 : erro aleatório.

Assume-se que 𝑆𝑖𝑘 e 𝜀𝑖𝑗𝑘 são independentes e identicamente distribuídos com média zero e variâncias
𝜎𝑠2 e 𝜎𝑡2 , respectivamente, com 𝑡 = 1, 2, ⋯ , 𝐿, sendo 𝐿 o número de formulações a serem comparadas.

Para o planejamento crossover 2 x 2, 𝑖 = 1, 2, … , 𝑛𝑘 , 𝑗 = 1, 2, 𝑘 = 1, 2, 𝐹(𝑗,𝑘) = 𝐹𝑅 , 𝑘 = 𝑗 e 𝐹(𝑗,𝑘) =


𝐹𝑇 , 𝑘 ≠ 𝑗; 𝑅(𝑗−1,𝑘) = 𝑅𝑅 , 𝑘 = 1, 𝑗 = 2, 𝑅(𝑗−1,𝑘) = 𝑅𝑇 , 𝑘 = 2, 𝑗 = 2; 𝜇 𝑇 = 𝜇 + 𝐹𝑇 e 𝜇𝑅 = 𝜇 + 𝐹𝑅 são as
médias para as formulações 𝑇 e 𝑅, respectivamente, e o parâmetro de interesse é 𝜃 = 𝜇 𝑇 − 𝜇𝑅 . Neste
caso, as variações interindivíduos e intraindivíduos são representadas por 𝜎𝑠2 e 𝜎𝑒2 , respectivamente.

Os Quadros 5.5 e 5.6 resumem as principais informações sobre o modelo crossover 2 x 2.

Quadro 5.5 - Valores esperados para o delineamento crossover 2 x 2

Sequência Período Valores esperados

𝑅𝑇 (𝑘 = 1) 1 𝐸(𝑌𝑖11 ) = 𝜇 + 𝐹𝑅 + 𝑃1 = 𝜇𝑅 + 𝑃1

𝑅𝑇 (𝑘 = 1) 2 𝐸(𝑌𝑖21 ) = 𝜇 + 𝐹𝑇 + 𝑃2 = 𝜇 𝑇 + 𝑃2

𝑇𝑅 (𝑘 = 2) 1 𝐸(𝑌𝑖12 ) = 𝜇 + 𝐹𝑇 + 𝑃1 = 𝜇 𝑇 + 𝑃1

𝑇𝑅 (𝑘 = 2) 2 𝐸(𝑌𝑖22 ) = 𝜇 + 𝐹𝑅 + 𝑃2 = 𝜇𝑅 + 𝑃2
Quadro 5.6 - Resumo dos dados para o delineamento crossover 2 x 2

Sequência 𝑁 Período 1 Período 2

Formulação referência: 𝑅 Formulação referência: 𝑇

𝑅𝑇 𝑛1 Dados: 𝑦𝑖11 , 𝑖 = 1, ⋯ , 𝑛1 Dados: 𝑦𝑖21 , 𝑖 = 1, ⋯ , 𝑛1


𝑛1 𝑦 𝑛1 𝑦
∑𝑖=1 𝑖11 ∑𝑖=1 𝑖21
Média amostral: 𝑦̅.11 = Média amostral: 𝑦̅.21 =
𝑛1 𝑛1

Formulação referência: 𝑇 Formulação referência: 𝑅

𝑇𝑅 𝑛2 Dados: 𝑦𝑖12 , 𝑖 = 1, ⋯ , 𝑛2 Dados: 𝑦𝑖22 , 𝑖 = 1, ⋯ , 𝑛2


𝑛2 𝑦 𝑛2 𝑦
∑𝑖=1 𝑖12 ∑𝑖=1 𝑖22
Média amostral: 𝑦̅.12 = Média amostral: 𝑦̅.22 =
𝑛2 𝑛2

Nota: 𝑁 = 𝑛1 + 𝑛2 (número total de voluntários).

Seja 𝑑𝑖𝑘 = (𝑦𝑖2𝑘 − 𝑦𝑖1𝑘 )/2, a metade da diferença entre as medidas dos dois períodos para o 𝑖-ésimo
indivíduo na 𝑘-ésima sequência. A estimativa de 𝜃 = 𝜇 𝑇 − 𝜇𝑅 é 𝜃̂ = 𝑑̅.1 − 𝑑̅.2 = [(𝑦̅.21 − 𝑦̅.11 ) −
(𝑦̅.22 − 𝑦̅.12 )]/2 = 𝑦̅𝑇 − 𝑦̅𝑅 , sendo que 𝑦̅𝑅 = (𝑦̅.11 + 𝑦̅.22 )/2 e 𝑦̅𝑇 = (𝑦̅.21 + 𝑦̅.12 )/2. A variância
associada a 𝑑𝑖𝑘 é 𝜎𝑑2 (1/𝑛1 + 1/𝑛2 ) e uma estimativa não viesada para 𝜎𝑑2 é dada por
𝑛𝑘 2
𝜎̂𝑑2 = (∑2𝑘=1 ∑𝑖=1(𝑑𝑖𝑘 − 𝑑̅.𝑘 ) )/(𝑛1 + 𝑛2 − 2).

Bioequivalência pode ser avaliada testando-se as seguintes hipóteses: 𝐻0+ : 𝜃 ≤ 𝜃𝐼 versus 𝐻1+ : 𝜃 > 𝜃𝐼 e
𝐻0− : 𝜃 ≥ 𝜃𝑆 versus 𝐻1− : 𝜃 < 𝜃𝑆 . Schuirmann (1987) descreve dois testes unilaterais, cujas estatísticas
(𝑦̅𝑇 −𝑦̅𝑅 )−𝜃𝐼 (𝑦
̅𝑇 −𝑦
̅𝑅 )−𝜃𝑆
são dadas, respectivamente, por 𝑇 + = 𝜎̂ e 𝑇− = . Sob as hipóteses nulas, elas têm
𝑑 √1/𝑛1 +1/𝑛2 𝜎
̂ 𝑑 √1/𝑛1 +1/𝑛2

distribuição 𝑡 de Student com 𝜈 = 𝑛1 + 𝑛2 − 2 graus de liberdade. Bioequivalência é declarada se


ambas as hipóteses (𝐻0+ e 𝐻0− ) são rejeitadas no nível de significância 𝛼, ou seja, se 𝑇 + ≥ 𝑡𝜈;1−𝛼
e 𝑇 − ≤ −𝑡𝜈;1−𝛼 , sendo 𝑡𝜈;1−𝛼 o percentil da distribuição 𝑡 de Student central com 𝜈 = 𝑛1 + 𝑛2 − 2
graus de liberdade.

1 1
Intervalo de (1 − 2𝛼)100% de confiança para 𝜃 é dado por ((𝑦̅𝑇 − 𝑦̅𝑅 ) − 𝑡𝜈;1−𝛼 𝜎̂𝑑 √𝑛 + 𝑛 ,
1 2

1 1
(𝑦̅𝑇 − 𝑦̅𝑅 ) + 𝑡𝜈;1−𝛼 𝜎̂𝑑 √ + ), sendo 𝑡𝜈;1−𝛼 o percentil da distribuição 𝑡 de Student central com
𝑛1𝑛 2
𝜈 = 𝑛1 + 𝑛2 − 2 graus de liberdade. Duas formulações são consideradas equivalentes se o intervalo de
confiança para 𝜃 estiver contido completamente dentro do intervalo formado pelos limites inferior e
superior de bioequivalência.

De acordo com a ANVISA (RE nº 1170, 2006), para que dois medicamentos sejam declarados
bioequivalentes, os intervalos de 90% de confiança para a diferença das médias tanto para 𝐴𝑆𝐶 quanto
para 𝐶𝑚𝑎𝑥 devem estar dentro do intervalo de bioequivalência (𝜃𝐼 ; 𝜃𝑆 ) tipicamente especificados
em (0,80; 1,25) ou (−0,2231; 0,2231), nas escalas original e logarítmica, respectivamente.
Em Chellini (2007) há vários exemplos do uso da resolução da ANVISA, além de detalhes adicionais
sobre o assunto.

5.3.1 Tamanho de amostra em estudos de bioequivalência

O número de participantes é parte fundamental do planejamento e está ligado tanto a questões éticas
quanto econômicas. Alguns fatores podem prejudicar a conclusão do estudo, por exemplo, a utilização
de número de voluntários inferior ao necessário, daí a importância da acurácia da determinação do
tamanho da amostra.

É muito comum considerar intervalo de bioequivalência (𝜃𝐼 ; 𝜃𝑆 ) simétrico (𝜃𝑠 = −𝜃𝐼 ) e delineamento
com o mesmo número de voluntários para cada sequência (𝑛1 = 𝑛2 = 𝑛), tal que os graus de liberdade
são 𝜈 = 𝑛1 + 𝑛2 − 2 = 2𝑛 − 2 = 2(𝑛 − 1). Para qualquer valor de 𝜃, o poder do teste de Schiurmann
é por definição Pr (rejeitar 𝐻0+ e 𝐻1− |𝜃). Escolhendo 𝜃𝛾 tal que 𝜃𝐼 < 𝜃𝛾 < 𝜃𝑠 , o poder é dado por:

√𝑛(𝜃̂ − 𝜃𝛾 ) √𝑛(𝜃̂ − 𝜃𝛾 )
𝑃𝑟 ( < −𝑡2𝑛−2; 1−𝛼 e > 𝑡2𝑛−2; 1−𝛼 ) (5.9)
√2𝜎̂𝑑 √2𝜎̂𝑑

̂ − 𝜃𝛾 )
√𝑛(𝜃
A probabilidade conjunta de (5.9) pode ser reescrita como 𝑃𝑟 ( ̂𝑑
< −𝑡2𝑛−2; 1−𝛼 ) −
√2𝜎
̂ − 𝜃𝛾 )
√𝑛(𝜃 ̂ − 𝜃𝛾 )
√𝑛(𝜃 ̂ − 𝜃𝛾 )
√𝑛(𝜃
𝑃𝑟 ( ̂𝑑
< 𝑡2𝑛−2; 1−𝛼 ) + 𝑃𝑟 ( ̂𝑑
> −𝑡2𝑛−2; 1−𝛼 e ̂𝑑
< 𝑡2𝑛−2; 1−𝛼 ), que é
√2𝜎 √2𝜎 √2𝜎

aproximadamente igual a 1 − Γ2𝑛−2,δ1 (𝑡2𝑛−2; 1−𝛼 ) − Γ2𝑛−2,δ2 (𝑡2𝑛−2; 1−𝛼 ), sendo que Γ2𝑛−2,δi
representa a função de distribuição acumulada da distribuição 𝑡 de Student não central com (2𝑛 − 2)
̂ − 𝜃𝛾 )
√𝑛(𝜃 ̂ + 𝜃𝛾 )
√𝑛(𝜃
graus de liberdade e com parâmetro de não centralidade δ1 = ̂𝑑
ou δ2 = ̂𝑑
.
√2𝜎 √2𝜎

O tamanho da amostra necessário para atingir o poder desejado de (1 − 𝛽)100% pode ser estimado
resolvendo-se a equação: 1 − Γ2𝑛−2,δ1 (𝑡2𝑛−2; 1−𝛼 ) − Γ2𝑛−2,δ2 (𝑡2𝑛−2; 1−𝛼 ) = 1 − 𝛽.
Uma aproximação conservadora pode ser obtida resolvendo-se a equação Γ2𝑛−2,δ1 (𝑡2𝑛−2; 1−𝛼 ) = 𝛽/2,
̂ − 𝜃𝛾 )
√𝑛(𝜃
com δ1 = ̂𝑑
. Entretanto, quando 𝜃 ≠ 0, tal solução pode ser muito conservadora na prática,
√2𝜎
̂ − 𝜃𝛾 )
√𝑛(𝜃
o que leva a considerar a seguinte aproximação: Γ2𝑛−2,δ1 (𝑡2𝑛−2; 1−𝛼 ) = 𝛽 com δ1 = ̂𝑑
.
√2𝜎

Outra possível aproximação consiste em substituir a distribuição 𝑡 de Student não central pelas
distribuições 𝑡 de Student central e normal padrão.

Na prática, no caso de planejamentos balanceados (𝑛1 = 𝑛2 = 𝑛), o poder do teste para avaliar a
bioequivalência de dois produtos (𝑇 e 𝑅), que pode ser considerado exato, é calculado a partir da
seguinte expressão:

1 − (Γν,δ− (𝑡ν;1−α ) + Γν,δ+ (𝑡ν;1−α )) (5.10)

Em (5.10), Γ representa a função de probabilidade acumulada da distribuição 𝑡 de Student não central


com 𝑣 = 2𝑛 − 2 graus de liberdade com os seguintes parâmetros de não centralidade:
𝑛 𝜃𝜀 −|𝜃𝛾 | 𝑛 𝜃𝜀 +|𝜃𝛾 |
𝛿 − = √2 ( ), 𝛿 + = √2 ( ). Os limites de bioequivalência são 𝜃𝜀 = 𝜃𝜀𝑆 = −𝜃𝜀𝐼 , 𝜃𝛾 é a
𝜎𝑑 𝜎𝑑

diferença das médias, 𝑡ν;1−α = 𝑡2𝑛−2; 1−𝛼 é o percentil de ordem (1 − 𝛼)100% da distribuição 𝑡 de
Student central e 𝜎𝑑 é o desvio-padrão associado às metades da diferença entre as medidas dos dois
períodos para cada indivíduo dentro de cada sequência e que está relacionado ao desvio-padrão
intraindividual 𝜎𝑒 (𝜎𝑑 = 𝜎𝑒 /√2).

Com o pressuposto de distribuição lognormal, pode-se mostrar que a relação entre o coeficiente de
variação para a formulação de referência (𝐶𝑉) e a variância 𝜎𝑑2 é dada por 𝐶𝑉 = √𝑒𝑥𝑝{𝜎𝑑2 } − 1.
Se 𝜎𝑑2 tende a zero, 𝐶𝑉 também tende a zero. Quando 𝜎𝑑 for inferior a 0,3, 𝐶𝑉 pode ser aproximado
por 𝜎𝑑 , sendo, então, o valor de 𝐶𝑉 próximo de 𝜎𝑑 . Quanto maior o valor de 𝐶𝑉, mais elevado tende a
ser o número de voluntários a serem incluídos no estudo. A determinação de tamanho de amostra,
segundo alguns autores, como Diletti et al. (1991), deve ser em termos de 𝐶𝑉 e não em função de 𝜎𝑑2 .
Detalhes técnicos sobre o assunto podem ser encontrados em Siqueira et al. (2005), Chow e Liu (2009)
e Julious (2010).

Em resumo, o número de participantes (2𝑛) é a solução da função do poder do teste, fixando-se o nível
de significância 𝛼, a diferença esperada entre as duas médias (𝜃𝛾 ), além da variância entre indivíduos
(𝜎𝑑2 ), ou equivalentemente expressa pelo coeficiente de variação intraindividual (𝐶𝑉).
Como comentado, para o planejamento crossover 2x2, existem várias formas para a determinação do
tamanho de amostra (2𝑛). Recomenda-se, sempre que possível, a utilização do método considerado
padrão-ouro, baseado na distribuição 𝑡 de Student não central apresentado por Owen (1965), entre
outros, que se encontra implementado, por exemplo, no software nQuery Advisor®. Entretanto, nem
sempre o software específico está disponível e, além disso, como os cálculos do método padrão-ouro
não são tão triviais, torna-se importante ter outros métodos à disposição e saber quando cada
um seria razoável.

Siqueira et al. (2005) comparam métodos para o dimensionamento de estudos de bioequivalência.


Os métodos considerados são baseados nas distribuições 𝑡 de Student não central, 𝑡 central e normal.
Outra possibilidade é utilizar a função de densidade acumulada completa ou tomar apenas uma parcela
da função do poder para obter o tamanho da amostra que praticamente equivale ao valor total da
função, abandonando a parte da função desprezível em termos de cálculos; os métodos são chamados
de conservador e não conservador (ver SIQUEIRA et al., 2005). As notações dos nove métodos
estudados estão no Quadro 5.7.

Quadro 5.7 - Notação de nove métodos de dimensionamento de amostra (𝑛) em


estudos de bioequivalência seguindo o delineamento crossover 2 x 2

Método
Distribuição
F.d.a. completa Conservador (𝛽/2) Não conservador (𝛽)

𝑡 não central 𝑛𝑔𝑠 𝑛𝑛𝑐𝑡𝛽/2 𝑛𝑛𝑐𝑡𝛽


𝑡 central 𝑛𝑡 𝑛𝑡𝛽/2 𝑛𝑡𝛽
Normal padrão 𝑛𝑧 𝑛𝑧𝛽/2 𝑛𝑧𝛽

Nota: F.d.a. é a função de distribuição acumulada.

Entre os nove métodos apresentados, quatro apresentam fórmulas fechadas. Destacam-se aqui duas
delas, ambas do método conservador e baseadas, respectivamente, nas distribuições de 𝑡 de Student
central e normal padrão:

2
2
𝑡𝜈;1−𝛼+ 𝑡𝜈;1−𝛽/2
𝑛𝑡𝛽/2 = 2𝜎𝑑 ( ) (5.11)
𝜃𝜀 − |𝜃𝛾 |
2
2
𝑧1−𝛼+ 𝑧1−𝛽/2 (5.12)
𝑛𝑧𝛽/2 = 2𝜎𝑑 ( )
𝜃𝜀 − |𝜃𝛾 |
Nas fórmulas (5.11) e (5.12), como comentado anteriormente, 𝜎𝑑2 é a variância associada à metade da
diferença entre as medidas dos dois períodos para o 𝑖-ésimo indivíduo na 𝑘-ésima sequência e pode-se
mostrar que 𝜎𝑑2 = 𝜎𝑒2 /2, sendo 𝜎𝑒2 a variância intraindivíduos; 𝑡𝜈;1−𝛼 e 𝑡𝜈;1−𝛽/2 são os percentis de
ordem (1 − 𝛼)100% e (1 − 𝛽/2)100% da distribuição 𝑡 de Student com 𝑣 = 2𝑛 − 2 graus de
liberdade; 𝑧1−𝛼 e 𝑧1−𝛽/2 são os percentis de ordem (1 − 𝛼)100% e (1 − 𝛽/2)100% da distribuição
normal padrão.

Com exceção de duas fórmulas usando a distribuição normal (𝑛𝑧𝛽/2 e 𝑛𝑧𝛽 ), os cálculos para tamanho
de amostra para estudos de bioequivalência considerados requerem métodos iterativos, e pacotes
específicos devem ser utilizados ou programas devem ser escritos para a determinação do tamanho da
amostra. Os softwares nQuery Advisor® e Pass® fornecem a solução padrão-ouro baseada na
distribuição 𝑡 de Student não central.

Exemplo 5.7 - Algumas comparações de métodos de dimensionamento de amostra em estudos de


bioequivalência

Em Siqueira et al. (2005) são estabelecidas várias comparações para investigar se a utilização de
fórmulas fechadas, especialmente as baseadas na distribuição normal, que são as mais práticas em
termos de cálculo, forneceriam resultados equivalentes ao obtido pela fórmula do padrão-ouro, que
utiliza a distribuição 𝑡 de Student não central (𝑛𝑔𝑠 do Quadro 5.7).

Concluiu-se que, se a diferença entre as médias for zero (𝜃𝛾 = 0) e os parâmetros de não centralidade
são iguais (𝛿 − = 𝛿 + ), 𝑛𝑛𝑐𝑡𝛽/2 = 𝑛𝑔𝑠 , 𝑛𝑡𝛽/2 = 𝑛𝑡 e 𝑛𝑧𝛽/2 = 𝑛𝑧 . Além disso, existe um padrão para os
métodos. Usando a notação do Quadro 5.7: 𝑛𝑛𝑐𝑡𝛽 ≤ 𝑛𝑔𝑠 ≤ 𝑛𝑛𝑐𝑡𝛽/2 ; 𝑛𝑡𝛽 ≤ 𝑛𝑡 ≤ 𝑛𝑡𝛽/2 e
𝑛𝑧𝛽 ≤ 𝑛𝑧 ≤ 𝑛𝑧𝛽/2 .

Para considerar uma situação bem prática, foram escolhidos os seguintes cenários: planejamento
crossover 2x2, dados lognormal com intervalo de bioequivalência (−0,2231; 0,2231), 𝛼 = 0,05 e
𝛽 = 0,20, ou seja, poder de 80%. Foram consideradas 180 combinações dos parâmetros
envolvidos nos cálculos dos métodos do tamanho de amostra, a saber,
𝜃𝛾 = 0; 0,01; 0,02; 0,04; 0,06; 0,08; 0,10; 0,12; 0,14; 0,16; 0,18; 0,20; 𝜎𝑑 variando de 0,02 a 0,30 com
incremento de 0,02. A Tabela 5.7 resume eventuais diferenças entre métodos usando a função de
distribuição acumulada completa com as três distribuições: 𝑡 não central, 𝑡 central e normal.
Pela análise dos dados, foi possível concluir que em todas as situações, 𝑛𝑧 ≤ 𝑛𝑔𝑠 ≤ 𝑛𝑡 e que,
consequentemente, ocorrem as seguintes relações das funções de poder: 𝒫𝑡 (𝜃𝛾 ) ≤ 𝒫𝑛𝑐𝑡 (𝜃𝛾 ) ≤ 𝒫𝑧 (𝜃𝛾 ).
Os cálculos baseados na distribuição 𝑡 central concordam mais frequentemente com o padrão-ouro
(𝑛𝑔𝑠 ) do que o método baseado na distribuição normal, que tende a subestimar o tamanho da amostra
por aproximadamente um indivíduo por sequência.

Tabela 5.7 - Frequência da diferença de resultados obtidos por três métodos de


dimensionamento de amostra (𝑛) para o planejamento crossover 2 x 2

Diferença no tamanho de amostra por sequência


Métodos Total
0 1
𝑛𝑡 − 𝑛𝑔𝑠 161 (89,4%) 19 (10,6%) 180 (100%)
𝑛𝑔𝑠 − 𝑛𝑧 56 (31,1%) 124 (68,9%) 180 (100%)
𝑛𝑡 − 𝑛𝑧 37 (20,6%) 143 (79,4%) 180 (100%)
Nota: 𝛼 = 0,05; poder = 80%; 𝑛𝑔𝑠 : baseado na função acumulada completa (f.a.c.) da distribuição 𝑡 não
central; 𝑛𝑡 : baseado na f.a.c. da distribuição 𝑡 central; 𝑛𝑧 : baseado na f.a.c. da distribuição normal padrão.

A próxima comparação apresentada em Siqueira et al. (2005) é a que mais interessa na prática, já que
se avalia o efeito do valor da diferença esperada entre as duas médias (𝜃𝛾 ) levando-se em conta o valor
de 𝜎𝑑 , ou, equivalentemente, do coeficiente de variação (𝐶𝑉) do fármaco. A Tabela 5.8 mostra parte
dos resultados, destacando o método chamado padrão-ouro (𝑛𝑔𝑠 ) e dois métodos com fórmula fechada,
fórmulas (5.11) e (5.12). No artigo original podem ser encontradas as tabelas completas bem como as
figuras ilustrativas correspondentes.

Nota-se que, à medida que 𝜃𝛾 e 𝜎𝑑 aumentam, o tamanho de amostra por sequência (𝑛) e, portanto,
o tamanho de amostra total - o número de participantes do estudo - aumenta. O método que utiliza a
distribuição 𝑡 central, fórmula (5.11), pode coincidir com o método padrão-ouro (𝑛𝑔𝑠 ), mas tende a
superestimar o verdadeiro valor por uma quantidade que varia de um a 13 indivíduos por sequência e,
consequentemente, uma diferença de dois a 26 participantes no estudo. Já os resultados do método que
utiliza a distribuição normal (𝑛𝑧𝛽/2), fórmula (5.12), podem ser coincidentes com os de 𝑛𝑔𝑠 , mas a
tendência em relação ao padrão-ouro é subestimação, cujas diferenças podem variar de um a 12
indivíduos por sequência e, portanto, de dois a 24 participantes no total.
Tabela 5.8 - Tamanho de amostra por sequência (𝑛) obtido
por três métodos para alguns valores de 𝜃𝛾 e de 𝜎𝑑

Método Desvios
𝜃𝛾 𝜎𝑑
𝑛𝑔𝑠 𝑛𝑡𝛽/2 𝑛𝑧𝛽/2 𝑛𝑔𝑠 − 𝑛𝑡𝛽/2 𝑛𝑔𝑠 − 𝑛𝑧𝛽/2
0,10 5 5 4 0 1
0,12 6 6 5 0 1
0,14 8 8 7 0 1
0,00
0,16 10 10 9 0 1
0,18 12 13 12 -1 0
0,20 15 15 14 0 1
0,10 5 6 5 -1 0
0,12 6 7 6 -1 0
0,14 8 10 9 -2 -1
0,02
0,16 10 12 11 -2 -1
0,18 13 15 14 -2 -1
0,20 15 18 17 -3 -2
0,10 6 8 7 -2 -1
0,12 8 11 10 -3 -2
0,14 10 14 13 -4 -3
0,06
0,16 13 18 17 -5 -4
0,18 16 22 21 -6 -5
0,20 20 27 26 -7 -6
0,10 9 13 12 -4 -3
0,12 13 18 17 -5 -4
0,14 17 23 23 -6 -6
0,10
0,16 22 30 29 -8 -7
0,18 28 38 37 -10 -9
0,20 34 47 46 -13 -12
Nota: 𝛼 = 0,05 e poder de 80%; 𝑛𝑔𝑠 : baseado na função acumulada completa da distribuição 𝑡 não central;
𝑛𝑡𝛽/2 e 𝑛𝑧𝛽/2 : método conservador usando as distribuições 𝑡 central e normal padrão, respectivamente.

5.3.2 Impacto da má-especificação de parâmetros envolvidos no cálculo do tamanho da amostra


em estudos de bioequivalência

O poder e o nível de significância necessários no cálculo do tamanho de amostra em estudos de


bioequivalência são em geral fixados, respectivamente, em 80% e 5%, mas a dificuldade aparece com a
especificação da diferença das médias (𝜃𝛾 ) e na medida de variabilidade (𝐶𝑉 ou 𝜎𝑑2 ).

Em geral, o patrocinador do estudo diria que 𝜃𝛾 = 0,00, que as médias das formulações 𝑅 e 𝑇 são
idênticas. Como na prática o verdadeiro valor 𝜃𝛾 é desconhecido, uma atitude mais conservadora
consiste em fazer um estudo de sensibilidade, considerando possíveis valores para 𝜃𝛾 .

Como em ensaios de bioequivalência é quase impossível a realização de estudo-piloto, a especificação


de 𝐶𝑉 (ou 𝜎𝑑2 ) deve ser obtida na literatura, mas tais publicações são muito escassas e nem sempre os
valores são publicados separadamente; devem ser utilizados estudos já realizados, mas também podem
não ser disponibilizados. Finalmente, na completa ausência de informação, o valor da variabilidade
(𝜎𝑑2 ou 𝐶𝑉) a ser usado pode ser baseado na experiência dos pesquisadores, por exemplo, pela
classificação se o fármaco é de alta variabilidade, mas naturalmente isso pode ser bastante impreciso.

Chellini e Siqueira (2006) estudam o impacto da má-especificação do parâmetro referente à


variabilidade, necessário no cálculo do número de participantes de um estudo de bioequivalência
utilizando o planejamento crossover 2 x 2, cuja principal consequência é a conclusão incorreta sobre a
equivalência dos produtos. Para isso, foram simuladas várias situações, comparando o tamanho da
amostra necessário para o valor real do 𝐶𝑉 com os usados para outros valores subestimados ou
superestimados do 𝐶𝑉. Foram também investigadas quais as condições em que seria razoável a
recomendação da ANVISA de recrutar 12 voluntários em cada sequência. Outros detalhes sobre o
assunto podem ser obtidos em Chellini (2007).

Utilizando o software nQuery Advisor®, foi calculado o tamanho de amostra para cada sequência (𝑛),
como já comentado baseado na distribuição 𝑡 não central, com 𝛼 = 0,05 e poder fixado em 80% e
90%, para as seguintes situações: 𝜃𝛾 = 0,00; 0,05; 0,10 e 𝐶𝑉 de 0,10 a 0,50 (com incremento de 0,01).
Esses valores de 𝐶𝑉 correspondem à seguinte variação de 𝜎𝑑2 : 0,10 a 0,472. Para cada valor de 𝐶𝑉
tomado como sendo o real, foram calculados quantos voluntários seriam recrutados a menos (ou a
mais) quando o valor de CV é estimado incorretamente como menor (maior) do que o verdadeiro valor.
De forma análoga, foi avaliada a má-especificação do valor de 𝜃𝛾 .

Para cada valor de 𝜃𝛾 os resultados podem ser organizados em uma matriz, colocando nas linhas os
valores reais de 𝐶𝑉 e nas colunas os valores de 𝐶𝑉 utilizados na fórmula do cálculo de 𝑛. O corpo da
tabela é a diferença entre o tamanho de amostra total que realmente deveria ser utilizado (2𝑛) e o que
foi obtido com o valor incorreto de 𝐶𝑉. Obviamente a diagonal principal é composta de zeros, acima
aparecem valores positivos (correspondendo a um valor de n maior do que o necessário) e abaixo
valores negativos (correspondendo a um valor de n menor do que o necessário).
Na Tabela 5.9 são apresentados os resultados para valores selecionados de 𝐶𝑉, apenas para o caso em
que 𝜃𝛾 = 0 e com poder de 80%.

Tabela 5.9 - Diferença entre o tamanho de amostra total (2𝑛)


correto e o calculado quando o valor de CV é mal-especificado

CV utilizado no cálculo do tamanho de amostra


CV real 2n 0,12 0,15 0,18 0,20 0,25 0,30 0,35 0,40 0,45 0,50
0,12 12 0 6 12 18 32 50 70 92 118 144
0,15 18 -6 0 6 12 26 44 64 86 112 138
0,18 24 -12 -6 0 6 20 38 58 80 106 132
0,20 30 -18 -12 -6 0 14 32 52 74 100 126
0,25 44 -32 -26 -20 -14 0 18 38 60 86 112
0,30 62 -50 -44 -38 -32 -18 0 20 42 68 94
0,35 82 -70 -64 -58 -52 -38 -20 0 22 46 74
0,40 104 -92 -86 -80 -74 -60 -42 -22 0 26 52
0,45 130 -118 -112 -106 -100 -86 -68 -46 -26 0 26
0,50 156 -144 -138 -132 -126 -112 -94 -74 -52 -26 0

Como esperado, quanto maior o valor de 𝐶𝑉, maior o número de voluntários necessários. Alguns casos
especiais merecem destaque:

1. 𝐶𝑉 = 0,12 (2𝑛 = 12 voluntários): refere-se ao mínimo de voluntários exigidos pela ANVISA


quando se tem informação sobre variabilidade. Se o CV verdadeiro for de 0,12 e for utilizado um valor
mais conservador, como 0,18, o tamanho da amostra dobra (2𝑛 = 24) e para 𝐶𝑉 = 0,50 o número
de voluntários é 12 vezes maior, naturalmente inviável na prática.

2. 𝐶𝑉 = 0,18 (2𝑛 = 24 voluntários): quando não se tem informação sobre o valor de 𝐶𝑉, pode-se
usar o número mínimo de 24 voluntários. Se o 𝐶𝑉 real for menor que 0,18, o tamanho da amostra
estará sendo superestimado. Entretanto, se o 𝐶𝑉 real for maior que 0,18, corre-se o risco de obter um
resultado não favorável à bioequivalência, além de diminuir muito o poder do teste.

3. 𝐶𝑉 = 0,50 (2𝑛 = 156 voluntários): fixar 𝐶𝑉 em 0,50 seria uma atitude bastante conservadora,
gerando um número elevado de voluntários, o que aumentaria muito o custo e dificultaria muito a
realização do estudo.

Na Figura 5.3 são apresentados os resultados do poder do teste que avalia a bioequivalência quando são
usados 12 voluntários por sequência em um planejamento crossover 2 x 2. Observa-se que a
recomendação da ANVISA só é válida quando o 𝐶𝑉 é menor que 18,1% (o que corresponde a 𝜎𝑑
menor que 0,18), já que o poder é de pelo menos 80%.

100

80

60
Poder

40

20

0
0,0 0,1 0,2 0,3 0,4 0,5 0,6
CV

Figura 5.3 - Poder do teste de bioequivalência em função de 𝐶𝑉 (𝑛1 = 𝑛2 = 12).

5.3.3 Considerações finais

Estudos de fármacos de alta variabilidade exigem número expressivo de participantes. Nesses casos,
naturalmente haverá necessidade de maior número de voluntários para “diluir” possíveis diferenças
entre os produtos (𝑅 e T), já que características de alta variabilidade podem causar a conclusão de não
equivalência, mesmo que eles sejam verdadeiramente equivalentes. Assim, realizar o estudo de
bioequivalência com número inferior ao necessário seria temerário e poderia resultar na repetição do
estudo, o que acabaria sendo mais oneroso do que a execução do estudo com o número suficiente.

Como as ordens de grandeza das medidas 𝐴𝑆𝐶 e 𝐶𝑚𝑎𝑥 são bastante diferentes, boa opção como medida
de variabilidade é usar o 𝐶𝑉. A partir dos resultados de estudos das simulações referentes à
comparação da conclusão de bioequivalência para 𝐶𝑚𝑎𝑥 , 𝐴𝑆𝐶, ou ambas, observa-se que na maioria
absoluta das vezes 𝐶𝑚𝑎𝑥 é a medida de maior variabilidade comparada à 𝐴𝑆𝐶. Assim, de modo geral,
o número de voluntários calculado a partir do 𝐶𝑉 da variável 𝐶𝑚𝑎𝑥 é maior que o calculado utilizando-
se o 𝐶𝑉 da variável 𝐴𝑆𝐶.

Em resumo, para o dimensionamento de amostras de estudos de bioequivalência, é aconselhável


basear-se na medida de maior variabilidade, em geral 𝐶𝑚𝑎𝑥 , além de empregar o método considerado
padrão-ouro. Em situações de incerteza da variabilidade, seria recomendável, sempre que possível,
recrutar mais voluntários que o número calculado para o 𝐶𝑉 do fármaco estudado. Entretanto, assumir
posição extremamente conservadora pode acarretar aumento desnecessário no número de participantes
do estudo e, por questões de custo e/ou dificuldades, na prática pode se tornar inviável. Portanto,
o ideal é fazer o cálculo apropriado do tamanho da amostra, de quantos participantes são realmente
necessários.

5.4 Recursos computacionais para os cálculos do tamanho da amostra


e/ou do poder

Várias fórmulas fechadas de tamanho de amostra do capítulo foram programadas em planilhas Excel® e
encontram-se disponíveis para os leitores (ver informações na apresentação do livro; os exemplos com
fórmulas programadas estão sinalizados por ╬╬ ).

Alternativamente, alguns cálculos de tamanho de amostra e/ou do poder dos testes discutidos ou
relacionados ao assunto do capítulo podem ser obtidos pelos seguintes softwares/programas citados no
capítulo 11: Pass® e nQuery Advisor®. Para estudos de bioequivalência, destaca-se o nQuery Advisor®,
que utiliza o método padrão-ouro (ver seção 5.3), mas é restrito ao planejamento crossover 2x2,
enquanto que o software Pass® pode ser utilizado no dimensionamento para mais tipos de
planejamentos e modelos em estudos de bioequivalência.
6.1 Introdução

Frequentemente, em várias áreas, em especial na área biológica e médica, tem-se o interesse em estudar
a relação entre duas ou mais variáveis. Procura-se estudar uma tendência. O objetivo do estudo de
correlação é descobrir se há relação entre duas ou mais variáveis. A variação conjunta de duas
variáveis pode ser visualizada a partir do diagrama de dispersão. De forma mais geral, a técnica
estatística padrão para o estudo entre a relação de variável é chamada análise de regressão.

Em análise de regressão, estuda-se como uma variável de interesse - a variável resposta (𝑌) - pode ser
"entendida" a partir de determinadas variáveis - as variáveis explicativas (𝑋1 , 𝑋2 , ⋯ 𝑋𝑘 ) - que também
são denominadas covariáveis ou preditores.

Os modelos de regressão podem ser classificados como simples (quando só há uma variável
explicativa) ou múltipla (caso de várias variáveis explicativas). Para modelos de regressão simples, os
dados são pares de números; genericamente para n indivíduos, os dados são: (𝑥1 ,𝑦1 ), (𝑥2 ,𝑦2 ), ⋯,
(𝑥𝑛 ,𝑦𝑛 ). Para regressão múltipla, será necessário estender a notação, o que será feito posteriormente.

Em geral, o objetivo de aplicação de modelos de regressão é avaliar a significância de variáveis


explicativas ou fazer previsões.

Há vários tipos de regressão, dependendo da variável resposta. As variáveis explicativas podem ser de
qualquer tipo (por exemplo, binária, ordinal, contínua). O Quadro 6.1 apresenta um resumo dos
modelos de regressão mais comuns.

Quadro 6.1 - Modelos de regressão mais comuns por tipo de variável resposta
Tipo de variável resposta (𝑌) Modelo de regressão
Normal ou gaussiana Linear*
Normal ou gaussiana Não linear*
Binária Logística
Multinomial Logística
Ordinal Logística
Poisson de Poisson
Tempo até a ocorrência de um evento de riscos proporcionais (de Cox)
*Dependendo da forma funcional, sujeito à verificação de ajuste do modelo

Para o dimensionamento de amostras neste contexto aparecem dificuldades, já que na prática, em geral,
há covariáveis envolvidas no estudo e inicialmente não se sabe quais são as realmente importantes.
Além disso, há também o problema da multicolinearidade entre as covariáveis, além das dificuldades
inerentes a modelos de regressão. Assim, para o cálculo de tamanho de amostra, normalmente há
necessidade de simplificações, como comentado nas próximas seções. Naturalmente, há especificidades
a cada tipo de modelo de regressão.

Este capítulo trata do dimensionamento de amostras para estudos envolvendo análise de correlação e
regressão linear bem como ajuste de modelos de regressão logística (para resposta binária e ordinal) e
de Poisson. Em alguns casos, serão considerados regressão simples e múltipla. O dimensionamento
para o caso do modelo de Cox será tratado no capítulo 7.

Para cada tipo de modelo, há especificidades no cálculo do tamanho de amostra e do poder.


Outra solução para o cálculo do tamanho de amostra no contexto de modelos de regressão seria via
modelos lineares generalizados, assunto tratado no capítulo 10.

Para cada modelo de regressão considerado, são apresentadas as informações básicas para facilitar
o entendimento das fórmulas do dimensionamento de amostras e das notações empregadas.
Detalhes técnicos sobre os modelos, em geral fundamentais no dimensionamento da amostra, devem
ser sempre consultados na literatura especializada. Referências sobre os modelos de regressão que
foram tratados no capítulo são fornecidas ao longo do texto.
6.2 Correlação e regressão linear

O estudo de associação entre duas variáveis (𝑌 e 𝑋) pode ser feito por meio de análise de correlação ou
de regressão, no caso, regressão linear simples. Situação mais comum na prática é o estudo do efeito de
diversas variáveis explicativas na variável resposta em vez de apenas uma variável explicativa, como
na regressão linear simples.

Os modelos de regressão linear relacionam uma variável resposta contínua (𝑌) com uma ou várias
variáveis explicativas (representada por um vetor 𝑥 de dimensão 𝑘 ≥ 1), por meio da determinação de
uma equação linear. Nela a constante, ou o intercepto, representa o valor basal, comum a todos
os indivíduos, e os coeficientes representam o efeito em 𝑌 do incremento de uma unidade
em 𝑥𝑖 , 𝑖 = 1, . . . 𝑘.

Dupont e Plummer (1998) apresentam métodos para cálculos de tamanho de amostra (𝑛) e poder para o
caso de uma única regressão linear simples ou duas retas de regressão. Mostram claramente como o
grau de dispersão dos valores da resposta em torno da reta de regressão afeta os cálculos do poder e do
tamanho de amostra. As aplicações estão relacionadas à avaliação do efeito de uma variável em outra
por meio da estimativa da reta de regressão e também quando o interesse é contrastar duas retas de
regressão. Os métodos valem tanto para estudos observacionais como experimentais.

Apresentam a equação geral do poder e do tamanho de amostra e particularizam para os dois casos
citados. Como são função de percentis da distribuição 𝑡 de Student, o cálculo do tamanho de amostra
(𝑛) depende dos graus de liberdade, que por sua vez dependem de 𝑛. Assim, não há uma fórmula
fechada exigindo alguma programação e serão omitidos nesta seção.

A seguir será apresentado um método simples que tem fórmula fechada cuja fonte é o artigo de
Hsieh et al. (1998).

6.2.1 Correlação e regressão linear simples

Inicialmente são consideradas duas variáveis: 𝑌 e 𝑋. Há duas maneiras de analisar associação entre
duas variáveis quantitativas: análise de correlação e análise de regressão. A correlação teórica entre 𝑌 e
𝑋 será denotada por 𝜌 e a notação para a correlação estimada a partir de uma amostra de tamanho
𝑛 será 𝑟.
O coeficiente de correlação de Pearson (𝑟) depende da covariância entre 𝑋 e 𝑌,
(𝑥𝑖− 𝑥̅ )(𝑦𝑖 −𝑦̅)
𝑐𝑜𝑣 (𝑋, 𝑌) = ∑𝑛𝑖=1 , mas de forma padronizada, isto é, dividindo-se pelos desvios-padrão de
𝑛−1
𝑐𝑜𝑣 (𝑋,𝑌) ∑𝑛
𝑖=1(𝑥𝑖 −𝑥̅ )(𝑦𝑖 −𝑦
̅) ∑𝑛 ̅
𝑖=1 𝑥𝑖 𝑦𝑖 −𝑛𝑥̅ 𝑦
𝑋 (𝑠𝑥 ) e de 𝑌 (𝑠𝑦 ). Assim, 𝑟 é definido por: 𝑟 = = = =
𝑠𝑥 𝑠𝑦 (𝑛−1)𝑠𝑥 𝑠𝑦 (𝑛−1)𝑠𝑥 𝑠𝑦

𝑛 ∑𝑛 𝑛 𝑛
𝑖=1 𝑥𝑖 𝑦𝑖 −(∑𝑖=1 𝑥𝑖 )(∑𝑖=1 𝑦𝑖 )
2 2
.
√[𝑛 ∑𝑛 2 𝑛 𝑛 2 𝑛
𝑖=1 𝑥𝑖 −(∑𝑖=1 𝑥𝑖 ) ][𝑛 ∑𝑖=1 𝑦𝑖 −(∑𝑖=1 𝑦𝑖 ) ]

A forma do modelo de regressão linear simples é da equação de uma reta escrita como
𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝜀. Neste modelo, 𝛽0 é o coeficiente linear, 𝛽1 é o coeficiente angular e ε é o erro
aleatório. Em geral, supõe-se que 𝜀 tenha distribuição normal com média zero e desvio-padrão 𝜎,
que pode ser estimado a partir dos dados, e que os erros sejam independentes. A suposição mais
comum (e adotada nesta seção) é a de igualdade de variância (𝜎 2 ) para todos os participantes do
estudo, pressuposto conhecido como homocedasticidade. A violação dessa suposição pode ser séria e,
quando isso ocorrer, deve-se utilizar algum procedimento apropriado, por exemplo, o uso de
transformação ou fazer um ajuste conveniente.

Em um modelo de regressão linear simples quer-se avaliar se há efeito da variável explicativa (𝑋) na
variável resposta (𝑌). Tecnicamente, isso equivale a testar 𝐻0 : 𝛽1 = 0 versus 𝐻1 : 𝛽1 ≠ 0.

Pode-se mostrar que há a seguinte relação entre a correlação 𝜌 e o coeficiente angular (𝛽1) além dos
desvios-padrão de 𝑌 (𝜎𝑌 ) e de 𝑋 (𝜎𝑋 ): 𝜌 = 𝛽1 𝜎𝑋 /𝜎𝑌 . Como tipicamente 𝜎𝑋 /𝜎𝑌 ≠ 0, 𝜌 = 0 se e somente
se 𝛽1 = 0. Quando tanto 𝑋 como 𝑌 forem variáveis padronizadas, testar a hipótese 𝐻0 : 𝜌 = 0 é
equivalente a testar a hipótese 𝐻0 : 𝛽1 = 0 e, consequentemente, os tamanhos de amostra nos dois casos
são os mesmos.

6.2.2 Tamanho de amostra para teste de correlação e regressão linear simples

Seja 𝑟 o coeficiente de correlação de Pearson estimado entre 𝑋 e 𝑌. A fórmula para o cálculo do


tamanho da amostra para testar 𝐻0 : 𝜌 = 0 versus 𝐻0 : 𝜌 = 𝑟, que tem seu desenvolvimento em Sokal e
Rohlf (1995) e é apresentada em Hsieh et al. (1998), é dada por:

(𝑧1−𝛼/2 + 𝑧1−𝛽 )2
𝑛(1) = 2 +3
1 1+𝑟 (6.1)
(2 𝑙𝑜𝑔 (1 − 𝑟))
Na fórmula (6.1), 𝛼 é o nível de significância, (1 − 𝛽) é o poder do teste, sendo 𝑧1−𝛼/2 e 𝑧1−𝛽
percentis da distribuição normal padrão de ordem (1 − 𝛼/2)100% e (1 − 𝛽)100%. O índice 1 em
𝑛(1) indica que no modelo de regressão há apenas uma variável explicativa. A função 𝑙𝑜𝑔 indica o
logaritmo na base natural, às vezes denotado por 𝑙𝑛. Note-se que 𝑛(1) é o total de indivíduos do estudo.
O desejável é ter o mesmo número de indivíduos (observações) para cada nível de 𝑋, em todo intervalo
de valores plausíveis. Na prática, é comum ter menos observações nos extremos do intervalo, o que
pode levar à sub ou superestimação do efeito. Outro ponto importante no planejamento é como
distribuir as 𝑛(1) amostras para os possíveis valores de 𝑋. Alguns comentários podem ser encontrados
na literatura especializada, como em Draper e Smith (1998) e Kutner et al. (2004), entre outros.

Em geral, os coeficientes do modelo (𝛽0 e 𝛽1 ) são estimados pelo método de míninos quadrados.
∑𝑛
𝑖=1(𝑥𝑖 −𝑥̅ )(𝑦𝑖 −𝑦
̅)
Fazendo 𝑛(1) = 𝑛, para os dados (𝑥1 ,𝑦1 ), (𝑥2 ,𝑦2 ), ⋯, (𝑥𝑛 ,𝑦𝑛 ), as soluções são: 𝛽̂1 = ∑𝑛 2
e
𝑖=1(𝑥𝑖 −𝑥̅ )

∑ 𝑛 ∑ 𝑛
𝑥𝑖 𝑦𝑖
𝛽̂0 = 𝑦̅ − 𝛽̂1 , sendo 𝑥̅ = 𝑖=1 , 𝑦̅ = 𝑖=1 . Há uma relação matemática entre o coeficiente angular (𝛽̂1)
𝑛 𝑛
𝑛
∑ (𝑦𝑖 −𝑦̅) 2
e o coeficiente de correlação de Pearson (𝑟), que é dada por 𝛽̂1 = √ ∑𝑖=1
𝑛 (𝑥 −𝑥̅ )2 𝑟.
𝑖=1 𝑖

Exemplo 6.1 - Efeito do coeficiente de correlação no tamanho de amostra ╬╬

A Tabela 6.1 mostra o tamanho de amostra (𝑛(1) ) utilizando a fórmula (6.1) para vários valores de
coeficiente de correlação (𝑟) e para dois valores de poder (90% e 95%) e quando o nível de
significância é fixado em 5%. Para exemplificar a aplicação da fórmula, para 𝑟 = 0,25 e poder igual a
(𝑧1−𝛼/2 +𝑧1−𝛽 )2 (1,9600+1,2816)2
90%, 𝑛(1) = 1 1+𝑟
2 + 3 = (0,5 𝑙𝑜𝑔(1,25/0,75))2 + 3 = 164,07 ≈ 165.
( 𝑙𝑜𝑔( ))
2 1−𝑟

Além do esperado aumento do tamanho de amostra correspondente ao poder de 95%, comparado ao de


90%, pode-se notar que à medida que 𝑟 aumenta, 𝑛(1) diminui, sendo que a diminuição é bastante
acentuada. Por exemplo, fixando o poder em 90%, o tamanho de amostra para o caso em que 𝑟 = 0,10
é cerca de nove vezes maior que quando 𝑟 = 0,30.
Tabela 6.1 - Tamanhos de amostras, 𝑛(1) , obtidos pela fórmula (6.1), para vários valores de coeficientes
de correlação de Pearson (𝑟), para dois valores de poder (90% e 95%) e nível de significância de 5%

𝑟 𝑛(1) (poder = 90%) 𝑛(1) (poder = 95%)


0,10 1.047 1.294
0,15 463 572
0,20 259 320
0,25 165 203
0,30 113 139
0,35 82 101
0,40 62 76
0,45 48 59
0,50 38 47
0,55 31 37
0,60 25 31
0,65 21 25
0,70 17 21
0,75 15 17
0,80 12 14

6.2.3 Regressão linear múltipla

Considere-se agora a variável resposta (𝑌) e duas ou mais (𝑘 ≥ 2) variáveis explicativas


(𝑋1 , 𝑋2 , ⋯ , 𝑋𝑘 ), que podem ser quantitativas ou categóricas (nominais ou ordinais). A forma do modelo
de regressão linear múltipla é uma extensão natural do modelo de regressão linear simples e é dada por
𝑦 = 𝛽₀ + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝑘 𝑥𝑘 + 𝜀. No modelo 𝛽₀ é a constante, 𝛽1, 𝛽2,⋯, 𝛽𝑘 são os coeficientes
do modelo correspondentes às variáveis explicativas e 𝜀 é o erro aleatório.

Para a realização de testes de hipóteses e construção de intervalos de confiança envolvendo os


parâmetros do modelo, em geral, supõe-se que 𝜀 tenha distribuição 𝑁(0, 𝜎 2 ), sendo que a variância 𝜎 2
pode ser estimada a partir dos dados e que os erros são independentes.

Para uma amostra de 𝑛 indivíduos, uma forma mais prática é escrever o modelo anterior na seguinte
forma matricial: 𝒀 = 𝑿𝜷 + 𝜺, sendo 𝒀 um vetor de dimensão (𝑛 × 1) das observações da variável
resposta; 𝑿 é uma matriz de dimensão (𝑛 × 𝑘) de forma conhecida envolvendo as variáveis
explicativas; 𝜷 é um vetor de dimensão (𝑘 × 1) dos parâmetros; 𝜺 é um vetor de dimensão (𝑛 × 1) dos
erros aleatórios. O estimador para 𝜷, obtido pelo método de mínimos quadrados, é dado por:
̂ = (𝑿´𝑿)−1 𝑿´𝒀.
𝜷
Um ponto importante no contexto de análise de regressão é a seleção do modelo, isto é, a escolha das
covariáveis que vão entrar no modelo e a forma funcional das covariáveis, se na escala original ou
transformada, por exemplo, a logarítmica.

É errônea a ideia de que quanto mais covariáveis entrarem no modelo, melhor será. Embora
a explicação realmente aumente à medida que as variáveis sejam incluídas, o desvio-padrão
(estimativa de 𝜎) também é inflacionado. Portanto, é necessário ter um balanço entre boa explicação e
um desvio-padrão que não seja “grande”.

Existem vários procedimentos para a escolha das covariáveis que devem entrar no modelo, com
destaque para três deles: a) construir todos os possíveis modelos com uma, duas, três, etc. covariáveis e
escolher o “melhor” modelo seguindo algum critério. O problema é que existem (2𝑘 − 1) possíveis
modelos, o que é inviável em muitos casos. Por exemplo, se 𝑘 = 10, existem 1023 possíveis modelos;
b) método do tipo stepwise: procedimento forward ou backward; c) método de construção baseado "na
experiência", com introdução no modelo das variáveis que sabidamente são importantes, utilizando
algum conhecimento da área, por tentativa, etc. Existe vasta literatura sobre o assunto. Detalhes sobre
estratégias de construção de modelos estão disponíveis em livros sobre regressão.

Finalmente, é de fundamental importância a verificação da adequacidade do modelo (goodness of fit).


É baseada na análise de resíduos, em testes específicos de ajustamento, diagnóstico para identificação
de possíveis outliers e pontos influentes.

Detalhes adicionais sobre modelos de regressão linear podem ser encontrados, por exemplo, em Draper
e Smith (1998), Vittinghoff et al. (2012) e Vach (2013).

De certa forma, a maneira de construção do modelo e todos os comentários feitos têm impacto no
cálculo do tamanho da amostra. Na verdade, é uma dificuldade adicional, já que, naturalmente, antes de
coletar os dados não é possível saber qual será o modelo de regressão final. Na prática, dificilmente
consegue-se incorporar toda a complexidade, sendo, portanto, necessário simplificar alguns aspectos da
modelagem. Uma possível sugestão é concentrar-se nas variáveis sabidamente essenciais.

6.2.4 Tamanho de amostra em regressão linear múltipla

No livro clássico de Cohen (1988), a metodologia para o cálculo de tamanhos das amostras no contexto
de modelos de regressão linear leva em conta o parâmetro de não centralidade da distribuição 𝐹, sob a
hipótese alternativa, os graus de liberdade do numerador e do denominador dessa distribuição, o poder
do teste e seu nível de significância. O livro apresenta diversas tabelas, cobrindo relativamente vasta
gama de valores desses determinantes do tamanho da amostra. De qualquer forma, por mais completa
que uma tabela seja, seu uso é absolutamente limitante, já que sempre haverá um caso não
contemplado. É mais interessante ter disponível uma fórmula para o cálculo, melhor ainda, algum
software específico, como discutido no capítulo 11.

A seguir apresenta-se um método de cálculo de tamanho de amostra bem simples, descrito por
Hsieh et al. (1998), que consiste em utilizar a correlação parcial. De forma genérica, entende-se por
correlação parcial uma medida da correlação entre duas variáveis quando se exclui o efeito, sobre
estas, de uma terceira variável.

Partindo do modelo de regressão linear simples (diga-se 𝑋1), ao se adicionar (𝑘 − 1) variáveis


explicativas, tal que o coeficiente de correlação parcial seja 𝜌1.23⋯𝑘 , o tamanho de amostra necessário
para se testar 𝐻0 : (𝛽1 , 𝛽2 , ⋯ , 𝛽𝑘 ) = (0, 𝛽2 , ⋯ , 𝛽𝑘 ) contra a alternativa 𝐻1 : (𝛽1 , 𝛽2 , ⋯ , 𝛽𝑘 ) =
(𝛽 ∗ , 𝛽2 , ⋯ , 𝛽𝑘 ) é dado por:

𝑛(1)
𝑛(𝑘) = (6.2)
1 − (𝜌1.23⋯𝑘 )2

O inverso do denominador de (6.2), 1/(1 − (𝜌1.23⋯𝑘 )2 ), é conhecido como VIF, abreviatura de


variance inflation factor. Esse fator de inflação da variância está relacionado à multicolinearidade,
problema comum em análise de regressão. O VIF é um índice que mede quanto a variância do
coeficiente da regressão aumenta por causa da colinearidade.

Se já há 𝑞 covariáveis no modelo e quer-se expandir o modelo incluindo 𝑘 > 𝑞 variáveis explicativas,


o raciocínio será análogo: basta corrigir pela correlação parcial 𝜌(1.𝑞+1⋯,𝑘)(23⋯𝑘) entre 𝑋1 e
𝑋𝑞+1 , ⋯ , 𝑋𝑘 , mantendo fixas as demais covariáveis (𝑋2 , ⋯ , 𝑋𝑞 ) . Neste caso, o tamanho da amostra é:

𝑛(𝑞)
𝑛(𝑘) = (6.3)
1 − (𝜌1.𝑞+1⋯,𝑘)(23⋯𝑘 )2
Exemplo 6.2 - Impacto do 𝑽𝑰𝑭 no tamanho da amostra em modelo de regressão linear com duas
variáveis explicativas ╬╬

Supondo que a correlação entre a variável resposta (𝑌) e uma variável explicativa (𝑋1) seja 0,45,
fixando o nível de significância em 5% e o poder em 90%, usando a fórmula (6.1), a conclusão é de
que o tamanho da amostra necessário é de 48 (𝑛(1) = 48).

A Tabela 6.2 mostra o tamanho de amostra após incorporar nova variável explicativa (𝑋2) para vários
valores de correlação parcial entre 𝑋1 e 𝑋2. Por exemplo, se a correlação parcial entre 𝑋1 e 𝑋2 for
48 48
𝜌1.2 = 0,60, pela fórmula (6.2), 𝑛(2) = 1−(0,60)2 = 0,64 ≅ 75. Com a segunda covariável no modelo,
1
correspondendo a 𝑉𝐼𝐹 = 0,64 = 1,56, haverá aumento de 75 − 48 = 27 participantes em relação ao

modelo com apenas uma covariável (𝑋1).

Tabela 6.2 - Tamanho de amostra, 𝑛(2) , obtido pela fórmula (6.2), para vários valores de correlação
parcial entre 𝑋1 e 𝑋2 (𝜌1.2 ), considerando-se 𝑛(1) = 48, nível de significância de 5% e poder de 90%

1 48
𝜌1.2 𝑉𝐼𝐹 = 𝑛(2) =
1 − (𝜌1.2 )2 1 − (𝜌1.2 )2
0,10 1/(1 − (0,10)2 ) = 1/0,99 = 1,01 𝑛(2) = 48/0,99 = 48,48 ≅ 49
0,15 1/(1 − (0,15)2 ) = 1/0,98 = 1,02 𝑛(2) = 48/0,98 = 48,98 ≅ 49
0,20 1/(1 − (0,20)2 ) = 1/0,96 = 1,04 𝑛(2) = 48/0,96 = 50,00 ≅ 50
0,25 1/(1 − (0,25)2 ) = 1/0,94 = 1,06 𝑛(2) = 48/0,94 = 51,06 ≅ 52
0,30 1/(1 − (0,30)2 ) = 1/0,91 = 1,10 𝑛(2) = 48/0,91 = 52,75 ≅ 53
0,35 1/(1 − (0,35)2 ) = 1/0,88 = 1,14 𝑛(2) = 48/0,88 = 54,55 ≅ 55
0,40 1/(1 − (0,40)2 ) = 1/0,84 = 1,19 𝑛(2) = 48/0,84 = 57,14 ≅ 58
0,45 1/(1 − (0,45)2 ) = 1/0,80 = 1,25 𝑛(2) = 48/0,80 = 60,00 ≅ 60
0,50 1/(1 − (0,50)2 ) = 1/0,75 = 1,33 𝑛(2) = 48/0,75 = 64,00 ≅ 64
0,55 1/(1 − (0,55)2 ) = 1/0,70 = 1,43 𝑛(2) = 48/0,70 = 68,57 ≅ 69
0,60 1/(1 − (0,60)2 ) = 1/0,64 = 1,56 𝑛(2) = 48/0,64 = 75,00 ≅ 75
0,65 1/(1 − (0,65)2 ) = 1/0,58 = 1,72 𝑛(2) = 48/0,58 = 82,76 ≅ 83
0,70 1/(1 − (0,70)2 ) = 1/0,51 = 1,96 𝑛(2) = 48/0,51 = 94,12 ≅ 95
0,75 1/(1 − (0,75)2 ) = 1/0,44 = 2,27 𝑛(2) = 48/0,44 = 109,09 ≅ 110
0,80 1/(1 − (0,80)2 ) = 1/0,36 = 2,78 𝑛(2) = 48/0,36 = 133,33 ≅ 134
A Figura 6.1 mostra que à medida que a correlação parcial entre 𝑋1 e 𝑋2 (𝜌1.2 ) aumenta, 𝑛(2) cresce de
forma substantiva e não linear, enquanto que à medida que 𝑉𝐼𝐹 cresce, 𝑛(2) cresce de forma linear.

(a) 𝑛(2) em função de 𝜌1.2 (b) 𝑛(2) em função de 𝑉𝐼𝐹


140

130

120

110

100
n(2)
90

80

70

60

50

0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8


ρ1.2

Figura 6.1 - Gráfico de dispersão: (a) tamanho de amostra, 𝑛(2) , em função da correlação parcial
entre 𝑋1 e 𝑋2 (𝜌1.2 ); (b) tamanho de amostra, 𝑛(2) , em função de 𝑉𝐼𝐹.

6.3 Regressão logística (resposta binária)

Regressão logística é hoje padrão de análise para muitos estudos da área da saúde cuja variável
resposta é binária, por exemplo: o paciente tem ou não tem a doença; o indivíduo foi ou não exposto ao
fator de risco; o tratamento produziu ou não o efeito desejado.

Em geral, o objetivo de análise de regressão logística é testar o efeito de uma covariável específica,
possivelmente na presença de outras covariáveis, em uma variável resposta binária.

A técnica de regressão logística é utilizada em análise de planejamentos tradicionais, tais como estudos
de coorte, de caso-controle e transversais. É também empregada em ensaios clínicos controlados, como
estudos de não inferioridade e ainda em estudos especiais, como avaliação de concordância e acurácia
de procedimentos laboratoriais.

6.3.1 Modelo de regressão logística com uma variável explicativa

Seja 𝑌 uma variável binária, assumindo valores 0 e 1. O modelo logístico especifica que a
probabilidade da ocorrência do evento de interesse (𝑝) depende da variável explicativa (𝑋) dada pela
𝑒𝑥𝑝{𝛽 +𝛽1 𝑥}
seguinte expressão: 𝑝 = Pr(𝑌 = 1|𝑋 = 𝑥) = 1+𝑒𝑥𝑝{𝛽0 . A probabilidade do evento complementar,
0 +𝛽1 𝑥}

1
isto é, a não ocorrência do evento de interesse (𝑞 = 1 − 𝑝) é 𝑞 = Pr(𝑌 = 0|𝑋 = 𝑥) = 1+𝑒𝑥𝑝{𝛽 .
0 +𝛽1 𝑥}

𝑝
A forma mais popular de escrever o modelo de regressão logística com uma covariável é 𝑙𝑜𝑔 (1−𝑝) =

𝛽0 + 𝛽1 𝑥. O símbolo 𝑙𝑜𝑔 que aparece no modelo representa logaritmo na base natural e poderia ser
𝑝
indicado por 𝑙𝑛. A expressão 𝑙𝑜𝑔 (1−𝑝) é chamada de logito e, usando a linguagem do capítulo 3,

é o logaritmo da chance (odds). Trata-se de uma escala mais apropriada para a expressão da relação
entre a probabilidade de sucesso e a variável explicativa. Note-se que é uma transformação monotônica
em 𝑝. Assim, se 𝛽1 > 0, quanto maior o valor da covariável 𝑥, que pode ser discreta ou contínua, maior
será 𝑝, a probabilidade da ocorrência de evento de interesse. Quando 𝛽1 < 0, ocorre relação inversa.

Na prática, coletam-se os dados (𝑦 e 𝑥) e então os parâmetros 𝛽0 e 𝛽1, necessários para os cálculos das
probabilidades 𝑝 e 𝑞, são estimados, em geral, pelo método da máxima verossimilhança.

Se a covariável for binária (diga-se, assumindo valores 0 e 1), como a variável resposta do modelo
regressão logística também é binária, os dados reduzem-se a uma tabela de contingência de dimensão
2 × 2, situação em que é comum o cálculo de odds ratio (𝑂𝑅) comparando a odds do grupo em que
𝑥 = 1 com o de 𝑥 = 0. Neste caso, é fácil comprovar a seguinte relação: 𝑙𝑜𝑔(𝑂𝑅) = 𝛽1.

Já no caso em que a covariável é quantitativa (contínua ou discreta ordenável), a interpretação do


coeficiente 𝛽1 é quanto o logito aumenta (diminui) para cada acréscimo de 𝑥, quando o coeficiente é
positivo (negativo). De forma mais explícita, considere-se um indivíduo 𝑈1 com o valor da variável
explicativa 𝑥1 . Sua odds é dada por 𝑒𝑥𝑝{𝛽0 + 𝛽1 𝑥1 }. Considerando agora um segundo indivíduo 𝑈2 ,
identificado pelo valor da variável explicativa 𝑥1 + 1, significando que 𝑈2 difere de 𝑈1 por exatamente
uma unidade - por exemplo, se 𝑥 é a idade, os dois indivíduos têm diferença de um ano de idade.
A odds do indivíduo 𝑈2 é dada por 𝑒𝑥𝑝{𝛽0 + 𝛽1 (𝑥₁ + 1)}. Assim, a razão da chance do indivíduo 𝑈2
pela chance do indivíduo 𝑈1 é então dada por 𝑂𝑅𝑈2 ,𝑈1 = 𝑒𝑥𝑝{𝛽1 } e 𝑂𝑅𝑈1 ,𝑈2 = 𝑒𝑥𝑝{−𝛽1 }.

6.3.2 Modelo de regressão logística múltipla

𝑝
Na presença de 𝑘 ≥ 2 variáveis explicativas (𝑥1 , 𝑥2 , ⋯ 𝑥𝑘 ), o modelo logístico é dado por 𝑙𝑜𝑔 (1−𝑝) =

𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝑘 𝑥𝑘 . Denotando 𝒙 = (𝑥1 , 𝑥2 , ⋯ 𝑥𝑘 ) o vetor de variáveis explicativas,


𝑝(𝒙)
o modelo de regressão é escrito como 𝑙𝑜𝑔 (1−𝑝(𝒙)) = 𝛽0 + ∑𝑘𝑗=1 𝛽𝑗 𝑥𝑗 , sendo 𝑝(𝒙) = 𝑃𝑟(𝑌 = 1|𝒙).

A teoria estatística mostra que, assintoticamente, os estimadores de máxima verossimilhança para os


parâmetros da regressão logística têm distribuição normal. Este resultado permite que a construção do
intervalo de confiança para o parâmetro 𝛽𝑗 (𝑗 = 1, ⋯ , 𝑘) siga os mesmos passos necessários para a
construção de intervalos de confiança para a média de uma distribuição normal. Para os cálculos são
necessárias as estimativas do coeficiente 𝛽𝑗 e seu respectivo desvio-padrão 𝐷𝑃(𝛽̂𝑗 ) disponíveis em
qualquer saída de programa de computador de regressão logística. O intervalo com (1 − 𝛼)100% de
confiança é dado por 𝛽̂𝑗 ± 𝑧1−𝛼/2 𝐷𝑃(𝛽̂𝑗 ), sendo 𝑧1−𝛼/2 o percentil de ordem (1 − 𝛼/2)100% da
distribuição normal padrão. A razão de chances (𝑂𝑅𝑗 ) correspondente à covariável 𝑥𝑗 é igual a 𝑒𝑥𝑝{𝛽𝑗 }.
E para calcular o correspondente intervalo de confiança para 𝑂𝑅𝑗 , basta exponenciar os limites do
intervalo de confiança para 𝛽̂𝑗 .

Para testar a significância das covariáveis (ou equivalentemente a significância dos coeficientes do
modelo), os testes de Wald, da razão de verossimilhanças e do escore são os mais comumente
implementados em softwares estatísticos.

Uma situação mais complexa acontece na presença de interação entre as covariáveis. Detalhes
adicionais sobre o modelo de regressão logística podem ser encontrados em Collett (2003),
Hilbe (2009) e Hosmer et al. (2013).

6.3.3 Tamanho de amostra em modelos de regressão logística

Na aplicação de regressão logística, questão relevante que aparece na prática é sobre o


dimensionamento de amostras. Não há consenso no enfoque nos cálculos neste contexto, vários
trabalhos utilizam diversos tipos de aproximações e diferentes soluções. Alguns autores sugerem o uso
do teste da razão de verossimilhanças, enquanto outros, o teste de Wald. O argumento para o uso do
último teste é ser rotineiramente utilizado para a significância dos coeficientes do modelo de regressão.

Além disso, a natureza não linear do modelo de regressão logística torna o cálculo do tamanho de
amostra complicado, assim, às vezes métodos aproximados são adotados.

Whittemore (1981) propõe uma fórmula de calcular o tamanho de amostra (𝑛) para regressão logística,
derivada da matriz de informação, apropriada quando a probabilidade da resposta é baixa. Inicialmente
apresenta o caso do modelo com apenas uma covariável (𝑘 = 1) seguido do caso geral, com duas ou
mais covariáveis.

Hsieh (1989) simplifica a fórmula de Whittemore (1981) e apresenta tabelas construídas a partir de
extensão para situações mais gerais. Embora as tabelas não sejam adequadas quando as covariáveis têm
distribuição exponencial dupla, são razoáveis para as distribuições normal e exponencial.

Hsieh et al. (1998) apresentam um método simples com fórmula fechada, baseado em uma matriz de
informação, para aproximar o tamanho de amostra em modelo de regressão logística simples com
covariável contínua ou binária. Diferentemente dos dois trabalhos anteriores (WHITTEMORE, 1981;
HSIEH, 1989), o método de Hsieh et al. (1998) não exige o pressuposto de que a probabilidade da
resposta seja baixa.

Segundo Hsieh et al. (1998), no caso de apenas uma covariável (𝑘 = 1) contínua com distribuição
normal e variâncias supostamente iguais nos dois grupos correspondentes às duas possíveis respostas
(𝑌 = 0,1), o logaritmo da odds do coeficiente 𝛽1 é zero se e somente se as médias dos grupos são
iguais. Assim, as fórmulas de tamanhos de amostra para médias baseadas no teste 𝑡 podem ser
utilizadas. Para testar as hipóteses, 𝐻0 : 𝛽1 = 0 versus 𝐻1 : 𝛽1 = 𝛽1∗ , usando a aproximação pela
distribuição normal, o tamanho da amostra é dado por:

(𝑧1−𝛼/2 +𝑧1−𝛽 )2
𝑛(1) = (6.4)
𝑝1 (1 − 𝑝1 )(𝛽1∗ )2

Na fórmula (6.4), 𝛼 é o nível de significância e (1 − 𝛽) é o poder do teste; 𝑧1−𝛼/2 e 𝑧1−𝛽 são os


percentis de ordem (1 − 𝛼/2)100% e (1 − 𝛽)100% da distribuição normal padrão; 𝑝1 = 𝑃𝑟(𝑌 = 1)
para o valor médio de 𝑋 e 𝛽1∗ é uma constante especificada.

Para o caso geral de regressão múltipla envolvendo 𝑘 covariáveis, o interesse pode ser testar a hipótese
nula 𝐻0 : (𝛽1 , 𝛽2 , ⋯ , 𝛽𝑘 ) = (0, 𝛽2 , ⋯ , 𝛽𝑘 ) contra a alternativa 𝐻1 : (𝛽1 , 𝛽2 , ⋯ , 𝛽𝑘 ) = (𝛽 ∗ , 𝛽2 , ⋯ , 𝛽𝑘 ).
Seja 𝛽̂1 o estimador de máxima verossimilhança de 𝛽1. No caso de covariáveis contínuas com
distribuição normal, pode-se mostrar que no modelo multivariado a variância de 𝛽̂1 pode ser
aproximada pela sua correção obtida sob o modelo univariado, 𝑣𝑎𝑟1 (𝛽̂1 ), multiplicando-a pelo fator de
2
inflação da variância VIF, 1/(1 − 𝜌1.23⋯𝑘 ) = 1/(1 − 𝜌2 ), sendo 𝜌 a notação simplificada para o
coeficiente de correlação relacionando 𝑋1 com 𝑋2,⋯, 𝑋𝑘 . Assim, 𝑣𝑎𝑟𝑘 (𝛽̂1 ) = 𝑣𝑎𝑟1 (𝛽̂1 )/(1 − 𝜌1.23⋯𝑘
2
)=
𝑣𝑎𝑟1 (𝛽̂1 )/(1 − 𝜌2 ).
O tamanho de amostra para o modelo de regressão logística com 𝑘 covariáveis, 𝑛(𝑘) , depende de 𝜌,
a correlação múltipla entre 𝑋1 (a variável de mais interesse) e as demais covariáveis, e é dado por:

𝑛(1)
𝑛(𝑘) = (6.5)
1 − 𝜌2

O artigo de Hsieh et al. (1998) também descreve a comparação dos resultados de programas
computacionais comerciais nQuery® e Egret®.

Exemplo 6.3 - Tamanho da amostra utilizando modelo de regressão logística com uma
covariável contínua ╬╬

Estudo será conduzido para avaliar a relação entre estresse pós-traumático (EPT) e a frequência
cardíaca (FC) em soldados após a exibição de vídeos contendo sequências violentas. Para isso, será
utilizado o modelo de regressão logística com resposta binária. Sabe-se que a variável FC é distribuída
de forma normal e espera-se que a taxa de EPT entre soldados seja de aproximadamente 7%.

A Tabela 6.3 mostra os tamanhos de amostra obtidos pela fórmula (6.4) para dois valores de poder
(90% e 80%). Como esperado, quanto maior o poder, maior o tamanho de amostra, 𝑛(1) , aumento de
cerca de 34% quando o poder é 90% comparado aos valores de 80%. Para um valor fixo de poder, há
queda acentuada do tamanho de amostra à medida que o valor de odds ratio aumenta. Por exemplo,
quase três vezes menor, comparando-se 𝑂𝑅 = 1,5 com 𝑂𝑅 = 2,0; aproximadamente cinco vezes
menor, comparando-se 𝑂𝑅 = 1,5 com 𝑂𝑅 = 2,5; redução em torno de sete vezes comparando-se
𝑂𝑅 = 1,5 com 𝑂𝑅 = 3,0.

Tabela 6.3 - Tamanhos de amostras, 𝑛(1) , utilizando modelo de regressão logística


com uma covariável contínua, obtido pela fórmula (6.4), para dois valores de
poder (90% e 80%) e para quatro valores de odds ratio: 1,5; 2,0; 2,5; 3,0
Odds ratio (𝑂𝑅)
Poder
1,5 2,0 2,5 3,0
90% 982 336 193 134
80% 734 251 144 100
Nota: Na fórmula (6.4), 𝛽1∗ = 𝑙𝑜𝑔(𝑂𝑅).

A Figura 6.2 mostra o poder do teste que avalia a significância do efeito da variável FC. na resposta
(EPT) do modelo de regressão logística em função do tamanho de amostra, 𝑛(1) , para quatro valores de
odds ratio (𝑂𝑅): 1,5; 2,0; 2,5; 30. O poder foi calculado com o auxílio do software Pass®14. Observa-
se o impacto de 𝑂𝑅 no poder: a curva de poder correspondente a 𝑂𝑅 = 3,0 é a superior, enquanto que
a curva inferior é aquela calculada quando 𝑂𝑅 = 1,5. Fixando-se um tamanho de amostra, vale a
seguinte relação: poder (𝑂𝑅 = 3) ≥ poder (𝑂𝑅 = 2,5) ≥ poder (𝑂𝑅 = 2,0) ≥ poder (𝑂𝑅 = 1,5).

OR
1,0
1,5
2,0
2,5
3,0
0,8

0,6
Poder

0,4

0,2

0,0
0 200 400 600 800 1000 1200
n(1)

Figura 6.2 - Poder em função do tamanho de amostra, 𝑛(1) , utilizando o modelo de regressão logística
com uma covariável contínua, para quatro valores de odds ratio (𝑂𝑅): 1,5; 2,0; 2,5; 3,0.

Exemplo 6.4 - Tamanho da amostra utilizando o modelo de regressão logística com mais de uma
covariável (adaptação do exemplo de Whittemore, 1981) ╬╬

Deseja-se modelar a dependência da probabilidade de se desenvolver doença cardíaca grave (DCG) em


uma população de pessoas de meia-idade em função dos níveis de colesterol total (𝑋1 ). Estudos
anteriores mostram que a probabilidade de DCG para o nível médio de 𝑋1 é aproximadamente 0,08
(𝑜𝑑𝑑𝑠 = 0,08/(1 − 0,08) = 0,08/0,92 = 0,09) e que quando há aumento de um desvio-padrão a
partir da média de 𝑋1, a probabilidade passa para 0,12 (𝑜𝑑𝑑𝑠 = 0,12/0,88 = 0,14). Assim, o valor de
odds ratio (𝑂𝑅) é 1,57 e 𝑙𝑜𝑔(𝑂𝑅) = 0,45, que é o efeito mínimo a ser detectado (𝛽1∗ ).

Fixando o poder em 90% e o nível de significância em 5%, o tamanho da amostra obtida a partir do
2
modelo de regressão logística com 𝑋1, calculado pela fórmula (6.4), é 𝑛(1) = (𝑧1−𝛼/2 + 𝑧1−𝛽 ) /
[𝑝1 (1 − 𝑝1 )(𝛽1∗ )2] = (1,96 + 1,28)2 / [(0,12)(0,88)(0,45)2 ] = 490,91 ≅ 491.
Ao incluir a variável pressão sistólica (𝑋2) ao modelo, cuja correlação com o colesterol total é de 0,40,
utilizando a fórmula (6.5), o tamanho da amostra aumenta para 585. Os cálculos são:
𝑛(2) = 𝑛(1) /(1 − 𝜌2 ) = 491/(1 − 0,42 ) = 584,52 ≅ 585.

Se o poder for trocado para 80%, 𝑛(1) = 368 e 𝑛(2) = 439. Comparando com o poder de 90% há
redução de 25% em ambos os casos e em valores absolutos podem-se recrutar 123 (491-368) e 146
(585-439) pacientes a menos, respectivamente.

O método proposto por Shieh (2001) aprimora os cálculos do enfoque de Whittemore (1981).
Seus resultados de simulação mostram a superioridade nas condições consideradas.

Demidenko (2007) deriva fórmulas gerais para o poder e tamanho de amostra para modelos de
regressão logística usando o teste de Wald. A seguir, aplica-as para obter expressão de forma fechada
no caso de modelo com uma covariável binária. As fórmulas são utilizadas para minimizar o tamanho
de amostra total em estudos caso-controle para atingir determinado poder, otimizando a razão de
controles em relação aos casos. Aproximadamente, o número ótimo de controles em relação aos casos é
igual à raiz quadrada da medida odds ratio na hipótese alternativa. Demidenko (2008) estende seu
método publicado em 2007 para o caso em que há interação no modelo.

O método proposto por Novikov et al. (2010) é para o modelo de regressão logística com apenas uma
𝑝
covariável contínua: 𝑙𝑜𝑔 (1−𝑝1 ) = 𝛽0 + 𝛽1 𝑥. Trata-se de uma modificação do método de Hsieh et al.
1

(1998). Supondo que as variâncias (𝜎12 e 𝜎02 ) da covariável 𝑋 dos dois grupos (𝑌 = 1, 𝑌 = 0) não são
iguais e os tamanhos dos grupos podem ser diferentes, é utilizada a fórmula de tamanho de amostra de
Schouten (1999), que faz uma aproximação da distribuição 𝑡 de Student pela normal padrão.

O tamanho de amostra total é 𝑛 = 𝑛1 + 𝑛0 e em cada grupo, 𝑛1 quando 𝑌 = 1 e 𝑛0 quando 𝑌 = 0,


dados respectivamente por:

2
(𝜏 + 𝛾)𝜎12
2
(𝜏 2 + 𝛾 3 )𝑧1−𝛼/2
𝑛1 = (𝑧1−𝛼/2 +𝑧1−𝛽 ) + (6.6)
𝛾(𝜇1 − 𝜇0 )2 2𝛾(𝜏 + 𝛾)2

𝑛0 = 𝛾𝑛1 (6.7)

Nas fórmulas (6.6) e (6.7), os termos ainda não definidos são: 𝜇0 = E(𝑋|𝑌 = 0) e 𝜇1 = 𝐸(𝑋|𝑌 = 1),
os valores esperados; 𝛾 = (1 − 𝑝1 )/𝑝1, sendo 𝑝1 = 𝑃𝑟(𝑌 = 1), probabilidade que deve ser
especificada a partir de algum conhecimento prévio; 𝜏 = 𝜎02 /𝜎12 , a razão entre as variâncias dos dois
grupos. O uso da fórmula (6.6) requer alguns passos preliminares:

1. Achar 𝛽0 para valores especificados de 𝑝1 e 𝛽1∗ (o valor hipotetizado de 𝛽1 sob 𝐻1 ) resolvendo


numericamente a equação 𝑝1 = (1/√2𝜋)∫ 𝑒𝑥𝑝{−𝑥 2 }𝑒𝑥𝑝{𝛽0 + 𝑑𝑥}/1 + 𝑒𝑥𝑝{𝛽0 + 𝑑𝑥}𝑑𝑥. Note-se
que esse procedimento requer certa programação.

2. Calcular os valores esperados 𝜇0 e 𝜇1 e as variâncias 𝜎02 e 𝜎12 usando as expressões 𝑃𝑟(𝑥|𝑌 = 0) =


(1/√2𝜋 )𝑒𝑥𝑝{−𝑥 2 /2} (1/√2𝜋)𝑒𝑥𝑝{−𝑥 2 /2}
e 𝑃𝑟(𝑥|𝑌 = 1) = (1+𝑒𝑥𝑝{−𝛽 com o coeficiente 𝛽0 determinado a partir
(1+𝑒𝑥𝑝{𝛽0 +𝛽1 𝑥})(1−𝑝1 ) 0 −𝛽1 𝑥})𝑝1

do passo 1 e 𝛽0 = 𝛽1∗ .

3. Calcular 𝛾 = (1 − 𝑝1 )/𝑝1 e 𝜏 = 𝜎02 /𝜎12 .

4. Calcular 𝑛1 usando a fórmula (6.6).

6.4 Modelos para dados ordinais

Na variável classificada como ordinal, como o nome indica, as categorias apresentam determinada
ordenação. São exemplos: estadiamento de uma doença, escolaridade, graduação do distúrbio em
espirometria (leve, moderada, grave), escala de intensidade de dor. Em muitos ensaios clínicos tendo
como escala categórica ordinal, as possíveis classificações são muito boa, boa, moderada e ruim ou
ainda nenhuma, leve, moderada e grave. Estudos sobre qualidade de vida (QV) tipicamente são
avaliados por meio de escalas do tipo ordinal. A desconsideração da ordenação e a dicotomização da
variável resposta, embora muito comuns, não são procedimentos recomendados, já que em geral podem
levar a perdas do teor da informação contida nos dados originais. Assim, idealmente métodos
específicos para dados ordinais devem ser aplicados.

Na seção anterior, a variável resposta era binária (𝑌 = 0,1) e nesta seção será considerada a variável
resposta ordinal, que aparece com frequência na prática e que exige modelo que acomode a ordenação.
Há diferentes métodos de análise de dados ordinais, incluindo os seguintes modelos de regressão
logística ordinal: modelo de chances proporcionais, modelo de razão-contínua, modelo estereótipo e
modelo de chances proporcionais parciais. Detalhes sobre os modelos são encontrados, por exemplo,
em Abreu et al. (2008), Abreu et al. (2009), Hilbe (2009) e Hosmer et al. (2013).
Assim como no caso binário, sugere-se como medida resumo a razão de chances (odds ratio), mas
agora utilizando probabilidades cumulativas. No contexto de dados ordinais e supondo que há dois
grupos a serem comparados (de forma geral, 𝐴 e 𝐵 ou, para exemplificar, grupo exposto e não exposto)
e que a resposta de interesse Y tenha 𝑘 categorias ordenadas (𝑌𝑗 , 𝑗 = 1,2, ⋯ , 𝑘), para a categoria
𝑗 = 1, ⋯ 𝑘 − 1, a medida odds ratio é definida por:

𝑃𝑟(𝑌 ≤ 𝑌𝑗 |𝐴) 𝑃𝑟(𝑌 ≤ 𝑌𝑗 |𝐴)


1 − 𝑃𝑟(𝑌 ≤ 𝑌𝑗 |𝐴) 𝑃𝑟(𝑌 > 𝑌𝑗 |𝐴) 𝑜𝑑𝑑𝑠(≤𝑗_𝐴)
𝑂𝑅≤𝑗 = = = (6.8)
𝑃𝑟(𝑌 ≤ 𝑌𝑗 |𝐵) 𝑃𝑟(𝑌 ≤ 𝑌𝑗 |𝐵) 𝑜𝑑𝑑𝑠(≤𝑗_𝐵)
1 − 𝑃𝑟(𝑌 ≤ 𝑌𝑗 |𝐵) 𝑃𝑟(𝑌 > 𝑌𝑗 |𝐵)

Em palavras, 𝑂𝑅≤𝑗 apresentada em (6.8) é a razão entre a probabilidade cumulativa de indivíduos do


grupo A serem classificados na categoria 𝑗 ou categorias anteriores e o complementar dessa
probabilidade (𝑜𝑑𝑑𝑠 do grupo A), dividida pela razão das mesmas probabilidades cumulativas
referentes ao grupo 𝐵 (𝑜𝑑𝑑𝑠 do grupo B).

A seguir são apresentadas as principais ideias, notações e referências sobre os principais modelos de
regressão para dados ordinais. Seja 𝑌 a variável resposta com 𝑘 categorias codificadas em 1,2, ⋯ , 𝑘 e
seja 𝒙 = (𝑥1 , 𝑥2 , ⋯ 𝑥𝑝 ) o vetor de variáveis explicativas ou covariáveis. As 𝑘 categorias de 𝑌
condicionalmente aos valores de 𝒙 ocorrem com probabilidades 𝑝1 , 𝑝2 , ⋯ , 𝑝𝑘 , isto é, 𝑝𝑗 = 𝑃𝑟(𝑌 = 𝑗),
para 𝑗 = 1, 2, ⋯ , 𝑘. Na modelagem de dados de resposta ordinal podem ser utilizadas as probabilidades
individuais 𝑝𝑗 ou as probabilidades acumuladas, por exemplo: (𝑝12 = 𝑝1 + 𝑝2 ), (𝑝123 = 𝑝1 + 𝑝2 +
𝑝3 ),⋯, (𝑝123⋯𝑘 = 𝑝1 + 𝑝2 + 𝑝3 + . . . + 𝑝𝑘 ). No caso do uso de probabilidades individuais,
a probabilidade de cada categoria é comparada com a probabilidade de uma categoria de referência ou
com a probabilidade da categoria anterior no modelo de categorias adjacentes.

Abreu et al. (2008) apresentam um resumo dos principais modelos, com suas respectivas equações,
cálculo da razão de chances e indicações de uso além de destaques de alguns pontos considerados
importantes em cada modelo considerado. É importante a verificação da adequação (goodness of fit) de
cada um dos modelos, como discutido, por exemplo, em Abreu et al. (2009).

Nesta seção são apresentados alguns detalhes e o dimensionamento de amostra apenas para o Modelo
de Chances Proporcionais (MCP), também chamado de modelo do logito cumulativo, em inglês:
proportional odds model ou cumulative logit model. O modelo é indicado quando a variável resposta
era originalmente uma variável contínua que, posteriormente, foi agrupada.
Denotando 𝒙 o vetor de variáveis explicativas, o modelo MCP é escrito como:

𝑃𝑟(𝑌 = 1|𝒙) + ⋯ + 𝑃𝑟(𝑌 = 𝑗|𝒙)


𝑙𝑜𝑔 ( ) = 𝛼𝑗 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑝 𝑥𝑝 , 𝑗 = 1, ⋯ , 𝑘 − 1 (6.9)
𝑃𝑟(𝑌 = 𝑗 + 1|𝒙) + ⋯ + 𝑃𝑟(𝑌 = 𝑘|𝒙)

O símbolo 𝑙𝑜𝑔 que aparece em (6.9) representa o logaritmo na base natural. O modelo MCP compara a
probabilidade de uma resposta igual ou inferior à 𝑗-ésima categoria (𝑗 = 1, ⋯ , 𝑘 − 1), com
probabilidade de uma resposta superior a esta categoria. O modelo é composto de (𝑘 − 1) equações
lineares paralelas. No caso particular de apenas duas categorias (𝑘 = 2), o MCP corresponde
exatamente ao tradicional modelo de regressão logística binária, descrito na seção 6.3.

O modelo tem (𝑘 + 𝑝 − 1) parâmetros. O termo 𝛼𝑗 representa o intercepto do modelo, varia para cada
uma das equações e satisfaz a seguinte condição: 𝛼1 ≤ 𝛼2 ≤ ⋯ ≤ 𝛼𝑘−1 . O vetor 𝜷 = (𝛽1 , 𝛽2 , ⋯ , 𝛽𝑝 )
tem dimensão 𝑝 cujos elementos correspondem aos efeitos das covariáveis na variável resposta.

Note-se que o vetor 𝜷 não depende do índice 𝑗, implicando que a relação entre 𝒙 e 𝑌 é independente da
categoria. Assim como para o modelo de regressão logística para resposta binária apresentado na seção
6.3, o exponencial do coeficiente 𝛽𝑗 do MCP também representa uma estimativa da razão de chances
(odds ratio), que para esse modelo fornece uma única estimativa para todas as categorias comparadas.
Essa característica do modelo resultou na suposição chamada por McCullagh (1980) de chances
proporcionais e que deu nome ao modelo. Essa premissa é assumida para cada covariável incluída no
modelo. Naturalmente, é sempre importante verificar se essa suposição é realmente satisfeita.
Para testar a homogeneidade da razão de chances, geralmente é utilizado o teste escore ou o teste da
razão de verossimilhanças. Esse procedimento também pode ser usado para se avaliar a evidência de
adequação do modelo (HOSMER et al. 2013). Brant (1990) apresenta formas de avaliar o pressuposto
de chances proporcionais do MCP.

Detalhes adicionais sobre o modelo de chances proporcionais podem ser encontrados nos artigos
citados e especialmente na literatura especializada, destacando-se Hosmer et al. (2013) e Hilbe (2009).

6.4.1 Tamanho de amostra para dados ordinais

O método apresentado em Whitehead (1993) é um dos mais utilizados para o dimensionamento de


amostra para dados ordinais. Esse método é apropriado quando o pressuposto de chances proporcionais
é válido, com a limitação de não funcionar bem para amostras “pequenas” ou para dados não
balanceados, devendo, nestes casos, ser aplicados métodos alternativos, como o não paramétrico
descrito em Zhao et al. (2008).

Para o dimensionamento de amostra nesta seção, assim como em Whitehead (1993), é considerado o
contexto de comparação de dois grupos, por exemplo, experimental e controle, abreviados por 𝐸 e 𝐶,
respectivamente. Para as 𝑘 categorias com ordenação (𝐶1 , 𝐶2 , ⋯ , 𝐶𝑘 ), 𝑚𝑖 e 𝑛𝑖 são as frequências
referentes à 𝑖-ésima categoria, respectivamente, para os grupos 𝐸 e 𝐶, com totais 𝑚 e 𝑛, sendo
𝑁 = 𝑚 + 𝑛. As correspondentes proporções em cada categoria são 𝑝𝑖 = 𝑚𝑖 /𝑚 e 𝑞𝑖 = 𝑛𝑖 /𝑛
(𝑖 = 1,2, ⋯ , 𝑘). Os dados e a respectiva distribuição de probabilidades estão organizados na
Tabela 6.4.

Tabela 6.4 - Notação utilizada no método de Whitehead (1993): frequências observadas em dados
ordinais com 𝑘 categorias (𝐶1 , 𝐶2 , ⋯ 𝐶𝑘 ) com a respectiva distribuição de probabilidades
(entre parênteses) para comparar dois grupos: experimental (𝐸) e controle (𝐶)

Categorias
Grupo 𝐶1 𝐶2 ⋯ 𝐶𝑘 Total
E 𝑚1 (𝑝𝐸1 ) 𝑚2 (𝑝𝐸2 ) ⋯ 𝑚𝑘 (𝑝𝐸𝑘 ) 𝑚
C 𝑛1 (𝑝𝐶1 ) 𝑛2 (𝑝𝐶2 ) ⋯ 𝑛𝑘 (𝑝𝐶𝑘 ) 𝑛
Total 𝑀1 𝑀2 ⋯ 𝑀𝑘 𝑁

Como mencionado, o método proposto por Whitehead (1993) para dimensionar o tamanho da amostra
foi desenvolvido para o modelo de chances proporcionais. Para a comparação de apenas dois
tratamentos, como é o enfoque do artigo, o modelo torna-se equivalente ao teste de Mann-Whitney.
Neste artigo é apresentada a seguinte fórmula fechada para o tamanho total da amostra:

3(𝐴 + 1)2 (𝑧1−𝛼/2 +𝑧1−𝛽 )2


𝑛𝑊(𝐴) = (6.10)
𝐴𝜃 2 (1 − ∑𝑘𝑖=1 𝑝̅𝑖 3 )

Em (6.10), 𝐴 = 𝑚/𝑛 é a razão de alocação entre os dois grupos, 𝛼 e (1 − 𝛽) são, respectivamente,


o nível de significância e o poder do teste, 𝑧1−𝛼/2 e 𝑧1−𝛽 são os percentis de ordem (1 − 𝛼/2)100% e
(1 − 𝛽)100% da distribuição normal padrão, 𝑝̅𝑗 é a proporção média dos dois grupos comparados (𝐸 e
𝐶) para a 𝑗-ésima categoria, isto é, 𝑝̅𝑗 = (𝑝𝐸𝑗 + 𝑝𝐶𝑗 )/2 e 𝑘 é o número de categorias. No denominador
aparece 𝜃 = 𝑙𝑜𝑔(𝑂𝑅𝑎𝑐𝑢𝑚 ), sendo 𝑂𝑅𝑎𝑐𝑢𝑚 definida em termos das probabilidades acumuladas. Assim,
a estatística só pode ser calculada até a penúltima categoria (𝑗 = 1,2, ⋯ , 𝑘 − 1), já que as
probabilidades acumuladas até a última categoria são iguais a um e, portanto, 𝑂𝑅𝑎𝑐𝑢𝑚 não é definida
neste caso, em razão de divisão por zero. Para o modelo MCP, como já mencionado, teoricamente
𝑂𝑅𝑎𝑐𝑢𝑚 é igual para todas as categorias, isto é, 𝑂𝑅≤1 = 𝑂𝑅≤2 = ⋯ = 𝑂𝑅≤𝑘−1 = 𝑂𝑅𝑎𝑐𝑢𝑚 , sendo que
𝑂𝑅≤𝑗 é calculado a partir da fórmula (6.8). Deve-se ressaltar que a fórmula (6.10) fornece o tamanho
total da amostra, não o tamanho por grupo, como em geral aparece em várias fórmulas.

Frequentemente, 𝐴 = 1, a taxa de alocação dos grupos é a mesma. Neste caso, a fórmula (6.10)
torna-se:

12(𝑧1−𝛼/2 +𝑧1−𝛽 )2
𝑛𝑊(𝐴=1)𝑡𝑜𝑡𝑎𝑙 = (6.11)
𝜃 2 (1 − ∑𝑘𝑖=1 𝑝̅𝑖 3 )

enquanto que a fórmula do tamanho de amostra para cada grupo seria:

6(𝑧1−𝛼/2 +𝑧1−𝛽 )2
𝑛𝑊(𝐴=1)𝑝𝑜𝑟 𝑔𝑟𝑢𝑝𝑜 = (6.12)
𝜃 2 (1 − ∑𝑘𝑖=1 𝑝̅𝑖 3 )

Se for utilizado 𝑡 = 𝑛/𝑁 como fração de alocação do grupo controle em relação ao total geral,
a fórmula (6.10) torna-se:

3(𝑧1−𝛼/2 +𝑧1−𝛽 )2
𝑛𝑊(𝑡) = (6.13)
𝑡(1 − 𝑡)𝜃 2 (1 − ∑𝑘𝑖=1 𝑝̅𝑖 3 )

Naturalmente, existe uma relação entre as duas definições de fração de alocação: 𝐴 = 𝑚/𝑛 e 𝑡 = 𝑛/𝑁.
Substituindo 𝑚 = 𝐴𝑛 na expressão 𝑡 = 𝑛/𝑁 = 𝑛/(𝑚 + 𝑛), resulta que 𝑡 = 𝑛/(𝐴𝑛 + 𝑛) = 1(1 + 𝐴).
Ou seja, a relação é 𝑡 = 1/(1 + 𝐴) ou 𝐴 = (1 − 𝑡)/𝑡.

Kolassa (1995) apresenta um aprimoramento da aproximação do método de Whitehead (1993)


calculando momentos de ordem superiores. Utiliza as aproximações de Cornish-Fisher e Edgeworth.
O tamanho de amostra é obtido a partir da função de poder e está implementado no software nQuery
Advisor 6.0®. Embora as aproximações levem a cálculos acurados de poder, como reportado em
Rabbee et al. (2003), o método possui algumas limitações.

O método proposto por Rabbee et al. (2003) para calcular poder e tamanho de amostra para dados
categóricos é indicado para postos lineares de diferenças entre duas populações multinomiais com
ordenação. O método é ilustrado tanto para modelos de chances proporcionais como para os não
proporcionais no cenário de duas multinomiais com ordenação. O artigo apresenta a expressão para o
poder, mas não é de fácil implementação.

Raharhja et al. (2009) procederam a uma revisão completa sobre determinação de amostra utilizando o
teste Wilcoxon-Mann-Whitney (WMW), também conhecido como teste de Mann-Whitney, o teste não
paramétrico mais popular para comparar dois grupos (aqui representados por 𝐸 e 𝐶) de observações
contínuas ou uma variável categórica com ordenação. Consideram o caso em que o pressuposto de
chances proporcionais é válido ou não.

No artigo, destaca-se o trabalho de Zhao et al. (2008) em que são estudados os métodos de cálculo de
tamanho de amostra para o teste não paramétrico de Wilcoxon-Mann-Whitney (WMW), que será aqui
denominado apenas por teste de Mann-Whitney (MW). A notação utilizada é apresentada
na Tabela 6.5.

Tabela 6.5 - Notação utilizada para o teste não paramétrico de Mann-Whitney (MW)
descrito em Zhao et al. (2008): frequências observadas em dados ordinais com
𝑘 categorias (𝐶1 , 𝐶2 , ⋯ 𝐶𝑘 ) com a respectiva distribuição de probabilidades
(entre parênteses) para comparar dois grupos: experimental (𝐸) e controle (𝐶)

Categorias
Grupo 𝐶1 𝐶2 ⋯ 𝐶𝑘 Total
E 𝑚1 (𝑝1 ) 𝑚2 (𝑝2 ) ⋯ 𝑚𝑘 (𝑝𝑘 ) 𝑚
C 𝑛1 (𝑞1 ) 𝑛2 (𝑞2 ) ⋯ 𝑛𝑘 (𝑞𝑘 ) 𝑛
Total 𝑀1 𝑀2 ⋯ 𝑀𝑘 𝑁

Usando resultados assintóticos, a seguinte fórmula fechada é proposta:

2
(𝑧1−𝛼/2 +𝑧1−𝛽 ) (1 − ∑𝑘𝑐=1((1 − 𝑡)𝑝𝑐 + 𝑡𝑞𝑐 )3 )
𝑛𝑀𝑊 = 2
(6.14)
12𝑡(1 − 𝑡)(∑𝑘𝑐=2 𝑝𝑐 ∑𝑐−1 𝑘
𝑑=1 𝑞𝑑 + 0,5 ∑𝑐=1 𝑝𝑐 𝑞𝑐 − 0,5)

Para aplicar a fórmula (6.14), é necessário conhecer a fração de alocação 𝑡 = 𝑛/𝑁 e as probabilidades
dos dois grupos para todas as categorias (𝑝𝑖 = 𝑚𝑖 /𝑚 , 𝑞𝑖 = 𝑛𝑖 /𝑛, 𝑖 = 1,2, ⋯ , 𝑘). Note-se que esta
fórmula permite categorias com frequências nulas. Para três categorias (𝑘 = 3), ∑3𝑐=2 𝑝𝑐 ∑𝑐−1
𝑑=1 𝑞𝑑 =

𝑝2 𝑞1 + 𝑝3 (𝑞1 + 𝑞2 ) e para quatro categorias (𝑘 = 4), ∑4𝑐=2 𝑝𝑐 ∑𝑐−1


𝑑=1 𝑞𝑑 = 𝑝2 𝑞1 + 𝑝3 (𝑞1 + 𝑞2 ) +
𝑝4 (𝑞1 + 𝑞2 + 𝑞3 ). Nesses casos particulares, a fórmula geral (6.14) tem as expressões 𝑛𝑀𝑊 =
2 2
(𝑧1−𝛼/2 +𝑧1−𝛽 ) (1−∑3𝑐=1((1−𝑡)𝑝𝑐 +𝑡𝑞𝑐 )3 ) (𝑧1−𝛼/2 +𝑧1−𝛽 ) (1−∑4𝑐=1((1−𝑡)𝑝𝑐 +𝑡𝑞𝑐 )3 )
2 e 𝑛𝑀𝑊 = 2
12𝑡(1−𝑡)(𝑝2 𝑞1 +𝑝3 (𝑞1 +𝑞2 )+0,5 ∑3𝑐=1 𝑝𝑐 𝑞𝑐 −0,5) 12𝑡(1−𝑡)(𝑝2 𝑞1 +𝑝3 (𝑞1 +𝑞2 )+𝑝4 (𝑞1 +𝑞2 +𝑞3 )+0,5 ∑4𝑐=1 𝑝𝑐 𝑞𝑐 −0,5)

para 𝑘 = 3 e 𝑘 = 4, respectivamente.

Em resumo, trata-se de uma fórmula fechada e de fácil cálculo, com enfoque não paramétrico e que
pode ser utilizada quando o pressuposto de chances proporcionais não é válido. Simulações
demonstraram que o método tem boa performance em termos do poder, sendo os valores do poder real
bem próximos do nominal.

Exemplo 6.5 - Dimensionamento de ensaio clínico com dois grupos com dados ordinais utilizando
o método de Whitehead (1993) ╬╬

Em ensaio clínico em que dois grupos são comparados, controle (𝐶) e experimental (𝐸), as categorias
dos desfechos foram classificadas como muito boa, boa, moderada e ruim. Para o cálculo do tamanho
da amostra foram considerados três conjuntos de dados: o primeiro extraído de Whitehead (1993) e os
outros dois simulados de forma a ilustrar detalhes interessantes do método.

(a) Adaptação de dados extraídos de Whitehead (1993)

As informações necessárias referentes aos dois grupos a serem comparados estão apresentadas
no Quadro 6.2.

Quadro 6.2 - Informações sobre um ensaio clínico tendo dois grupos a serem comparados:
controle (𝐶) e experimental (E) para o conjunto de dados (a)

Categorias
Grupo Probabilidade
Muito boa Boa Moderada Ruim

Simples (𝑝𝐶𝑖 ) 𝑝𝐶1 = 0,2 𝑝𝐶2 = 0,5 𝑝𝐶3 = 0,2 𝑝𝐶4 = 0,1
𝐶
Acumulada 𝑝𝐶1 = 0,2 𝑝𝐶12 = 0,7 𝑝𝐶123 = 0,9 𝑝𝐶1234 = 1

Simples (𝑝𝐸𝑖 ) 𝑝𝐸1 = 0,378 𝑝𝐸2 = 0,472 𝑝𝐸3 = 0,106 𝑝𝐸4 = 0,044
𝐸
Acumulada 𝑝𝐸1 = 0,378 𝑝𝐸12 = 0,850 𝑝𝐸123 = 0,956 𝑝𝐸1234 = 1
0,2 + 0,378 0,5 + 0,472 0,2 + 0,106 0,1 + 0,044
Média das 𝑝̅1 = 𝑝̅2 = 𝑝̅3 = 𝑝̅4 =
probabilidades: 𝑝̅𝑖 2 2 2 2
= 0,289 = 0,486 = 0,153 = 0,072
Como já mencionado, o cálculo de 𝑂𝑅𝑎𝑐𝑢𝑚 é baseado nas probabilidades acumuladas para
𝑗 = 1, 2, ⋯ , 𝑘 − 1. Para cada categoria 𝑗, a medida odds ratio (𝑂𝑅) comparando o grupo 𝐸 com o 𝐶 é
𝑃𝑟 (𝑌≤𝑌 |𝐸) 𝑃𝑟(𝑌≤𝑌 |𝐶) 0,85/0,15
definida por 𝑂𝑅≤𝑗 = 𝑃𝑟(𝑌>𝑌𝑗 |𝐸) ÷ 𝑃𝑟(𝑌>𝑌𝑗 |𝐶). Por exemplo, para a categoria “boa”, 𝑂𝑅≤2 = =
𝑗 𝑗 0,7/0,3

2,429 e, portanto, 𝑙𝑜𝑔(𝑂𝑅≤2 ) = 𝑙𝑜𝑔(2,429) = 0,887. O Quadro 6.3 mostra os cálculos dos três
valores de 𝑂𝑅. Note-se que os valores de 𝑂𝑅 são bastante parecidos, portanto de forma empírica, não
há evidências contra o pressuposto de chances proporcionais.

Quadro 6.3 - Cálculos dos três valores de 𝑂𝑅 para o conjunto de dados (a)

0,378/0,622
𝑂𝑅≤1 = = 2,431
0,2/0,8

0,85/0,15
𝑂𝑅≤2 = = 2,429
0,7/0,3

0,956/0,044
𝑂𝑅≤3 = = 2,414
0,9/0,1

O termo que envolve as médias das probabilidades na fórmula (6.10) é: 1 − ∑𝑘𝑖=1 𝑝̅𝑖 3 =
1 − (0,2893 + 0,4863 + 0,1533 + 0,0523 ) = 1 − 0,143 = 0,857. Será utilizado valor de 𝑂𝑅𝑎𝑐𝑢𝑚
referente à categoria “boa”, cujos cálculos foram demonstrados anteriormente. Outras opções seriam os
valores das outras categorias e mesmo as médias entre os três valores apresentados no Quadro 6.3.

Fixando o nível de significância e o poder, respectivamente, em 5% e 90% (𝑧1−𝛼/2 = 1,96;


𝑧1−𝛽 = 1,28), fazendo 𝐴 = 1 e substituindo os valores na fórmula (6.10), tem-se que 𝑛𝑊(𝐴) =
3(𝐴+1)2 (𝑧1−𝛼/2 +𝑧1−𝛽 )2 3(𝐴+1)2 (𝑧1−𝛼/2 +𝑧1−𝛽 )2 3(2)2 (1,96+1,28)2
3 = 3 = = 186,829. Arredondando para
𝐴𝜃2 (1−∑𝑘
𝑖=1 𝑝̅ 𝑖 ) 𝐴[𝑙𝑜𝑔(𝑂𝑅𝑎𝑐𝑢𝑚 )]2 (1−∑𝑘
𝑖=1 𝑝̅ 𝑖 )
(0,887)2 (0,857)

cima, o tamanho de amostra total é de 187 e, consequentemente, a distribuição seria 94 em cada grupo.
O Quadro 6.4 mostra o tamanho de amostra para quatro taxas de alocação (𝐴).
Quadro 6.4 - Tamanho de amostra para quatro taxas de alocação (𝐴)
para o conjunto de dados (a) com 𝑂𝑅𝑎𝑐𝑢𝑚 = 2,429

Taxas de alocação (𝐴) Tamanho de amostra total (𝑛𝑊 )


1 187
2 211
3 250
4 292

À medida que a taxa de alocação aumenta, o tamanho total da amostra também cresce, mas não de
forma proporcional. Por exemplo, se 𝐴 = 2, 𝑛𝑊 é apenas 1,13 o tamanho correspondente ao de 𝐴 = 1
(211/187=1,13). Detalhes sobre planejamento considerando avaliação da taxa de alocação 𝐴 são
fornecidos em Whitehead (1993). De forma geral, concluiu que há uma relação entre o tamanho da
amostra e o número de categorias e que a taxa de alocação excedendo quatro raramente se justifica.

(b) Dados simulados com evidência a favor do pressuposto de chances proporcionais

No grupo-controle (𝐶), as proporções das quatro categorias são decrescentes com incremento de -10%
(40%, 30%, 20% e 10%) e no grupo experimental (𝐸) apresentam as seguintes proporções: 52,45%;
26,93%; 14,31% e 6,31% (Quadro 6.5).

Quadro 6.5 - Informações sobre um ensaio clínico tendo dois grupos a serem comparados:
controle (𝐶) e experimental (E) para o conjunto de dados (b)

Categorias
Grupo Probabilidade
Muito boa Boa Moderada Ruim

Simples (𝑝𝐶𝑖 ) 𝑝𝐶1 = 0,40 𝑝𝐶2 = 0,30 𝑝𝐶3 = 0,20 𝑝𝐶4 = 0,10
𝐶
Acumulada 𝑝𝐶1 = 0,40 𝑝𝐶12 = 0,70 𝑝𝐶123 = 0,90 𝑝𝐶1234 = 1,00

Simples (𝑝𝐸𝑖 ) 𝑝𝐸1 = 0,5245 𝑝𝐸2 = 0,2693 𝑝𝐸3 = 0,1431 𝑝𝐸4 = 0,0631
𝐸
Acumulada 𝑝𝐸1 = 0,5245 𝑝𝐸12 = 0,7938 𝑝𝐸123 = 0,9369 𝑝𝐸1234 = 1,00
0,40 + 0,5245 0,30 + 0,2693 0,20 + 0,1431 0,10 + 0,0631
Média das 𝑝̅1 = 𝑝̅2 = 𝑝̅3 = 𝑝̅4 =
probabilidades: 𝑝̅𝑖 2 2 2 2
= 0,4623 = 0,2847 = 0,1716 = 0,0816
O Quadro 6.6 mostra os cálculos dos três valores de 𝑂𝑅. Para esse conjunto de dados, o pressuposto de
chances proporcionais está validado: os três valores são praticamente iguais usando-se quatro casas
decimais e exatamente iguais com apenas duas casas decimais (1,65).

Quadro 6.6 - Cálculos dos três valores de 𝑂𝑅 para o conjunto de dados (b)

0,5245/0,4755
𝑂𝑅≤1 = = 1,6546 ≅ 1,65
0,40/0,60

0,7938/0,2062
𝑂𝑅≤2 = = 1,6499 ≅ 1,65
0,70/0,30

0,9369/0,0631
𝑂𝑅≤3 = = 1,6498 ≅ 1,65
0,90/0,10

O Quadro 6.7 apresenta os tamanhos de amostra (𝑛𝑊 ) para quatro taxas de alocação (𝐴 = {1; 2; 3; 4})
quando 𝑂𝑅 = 1,6546 ≅ 1,65.

Quadro 6.7 - Tamanho de amostra para quatro taxas de alocação (𝐴)


para o conjunto de dados (b) com 𝑂𝑅𝑎𝑐𝑢𝑚 = 1,65

Taxas de alocação (𝐴) Tamanho de amostra total (𝑛𝑊 )


1 570
2 642
3 760
4 891

O padrão é o mesmo observado anteriormente, isto é, à medida que a taxa de alocação aumenta,
o tamanho total da amostra também cresce.

(c) Dados simulados com evidência contra o pressuposto de chances proporcionais

As informações necessárias referentes aos dois grupos a serem comparados estão apresentadas
no Quadro 6.8.
Quadro 6.8 - Informações sobre um ensaio clínico tendo dois grupos a serem comparados:
controle (𝐶) e experimental (E) para o conjunto de dados (c)

Categorias
Grupo Probabilidade
Muito boa Boa Moderada Ruim

Simples (𝑝𝐶𝑖 ) 𝑝𝐶1 = 0,20 𝑝𝐶2 = 0,30 𝑝𝐶3 = 0,40 𝑝𝐶4 = 0,10
𝐶
Acumulada 𝑝𝐶1 = 0,20 𝑝𝐶12 = 0,50 𝑝𝐶123 = 0,90 𝑝𝐶1234 = 1,00

Simples (𝑝𝐸𝑖 ) 𝑝𝐸1 = 0,55 𝑝𝐸2 = 0,15 𝑝𝐸3 = 0,25 𝑝𝐸4 = 0,05
𝐸
Acumulada 𝑝𝐸1 = 0,55 𝑝𝐸12 = 0,70 𝑝𝐸123 = 0,95 𝑝𝐸1234 = 1,00

0,20 + 0,55 0,30 + 0,15 0,40 + 0,25 0,10 + 0,05


Média das 𝑝̅1 = 𝑝̅2 = 𝑝̅3 = 𝑝̅4 =
2 2 2 2
probabilidades: 𝑝̅𝑖
= 0,375 = 0,225 = 0,325 = 0,075

Os cálculos de odds ratio estão disponibilizados no Quadro 6.9. Neste caso, o pressuposto de chances
proporcionais não parece ser validado, já que os valores de 𝑂𝑅 das três categorias são bem distintos.
Portanto, os tamanhos da amostra obtidos pelo método de Whitehead (1993) não são apropriados.
Mesmo assim, registram-se no Quadro 6.10 os resultados obtidos pelo método para quatro taxas de
alocação (𝐴), para posterior comparação com o método não paramétrico, que não exige tal pressuposto.
Para ser mais conservativo, será escolhido o menor valor de odds ratio (𝑂𝑅≤3 = 2,111) que produz os
maiores tamanhos de amostra.

Quadro 6.9 - Cálculos dos três valores de 𝑂𝑅 para o conjunto de dados (c)

0,55/0,45
𝑂𝑅≤1 = = 4,889
0,20/0,80

0,70/0,30
𝑂𝑅≤2 = = 2,333
0,50/0,50

0,95/0,05
𝑂𝑅≤3 = = 2,111
0,90/0,10
Quadro 6.10 - Tamanho de amostra para quatro taxas de alocação (𝐴)
para o conjunto de dados (c) com 𝑂𝑅𝑎𝑐𝑢𝑚 = 2,111

Taxas de alocação (𝐴) Tamanho de amostra total (𝑛𝑊 )


1 251
2 282
3 335
4 392

Neste exemplo, a validação do pressuposto de chances proporcionais para os três itens, (a), (b) e (c),
foi feita de forma empírica. No item (c), a decisão sobre a não validação fica bastante clara,
mas em determinadas situações pode-se ficar em dúvida sobre a conclusão a ser tomada. Assim, a
rigor, deve-se utilizar um critério mais objetivo, como um teste de hipótese específico para testar a
igualdade de 𝑂𝑅.

Exemplo 6.6 - Tamanhos de amostra obtidos pelo método não paramétrico (ZHAO et al., 2008)
para dados ordinais ╬╬

Para os dados sobre a associação entre fumo e condição da retinopatia em pacientes diabéticos,
exibidos na Tabela 6.6, o pressuposto do modelo de chances proporcionais não é validado
(valor-p = 0,017 para o teste de ajuste do modelo).

Tabela 6.6 - Distribuição de frequências da condição da retinopatia segundo hábito tabagista


Condição da retinopatia
Fumante Total
Nenhuma Não proliferativa Avançada
Não 191 (66%) 42 (15%) 55 (19%) 288 (100%)
Sim 197 (61%) 76 (23%) 52 (16%) 325 (100%)
Total 388 118 107 613

Foram consideradas duas frações de alocações, a primeira baseada nos dados, isto é, 𝑡 = 325/613 =
0,53. A segunda supõe que 𝑡 = 0,95, ou seja, considerável concentração em um grupo, o que é
considerado raro na prática, mas foi escolhida para avaliar a robustez do método em relação à
primeira opção.
A Tabela 6.7 mostra os tamanhos totais da amostra relativos ao método não paramétrico (teste de
Mann-Whitney), calculados pela fórmula (6.14), para dois valores de 𝑡, mantendo a mesma distribuição
das categorias do grupo dos não fumantes (66%, 15%, 19%), mas para várias configurações das
categorias do grupo dos fumantes. O nível de significância e poder foram fixados em 5% e 80%,
respectivamente.

Tabela 6.7 - Tamanhos de amostra total (𝑛𝑀𝑊 ) e poder obtidos pelo método não paramétrico de Mann-
Whitney para duas frações de alocações (𝑡) mantendo a mesma distribuição das categorias do grupo
dos não fumantes (66%, 15% e 19%) e para várias configurações das categorias do grupo dos fumantes

𝑡 = 0,53 𝑡 = 0,95
Não fumantes Fumantes 𝑛𝑀𝑊 Poder 𝑛𝑀𝑊 Poder
(0,66; 0,15; 0,19) (0,61; 0,23; 0,16) 8.390 0,795 45.264 0,796
(0,66; 0,15; 0,19) (0,61; 0,19; 0,20) 3.997 0,798 21.597 0,802
(0,66; 0,15; 0,19) (0,61; 0,14; 0,25) 2.073 0,802 11.174 0,814
(0,66; 0,15; 0,19) (0,58; 0,23; 0,19) 1.878 0,806 10.264 0,803
(0,66; 0,15; 0,19) (0,58; 0,20; 0,22) 1.401 0,799 7.665 0,807
(0,66; 0,15; 0,19) (0,58; 0,15; 0,27) 929 0,803 5.067 0,818
(0,66; 0,15; 0,19) (0,55; 0,23; 0,22) 817 0,796 4.506 0,809
(0,66; 0,15; 0,19) (0,55; 0,20; 0,25) 671 0,803 3.702 0,815
(0,66; 0,15; 0,19) (0,55; 0,15; 0,30) 502 0,808 2.753 0,822
(0,66; 0,15; 0,19) (0,55; 0,00; 0,45) 249 0,805 1.303 0,847
(0,66; 0,15; 0,19) (0,45; 0,00; 0,55) 96 0,811 484 0,844
(0,66; 0,15; 0,19) (0,40; 0,00; 0,60) 68 0,817 331 0,857
Nota: 𝑛𝑀𝑊 foi calculado pela fórmula (6.14); cálculo do poder baseado em 10.000 simulações de Monte Carlo
(ZHAO et al., 2008).

Como há três categorias (𝑘 = 3), a fórmula (6.14) é dada por 𝑛𝑀𝑊 =


2 3
(𝑧1−𝛼/2 +𝑧1−𝛽 ) (1−∑𝑘=3
𝑐=1 ((1−𝑡)𝑝𝑐 +𝑡𝑞𝑐 ) )
2 . Para a última linha da tabela com 𝑡 = 0,95, cujas
12𝑡(1−𝑡) (𝑝2 𝑞1 +𝑝3 (𝑞1 +𝑞2 )+0,5 ∑𝑘=3
𝑐=1 𝑝𝑐 𝑞𝑐 −0,5)

probabilidades das categorias são 𝑝1 = 0,66; 𝑝2 = 0,15; 𝑝3 = 0,19; 𝑞1 = 0,40; 𝑞2 = 0,00; 𝑞3 =


3
(1,96+0,84)2 [1 –(((1−0,95)0,66+0,95×0,40)3 +((1−0,95)0,15+0,95×0,00)3 +((1−0,95)0,19+0,95×0,60) )]
0,60, 𝑛𝑀𝑊 = (1−0,95)(0,15×0,40+0,19(0,40+0,00)+0,5(0,66×0,40+0,15×0,00+0,19×0,60)−0,5)2
=
12(0,95)
5,77
= 330,46 ≈ 331.
0,0175

Pelos resultados da Tabela 6.7, nota-se que o tamanho de amostra depende das proporções das
categorias em ambos os grupos. Se 𝑡 = 0,53, todos os valores do poder real são próximos do nominal
(80%), mesmo quando o tamanho de amostra está abaixo de 100. Se 𝑡 = 0,95, os valores do poder real
são ainda próximos de 80% para amostras relativamente grandes. Os poderes reais podem ser
ligeiramente maiores que os nominais quando os tamanhos de amostras diminuem.

6.4.2 Comparação de métodos de cálculo de tamanho de amostra para dados ordinais

Nesta seção são apresentados vários exemplos comparando métodos para determinação de tamanho de
amostra para dados ordinais, especialmente os métodos de Whitehead (1993) e o não paramétrico de
Mann-Whitney discutidos na seção anterior.

Exemplo 6.7 - Comparação dos métodos de Whitehead (1993) e não paramétrico (teste de
Mann-Whitney) descrito em Zhao et al. (2008) ╬╬

Neste exemplo, são estabelecidas comparações entre o método de Whitehead (1993) e o método
não paramétrico baseado no teste Mann-Whitney. São utilizados os mesmos dados, (a), (b) e (c),
do exemplo 6.5. Na Tabela 6.8 registram-se os tamanhos de amostra para os métodos Whitehead (W) e
não paramétrico de Mann-Whitney (MW), enquanto que na Tabela 6.9 aparece a razão (MW/W) entre
os tamanhos de amostra.

Tabela 6.8 - Tamanhos da amostra calculados pelos métodos Whitehead (W) e não
paramétrico de Mann-Whitney (MW), para quatro taxas de alocação (𝐴): 1, 2, 3, 4
Tamanhos de amostra pelos métodos
Banco Whitehead (W) e não paramétrico (MW)
de dados
W1 MW1 W2 MW2 W3 MW3 W4 MW4
(a) 187 198 211 224 250 265 292 310
(b) 570 581 642 661 760 788 891 926
(c) 251 110 282 124 335 148 392 173

Tabela 6.9 - Razão (MW/W) entre os tamanhos de amostra calculados pelos métodos Whitehead (W)
e não paramétrico de Mann-Whitney (MW) com quatro taxas de alocação (𝐴): 1, 2, 3, 4

Banco Razão (MW/W) entre os tamanhos de amostra


de dados MW1/W1 MW2/W2 MW3/W3 MW4/W4
(a) 1,059 1,062 1,060 1,062
(b) 1,019 1,030 1,037 1,039
(c) 0,438 0,440 0,442 0,441
Método de Whitehead (1993)

Como já comentado, à medida que a taxa de alocação aumenta, o tamanho total da amostra também
cresce, mas não de forma proporcional. Por exemplo, para o conjunto de dados (a) do exemplo 6.5:
211/187 = 1,13; 250/187 = 1,34 e 292/187 = 1,56. Também já foi notado de forma empírica que
o pressuposto de chances proporcionais foi validado nos bancos de dados (a) e (b), mas não no (c).
Assim, para o caso (c), é recomendado utilizar o método não paramétrico.

Método de Whitehead (W) versus método não paramétrico (MW)

Note-se que a relação entre os tamanhos de amostra (MW/W) é praticamente constante, ou seja, para
cada banco de dados, a fração MW/W é sempre próxima de um valor.

Para os bancos de dados (a) e (b): os tamanhos do método MW são aproximadamente iguais aos do
método W, n(MW) ≈ n(W) ou, ainda, a relação entre eles é próxima de 1, n(MW) / n(W) ≈ 1;
os tamanhos de amostra obtidos pelo método MW são ligeira e sistematicamente superiores aos do
método W, n(MW) > n(W).

Para o banco de dados (c) n(MW) / n(W) é ainda constante, mas agora a situação se inverte:
os tamanhos do método MW são bastante inferiores aos do método W, n(MW) << n(W); a relação
entre eles é menos da metade, n(MW) / n(W) ≈ 0,44. De qualquer forma, como já comentado, neste
caso, o método de Whitehead (1993) não é apropriado e foi calculado apenas de maneira ilustrativa.

Exemplo 6.8 - Comparação de quatro métodos de obter tamanho de amostra – aplicação em


estudos de saúde relacionados à qualidade de vida (QV)

Walters (2004) descreve estudos de saúde relacionados à qualidade de vida (QV). Trata-se dos ensaios
clínicos aleatorizados conhecidos como “Community Postnatal Support Worker Study” (CPSW). Dois
grupos são comparados: intervenção, em que é oferecido apoio pós-natal, e o controle, sem tal apoio.
A variável resposta principal (usada para o dimensionamento da amostra) é a “dimensão geral de
saúde” avaliada pelo questionário de QV SF-36 na sexta semana do período pós-natal.

SF-36 é atualmente a forma mais comum de medir a condição de saúde. Foi desenvolvido nos Estados
Unidos, traduzido e validado no Brasil em 1997 pela pesquisadora Rozana Mesquita Ciconelli. Contém
36 perguntas relativas à saúde em oito diferentes dimensões: Capacidade Funcional, Aspecto Físico,
Dor, Estado Geral de Saúde, Vitalidade, Aspectos Sociais, Aspectos Emocionais e Saúde Mental.
As respostas de cada questão dentro de cada dimensão são combinadas gerando um escore que varia de
zero a 100 (o valor máximo indica “boa saúde”).

Em Walters (2004), quatro métodos para estimar tamanho de amostra e poder foram comparados e
ilustrados com estudos de saúde relacionados à qualidade de vida (QV) avaliados pela escala SF-36
para a comparação de dois grupos: controle e intervenção. O método 1 compara médias quando
a variável segue a distribuição normal usando o teste 𝑡; o método 2 é o não paramétrico de
Mann-Whitney; o método 3 é o de Whitehead (1993); e o método 4 utiliza simulações de bootstrap.

São estabelecidas as condições em que cada um dos métodos seria mais indicado e as conclusões são
organizadas no fluxograma apresentado na Figura 6.3.

Fonte: adaptado de Walters (2004).

Figura 6.3 - Fluxograma das recomendações fornecidas por Walters (2004).


Em palavras, destacam-se as seguintes conclusões de Walters (2004):

 Se os resultados do QV têm número limitado de valores discretos (inferior a sete) e/ou o


percentual esperado de casos nas fronteiras é alto (0 ou 100), o método 3 é recomendado.
 Se os resultados do QV têm elevado número de valores distintos e o percentual esperado de
casos nas fronteiras é baixo, o método 1 (teste 𝑡) é recomendado.
 Se um estudo-piloto ou um conjunto de dados históricos é prontamente disponível (para estimar
a forma da distribuição), a simulação de bootstrap (método 4) com base nesses dados irá
fornecer uma avaliação mais precisa e confiável do tamanho da amostra do que os métodos
convencionais (métodos 1, 2 ou 3).
 Na ausência de estudo-piloto ou de um conjunto de dados históricos confiáveis, bootstrapping
não é adequado. Assim, os métodos convencionais de determinação do tamanho da amostra
terão de ser usados.

6.5 Regressão de Poisson

Uma situação que aparece na prática é quando há o interesse em avaliar se uma variável que segue a
distribuição de Poisson pode ser predita ou explicada por determinadas variáveis, também chamadas de
covariáveis. Regressão de Poisson, que pertence à classe dos modelos lineares generalizados, é a forma
padrão de análise para muitos estudos da área da saúde cuja variável resposta segue a distribuição de
Poisson. Detalhes técnicos sobre o modelo podem ser obtidos, por exemplo, em Tang et al. (2012) e na
dissertação de mestrado de Borges (2002).

Regressão de Poisson não é utilizada apenas para dados de contagem, mas também para dados de
incidência, como explicado, por exemplo, no capítulo 29 de Vach (2013). Dados de incidência
frequentemente são provenientes de estudos de coorte nos quais os indivíduos gastam diferentes
tempos em diferentes grupos de risco definidos por covariáveis categóricas, tais como faixa de idade ou
condições de trabalho ou saúde.

Para uma amostra de tamanho 𝑛, seja 𝑌𝑖 uma variável representando uma contagem;
𝒙𝒊 = (𝑥𝑖1 , 𝑥𝑖2 , ⋯ , 𝑥𝑖𝑘 )𝑇 é o vetor das observações das 𝑘 variáveis explicativas para o i-ésimo indivíduo
(𝑖 = 1,2, ⋯ , 𝑛) e 𝜷 = (𝛽1 , 𝛽2 , ⋯ , 𝛽𝑘 ) é o vetor dos coeficientes correspondentes.
O modelo de regressão de Poisson é especificado da seguinte forma:

1. Componente aleatória – dado 𝒙𝒊 , a variável resposta 𝑌𝑖 segue a distribuição de Poisson com média
𝜇𝑖 , ou seja, 𝑌𝑖 |𝒙𝑖 ~ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜇𝑖 ), 1 ≤ 𝑖 ≤ 𝑛.

2. Componente sistemática – a média condicional de 𝜇𝑖 dado 𝒙𝒊 é ligada ao preditor linear pela função
logarítmica usando o seguinte modelo log-linear:

𝑙𝑜𝑔(𝜇𝑖 ) = 𝛽0 + 𝒙𝒊 𝑇 𝜷 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 + ⋯ + 𝛽𝑘 𝑥𝑖𝑘 (6.15)

A interpretação dos coeficientes é semelhante ao do modelo de regressão logística. Por exemplo,


supondo que 𝑋1 seja uma variável indicadora binária assumindo os valores 0 e 1, se 𝑥1 = 1, a média da
resposta é 𝑒𝑥𝑝{𝛽0 + 𝛽1 + ∑𝑘𝑗=2 𝛽𝑗 𝑥𝑖𝑗 }, enquanto que se 𝑥1 = 0, naturalmente o termo 𝛽1 não aparece,
isto é, a média da resposta é 𝑒𝑥𝑝{𝛽0 + ∑𝑘𝑗=2 𝛽𝑗 𝑥𝑖𝑗 }. Assim, a razão das médias das respostas
comparando 𝑥1 = 1 com 𝑥1 = 0 é igual a 𝑒𝑥𝑝{𝛽1 }, mantidas as demais variáveis constantes.
Quando 𝑋1 é uma variável contínua, é fácil de ver que 𝑒𝑥𝑝{𝛽1 } é a razão das médias das razões
comparando um valor fixo de 𝑋1 (diga-se 𝑋1 = 𝑥1 ) com acréscimo de uma unidade (𝑋1 = 𝑥1 + 1).
Se 𝛽1 é positivo (negativo), valores altos de 𝑋1 fornecem respostas médias mais altas (mais baixas),
mantendo as demais variáveis constantes.

Em muitos estudos, o tempo das observações varia de indivíduo para indivíduo, o que pode acontecer
mesmo em ensaios clínicos controlados. Assim, deve-se incorporar o tempo como fator de ajuste ao
modelo apresentado em (6.15). Seja 𝑡𝑖 o tempo de observações para o i-ésimo indivíduo
(𝑖 = 1,2, ⋯ , 𝑛). Supondo que a taxa de evento de contagem (número de eventos por unidade de tempo)
siga o processo de Poisson, pode-se modelar a taxa da seguinte forma: 𝑟𝑖 = 𝑒𝑥𝑝{𝛽0 + 𝒙𝒊 𝑇 𝜷}. Quando
os tempos de observação 𝑡𝑖 variam entre os pacientes, o número de eventos 𝑌𝑖 para cada indivíduo i ao
longo do tempo 𝑡𝑖 ainda tem uma distribuição de Poisson com média 𝜇𝑖 = 𝑡𝑖 𝑟𝑖 = 𝑡𝑖 𝑒𝑥𝑝{𝛽0 + 𝒙𝒊 𝑇 𝜷}.
Assim, neste caso, o modelo log-linear ou, ainda, o modelo de regressão de Poisson é dado por:

𝑙𝑜𝑔(𝜇𝑖 ) = 𝑙𝑜𝑔(𝑡𝑖 ) + 𝑙𝑜𝑔(𝑟𝑖 ) = 𝑙𝑜𝑔(𝑡𝑖 ) + 𝛽0 + 𝒙𝒊 𝑇 𝜷


(6.16)
= 𝑙𝑜𝑔(𝑡𝑖 ) + 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 + ⋯ + 𝛽𝑘 𝑥𝑖𝑘

Na nomenclatura de Modelos Lineares Generalizados, o termo 𝑙𝑜𝑔(𝑡𝑖 ) que aparece em (6.16) é


chamado de offset. Embora o tempo seja o fator mais comum, outros ajustes podem ser adotados.
Exemplo clássico em estudos sobre taxas de doenças é considerar o tamanho da população. De forma
geral, o fator offset estaria ligado a algum “tamanho” que deve ser levado em conta no cálculo e
avaliação das médias das contagens de interesse.

Detalhes sobre a inferência estatística dos parâmetros de interesse podem ser obtidos, por exemplo, em
Tang et al. (2012).

6.5.1 Tamanho de amostra em regressão de Poisson

Para o cálculo do tamanho de amostra no contexto de regressão de Poisson, podem ser utilizados
desenvolvimentos específicos para o modelo, como o de Signorini (1991) e Shieh (2001), ou situações
mais gerais para modelos lineares generalizados, como em Self e Mauritsen (1988) e Self et al. (1992),
dos quais a regressão de Poisson é um caso particular.

Para o caso de apenas uma variável explicativa, Signorini (1991) propôs um método para determinar o
tamanho de amostra (𝑛) para testar a seguinte hipótese relacionada ao coeficiente 𝛽1 da variável 𝑋1 do
modelo de regressão de Poisson, 𝐻0 : 𝛽1 = 𝛽10 versus 𝐻1 : 𝛽1 ≠ 𝛽10, sendo 𝛽10 um valor
pré-especificado que depende do problema em estudo. No artigo há um erro de sinal, aparece
(𝑉𝑎𝑟(𝛽̂1 )𝐻0 )−½, mas o expoente (½) deveria ser positivo, isto é, o correto seria: (𝑉𝑎𝑟(𝛽̂1 )𝐻0 )½ =

√(𝑉𝑎𝑟(𝛽̂1 )𝐻0 . A fórmula geral para 𝑛, já corrigida, é:

2
[𝑧1−𝛼/2 √𝑉𝑎𝑟(𝛽̂1 )𝐻0 + 𝑧1−𝛽 √𝑉𝑎𝑟(𝛽̂1 )𝐻1 ]
(6.17)
𝑛𝑅𝑃(𝑋1),𝑇𝐻2 = 𝜙
𝜇 𝑇 𝑒𝑥𝑝{𝛽10 }(𝛽∗ )2

Na fórmula (6.17), 𝛼 é o nível de significância, (1 − 𝛽) é o poder do teste e 𝑧1−𝛼/2 e 𝑧1−𝛽 são os


percentis da distribuição normal padrão de ordem (1 − 𝛼/2)100% e (1 − 𝛽)100%. O percentil
𝑧1−𝛼/2 é utilizado para hipóteses bilaterais; para hipóteses unilaterais, 𝑛𝑅𝑃(𝑋1),𝑇𝐻1, basta substituir
𝑧1−𝛼/2 por 𝑧1−𝛼 , o percentil de ordem (1 − 𝛼)100% da normal padrão. O parâmetro 𝜇 𝑇 é a média do
tempo de exposição ou da variável de ajuste; 𝛽10 (tipicamente 0) e 𝛽∗ representam os valores do
coeficiente 𝛽1 sob 𝐻0 e 𝐻1 , respectivamente. O parâmetro 𝜙 denota a medida de superdispersão,
fenômeno que eventualmente ocorre e é definido como a variância excedente da variância nominal
especificada pelo modelo de Poisson. Detalhes adicionais sobre como detectar e corrigir a
superdispersão podem ser obtidos em literatura especializada, por exemplo, em Tang et al. (2012).
Dependendo da distribuição da variável explicativa, há uma expressão para as variâncias (indicadas por
𝑉𝑎𝑟) que aparecem em (6.17), que são calculadas sob 𝐻0 ou 𝐻1 . No Quadro 6.11 apresentam-se
expressões para 𝑉𝑎𝑟(𝛽̂1 )𝐻1 para algumas distribuições comuns e é mais geral do que o do artigo
original de Signorini (1991). Ele foi organizado a partir do manual do software Pass®14, no qual se
encontra implementado o método. As fórmulas para 𝑉𝑎𝑟(𝛽̂1 )𝐻0 são obtidas de forma similar, bastando
substituir o valor de 𝛽1 sob 𝐻0 .

Quadro 6.11 - Expressões para 𝑉𝑎𝑟(𝛽̂1 )𝐻1 para algumas distribuições comuns

Distribuição de 𝑋1 𝑉𝑎𝑟(𝛽̂1 )𝐻1 = 𝑉𝑎𝑟(𝛽̂1 |𝛽1 = 𝛽∗ ) 𝑉𝑎𝑟(𝑋1 )

Normal com 𝛽∗ 2 𝜎𝑋
2
1)
média 𝜇𝑋1 e 1 −(𝛽∗ 𝜇𝑋1 +
2 𝜎𝑋21
𝑒
variância 𝜎𝑋21 𝜎𝑋21

Bernoulli com 1 1
+ 𝜋𝑋1 (1 − 𝜋𝑋1 )
parâmetro 𝜋𝑋1 1 − 𝜋𝑋1 𝜋𝑋1 𝑒𝛽∗

Exponencial com (𝜆𝑋1 − 𝛽∗ )3


𝜆𝑋1 −2
parâmetro 𝜆𝑋1 𝜆𝑋1

𝑚
𝑚(𝑚11 ) − 𝑚12

𝑒 𝛽∗𝐷 − 𝑒 𝛽∗𝐶
𝑚=
(𝐷 − 𝐶)𝛽∗
Uniforme no (𝐷 − 𝐶)2
intervalo (C,D) 𝑒 𝛽∗𝐷 (𝛽∗ 𝐷 − 1) − 𝑒 𝛽∗𝐷 (𝛽∗ 𝐶 − 1) 12
𝑚1 =
(𝐷 − 𝐶)𝛽∗ 2

𝑒 𝛽∗𝐷 (2 − 2𝛽∗ 𝐷 − 𝛽∗ 2 𝐷2 ) − 𝑒 𝛽∗𝐶 (2 − 2𝛽∗ 𝐶 − 𝛽∗ 2 𝐶 2 )


𝑚11 =
(𝐷 − 𝐶)𝛽∗ 3

Quando outras variáveis explicativas são acrescidas ao modelo, uma possibilidade é seguir os trabalhos
de Hsieh et al. (1998) para regressão logística múltipla e de Hsieh e Lavori (2000) para regressão de
Cox com múltiplas covariáveis, adotando o seguinte procedimento: inflacionar o tamanho de amostra
de regressão de Poisson com apenas uma covariável pelo fator 1/(1 − 𝑅 2 ), sendo 𝑅 2 o quadrado da
correlação entre a covariável que corresponde ao parâmetro que está sendo testado e as demais
covariáveis do modelo. Considerando 𝑅 2 como o quadrado do coeficiente da correlação múltipla
quando a variável de interesse é ajustada em modelo de regressão com outras variáveis no modelo,
o software Pass®14 apresenta a seguinte fórmula para o tamanho de amostra:

2
[𝑧1−𝛼/2 √𝑉𝑎𝑟(𝛽̂1 )𝐻0 + 𝑧1−𝛽 √𝑉𝑎𝑟(𝛽̂1 )𝐻1 ]
(6.18)
𝑛𝑅𝑃𝑀𝑢𝑙𝑡 = 𝜙
𝜇 𝑇 𝑒𝑥𝑝{𝛽10 }(𝛽∗ )2 (1 − 𝑅2)

Como (1 − 𝑅 2 ) < 1, o tamanho de amostra obtido incorporando mais covariáveis é maior que o que só
leva em conta uma única covariável, dado na fórmula (6.17). Assim como em regressão logística,
em regressão de Poisson há escassez de trabalhos sobre o coeficiente de correlação 𝑅 2 e,
consequentemente, sobre o fator 1/(1 − 𝑅 2 ), não havendo mesmo unanimidade quanto à sua
utilização. Para mais detalhes, pode-se consultar, por exemplo, Hosmer et al. (2013) e a seção 5.4
de Ryan (2013).

Além da metodologia apresentada, baseada em Signorini (1991), há trabalhos alternativos para a


determinação do tamanho de amostra em estudos que envolvam amostras de Poisson. Nos três
primeiros trabalhos citados a seguir, o efeito de covariáveis pode ser incorporado ao cálculo.

Self e Mauritsen (1988) apresentam um procedimento para estimar o poder e o tamanho de amostra no
contexto de modelos lineares generalizados. É adotado o teste do escore e para o cálculo do poder é
utilizada a aproximação assintótica, cuja adequação é avaliada por meio de um estudo de simulação.

Self et al. (1992) estendem o trabalho de Self e Mauritsen (1988) para o teste da razão de
verossimilhanças. Ambos são limitados a modelos em que o número de configurações de covariáveis é
finito, como as distribuições Bernoulli e multinomial.

Shieh (2000) generaliza o trabalho de Self et al. (1992) para acomodar o caso de covariáveis contínuas,
mas também pode ser aplicado para modelos que incluem covariáveis discretas. Além disso, a partir de
uma aproximação utilizando o parâmetro de não centralidade da distribuição qui-quadrado não central
para o teste da razão de verossimilhanças, Shieh (2000) fornece uma simplificação que reduz
consideravelmente os cálculos, mas mantém a precisão. Seus resultados de simulação mostram que o
método funciona bem para os modelos de regressão logística e de Poisson e que podem então ser
usados na prática.
Lindsey (1997b) apresenta uma fórmula simples para o cálculo exato para modelos da família
exponencial cujo enfoque é baseado na verossimilhança. Há vantagens, como, por exemplo, apresenta
solução exata e não aproximada e não exige entrar com parâmetros não conhecidos, o que em geral é
necessário em fórmulas para cálculos de tamanho de amostra e poder. O caso de uma média da Poisson
é exemplificado no artigo.

Exemplo 6.9 - Dimensionamento de amostra para regressão de Poisson com uma covariável com
distribuição normal padrão ╬╬

Para o modelo de regressão de Poisson com apenas uma variável explicativa (𝑋1 ), a metodologia
apresentada na seção será ilustrada testando as hipóteses 𝐻0 : 𝑒𝑥𝑝{𝛽1 } = 1 versus 𝐻1 : 𝑒𝑥𝑝{𝛽1 } = 0,7,
o que equivale a testar 𝐻0 : 𝛽1 = 0 versus 𝐻1 : 𝛽1 = −0,357 = 𝛽∗ . Supondo que a variável 𝑋1 tenha
distribuição normal padrão, 𝑉𝑎𝑟(𝛽̂1 ) = 𝑒𝑥𝑝{−𝛽∗2 /2} (ver Quadro 6.11). Assim, 𝑉𝑎𝑟(𝛽
̂ ) =
1 𝐻 1

𝑒𝑥𝑝{−(−0,357)2 /2} = 0,938. Para o nível de significância de 5% e o poder de 95%, se 𝜇 𝑇 = 1, e


assumindo que não haja superdispersão (𝜙 = 1), aplicando a fórmula (6.17) para hipóteses unilaterais,
2
̂1 )𝐻 +𝑧1−𝛽 √𝑉𝑎𝑟(𝛽
[𝑧1−𝛼 √𝑉𝑎𝑟(𝛽 ̂1 )𝐻 ]
0 1
o tamanho de amostra mínimo necessário é 𝑛𝑅𝑃(𝑋1),𝑇𝐻1 = 𝜙 =
𝜇𝑇 𝑒𝑥𝑝{𝛽10 }(𝛽∗ )2
2
[1,645√1+1,645√0,938]
= 82,275, que deve ser arredondado para 83.
1(1)(−0,357)2

Se as hipóteses testadas forem bilaterais, sob as mesmas condições, isto é, 𝜙 = 1, 𝜇 𝑇 = 1,


2
̂1 )𝐻 +𝑍1−𝛽 √𝑉𝑎𝑟(𝛽
[𝑧1−𝛼/2 √𝑉𝑎𝑟(𝛽 ̂1 )𝐻 ]
0 1
𝛼 = 0,05 e poder de 95% (𝛽 = 0,05), 𝑛𝑅𝑃(𝑋1),𝑇𝐻2 = 𝜙 =
𝜇𝑇 𝑒𝑥𝑝{𝛽10 }(𝛽∗ )2
2
[1,960√1+1,645√0,938]
= 99,060. Neste caso, o tamanho da amostra é 100, portanto, haverá acréscimo de
1(1)(−0,357)2

17 participantes em relação ao caso de hipóteses unilaterais.

Voltando ao caso de hipóteses unilaterais, mas na presença de outras covariáveis no modelo supondo
1 1
que 𝑅 2 = 0,90, o tamanho de amostra deve ser calculado como (1−𝑅2 ) × 82,275 = (1−0,90) × 82,275 =

10 × 82,275 = 822,75. Neste caso, o tamanho de amostra deve ser 823, quase 10 vezes maior que no
caso com apenas uma variável explicativa (𝑋1 ). Para o caso de hipóteses bilaterais, o cálculo do
1 1
tamanho de amostra é (1−𝑅 2 )
× 99,060 = (1−0,90) × 99,060 = 10 × 99,060 = 990,60, ou seja,

o tamanho da amostra é 991, novamente quase 10 vezes maior que o caso univariado (apenas 𝑋1).
Exemplo 6.10 - Dimensionamento de amostra para o modelo de Poisson univariado com
covariável Bernoulli ╬╬

Trata-se de uma adaptação do exemplo de Signorini (1991) relacionado ao problema de otite.


Em estudo sobre a poluição da água nos arredores de Sidney, na Austrália, examinou-se o número de
infecções de ouvido contraídas por nadadores. A modelagem foi feita da seguinte forma: a variável
resposta é o número de infecções, potencialmente uma variável aleatória de Poisson, e será considerada
uma única covariável do tipo Bernoulli, indicando o local em que a pessoa costuma nadar, codificada
como 𝑋 = 1, se em praias, e 𝑋 = 0, se em outros lugares ou se nadador infrequente. Nesta última
categoria, a taxa de infecção foi estimada em 0,85.

Espera-se observar uma taxa de infecção de nadadores de praia (𝑋 = 1) que seja pelo menos 30%
superior à taxa correspondente quando 𝑋 = 0. Formulando em termos dos parâmetros definidos
anteriormente, tem-se que 𝑒𝑥𝑝{𝛽10 } = 0,85, 𝛽10 = 𝑙𝑜𝑔(0,85) = −0,1625. E supondo que houve um
acréscimo das taxas de cerca de 50% de um grupo em relação ao outro, 𝑒𝑥𝑝{𝛽∗ } = 1,275 tal que
1,275/0,85 = 1,50, resultando em 𝛽∗ = 𝑙𝑜𝑔(1,275) = 0,24295.

Como os dados foram coletados em uma única estação do ano, não há necessidade de se considerar o
período de tempo, podendo-se tomar 𝜇 𝑇 = 1. Além disso, como foi amostrado o mesmo número de
nadadores das duas categorias (𝑋 = 1 e 𝑋 = 0) durante o período do estudo, 𝜋𝑋1 = 0,5. Assim, as
variâncias necessárias nos cálculos dos tamanhos da amostra são (ver no Quadro 6.11 para o caso
1 1 1 1 1 1
de Bernoulli com parâmetro 𝜋𝑋1 ): 𝑉𝑎𝑟(𝛽̂1 )𝐻0 = +𝜋 𝛽 = + 0,5×0,85 = 0,5 + 0,425 =
1−𝜋𝑋1 𝑋1 𝑒 10 1−0,5

1 1 1 1 1 1
4,3529 enquanto que 𝑉𝑎𝑟(𝛽̂1 ) = 1−𝜋 +𝜋 𝛽
= 1−0,5 + 0,5×1,275 = 0,5 + 0,6375 = 3,5686.
𝐻1 𝑋1 𝑋1 𝑒 ∗

Com o pressuposto de não ocorrência de superdispersão, isto é, 𝜙 = 1, considerando que o nível de


significância seja de 5% e fixando o poder do teste em 80%, na comparação dos dois grupos de
nadadores de forma a detectar um acréscimo de pelo menos 50% na taxa de infecção, o tamanho de
2
̂1 ) +𝑍1−𝛽 √𝑉𝑎𝑟(𝛽
[𝑧1−𝛼/2 √𝑉𝑎𝑟(𝛽 ̂1 ) ]
𝐻 0 𝐻 1
amostra obtido pela fórmula (6.17) é 𝑛𝑅𝑃(𝑋1),𝑇𝐻2 = 𝜙 =
𝜇𝑇 exp{𝛽10 }(𝛽∗ )2
2
[1,96√4,3529+0,8416√3,5686]
1× = 642,8475. Assim, devem ser recrutados 643 participantes.
1×0,85(0,24295)2

A Tabela 6.10 mostra os resultados segundo o poder do teste e para três valores de proporções entre as
categorias de nadadores: 𝜋𝑋1 = 0,5; 0,7; 0,9. Como esperado, à medida que o poder aumenta,
o tamanho da amostra também cresce. Fixando o poder, nota-se acentuado efeito da proporção das
categorias dos nadadores (𝜋𝑋1 ). Assim, quanto maior o desbalanceamento dos grupos, maior será o
tamanho de amostra necessário.

Tabela 6.10 - Tamanhos de amostras obtidos pela fórmula (6.17), supondo que a única
covariável do modelo de regressão de Poisson seja Bernoulli (hipóteses bilaterais)

Poder 𝑛 (𝜋𝑋1 = 0,5) 𝑛 (𝜋𝑋1 = 0,7) 𝑛 (𝜋𝑋1 = 0,9)


80% 643 758 1.749
85% 729 862 1.997
90% 845 1.003 2.332
95% 1.033 1.232 2.877
99% 1.435 1.724 4.054

6.6 Recursos computacionais para os cálculos do tamanho da amostra


e/ou do poder

Várias fórmulas fechadas de tamanho de amostra do capítulo foram programadas em planilhas Excel® e
encontram-se disponíveis para os leitores (ver informações na apresentação do livro; os exemplos com
fórmulas programadas estão sinalizados por ╬╬ ).

Alternativamente, alguns cálculos de tamanho de amostra e/ou do poder de testes discutidos ou


relacionados ao assunto do capítulo podem ser obtidos pelos seguintes softwares/programas citados no
capítulo 11: Pass®, nQuery Advisor®, PS: Power and Sample Size Calculation e pacotes do software
livre R: pwr e HMISC.
7.1 Introdução

Em vários tipos de estudos clínicos, a principal resposta de interesse é o tempo entre o início da
observação do paciente e a ocorrência de um evento com significado especial. Exemplos importantes
são a sobrevida global (o tempo entre o início do estudo até a morte do paciente), o tempo livre de
doença (o tempo entre a remissão e a recidiva) e o tempo de aparecimento de um efeito adverso.

O tempo decorrido do início da observação do paciente até o evento de interesse, mesmo que este seja
algo desejável, é referido na literatura como o tempo até a "falha". Esta nomenclatura tem origem na
área industrial, referindo-se a falhas de equipamentos e/ou peças; nesse contexto, o conjunto de
técnicas de análise de dados é denominado análise de confiabilidade. Em um estudo médico,
frequentemente a falha é a morte, daí o nome análise da sobrevivência ou sobrevida. Entretanto,
os conceitos e métodos podem ser aplicados para qualquer tipo de evento de interesse: recidiva, alguma
interrupção, como o uso de DIU, o aleitamento, algum tratamento utilizado, etc. Denominação mais
geral para a metodologia em questão seria então “análise de tempo até a ocorrência de um evento”.

Existem diferentes enfoques para análise desse tipo de dados, destacando-se o paramétrico e o não
paramétrico. O primeiro utiliza uma distribuição de probabilidade apropriada para descrever a variável
tempo, que obviamente é estritamente positiva, sendo a exponencial, a Weibull e a lognormal as mais
comuns; é de uso mais tradicional na área industrial, em que os produtos são fabricados em série.
Por outro lado, o enfoque não paramétrico é mais comum na área médica, sendo mais flexível para
modelar dados sujeitos à variabilidade mais acentuada.

Tópicos fundamentais da área de sobrevivência incluem: estimação da função de sobrevivência,


apresentação do melhor sumário possível para a experiência de sobrevida de um grupo, teste-padrão
para comparar as sobrevidas de grupos e avaliação de fatores prognósticos no tempo de ocorrência de
um evento de interesse. Breve revisão sobre análise de sobrevivência encontra-se no capítulo 7 de
Cook e DeMets (2008).

7.1.1 Conceitos básicos em análise de sobrevivência

A seguir apresentam-se os conceitos básicos em análise de sobrevivência, tais como: função de


sobrevivência, função de risco e censura. Comenta-se também sobre métodos para estimar e comparar
curvas de sobrevivência.

Tempo do paciente e tempo do estudo

Idealmente, todos os pacientes devem ser recrutados e acompanhados pelo mesmo tempo, mas não é o
que ocorre em um estudo típico. Em geral, define-se um período de recrutamento e os pacientes entram
no estudo em diferentes datas. Depois que eles entram, são seguidos até que o evento ocorra
ou que saiam do estudo (observação incompleta) ou ainda até o final do mesmo, caso em que o
evento não ocorreu.

Para a análise dos dados, considera-se como tempo inicial (𝑡0 ) a data de entrada no estudo,
funcionando como se todos entrassem na mesma data. O tempo de acompanhamento geral será o da
duração do estudo.

É extremamente importante a definição clara dos tempos (inicial e final) de forma a atender aos
objetivos do estudo, pois em algumas situações pode haver alternativas. Por exemplo, em estudo sobre
infecção hospitalar, pode-se considerar a data de internação ou a data da primeira infecção hospitalar.

Censura

Uma complicação séria na análise estatística da sobrevivência é a possibilidade de censura, ou fato de


que alguns pacientes não são observados por todo o período até a ocorrência do evento de interesse.
Assim, censura implica a incerteza sobre o momento da ocorrência da falha (do evento). Isso pode
acontecer por várias razões, tais como:

a) Perda de acompanhamento: após entrar no estudo, o paciente decide não ir até o fim, seja
porque mudou de local de residência, de hospital ou simplesmente porque perdeu o interesse ou
confiança no tratamento;

b) término do estudo: para alguns pacientes o estudo termina antes da ocorrência da falha (do evento);

c) falha devida a outra causa: a falha ou a morte de um paciente pode ocorrer devido a um fator
totalmente independente do tratamento. Por exemplo, em um estudo de tratamento contra o câncer uma
morte causada por um acidente automobilístico deve ser considerada como sendo uma censura.
Entretanto, é importante estar seguro de que a morte claramente não está relacionada à doença, por
exemplo, devido a um efeito colateral relacionado ao tratamento.

Como, em geral, os tempos de censura causados pelos mecanismos descritos são aleatórios, será
considerado o caso de censura aleatória, mais comum em estudos clínicos, embora existam outros
possíveis tipos de censura, amplamente descritos na literatura, por exemplo, em Colosimo e Giolo
(2006), Carvalho et al. (2011) e Collett (2015).

Função de sobrevivência

A função de sobrevivência, denotada por 𝑆(𝑡), fornece, para cada valor de 𝑡, a probabilidade de que um
paciente típico sobreviva um tempo maior que 𝑡. Se 𝑇 é o tempo do início do acompanhamento até a
falha, define-se: 𝑆(𝑡) = 𝑃𝑟[𝑇 > 𝑡]. Observa-se que, à medida que o tempo passa, a probabilidade de
sobrevivência diminui, ou seja, o risco de morte aumenta. Naturalmente, a função pode ser estendida a
qualquer tipo de ocorrência de evento.

O método para estimar a função de sobrevivência 𝑆(𝑡) depende da existência ou não de censuras.
Para a situação mais comum de dados com observações censuradas, dois métodos são mais utilizados:
o método atuarial (também conhecido como método de tabela de vida) e o método de Kaplan-Meier
(também conhecido como método limite-produto). Ambos estão baseados nos mesmos princípios
básicos que ajustam de alguma forma as censuras. Embora o método de Kaplan-Meier seja mais
utilizado nas revistas científicas e possua melhores propriedades do que o de tabelas de vida,
este último é útil em situações em que o tempo exato da ocorrência do evento não esteja disponível,
mas que o período de intervalo seja conhecido.
Função de risco ou risco instantâneo ou de taxa de falha (hazard)

A função de risco, em inglês, hazard function, também chamada de função de taxa de falha - em
linguagem mais específica da área epidemiológica, função ou taxa de incidência, força de infecção ou,
ainda, força de mortalidade - é muito importante em análise de sobrevivência e sua definição é:
Pr(𝑡 ≤ 𝑇 ≤ 𝑡 + Δ𝑡|𝑇 > 𝑡)
ℎ(𝑡) = lim . Apesar do nome risco, é uma taxa, não é probabilidade e ℎ(𝑡)
Δ𝑡⟶0 Δ𝑡

pode assumir qualquer valor positivo. Pode-se mostrar que existe a seguinte relação entre ℎ(𝑡),
𝑓(𝑡)
a função de sobrevivência 𝑆(𝑡) e a função densidade de probabilidade 𝑓(𝑡): ℎ(𝑡) = . Naturalmente,
𝑆(𝑡)

há relação inversa entre ℎ(𝑡) e 𝑆(𝑡): à medida que a sobrevivência 𝑆(𝑡) diminui, o risco ℎ(𝑡) aumenta.

Curvas de sobrevivência

Do ponto de vista matemático, o conhecimento do risco instantâneo é equivalente ao conhecimento da


curva de sobrevivência. Conhecida uma dessas duas funções, é possível obter a outra por meio de
manipulações matemáticas. A curva de sobrevivência é mais conveniente para descrição da
mortalidade e o risco instantâneo para estudos analíticos.

A curva de sobrevivência empírica na ausência de censura é obtida de forma muito simples e é dada
Nº de indivíduos que não falharam até o instante de tempo 𝑡
por: 𝑆̂(𝑡) = .
Nº de indivíduos no estudo

Método de Kaplan-Meier

A estimativa da função de sobrevivência, 𝑆̂(𝑡), é uma função degrau que é constante entre os pontos de
ocorrência de mortes. O problema de estimação reduz-se, portanto, às estimativas do valor da função
de sobrevivência nos tempos em que ocorreram mortes. Isso é feito utilizando-se um resultado da
Teoria das Probabilidades que, em linguagem informal, diz, por exemplo, que a probabilidade de o
paciente sobreviver dois anos é igual à probabilidade de sobreviver o primeiro ano e depois o segundo
ano. Esse raciocínio pode ser formalizado como 𝑃𝑟[𝑇 > 𝑡2 ] = 𝑃𝑟[𝑇 > 𝑡2 |𝑇 > 𝑡1 ]𝑃𝑟[𝑇 > 𝑡1 ] =
𝑝₂ ⋅ 𝑝₁, sendo 𝑡1 , 𝑡2 os instantes de ocorrência das duas primeiras mortes.

Esse resultado permite decompor a probabilidade 𝑆(𝑡₂) no produto de duas probabilidades,


muito fáceis de calcular e que usam grupos de pacientes diferentes. Esse raciocínio pode ser
generalizado e então o estimador de Kaplan-Meier é definido usando essa ideia e adaptando-a para o
caso de censuras nos dados. Torna-se necessário introduzir a nomenclatura apresentada no Quadro 7.1.

Quadro 7.1 Nomenclatura usada em análise de sobrevivência

Termo Descrição

𝑡 tempo observado

𝑑 número de mortes ocorridas no tempo 𝑡

𝑛 número de pacientes sob risco imediatamente antes do tempo 𝑡

𝑝 proporção de indivíduos que não morreram no tempo 𝑡

𝑘 número de tempos de mortes distintos.

𝑛𝑖 −𝑑𝑖 𝑑
O estimador de Kaplan-Meier de 𝑆(𝑡) é definido como: 𝑆(𝑡) = ∏𝑘𝑖=1 ( ) = ∏𝑘𝑖=1 (1 − 𝑛𝑖 ) =
𝑛𝑖 𝑖

∏𝑘𝑖=1 𝑝𝑖 . Entre as várias soluções encontradas na literatura para a variabilidade de 𝑆̂(𝑡), a fórmula de
𝑑
Greenwood é provavelmente a mais popular e é dada por 𝑉𝑎𝑟 (𝑆̂(𝑡)) ≈ (𝑆̂(𝑡))2 ∑𝑘𝑖=1 (𝑛 (𝑛 𝑖−𝑑 )).
𝑖 𝑖 𝑖

É importante notar que à medida que o tempo passa, 𝑆(𝑡) é estimada com precisão decrescente.
A explicação é que o número de indivíduos em risco vai diminuindo e no final é geralmente baixo e
pequenas variações nas observações podem acarretar grandes variações nos cálculos de 𝑆̂(𝑡).

Comparação de curvas de sobrevivência

Em algumas situações, a superioridade de um tratamento em relação a outro é bastante evidente.


Entretanto, às vezes as diferenças nem sempre são tão claras, sendo, portanto, necessário um critério
objetivo de decisão.

O teste log-rank é a forma muito utilizada na literatura para comparar duas curvas de sobrevivência.
Para utilizar este teste, o pressuposto de riscos proporcionais deve ser validado, isto é, se 𝜓 é uma
constante que não depende do tempo (𝑡), as funções de taxa de falha (hazards) dos dois grupos podem
ser escritas como ℎ₁(𝑡) = 𝜓ℎ₂(𝑡) ou, equivalentemente, 𝑆₁(𝑡) = (𝑆₂(𝑡))𝜓 .

Suponha-se que dois grupos sejam comparados e que os eventos ocorreram nos seguintes tempos:
𝑡1 < 𝑡2 < ⋯ < 𝑡𝑟 . As hipóteses a serem testadas são 𝐻₀: 𝑆₁(𝑡) = 𝑆₂(𝑡) ⇔ 𝐻₀: 𝜓 = 1 versus
𝐻1 : 𝑆₁(𝑡) ≠ 𝑆₂(𝑡) ⇔ 𝐻1 : 𝜓 ≠ 1. Os dados podem ser organizados na Tabela 7.1.
Tabela 7.1 - Dados para a comparação de dois grupos por meio do teste log-rank

Nº de mortes Nº de sobreviventes Nº sob risco exatamente


Grupo
no tempo 𝑡𝑗 além do tempo 𝑡𝑗 antes do tempo 𝑡𝑗
1 𝑑1𝑗 𝑛1𝑗 − 𝑑1𝑗 𝑛1𝑗
2 𝑑2𝑗 𝑛2𝑗 − 𝑑2𝑗 𝑛2𝑗
Total 𝑑𝑗 𝑛𝑗 − 𝑑𝑗 𝑛𝑗
Nota: 𝑡𝑗 , 𝑗 = 1, ⋯ , 𝑟 (os eventos ocorreram nos seguintes tempos: 𝑡1 < 𝑡2 < ⋯ < 𝑡𝑟 ).

Utilizando a distribuição hipergeométrica, a probabilidade da configuração apresentada na Tabela 7.1 é


𝑑 𝑛 𝑑
( 𝑗 )( 𝑗− 𝑗 )
𝑑1𝑗 𝑛1𝑗−𝑑1𝑗
dada por no tempo 𝑡𝑗 , 𝑗 = 1, ⋯ , 𝑟. A média da variável referente ao número de mortes
𝑛
(𝑛 𝑗 )
1𝑗

(𝑑1𝑗 ) é 𝑒1𝑗 = 𝑛1𝑗 𝑑𝑗 /𝑛𝑗 . Define-se a estatística 𝑈𝐿 = ∑𝑟𝑗=1(𝑑1𝑗 − 𝑒1𝑗 ), que é a diferença entre o total
observado e o número esperado de mortes no grupo 1. A média de 𝑈𝐿 é zero e pela independência entre
os tempos de morte, a variância de 𝑈𝐿 é 𝑉𝐿 = ∑𝑟𝑗=1 𝑣1𝑗 , ou seja, a soma das variâncias de 𝑑1𝑗 ,
𝑛1𝑗 𝑛2𝑗 𝑑𝑗 (𝑛𝑗 −𝑑𝑗 )
sendo 𝑣1𝑗 = . Quando o número de mortes não é muito pequeno, pode-se mostrar que 𝑈𝐿
𝑛𝑗2 (𝑛𝑗 −1)

tem aproximadamente distribuição normal. Assim, 𝑈𝐿 /√𝑉𝐿 tem distribuição normal padrão ou,
equivalentemente, 𝑊𝐿 = 𝑈𝐿 2 /𝑉𝐿 tem distribuição qui-quadrado com um grau de liberdade (𝜒12 ), que é a
estatística do teste log-rank.

O teste log-rank pode ser facilmente estendido para o caso de mais de duas curvas e novamente a
distribuição a ser comparada é a qui-quadrado com o número de graus de liberdade igual ao número de
grupos a serem comparados menos 1.

7.2 Comparação de dois grupos em análise de sobrevivência

Uma situação importante na prática é a comparação de dois grupos (por exemplo, dois tratamentos,
duas drogas ou duas formulações de uma droga) formados por indivíduos considerados homogêneos
quanto a todos os fatores que potencialmente possam interferir na resposta (tempo até a ocorrência do
evento de interesse).

Nesta seção apresentam-se formas de cálculo do tamanho de amostra para estudos de análise de
sobrevivência tendo como objetivo a comparação de dois grupos. Inicialmente, discute-se o
dimensionamento para o caso da comparação de funções de taxa de risco sob a condição de riscos
proporcionais. Segue-se o dimensionamento feito com o pressuposto do tempo de sobrevivência
seguindo a distribuição exponencial e com ajuste de abandonos (dropouts) de participantes do estudo.

7.2.1 Tamanho de amostra para a comparação de funções de taxas de risco sob a condição
de riscos proporcionais

Considere-se o problema da comparação de dois tratamentos, por exemplo, novo e controle (abreviados
por 𝑁 e 𝐶), descritos pelas funções de taxas de risco ℎ𝑁 (𝑡) e ℎ𝐶 (𝑡), respectivamente. Lembrando que a
condição de riscos proporcionais (RP) é expressa como ℎ𝑁 (𝑡) = 𝜓ℎ𝐶 (𝑡), sendo 𝜓 uma constante que
não depende do tempo (𝑡), equivalentemente a relação de RP pode ser reescrita como:

ℎ𝑁 (𝑡)
𝜓= (7.1)
ℎ𝐶 (𝑡)

Definindo 𝜃 = 𝑙𝑜𝑔(𝜓), não há diferença entre os grupos se 𝜃 = 0. Se 𝜃 for negativo, significa que a
sobrevivência do grupo que recebeu o novo tratamento é mais longa que a do tratamento controle;
o contrário acontece se 𝜃 for positivo: quando o tratamento-controle for adotado, a sobrevivência é
maior que a do tratamento novo.

Para a coleta dos dados, fixa-se um período de recrutamento (𝑅) durante o qual os indivíduos são
matriculados no estudo além de um período de seguimento, conhecido como follow-up (𝐹), durante o
qual os participantes estão sob observação e nenhum novo participante entra no estudo.

Em análise de sobrevivência, além do dimensionamento de amostra (o cálculo do total de


participantes), também é importante monitorar o número de falhas de cada tratamento. Assim,
o planejamento do estudo pode ter dois enfoques. O primeiro seria obter o número mínimo de falhas
(𝐷) que deve ocorrer até o fim do estudo, de modo a garantir poder de (1 − 𝛽), tendo fixado nível de
significância 𝛼. A segunda possibilidade, que na prática é mais comum, consiste em determinar o
número total de pacientes a serem examinados (ou de forma geral, número total de participantes do
estudo), sabendo-se que se dispõe inicialmente de um período 𝑅 de recrutamento preestabelecido,
mais um tempo de seguimento 𝐹 para se observar possíveis falhas.

Na comparação de duas curvas de sobrevivência, o cálculo do tamanho de amostra é uma extensão


do problema de duas proporções provenientes de duas populações independentes. Entretanto, dois
parâmetros adicionais são necessários para o cálculo:
a) A proporção esperada de falhas (durante o período estipulado para o registro dos dados) em relação
ao total da amostra de indivíduos sob risco;

b) a proporção dos pacientes nos dois grupos.

Detalhes podem ser encontrados em Collett (2015), que usa os desenvolvimentos originalmente
apresentados por Schoenfeld (1983).

1º enfoque: cálculo do número de eventos (mortes ou de forma geral, falhas)

Esse cálculo destina-se a situações em que o estudo pode durar até a detecção de um número mínimo
de falhas (𝐷).

Inicialmente será assumido balanceamento, isto é, que o mesmo número de indivíduos seja alocado a
cada tratamento. Fixando nível de significância 𝛼, suponha probabilidade de (1 − 𝛽) de se declarar
que a razão dos riscos observados (na escala logarítmica) seja significativamente diferente de zero,
quando de fato 𝜃 = 𝜃𝑅 . O número necessário de mortes 𝐷 até o final do estudo é dado por:

4(𝑧1−𝛼/2 + 𝑧1−𝛽 )2 4𝑐(𝛼, 𝛽)


𝐷= = (7.2)
𝜃𝑅2 (𝜃𝑅 )2

Na fórmula (7.2), 𝑧1−𝛼/2 e 𝑧1−𝛽 são, respectivamente, os percentis de ordem (1 − 𝛼/2)100% e


(1 − 𝛽)100% da distribuição normal padrão e 𝜃𝑅 é o valor especificado do logaritmo da razão entre as
duas hazards, que deve ser escolhido de forma apropriada.

A constante 𝑐(𝛼, 𝛽) = (𝑧1−𝛼/2 + 𝑧1−𝛽 )2 que aparece na fórmula (7.2) é apresentada no Quadro 7.2
para valores típicos de níveis de significância (𝛼) e valores de poder do teste (1 − 𝛽).

Quadro 7.2 - Valores de 𝑐(𝛼, 𝛽) = (𝑧1−𝛼/2 + 𝑧1−𝛽 )2 que aparece na fórmula (7.2) para
valores típicos de níveis de significância (𝛼) e valores de poder do teste (1 − 𝛽)
1−𝛽
𝛼
0,80 0,90 0,95 0,99
0,10 6,18 8,56 10,82 15,77
0,05 7,85 10,51 13,00 18,37
0,01 11,68 14,88 17,81 24,03
0,001 17,08 20,90 24,36 31,55
Na ausência de balanceamento, se a proporção de indivíduos a serem alocados a um dos grupos for 𝜋,
e, portanto, o complementar (1 − 𝜋) correspondente ao segundo grupo, a fórmula (7.2) deve ser
corrigida da seguinte forma:

(𝑧1−𝛼/2 + 𝑧1−𝛽 )2 𝑐(𝛼, 𝛽)


𝐷𝜋 = = (7.3)
𝜋(1 − 𝜋)𝜃𝑅2 𝜋(1 − 𝜋)(𝜃𝑅 )2

Como sempre, a recomendação é de que o número obtido para 𝐷 (ou 𝐷𝜋 ) seja arredondado para mais,
de modo a compensar o cálculo aproximado.

Exemplo 7.1 - Cálculo do número de mortes utilizando a curva de sobrevivência pelo método de
Kaplan-Meier (adaptação do exemplo extraído de COLLETT, 2015) ╬╬

Pacientes que sofrem de hepatite crônica ativa (HCA) podem rapidamente progredir para morte
precoce por causa de falha hepática. Ao planejar um ensaio clínico para testar a sobrevivência de
pacientes com essa doença recebendo novo tratamento, deve-se ter disponível informação sobre a curva
de sobrevivência referente ao tratamento-controle administrado a pacientes na mesma faixa etária dos
que se pretende estudar. A partir da curva de sobrevivência obtida pelo método de Kaplan-Meier, têm-
se as seguintes informações: o tempo mediano é 3,3 anos e, por exemplo, as taxas de sobrevida após
dois, quatro e seis anos são 70%, 45% e 25%, respectivamente. Pela notação adotada: 𝑆𝐶 (2) = 0,70,
𝑆𝐶 (4) = 0,45 e 𝑆𝐶 (6) = 0,25.

Espera-se aumento da taxa de sobrevida com o novo tratamento e aos cinco anos a previsão é de que a
taxa do controle, que era de 0,41, passe para 0,60. Supondo que os riscos sejam proporcionais, a razão
ℎ𝑁 (𝑡) 𝑙𝑜𝑔(𝑆𝑁 (𝑡)) 𝑙𝑜𝑔(0,60)
das taxas de falha é 𝜓𝑅 = = = 𝑙𝑜𝑔(0,41) = 0,57.
ℎ𝐶 (𝑡) 𝑙𝑜𝑔(𝑆𝐶 (𝑡))

A função de sobrevivência referente ao novo tratamento pode ser estimada por 𝑆𝐶 𝜓𝑅 . Por exemplo,
𝑆𝑁 (2) = 0,700,57 = 0,82; 𝑆𝑁 (4) = 0,450,57 = 0,63; 𝑆𝑁 (6) = 0,250,57 = 0,45. Assim, é possível
traçar a curva de sobrevivência, cuja mediana é cerca de seis anos, quase o dobro da mediana
referente ao tratamento-controle (3,3). Pode-se observar a superioridade do novo tratamento em
relação ao controle.

Para a comparação dos dois tratamentos quanto à sobrevida, serão fixados nível de significância de 5%
(𝛼 = 0,05), poder de 90% (1 − 𝛽 = 0,90) e tomado como referência as informações sobre as
sobrevivências aos cinco anos: 𝜃𝑅 = 𝑙𝑜𝑔(𝜓𝑅 ) = 𝑙𝑜𝑔(0,573) = −0,557. Utilizando a fórmula (7.2),
4(𝑧1−𝛼/2 +𝑧1−𝛽 )2 4(1,960+1,282)2
calcula-se que o número de mortes a ser observado é 𝐷 = 2 = = 135,511,
𝜃𝑅 (−0,557)2

4𝑐(𝛼,𝛽) 4(10,51)
ou, utilizando a constante do Quadro 7.2, 𝐷 = = (−0,557)2 = 135,504. Na prática, ambos os
(𝜃𝑅 )2

resultados devem ser arredondados para 136 ou, com melhor margem de segurança, para 140. Assim,
se os grupos forem de iguais tamanhos, 70 pacientes devem ser alocados a cada grupo ou, no caso de
não balanceamento dos grupos, deve-se ponderar a amostra.

A Tabela 7.2 mostra os resultados do número de mortes (𝐷), obtidos pela fórmula (7.3), para várias
proporções (parâmetro 𝜋) de indivíduos a serem alocados a um dos dois grupos. Nota-se que à medida
que o desbalanceamento aumenta, que 𝜋 se afasta do valor 0,50, o valor de 𝐷 aumenta.

Tabela 7.2 - Número de mortes (𝐷), obtido pela fórmula (7.3), quando
a proporção de indivíduos a serem alocados a um dos grupos é 𝜋

𝜋 𝐷 (4 casas decimais) 𝐷 (nº inteiro)


0,50 135,4771 136
0,55 136,8455 137
0,60 141,1219 142
0,65 148,8759 149
0,70 161,2822 162
0,75 180,6361 181
0,80 211,6829 212
0,85 265,6413 266
0,90 376,3252 377

2º enfoque: cálculo do número total de participantes do estudo

Para calcular o número total de pacientes (𝑛) em um estudo de sobrevivência, isto é, o número de
falhas mais o número de sobreviventes, deve-se levar em consideração a probabilidade de falha durante
o período total de duração do estudo, 𝑃𝑟(𝑓𝑎𝑙ℎ𝑎) da seguinte forma:

𝐷
𝑛= (7.4)
𝑃𝑟(𝑓𝑎𝑙ℎ𝑎)

Na fórmula (7.4), 𝐷 é o número de mortes dado por (7.2) e pode-se mostrar que a probabilidade de
falha pode ser obtida por:

𝑆̅(𝐹) + 4𝑆̅(0,5𝑅 + 𝐹) + 𝑆̅(𝑅 + 𝐹)


𝑃𝑟(𝑓𝑎𝑙ℎ𝑎) = 1 − (7.5)
6

Em (7.5), 𝑅 e 𝐹 são os períodos de recrutamento e de seguimento (em inglês follow-up),


respectivamente, ̅
𝑆(𝐹) = (𝑆𝐶 (𝑡) + 𝑆𝑁 (𝑡))/2, sendo 𝑆𝐶 (𝑡) e 𝑆𝑁 (𝑡) os valores estimados pela função de
sobrevivência no tempo 𝑡, nos grupos que receberam os tratamentos controle (C) e novo (𝑁),
respectivamente.

Se 𝑛 indivíduos entram no estudo no período de recrutamento 𝑅, diga-se 𝑅 meses, a taxa de entrada por
mês é 𝑚 = 𝑛/𝑅. Na prática, é provável ter alguma ideia sobre a taxa de recrutamento (𝑚). O número
de pacientes recrutado no período 𝑅 é 𝑚𝑅 e o número esperado de falhas é dado por
𝑚𝑅 × 𝑃𝑟(𝑓𝑎𝑙ℎ𝑎).

Os valores de 𝑅 e 𝐹 que tornam esse valor próximo do requerido do número de falhas, 𝐷, podem ser
determinados numericamente, por exemplo, tentando diferentes valores de 𝑅 e 𝐹. Para resolver este
algoritmo, um método de otimização pode ser usado para encontrar o valor de 𝑅 que torne a seguinte
expressão perto de zero para um leque de valores de 𝐹:

𝐷 − {𝑚𝑅 × 𝑃𝑟(𝑓𝑎𝑙ℎ𝑎)} (7.6)

Alternativamente, igualando a fórmula (7.6) a zero, o valor de 𝐹 que fornece a solução da equação
pode ser determinada para uma gama de valores de 𝑅. Uma tabela cruzada com entradas de valores de
𝑅 e 𝐹 será útil no planejamento do estudo.

Exemplo 7.2 - Cálculo do número total de participantes do estudo com o pressuposto de


riscos proporcionais ╬╬

No exemplo 7.1 sobre a HCA, com o pressuposto de riscos proporcionais, calculou-se que a razão das
taxas de falha foi 0,57 e que 𝐷 = 136, que será aproximado para 𝐷 = 140. Supondo que o período de
recrutamento do estudo seja de 18 meses (𝑅 = 18), com duração de seguimento de 24 meses (𝐹 = 24),
a probabilidade de morte calculada pela fórmula (7.5) é: 𝑃𝑟(𝑓𝑎𝑙ℎ𝑎) = 1 − {𝑆̅(𝐹) + 4𝑆̅(0,5𝑅 +
𝐹) + 𝑆̅(𝑅 + 𝐹)}/6 = 1 − {𝑆̅(24) + 4𝑆̅(33) + 𝑆̅(42)}/6.
Tomando como base os dados disponíveis sobre a sobrevivência do tratamento-controle, e a razão 0,57
(portanto, é possível fazer a projeção da curva de sobrevivência do novo tratamento), os seguintes
𝑆 (24)+𝑆 (24) 0,70+0,82 𝑆 (33)+𝑆 (33) 0,57+0,73
resultados foram obtidos: ̅
𝑆(24) = 𝑃 2 𝑁 = 2
= 0,76; ̅
𝑆(33) = 𝑃 2 𝑁 = 2
=
𝑆𝑃 (42)+𝑆𝑁 (42) 0,45+0,63
0,65; ̅
𝑆(42) = 2
= 2
= 0,54.

Assim, a probabilidade de falha é calculada por 𝑃𝑟(𝑓𝑎𝑙ℎ𝑎) = 1 − {𝑆̅(24) + 4𝑆̅(33) + 𝑆̅(42)}/6 =


𝐷 140
1 − {0,76 + 4(0,65) + 0,54}/6 = 0,35. Pela fórmula (7.4), 𝑛 = 𝑃𝑟(𝑓𝑎𝑙ℎ𝑎) = 0,35 = 400. Em palavras,

400 pacientes devem ser recrutados durante 18 meses, o que equivale à taxa de recrutamento mensal de
aproximadamente 22 pacientes (400/18= 22,22).

Nos cálculos anteriores em que o período de recrutamento foi de 18 meses (𝑅 = 18) e no planejamento
decidiu-se esperar até a ocorrência de 140 mortes (𝐷 = 140), o que resultou em recrutar 400
participantes para o estudo (𝑛 = 400), a taxa de recrutamento é de praticamente 22 pacientes por mês.
Se na prática só for possível conseguir um número inferior de pacientes, diga-se 18, será necessário
estender o período de recrutamento para garantir que haja suficiente número de indivíduos
que resultem no número de mortes estabelecido (140) para fazer a comparação desejada
entre os tratamentos.

Se tanto o período de recrutamento como o período adicional foram de 24 meses (𝑅 = 24 e 𝐹 = 24),


a probabilidade de morte nos quatro anos do estudo (𝑅 + 𝐹 = 48) é 𝑃𝑟(𝑓𝑎𝑙ℎ𝑎 ) = 1 − {𝑆̅(𝐹) +
4𝑆̅(0,5𝑅 + 𝐹) + 𝑆̅(𝑅 + 𝐹)}/6 = 1 − {𝑆̅(24) + 4𝑆̅(36) + 𝑆̅(48)}/6 = 1 − {0,76 + 4(0,65) + 0,50}/
6 = 0,36. Quando 𝐷 = 140, pela fórmula (7.4), 𝑛 = 140/0,36 = 388,89, portanto, o número de
pacientes deve ser 393. Mantendo 𝐷 = 140, várias combinações de 𝑅 e 𝐹 são possíveis, inclusive só
com o período de recrutamento, sem o período adicional de acompanhamento (𝐹 = 0).

Em resumo, o cálculo do número de mortes depende do período de recrutamento (𝑅) e do período


adicional de acompanhamento (𝐹), como mostrado a seguir. As tabelas 7.3 e 7.4 apresentam os dados
necessários nos cálculos do tamanho da amostra (𝑛) para três situações: a) 𝑅 = 18 e 𝐹 = 24;
b) 𝑅 = 24 e 𝐹 = 24; c) 𝑅 = 20 e 𝐹 = 0. São necessárias informações dos valores das sobrevivências
nos pontos referentes a 𝐹, (0,5𝑅 + 𝐹) e (𝑅 + 𝐹). Tais valores para as três situações são:
a) 𝐹 = 24; 0,5𝑅 + 𝐹 = 33 e 𝑅 + 𝐹 = 42; b) 𝐹 = 24; 0,5𝑅 + 𝐹 = 36 e 𝑅 + 𝐹 = 48; c) 𝐹 = 0;
0,5𝑅 + 𝐹 = 10 e 𝑅 + 𝐹 = 20.
Tabela 7.3 - Valores de sobrevivência para os tratamentos controle (𝐶) e
novo (𝑁) durante os períodos de recrutamento (𝑅) e de seguimento (𝐹)

𝑅 𝐹 𝑆𝐶 (𝐹) 𝑆𝑁 (𝐹) 𝑆𝐶 (0,5𝑅 + 𝐹) 𝑆𝑁 (0,5𝑅 + 𝐹) 𝑆𝐶 (𝑅 + 𝐹) 𝑆𝑁 (𝑅 + 𝐹)


18 24 0,70 0,82 0,57 0,73 0,45 0,63
24 24 0,70 0,82 0,57 0,73 0,40 0,60
20 0 1,00 1,00 0,80 0,84 0,75 0,83

Tabela 7.4 - Médias de sobrevivência entre os tratamentos controle (𝐶) e


novo (𝑁) durante os períodos de recrutamento (𝑅) e de seguimento (𝐹)

𝑅 𝐹 0,5𝑅 + 𝐹 𝑅+𝐹 𝑆̅(𝐹) 𝑆̅(0,5𝑅 + 𝐹) 𝑆̅(𝑅 + 𝐹)


18 24 33 42 𝑆̅(24) = 0,76 𝑆̅(33) = 0,65 𝑆̅(42) = 0,54
24 24 36 48 𝑆̅(24) = 0,76 𝑆̅(36) = 0,65 𝑆̅(48) = 0,50
20 0 10 20 𝑆̅(0) = 1,00 𝑆̅(10) = 0,82 𝑆̅(20) = 0,79

A Tabela 7.5 mostra os tamanhos de amostra aproximados, total e por mês, no período de
recrutamento, variando o tempo de recrutamento (𝑅) e o período de seguimento (𝐹).

Tabela 7.5 - Tamanho de amostra total e por mês no período de recrutamento

𝑅 𝐹 𝑅+𝐹 𝑛 𝑛 por mês (período de recrutamento)


18 24 42 400 ≅ 22
24 24 48 393 ≅ 16
20 0 20 904 ≅ 45
Nota: cálculo de 𝑛 obtido pela fórmula (7.4).

Nas duas primeiras situações (𝑅 = 18, 𝐹 = 24; 𝑅 = 24, 𝐹 = 24), o número de pacientes total (𝑛) é
praticamente o mesmo, mas na segunda situação, cuja taxa de recrutamento é mais baixa (16
comparada a 22), a duração do estudo é maior, isto é, 48 meses (24 + 24 = 48) comparada a 42 meses
(18+ 24 = 42) do primeiro estudo.

A terceira situação (𝑅 = 20, 𝐹 = 0) mostra a necessidade de recrutamento mensal bastante elevado e


que a ausência de período de seguimento (𝐹 = 0) acarreta substantivo aumento do número de pacientes
que devem entrar no estudo.
Exemplo 7.3 - Cálculo do número de mortes e do número total de pacientes utilizando a curva de
sobrevivência pelo método de Kaplan-Meier – escolha do período de recrutamento (𝑹) e período
de seguimento (𝑭) ╬╬

Na Tabela 7.6 são apresentados dados fictícios, que foram construídos para ilustrar a importância da
escolha do período de recrutamento (𝑅) e o período de seguimento (𝐹). Foi assumida a propriedade de
riscos proporcionais com 𝜓𝑅 = ℎ𝑇 (𝑡)/ℎ𝐶 (𝑡) = 0,50, tal que 𝑆𝑇 (𝑡) = 𝑆𝐶 (𝑡)0,50, 𝑡 > 0.

Tabela 7.6 - Sobrevivência para o grupo-controle, 𝑆𝐶 (𝑡), e o grupo-tratamento, 𝑆𝑇 (𝑡)

𝑡 (meses) 𝑆𝐶 (𝑡) 𝑆𝑇 (𝑡) = 𝑆𝐶 (𝑡)0,50


0 1 1
3 0,90 0,95
6 0,80 0,89
9 0,70 0,84
12 0,65 0,81
13 0,60 0,77
15 0,50 0,71
18 0,40 0,63
21 0,30 0,55
24 0,25 0,50
27 0,15 0,39
30 0,10 0,32
33 0,05 0,22
36 0,02 0,14

Para este estudo com duração de 36 meses, foram simuladas várias possibilidades quanto aos períodos
de recrutamento (𝑅) e seguimento (𝐹).

Para a comparação dos dois tratamentos quanto à sobrevida, aplicando a fórmula (7.2) com nível de
significância de 5% (𝛼 = 0,05) e poder de 90% (1 − 𝛽 = 0,90), o número de mortes é
4(𝑧1−𝛼/2 +𝑧1−𝛽 )2 4(1,960+1,282)2 4(1,960+1,282)2
𝐷= 2 = = = 88,31. Na prática, o resultado deve ser
𝜃𝑅 (𝑙𝑜𝑔(0,50))2 (−0,69)2

arredondado para 89 ou, com melhor margem de segurança, para 100. Considerando os grupos de
iguais tamanhos, 50 pacientes deverão ser alocados a cada grupo ou, no caso de não balanceamento dos
grupos, deve-se ponderar a amostra de forma apropriada.
As Tabelas 7.7 e 7.8 apresentam os dados necessários nos cálculos do tamanho da amostra (𝑛) para três
situações: a) 𝑅 = 6 e 𝐹 = 30 b); 𝑅 = 12 e 𝐹 = 24; c) 𝑅 = 18 e 𝐹 = 18. São necessárias informações
dos valores das sobrevivências nos pontos referentes a 𝐹, (0,5𝑅 + 𝐹) e (𝑅 + 𝐹). Tais valores para as
três situações são: a) 𝐹 = 30; 0,5𝑅 + 𝐹 = 33 e 𝑅 + 𝐹 = 36; b) 𝐹 = 24; 0,5𝑅 + 𝐹 = 30 e 𝑅 + 𝐹 =
36; c) 𝐹 = 18; 0,5𝑅 + 𝐹 = 27 e 𝑅 + 𝐹 = 36. Note-se que o preenchimento da Tabela 7.7 foi feito a
partir dos dados da Tabela 7.6.

Tabela 7.7 - Valores de sobrevivência dos grupos controle (𝐶) e tratamento (T)
durante os períodos de recrutamento (𝑅) e de seguimento (𝐹)

𝑅 𝐹 𝑆𝐶 (𝐹) 𝑆𝑇 (𝐹) 𝑆𝐶 (0,5𝑅 + 𝐹) 𝑆𝑇 (0,5𝑅 + 𝐹) 𝑆𝐶 (𝑅 + 𝐹) 𝑆𝑇 (𝑅 + 𝐹)


6 30 0,10 0,32 0,05 0,22 0,02 0,14
12 24 0,25 0,50 0,10 0,32 0,02 0,14
18 18 0,40 0,63 0,15 0,39 0,02 0,14

Tabela 7.8 - Médias de sobrevivência entre grupos controle (𝐶) e tratamento (T)
durante os períodos de recrutamento (𝑅) e de seguimento (𝐹)

𝑅 𝐹 0,5𝑅 + 𝐹 𝑅+𝐹 𝑆̅(𝐹) 𝑆̅(0,5𝑅 + 𝐹) 𝑆̅(𝑅 + 𝐹)


6 30 33 36 𝑆̅(30) = 0,210 𝑆̅(33) = 0,135 𝑆̅(36) = 0,080
12 24 30 36 𝑆̅(24) = 0,375 𝑆̅(30) = 0,210 𝑆̅(36) = 0,080
18 18 27 36 𝑆̅(18) = 0,515 𝑆̅(27) = 0,270 𝑆̅(36) = 0,080

Na Tabela 7.9 são apresentados os valores das probabilidades de morte para as três situações:
𝑃𝑟(𝑓𝑎𝑙ℎ𝑎) = 1 − {𝑆̅(𝐹) + 4𝑆̅(0,5𝑅 + 𝐹) + 𝑆̅(𝑅 + 𝐹)}/6.

Tabela 7.9 - Probabilidade de morte para três situações segundo


os períodos de recrutamento (𝑅) e de seguimento (𝐹)

𝑅 𝐹 0,5𝑅 + 𝐹 𝑅+𝐹 𝑃𝑟(𝑓𝑎𝑙ℎ𝑎) = 1 − {𝑆̅(𝐹) + 4𝑆̅(0,5𝑅 + 𝐹) + 𝑆̅(𝑅 + 𝐹)}/6


6 30 33 36 1 − {0,210 + 4(0,135) + 0,080}/6 = 0,862
12 24 30 36 1 − {0,375 + 4(0,210) + 0,080}/6 = 0,784
18 18 27 36 1 − {0,515 + 4(0,270) + 0,080}/6 = 0,721

A Tabela 7.10 mostra o tamanho de amostra total, calculado pela fórmula (7.4), variando o tempo de
recrutamento (𝑅) e o período de seguimento (𝐹).
Tabela 7.10 - Tamanho de amostra total (𝑛), considerando 𝐷 = 100

𝑅 𝐹 𝑅+𝐹 𝑛 = 𝐷/𝑃𝑟(𝑓𝑎𝑙ℎ𝑎) 𝑛 (arredondado para inteiro e par)


6 30 36 116,009 118 (59 em cada grupo)
12 24 36 127,551 128 (64 em cada grupo)
18 18 36 138,696 140 (70 em cada grupo)
Nota: cálculo de 𝑛 obtido pela fórmula (7.4).

A primeira situação leva ao menor tamanho de amostra (total de 118 com 59 em cada grupo) e à
medida que o período de recrutamento (𝑅) é estendido, o tamanho da amostra (𝑛) também cresce.
Fator decisivo para a escolha entre as três situações (períodos) é a real taxa de recrutamento.

Outras combinações de 𝑅 e 𝐹 podem ser facilmente testadas pelos leitores usando-se a planilha Excel®
que foi disponibilizada. Valores das sobrevivências necessários nos cálculos que não estiverem
disponíveis na Tabela 7.6 podem ser obtidos por meio de uma regra de três.

7.2.2 Tamanho de amostra com o pressuposto de sobrevivência com distribuição exponencial


para os dois grupos e com ajuste de abandonos (dropouts) de participantes

Referências para esta seção são o artigo de Lakatos e Lan (1992) e o manual do software nQuery
Advisor®. O pressuposto é de que para os dois grupos, por exemplo, dois tratamentos, uma nova
proposta (𝑁) e o tradicional, o controle (𝐶), os tempos seguem a distribuição exponencial com
parâmetros 𝜆𝑁 e 𝜆𝐶 , respectivamente. Neste caso, a razão entre as taxas de falhas (hazards) é
ℎ𝑁 (𝑡) 𝜆𝑁
𝜓𝑅 = = .
ℎ𝐶 (𝑡) 𝜆𝐶

Para o contexto considerado, com período de recrutamento 𝑅 e período de seguimento (follow-up) 𝐹,


tal que o período total de observação seja 𝑅 + 𝐹, a fórmula do tamanho de amostra para cada grupo
que permite o ajuste da taxa de desistências de participação (dropout) 𝑑 é:

𝑧1−𝛼/2 + 𝑧1−𝛽 2 1 1
𝑛𝑒𝑥𝑝(𝑑) =( ) ( + ) (7.7)
𝑙𝑜𝑔(𝜆𝑁 /𝜆𝐶 ) 𝐸(𝑃𝑁 ) 𝐸(𝑃𝐶 )

𝜆𝑁 𝑒𝑥𝑝{−(𝜆𝑁 +𝑑)(𝐹−𝑅)}−𝑒𝑥𝑝{−(𝜆𝑁 +𝑑)𝐹}


Em (7.7), para o grupo-novo, 𝐸(𝑃𝑁 ) = 𝜆 (1 − ); e para o grupo-
𝑁 +𝑑 (𝜆𝑁 +𝑑)𝑅
𝜆𝐶 𝑒𝑥𝑝{−(𝜆𝐶 +𝑑)(𝐹−𝑅)} −𝑒𝑥𝑝{−(𝜆𝐶 +𝑑)𝐹}
controle, 𝐸(𝑃𝐶 ) = 𝜆 (1 − ).
𝐶 +𝑑 (𝜆𝐶 +𝑑)𝑅
O número de falhas (eventos/mortes) pode ser calculado de forma aproximada como:

4(𝑧1−𝛼/2 + 𝑧1−𝛽 )2 4(𝑧1−𝛼/2 + 𝑧1−𝛽 )2


𝐷𝑒𝑥𝑝 ≅ = (7.8)
𝑙𝑜𝑔(𝜓𝑅 )2 (𝜃𝑅 )2

Em (7.8), 𝑧1−𝛼 e 𝑧1−𝛽 são, respectivamente, os percentis de ordem (1 − 𝛼)100% e (1 − 𝛽)100% da


distribuição normal padrão, 𝜓𝑅 é a razão dos riscos (hazards) dos dois grupos e 𝜃𝑅 = 𝑙𝑜𝑔(𝜓𝑅 ).

Exemplo 7.4 – Cálculo do tamanho de amostra (𝒏) com o pressuposto de sobrevivência com
distribuição exponencial e com ajuste para abandonos (dropouts) de participantes ╬╬

Os períodos de recrutamento e de seguimento (follow-up) do estudo foram fixados em 12 e 24 meses,


respectivamente, portanto, o período total de observação é 𝑅 + 𝐹 = 12 + 24 = 36 meses.
Os parâmetros das distribuições exponenciais referentes aos dois grupos foram 𝜆1 = 0,60 e 𝜆2 = 0,80,
tal que a razão de falhas (hazards) é 𝜓𝑅 = 𝜆1 /𝜆2 = 0,60/0,80 = 0,75. Foi adotado o nível de
significância de 5%, o poder foi fixado em 80% e 90% e foram consideradas várias taxas de
desistências dos participantes (𝑑), variando de zero a 0,50 com incremento de 0,10. Aplicando a
fórmula (7.7) quando não há desistências (𝑑 = 0), conclui-se que o número de falhas é de 380 e 508,
respectivamente, para poder de 80% e 90%. A Tabela 7.11 mostra os resultados do tamanho da amostra
obtidos pela aplicação da fórmula (7.7) para as seis taxas de desistências e os dois valores de poder:
80% e 90%.

Tabela 7.11 - Tamanho de amostra total (2𝑛𝑒𝑥𝑝(𝑑) ), obtido pela fórmula (7.7),
supondo-se distribuição exponencial para várias taxas de desistências (𝑑)

Taxa de desistências Poder: 80% Poder: 90%


𝑑 2𝑛𝑒𝑥𝑝(𝑑) 2𝑛𝑒𝑥𝑝(𝑑)
0 380 508
0,10 436 582
0,20 490 656
0,30 546 732
0,40 602 806
0,50 656 880
Nota: 𝜆1 = 0,60, 𝜆2 = 0,80, 𝜓𝑅 = 𝜆1 /𝜆2 = 0,60/0,80 = 0,75.

Além do esperado aumento da amostra quando se troca o poder de 80% para 90% (aumento de
aproximadamente 33 a 34%), há notável alteração no tamanho da amostra, dependendo da taxa de
desistências de participantes (𝑑). Naturalmente, à medida que 𝑑 aumenta, o tamanho da amostra
necessário também cresce. O padrão de crescimento é o mesmo para 80% e 90%. Para ambos os
valores de poder, a razão dos tamanhos de amostra total comparando 𝑑 = 0,10 com 𝑑 = 0 é 1,15 e,
comparando a maior taxa de desistência considerada (𝑑 = 0,50) com a ausência de desistência
(𝑑 = 0), a razão é de aproximadamente 1,73. Ou seja, na primeira comparação os tamanhos da amostra
correspondentes a 𝑑 = 0,10 são 15% maiores que os de 𝑑 = 0 e na segunda comparação os tamanhos
da amostra para 𝑑 = 0,50 são 73% maiores que os valores para 𝑑 = 0.

7.3 Modelo de regressão de Cox

Esta seção trata do dimensionamento de amostras para estudos que utilizam a regressão de Cox.
Após breve revisão sobre o modelo de Cox, são apresentadas fórmulas para algumas situações
específicas: modelo com apenas uma variável explicativa, inicialmente binária e, a seguir, generalizada
para qualquer tipo; no caso de regressão múltipla, é sugerida a utilização do fator de inflação da
variância (VIF) como ajuste.

A metodologia para comparação de curvas de sobrevivência, comentada anteriormente, é adequada


somente se os pacientes dos diferentes grupos diferem apenas na variável que os divide em grupos.
Na prática, entretanto, frequentemente o tempo de sobrevida depende de outros fatores. Cox (1972),
generalizando resultados anteriores, introduziu uma metodologia que resolve o problema de
comparação de curvas de sobrevivência quando há fatores de confusão. Para isso, adaptou os modelos
de regressão para essa nova situação, que consiste em modelar a função de taxa de falha (hazard) ou
risco instantâneo, ℎ(𝑡), em função das variáveis explicativas relevantes do estudo.

O modelo de regressão de Cox é extensivamente utilizado em análise de dados de tempo até a


ocorrência de um evento com possibilidade de censuras, especialmente na área da saúde.
Seu pressuposto básico é o de riscos proporcionais, daí o nome alternativo para o modelo de Cox:
modelo de riscos proporcionais (MRP), em inglês: proportional hazard model (PHM).

Modelo de Cox

Os dados consistem na variável resposta (𝑌), o tempo até a ocorrência do evento de interesse, e 𝑘
variáveis explicativas (𝑋1 , 𝑋2 , ⋯ 𝑋𝑘 ), que podem ser de qualquer tipo. O modelo de Cox assume que o
risco instantâneo para um indivíduo específico é o produto do risco basal, ℎ₀(𝑡), comum a todos os
indivíduos, por um número que depende do valor das variáveis explicativas para esse indivíduo
e de alguns coeficientes. Em linguagem matemática, assume-se que o risco de um indivíduo
𝑖 com covariáveis 𝑥𝑖1 , 𝑥𝑖2 , ⋯ , 𝑥𝑖𝑘 é dado por: ℎ𝑖 (𝑡) = ℎ0 𝑒𝑥𝑝{𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 + ⋯ + 𝛽𝑘 𝑥𝑖𝑘 } =
ℎ0 𝑒𝑥𝑝{∑𝑘𝑗=1 𝛽𝑗 𝑥𝑖𝑗 }. No modelo de Cox, o efeito das covariáveis consiste em aumentar (𝛽 > 0) ou
diminuir (𝛽 < 0) o risco basal de forma multiplicativa.

Interpretação dos coeficientes

Considerem-se dois indivíduos (𝑈1 e 𝑈2 ) identificados pelos valores das variáveis explicativas:
(𝑥1 + 1, 𝑥2 , ⋯ , 𝑥𝑘 ) e (𝑥1 , 𝑥2 , ⋯ , 𝑥𝑘 ), respectivamente. A razão entre seus riscos instantâneos é
ℎ𝑈1 (𝑡) ℎ0 𝑒𝑥𝑝{𝛽1 (𝑥1 +1)+𝛽2 𝑥2 +⋯+𝛽𝑘 𝑥𝑘 }
= = 𝑒𝑥𝑝{𝛽1 }. Ou seja, 𝑙𝑜𝑔(ℎ𝑈1 (𝑡)/ℎ𝑈2 (𝑡)) = 𝛽1 . De forma geral,
ℎ𝑈2 (𝑡) ℎ0 𝑒𝑥𝑝{𝛽1 𝑥1 +𝛽2 𝑥2 +⋯+𝛽𝑘 𝑥𝑘 }

o coeficiente 𝛽𝑗 do modelo de Cox representa o logaritmo da razão entre os riscos de indivíduos que
diferem por uma unidade na variável 𝑋𝑗 . Observe-se que esta razão permanece constante ao longo de
todo o período de acompanhamento. Essa propriedade é usada para se verificar a adequação do modelo
de Cox em dada situação prática e explica o nome alternativo deste modelo: modelo de
riscos proporcionais.

Inferência estatística

Para a estimação dos parâmetros, a proposta de Cox (1972) foi uma adaptação da verossimilhança
usual que recebeu o nome de verossimilhança parcial, descrita em Cox (1975). As estimativas de
máxima verossimilhança são obtidas pelo método de Newton-Raphson, que está implementado em
vários pacotes estatísticos.

A função de verossimilhança parcial assume que os tempos de sobrevivência são contínuos e,


consequentemente, não permite que ocorram empates nos valores observados. Na prática, entretanto,
empates ocorrem com frequência, sendo que a solução de Breslow (1972) é muito utilizada.

Apesar da popularidade do MRP, nem sempre o pressuposto básico de riscos proporcionais é válido.
Portanto, é sempre importante verificar se ele é realmente satisfeito. Se a suposição de riscos
proporcionais não for validada, o risco relativo das variáveis no modelo pode tanto ser superestimado
ou subestimado e o poder para testar o correspondente parâmetro reduzido. Stablein et al. (1981), entre
outros, discutem como testar a adequação do modelo.
Detalhes adicionais do modelo de Cox, especialmente sobre a inferência estatística, podem ser
encontrados em Colosimo e Giolo (2006), Carvalho et al. (2011), Collett (2015), entre tantos outros
excelentes textos sobre o assunto.

7.3.1 Tamanho de amostra para o modelo de Cox

A seguir, apresentam-se formas de cálculo de tamanho de amostra para algumas situações em que o
modelo de Cox é adotado. As referências principais são Hsieh e Lavori (2000) e Ryan (2013).

Frequentemente quer-se testar o efeito de um determinado preditor, por exemplo, 𝑥1 , possivelmente na


presença das demais covariáveis, na variável resposta. O modelo de Cox, apresentado no início da
seção, pode ser reescrito como 𝑙𝑜𝑔(ℎ𝑖 (𝑡)/ℎ0 ) = 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 + ⋯ + 𝛽𝑘 𝑥𝑖𝑘 . Quer-se testar as
seguintes hipóteses: 𝐻0 : (𝛽1 , 𝛽2 , ⋯ , 𝛽𝑘 ) = (0, 𝛽2 , ⋯ , 𝛽𝑘 ) versus 𝐻1 : (𝛽1 , 𝛽2 , ⋯ , 𝛽𝑘 ) = (𝛽 ∗ , 𝛽2 , ⋯ , 𝛽𝑘 ).

Modelo de Cox com uma única variável binária

Essa situação corresponde à comparação de dois grupos, que é feita em termos de 𝛽1 = 𝑙𝑜𝑔(Δ), sendo
Δ o logaritmo da razão dos riscos (hazards) dos dois grupos. Para testar as hipóteses de interesse,
utiliza-se o teste do escore. Quando há apenas uma covariável binária, o teste do escore é o mesmo que
o teste de Mantel-Haenszel e o teste log-rank se não há empates nos tempos de sobrevivência.

É conhecido que o poder do teste log-rank depende do tamanho de amostra apenas por meio do número
de mortes (𝐷), o que simplifica a fórmula de tamanho de amostra. Schoenfeld (1983) desenvolveu a
seguinte fórmula:

(𝑧1−𝛼 + 𝑧1−𝛽 )2
𝐷𝑋1 𝐵𝑖𝑛 = (7.9)
𝑝(1 − 𝑝)(𝑙𝑜𝑔(Δ))2

Em (7.9), 𝑧1−𝛼 e 𝑧1−𝛽 são, respectivamente, os percentis de ordem (1 − 𝛼)100% e (1 − 𝛽)100% da


distribuição normal padrão, 𝑝 é a proporção de amostra alocada no primeiro grupo e 𝑙𝑜𝑔(Δ) é o 𝑙𝑜𝑔 da
razão dos riscos (hazards) dos dois grupos.
Modelo de Cox com uma única covariável não binária

No modelo univariado, com apenas uma variável (𝑋1 ) e tempo de sobrevivência 𝑇, sem alguma
suposição, Hshieh e Laviori (2000) desenvolveram a seguinte fórmula para o número de mortes:

(𝑧1−𝛼 + 𝑧1−𝛽 )2
𝐷𝑋1 𝑁ã𝑜 𝐵𝑖𝑛 = 2 (7.10)
𝜎 (𝑙𝑜𝑔(Δ))2

Em (7.10), 𝜎2 é a variância da variável 𝑋1 e 𝑙𝑜𝑔(Δ) = 𝜃 ∗ é o logaritmo da razão dos riscos (hazards)


associado à troca de uma unidade em 𝑋1. Note-se a similaridade das fórmulas (7.9) e (7.10), exceto que
no denominador da primeira o termo 𝑝(1 − 𝑝), que é a variância de uma distribuição Bernoulli,
é substituído em (7.10) por um termo mais geral de variância (𝜎2 ).

O tamanho de amostra é o número de mortes (𝐷) dividido pela proporção geral de mortes (𝑃𝐷 ), isto é:

𝐷𝑋1 𝑁ã𝑜 𝐵𝑖𝑛


𝑛𝐶𝑜𝑥 = (7.11)
𝑃𝐷

Efeito de ajuste de covariáveis

Em Hshieh e Laviori (2000) também aparece a discussão sobre o efeito de ajuste de covariáveis no
poder do teste, além da possibilidade da utilização do fator de inflação da variância ao se incluir mais
covariáveis no modelo.

A ideia é a mesma comentada em regressão logística (ver seção 6.3 do capítulo 6). Primeiramente, faz-
se o cálculo para o modelo com apenas uma variável explicativa, usualmente a considerada mais
importante para a explicação da variação resposta. A seguir, o fator de inflação da variância (VIF) é
utilizado para ajustar no caso de regressão múltipla. Se há 𝑘 variáveis explicativas (𝑋1 , 𝑋2 , ⋯ 𝑋𝑘 ),
𝑉𝐼𝐹 = 1/(1 − (𝜌1.23⋯𝑘 )2 ) = 1/(1 − 𝑅 2 ) e o tamanho de amostra final é:

𝑛𝐶𝑜𝑥|𝑉𝐼𝐹 = 𝑛𝐶𝑜𝑥 × 𝑉𝐼𝐹 (7.12)

As fórmulas (7.11) e (7.12) estão implementadas no software Pass®14. Os cálculos também podem ser
feitos no pacote SurvEpi do 𝑅, mas deve-se estar atento que a implementação é para hipóteses
bilaterais, enquanto que a fórmula (7.10), como no artigo original, é para hipóteses unilaterais.
Exemplo 7.5 - Cálculo do tamanho de amostra a partir do modelo de Cox ╬╬

Em um estudo há nove covariáveis (𝑋1 , 𝑋2 , ⋯ , 𝑋9) e a variável de maior interesse (𝑋1) é contínua com
desvio-padrão igual a 𝜎 = 0,3126. Ajustando-se um modelo de regressão múltipla considerando como
variável resposta 𝑋1 e como variáveis explicativas 𝑋2 , ⋯ , 𝑋9, obtém-se o valor do coeficiente de
determinação igual a 𝑅 2 = 0,1837. Foram fixados o nível de significância de 5% e o poder de 80%.
A partir de estudo similar com 65 pacientes, dos quais houve 17 censuras, estimou-se que a
probabilidade geral de morte é 𝑃𝐷 = 1 − 17/65 = 0,738. Estabelecendo que log da razão dos riscos
(hazards) seja 𝑙𝑜𝑔(Δ) = 𝜃 ∗ = 1, deseja-se determinar o tamanho de amostra para este estudo, cujos
dados deverão ser analisados pelo modelo de Cox.

2
(𝑧1−𝛼 +𝑧1−𝛽 ) (1,645+0,842)2
Aplicando as fórmulas (7.10) e (7.11), 𝐷𝑋1 𝑁ã𝑜 𝐵𝑖𝑛 = = = 63,54 ≅ 64 e
𝜎2 (log(Δ))2 0,31262 (1)2
𝐷𝑋1 𝑁ã𝑜 𝐵𝑖𝑛 64
𝑛𝐶𝑜𝑥 = = 0,738 = 86,72 ≅ 87. Assim, quando apenas a variável 𝑋1 é incluída no modelo,
𝑃𝐷

com as especificações estabelecidas, o número de mortes é 64, portanto, o tamanho de amostra


necessário é 87.

Para o ajuste das demais variáveis (𝑋2 , ⋯ , 𝑋9) no cálculo do tamanho da amostra, o valor do 𝑉𝐼𝐹
aproximado para o modelo completo (com as nove variáveis explicativas) é dado por
1/(1 − (𝜌1.23⋯9 )2 ) = 1/(1 − 𝑅 2 ) = 1/(1 − 0,1837) = 1,225. Assim, utilizando a fórmula (7.12),
o tamanho de amostra para o modelo completo é de 107: (𝑛𝐶𝑜𝑥|𝑉𝐼𝐹 = 𝑛𝐶𝑜𝑥 × 𝑉𝐼𝐹 = 87 × 1,225 =
106,575 ≅ 107). A utilização de todas as covariáveis nos cálculos resultou, em termos absolutos,
no aumento de 20 participantes (107-87), enquanto que, de forma relativa, isso representa aumento de
23% (107/87=1,23).

A Tabela 7.12 mostra os tamanhos de amostra supondo-se que o modelo de Cox será ajustado com
apenas uma variável (𝑛𝐶𝑜𝑥 ) e depois os tamanhos de amostra com as demais variáveis ajustado pelo
fator de inflação da variância VIF (𝑛𝐶𝑜𝑥|𝑉𝐼𝐹 ) para três valores de 𝑅 2 e para dois valores de poder.

Os resultados da Tabela 7.12, calculados pelas fórmulas indicadas, apenas diferem dos resultados
obtidos no software Pass®14 por uma ou duas unidades. Além do esperado aumento do tamanho de
amostra com o aumento do poder (quando o poder é 90%, o valor é aproximadamente 1,38 vez maior
em relação ao do poder de 80%), há substantivo aumento do tamanho de amostra (𝑛𝐶𝑜𝑥|𝑉𝐼𝐹 ) à medida
que 𝑅 2 cresce. Por exemplo, para ambos os valores de poder, o valor de 𝑛𝐶𝑜𝑥|𝑉𝐼𝐹 quando 𝑅 2 = 0,80 é
2,5 vezes maior do que para 𝑅 2 = 0,50.

Tabela 7.12 - Tamanho de amostra total utilizando o modelo de Cox (𝑛𝐶𝑜𝑥 ), obtido
pela fórmula (7.11), quando o desvio-padrão de 𝑋1 é igual a 𝜎 = 0,3126

Poder: 80% Poder: 90%


𝑅2 𝑉𝐼𝐹 = 1/(1 − 𝑅 2 ) 𝑛𝐶𝑜𝑥 𝑛𝐶𝑜𝑥|𝑉𝐼𝐹 𝑛𝐶𝑜𝑥 𝑛𝐶𝑜𝑥|𝑉𝐼𝐹
0,1837 1,225 87 107 120 148
0,50 2,000 87 174 120 240
0,80 5,000 87 435 120 600
Nota: 𝑛𝐶𝑜𝑥|𝑉𝐼𝐹 : tamanho de amostra ajustado pelo fator de inflação da variância VIF, fórmula (7.12).

7.4 Comparação de dois grupos em ensaios de superioridade, não inferioridade e


equivalência em análise de sobrevivência

Nesta seção é discutida a comparação de dois grupos tendo como resposta o tempo até a ocorrência do
evento, sem ajuste de outras covariáveis, no contexto de ensaios de superioridade, não inferioridade e
equivalência com três abordagens. A primeira delas é quando a distribuição do tempo é exponencial.
A segunda utiliza o modelo de Cox, discutido na seção anterior, cuja metodologia baseia-se no teste do
escore cujos resultados são assintóticos e tem o pressuposto de que as distribuições de censuras e de
falhas são as mesmas para os dois grupos. Embora seja um método aproximado, a vantagem é que os
cálculos são muito simples, logo, de fácil implementação na prática. Finalmente, são apresentadas
formas de dimensionamento de amostra para a comparação de dois grupos para ensaios de não
inferioridade utilizando o teste log-rank.

As principais referências para esta seção são Schoenfeld (1981, 1983), Chow et al. (2008), o manual do
software Pass® e o artigo de Jung et al. (2005).

7.4.1 Comparação de dois grupos usando o modelo exponencial

O modelo exponencial é o mais simples entre os modelos paramétricos usados para dados de
sobrevivência. Entretanto, descreve bastante bem ampla gama de situações na prática, tanto na área
industrial como na área da saúde. Para esse modelo, assume-se que o tempo até a ocorrência do evento
segue a distribuição exponencial, cuja função de taxa de falha (hazard) correspondente é constante.
Em ensaios clínicos para comparar dois tratamentos, o interesse pode ser testar as taxas de falha
(hazards) ou comparar as medianas dos tratamentos. Pelo fato de a distribuição ser exponencial,
o tempo mediano é determinado pela taxa de falha (hazard). Como consequência, comparar medianas é
equivalente a comparar as taxas de falha (hazard).

Como já comentado, a escolha do tipo de teste (superioridade, não inferioridade e equivalência)


depende do objetivo do estudo e o dimensionamento da amostra e o método estatístico devem ser
específicos a cada tipo de hipótese a ser testada.

O capítulo 5 trata do dimensionamento de ensaios de superioridade, não inferioridade e equivalência,


mas não para estudos de sobrevivência. Para facilidade, a seguir apresenta-se um resumo dos principais
conceitos. Investigações de interesse sobre a comparação de tratamentos ou, mais geral, de grupos
podem ser formuladas em termos de testes de hipóteses e intervalos de confiança para um parâmetro de
interesse (θ), por exemplo, a diferença de duas taxas de falha (hazards).

Em ensaio de não inferioridade são testadas as seguintes hipóteses: 𝐻0 : 𝜃 ≤ 𝜃0 versus 𝐻1 : 𝜃 > 𝜃0 ,


sendo que 𝜃0 representa a margem de não inferioridade. Em ensaio de superioridade, tipicamente são
testadas as seguintes hipóteses: 𝐻0 : 𝜃 ≤ 0 versus 𝐻1 : 𝜃 > 0. A rejeição de 𝐻0 indica superioridade de
uma droga-teste sobre a droga-controle ou de referência. Se houver interesse em testar a hipótese
bilateral, a formulação fica sendo 𝐻0 : 𝜃 = 0 versus 𝐻1 : 𝜃 ≠ 0, caso em que a nomenclatura
frequentemente usada na literatura é ensaio de igualdade (ver, por exemplo, CHOW et al., 2008).
Em ensaio de equivalência testam-se simultaneamente as seguintes hipóteses unilaterais:
𝐻0− : 𝜃 ≤ 𝜃0− versus 𝐻1− : 𝜃 > 𝜃0− e 𝐻0+ : 𝜃 ≥ 𝜃0+ versus 𝐻1+ : 𝜃 < 𝜃0+ , sendo 𝜃0− e 𝜃0+ as margens de
tolerância inferior e superior, respectivamente. É muito comum as margens de equivalência adotadas
serem simétricas em relação a zero, caso em que a margem superior será denotada por 𝜃0∗ e,
consequentemente, o intervalo de tolerância será (−𝜃0∗ , 𝜃0∗ ).

No contexto de sobrevivência, as hipóteses a serem testadas devem ser montadas dependendo da


situação. Por exemplo, assumindo que taxas de falha (hazards) mais baixas são mais favoráveis,
a não inferioridade é estabelecida por meio da conclusão de que a taxa de falha do tratamento é no
máximo superior à taxa de falha de controle por determinada margem (𝜃0 ). Por outro lado, se taxas de
falha mais elevadas forem consideradas melhores, a conclusão pela não inferioridade é estabelecida se
a taxa de falha de tratamento é, no mínimo, apenas ligeiramente inferior à taxa de falha do controle.
Na verdade, não há unanimidade na forma de definir as hipóteses, por exemplo, no software Pass®14 e
em algumas publicações não é a mesma da apresentada nesse texto, embora a interpretação seja
exatamente a mesma nos dois casos.

Considerando dois grupos com delineamento em paralelo, com período de recrutamento 𝑇0 e o tempo
de acompanhamento (follow-up) 𝑇 − 𝑇0 , seja 𝑎𝑖𝑗 o tempo de entrada do 𝑗-ésimo paciente que pertence
ao grupo 𝑖. Assume-se que 𝑎𝑖𝑗 siga a distribuição contínua cuja densidade é dada por:
𝛾𝑒 −𝛾𝑧
𝑔(𝑧) = 1−𝑒 −𝛾𝑇0 , 0 ≤ 𝑧 ≤ 𝑇0 . Se 𝛾 > 0, a distribuição é convexa, implicando rápida entrada de

pacientes no início do estudo. Se 𝛾 < 0, a distribuição é côncava, significando atraso na entrada de


pacientes. Se 𝛾 = 0, a interpretação é que a entrada de pacientes no estudo é uniforme e, neste caso,
tomando-se o limite quando 𝛾 tende a zero, 𝑔(𝑧) = 1/𝑇0 .

Seja 𝑡𝑖𝑗 o tempo até o evento, isto é, o tempo decorrido desde a entrada no estudo do 𝑗-ésimo paciente
no 𝑖-ésimo grupo (𝑖 = 1,2; 𝑗 = 1, ⋯ , 𝑛𝑖 ) até a ocorrência do evento de interesse. Assume-se que 𝑡𝑖𝑗
siga a distribuição exponencial com taxas de falha (hazards) 𝜆𝑖 (𝑖 = 1,2). Pode-se mostrar que a
−1
2 (𝜆 2 𝛾𝑒 −𝜆𝑖 𝑇 (1−𝑒 (𝜆𝑖 −𝛾)𝑇0 )
fórmula para a variância associada é 𝜎 𝑖 ) = 𝜆𝑖 (1 + (𝜆𝑖 −𝛾)(1−𝑒 −𝛾𝑇0 )
) e, tomando-se o limite
−1
𝑒 −𝜆𝑖 𝑇 −𝑒 −𝜆𝑖 (𝑇−𝑇0 )
quando 𝛾 tende a zero, 𝜎 2 (𝜆𝑖 ) = 𝜆2𝑖 (1 + ) .
𝜆𝑖 𝑇0

A função de verossimilhança e algumas propriedades necessárias para a inferência estatística de


testes de superioridade, não inferioridade e equivalência podem ser encontrados, por exemplo,
em Chow et al. (2008).

Testes de superioridade, não inferioridade e equivalência (modelo exponencial)

Para a comparação de dois grupos, por exemplo, grupos controle e tratamento, seja 𝜃 = 𝜆1 − 𝜆2 a
diferença de taxas de falha (hazards) dos dois grupos. Para ensaios de não inferioridade, será
considerado apenas o caso em que 𝜆2 ≤ 𝜆1, ou, ainda, 𝜆2 ≤ 𝜆1 + θ−
0 , ou seja, a taxa de falha (hazard)

do tratamento (𝜆2 ) não deve superar a taxa de falha de controle (𝜆1 ) por determinada margem (𝜃0− ).

Os testes apresentados a seguir são assintóticos e sob a hipótese nula suas estatísticas têm distribuição
normal padrão. O Quadro 7.3 apresenta as estatísticas dos testes e as regras de decisão para os três
testes considerados utilizando-se a seguinte notação: 𝑛1 e 𝑛2 são tamanhos de amostra dos dois grupos,
𝛼 é o nível de significância, 𝑧1−𝛼 e 𝑧1−𝛼/2 são os percentis de ordem (1 − 𝛼)100% e
(1 − 𝛼/2)100% da distribuição normal padrão, respectivamente. As variâncias que aparecem nas
estatísticas dos testes são as estimativas das que foram apresentadas em dois parágrafos anteriores.

Quadro 7.3 - Estatísticas e regras de decisão para os ensaios de superioridade,


não inferioridade e equivalência para o modelo exponencial quando o parâmetro
de interesse é 𝜃 = 𝜆1 − 𝜆2 (diferença da taxa de falhas dos dois grupos)

Tipo de estudo Estatística do teste Rejeitar 𝐻0


−½
σ2 (λ̂1 ) σ2 (λ̂2 )
Igualdade 𝑍𝐼 = (λ̂1 − λ̂2 ) ( + ) 𝑍𝐼 ≥ 𝑧1−𝛼/2
𝑛1 𝑛2
−½
σ2 (λ̂1 ) σ2 (λ̂2 )
Superioridade 𝑍𝑆 = (λ̂1 − λ̂2 ) ( + ) 𝑍𝑆 ≥ 𝑧1−𝛼
𝑛1 𝑛2
−½
σ2 (λ̂1 ) σ2 (λ̂2 )
Não inferioridade 𝑍𝑁𝐼 = (λ̂1 − λ̂2 − 𝜃⁻ ) ( + ) 𝑍𝑁𝐼 ≥ 𝑧1−𝛼
𝑛1 𝑛2
−½
σ2 (λ̂1 ) σ2 (λ̂2 )
𝑍𝐸− ̂ ̂ ∗
= (λ1 − λ2 − 𝜃 ) ( + ) 𝑍𝐸− ≤ −𝑧1−𝛼
𝑛1 𝑛2
Equivalência
−½
σ2 (λ̂1 ) σ2 (λ̂2 )
𝑍𝐸+ ̂ ̂ ∗
= (λ1 − λ2 + 𝜃 ) ( + ) 𝑍𝐸+ ≥ 𝑧1−𝛼
𝑛1 𝑛2
Nota: 𝜃 − : margem de não inferioridade; limites de equivalência: (𝜃0− , 𝜃0+ ) = (−𝜃 ∗ , 𝜃 ∗ ).

Tamanho de amostra para ensaios de igualdade, superioridade, não inferioridade e equivalência


(modelo exponencial)

Utilizando as estatísticas descritas no Quadro 7.3, é possível obter os respectivos tamanhos de amostra
correspondentes ao poder (1 − 𝛽)100%. Sejam 𝑛1 e 𝑛2 os tamanhos de amostras referentes aos dois
grupos e 𝑘 a relação entre eles: 𝑛1 = 𝑘𝑛2 . As fórmulas do tamanho de amostra para o grupo 2 para os
ensaios igualdade (𝑛2(𝐼,𝑒𝑥𝑝) ), superioridade (𝑛2(𝑆,𝑒𝑥𝑝) ), não inferioridade (𝑛2(𝑁𝐼,𝑒𝑥𝑝) ) e equivalência
(𝑛2(𝐸,𝑒𝑥𝑝) ) são dadas por:

(𝑧1−𝛼/2 + 𝑧1−𝛽 )2 σ2 (𝜆1 )


𝑛2(𝐼,𝑒𝑥𝑝) = [ + σ2 (𝜆2 )] (7.13)
(𝜆1 − 𝜆2 )2 𝑘

(𝑧1−𝛼 + 𝑧1−𝛽 )2 σ2 (𝜆1 )


𝑛2(𝑆,𝑒𝑥𝑝) = [ + σ2 (𝜆2 )] (7.14)
(𝜆1 − 𝜆2 )2 𝑘
(𝑧1−𝛼 + 𝑧1−𝛽 )2 σ2 (𝜆1 )
𝑛2(𝑁𝐼,𝑒𝑥𝑝) = [ + σ2 (𝜆2 )] (7.15)
((𝜆1 − 𝜆2 ) − 𝜃 − )2 𝑘

(𝑧1−𝛼 + 𝑧1−𝛽/2 )2 σ2 (𝜆1 )


𝑛2(𝐸,𝑒𝑥𝑝) = [ + σ2 (𝜆2 )] (7.16)
[𝜃∗ − |𝜆1 − 𝜆2 | ]2 𝑘

Tamanho de amostra para ensaios de igualdade, superioridade, não inferioridade e equivalência


(modelo exponencial) com ajuste para perdas

Um fato que pode ocorrer na prática são perdas por causa de falta de seguimento, pelos mais diversos
motivos, desistências (dropout) e mesmo não conformidades. Novamente assume-se que os tempos de
falha para cada um dos dois grupos sigam a distribuição exponencial com taxas de falha (hazards)
𝜆𝑖 (𝑖 = 1,2) e agora se acrescenta a suposição de que a distribuição das correspondentes perdas
também seja exponencial com taxa de falha 𝜂𝑖 (𝑖 = 1,2). Lanchin e Foulkes (1986) mostraram que a
variância do estimador de 𝜆̂𝑖 é dada por:

−1
𝜆𝑖 𝜆𝑖 𝛾𝑖 𝑒 −(𝜆𝑖 +𝜂𝑖 )𝑇 (1 − 𝑒 (𝜆𝑖 +𝜂𝑖 −𝛾𝑖 )𝑇0 )
𝜎 2 (𝜆
𝑖 , 𝜂𝑖 , 𝛾𝑖 ) = 𝜆2𝑖 ( + ) (7.17)
𝜆𝑖 + 𝜂𝑖 (1 − 𝑒 −𝛾𝑖 𝑇0 )(𝜆𝑖 + 𝜂𝑖 )(𝜆𝑖 + 𝜂𝑖 − 𝛾𝑖 )

As fórmulas para os tamanhos de amostra com ajuste para perdas são as mesmas apresentadas
anteriormente, (7.13) a (7.16), mas a variância σ2 (𝜆𝑖 ) deve ser substituída por 𝜎 2 (𝜆𝑖 , 𝜂𝑖 , 𝛾𝑖 ) dada pela
fórmula (7.17). Por exemplo, a fórmula para o tamanho de amostra no caso de não inferioridade é:

(𝑧1−𝛼 + 𝑧1−𝛽 )2 𝜎 2 (𝜆1 , 𝜂1 , 𝛾1 )


𝑛2(𝑁𝐼,𝑒𝑥𝑝,𝑐/𝑝𝑒𝑟𝑑𝑎𝑠) = [ + 𝜎 2 (𝜆2 , 𝜂2 , 𝛾2 )] (7.18)
((𝜆1 − 𝜆2 ) − 𝜃 − )2 𝑘

Exemplo 7.6 - Cálculo do tamanho de amostra para testar igualdade de dois tratamentos
(modelo exponencial) - adaptação do exemplo descrito em Chow et al. (2008) ╬╬

Para o planejamento de um estudo sobre transplante em pacientes com doença de Hodgkin (DH) ou
com linfoma não Hodgkin (LNH), os tipos de transplantes devem ser comparados. Há duas
possibilidades de transplantes: transplante alogênico em que o doador é um parente e que as células são
compatíveis com as do receptor ou um transplante autólogo em que a sua própria medula será
purificada e devolvida ao organismo após alta dose de quimioterapia.
O objetivo principal do estudo é comparar os pacientes com os dois tipos de transplante em termos de
tempo para a ocorrência da leucemia. A duração do estudo deve ser de três anos (𝑇 = 3), com um ano
de recrutamento (𝑇0 = 1). Assume-se que as taxas de falha (hazards) dos transplantes alogênico e
autólogo sejam 𝜆1 = 2 e 𝜆2 = 1, respectivamente. Além disso, espera-se que a entrada de
pacientes em ambos os grupos seja uniforme e, nesse caso, a fórmula da variância é
−1
𝑒 −𝜆𝑖 𝑇 −𝑒 −𝜆𝑖 (𝑇−𝑇0 )
𝜎 2 (𝜆𝑖 ) = 𝜆2𝑖 (1 + ) , 𝑖 = 1,2. Substituindo-se os valores 𝜆1 = 2, 𝜆2 = 1, 𝑇 = 3 e
𝜆𝑖 𝑇0

𝑇0 = 1, obtém-se 𝜎 2 (𝜆1 ) = 1,0936 e 𝜎 2 (𝜆2 ) = 4,0319.

Para testar a igualdade entre os dois tipos de transplantes (𝐻0 : θ = 0 𝑣𝑒𝑟𝑠𝑢𝑠 𝐻1 : θ ≠ 0, com
𝜃 = 𝜆1 − 𝜆2 ), fixando o nível de significância e o poder em 5% e 80%, respectivamente, e quando os
dois grupos são de igual tamanho (𝑘 = 1), a aplicação da fórmula (7.13) para o tamanho de amostra em
(𝑧1−𝛼/2 +𝑧1−𝛽 )2 σ2 (𝜆1 )
um dos grupos fornece o seguinte resultado: 𝑛2(𝐼,𝑒𝑥𝑝) = [ + σ2 (𝜆2 )] =
(𝜆1 −𝜆2 )2 𝑘

(1,96+0,84)2 1,0936
[ + 4,0319] = 41. Portanto, para atingir o objetivo do estudo é necessário recrutar 41
(2−1)2 1

participantes em cada grupo, totalizando 82 pacientes. Se o poder fosse aumentado para 90%,
𝑛2(𝐼,𝑒𝑥𝑝) = 54, consequentemente, total de 108 pacientes, 1,32 vez maior que quando o poder era de
80%, o que significa que seria necessário acrescentar 108 − 82 = 26 pacientes.

Exemplo 7.7 - Cálculo do tamanho de amostra para estudos de superioridade, não inferioridade e
equivalência (modelo exponencial) ╬╬

O planejamento de um estudo tem como principal objetivo comparar dois tratamentos e a variável
resposta é o tempo até a ocorrência do evento de interesse que segue a distribuição exponencial.
As seguintes informações foram utilizadas: o estudo deve durar três anos (𝑇 = 3), com um ano de
recrutamento (𝑇0 = 1) e as taxas de falha (hazard) dos dois grupos a serem comparados são 𝜆1 = 2 e
𝜆2 = 1. A Tabela 7.13 mostra os tamanhos de amostra para ensaios de superioridade, não inferioridade
e equivalência utilizando as fórmulas (7.14), (7.15) e (7.16), respectivamente. Os cálculos foram feitos
com vários valores de 𝛾 da função 𝑔(𝑧), mas como há pouco impacto de seu efeito no valor de 𝑛2 ,
foram apresentados apenas os resultados para dois valores (𝛾 = −1,0 e 𝛾 = 0,0).

O valor de 𝑛2 quando o poder é de 90% é em torno de 1,38 vez o valor de 𝑛2 quando o poder é de 80%
tanto para estudos de superioridade como para os de não inferioridade, enquanto que a razão para
estudos de equivalência cai para aproximadamente 1,26. Os tamanhos de amostra de estudos de não
inferioridade são tipicamente menores que os dos outros dois tipos, embora naturalmente não sejam
exatamente comparáveis.

Tabela 7.13 - Tamanho de amostra para um grupo (𝑛2 ) em ensaios de superioridade (S),
não inferioridade (NI) e equivalência (E), calculados com nível de significância
de 5% e para dois valores do parâmetro 𝛾 da função 𝑔(𝑧)

Poder: 80% Poder: 90%


Tipo de estudo
𝛾 𝑛2 = 𝑛1 𝑛2 = 𝑛1
-1,0 32 45
Superioridade
0,0 32 44
Não inferioridade -1,0 15 20

(𝜃 = −0,5) 0,0 15 20
Equivalência -1,0 177 223

(𝜃 = 1,5) 0,0 176 222
𝛾𝑒 −𝛾𝑧 1
Nota: 𝑇 = 3; 𝑇0 = 1; 𝜆1 = 2, 𝜆2 = 1, 𝑛1 = 𝑘𝑛2 ; 𝑘 = 1; 𝑔(𝑧) = , 0 ≤ 𝑧 ≤ 𝑇0 ; 𝑔(𝑧) = , 𝛾 → 0;
1−𝑒 −𝛾𝑇0 𝑇0
cálculos de tamanho de amostra para os estudos: S: fórmula (7.14); NI: fórmula (7.15); E: fórmula (7.16).

Exemplo 7.8 - Cálculo do tamanho de amostra em estudos de não inferioridade com possibilidade
de perdas (modelo exponencial) ╬╬

A taxa de falha (hazard) quando se utiliza o tratamento padrão de uma doença é 𝜆1 = 2. Novo
tratamento desenvolvido para a doença é mais barato e apresenta menos efeitos colaterais. A empresa
que o desenvolveu quer demonstrar que a sua taxa de falha não é pior do que em 25% dos casos em que
o tratamento-padrão foi prescrito. Durante o período de recrutamento, supõe-se que os pacientes entram
no estudo de forma uniforme. Com o objetivo de comparar o tratamento novo com o padrão, quer-se
dimensionar um estudo de não inferioriodade, supondo que o período de recrutamento seja de um ano,
sendo que o estudo vai continuar por dois anos adicionais.

O poder deve ser fixado em 80% e 90% enquanto que o nível de significância em 5%. As taxas de falha
do novo tratamento são 𝜆2 = {1; 1,2; 1,4; 1,6; 1,8; 2} e sabe-se que a taxa de falha do tratamento
padrão é 𝜆1 = 2 tal que a diferença entre os dois valores de taxa de falha (hazard) varia entre
𝜆1 − 𝜆2 = −1 e zero com incremento de 0,2.

Os cálculos utilizando a fórmula (7.18) foram feitos supondo-se que não houve perdas (𝜂1 = 𝜂2 = 0) e
também que as taxas de perda foram de 0,20 (𝜂1 = 𝜂2 = 0,2) e 0,50 (𝜂1 = 𝜂2 = 0,5) para ambos os
grupos. Os resultados estão apresentados na Tabela 7.14. Nota-se o aumento do tamanho de amostra
quando há perdas e que quanto maior a taxa de falha associada às falhas, mais pacientes
serão necessários.

Tabela 7.14 - Tamanho de amostra (𝑛2 ) para cada grupo utilizando o modelo exponencial
em ensaios de não inferioridade com ajuste para perdas, obtido pela fórmula (7.18)
com nível de significância de 5% e poder do teste de 80% e 90%

Taxas de falhas Poder: 80% Poder: 90%


das perdas 𝜆1 𝜆2 𝑛2 𝑛2
𝜂1 = 𝜂2 = 0 2,0 1,0 15 20
2,0 1,2 21 29
2,0 1,4 31 43
2,0 1,6 51 71
2,0 1,8 93 128
2,0 2,0 200 277
𝜂1 = 𝜂2 = 0,2 2,0 1,0 16 22
2,0 1,2 23 32
2,0 1,4 35 48
2,0 1,6 57 78
2,0 1,8 102 141
2,0 2,0 219 303
𝜂1 = 𝜂2 = 0,5 2,0 1,0 19 25
2,0 1,2 26 36
2,0 1,4 40 55
2,0 1,6 65 89
2,0 1,8 116 161
2,0 2,0 248 344
Nota: 𝜆1 e 𝜆2 : taxas de falhas dos tratamentos padrão e novo, respectivamente.

7.4.2 Comparação de dois grupos utilizando o modelo de Cox

Para a comparação de dois grupos, genericamente denominados controle (𝐶) e teste (𝑇), será utilizado
o modelo de Cox. Neste caso, basta incluir no modelo uma variável explicativa binária, diga-se, 𝑥 = 1
se o indivíduo pertence ao grupo-controle e 𝑥 = 0 caso contrário ou, de forma mais geral, 𝑥 = 0 e
𝑥 = 1 se o indivíduo recebe o tratamento 1 e o tratamento 2, respectivamente.
Na função de risco, ℎ(𝑡) = ℎ₀(𝑡)𝑒𝑥𝑝(𝜃𝑥), ℎ₀(𝑡) é o risco basal comum a todos os indivíduos,
o coeficiente 𝜃 é interpretado como o logaritmo do risco de indivíduos do grupo-controle em relação ao
risco de indivíduos do grupo teste e será representado por 𝜃 = 𝑙𝑜𝑔(ℎ𝐶 /ℎ𝑇 ) para todo 𝑡. De forma mais
geral, para a comparação dos grupos 1 e 2, 𝜃 = 𝑙𝑜𝑔(ℎ2 /ℎ1 ). Portanto, a comparação dos dois grupos é
feita pela inferência sobre 𝜃.

Testes de superioridade, não inferioridade e equivalência (modelo de Cox)

O Quadro 7.4 mostra as hipóteses, as estatísticas do teste do escore e as regras de decisão para os três
tipos de ensaio considerados: superioridade, não inferioridade e equivalência.

Quadro 7.4 - Hipóteses, estatísticas do teste do escore e regras de decisão para


os ensaios de superioridade (S), não inferioridade (NI) e equivalência (E)

Estudo Hipóteses Estatística do teste Rejeitar 𝐻0


𝑌1𝑖
∑𝑑𝑖=1 (𝐼𝑖 − )
𝑌1𝑖 +𝑌2𝑖
S 𝐻0 : 𝜃 ≤ 0 𝑣𝑠. 𝐻1 : 𝜃 > 0 𝑆𝑆 = 𝑆𝑆 ≥ 𝑧1−𝛼
𝑌 𝑌
√∑𝑑𝑖=1 (𝑌 1𝑖+𝑌2𝑖 )
1𝑖 2𝑖

𝑌1𝑖 𝑒 𝜃⁻
∑𝑑𝑖=1 (𝐼𝑖 − )
𝑌1𝑖 𝑒 𝜃⁻ +𝑌2𝑖
NI −
𝐻0 : 𝜃 ≤ 𝜃 𝑣𝑠. 𝐻1 : 𝜃 > 𝜃⁻ 𝑆𝑁𝐼 = 𝑆𝑁𝐼 ≥ 𝑧1−𝛼
𝑌1𝑖 𝑌2𝑖 𝑒 𝜃⁻
√∑𝑑𝑖=1 ( )
𝑌1𝑖 𝑒 𝜃⁻ +𝑌2𝑖


𝑌1𝑖 𝑒 𝜃
∑𝑑𝑖=1 (𝐼𝑖 − 𝜃−
)
𝑌1𝑖 𝑒 +𝑌2𝑖
𝐻0− : 𝜃 ≤ 𝜃⁻ 𝑣𝑠. 𝐻1 : 𝜃 > 𝜃 − 𝑆𝐸− = − 𝑆𝐸− ≥ 𝑧1−𝛼
𝑌 𝑌 𝑒𝜃
√∑𝑑𝑖=1 ( 1𝑖 𝜃2𝑖− )
𝑌 𝑒 +𝑌
1𝑖 2𝑖
E
+
𝑌1𝑖 𝑒 θ
∑𝑑𝑖=1 (𝐼𝑖 − θ+
)
𝑌1𝑖 𝑒 +𝑌2𝑖
𝐻0+ : 𝜃 +
≥ θ 𝑣𝑠. 𝐻1 : 𝜃 < θ + 𝑆𝐸+ = + 𝑆𝐸+ ≤ −𝑧1−𝛼
𝑌 𝑌 𝑒θ
√∑𝑑𝑖=1 ( 1𝑖 θ2𝑖+ )
𝑌 𝑒 +𝑌
1𝑖 2𝑖

Nota: 𝜃 − : margem de não inferioridade; (𝜃𝐼 , 𝜃𝑆 ) = (𝜃 − , θ+ ): limites de equivalência.

As notações utilizadas no Quadro 7.4 são definidas a seguir: 𝑑 é o número de eventos (mortes); 𝑌𝑖𝑗 é o
número de indivíduos sob risco exatamente antes da 𝑗-ésima observação no 𝑖-ésimo grupo (𝑖 = 1,2);
𝐼𝑘 é uma variável binária (0 e 1) que indica se o 𝑘-ésimo evento é ou não proveniente do grupo 1.
Tamanho de amostra para ensaios de não inferioridade, superioridade e equivalência
(modelo de Cox)

Para o i-ésimo grupo (𝑖 = 1, 2), sejam 𝑝𝑖 a proporção de indivíduos, 𝑓𝑖 (𝑡) a função densidade de
probabilidade da variável tempo da ocorrência do evento, 𝐹𝑖 (𝑡) a distribuição acumulada de não
ocorrência do evento, isto é, o complementar de 𝑆𝑖 (𝑡), ℎ𝑖 (𝑡) e 𝐻𝑖 (𝑡) a função de risco e a distribuição
acumulada de censuras, respectivamente.

Para ensaio de não inferioridade, a estatística do teste do escore (S) depende das seguintes funções:
𝑝2 (1−𝐹1 (𝑡))(1−𝐻2 (𝑡))
𝑉(𝑡) = 𝑝1 𝑓1 (𝑡)(1 − 𝐻1 (𝑡)) + 𝑝2 𝑓1 (𝑡)(1 − 𝐻2 (𝑡)) e 𝜋(𝑡) = 𝑝 .
1 (1−𝐹1 (𝑡))(1−𝐻1 (𝑡))+𝑝2 (1−𝐹1 (𝑡))(1−𝐻2 (𝑡))

A estatística S tem distribuição normal com variância igual a um e média dada por

𝑛½ ∫0 (ℎ2 (𝑡)/ℎ1 (𝑡)−𝜃− )𝜋(𝑡)(1−𝜋(𝑡))𝑉(𝑡)𝑑𝑡 ∞
∞ ½ . Seja 𝑝𝑑 = ∫0 𝑉(𝑡)𝑑𝑡, a probabilidade de observar o evento de
(∫0 𝜋(𝑡)(1−𝜋(𝑡))𝑉(𝑡)𝑑𝑡 )

interesse. Com a suposição de riscos proporcionais, 𝑙𝑜𝑔(ℎ2 (𝑡)/ℎ1 (𝑡)) = 𝜃 > 𝜃 − é constante, tal que
𝐻2 (𝑡) = 𝐻1 (𝑡), e como na prática, comumente, 𝐹1 (𝑡) ≈ 𝐹2 (𝑡), pode-se notar que 𝜋(𝑡) ≈ 𝑝2 . Assim, a
expressão da média simplifica-se para (𝜃 − 𝜃 − )𝑛𝑝1 𝑝2 𝑝𝑑 ½ . Logo, ao se fixar nível de significância e
poder em 𝛼 e (1 − 𝛽), respectivamente, o tamanho de amostra em cada grupo para os testes de não
inferioridade (𝑛𝑁𝐼,𝐶𝑜𝑥 ) é dado por:

(𝑧1−𝛼 + 𝑧1−𝛽 )2
𝑛𝑁𝐼,𝐶𝑜𝑥 = (7.19)
(𝜃1 − 𝜃⁻)2 𝑝1 𝑝2 𝑝𝑑

Resumindo, em (7.19) 𝑧1−𝛼 e 𝑧1−𝛽 são, respectivamente, os percentis de ordem (1 − 𝛼)100% e


(1 − 𝛽)100% da distribuição normal padrão, 𝜃1 é o valor do 𝑙𝑜𝑔 da razão de risco (hazard) dos dois
grupos, 𝜃⁻ é a margem de não inferioridade, 𝑝1 e 𝑝2 são, respectivamente, as proporções de indivíduos
nos dois grupos e 𝑝𝑑 é a probabilidade de observar um evento pesquisado.

Para ensaio de superioridade, caso especial de ensaio de não inferioridade com 𝜃 − = 0, para cada
grupo, os tamanhos de amostra para hipóteses unilaterais (𝑛𝑆,𝐶𝑜𝑥,𝑇𝐻1) e bilaterias (𝑛𝑆,𝐶𝑜𝑥,𝑇𝐻2) são:

(𝑧1−𝛼 + 𝑧1−𝛽 )2
𝑛𝑆,Cox,TH1 = (7.20)
𝜃1 2 𝑝1 𝑝2 𝑝𝑑

(𝑧1−𝛼/2 + 𝑧1−𝛽 )2 (7.21)


𝑛𝑆,𝐶𝑜𝑥,𝑇𝐻2 = 2
𝜃1 𝑝1 𝑝2 𝑝𝑑
Raciocínio análogo ao dos ensaios de não inferioridade pode ser feito para o teste de equivalência.
Pode-se mostrar que o poder aproximado para o teste de equivalência considerando intervalo de
equivalência simétrico em torno de zero, (−𝜃 + , 𝜃 + ), depende da função densidade acumulada da

normal padrão (Φ) e é dado por 𝑃𝐸 (𝜃1 ) = 2Φ ((θ+ − |𝜃1 |)√𝑛𝑝1 𝑝2 𝑝𝑑 − 𝑧1−𝛼 ) − 1, resultando no

seguinte tamanho de amostra para cada grupo para atingir poder (1 − 𝛽) e para o nível de
significância fixado em 𝛼:

(𝑧1−𝛼 + 𝑧1−𝛽/2 )2
𝑛𝐸,𝐶𝑜𝑥 = (7.22)
(𝜃+ − |𝜃1 |)2 𝑝1 𝑝2 𝑝𝑑

Em resumo, os elementos necessários para os cálculos do tamanho da amostra nos três tipos de teste
(𝑛𝑆,𝐶𝑜𝑥 , 𝑛𝑁𝐼,𝐶𝑜𝑥 , 𝑛𝐸,𝐶𝑜𝑥 ) são: nível de significância e poder que em geral são fixados a priori, margens
de não inferioridade (𝜃 − ) ou limite de equivalência (𝜃 + ), as proporções de indivíduos nos dois grupos
(𝑝1 e 𝑝2 ), a probabilidade 𝑝𝑑 de observar o evento de interesse e o parâmetro 𝜃, que é usado para
comparar os grupos, o logaritmo da razão entre os riscos de indivíduos do grupo-controle e do grupo-
teste ou, de forma geral, a razão entre os riscos de dois grupos a serem comparados (1 e 2).

Exemplo 7.9 - Cálculo do tamanho de amostra utilizando o modelo de Cox para ensaios de
não inferioridade, superioridade e equivalência - adaptação do exemplo extraído de
Chow et al. (2008) ╬╬

Infecções das feridas de queimadura constituem uma complicação que pode resultar em hospitalizações
muito demoradas e até mesmo na morte de pacientes com queimaduras graves. Uma das importantes
condutas para lidar com queimaduras é prevenir ou pelo menos retardar a infecção. Estudo tem como
objetivo comparar uma nova terapia com as rotinas de cuidados durante o banho (higienização) dos
pacientes queimados em termos de tempo até uma eventual infecção. Para o planejamento de um
ensaio clínico relacionado a esse tipo de problema, será considerado igual tamanho de amostra nos dois
grupos (𝑝0 = 𝑝1 = 0,50) e nível de significância de 5%. A experiência mostra que cerca de 80% das
infecções dos pacientes devem ser observadas durante o período em que o estudo é conduzido
(𝑝𝑑 = 0,80). Supõe-se que seja considerado de importância prática detectar que o risco de infecção no
grupo de terapia de rotina seja o dobro do risco na nova terapia, ou seja, 𝜃1 = 𝑙𝑜𝑔(2) = 0,69.

A Tabela 7.15 mostra resultados para dois valores de poder (80% e 90%) e algumas combinações dos
parâmetros envolvidos nos cálculos de tamanho de amostra utilizando o modelo de Cox para estudos
de não inferioridade, fórmula (7.19), e para estudos de superioridade, fórmulas (7.20) e (7.21),
respectivamente, para testes unilaterais e bilaterais.

Como esperado, os tamanhos de amostra (𝑛) correspondentes ao poder de 90% são superiores aos de
80% e à medida que a razão de riscos (hazards) aumenta (portanto, 𝜃1 também aumenta), 𝑛 diminui.

Tabela 7.15 - Tamanho de amostra (𝑛) para cada grupo utilizando o modelo de Cox
em ensaios de não inferioridade, fórmula (7.19), e de superioridade, fórmulas
(7.20) e (7.21), com nível de significância de 5% e poder do teste de 80% e 90%

ℎ𝐶 ℎ𝐶 Poder: 80% Poder: 90%


Estudo 𝜃1 = 𝑙𝑜𝑔 ( )
ℎ𝑇 ℎ𝑇 𝑛 𝑛
Superioridade 1,5 0,41 189 261
(Unilateral) 2,0 0,69 65 90
Superioridade 1,5 0,41 239 320
(Bilateral) 2,0 0,69 82 110
1,0 0,00 124 172
Não inferioridade
1,5 0,41 38 53
(𝜃 − = −0,5)
2,0 0,69 22 31
Nota: ℎ𝐶 /ℎ 𝑇 : razão de riscos (hazards) da terapia-controle e da nova; igual proporção de indivíduos nos dois
grupos: 𝑝0 = 𝑝1 = 0,50; probabilidade de observar o evento de interesse: 𝑝𝑑 = 0,80.

Para ilustrar a aplicação da fórmula (7.22), agora será suposto que o planejamento seja para um ensaio
de equivalência, mas serão mantidos os mesmos elementos envolvidos nos cálculos anteriores:
a) 𝑝0 = 𝑝1 = 0,50; b) 𝑝𝑑 = 0,80; c) 𝛼 = 0,05; d) 𝛽 = 0,20 ou 𝛽 = 0,10. Para 𝜃 + = 0,5 e 𝜃1 = 0,
(𝑧1−𝛼 +𝑧𝛽/2 )2 (1,645+1,282)2
o tamanho de amostra para cada grupo deve ser 𝑛𝐸,𝐶𝑜𝑥 = (𝜃+ −|𝜃 2
= (0,5−|0|)2 0,5×0,5×0,8 =
1 |) 𝑝0 𝑝1 𝑝𝑑

8,567 (𝑧1−𝛼 +𝑧1−𝛽/2 )2 (1,645+1,645)2 10,824


= 171,347 ≈ 172 e 𝑛𝐸,𝐶𝑜𝑥 = (𝜃+−|𝜃 2
= (0,5−|0|)2 0,5×0,5×0,8 = = 216,482 ≈ 217,
0,05 1 |) 𝑝0 𝑝1 𝑝𝑑 0,05

para poder de 80% e 90%, respectivamente.

Para finalizar, nesta seção foram apresentados cálculos aproximados para dimensionar amostras no
contexto da comparação de dois grupos utilizando o modelo de Cox e o teste do escore para ensaios de
superioridade, não inferioridade e equivalência. A grande vantagem dessas fórmulas é a facilidade,
já que têm forma fechada envolvendo apenas a distribuição normal e não sendo necessários processos
iterativos, o que é muito comum em cálculo de tamanho de amostra.
Nesses cálculos fica evidente o efeito dos valores dos parâmetros envolvidos bem como do nível de
significância e do poder do teste. Entretanto, é necessário estudo adicional sobre a acurácia desses
cálculos e a extensão para situações mais gerais, tais como incorporar várias covariáveis, além de
considerar a suposição de riscos não proporcionais e diferentes distribuições de censuras para os dois
grupos, bem como estabelecer uma comparação com outros trabalhos da literatura.

7.4.3 Comparação de dois grupos para ensaios de não inferioridade utilizando o teste log-rank

Para situações em que há interesse em testar as hipóteses 𝐻0 : 𝜃 ≤ 𝜃 − 𝑣𝑠. 𝐻1 : 𝜃 > 𝜃 − em ensaios de não
inferioridade para comparar dois grupos utilizando o teste log-rank, Jung et al. (2005) propõem uma
fórmula para o tamanho da amostra total (𝑛 = 𝑛1 + 𝑛2 ) para testar a hipótese alternativa específica
( 𝐻1 : 𝜃 = 1) com determinado poder, cuja performance é avaliada por meio de simulação.
Seja 𝑝𝑘 = 𝑛𝑘 /𝑛, 𝑘 = 1,2 a proporção do tamanho de cada grupo em relação ao tamanho total e
assume-se que 𝑚𝑖𝑛(𝑝1 , 𝑝2 ) > 0. Fixando-se o nível de significância em 𝛼, o número de eventos para se
atingir o poder de (1 − 𝛽)100% é dado por:

(𝑧1−𝛼 √𝜃 − + 𝑧1−𝛽 (𝑝1 + 𝑝2 𝜃 − ))2


𝐷𝐽𝑢𝑛𝑔𝑒𝑡𝑎𝑙(2005) = (7.23)
𝑝1 𝑝2 (𝜃 − − 1)2

Além de 𝑝1 e 𝑝2 , que já foram definidos, aparecem em (7.23) 𝑧1−𝛼 e 𝑧1−𝛽 , os percentis de ordem
(1 − 𝛼)100% e (1 − 𝛽)100% da distribuição normal padrão, respectivamente, e a margem de não
inferioridade (𝜃 − ).

Seja 𝑆(𝑡) a função de sobrevivência comum sob a hipótese alternativa (𝐻1 ) e 𝐺(𝑡) a função de
distribuição acumulada referente às censuras. Assim, sob 𝐻1 , a probabibilidade de que para um

indivíduo ocorra um evento é 1 + ∫0 𝑆(𝑡)𝑑𝐺(𝑡). Em ensaios clínicos, em geral, no período de
recrutamento (𝑅) os pacientes são selecionados de forma uniforme e depois eles são acompanhados
por um período de 𝐹 unidades de tempo, tal que o período total do estudo é de 𝑅 + 𝐹.

Tamanho de amostra para a comparação de dois grupos em ensaios de não inferioridade


utilizando o teste log-rank

Assumindo nenhuma perda de seguimento e que as variáveis de censura dos grupos são independentes
e com distribuição uniforme, 𝑈(𝐹, 𝑅 + 𝐹), pode-se mostrar-se que: 𝐺(𝑡) = 1 se 𝑡 ≤ 𝐹;
𝐺(𝑡) = 1 − (𝑡 − 𝐹)/𝑅 se 𝐹 < 𝑡 < 𝑅 + 𝐹; 𝐺(𝑡) = 0, caso contrário. Além disso, assume-se que para o
𝑘-ésimo grupo, a distribuição do tempo de sobrevivência é exponencial com taxa de falha (hazard)
𝜆𝑘 ( 𝑘 = 1,2) e sob 𝐻1 , 𝑆(𝑡) = exp{−𝜆1 𝑡}. Neste caso, a probabibilidade de que para um indivíduo
ocorra um evento é:

𝑒𝑥𝑝{−𝐹𝜆1 }
𝑃𝐽𝑢𝑛𝑔𝑒𝑡𝑎𝑙(2005) = 1 − ( ) (1 − 𝑒𝑥𝑝{−𝑅𝜆1 }) (7.24)
𝑅𝜆1

tal que o tamanho da amostra seja:

(𝑧1−𝛼 √𝜃− +𝑧1−𝛽 (𝑝1 +𝑝2 𝜃− ))2


𝐷𝐽𝑢𝑛𝑔𝑒𝑡𝑎𝑙(2005) 𝑝1 𝑝2 (𝜃− −1)2
𝑛𝐽𝑢𝑛𝑔𝑒𝑡𝑎𝑙(2005) = = (7.25)
𝑃𝐽𝑢𝑛𝑔𝑒𝑡𝑎𝑙(2005) 𝑒𝑥𝑝{−𝐹𝜆 }
1 − ( 𝑅𝜆 1 ) (1 − 𝑒𝑥𝑝{−𝑅𝜆1 })
1

A fórmula apresentada foi derivada usando-se a teoria assintótica e o pressuposto de que os tempos de
censura e sobrevivência apresentam distribuição uniforme e exponencial, respectivamente.
Naturalmente, é possível estender para outras distribuições, com apropriadas escolhas para 𝑆(𝑡) e 𝐺(𝑡),

mas os cálculos da probabilidade geral mencionada anteriormente, 1 + ∫0 𝑆(𝑡)𝑑𝐺(𝑡), podem ser
trabalhosos e complicados.

Para efeitos comparativos, Jung et al. (2005) citam o método descrito em Chow et al. (2003) para a
mesma situação considerada: comparação de dois grupos em ensaios de não inferioridade utilizando o
teste log-rank. Neste caso, supondo que sob 𝐻0 as duas curvas de sobrevivências são praticamente
equivalentes, 𝑆1 (𝑡) ≈ 𝑆2 (𝑡), a probabibilidade de que para um indivíduo ocorra um evento é:

(𝑧1−𝛼 + 𝑧1−𝛽 )2
𝐷𝐶ℎ𝑜𝑤𝑒𝑡𝑎𝑙(2003) = (7.26)
𝑝1 𝑝2 (𝑙𝑜𝑔𝜃⁻)2

De forma similar ao caso do método de Jung et al. (2005), o tamanho de amostra total pode ser
calculado como:

(𝑧1−𝛼 +𝑧1−𝛽 )2
𝐷𝐶ℎ𝑜𝑤𝑒𝑡𝑎𝑙(2003) 𝑝1 𝑝2 (𝑙𝑜𝑔𝜃⁻)2
𝑛𝐶ℎ𝑜𝑤𝑒𝑡𝑎𝑙(2003)= = (7.27)
𝑃𝐽𝑢𝑛𝑔𝑒𝑡𝑎𝑙(2005) 𝑒𝑥𝑝{−𝐹𝜆1 }
(1 − ) (1 − 𝑒𝑥𝑝{−𝑅𝜆1 })
𝑅𝜆1
Exemplo 7.10 - Cálculo do tamanho de amostra para ensaio de não inferioridade utilizando
o teste log-rank - método de Jung et al. (2005) ╬╬

Jung et al. (2005) fornecem algumas informações que serviram de base para o planejamento de um
ensaio de não inferioridade sobre câncer de mama. A dissecção de linfonodos axilares (ALND) foi
usada no tratamento de pacientes com câncer de mama com metástase ganglionar por longo tempo,
mas o seu papel é controverso.

Como o procedimento ALND está associado a significativa morbidade, alguns pesquisadores têm
tentado desenvolver alternativas menos invasivas para identificar metástase axilar. O linfonodo-
sentinela é o primeiro que drena um tipo específico de câncer no sistema linfático; assim, exame
histopatológico pode determinar o status da base linfática. A dissecação do linfonodo-sentinela
(SLND) tem se mostrado capaz de classificar acuradamente tumores de câncer de mama por meio da
identificação de pacientes com metástase axilar e acredita-se que pode ser uma alternativa ao ALND.

Em estudo oncológico do Grupo do Colégio Americano de Cirurgiões, pacientes com câncer de mama
com SLND positivo são aleatorizados para um dos dois braços do estudo (braço 1: com o procedimento
ALND e braço 2: sem ALND) na base de 1-1 (𝑝1 = 𝑝2 = 1/2). Nesse estudo, quer-se testar a hipótese
nula de a sobrevivência dos pacientes do braço 2 ser significativamente pior do que do braço 1.
Assume-se que a taxa de risco acima de 1,3 seja clinicamente significativa. Por estudos anteriores,
sabe-se que a taxa anual de falha do ALND é de 𝜆1 = 0,0446 e passado o período do recrutamento de
cinco anos (𝑅 = 5) considerou-se razoável ter acompanhamento de cinco anos (𝐹 = 5).

A meta é ser capaz de detectar a não inferioridade do braço 2 em relação ao braço 1, com poder de 90%
e nível de significância de 5% e utilizando o teste log-rank para o estudo de sobrevivência.

Utilizando a fórmula (7.23), espera-se que o número de mortes seja


(𝑧1−𝛼 √𝜃− +𝑧1−𝛽 (𝑝1 +𝑝2 𝜃− ))2 (1,645√1,3+1,282(0,5+0,5×1,3))2
𝐷𝐽𝑢𝑛𝑔𝑒𝑡𝑎𝑙(2005) = (𝜃− −1)2
= = 498,6, que pode ser
𝑝1 𝑝2 0,5×0,5(1,3−1)2

aproximado para 500. Pela fórmula (7.24), calcula-se que a probabilidade de morte de um paciente é
𝑒𝑥𝑝{−𝐹𝜆1 } 𝑒𝑥𝑝{−5(0,0446)}
𝑃𝐽𝑢𝑛𝑔𝑒𝑡𝑎𝑙(2005) = 1 − ( ) (1 − 𝑒𝑥𝑝{−𝑅𝜆1 }) = 1 − ( ) (1 − 𝑒𝑥𝑝{−5(0,0446)})
𝑅𝜆1 5(0,0446)

= 0,283. Assim, como determina a fórmula (7.25), o tamanho de amostra total é 𝑛𝐽𝑢𝑛𝑔𝑒𝑡𝑎𝑙(2005) =
𝐷𝐽𝑢𝑛𝑔𝑒𝑡𝑎𝑙(2005) 498,6
= 0,283 = 1761,837. Neste caso, será aproximado para 1.800, sendo 900 em cada grupo.
𝑃𝐽𝑢𝑛𝑔𝑒𝑡𝑎𝑙(2005)
A Tabela 7.16 mostra os resultados para outros períodos de recrutamentos (𝑅), mantendo o mesmo
período de seguimento (𝐹 = 5) e a mesma taxa anual de falha do braço 1 (𝜆1 = 0,0446). Novamente,
o nível de significância e poder foram fixados em 0,05 e 90%.

Tabela 7.16 - Tamanho de amostra total, 𝑛𝐽𝑢𝑛𝑔𝑒𝑡𝑎𝑙(2005) , fórmula (7.25), para cinco
períodos de recrutamento (𝑅) e período de seguimento de cinco anos (𝐹 = 5)

𝑅 𝐹 𝑅+𝐹 𝑃𝐽𝑢𝑛𝑔𝑒𝑡𝑎𝑙(2005) 𝑛𝐽𝑢𝑛𝑔𝑒𝑡𝑎𝑙(2005)


5 5 10 0,283 1.764 (882 em cada grupo)
4 5 9 0,267 1.866 (933 em cada grupo)
3 5 8 0,251 1.986 (993 em cada grupo)
2 5 7 0,235 2.126 (1.063 em cada grupo)
1 5 6 0,217 2.294 (1.147 em cada grupo)
Nota: 𝛼 = 0,05; 1 − 𝛽 = 0,90; 𝜆1 = 0,0446; 𝜃 − = 1,3; 𝑝1 = 𝑝2 = 0,5; 𝑃𝐽𝑢𝑛𝑔𝑒𝑡𝑎𝑙(2005) : probabilidade de
morte de um paciente, fórmula (7.24).

Com a redução do tempo total de estudo (𝑅 + 𝐹), há necessidade de recrutar mais participantes
(𝑛𝐽𝑢𝑛𝑔𝑒𝑡𝑎𝑙(2005) aumenta). Uma questão interessante que surge é qual seria a combinação ideal dos
períodos de recrutamento (𝑅) e acompanhamento (𝐹).

No artigo de Jung et al. (2005) há outra solução que pode ser útil na prática, quando é fornecida a taxa
de recrutamento em vez do período de recrutamento. É necessário método numérico, tal como o
método iterativo de Newton Raphson.

7.5. Tópicos adicionais

Nesta seção são mencionados brevemente alguns tópicos que aparecem com certa frequência na
prática, fornecendo referências tanto para a metodologia como para o cálculo do tamanho da amostra
e do poder.

7.5.1 Outras considerações sobre o modelo de riscos proporcionais e alternativas

Quando o pressuposto de riscos proporcionais não é válido e há dependência no tempo, há basicamente


duas linhas de pensamento: a) usar a estimação ponderada no modelo de riscos proporcionais de Cox;
b) ajustar o modelo com efeitos dependentes no tempo.
Para o modelo de Cox, o método de máxima verossimilhança (mmv) nem sempre é a melhor opção,
como discutido, por exemplo, em Heinze e Schemper (2001). Assim, o método tradicional para
dimensionamento de amostra proposto por Hsieh e Lavori (2000) baseado no mmv pode não ser
apropriado. Heinze e Dunkle (2008) apresentam uma solução para o problema de verossimilhança
monótona que ocorre com a regressão de Cox e estendem ao procedimento de Firth (1993) para o caso
desse modelo com efeitos dependentes do tempo.

7.5.2 Análise de sobrevivência para dados grupados

A situação mais tradicional de análise de sobrevivência é aquela em que o tempo exato é anotado.
Nesse caso, o estimador de Kaplan-Meier, os modelos paramétricos ou o modelo de Cox podem
ser utilizados.

Frequentemente não é possível o conhecimento do tempo preciso em que o desfecho pesquisado


ocorreu, só sendo possível determinar o tempo de falha de forma aproximada. Por exemplo, em estudos
sobre o HIV, a equipe que está acompanhando os pacientes não consegue saber exatamente o momento
da soroconversão. Naturalmente, aparecem complicações adicionais para a análise dos dados, que exige
tratamento especial. Dados referentes a esse tipo de situação são conhecidos na literatura como dados
grupados, com censura intervalar ou, ainda, de tempos discretos (em inglês, grouped, interval
censored data, discrete lifetimes). A metodologia para analisar dados de censura intervalar encontra-se
descrita em Lindsey e Ryan (1998), em algumas seções de Lawless (2003), no capítulo 8 de Colosimo
e Giolo (2006) e no capítulo 9 de Collett (2015), entre tantos outros textos.

O tradicional método de tabela de vida é a forma mais simples para analisar dados de sobrevivência
para dados grupados. Outras opções podem ser encontradas em Peto (1973) e Turnbull (1976).
Entretanto esses métodos não permitem incorporar covariáveis, o que pode representar importante
limitação na prática.

A análise de dados com censura intervalar pode ser feita ajustando-se o tradicional modelo de riscos
proporcionais de Cox com aproximações da verossimilhança parcial. Destacam-se dois modelos de
regressão para tempos discretos: o modelo discreto de Cox (MDC) e o modelo discreto logístico
(MDL). Um teste do escore para discriminar entre esses dois modelos é apresentado por Colosimo et al.
(2000). Em dissertação de mestrado, Fonseca (2003) ilustra as três formas de análise de dados
censurados e intervalares (métodos de tabela de vida, MDC e MDL) por meio de dados reais e
simulados. São estabelecidas comparações, especialmente entre os modelos MDC e MDL, por
exemplo, em relação ao poder empírico para várias situações.

No tocante à determinação do tamanho de amostra, não foi localizado trabalho específico para os
modelos para tempos discretos (MDC e MDL), mas possivelmente podem-se fazer adaptações de
trabalhos mais gerais, sendo os de modelos lineares generalizados as principais referências,
considerando as funções de ligação correspondentes, como discutidos no capítulo 10.

Kim et al. (2016) propõem vasta e atualizada lista de referências sobre análise de sobrevivência para
dados grupados, com diferentes enfoques, métodos paramétricos e não paramétricos e também os
bayesianos. A metodologia do artigo foi ilustrada com o modelo de Weibull no caso especial da
comparação para dois grupos. Apresentam também um estudo de simulações para demonstrar o mérito
do método proposto. Segundo os autores, esse método pode ser facilmente estendido para
delineamentos mais complexos bem como para grande variedade de distribuições do tempo de
sobrevivência e de censura. Os resultados apresentados no artigo foram obtidos por aplicação de
procedimentos do SAS® ou executando um programa que escreveram no IML do SAS®.

7.5.3 Análise de sobrevivência com eventos múltiplos

Nas seções anteriores foram consideradas situações em que o evento de interesse é observado apenas
uma única vez durante o período de acompanhamento. Entretanto, em muitos estudos há interesse em
estudar o tempo até a ocorrência de vários eventos. Exemplos incluem a recorrência de alguns tipos de
infecção em pacientes com AIDS e múltiplos infartos em pacientes cardíacos. Este tópico é conhecido
na literatura, por exemplo, como análise de sobrevivência com eventos múltiplos (em inglês, clustered
survival times).

Existem modelos específicos, como os marginais e os condicionais. Revisão sobre o assunto pode
ser encontrada, por exemplo, no capítulo 8 de Therneau e Grambsch (2000) e no capítulo 10 de
Carvalho et al. (2011).

Xie e Waksman (2003) discutem sobre o delineamento e a determinação do tamanho da amostra (𝑛)
em ensaios clínicos com eventos múltiplos utilizando o modelo marginal de Lee, Wei e Amato (1992).
Os resultados de seus estudos de simulação demonstram que a fórmula proposta para 𝑛 funciona
satisfatoriamente. No artigo também comparam o delineamento de tempo único (por exemplo, o tempo
da ocorrência do primeiro evento) com o de eventos múltiplos em diferentes cenários.
7.6 Recursos computacionais para os cálculos do tamanho da amostra
e/ou do poder

A maioria das fórmulas fechadas de tamanho de amostra do capítulo foi programada em planilhas
Excel® e elas se encontram disponíveis para os leitores (ver informações na apresentação do livro;
os exemplos com fórmulas programadas estão sinalizados por ╬╬ ).

Alternativamente, alguns cálculos de tamanho de amostra e/ou do poder do teste discutidos ou


relacionados ao assunto do capítulo podem ser obtidos pelos seguintes softwares/programas citados no
capítulo 11: Pass®, nQuery Advisor®, PS: Power and Sample Size Calculation e os pacotes do software
livre R: TrialSize (funções: TwoSampleSurvival.Conditional, TwoSampleSurvival.Equality,
TwoSampleSurvival.Equivalence, TwoSampleSurvival.NIS); HMISC (função cpower); powerSurvEpi
(funções: numDEpi, power.stratify, powerCT, powerEpi, powerEpiCont, powerEpiInt, ssize.stratify,
ssizeCT, ssizeEpi, ssizeEpiCont, ssizeEpiInt).
8.1 Introdução

A solicitação de testes laboratoriais e exames é prática médica comum, tanto para a triagem de
pacientes ou diagnóstico definitivo de doenças, como também para o acompanhamento ou prognóstico
da evolução de um paciente. Em geral, procura-se um método que seja menos invasivo e que ofereça
menos riscos ao paciente, que tenha preço acessível e que seja de fácil implantação, para se tornar de
ampla utilização.

Métodos complementares para diagnósticos clínicos são ferramentas importantes de profissionais de


saúde. Avanços na área de Biotecnologia continuam a fornecer novos testes para diagnosticar doenças.
Em geral, um teste diagnóstico tem como finalidade fornecer informação confiável sobre a condição do
paciente e influenciar a decisão do médico de tratar ou não o paciente e/ou prescrever determinado
tratamento. Por outro lado, não existe teste perfeito, aquele que determina com certeza se há ou não
doença, a verdadeira condição do paciente ou, ainda, o grau com que os pacientes com e sem a
condição são diagnosticados corretamente.

Além disso, em muitas situações há testes alternativos cuja qualidade deve ser comparada tanto entre
os existentes, como também com um novo teste. Os resultados de um novo teste devem ser comparados
com aqueles do teste que fornece o diagnóstico definitivo. Este último é conhecido como padrão-ouro,
por teoricamente produzir resultados corretos. Em geral, testes considerados como padrão-ouro são
caros, invasivos e frequentemente inviáveis de serem aplicados a indivíduos cujos resultados dos testes
de triagem indiquem que a condição está ausente.

Assim, uma questão relevante e essencial no contexto de diagnóstico na área da saúde é a avaliação da
qualidade (ou acurácia) de testes, métodos e aparelhos. Antes que um teste ou método de diagnóstico se
torne aceito para uso rotineiro, ele deve ser submetido à rigorosa avaliação em relação à sua capacidade
de discriminar condições (por exemplo, doente ou não). Ao lançar um kit de exame/teste diagnóstico,
o fabricante deve realizar um estudo sobre sua acurácia, cujos resultados são relatados na bula do kit.

De maneira geral, estudos devem ser feitos para a comprovação da qualidade de testes a serem
utilizados. Isso é feito numa fase de pesquisa em que a verdadeira condição do paciente é conhecida.
Existem medidas consagradas para caracterizar a acurácia de um teste que está sendo avaliado,
tal como sensibilidade e especificidade. Entretanto, na prática, o que interessa é otimizar a utilização
dos testes diagnósticos no sentido de maximizar as chances de diagnósticos corretos e minimizar as
chances de diagnósticos incorretos. Neste caso, também existem medidas que podem ser usadas,
tais como os valores de predição (positivo e negativo) e as probabilidades referentes aos falsos
resultados (positivo e negativo).

Para a realização de estudos de acurácia de testes diagnósticos, como sempre, é necessário fazer
cuidadoso planejamento, sendo que um dos pontos cruciais é o cálculo do número de participantes,
ou seja, a determinação do tamanho de amostra. O propósito de determinar o tamanho de amostra para
estudos de acurácia é assegurar que o estudo seja capaz de atingir seu alvo. Basicamente, os objetivos
de um estudo de acurácia são: a) estimar a acurácia de um teste diagnóstico; b) determinar se a acurácia
difere para dois ou mais testes diagnósticos; c) identificar o ponto de corte conveniente no caso em que
o diagnóstico for baseado em variável quantitativa.

Em Bachmann et al. (2006) há um levantamento da literatura sobre relatos de cálculos de tamanho de


amostra em estudos de acurácia de testes diagnósticos. Apresenta-se um quadro resumindo informações
de 57 estudos publicados em 2002 por oito importantes periódicos médicos. As principais conclusões
são que poucos estudos relatam os cálculos de tamanhos de amostra e que o número de participantes de
vários estudos é bastante reduzido para analisar a variabilidade das medidas de acurácia entre os
subgrupos de pacientes.

Em levantamento da literatura oftalmológica sobre acurácia de testes diagnósticos, Bochmann et al.


(2007) consideraram os cinco periódicos da área com mais impacto. Constataram que apenas algumas
pesquisas consideram o tamanho da amostra em seus métodos. Advertem que tamanhos de amostra
inadequados em estudos de acurácia de testes diagnósticos podem resultar em estimativas incorretas da
precisão dos testes avaliados.

Tais levantamentos demonstram a necessidade de mais atenção para os cálculos do tamanho de amostra
em estudos de acurácia de testes diagnósticos e identificam a importância da disseminação do conteúdo
deste capítulo cujo objetivo principal é apresentar algumas formas de dimensionar amostras para
estudos sobre acurácia de testes diagnósticos. Excelente revisão sobre o assunto é encontrada em
Obuchowski (1998), com 36 referências. Outra referência que merece menção é o capítulo 6 do livro
de Zhou et al. (2011). Destaca-se ainda o trabalho de Hajian-Tilaki (2014) sobre determinação de
amostra para testes diagnósticos, publicado em periódico de informática médica, no qual se encontram
exemplos adicionais, além de muitas referências que não foram incluídas na nossa seleção.

A seguir são apresentados os conceitos fundamentais sobre o assunto pertinentes a dimensionamento


de amostra. Detalhes adicionais e muitos exemplos podem ser encontrados em Siqueira e
Tibúrcio (2011) e em vários artigos citados ao longo do capítulo. Boas referências sobre o assunto são
também a dissertação de mestrado de Pires (2003) e o livro de Zhou et al. (2011).

8.1.1 Medidas usadas em estudos de acurácia de testes diagnósticos

O bom uso de um teste diagnóstico requer, além de considerações clínicas, o conhecimento de medidas
que caracterizam a sua qualidade intrínseca, a sensibilidade e a especificidade, bem como os índices
que refletem a sua capacidade de produzir decisões clínicas corretas: o valor da predição positiva
e o valor da predição negativa. O exemplo a seguir dá ideia do tipo de dados e eventos tratados
neste capítulo.

Exemplo 8.1 - Resultados de um teste clínico

Na etapa de pesquisa para a determinação do grau de confiabilidade de um teste diagnóstico,


o pesquisador utiliza-o primeiramente em dois grupos específicos de pessoas: um de pacientes
realmente doentes e outro de pessoas sem a doença em questão. O diagnóstico, nessa etapa, deve ser
feito por um meio diferente do teste em estudo, o chamado padrão-ouro.

Os resultados de uma pesquisa, apresentados na Tabela 8.1, podem ser assim interpretados: para os
realmente doentes, o resultado do teste foi correto em 90% e para os não doentes, 95%.
Tabela 8.1 - Resultados de uma pesquisa para investigar a qualidade de um teste clínico

Doença Teste
Total
(padrão-ouro) Positivo Negativo
Presente 90 10 100
Ausente 5 95 100
Total 95 105 200

Para definir os índices que descrevem o grau de confiabilidade de um teste, são de interesse os eventos
mostrados no Quadro 8.1.

Quadro 8.1 - Eventos de interesse para definir grau de confiabilidade de um teste


Evento Descrição
𝑇+ O resultado do teste é positivo
𝑇− O resultado do teste é negativo
𝐷+ O paciente é doente
𝐷− O paciente não é doente

Usando os resultados da Teoria de Probabilidades, a seguir são discutidos os quatro principais índices
nos quais é usualmente baseada a avaliação da qualidade de um teste diagnóstico: sensibilidade,
especificidade, valor da predição positiva e valor da predição negativa. Os eventos de interesse foram
definidos no Quadro 8.1 e os dados estão organizados na Tabela 8.2.

Tabela 8.2 - Dados genéricos de um estudo sobre a acurácia de teste diagnóstico

Condição Resultado do teste


Total
verdadeira Positivo (𝑇+ ) Negativo (𝑇− )
Doente (𝐷+ ) 𝑎 𝑏 𝑛1 = 𝑎 + 𝑏
Não doente (𝐷− ) 𝑐 𝑑 𝑛2 = 𝑐 + 𝑑
Total 𝑎 + 𝑐 𝑏 + 𝑑 𝑛

Sensibilidade e especificidade

Na análise da qualidade de testes diagnósticos, interessa conhecer duas probabilidades condicionais


que, pela sua importância, recebem nomes especiais: sensibilidade e especificidade.
A sensibilidade, denotada por s, é definida como 𝑠 = 𝑃𝑟(𝑇+ |𝐷+ ). Em palavras: a sensibilidade é
a probabilidade de o teste ser positivo, sabendo-se que o paciente que está sendo examinado é
realmente doente.

A especificidade, denotada por 𝑒, é definida como 𝑒 = 𝑃𝑟(𝑇− |𝐷− ). Em palavras: a especificidade é


a probabilidade de o teste ser negativo sabendo-se que o paciente examinado não tem a doença.

Os nomes são descritivos: a sensibilidade mede a capacidade de reação do teste em um paciente doente,
enquanto que a especificidade mensura a não reação do teste em pacientes sem a doença, sendo o teste
específico para a doença em questão.

Na definição desses dois índices (𝑠, 𝑒), assume-se a existência de um padrão-ouro ou um teste
diagnóstico que sempre produz resultados corretos, correspondendo à condição verdadeira do paciente.
Além disso, assume-se que os pacientes são classificados apenas como doentes e não doentes, não se
admitindo estágios intermediários.

Estimação da sensibilidade e especificidade

Como mostra a Tabela 8.3, para os dados genéricos da Tabela 8.2, pela definição de probabilidade
𝑎 𝑎 𝑑 𝑑
condicional, a sensibilidade é estimada por 𝑠 = 𝑛 = 𝑎+𝑏 e a especificidade por 𝑒 = 𝑛 = 𝑐+𝑑. A
1 2

Tabela 8.3 também apresenta as estimativas dos complementares da sensibilidade e da especificidade.

Tabela 8.3 - Estimativas da sensibilidade (𝑠) e especificidade (𝑒)


e seus complementares: (1 − 𝑠) e (1 − 𝑒)

Condição Teste
Total
verdadeira Positivo (𝑇+ ) Negativo (𝑇− )
𝑎 𝑏
Doente (𝐷+ ) 𝑠= 1−𝑠 = 1
𝑎+𝑏 𝑎+𝑏
𝑐 𝑑
Não doente (𝐷− ) 1−𝑒 = 𝑒= 1
𝑐+𝑑 𝑐+𝑑

𝑎 𝑑
A rigor, como indicação de estimativas, deveria ter sido usado o símbolo ^, isto é, 𝑠̂ = 𝑎+𝑏, 𝑒̂ = 𝑐+𝑑,

mas seguindo a literatura deste tópico o chapéu (^) será eliminado. Em geral, ficará subentendido pelo
contexto que se trata de estimativa e não de parâmetro conhecido.
Medidas obtidas pela combinação da sensibilidade e da especificidade

Existem algumas medidas referentes à combinação da sensibilidade e da especificidade: odds ratio,


índice de Youden, razão de verossimilhanças e acurácia ou probabilidade de um resultado de
teste correto.

Odds ratio

Se 𝑝 é a probabilidade de um evento, a definição de odds é 𝑝/(1 − 𝑝), a razão entre a probabilidade de


o evento acontecer e de não acontecer. A medida conhecida como odds ratio (𝑂𝑅), muitas vezes
traduzida por razão de chances, é definida como a razão de duas odds e já foi introduzida
no capítulo 3. Em avaliação da qualidade de testes diagnósticos, a medida 𝑂𝑅 é definida por:
𝑠/(1−𝑠) 𝑠𝑒
𝑂𝑅 = (1−𝑒)/𝑒 = (1−𝑠)(1−𝑒).

A definição resulta na razão do produto da sensibilidade e especificidade pelo produto dos seus
complementares. Valor próximo de um indica que a chance (odds) de um resultado de teste positivo é a
mesma para pacientes com a condição (𝐷+ ) e sem a condição (𝐷− ); valores da razão das chances
superiores a um indicam que a chance de um resultado de teste positivo é mais alta para pacientes com
a condição. Consequentemente, valor inferior a um significa que há mais chances de um resultado de
teste ser positivo para pacientes sem a condição.

Índice de Youden

O índice de Youden (𝐼𝑌) varia entre −1 e 1, já que é definido por: 𝐼𝑌 = 𝑠 + 𝑒 − 1. No caso extremo
de sensibilidade e especificidade perfeitas (𝑠 = 𝑒 = 1), 𝐼𝑌 = 1. Quanto mais altas as somas de
classificações corretas dos testes nos casos em que a condição do paciente é conhecida, isto é, 𝑠 + 𝑒,
maior será 𝐼𝑌.

Razão de verossimilhanças

O índice da razão de verossimilhanças (𝑅𝑉) é definido como a razão entre probabilidades do resultado
do teste (positivo ou negativo) entre aqueles com a condição (𝐷+ ) e sem a condição (𝐷− ). Assim,
𝑃𝑟(𝑇 |𝐷 ) 𝑠 𝑃𝑟(𝑇 |𝐷 ) 1−𝑠
𝑅𝑉+ = 𝑃𝑟(𝑇+ |𝐷+) = 1−𝑒 e 𝑅𝑉− = 𝑃𝑟(𝑇−|𝐷+) = .
+ − − − 𝑒
A razão de verossimilhanças indica a magnitude da evidência de que determinado resultado do teste
(positivo ou negativo) fornece em favor da condição em relação à sua ausência. Valor de 𝑅𝑉 próximo
de um indica que o resultado do teste é igualmente provável no grupo com e sem a condição;
se 𝑅𝑉 > 1 (𝑅𝑉 < 1), há indicação de que o resultado do teste é mais provável entre aqueles com (sem)
a condição, comparado aos sem (com) a condição. Para testes com boa acurácia, espera-se que 𝑅𝑉+
seja “grande” e 𝑅𝑉− “pequeno”. Beck et al. (2009) apresentam uma tabela com valores que
caracterizam a qualidade diagnóstica dos testes.

Acurácia ou probabilidade de um resultado de teste correto

A acurácia ou probabilidade de um resultado de teste correto é definida por


𝑃𝑟(𝑇+ ⋂𝐷+ ) + 𝑃𝑟(𝑇− ⋂𝐷− ), que pode ser pensada como a proporção de verdadeiros positivos (𝑉𝑃) ou
verdadeiros negativos (𝑉𝑁). Essa medida é a média ponderada de sensibilidade (𝑠) e especificidade
(𝑒), com pesos iguais à prevalência 𝑝 = 𝑃𝑟 (𝐷+ ) e ao complementar da prevalência (1 − 𝑝), ou seja,
𝑃𝑟(𝑉𝑃) + 𝑃𝑟(𝑉𝑁) = 𝑝𝑠 + (1 − 𝑝)𝑒. Usando a notação da Tabela 8.2, a acurácia pode ser estimada
por (𝑎 + 𝑑)⁄𝑛.

8.1.2 Valores de predição

Embora a sensibilidade e a especificidade sejam índices ilustrativos e sintetizem bem as qualidades


gerais de um teste, têm uma séria limitação: não ajudam na decisão da equipe médica que, recebendo
um paciente com resultado positivo do teste, por exemplo, precisa avaliar se ele está ou não doente.

Em outras palavras, não se pode depender apenas da sensibilidade e da especificidade, já que esses
índices são provenientes de uma situação em que há certeza sobre o diagnóstico, o que não acontece no
consultório médico. Daí a necessidade de se definir outros índices, que refletem melhor o que acontece
na prática. Nesse momento, interessa mais conhecer os índices denominados valor da predição positiva
(𝑉𝑃𝑃) e valor da predição negativa (𝑉𝑃𝑁), definidos, respectivamente, por: 𝑉𝑃𝑃 = 𝑃𝑟(𝐷+ | 𝑇+ )
e 𝑉𝑃𝑁 = 𝑃𝑟(𝐷− |𝑇− ).

Em palavras, 𝑉𝑃𝑃 é a probabilidade de o paciente estar realmente doente quando o resultado do teste é
positivo, enquanto que 𝑉𝑃𝑁 é a probabilidade de o paciente não estar doente quando o resultado do
teste é negativo. São probabilidades condicionais, tal que o evento conhecido a priori é o resultado do
teste, aquele que na prática acontece primeiro.
Uma maneira fácil de calcular os índices 𝑉𝑃𝑃 e 𝑉𝑃𝑁 é a partir da Tabela 8.4, sugerida por Vecchio
(1966). Seja 𝑝 = 𝑃𝑟 (𝐷+ ), a prevalência da doença na população de interesse - a proporção de pessoas
doentes - também chamada de probabilidade de doença pré-teste.

Tabela 8.4 - Probabilidades necessárias para o cálculo dos índices 𝑉𝑃𝑃 e 𝑉𝑃𝑁

Proporção com resultado


População Proporção
Positivo Negativo
Doente 𝑝 𝑝𝑠 𝑝(1 − 𝑠)
Sadia 1 − 𝑝 (1 − 𝑝)(1 − 𝑒) (1 − 𝑝)𝑒
Total 1 𝑝𝑠 + (1 − 𝑝)(1 − 𝑒) 𝑝(1 − 𝑠) + (1 − 𝑝)𝑒

O valor de predição positiva é obtido dividindo-se a frequência dos “verdadeiros” positivos, aqueles
oriundos de pacientes doentes, pelo total de positivos. Obtém-se a seguinte expressão
𝑝𝑠
𝑉𝑃𝑃 = 𝑝𝑠+(1−𝑝)(1−𝑒). De forma análoga, considerando-se os “verdadeiros” negativos, obtém-se
( 1−𝑝)𝑒
o valor da predição negativa: 𝑉𝑃𝑁 = 𝑝(1−𝑠)+ (1−𝑝)𝑒. As expressões para 𝑉𝑃𝑃 = 𝑃𝑟(𝐷+ | 𝑇+ ) e

𝑉𝑃𝑁 = 𝑃𝑟(𝐷− |𝑇− ) também podem ser facilmente obtidas pela aplicação do teorema de Bayes.
Ambas as expressões dependem do conhecimento da estimativa da prevalência da doença na população
de interesse. Essas são probabilidades de resultados corretos de diagnóstico.

8.1.3 Decisões incorretas: falso-positivo e falso-negativo

As probabilidades 𝑃𝐹𝑃 = 𝑃𝑟(D− |T+ ) = 1 − 𝑃𝑟(𝐷+ |𝑇+ ) = 1 − 𝑉𝑃𝑃 e 𝑃𝐹𝑁 = 𝑃𝑟(𝐷+ |𝑇− ) =
1 − 𝑃𝑟(𝐷− |𝑇− ) = 1 − 𝑉𝑃𝑁 referem-se, respectivamente, ao falso-positivo e falso-negativo, a decisões
incorretas baseadas no teste diagnóstico. São os complementares de 𝑉𝑃𝑃 e 𝑉𝑃𝑁, respectivamente,
e frequentemente são conhecidos como taxas de falsos resultados.

Como não há, na literatura, padronização relativa a nomes dos índices de um teste diagnóstico, às vezes
há confusão de interpretação. Por exemplo, as probabilidades de falso-positivo e falso-negativo são
muito frequentemente usadas para as quantidades (1 − 𝑠) e (1 − 𝑒), quando deveriam ser reservados
para (1 − 𝑉𝑃𝑃) e (1 − 𝑉𝑃𝑁). Por isso, na medida do possível, esses termos devem ser evitados ou
utilizados com os devidos cuidados de interpretação. Para ser consistente com algumas referências
citadas no texto, serão adotadas as seguintes nomenclaturas: taxa de verdadeiro-positivos (𝑇𝑉𝑃 = 𝑠) e
taxa de falso-positivos (𝑇𝐹𝑃 = 1 − 𝑒).
Outra dificuldade é que muitos autores admitem, implicitamente, que a prevalência que ocorre na
tabela é a mesma na população de interesse e, assim, usam a tabela 2x2, como a Tabela 8.2,
para o cálculo dos valores de predição. Nada justifica essa hipótese e tal procedimento pode levar a
sérios erros.

(1−𝑝)(1−𝑒)
A proporção de falso-positivo (𝑃𝐹𝑃 = 1 − 𝑉𝑃𝑃), é calculada como 𝑃𝐹𝑃 = 𝑝𝑠+(1−𝑝)(1−𝑒), enquanto
𝑝(1−𝑠)
que a proporção de falso-negativo (𝑃𝐹𝑁 = 1 − 𝑉𝑃𝑁), é 𝑃𝐹𝑁 = 𝑝(1−𝑠)+ (1−𝑝)𝑒.

8.1.4 Testes diagnósticos baseados em variáveis contínuas

Os índices apresentados até agora para definir qualidade de um teste clínico requerem que o resultado
do teste seja, por simplicidade, classificado como positivo ou negativo e que a classificação do
diagnóstico também seja dicotômica (por exemplo, doente ou sadio).

Para dados de variáveis contínuas, tais como dosagens, surge a questão de como dicotomizar de forma
que os dados sejam colocados no formato da tabela 2x2 considerada anteriormente. É preciso, então,
estabelecer o limite entre o que será considerado sadio ou doente, o valor a partir do qual o teste é
considerado positivo ou negativo. Esse limite é chamado de valor de referência ou ponto de corte.
Assim, cada teste clínico ou critério de classificação é caracterizado por um valor de referência e,
variando-se esse ponto de corte, a sensibilidade e a especificidade também variam. Para cada situação é
preciso escolher o valor que fornece a combinação de sensibilidade e especificidade mais adequada.

Efeito do ponto de corte na qualidade de um teste diagnóstico

A cada ponto de corte está associada uma sensibilidade e uma especificidade. Assim, frequentemente
podem-se alterar a sensibilidade e a especificidade de um teste trocando-se o ponto de corte.

Escolha do ponto de corte

Uma possibilidade para a escolha do ponto de corte seria calcular a sensibilidade e a especificidade
para vários valores de referência e, então, adotar aquele que produz a combinação mais desejável para
essas duas medidas da qualidade de um teste. Por exemplo, Galen e Gambino (1975) sugeriram uma
medida de eficiência definida pela soma da sensibilidade e especificidade.
Curva ROC

Procedimento alternativo para a escolha do ponto de corte é a análise das curvas de operação
característica (em inglês ROC, a abreviação de receiver operator characteristic), nome recebido
porque o método originou-se em estudos de detecção de sinais por operadores de radar.

A curva ROC é uma representação gráfica da sensibilidade (𝑠) no eixo vertical e o complementar da
especificidade (𝑒), (1 − 𝑒), no eixo horizontal para diversos pontos de corte. Adotando a nomenclatura
de algumas referências citadas no texto, a curva ROC é uma representação gráfica da 𝑇𝑉𝑃 = 𝑠 no eixo
vertical e da 𝑇𝐹𝑃 = 1 − 𝑒 no eixo horizontal para diversos pontos de corte.

A curva ROC tem muitas vantagens sobre medidas isoladas de sensibilidade e especificidade (ZWEIG
e CAMPBELL, 1993). Por exemplo, é uma representação visual e não requer a seleção de pontos de
corte particulares, pois todos os de interesse são incluídos. Como a sensibilidade e a especificidade são
independentes da prevalência da doença, a curva ROC também tem essa propriedade. Além disso,
não depende da escala dos resultados do teste, sendo invariante em relação a transformações
monotônicas dos resultados do teste, tais como logarítmica e raiz quadrada (CAMPBELL, 1994).
De fato, a curva empírica depende somente da ordenação das observações, não da magnitude real dos
resultados do teste.

Para um teste, a curva ROC ideal, como a da esquerda da Figura 8.1, sobe quase que verticalmente do
canto inferior esquerdo e, então, move-se horizontalmente quase na linha superior. A curva ROC
empírica, como na Figura 8.1 à direita, é formada unindo-se os pontos mostrados, indicando que
diferentes critérios para interpretar um teste produzem valores diferentes para a sensibilidade
e especificidade.

Figura 8.1 - Duas curvas ROC: teórica (à esquerda) e empírica (à direita).


A Figura 8.2 mostra quatro curvas ROC. A curva superior é considerada excelente, já que a
sensibilidade e a especificidade são altas. A Figura 8.2 também mostra uma curva com bom
desempenho e uma curva ruim. Para a maioria dos testes clínicos, a curva ROC está em algum lugar
entre essas duas curvas, ou seja, próxima da curva boa ou da curva ruim. Finalmente, a reta de 45 graus
(no gráfico indicada pelo círculo cheio) corresponde à situação em que não há benefício, quando a
sensibilidade é sempre igual ao complementar da especificidade.

Figura 8.2 - Exemplos de quatro curvas ROC.

Além da curva empírica, que consiste na união dos pontos grafados, existem métodos para o ajuste da
curva ROC (ALONZO e PEPE, 2002). Detalhes desse ajuste são apresentados em Pires (2003).

Considerando a curva ROC, existem algumas formas de resumir a acurácia de um teste diagnóstico,
com destaque para a área sob a curva ROC (𝐴𝑆𝐶𝑅𝑂𝐶 ). Tal índice varia entre zero e um e, de certa
forma, mede a capacidade que um teste tem de discriminar entre pacientes com e sem a condição
pesquisada. Uma área igual a um indica que o teste tem acurácia perfeita. Quanto mais próximo de um,
melhor será o teste. O limite prático para 𝐴𝑆𝐶𝑅𝑂𝐶 é de 0,5, caso em que a probabilidade de distinguir
pacientes com e sem a condição pesquisada é exatamente a mesma. Acima desse valor o teste tem
alguma utilidade discriminatória. Detalhes adicionais podem ser encontrados em Pires (2003)
e Vaz (2009).

A área sob a curva ROC pode levar a conclusões incorretas quando se compara a acurácia de dois
testes. As áreas sob as curvas ROC de dois testes podem ser iguais, mas os testes podem diferir em
regiões clinicamente importantes da curva. Por outro lado, as curvas ROC podem diferir, mas os testes
podem ter a mesma área nas regiões clinicamente relevantes. A Figura 8.3 apresenta duas curvas ROC,
que se cruzam no complementar da especificidade igual a 0,14. A área sob a curva A é maior que a da
B. No entanto, se o interesse clínico está em especificidade alta (acima de 0,86), o teste B é preferível
ao teste A.

Fonte: Zhou et al. (2011).


Figura 8.3 – Curvas ROC referentes a dois testes (A e B).

8.2 Tamanho de amostra para estudos de acurácia de testes diagnósticos

O dimensionamento de amostra para estudos de acurácia de testes diagnósticos pode ser feito com
vários enfoques. Pode haver interesse na estimação da sensibilidade e/ou especificidade de um teste
diagnóstico, a questão pode ser respondida por meio da aplicação de testes de hipóteses envolvendo um
único teste que deve ser comparado com um valor pré-especificado ou, ainda, a comparação de
acurácia de dois testes, via testes de hipóteses ou mesmo intervalos de confiança.

As medidas de acurácia também podem variar, pode ser a sensibilidade e/ou a especificidade ou é
muito comum utilizar a curva ROC. As medidas mais comuns associadas à curva ROC são: a) área sob
a curva, que é uma medida geral do teste inerente à sua habilidade de distinguir entre a condição de
pacientes com e sem a condição pesquisada; b) área parcial sob a curva, que descreve a acurácia para
uma variação de probabilidade de falso-positivo (𝑃𝐹𝑃); c) a sensibilidade para 𝑃𝐹𝑃 fixo, que fornece a
verdadeira taxa de resultados positivos (𝑉𝑃𝑃) para único 𝑃𝐹𝑃 pré-especificado; d) razão de
verossimilhanças, que descreve a troca na chance (odds), favorecendo a condição em relação à sua
ausência, dado um particular resultado do teste (positivo ou negativo).
Como as medidas de acurácia são na verdade probabilidades (ou seja, proporções),
várias nomenclaturas serão as mesmas que as utilizadas no capítulo 3 (sobre proporções) e nem sempre
serão repetidas.

8.2.1 Estimação da sensibilidade e/ou especificidade

Uma consequência de usar poucos indivíduos em estudos que têm como objetivo obter estimativas de
sensibilidade/especificidade é que elas podem ser imprecisas e, portanto, não conseguir fornecer
informações clinicamente úteis. Além disso, a avaliação de um teste diagnóstico com uma amostra cuja
prevalência da doença seja diferente daquela da população para o qual o teste foi desenvolvido pode
fornecer informação errônea. Assim, o dimensionamento de amostra nesse tipo de estudo é de
extrema importância.

Nesta seção são considerados dois grupos (ou dois estratos), por exemplo, dos doentes (𝐷+ ) e dos não
doentes (𝐷− ), erro de estimação absoluta (𝑑𝑎𝑏𝑠 ) e aproximação para a normal, tal que 𝑧1−𝛼/2 é o
percentil de ordem (1 − 𝛼/2)100% da distribuição normal padrão.

Os tamanhos da amostra para a estimação da sensibilidade (𝑠) e da especificidade (𝑒) podem ser
calculados da mesma maneira que para uma proporção, por exemplo, usando a fórmula (3.4)
apresentada no capítulo 3. As fórmulas correspondentes à sensibilidade (𝑛𝑠 ) e à especificidade (𝑛𝑒 )
são:

2
𝑧1−𝛼/2 𝑠(1 − 𝑠)
𝑛𝑠 = (8.1)
(𝑑𝑎𝑏𝑠 )2

2
𝑧1−𝛼/2 𝑒(1 − 𝑒)
𝑛𝑒 = (8.2)
(𝑑𝑎𝑏𝑠 )2

Em resumo, o tamanho da amostra depende dos seguintes elementos: nível de confiança e precisão
clinicamente aceitáveis, além dos valores hipotéticos de sensibilidade e especificidade que podem ser
obtidos da literatura, em bulas ou por meio de estudo-piloto, quando possível. Se o pesquisador não os
possui, como já comentado no capítulo 3 sobre proporções, existe também a escolha conservadora
igual a 0,50 (50%).

Buderer (1996) apresenta fórmula de tamanho de amostra relacionada à construção de intervalo de


confiança quando a verdadeira classificação dos indivíduos não é conhecida no momento da
amostragem e propõe a incorporação da prevalência da doença em questão. Considerando a
sensibilidade, o tamanho da amostra é dado por:

2
𝑧1−𝛼/2 𝑠(1 − 𝑠)
𝑛𝑠(𝑝) = (8.3)
(𝑑𝑎𝑏𝑠 )2 𝑝

Na fórmula (8.3) 𝑝 é a prevalência do evento pesquisado e os demais termos foram definidos


anteriormente.

No caso da especificidade, o tamanho de amostra é obtido pela seguinte fórmula:

2
𝑧1−𝛼/2 𝑒(1 − 𝑒)
𝑛𝑒(𝑝) = (8.4)
(𝑑𝑎𝑏𝑠 )2 (1 − 𝑝)

As fórmulas (8.3) e (8.4) são muito parecidas, exceto que no numerador naturalmente aparecem,
respectivamente, a sensibilidade (𝑠) e a especificidade (𝑒) e no denominador de (8.3) aparece a
prevalência 𝑝, enquanto que em (8.4), seu complementar (1 − 𝑝). Assim, o tamanho da amostra
necessário para estimar a sensibilidade pode ser diferente daquele requerido para a especificidade.
Para a sensibilidade, quanto maior a prevalência, menor o número de indivíduos requeridos.
Para a especificidade, ocorre o inverso: para prevalências baixas, o número de indivíduos também será
baixo. Na prática, torna-se necessário fazer os dois cálculos utilizando as fórmulas (8.3) e (8.4) e então
escolher o maior resultado obtido, garantindo, assim, que o tamanho de amostra será adequado para a
estimação das duas medidas de acurácia (𝑠, 𝑒).

Exemplo 8.2 - Tamanho de amostra para a estimação de sensibilidade e da especificidade –


adaptação do exemplo apresentado por Buderer (1996) ╬╬

Ao planejar um estudo para determinar a sensibilidade e a especificidade de novo método sofisticado


para diagnóstico de lesões em tornozelos, comparado com a tradicional radiografia comum, obteve-se a
informação de que estudos prévios mostram altíssima sensibilidade bem como especificidade para
diagnóstico de fraturas graves de pulsos. Para adotarem posição conservadora, os pesquisadores
hipotetizaram que os valores das medidas de acurácia para os tornozelos seriam menores: sensibilidade
de 90% (𝑠 = 0,90) e especificidade de 85% (𝑒 = 0,85).
Para ser clinicamente aceitável, foi escolhido o nível de confiança de 95% e espera-se que a precisão
seja de 10 pontos percentuais (𝑑𝑎𝑏𝑠 = 0,10). Na experiência clínica, em geral, são encontrados 20%
de Raios-X positivos em fraturas de tornozelos (𝑝 = 0,20).

Aplicando-se as fórmulas (8.3) e (8.4), calcula-se que o tamanho da amostra baseado na


2
𝑧1−𝛼/2 𝑠(1−𝑠) (1,96)2 0,90(0,10)
sensibilidade é 𝑛𝑠(𝑝) = = = 172,87, enquanto que para a especificidade,
(𝑑𝑎𝑏𝑠 )2 𝑝 (0,10)2 (0,20)
2
𝑧1−𝛼/2 𝑒(1−𝑒) (1,96)2 0,85(0,15)
𝑛𝑒(𝑝) = = = 61,23. Como a escolha deve ser o maior valor, será necessário
(𝑑𝑎𝑏𝑠 )2 (1−𝑝) (0,10)2 (1−0,20)

recrutar 173 indivíduos.

A Tabela 8.5 mostra os resultados de outras combinações dos termos envolvidos nas fórmulas (8.3) e
(8.4), mantendo-se 𝑝 = 0,20. Nota-se que o tamanho da amostra referente à sensibilidade é sempre
superior ao da especificidade (pelo menos o dobro) e que diminuir a precisão pela metade, isto é, passar
de 𝑑𝑎𝑏𝑠 = 0,10 para 𝑑𝑎𝑏𝑠 = 0,05, tem como consequência substantivo aumento do tamanho da
amostra (cerca de quatro vezes). É fácil verificar que, à medida que 𝑝 aumenta, os tamanhos da amostra
(𝑛𝑠(𝑝) e 𝑛𝑒(𝑝) ) diminuem.

Tabela 8.5 - Tamanho de amostra referente à sensibilidade (𝑛𝑠(𝑝) ), fórmula (8.3),


e à especificidade (𝑛𝑒(𝑝) ), fórmula (8.4), quando o nível de significância é de 5%

Medidas de acurácia Tamanho da amostra


𝑝 𝑑𝑎𝑏𝑠
𝑠 𝑒 𝑛𝑠(𝑝) 𝑛𝑒(𝑝)
0,10 0,90 0,85 173 62
0,20
0,10 0,95 0,90 92 44
0,05 0,90 0,85 692 245
0,20
0,05 0,95 0,90 365 173

8.2.2 Teste de hipóteses ou intervalo de confiança para a comparação da acurácia de um único


teste com um valor pré-especificado

Nesta seção são apresentadas as fórmulas gerais para os tamanhos de amostra com dois tipos de
enfoque (teste de hipóteses e intervalo de confiança) para a comparação da acurácia de um único teste
com um valor pré-especificado.
A seguir são apresentadas fórmulas para intervalos de confiança (𝐼𝐶) para a sensibilidade,
especificidade e para as razões de verossimilhanças positiva e negativa. A partir desses intervalos (𝐼𝐶)
é possível obter os tamanhos de amostra para o caso balanceado (𝑛1 = 𝑛2 ) ou para o caso mais geral,
em que 𝑛1 ≠ 𝑛2 .

Para a comparação de uma medida de acurácia de um teste (𝜃1 ) com um valor pré-especificado (𝜃0 ),
por exemplo, de um teste-padrão, a questão pode ser formalizada por meio do procedimento de teste de
hipóteses (𝑇𝐻), 𝐻0 : 𝜃1 = 𝜃0 versus 𝐻1 : 𝜃1 ≠ 𝜃0 , ou pela construção de um intervalo de confiança (𝐼𝐶)
para 𝜃1 com comprimento 𝐿. As fórmulas gerais para os cálculos do tamanho de amostra necessário
são, respectivamente:

2
(𝑧1−𝛼/2 √𝑉0 (𝜃̂1 ) + 𝑧1−𝛽 √𝑉1 (𝜃̂1 ))
(8.5)
𝑛𝑇𝐻 =
(𝜃0 − 𝜃1 )2
2
𝑧1−𝛼/2 𝑉(𝜃̂1 )
𝑛𝐼𝐶 = (8.6)
𝐿2

̂1 ), 𝑉1 (𝜃
As fórmulas para as variâncias que aparecem em (8.5) e (8.6), 𝑉0 (𝜃 ̂1 ), sob 𝐻0 e 𝐻1 ,

respectivamente, e 𝑉(𝜃̂1 ), no caso de 𝐼𝐶, dependem do critério utilizado e serão apresentadas mais
adiante para algumas situações.

Razões de verossimilhanças

A construção de intervalo de confiança para a sensibilidade e a especificidade é simples e direta (basta


apenas usar a aproximação normal para a proporção), mas a do intervalo de confiança para razões de
verossimilhanças não é tão óbvia, já que envolve o quociente desses dois índices de acurácia.

Simel et al. (1991) apresentam um método para calcular intervalo de confiança para razões de
verossimilhanças utilizando testes com resultados dicotômicos. Nesse caso, os dados podem ser
organizados como na Tabela 8.2, que consiste no cruzamento de dois resultados, obtidos pelo teste
padrão-ouro, quando a condição verdadeira é conhecida, presente (𝐷+ ) ou ausente (𝐷− ), e pelo teste
posto à prova, positivo (𝑇+ ) ou negativo (𝑇− ). Para facilitar o acompanhamento das fórmulas,
a notação utilizada será repetida na Tabela 8.6.
Tabela 8.6 - Dados genéricos de um estudo sobre acurácia de teste diagnóstico

Condição Resultado do teste


Total
verdadeira Positivo (𝑇+ ) Negativo (𝑇− )
Doente (𝐷+ ) 𝑎 𝑏 𝑛1 = 𝑎 + 𝑏
Não doente (𝐷− ) 𝑐 𝑑 𝑛2 = 𝑐 + 𝑑
Total 𝑎 + 𝑐 𝑏 + 𝑑 𝑛

O dimensionamento de amostra sai diretamente do intervalo de confiança para a situação de um único


teste, mas pode ser adaptado a um novo teste que está sendo comparado a um padrão.

Os intervalos de confiança (𝐼𝐶) aproximados para a sensibilidade (sens) e para a especificidade (espec)
são dados por:

𝑎 𝑏
𝑠(1 − 𝑠) 𝑎 ×
𝐼𝐶 𝑝𝑎𝑟𝑎 𝑠𝑒𝑛𝑠: 𝑠 ± 𝑧1−𝛼/2 √ = ± 𝑧1−𝛼/2 √𝑎+𝑏 𝑎+𝑏 (8.7)
𝑛1 𝑎+𝑏 𝑎+𝑏

𝑑 𝑐
𝑒(1 − 𝑒) 𝑑 ×
𝐼𝐶 𝑝𝑎𝑟𝑎 𝑒𝑠𝑝𝑒𝑐: 𝑒 ± 𝑧1−𝛼/2 √ = ± 𝑧1−𝛼/2 √𝑐+𝑑 𝑐+𝑑 (8.8)
𝑛2 𝑐+𝑑 𝑐+𝑑

Os intervalos de confiança (𝐼𝐶) para as razões de verossimilhanças positiva (𝑅𝑉+ ) e negativa (𝑅𝑉− )
são obtidos a partir das seguintes expressões:

𝑠 1−𝑠 𝑒
𝐼𝐶 𝑝𝑎𝑟𝑎 𝑅𝑉+ : 𝑒𝑥𝑝 {𝑙𝑜𝑔 ( ) ± 𝑧1−𝛼/2 √ + } (8.9)
1−𝑒 𝑎 𝑐

1−𝑠 𝑠 1−𝑒
𝐼𝐶 𝑝𝑎𝑟𝑎 𝑅𝑉− : 𝑒𝑥𝑝 {𝑙𝑜𝑔 ( ) ± 𝑧1−𝛼/2 √ + } (8.10)
𝑒 𝑏 𝑑

Substituindo as estimativas de 𝑠, 1 − 𝑠, 𝑒, 1 − 𝑒 (ver Tabela 8.3), os intervalos de confiança


𝑎(𝑐+𝑑) 𝑏 𝑑 𝑏(𝑐+𝑑)
para 𝑅𝑉+ e 𝑅𝑉− se tornam 𝑒𝑥𝑝 {𝑙𝑜𝑔 (𝑐(𝑎+𝑏)) ± 𝑧1−𝛼/2 √𝑎(𝑎+𝑏) + } e 𝑒𝑥𝑝 {𝑙𝑜𝑔 (𝑑(𝑎+𝑏)) ±
𝑐(𝑐+𝑑)

𝑎 𝑐
𝑧1−𝛼/2 √𝑏(𝑎+𝑏) + 𝑑(𝑐+𝑑)}, respectivamente.
A fórmula geral para os dois intervalos de confiança apresentados pelo método da razão de
verossimilhança (𝑅𝑉) é a seguinte:

𝑝1 1 − 𝑝1 1 − 𝑝2
𝐼𝐶 𝑝𝑎𝑟𝑎 𝑅𝑉𝑥 : 𝑒𝑥𝑝 {𝑙𝑜𝑔 ( ) ± 𝑧1−𝛼/2 √ + } (8.11)
𝑝2 𝑛1 𝑝1 𝑛2 𝑝2

Nos intervalos de confiança (8.7), (8.8), (8.9), (8.10) e (8.11), 𝑧1−𝛼/2 é o percentil de ordem
(1 − 𝛼/2)100% da distribuição normal padrão.

Os tamanhos de amostra (𝑛1 e 𝑛2 ) dos dois grupos (𝐷+ e 𝐷− ) podem ser obtidos a partir dos intervalos
de confiança (𝐼𝐶). Por exemplo, para 𝑅𝑉+ , supondo que 𝑛1 = 𝑛2 = 𝑛, lembrando que 𝑠 = 𝑎/𝑛 e
1 − 𝑒 = 𝑐/𝑛, consequentemente 𝑎 = 𝑛𝑠 e 𝑐 = 𝑛(1 − 𝑒). E estabelecendo um valor mínimo para
𝑠
𝑅𝑉+ (𝑚𝑖𝑛 𝑅𝑉+ ), tal que o que importa é o limite inferior do 𝐼𝐶, isto é, 𝑚𝑖𝑛 𝑅𝑉+ = 𝑒𝑥𝑝 {𝑙𝑜𝑔 (1−𝑒) −

1−𝑠 𝑒
𝑧1−𝛼/2 √ 𝑛𝑠 + 𝑛(1−𝑒)}, pode-se mostrar que:

1−𝑠 𝑒
+ 1−𝑒
𝑠
𝑛𝑚𝑖𝑛 𝑅𝑉+ = 2
𝑙𝑜𝑔(
𝑠
)−𝑙𝑜𝑔(𝑚𝑖𝑛{𝑅𝑉+ }) (8.12)
1−𝑒
( )
𝑧1−𝛼/2

Simel et al. (1991) estendem o desenvolvimento de tabelas 2x2 (como a da Tabela 8.6) para outras
duas situações de interesse: a) resultados do teste podem ser positivo, negativo e inconclusivo (não
positivo ou não negativo) e podem ser organizados em uma tabela 2x3; b) resultados do teste são
apresentados em uma escala ordinal que podem ser organizados em uma tabela 2x𝑟 com 𝑟 > 2.

Exemplo 8.3 - Estimativas e intervalos de 95% de confiança (𝑰𝑪) para a sensibilidade,


especificidade, 𝑹𝑽+ e 𝑹𝑽−

Se 𝑅𝑉𝑥 = 𝑅𝑉+, 𝑝1 = 𝑠, 𝑝2 = 1 − 𝑒, 𝑛1 𝑝1 = 𝑎 e 𝑛2 𝑝2 = 𝑐, enquanto que se 𝑅𝑉𝑥 = 𝑅𝑉−, 𝑝1 = 1 − 𝑠,


𝑝2 = 𝑒, 𝑛1 𝑝1 = 𝑏 e 𝑝2 𝑛2 = 𝑑. Por exemplo, se na notação da Tabela 8.6 𝑎 = 30, 𝑏 = 10, 𝑐 = 5,
𝑑 = 45, as estimativas para 𝑠, 𝑒, 𝑅𝑉+ e 𝑅𝑉− e seus respectivos intervalos de 95% de confiança são
demonstrados nos Quadros 8.2 e 8.3.
Quadro 8.2 - Estimativas de medidas de acurácia

Medida de acurácia Estimativas

𝑎 30 30
𝑠 𝑠= = = = 0,75
𝑎 + 𝑏 30 + 10 40

𝑑 45 45
𝑒 𝑒= = = = 0,90
𝑐 + 𝑑 5 + 45 50

𝑠 0,75 0,75
𝑅𝑉+ 𝑅𝑉+ = = = = 7,5
1 − 𝑒 1 − 0,90 0,10

1 − 𝑠 1 − 0,75 0,25
𝑅𝑉− 𝑅𝑉− = = = = 0,28
𝑒 0,90 0,90

Quadro 8.3 - Cálculos dos intervalos de confiança (IC) para medidas de acurácia

Medida de acurácia
Intervalo de 95% de confiança
(nº da fórmula do IC)

𝑎 𝑏 30 10
𝑎 × 30 ×
± 𝑧1−𝛼/2 √𝑎+𝑏 𝑎+𝑏 = ± 1,96√30+10 30+10
𝑎+𝑏 𝑛1 30 + 10 40
𝑠 (8.7)
0,75 × 0,25
= 0,75 ± 1,96√ : (0,62; 0,88)
40

𝑑 𝑐 45 5
𝑑 × 45 ×
± 𝑧1−𝛼/2 √𝑐+𝑑 𝑐+𝑑 = ± 1,96√5+45 5+45
𝑐+𝑑 𝑐+𝑑 5 + 45 5 + 45
𝑒 (8.8)
0,90 × 0,10
= 0,90 ± 1,96√ : (0,82; 0,98)
50

𝑠 1−𝑠 𝑒
𝑒𝑥𝑝 {𝑙𝑜𝑔 ( ) ± 𝑧1−𝛼/2 √ + }
1−𝑒 𝑎 𝑐

0,75
= 𝑒𝑥𝑝 {𝑙𝑜𝑔 ( )
𝑅𝑉+ (8.9) 1 − 0,90

1 − 0,75 0,90
± 1,96√ + }=
30 5

𝑒𝑥𝑝{𝑙𝑜𝑔(7,5) ± 1,96√0,19}: (3,20; 17,56)


1−𝑠 𝑠 1−𝑒
𝑒𝑥𝑝 {𝑙𝑜𝑔 ( ) ± 𝑧1−𝛼/2 √ + }
𝑒 𝑏 𝑑

1 − 0,75
= 𝑒𝑥𝑝 {𝑙𝑜𝑔 ( )
𝑅𝑉− (8.10) 0,90

0,75 1 − 0,10
± 1,96√ + }=
10 45

𝑒𝑥𝑝{𝑙𝑜𝑔(0,28) ± 1,96√0,10}: (0,15; 0,51)

Exemplo 8.4 - Tamanho de amostra usando o método da razão de verossimilhança – adaptação


de Simel et al. (1991) ╬╬

Baseado em dados de um estudo-piloto, acredita-se que a sensibilidade de um novo teste seja pelo
menos 80% e a especificidade 73%. Portanto, a razão de verossimilhança positiva é igual a
𝑠 0,80
𝑅𝑉+ = = = 2,96. Segundo a opinião de especialistas, o teste será clinicamente útil se 𝑅𝑉+
1−𝑒 1−0,73

for igual a pelo menos dois (𝑅𝑉+ ≥ 2). O objetivo é determinar quantos pacientes com e sem a doença
seriam necessários para realizar o estudo de forma a estimar a sensibilidade a partir da construção do
intervalo de 95% de confiança para 𝑅𝑉+ .

Utilizando a fórmula (8.11) e fazendo-se a suposição de que há mesmo número com e sem a doença
(𝑛1 = 𝑛2 = 𝑛), usando-se a informação que 𝑝1 = 𝑠 = 0,80, 𝑝2 = 1 − 𝑒 = 0,27 e 𝑅𝑉+ = 2,96, com valor

0,80 1 0,20 0,73


mínimo de 𝑅𝑉+ de 2,0, obtém-se a seguinte equação: 2,0 = 𝑒𝑥𝑝 {𝑙𝑜𝑔 (0,27) − 1,96√𝑛 [0,80 + 0,27]}.

Resolvendo-se essa equação, cuja incógnita é 𝑛, basta tomar o logaritmo em ambos os lados da
equação e isolar 𝑛, obtém-se que 𝑛 = 73,45. Assim, são necessários 74 pacientes com a doença e 74
pacientes sem a doença. Como comentado anteriormente, de forma equivalente, o tamanho de amostra
pode ser obtido pela fórmula (8.12).

A Tabela 8.7 a seguir apresenta o tamanho de amostra utilizando a fórmula (8.12) para algumas
combinações de sensibilidade e especificidade.
Tabela 8.7 - Tamanho de amostra (𝑛𝑚𝑖𝑛 𝑅𝑉+ ), obtido pela fórmula (8.12),
para algumas combinações de sensibilidade e especificidade

Sensibilidade (𝑠) Especificidade (𝑒) 𝑛𝑚𝑖𝑛 𝑅𝑉+


0,80 0,73 74
0,80 0,80 34
0,90 0,80 25
0,80 0,90 19
0,95 0,95 15

A seguir, considera-se o caso em que 𝑛1 ≠ 𝑛2 , já que nem sempre é fácil encontrar pacientes com a
doença estudada. Suponha-se que, no caso anterior, os pesquisadores consigam recrutar somente
aproximadamente um paciente com a doença para cada cinco sem a doença. Nesse caso, 𝑛1 = 0,2𝑛2 ,
sendo 𝑛1 e 𝑛2 os números de participantes com e sem a doença, respectivamente. A partir da equação
0,80 1 0,20 1 0,73 0,25 2,70
2,0 = 𝑒𝑥𝑝 {𝑙𝑜𝑔 (0,27) − 1,96√[𝑛 +𝑛 ]} = 𝑒𝑥𝑝 {𝑙𝑜𝑔(2,96) − 1,96√[0,2𝑛 + ]} ou ainda
1 0,80 2 0,27 2 𝑛2

3,95
𝑙𝑜𝑔(2,0) = {𝑙𝑜𝑔(2,96) − 1,96√ 𝑛 }, obtém-se como solução 𝑛2 = 98,32. Assim, são necessários 99
2

pacientes sem a doença e 20 (cerca de 20% de 99) com a doença. Para ficar mais próximo da taxa de
um para cinco, podem-se recrutar 100 pacientes sem a doença e 20 com a doença.

O mesmo tipo de raciocínio pode ser feito supondo-se que novo teste para diagnóstico esteja disponível
e que seja considerado clinicamente útil se a razão de verossimilhança negativa for no máximo 0,4
(𝑅𝑉− ≤ 0,4). Acredita-se que a sensibilidade desse novo teste seja de pelo menos 90%.

Para o cálculo do número de participantes do estudo, nesse caso balanceado (𝑛1 = 𝑛2 ) e fixando-se
𝑅𝑉− = 0,2, novamente utilizando a fórmula (8.11), tem-se que 𝑝1 = 1 − 𝑠 = 0,10. Pela definição de
𝑅𝑉− = (1 − 𝑠)/𝑒, sai que 𝑝2 = 𝑒 = 0,50. Substituindo o valor máximo de 𝑅𝑉− (0,4) em (8.11), isto é,

0,10 1 0,90 0,50


0,4 = 𝑒𝑥𝑝 {𝑙𝑜𝑔 (0,50) − 1,96√𝑛 [0,10 + 0,50]}, chega-se a 𝑛 = 79,95. Assim, é necessário recrutar 80

pacientes com a doença e 80 pacientes sem a doença.

8.2.3 Utilização da curva ROC

Obuchowski e McClish (1997) apresentam fórmulas de tamanho de amostra baseadas na área da curva
ROC e a taxa de falso-positivos, nesse caso, definida como o complementar da especificidade
(𝑇𝐹𝑃 = 1 − 𝑒). Assume-se que os resultados dos testes são provenientes de distribuições normais.

Sejam 𝑋 e 𝑌, respectivamente, as variáveis referentes aos resultados dos testes para o grupo dos
controles (𝐶) e dos doentes (𝐷) que supostamente seguem a distribuição normal, respectivamente,
com os seguintes parâmetros: 𝑋~𝑁(𝜇𝐶 ; 𝜎𝐶2 ) e 𝑌~𝑁(𝜇𝐷 ; 𝜎𝐷2 ), que sem perda de generalidade,
supõe-se que 𝜇𝐷 ≥ 𝜇𝐶 .

A área da curva ROC (𝜃) é definida a partir dos parâmetros 𝐴 = (𝜇𝐷 − 𝜇𝐶 )/𝜎𝐷 e 𝐵 = 𝜎𝐶 /𝜎𝐷
da seguinte forma:

𝑐2,
𝜃 = ∫ Φ(𝐴 + 𝐵𝜈) 𝜙(𝜈)𝑑𝜈 (8.13)
𝑐1,

Na integral apresentada em (8.13), Φ e 𝜙 são a distribuição acumulada e a função densidade da normal


padrão, respectivamente, 𝑐𝑖, = Φ−1 (𝑇𝐹𝑃𝑖 ), 𝑇𝐹𝑃𝑖 = 1 − 𝑒𝑖 , sendo 𝑒𝑖 a especificidade, 𝑖 = 1,2.
Para o caso especial da área total da curva ROC, 𝑐1, = −∞ e 𝑐2, = +∞. Pode-se também mostrar que
vale a seguinte relação:

𝐴 = 𝐵Φ−1 (1 − 𝑇𝐹𝑃) − Φ−1 (1 − 𝑇𝑉𝑃) = 𝐵Φ−1 (e) − Φ−1 (1 − s) (8.14)

Existem algoritmos para estimar 𝐴 e 𝐵 (𝐴̂ e 𝐵̂), por exemplo, utilizando o método de máxima
verossimilhança. Ao planejar o estudo com esse tipo de procedimento, será necessário conhecer as
variâncias de 𝐴̂ e 𝐵̂ e a covariância entre 𝐴̂ e 𝐵̂.

Comparação de dois testes diagnósticos usando a diferença entre medidas de acurácia baseadas
na curva ROC

Sejam {𝑋1 , 𝑌1 }, {𝑋2 , 𝑌2 } os resultados dos testes do grupo dos pacientes normais (𝐶) e doentes (𝐷),
para os testes 1 e 2, que supostamente seguem a distribuição normal com os seguintes parâmetros:
𝑋1 ~𝑁(𝜇𝐶1 , 𝜎𝐶21 ), 𝑌1 ~𝑁(𝜇𝐷1 , 𝜎𝐷21 ), 𝑋2 ~𝑁(𝜇𝐶2 , 𝜎𝐶22 ) e 𝑌2 ~𝑁(𝜇𝐷2 , 𝜎𝐷22 ).

Seja Δ a diferença entre medidas de acurácia de dois testes diagnósticos baseadas na curva ROC, isto é,
Δ = 𝜃1 − 𝜃2 , sendo que 𝜃𝑖 denota a acurácia (área da curva ROC) do 𝑖-ésimo teste diagóstico.
̂/√𝑉𝑎𝑟0 (Δ
A estatística do teste sobre a igualdade das duas acurácias (𝐻0 : Δ = 0) é Δ ̂), sendo Δ
̂ a
̂) a sua variância sob a hipótese nula (𝐻0 ).
estimativa de máxima verossimilhança de Δ e 𝑉𝑎𝑟0 (Δ

Nesse âmbito, para o nível de significância 𝛼 e poder (1 − 𝛽), a fórmula básica para o 𝑛D , o número de
pacientes doentes (ou com a condição pesquisada), é:

2
̂) + 𝑧1−𝛽 √𝑉1 (Δ
(𝑧1−𝛼/2 √𝑉0 (Δ ̂))
(8.15)
𝑛𝐷 =
Δ2

Em (8.15), 𝑧1−𝛼/2 e 𝑧1−𝛽 são os percentis da distribuição normal de ordem (1 − 𝛼/2)100% e


̂ sob a hipótese alternativa. A fórmula
(1 − 𝛽)100%, respectivamente, e Δ é o valor esperado de Δ
(8.15) pode ser utilizada tanto para a comparação de dois testes (Δ = 𝜃1 − 𝜃2 ), como no caso em que
um único teste é comparado com um valor pré-especificado (𝜃0 ), ou seja, Δ = 𝜃1 − 𝜃0 .

Para o caso de comparação envolvendo as curvas ROC, segundo Obuchowski e McClish (1997), a
̂) como para 𝑉1 (Δ
fórmula geral da variância, tanto para 𝑉0 (Δ ̂), é 𝑉̂ (Δ
̂) = 𝑉̂ (𝜃̂1 ) + 𝑉̂ (𝜃̂2 ) −

2𝐶̂ (𝜃̂1 , 𝜃̂2 ), sendo 𝐶̂ (𝜃̂1 , 𝜃̂2 ) a covariância e 𝑉̂ (𝜃̂𝑖 ) a estimativa da variância associada a 𝜃̂𝑖 (𝑖 = 1,2)
dada por:
2 2 2
𝑉̂ (𝜃̂𝑖 ) = 𝑓𝑖 2 (1 + 𝐵̂𝑖 /𝑅 + 𝐴̂𝑖 /2) + 𝑔𝑖 2 (𝐵̂𝑖 (1 + 𝑅)/2𝑅) , 𝑖 = 1, 2 (8.16)

Em (8.16), aparecem os estimadores de 𝐴 = (𝜇𝐷 − 𝜇𝐶 )/𝜎𝐷 (𝐴̂1 , 𝐴̂2 ) e de 𝐵 = 𝜎𝐶 /𝜎𝐷 (𝐵̂1 , 𝐵̂2 ),
os índices 1 e 2 são para os dois testes/métodos comparados e 𝑅 = 𝑛𝐶 /𝑛𝐷 é a razão entre os números
de indivíduos sem e com a doença. As funções 𝑓 e 𝑔 estão apresentadas no Quadro 8.4.

Quadro 8.4 - Funções 𝑓 e 𝑔 necessárias para as estimativas das variâncias, 𝑉̂ (𝜃̂𝑖 ),


fórmula (8.16), tanto para a área total como para a área parcial sob a curva ROC

Área 𝑓 𝑔

Total 𝐷1 (2𝜋𝐷2 )−½ −𝐷1 𝐴𝐵(2𝜋𝐷23 )−½

Parcial 𝐷1 (2𝜋𝐷2 )−½ 𝐷3 𝐷1 (2𝜋𝐷2 )−1 𝐷4 − 𝐴𝐵𝐷1 (2𝜋𝐷23 )−½ 𝐷3

𝐷1 = 𝑒𝑥𝑝{−𝐴2 /(2(1 + 𝐵 2 ))}; 𝐴 = (𝜇𝐷 − 𝜇𝐶 )/𝜎𝐷 ; 𝐵 = 𝜎𝐶 /𝜎𝐷 ;

𝐷2 = 1 + 𝐵 2 ; 𝐷3 = Φ(𝑐2† ) − Φ(𝑐1† ), 𝑐𝑖† = [Φ−1 (𝑇𝐹𝑃𝑖 ) + 𝐴𝐵(1 + 𝐵 2 )−1 ](1 + 𝐵 2 )½ , 𝑖 = 1,2;


2
𝐷4 = 𝑒𝑥𝑝{−𝑐1‡ } − 𝑒𝑥𝑝{−𝑐2‡ }, 𝑐𝑖‡ = (𝑐𝑖† ) /2, 𝑖 = 1,2; Φ: distribuição acumulada da N(0,1).
A estimativa da covariância entre dois índices correlacionados da curva ROC é dada por:

𝐶̂ (θ̂1 , θ̂2 ) = 𝑛𝐷 {𝑓1 𝑓2 𝑐𝑜𝑣


̂ (𝐴̂1 , 𝐴̂2 ) + 𝑔1 𝑔2 𝑐𝑜𝑣 ̂ (𝐴̂1 , 𝐵̂2 )
̂ (𝐵̂1 , 𝐵̂2 ) + 𝑓1 𝑔2 𝑐𝑜𝑣
(8.17)
+ 𝑓2 𝑔1 𝑐𝑜𝑣̂ (𝐵̂1 , 𝐴̂2 )}

As covariâncias que aparecem em (8.17), derivadas por Obuchowski e McClish (1997), são:
1 𝑟̂𝐶 𝐵̂1 𝐵̂2 𝑟̂𝐷2 𝐴̂1 𝐴̂2 1 𝐵̂1 𝐵̂2 (𝑟̂𝐶2 +𝑅𝑟̂𝐷2 ) 1 𝑟̂ 2 𝐴̂ 𝐵̂
̂ (𝐴̂1 , 𝐴̂2 ) =
𝑐𝑜𝑣 {𝑟̂𝐷 + + ̂ (𝐵̂1 , 𝐵̂2 ) =
} ; 𝑐𝑜𝑣 { ̂ (𝐴̂1 , 𝐵̂2 ) =
} ; 𝑐𝑜𝑣 { 𝐷 21 2 } ;
𝑛𝐷 𝑅 2 𝑛𝐷 2𝑅 𝑛𝐷

1 𝑟̂𝐷2 𝐴̂2 𝐵̂1


̂ (𝐵̂1 , 𝐴̂2 ) = 𝑛 {
𝑐𝑜𝑣 2
}. Em (8.17) aparecem novamente as funções 𝑓 e 𝑔 expostas no Quadro 8.4,
𝐷

𝑛𝐷 é o número de pacientes doentes, 𝑅 = 𝑛𝐶 /𝑛𝐷 é a razão entre os números de indivíduos sem e com a
doença, 𝑟̂𝐷 e 𝑟̂𝐶 são as estimativas das correlações entre os resultados dos dois testes nos grupos com e
sem a doença, respectivamente. Os termos 𝐴̂1 , 𝐴̂2 , 𝐵̂1 , 𝐵̂2 são como definidos em (8.16).

Um intervalo de confiança para a área sob a curva (𝜃) com nível de confiança (1 − 𝛼)100% é dado
̂(𝜃)
𝑉 ̂
por 𝜃̂ ± 𝑧1−𝛼/2 √ 𝑛 , sendo que 𝑧1−𝛼/2 é o percentil de ordem (1 − 𝛼/2)100% da normal padrão,

a variância 𝑉̂ (𝜃̂) é dada pela fórmula (8.16) e 𝑛 é o tamanho da amostra (𝑛𝐷 ).

Exemplo 8.5 - Dimensionamento de amostra utilizando a área total da curva ROC – adaptação de
Obuchowski e McClish (1997) ╬╬

No planejamento de um estudo para avaliar a acurácia de um método que determina a presença ou


ausência de certa anomalia, tem-se a informação de que os resultados do método investigado
são ordinais, tendo cinco categorias, e espera-se que 40% dos pacientes tenham anomalias:
𝑅 = 0,6/0,4 = 1,5.

Pretende-se descrever a acurácia do método por meio da curva ROC utilizando intervalo
de 95% de confiança (𝐼𝐶) com comprimento (𝐿) não superior a 0,10. Pela fórmula geral
𝐿 𝑉 ̂)
̂(𝜃
do 𝐼𝐶 para 𝜃, tem-se que = 𝑧1−𝛼/2 √ , sendo 𝑉̂ (𝜃̂) dado pela fórmula (8.16). Assim,
2 𝑛𝐷

̂2 𝐴
𝐵 ̂2 𝐵̂ 2 (1+𝑅)
𝐿 𝑓 2 (1+ + )+𝑔2 ( )
= 0,05 = 1,96√
𝑅 2 2𝑅
.
2 𝑛𝐷

Para obter o número de indivíduos com a doença (𝑛𝐷 ), é necessário conhecer ou estimar 𝐴, 𝐵, 𝑓 e 𝑔.
Neste exemplo, não se conhecem os valores exatos de 𝐴 = (𝜇𝐷 − 𝜇𝐶 )/𝜎𝐷 e 𝐵 = 𝜎𝐶 /𝜎𝐷 ou suas
estimativas (𝐴̂ e 𝐵̂), mas a literatura relata que o método tem boa especificidade (aproximadamente
90%) e baixa sensibilidade (inferior a 50%). Os resultados do estudo de simulação de Obuchowski e
McClish (1997) mostraram que quando 𝐵 = 1 obtém-se o tamanho de amostra mais conservador
possível. Supondo que 𝑠 = 0,45 e que 𝑒 = 0,90 e fixando 𝐵 = 1, 𝐴 pode ser determinado pela relação
(8.14): 𝐴 = 𝐵Φ−1 (1 − 𝑇𝐹𝑃) − Φ−1 (1 − 𝑇𝑉𝑃) = 𝐵Φ−1 (e) − Φ−1 (1 − s) = Φ−1 (0,90) − Φ−1 (0,55)
= 1,282 − 0,126 = 1,156.

𝐴2 (1,156)2
𝑒𝑥𝑝{− } 𝑒𝑥𝑝{− }
2(1+𝐵2 ) 2(1+1)
Como mostrado no Quadro 8.4, para o caso de área total: 𝑓 = = = 0,202,
√2𝜋(1+𝐵2 ) √2𝜋(1+1)

𝐴2 (1,156)2
−(𝐴𝐵)𝑒𝑥𝑝{− } −(1,156×1)𝑒𝑥𝑝{− }
2(1+𝐵2 ) 2(1+1)
𝑔= = = −0,117.
√2𝜋(1+𝐵2 )3 √2𝜋(1+12 )3

Substituindo os valores de 𝐴 = 1,156, 𝐵 = 1, 𝑓 = 0,202, 𝑔 = −0,117 e 𝑅 = 1,5 na


̂2 𝐴
𝐵 ̂2 𝐵̂ 2 (1+𝑅)
𝑓 2 (1+ + )+𝑔2 ( )
fórmula geral do intervalo de confiança (IC), 0,05 = 1,96√
𝑅 2 2𝑅
, tal que
𝑛𝐷

(0,202)2 (1+12 /1,5+(1,156)2 /2)+(−0,117)2 (12 (1+1,5)/(2×1,5))


0,05 = 1,96√ , ou seja, uma simples equação
𝑛𝐷

cuja incógnita é 𝑛𝐷 . Resolvendo-se a equação, chega-se a 𝑛𝐷 = 163,93 ≈ 164 e


𝑛𝐶 = 1,5𝑛𝐷 = 1,5 × 164 = 246.

𝐿 𝑉 ̂)
̂(𝜃
Como visto nos parágrafos anteriores, o problema pode ser formalizado pela equação 2 = 𝑧1−𝛼/2 √ 𝑛𝐷

4(𝑧1−𝛼/2 )2 𝑉 ̂)
̂(𝜃
a partir da qual facilmente é possível escrever a fórmula fechada 𝑛𝐷 = 𝐿2
.

Lembrando que a variância 𝑉̂ (𝜃̂) é calculada pela fórmula (8.16), tem-se que
𝐵̂ 𝐴 2 ̂2
𝐵̂ 2 (1+𝑅) 12 (1,156)2 12 (1+1,5)
𝑉̂ (𝜃̂) = 𝑓 2 (1 + 𝑅 + 2 ) + 𝑔2 ( ) = (0,202)2 (1 + 1,5 + ) + (−0,117)2 ( )=
2𝑅 2 2(1,5)

4(𝑧1−𝛼/2 )2 𝑉 ̂)
̂ (𝜃 4(1,96)2 0,1067
0,1067. Assim, 𝑛𝐷 = = = 163,96. Como esperado, novamente obtém-se
𝐿2 (0,10)2

mesmo resultado: 𝑛𝐷 = 164 e 𝑛𝐶 = 246.

A Tabela 8.8 mostra os tamanhos de amostra para os grupos de doentes e de controles utilizando a área
total sob a curva ROC para algumas combinações de sensibilidade, especificidade e comprimento do
intervalo de confiança, quando o coeficiente de confiança é de 95%.
Tabela 8.8 - Tamanho de amostra para os grupos de doentes (𝑛𝐷 ) e de controle (𝑛𝐶 )
utilizando a área total sob a curva ROC para combinações de sensibilidade (𝑠),
especificidade (𝑒) e comprimento do intervalo de confiança (𝐿)

Medidas de acurácia Tamanho da amostra


𝐿
𝑠 𝑒 𝑛𝐷 𝑛𝐶
0,10 0,45 0,90 164 246
0,15 0,45 0,90 73 110
0,20 0,45 0,90 41 62
0,10 0,40 0,90 175 263
0,15 0,40 0,90 78 117
0,20 0,40 0,90 44 66
0,10 0,35 0,90 183 275
0,15 0,35 0,90 82 123
0,20 0,35 0,90 46 69
Nota: coeficiente de confiança: 95%.

Pode-se notar substantivo efeito do comprimento do intervalo de confiança (𝐿) e efeito pouco
expressivo da sensibilidade (𝑠) no tamanho de amostra. Os três blocos da tabela apresentam o mesmo
padrão. À medida que 𝐿 aumenta, o tamanho de amostra diminui para ambos os grupos (𝑛𝐷 e 𝑛𝐶 ).
𝑛𝐷 (𝐿=0,10)
As razões entre os valores de 𝑛𝐷 (as mesmas que para 𝑛𝐶 , já que 𝑛𝐶 = 1,5𝑛𝐷 ) são: ≅ 2,25;
𝑛𝐷 (𝐿=0,15)
𝑛𝐷 (𝐿=0,15) 𝑛𝐷 (𝐿=0,10)
≅ 1,78; ≅ 3,98. Além disso, quanto menor a sensibilidade, maior o tamanho de
𝑛𝐷 (𝐿=0,20) 𝑛𝐷 (𝐿=0,20)

amostra necessário. O mesmo padrão é observado para os três comprimentos do intervalo de confiança
𝑛 (𝑠=0,35) 𝑛 (𝑠=0,40) 𝑛 (𝑠=0,35)
(𝐿): 𝑛𝐷(𝑠=0,40) ≅ 1,05; 𝑛𝐷(𝑠=0,45) ≅ 1,07; 𝑛𝐷(𝑠=0,45) ≅ 1,12.
𝐷 𝐷 𝐷

Área total sob a curva ROC

Em interessante artigo sobre o significado da área sob a curva ROC, Hanley e McNeil (1982) ressaltam
vários detalhes sobre o assunto, fórmulas e uma tabela para a determinação do tamanho de amostra.
Disponibilizam também o erro-padrão do estimador da área total da curva ROC obtido por um método
aproximado. Essa aproximação é satisfatória para uma variedade de distribuições subjacentes contínuas
e o erro-padrão é dado por:

𝜃(1 − 𝜃) + (𝑛𝐷 − 1)(𝑄1 − 𝜃 2 ) + (𝑛𝐶 − 1)(𝑄2 − 𝜃 2 ) (8.18)


̂
𝐸𝑃𝐶𝑜𝑛𝑡 (𝜃) = √
𝑛𝐷 𝑛𝐶
Na fórmula (8.18), 𝑄1 = 𝜃/(2 − 𝜃), 𝑄2 = 2𝜃 2 /(1 + 𝜃) e 𝑛𝐷 e 𝑛𝐶 são os números de indivíduos com e
sem a doença, respectivamente.

Por meio de estudo de simulação, Obuchowski (1994) mostrou que o estimador apresentado em (8.18)
funciona bem para estudos envolvendo testes com escores contínuos, mas há possivelmente
subestimação em estudos com dados discretos - categorias ordenáveis criadas a partir de uma variável
subjacente normal bivariada. Nesse caso, a autora mostrou que o seguinte estimador para o erro-padrão
é preferível:

5𝐶 2 + 8 𝐶 2 + 8
𝐸𝑃𝑂𝑟𝑑 (𝜃̂) = √(0,0099 × 𝑒 −𝐶
2 /2
)( + ) (8.19)
𝑛𝐷 𝑛𝐶

Em (8.19), 𝐶 = 1,414Φ−1 (𝜃) e Φ−1 é a inversa da função distribuição acumulada da normal padrão e
𝑛𝐷 e 𝑛𝐶 são os números de indivíduos com e sem a doença, respectivamente.

As fórmulas (8.5) e (8.6) podem ser usadas para derivar o tamanho de amostra necessário para testar a
hipótese de que a área total é igual a um valor pré-especificado ou para construir um intervalo de
confiança. As variâncias apresentadas, fórmulas (8.18) e (8.19), podem ser utilizadas, dependendo de
qual situação seja mais adequada.

Para estudos com resposta contínua, a variância 𝑉(𝜃̂) pode ser escrita de forma aproximada como:

𝑄1 1
𝑉𝐶𝑜𝑛𝑡 (𝜃̂) = + 𝑄2 − 𝜃 2 ( + 1) (8.20)
𝑅 𝑅

Para dados com categorias ordenáveis, a fórmula para variância 𝑉(𝜃̂) é:

2
𝑉𝑂𝑟𝑑 (𝜃̂) = (0,0099 × 𝑒 −𝐶 /2 )(5𝐶 2 + 8) + (𝐶 2 + 8)/𝑅 (8.21)

Convém lembrar que em (8.20) e (8.21) 𝑅 = 𝑛𝐶 /𝑛𝐷 , que é a razão entre o número de indivíduos sem e
com a doença e que os demais termos foram definidos anteriormente.

A macro ROCPOWER do software SAS® pode ser usada para calcular tamanho de amostra dentro do
contexto de teste de hipóteses quando a medida de acurácia é a área total sob a curva ROC. Ela utiliza
uma dessas duas últimas fórmulas para calcular a variância, dependendo do tipo de resposta do teste.
Área parcial sob a curva ROC

A área sob a curva ROC é uma medida sumária popular de acurácia de um teste diagnóstico.
Entretanto, a área completa tem sido criticada já que atribui igual peso a todas as taxas de falso-
positivos (𝑇𝐹𝑃 entre 0 e 1). Assim, medidas alternativas à área total sob a curva ROC têm sido
propostas, incluindo a área parcial sob a curva em um particular intervalo de 𝑇𝐹𝑃.

Se a medida de acurácia do teste adotada é a área parcial sob a curva ROC, uma situação de interesse
é quando, por exemplo, a taxa de falso-positivos (𝑇𝐹𝑃) varia em determinado intervalo que vai de
𝑇𝐹𝑃1 a 𝑇𝐹𝑃2 .

Obuchowski e McClish (1997) apresentam um método para o cálculo de tamanho de amostra que pode
ser utilizado para respostas contínuas ou categóricas ordenáveis. Supondo que a distribuição seja
bivariada, por exemplo, a população de doentes e não doentes têm distribuição normal com médias e
variâncias (𝜇𝐷 ; 𝜎𝐷2 ) e (𝜇𝐶 ; 𝜎𝐶2 ), respectivamente, pode-se usar a aproximação para a variância da área
parcial sob a curva, que é dada na fórmula (8.16), sendo que as funções 𝑓 e 𝑔 estão apresentadas no
Quadro 8.4. Para o cálculo do tamanho de amostra, a estimativa da variância obtida é então substituída
na fórmula (8.5) ou na (8.6).

Exemplo 8.6 - Dimensionamento de amostra utilizando a área parcial da curva ROC – adaptação
de Obuchowski e McClish (1997) ╬╬

Em estudo sobre um tipo de lesão (que pode ser maligna ou benigna), quer-se comparar a acurácia de
um sistema de classificação automático com a de um aparelho que exige a operação de profissional
experiente. Supondo-se que a medida de acurácia diagnóstica de interesse seja a área sob a curva ROC
na faixa na qual a especificidade varia entre 0,80 e 1 (0 ≤ 𝑇𝐹𝑃 ≤ 0,20), deve-se trabalhar com as
áreas parciais sob a curva. Decidiu-se amostrar o dobro de pacientes cuja classificação de lesões seja
benigna (em relação à classificação das lesões malignas), portanto, a razão do tamanho da amostra
entre os dois grupos é 𝑅 = 𝑛𝐶 /𝑛𝐷 = 2.

Para o procedimento com profissionais experientes, espera-se que a sensibilidade e a especificidade


sejam altas, da ordem de 90%, enquanto que o sistema automático seja menos sensível. Não se conhece
a forma de qualquer uma das curvas ROC, entretanto, espera-se que 𝐵 = 𝜎𝐶 /𝜎𝐷 ≤ 1. Foram escolhidos
os valores 𝐵1 = 𝐵2 = 1, tanto para a hipótese nula como para a alternativa, que segundo as simulações
de Obuchowski e McClish (1997) produzem estimativa conservadora do tamanho de amostra.
Supondo-se que sob a hipótese nula os dois métodos de diagnóstico tenham a mesma acurácia,
é razoável considerar 𝐴1 = 𝐴2 = 𝐴. Substituindo 𝑇𝐹𝑃 = 0,10 e 𝑇𝑉𝑃 = 0,90 na relação (8.14),
𝐴 = 𝐵Φ−1 (1 − 𝑇𝐹𝑃) − Φ−1 (1 − 𝑇𝑉𝑃) = 𝐵Φ−1 (e) − Φ−1 (1 − s), obtém-se 𝐴 = 2,563.

Pelas fórmulas de 𝑓 e 𝑔 fornecidas no Quadro 8.4 para o caso de área parcial sob a curva ROC,
𝑓 = 0,039 e 𝑔 = −0,062.

Pela fórmula (8.16), sob a hipótese nula (𝐻0 : θ1 = θ2 ), 𝑉0 (θ̂1 ) = 𝑉0 (θ̂2 ) = 𝑉0 (𝜃̂) = 𝑓 2 (1 + 𝐵̂ 2 /𝑅 +
𝐴̂2 /2) + 𝑔2 (𝐵̂2 (1 + 𝑅)/2𝑅) = (0,039)2 (1 + 12 /2 + (2,6)2 /2) + (−0,062)2 (12 (1 + 2)/2(2)) =
0,0103.

Pela fórmula (8.17), 𝐶̂ (θ̂1 , θ̂2 ) = 𝑛𝐷 {𝑓1 𝑓2 𝑐𝑜𝑣


̂ (𝐴̂1 , 𝐴̂2 ) + 𝑔1 𝑔2 𝑐𝑜𝑣 ̂ (𝐴̂1 , 𝐵̂2 ) +
̂ (𝐵̂1 , 𝐵̂2 ) + 𝑓1 𝑔2 𝑐𝑜𝑣
𝑟̂ 𝐶 𝐵̂1 𝐵̂2 2̂ ̂
𝑟̂𝐷 𝐴1 𝐴2 𝐵̂1 𝐵̂2 (𝑟̂𝐶2 +𝑅𝑟̂𝐷
2) 2̂ ̂
𝑟̂𝐷 𝐴1 𝐵2
̂ (𝐵̂1 , 𝐴̂2 )} = 𝑓1 𝑓2 (𝑟̂𝐷 +
𝑓2 𝑔1 𝑐𝑜𝑣 + ) + 𝑔1 𝑔2 ( ) + 𝑓1 𝑔2 ( ) +
𝑅 2 2𝑅 2
2̂ ̂
𝑟̂𝐷 𝐴2 𝐵1
𝑓2 𝑔1 ( ). Como os valores das correlações não são conhecidos, uma estratégia é selecionar vários
2

entre os valores plausíveis. Se 𝑟̂𝐶 = 0,6, 𝐶̂ (θ̂1 , θ̂2 ) = 0,0019, chega-se ao seguinte resultado:
̂) = 𝑉0 (θ̂1 − θ̂2 ) = 𝑉0 (θ̂1 ) + 𝑉0 (θ̂2 ) − 2𝐶̂ (θ̂1 , θ̂2 ) = 0,0103 + 0,0103 − 2(0,0019) = 0,0168.
𝑉0 (Δ

̂), a variância sob a hipótese alternativa. Nesse caso, 𝐴1 = 2,6, mas


O próximo passo é estimar 𝑉1 (Δ
̂) = 0,0103 + 0,0200 − 2 × 0,0030 = 0,0243 (ver detalhes em
𝐴2 < 2,6. Pode-se mostrar que 𝑉1 (Δ
OBUCHOWSKI e McCLISH, 1997). Quando o nível de significância e o poder são fixados em 5% e
2
̂ )+𝑧1−𝛽 √𝑉1 (Δ
(𝑧1−𝛼/2 √𝑉0 (Δ ̂ ))
80%, respectivamente, pela aplicação da fórmula (8.15), 𝑛𝐷 = =
Δ2
2
(1,96√0,0168+0,84√0,0243)
= 108,27, ou seja, 𝑛𝐷 = 109 e 𝑛𝐶 = 218, portanto, o total de 327
(0,172−0,135)2

participantes. Os mesmos resultados são obtidos pelo software Pass®14.

Exemplo 8.7 - Impacto de elementos envolvidos na fórmula do tamanho de amostra baseado na


comparação de duas curvas ROC

Pela fórmula (8.15) foram calculados os tamanhos de amostra baseados na comparação de duas curvas
ROC, supondo-se: que a área sob a curva ROC para o método-padrão é 𝐴𝑆𝐶1 = 0,80; que
𝐴𝑆𝐶2 = {0,85; 0,90; 0,95}; que as correlações entre as variáveis são {0,30; 0,40; 0,50; 0,60}; que a
razão entre os números de indivíduos sem e com a doença é 𝑅 = 𝑛𝐶 /𝑛𝐷 = {1; 1,5; 2}; e que a variável
analisada seja contínua ou categórica ordinal. No caso de dados contínuos, as fórmulas das variâncias
são dadas em Hanley e McNeil (1982), enquanto que para dados ordinais as fórmulas usadas são as
apresentadas em Obuchowski e McClish (1997). O nível de significância e o poder foram fixados em
5% e 90%, respectivamente. Os resultados obtidos pelo software Pass®14 estão apresentados
na Tabela 8.9.

Tabela 8.9 - Tamanho de amostra baseado na comparação de duas curvas ROC


Dados contínuos Dados ordinais
Correlação 𝑅 𝐴𝑆𝐶2 = 0,85 𝐴𝑆𝐶2 = 0,90 𝐴𝑆𝐶2 = 0,95 𝐴𝑆𝐶2 = 0,85 𝐴𝑆𝐶2 = 0,90 𝐴𝑆𝐶2 = 0,95
𝑛𝐷 𝑛𝐶 𝑛𝐷 𝑛𝐶 𝑛𝐷 𝑛𝐶 𝑛𝐷 𝑛𝐶 𝑛𝐷 𝑛𝐶 𝑛𝐷 𝑛𝐶
1 583 583 139 139 59 59 778 778 186 186 78 78
0,3 1,5 532 798 127 191 54 81 687 1.031 165 248 69 104
2 506 1012 121 242 52 104 642 1.284 154 308 65 130
1 511 511 123 123 53 53 708 708 170 170 72 72
0,4 1,5 466 699 112 168 48 72 629 944 152 228 64 96
2 444 888 107 214 46 92 590 1.180 142 284 60 120
1 436 436 105 105 46 46 636 636 154 154 66 66
0,5 1,5 398 597 96 144 42 63 569 854 138 207 59 89
2 378 756 91 182 40 80 536 1.072 130 260 55 110
1 358 358 87 87 38 38 561 561 137 137 59 59
0,6 1,5 326 489 79 119 35 53 507 761 124 186 53 80
2 310 620 75 150 33 66 480 960 117 234 50 100
Nota: 𝐴𝑆𝐶1 = 0,80; 𝐴𝑆𝐶2 : área sob a curva do segundo método; nível de significância: 5%; poder 90%.

Por exemplo, para 𝐴𝑆𝐶2 = 0,85, correlação igual a 0,60, 𝑅 = 2, 𝑛𝐷 = 310; 𝑛𝐶 = 620 para dados
contínuos e 𝑛𝐷 = 480; 𝑛𝐶 = 960 para dados ordinais. Destacam-se os seguintes pontos: a) quando a
variável é ordinal, os tamanhos das amostras são bem superiores ao do caso contínuo para os
correspondentes termos (mesma correlação e mesmo valor de 𝑅); b) fixado o valor da correlação e de
𝑅, à medida que a 𝐴𝑆𝐶 diminui, 𝑛 aumenta; c) fixado o valor de 𝑅 e de 𝐴𝑆𝐶, à medida que a correlação
diminui, 𝑛 aumenta.

8.2.4 Comparação da acurácia de dois testes

Frequentemente, mais de um método pode ser utilizado no diagnóstico de uma doença. Pode haver
diferença de preço e conforto para o paciente (testes muito ou pouco invasivos), além de facilidade de
utilização para o técnico. Uma questão importante que surge na prática é sobre a comparação desses
métodos. A seguir, são destacados os procedimentos mais utilizados na comparação e que serão
restringidos a dois testes.

Para estudos cujo objetivo é a comparação de sensibilidade ou especificidade, aspecto importante é se


as técnicas a serem comparadas serão aplicadas no mesmo conjunto de dados. Em outra linguagem, a
questão é se os grupos a serem comparados são independentes ou pareados, também chamados de
emparelhados (em inglês, matched design). Beam (1992) salienta que quando dois testes diagnósticos
são comparados, se for adotado o delineamento pareado no qual cada paciente é submetido aos dois
testes, o poder dos testes estatísticos é sempre superior ou igual ao não pareado (amostras
independentes) e que o poder para hipóteses unilaterais é sempre maior do que o de bilaterais.

Além de questões éticas, cada tipo de estudo tem suas próprias considerações estatísticas que
influenciam a escolha do tamanho de amostra para obter certa probabilidade ou poder para detectar
diferenças entre os testes comparados.

Apresentam-se a seguir as fórmulas para dimensionamento de amostras nos dois casos (amostras
independentes e pareadas), considerando-se apenas o caso de mesmo tamanho nos dois grupos.
O raciocínio para sensibilidade é o mesmo para especificidade. A medida de acurácia é denotada
genericamente por 𝜃.

Para a comparação de dois testes (𝑇1 e 𝑇2 ), o objetivo é testar as hipóteses 𝐻0 : 𝜃1 − 𝜃2 = 0 versus


𝐻1 : 𝜃1 − 𝜃2 ≠ 0, fixando-se o nível de significância 𝛼 e poder (1 − 𝛽). O tamanho de amostra total
é dado por:

2
(𝑧1−𝛼/2 √𝑉0 (𝜃̂1 − 𝜃̂2 ) + 𝑧1−𝛽 √𝑉1 (𝜃̂1 − 𝜃̂2 ))
(8.22)
𝑛 𝑇1 𝑣𝑠.𝑇2 =
(𝜃1 − 𝜃2 )2

Na fórmula (8.22), tanto a variância 𝑉0 como a 𝑉1 são da forma 𝑉(𝜃̂1 − 𝜃̂2 ) = 𝑉𝑎𝑟(𝜃̂1 ) + 𝑉𝑎𝑟(𝜃̂2 ) −
2𝐶𝑜𝑣(𝜃̂1 , 𝜃̂2 ), calculadas sob 𝐻0 e 𝐻1 , respectivamente. As fórmulas para as variâncias e covariâncias
dependem do tipo de estudo e algumas serão apresentadas a seguir.
Comparação de sensibilidade/especificidade no caso de grupos independentes

Sejam 𝑋 e 𝑌 duas binomiais independentes com seus parâmetros indicados da forma tradicional por
𝑋~𝐵(𝑛, 𝑃1 ) e 𝑌~𝐵(𝑛, 𝑃2 ). Para o dimensionamento de estudo que compara duas binomiais
independentes, formulado em termos de hipótese unilateral (𝑃1 > 𝑃2 ), Casagrande et al. (1978) relatam
breve revisão e sugerem um aprimoramento do método do qui-quadrado com a correção de
continuidade, que se mostrou ter excelente acurácia, resultando na seguinte fórmula para o tamanho de
amostra em cada grupo:

𝛾(1 + √1 + 4(𝑃2 − 𝑃1 )/𝛾)2


𝑛𝐶𝑎𝑠𝑎𝐺𝑒𝑡 𝑎𝑙.(1978) = (8.23)
4(𝑃2 − 𝑃1 )2

Em (8.23), 𝑃1 é a sensibilidade (especificidade) da técnica de referência, enquanto que 𝑃2 é a

sensibilidade (especificidade) da técnica competidora; 𝛾 = (𝑧1−𝛼 √2𝑃̅𝑄̅ + 𝑧1−𝛽 √𝑃1 𝑄1 + 𝑃2 𝑄2 )2 ;


𝑃̅ = (𝑃1 + 𝑃2 )/2; 𝑄̅ = 1 − 𝑃̅; 𝑄1 = 1 − 𝑃1 ; 𝑄2 = 1 − 𝑃2 ; 𝑄̅ = (𝑄1 + 𝑄2 )/2.

A fórmula (8.23) é para planejamento balanceado, caso em que os dois grupos apresentam o mesmo
tamanho de amostra. Entretanto, em algumas situações, o tamanho de amostra para um dos testes
diagnósticos (𝑛1 ) é fixo (por exemplo, já foi realizado) e basta calcular o tamanho do outro grupo (𝑛2 ).
Nesse caso, Arkin e Wachtel (1990) recomendam uma fórmula, originalmente proposta por Cohen
(1977), que depende de 𝑛𝐶𝑎𝑠𝑎𝐺𝑒𝑡 𝑎𝑙.(1978) , obtido pela fórmula (8.23), dada por:

𝑛𝐶𝑎𝑠𝑎𝐺𝑒𝑡 𝑎𝑙.(1978) 𝑛1
𝑛2 = (8.24)
2𝑛1 − 𝑛𝐶𝑎𝑠𝑎𝐺𝑒𝑡 𝑎𝑙.(1978)

Exemplo 8.8 - Comparação da acurácia de dois métodos no caso de grupos independentes ╬╬

No planejamento de um estudo para comparar técnicas de imagem, sabe-se que a sensibilidade da


técnica de referência é de 80% e espera-se que tenha havido grande aprimoramento em nova técnica tal
que a sensibilidade subiu para 95%. Aplicando a fórmula (8.23) quando o nível de significância e poder
são fixados em 5% e 80%, respectivamente, encontra-se 𝑛𝐶𝑎𝑠𝑎𝐺𝑒𝑡 𝑎𝑙.(1978) = 71,77 (72 pacientes).
Fixando o poder em 90%, 95% e 99%, os resultados com casas decimais e com número
inteiro, entre parênteses, seriam: 𝑛𝐶𝑎𝑠𝑎𝐺𝑒𝑡 𝑎𝑙.(1978) = 94,23 (95); 𝑛𝐶𝑎𝑠𝑎𝐺𝑒𝑡 𝑎𝑙.(1978) = 115,44 (116);
𝑛𝐶𝑎𝑠𝑎𝐺𝑑𝑒−𝑒𝑡 𝑎𝑙.(1978) = 161,74 (162). Como a fórmula fornece o número em cada grupo, os totais de
participantes de forma a garantir 80%, 90%, 95% e 99% na comparação desses dois métodos de
imagem seriam o dobro: 144, 190, 232 e 324.

Comparação de sensibilidade/especificidade no caso de amostras pareadas

Existem alguns trabalhos para a avaliação de delineamentos de amostras pareadas (respostas


codificadas como 1 e 2), cuja distribuição de probabilidades é mostrada na Tabela 8.10.

Tabela 8.10 - Distribuição de probabilidades e de resultados (entre parênteses)


obtida em uma classificação de dados pareados

Grupo 2
Grupo 1 Total
1 2
1 𝑝11 (𝑘) 𝑝12 (𝑟) 𝑝1. (𝑛1 )
2 𝑝21 (𝑠) 𝑝22 (𝑙) 1 − 𝑝1. (𝑛2 )
Total 𝑝.1 (𝑚1 ) 1 − 𝑝.1 (𝑚2 ) 1 (𝑛)

Além da fórmula de tamanho de amostra proposta por Connett et al. (1987), apresentada no capítulo 3,
merece ser citado o trabalho de Miettinen (1968). Nele é derivado o poder assintótico e o
correspondente tamanho de amostra. Duffy (1984) descreve o poder exato e mostra que a aproximação
assintótica de Miettinen tende ligeiramente a superestimar o poder ou a subestimar o tamanho da
amostra necessário para atingir determinado poder. O cálculo do poder e correspondente tamanho de
amostra do trabalho de Duffy (1984) estão implementados no pacote MESS do software livre R. Para o
caso de amostras pareadas em situações gerais, destaca-se o trabalho de Connor (1987), aplicado por
Beam (1992) em estudos de acurácia em Radiologia.

Para a comparação de testes realizados de forma pareada, o problema pode ser formulado pelas
hipóteses: 𝐻0 : 𝛿 = 𝜃1 − 𝜃2 = 0 versus 𝐻1 : 𝛿 = 𝜃1 − 𝜃2 > 0. Beam (1992) considera 𝜃1 e 𝜃2 como
medidas de acurácia (sensibilidades ou especificidades); as hipóteses a serem testadas envolvem a
diferença entre as medidas de acurácia. Supondo-se que a medida seja a sensibilidade e usando a
notação da Tabela 8.10, 𝜃1 − 𝜃2 = 𝑝1. − 𝑝.1 = (𝑝11 + 𝑝12 ) − (𝑝11 + 𝑝21 ) = 𝑝12 − 𝑝21 . Nesse caso,
naturalmente, se a sensibilidade for baseada em dados, o total de indivíduos deve ser daqueles com a
condição (doentes), enquanto que para a especificidade, são os não doentes que interessam. Na notação
da Tabela 8.10 o total de indivíduos (doentes ou não) é 𝑛.
Connor (1987) determina o tamanho da amostra a partir do teste de McNemar, que para testar essas
hipóteses é dado por:
2
(𝑧1−𝛼 √𝜓 + 𝑧1−𝛽 √𝜓 − 𝛿 2 ) (8.25)
𝑛𝑀𝑐𝑁,𝑇𝐻1 =
𝛿2

Na fórmula (8.25), 𝑧1−𝛼 e 𝑧1−𝛽 correspondem aos percentis de ordem (1 − 𝛼)100% e (1 − 𝛽)100%
da distribuição normal padrão; 𝛿 = 𝜃1 − 𝜃2 é a diferença das medidas de acurácia, supostamente
positiva, e 𝜓 é a probabilidade de discordância entre os dois testes. Observando-se a segunda raiz que
aparece no numerador da fórmula (8.25), conclui-se que 𝜓 ≥ 𝛿 2. Segundo esse critério puramente
algébrico, pode-se afirmar que o valor mínimo de 𝜓 é 𝛿 2 .

Connor (1987) argumenta que o limite superior para 𝜓 é (2 − 𝜃1 − 𝜃2 ), mas apresenta um limite
menos conservativo, porém razoável, notando-se que em planejamentos pareados as respostas tendem a
ser positivamente correlacionas. Portanto, simplemente assumindo que as respostas não são
negativamente correlacionadas, ou pelo menos independentes, o limite superior para 𝜓 seria
𝜃1 (1 − 𝜃2 ) + (1 − 𝜃1 )𝜃2 = 𝜃1 + 𝜃2 − 2𝜃1 𝜃2 . Pode-se mostrar que a utilização do valor máximo de 𝜓
fornece a maior estimativa do tamanho de amostra que garante o poder especificado.

A fórmula (5.6) do trabalho de Miettinen (1968), que seria comparável à (8.25), é dada por:

2
(𝑧1−𝛼 √𝜓 + 𝑧1−𝛽 √𝜓 − 𝛿 2 (3 + 𝜓)/(4𝜓)) (8.26)
𝑛𝑀𝑖𝑒𝑡𝑡𝑖𝑛𝑒𝑛,1968 =
𝛿2

Exemplo 8.9 - Comparação da acurácia de dois métodos (amostras independentes e pareadas)


╬╬

Além das informações do exemplo 8.8, com 80% de poder, acrescenta-se que a probabilidade de
discordância dos dois testes em termos de sensibilidade é 𝛿 = 𝜃1 − 𝜃2 = 0,95 − 0,80 = 0,15 e que o
menor valor de 𝜓 é 𝛿 2 = (0,15)2 = 0,023. Para esse caso, utilizando a fórmula (8.25), o tamanho de
amostra é de apenas cinco quando o poder é 80%, 90% ou 95% e seis quando o poder é 99%. O limite
superior de 𝜓 é 2 − 𝜃1 − 𝜃2 = 2 − 0,95 − 0,80 = 0,25, enquanto que o limite menos conservativo é
𝜃1 (1 − 𝜃2 ) + (1 − 𝜃1 )𝜃2 = 0,95(0,20) + 0,05(0,80) = 0,23.

Para investigar o impacto de 𝜓 no cálculo do tamanho da amostra, serão considerados três valores de 𝜓
(𝜓 = 0,05, 𝜓 = 0,10 e 𝜓 = 0,23), representando casos de discordância baixa, média e alta.
A Tabela 8.11 mostra o número de pacientes para o delineamento, considerando amostras
independentes e pareadas, usando as fórmulas (8.23) e (8.25), respectivamente. Fica claro que o ganho
em eficiência é obtido com o esquema pareado. Como esperado, em delineamentos pareados, quanto
maior a probabilidade de discordância, maior o número de participantes.

Tabela 8.11 - Número de pacientes necessário em delineamentos


com amostras independentes e pareadas

Amostras independentes Amostras pareadas – fórmula (8.25)


Poder
do fórmula (8.23) Probabilidade de discordância
teste Número Número Baixa Média Alta
por grupo total (𝜓 = 0,05) (𝜓 = 0,10) (𝜓 = 0,23)
80% 88 176 12 26 62
90% 114 228 15 35 84
95% 137 274 19 43 106
99% 187 374 26 61 152

Exemplo 8.10 - Comparação de duas fórmulas para cálculo de tamanho de amostra


(amostras pareadas) ╬╬

Neste exemplo estabelece-se a comparação de duas fórmulas, (8.25) e (8.26), para o cálculo de
tamanho de amostra em delineamentos de amostras pareadas. A Tabela 8.12 mostra os resultados para
combinações de parâmetros/termos que aparecem nas fórmulas.

Tabela 8.12 - Tamanho de amostra (𝑛) necessário em delineamentos


de amostras pareadas utilizando as fórmulas (8.25) e (8.26)

Poder 𝛼 𝛿 𝜓 𝑛: fórmula (8.25) 𝑛: fórmula (8.26)


80% 0,05 0,2 0,5 76 74
80% 0,05 0,3 0,5 33 31
80% 0,05 0,4 0,5 18 16
80% 0,05 0,5 0,5 11 8
90% 0,05 0,2 0,6 125 123
90% 0,05 0,3 0,6 54 52
90% 0,05 0,4 0,6 29 27
90% 0,05 0,5 0,6 17 15

Os valores obtidos pela fórmula (8.25) são sempre superiores aos da (8.26), mas são bastante similares,
com discrepância de dois ou três elementos.
Estudo de equivalência de sensibilidade baseado no teste de McNemar

O objetivo geral em procedimentos diagnósticos e em triagens é a obtenção de alta acurácia.


Em algumas circunstâncias, entretanto, há necessidade de avaliar se a nova técnica diagnóstica tem a
mesma acurácia do procedimento-padrão. Isso ocorre especialmente se o novo teste oferece vantagens,
tais como baixo custo e mais facilidade de administração. Pode-se estabelecer então que perda mínima
de sensibilidade é compensada por ganhos práticos.

A equivalência em sensibilidade de dois testes não necessariamente significa que as duas sensibilidades
sejam exatamente iguais, mas pode-se aceitar que a sensibilidade do novo teste (𝑠𝑁 ) não difira da
sensibilidade do teste-padrão (𝑠𝐶 ) por uma quantidade δ₀ clinicamente aceitável. Esse problema pode
ser formulado pelo teste das seguintes hipóteses: 𝐻0 : 𝑠𝐶 ≤ 𝑠𝑁 + 𝛿0 versus 𝐻1 : 𝑠𝐶 > 𝑠𝑁 + 𝛿0 ou,
equivalentemente, 𝐻0 : 𝑠𝐶 − 𝑠𝑁 ≤ 𝛿0 versus 𝐻1 : 𝑠𝐶 − 𝑠𝑁 > 𝛿0 .

A Tabela 8.13 mostra a distribuição genérica dos resultados (+ e −) de dois testes (novo e padrão) e as
probabilidades de ocorrência de cada situação: concordância (++, −−) e discordância (+−, −+) .

Tabela 8.13 - Resultados de dois testes aplicados a 𝑛 indivíduos


e as probabilidades (entre parênteses) de todas as ocorrências

Teste-padrão Total
Teste-novo
+ −
+ 𝑎 (𝑃11 ) 𝑏 (𝑃10 ) 𝑛1 = 𝑎 + 𝑏 (𝑠𝑁 )
− 𝑐 (𝑃01 ) 𝑑 (𝑃00 ) 𝑛2 = 𝑐 + 𝑑 (1 − 𝑠𝑁 )
Total 𝑎 + 𝑐 (𝑠𝐶 ) 𝑏 + 𝑑 (1 − 𝑠𝐶 ) 𝑛 (1)

Lu e Bean (1995) derivam fórmulas de cálculo de tamanho de amostra baseadas na estatística do teste
de McNemar. Utilizam os procedimentos condicional e não condicional e demonstram que os
resultados do segundo procedimento são sempre maiores do que os do condicional.

A questão é testar as hipóteses: 𝐻0 : 𝑠𝐶 = 𝑠𝑁 + 𝛿0 versus 𝐻1 : 𝑠𝐶 = 𝑠𝑁 + 𝛿1, sendo 𝛿1 uma diferença


aceitável das duas medidas de acurácia tal 𝛿1 > 𝛿0. Por exemplo, em termos de sensibilidade, quando
𝑠𝐶 = 0,9, 𝛿0 = 0,1 e 𝛿1 = 0,3, a regra pode ser aceitar o novo teste se sua sensibilidade for 80%,
mas rejeitar o novo diagnóstico se a sensibilidade for somente 60%.
A fórmula para o cálculo do número de pacientes necessários utilizando o procedimento condicional
(𝐶𝑜𝑛𝑑) é:

(𝑧1−𝛼 (2(𝑠𝐶 − 𝑃11 ) − 𝛿1 )√(𝑠𝐶 − 𝑃11 − 𝛿0 ) + 𝑧1−𝛽 (2(𝑠𝐶 − 𝑃11 ) − 𝛿0 )√(𝑠𝐶 − 𝑃11 − 𝛿1 ))2
𝑛𝐶𝑜𝑛𝑑 = (8.27)
(𝑠𝐶 − 𝑃11 )[2(𝑠𝐶 − 𝑃11 ) − 𝛿1 ](𝛿1 − 𝛿0 )2

Pode-se mostrar que 𝑛𝐶𝑜𝑛𝑑 é uma função decrescente de 𝑃11 e que essa probabilidade varia de
𝑚𝑎𝑥 {(𝑠𝐶 − 𝛿1 ) − (1 − 𝑠𝐶 ), 0} até (𝑠𝐶 − 𝛿1 ) sob a hipótese alternativa.

Para o procedimento não condicional (𝑁𝐶𝑜𝑛𝑑), a fórmula para cálculo do número de pacientes, similar
à fornecida por Connor (1987), é:

2
(𝑧1−𝛼 √(2(𝑠𝐶 − 𝑃11 ) − 𝛿0 − 𝛿02 ) + 𝑧1−𝛽 √(2(𝑠𝐶 − 𝑃11 ) − 𝛿1 − 𝛿12 ))
𝑛𝑁𝐶𝑜𝑛𝑑 = (8.28)
(𝛿1 − 𝛿0 )2

Os autores mostram que, assim como para 𝑛𝐶𝑜𝑛𝑑 , 𝑛𝑁𝐶𝑜𝑛𝑑 também é uma função decrescente
de 𝑃11 . Utilizando essa propriedade e o fato de que 𝑃11 varia no intervalo que vai de
𝑚𝑎𝑥{(𝑠𝐶 − 𝛿1 ) − (1 − 𝑠𝐶 ), 0} até (𝑠𝐶 − 𝛿1 ), sob todas as hipóteses alternativas, obtiveram os limites
para 𝑛𝐶𝑜𝑛𝑑 e 𝑛𝑁𝐶𝑜𝑛𝑑 . O valor mínimo de 𝑃11 (𝑚𝑖𝑛{𝑃11 }) é zero se (𝑠𝐶 − 𝛿1 ) ≤ (1 − 𝑠𝐶 ), enquanto que
se (𝑠𝐶 − 𝛿1 ) > (1 − 𝑠𝐶 ), 𝑚𝑖𝑛{𝑃11 } aumenta para (𝑠𝐶 − 𝛿1 ) − (1 − 𝑠𝐶 ). Quando 𝑃11 = 𝑠𝐶 − 𝛿1,
o valor máximo da probabilidade de diagnóstico positivo em ambos os testes, os positivos detectados
pelo teste-novo formam um subconjunto daqueles detectados pelo teste-padrão sob a hipótese
alternativa. Nesse caso, o limite inferior do tamanho da amostra é (𝑧1−𝛼 )2 /(𝛿1 − 𝛿0 ), que não depende
da sensibilidade do teste-padrão e do poder do teste.

Teste de McNemar para amostras pareadas em estudos de acurácia

Em seu trabalho sobre tamanho de amostra para estudos com amostras pareadas usando o teste
McNemar, que não é direcionado exclusivamente a estudos de acurácia de testes diagnósticos,
Lachenbruch (1992) apresenta o método do ponto médio que consiste em entrar na fórmula com o
ponto médio entre o menor e o maior valor da sensibilidade (ou da probabilidade de interesse).
Compara sua proposta (𝑛𝐿 ) com os métodos de cálculo de tamanho de amostra de Schlesselman
(1982), 𝑛𝑆𝑐ℎ , e de Connett et al. (1987), 𝑛𝐶𝑡𝑡 . Em geral, os resultados dos três métodos são bem
parecidos e vale a seguinte relação: 𝑛𝐿 ≥ 𝑛𝐶𝑡𝑡 ≥ 𝑛𝑆𝑐ℎ . Além disso, os valores de 𝑛𝐿 são os que mais se
aproximam dos obtidos pelo estudo de simulação de Monte Carlo (resultados empíricos).

Por meio de um estudo de simulação de Monte Carlo, Lu e Bean (1995) comparam as fórmulas (8.27) e
(8.28), propostas por eles, com a apresentada em Lachenbruch (1992). Os resultados mostram que
quando não há informação alguma sobre 𝑃11 , probabilidade definida na Tabela 8.13, o tamanho de
amostra correspondente ao ponto médio, como em Lachenbruch (1992), baseado na estatística do teste
condicional, é a melhor escolha para garantir o poder desejado. Novamente, usando a notação da
Tabela 8.13, o ponto médio de 𝑃11 é dado por 𝑚𝑎𝑥{[(𝑠𝐶 − 𝛿1) − (1 − 𝑠𝐶 )]/2, (𝑠𝐶 − 𝛿1 )/2}.
Importante notar que o tamanho da amostra baseado no ponto médio de 𝑃11 pode ser interpretado como
um balanço entre o máximo e o mínimo dos valores obtidos para os tamanhos de amostra.

8.3 Considerações finais

A discussão apresentada neste capítulo pode ser aplicada na comparação de testes diagnósticos,
métodos ou avaliadores. Existe também uma metodologia especial para o caso de múltiplos leitores,
que é de grande importância na prática. Obuchowski (1998) dedica uma seção a esse tópico,
tecendo alguns comentários gerais e fornecendo referências importantes, porém não inclui fórmulas
fechadas para o cálculo do tamanho da amostra, sendo apenas citado um programa preparado no SAS®.

Em estudos envolvendo mais de dois testes, pode-se primeiro fazer uma avaliação geral da acurácia de
todos os testes e, se não houver equivalência, podem-se usar comparações pareadas entre os testes e
empregar a correção de Bonferroni para controlar o erro do tipo I, conforme discutido, por exemplo,
em Pagano e Gauvreau (2004) ou Riffenburgh (2012). Para o cálculo de tamanho de amostra, devem-se
utilizar os níveis de significância com a correção de Bonferroni.

Nos estudos de acurácia de testes diagnósticos, grande atenção tem sido dada à determinação do poder
e tamanho de amostra para o caso de resposta dicotômica. O tratamento usual utilizando a distribuição
binomial só é adequado para testes diagnósticos quantitativos se for conhecido a priori o limite de
discriminação, isto é, o ponto de corte. Como comentado na seção 8.1.1, para testes diagnósticos com
resultados na escala quantitativa, a sensibilidade e especificidade dependem do ponto de corte
selecionado. Em testes laboratoriais, em geral o percentil 0,975 é utilizado, mas esse ponto de corte
está sujeito à variação amostral. Portanto, a imprecisão da estimativa da sensibilidade deve-se à
variabilidade nas amostras dos grupos comparados.
Beam (1992) listou estratégias para melhorar o poder em estudos sobre acurácia de testes
diagnósticos: tipo de delineamento do estudo, especificação da hipótese nula, seleção do nível de
significância e seleção de casos e controles. Em termos de poder, como já comentado, o esquema
pareado é em geral preferível em relação ao de amostras independentes. Beam também sugere
especificar hipótese bilateral, já que nesse caso o poder do teste tende a ser mais alto do que o de
hipótese unilateral. Quanto à seleção do nível de significância, Beam assinala que se pode ganhar poder
aumentando-se o nível de significância. Assim, quando em um estudo a penalidade para uma conclusão
de um falso-positivo (isto é, erro do tipo I) é mínima, é razoável usar um nível de significância maior
que o padrão de 5%, desde que essa decisão seja feita na fase de planejamento do estudo.

A utilização de nomogramas é outra estratégia para calcular tamanho de amostra que agrada àqueles
pesquisadores que são avessos às fórmulas matemáticas. Para estudos de acurácia de testes
diagnósticos, o trabalho de Carley et al. (2005) pode ser pesquisado. Naturalmente há certas limitações,
como os parâmetros/termos apresentados nas figuras (nomogramas), que evidentemente não se aplicam
a todos os casos práticos.

Ainda nessa mesma linha de trabalho, Malhotra e Indrayan (2010) elaboraram um nomograma para
testes diagnósticos cujas categorias são dicotômicas. O enfoque é em intervalos de confiança, não
sendo aplicável para testes de hipóteses. Utiliza precisão absoluta e nível de confiança de 95%,
mas indica um simples ajuste quando os níveis são de 90% ou 99%.

Na prática, os estudos da acurácia de testes frequentemente envolvem moderados ou mesmo pequenos


tamanhos de amostra (em geral, menos de 50 pacientes). Apesar de o conteúdo deste capítulo ser
bastante útil na prática, existem algumas limitações dos métodos de determinação do tamanho de
amostra nesse contexto baseados na teoria assintótica. Há também necessidade de mais trabalhos
empíricos e teóricos sobre a existência ou não de vantagens de usar escala contínua. Finalmente,
métodos estatísticos mais avançados do que os citados no capítulo têm sido utilizados em estudos de
acurácia, mas não há métodos correspondentes para determinar o tamanho de amostra necessário.
Além disso, em vários estudos, o diagnóstico verdadeiro não é conhecido para todos os pacientes e
então métodos estatísticos devem ser utilizados para a verificação de viés (bias), além da necessidade
de estudos em que covariáveis dos pacientes devem ser levadas em conta. Seria recomendado que tais
ajustes fossem considerados no processo de determinação do tamanho de amostra.
8.4 Recursos computacionais para os cálculos do tamanho da amostra
e/ou do poder

A maioria das fórmulas fechadas de tamanho de amostra do capítulo foi programada em planilhas
Excel® e elas se encontram disponíveis para os leitores (ver informações na apresentação do livro; os
exemplos com fórmulas programadas estão sinalizados por ╬╬).

Alternativamente, alguns cálculos de tamanho de amostra e/ou do poder do teste discutidos no capítulo
e/ou relacionados ao assunto do capítulo podem ser obtidos pelos seguintes softwares/programas
citados no capítulo 11: Pass®, nQuery Advisor® e o pacote MESS do software livre R (função:
power.mcnemar.test).
9.1 Introdução

Em vários estudos clínicos e epidemiológicos, há interesse na comparação de resultados de métodos,


instrumentos, kits, leitores ou avaliadores, avaliações feitas em ocasiões diferentes ou de forma mais
geral, de qualquer avaliação relevante para o problema investigado. Exemplos importantes incluem a
comparação de resultados de diferentes leitores de um método de imagem ou de laudos de patologistas.
Muitas vezes é importante a comparação de tratamentos alternativos. Esse problema é especialmente
importante quando os métodos têm custos diferentes ou dificuldades práticas distintas.

Estudos de acurácia (tratados no capítulo 8), em que um dos métodos a serem comparados é o padrão-
ouro, são os mais interessantes, mas na prática nem sempre a verdadeira condição do paciente é
conhecida. Muitos estudos dependem do julgamento de um ou mais observadores para definir se a
doença, um traço ou um atributo está ou não presente. Nesses casos, importante consideração é a
variação entre observadores. O ideal é que exista alta concordância intraobservador ou interobservador.
A extensão na qual os observadores ou instrumentos concordam ou discordam é importante aspecto,
tanto se estão sendo considerados exames físicos, testes laboratoriais ou outros meios de avaliar
características humanas. Portanto, há a necessidade de expressar o grau de concordância em
termos quantitativos.

Ao longo dos anos, o coeficiente kappa (𝜅), também conhecido como coeficiente kappa de Cohen
(Cohen, 1960), tem sido a medida mais usada para a quantificação da concordância no caso de
variáveis com categorias nominais ou ordinais e mesmo para dados contínuos. Apesar de não haver
consenso e existirem algumas críticas quanto ao seu uso, o coeficiente kappa continua sendo muito
empregado em aplicações em ciências sociais e biomédicas, com larga utilização, por exemplo, em
Psicologia. Algumas referências ligadas ao assunto são: Thompson e Walter (1988a), Thompson e
Walter (1988b), Feinstein e Cicchetti (1990), Cicchetti e Feinstein (1990) e Byrt et al. (1993).

Quando há mais de duas categorias, é importante distinguir entre variáveis ordinais, cujas categorias
são intrinsecamente ordenadas, e variáveis nominais, que não apresentam ordenação. O coeficiente
kappa de Cohen é apropriado quando todas as discordâncias podem ser consideradas igualmente sérias,
enquanto que o coeficiente kappa ponderado é mais adequado quando a gravidade relativa das
possíveis discordâncias pode ser especificada.

Para variáveis ordinais, o kappa de Cohen não capta toda a diferença dos dados, já que valoriza
igualmente a discordância entre todas as categorias. Para exemplificar, suponha-se que na avaliação
dos Raios-X as classificações sejam: normal, duvidosa e alterada. Naturalmente, há melhor
concordância entre dois avaliadores quando um deles classifica como normal e o outro como duvidosa
(duas categorias adjacentes) do que quando um laudo é normal e o outro alterado. O coeficiente kappa
ponderado tende a captar tais especificidades da variável ordinal.

9.1.1 O coeficiente kappa com dois resultados possíveis (categorias binárias)

O coeficiente kappa (𝜅) foi introduzido originalmente por Cohen (1960) e continuou a ser
desenvolvido por outros autores (FLEISS, 1981). A ideia básica é medir concordância entre dois ou
mais avaliadores (ou testes) comparada à quantidade de concordância esperada apenas ao acaso, se os
escores dos avaliadores fossem estatisticamente independentes.

Para a comparação da concordância de dois avaliadores (ou testes) em situações com dois resultados
possíveis (por exemplo, no caso de testes, positivo e negativo), as probabilidades 𝜋𝑖𝑗 de classificar um
indivíduo na categoria 𝑖 pelo teste 1 e na 𝑗 pelo teste 2 (𝑖 = 1, 2 e 𝑗 = 1, 2) e as probabilidades
marginais dos testes 1 e 2, 𝜋𝑖. = 𝜋𝑖1 + 𝜋𝑖2 e 𝜋.𝑗 = 𝜋1𝑗 + 𝜋2𝑗 , respectivamente, estão mostradas
na Tabela 9.1.
Tabela 9.1 - Probabilidades de classificação por dois avaliadores (ou por dois testes)
em situações com dois resultados possíveis (categorias binárias)

Avaliador 2 Avaliador 1 (Teste1)


Total
(Teste 2) 1 2
1 𝜋11 𝜋12 𝜋1.
2 𝜋21 𝜋22 𝜋2.
Total 𝜋.1 𝜋.2 1

O coeficiente kappa é definido como:


𝜋0 − 𝜋𝑒
𝜅= (9.1)
1 − 𝜋𝑒

Em (9.1), 𝜋0 = 𝜋11 + 𝜋22 é a real probabilidade de concordância e 𝜋𝑒 = 𝜋1. 𝜋.1 + 𝜋2. 𝜋.2 é a
concordância esperada se as classificações dos avaliadores fossem de forma independente.
O numerador representa a discrepância entre duas probabilidades, uma observada referente ao sucesso
(haver concordância) e a outra calculada sob a suposição do pior cenário, de forma independente, sem
critério algum. O denominador mede a diferença entre a probabilidade da situação ideal (concordância
perfeita) e a probabilidade da concordância obtida “ao acaso”.

O valor máximo de kappa é um (𝜅 = 1) quando há concordância perfeita, o que é raro na prática, e


assume o valor zero (𝜅 = 0) quando a concordância total (𝜋0 ) for igual à concordância de forma
completamente independente (𝜋𝑒 ). Teoricamente, é possível que kappa seja negativo, significando que
os dois avaliadores concordam menos que seria esperado ao acaso, o que dificilmente acontece. O valor
mínimo de kappa depende das probabilidades marginais. Se elas são tais que 𝜋𝑒 = 0,5, então o valor
mímino de kappa é −1, caso correspondente a 𝜋0 = 0.

Existem várias possíveis classificações para os valores de kappa, como a de Landis e Koch (1977), de
Cicchetti e Sparrow (1981) e de Fleiss (1981), resumidas em Streiner et al. (2015). No Quadro 9.1 é
mostrada a classificação apresentada em Altman (1991):

Quadro 9.1 - Uma possível classificação do coeficiente kappa


Kappa (𝜅) Classificação
< 0,20 Concordância ruim
[0,20 ; 0,40) Concordância fraca
[0,40 ; 0,60) Concordância moderada
[0,60 ; 0,80) Concordância boa
[0,80 ; 1,00] Concordância ótima
Há várias extensões da estatística original, como o coeficiente kappa ponderado, que permite diferentes
tipos de discordância tendo distintos pesos (Cohen, 1968). É apropriado se alguns tipos de discordância
forem considerados mais críticos que outros. Outras extensões existem no caso de mais de dois
avaliadores para vários tipos de dados (FLEISS, 1971; RAE, 1988; POSNER et al., 1990). Para dados
contínuos, o coeficiente kappa é essencialmente equivalente ao coeficiente de correlação intraclasse
(RAE, 1988).

Estima-se o coeficiente kappa por 𝜅̂ = (𝜋̂0 − 𝜋̂𝑒 )/(1 − 𝜋̂𝑒 ), sendo 𝜋̂0 e 𝜋̂𝑒 as estimativas de 𝜋0 e 𝜋𝑒 ,
respectivamente. Fleiss et al. (1969) mostraram que, baseado em tamanho de amostra 𝑛, a variância
assintótica do estimador do coeficiente kappa depende das probabilidades definidas na Tabela 9.1 e nos
termos que aparecem na fórmula (9.1) e é dada por:

𝑄 1 1
̂) =
𝑉𝑎𝑟 (Κ = {∑ 𝜋𝑖𝑖 [(1 − 𝜋𝑒 ) − (𝜋.𝑖 + 𝜋𝑖. )(1 − 𝜋0 )]2
𝑛 𝑛 (1 − 𝜋𝑒 )4
𝑖
(9.2)
+ (1 − 𝜋0 )2 ∑ ∑ 𝜋𝑖𝑗 (𝜋.𝑖 + 𝜋𝑗. )2 − (𝜋0 𝜋𝑒 − 2𝜋𝑒 + 𝜋0 )2 }
𝑖≠𝑗

Todos os parâmetros necessários no cálculo do termo 𝑄 da fórmula (9.2) são determinados a partir de
𝜋1. , 𝜋.1 e 𝜅. Especificamente: 𝜋2. = 1 − 𝜋1. ; 𝜋.2 = 1 − 𝜋.1 ; 𝜋𝑒 = 𝜋1. 𝜋.1 + 𝜋2. 𝜋.2 ; 𝜋0 = 𝜅(1 − 𝜋𝑒 ) +
𝜋𝑒 ; 𝜋22 = (𝜋0 − 𝜋1. + 𝜋.2 )/2; 𝜋11 = 𝜋0 − 𝜋22 ; 𝜋12 = 𝜋1. − 𝜋11 ; 𝜋21 = 𝜋.1 − 𝜋11 .

A Tabela 1 de Cantor (1996) fornece valores de 𝑄 para vários valores de 𝜅 (variando de 0,0 a 0,9 com
incremento de 0,1) e diversas combinações de valores de 𝜋1. e 𝜋.1 . Como eventualmente os valores
do problema em questão não estão contemplados na tabela citada, melhor opção é programar a
fórmula (9.2), por exemplo, no software Excel®.

9.1.2 O coeficiente kappa com dois ou mais resultados possíveis (categorias multinomiais)

A Tabela 9.2 generaliza a situação anterior de duas categorias, mais especificamente, considera-se
agora o caso geral de 𝑟 ≥ 2 categorias, com ou sem ordenação.

De forma análoga ao caso de duas categorias, o coeficiente kappa (𝜅) é calculado pela mesma
expressão apresentada em (9.1), 𝜅 = (𝜋0 − 𝜋𝑒 )/(1 − 𝜋𝑒 ), 𝜋0 = ∑𝑟𝑖=1 𝜋𝑖𝑖 e 𝜋𝑒 = ∑𝑟𝑖=1 𝜋𝑖. 𝜋.𝑖 , sendo que
os termos do somatório estendem-se às 𝑟 ≥ 2 categorias. Os mesmos comentários sobre a interpretação
de kappa feitos anteriormente para duas categorias são válidos para o caso de duas ou mais categorias.

Tabela 9.2 - Probabilidades de classificação de dois avaliadores em situações


com mais de dois resultados possíveis (categorias com ou sem ordenação)

Avaliador 2 Avaliador 1 (Teste1) Total


(Teste 2) 1 2 ⋯ 𝑟
1 𝜋11 𝜋12 ⋯ 𝜋1𝑟 𝜋1.
2 𝜋21 𝜋22 ⋯ 𝜋2𝑟 𝜋2.
⋮ ⋮ ⋮ ⋱ ⋮ ⋮
𝑟 𝜋𝑟1 𝜋𝑟2 ⋯ 𝜋𝑟𝑟 𝜋𝑟.
Total 𝜋.1 𝜋.2 ⋯ 𝜋.𝑟 1

A estimativa de kappa é 𝜅̂ = (𝜋̂0 − 𝜋̂𝑒 )/(1 − 𝜋̂𝑒 ), sendo 𝜋̂0 e 𝜋̂𝑒 as estimativas de 𝜋0 e 𝜋𝑒 ,
̂ ) = 𝜏(Κ
respectivamente. O erro-padrão do estimador de kappa é 𝐸𝑃(Κ ̂ )/√𝑛, sendo 𝑛 o tamanho de

amostra e ̂) = 1
𝜏(Κ 2
{𝜋0 (1 − 𝜋𝑒 )2 + (1 − 𝜋0 )2 ∑𝑟𝑖=1 ∑𝑟𝑗=1 𝜋𝑖𝑗 (𝜋𝑖. + 𝜋.𝑗 )2 − 2(1 − 𝜋0 )(1 −
(1−𝜋 𝑒)

½
̂ ), basta substituir na
𝜋𝑒 ) ∑𝑟𝑖=1 𝜋𝑖𝑖 (𝜋𝑖. + 𝜋.𝑖 ) − (𝜋0 𝜋𝑒 − 2𝜋𝑒 + 𝜋0 )2 } . Para obter a estimativa de 𝐸𝑃(Κ
̂ ) as estimativas das probabilidades envolvidas.
fórmula de 𝜏(Κ

Para testar as hipóteses 𝐻0 : 𝜅 = 𝜅0 versus 𝐻0 : 𝜅 > 𝜅0 ou o caso de hipóteses bilaterais, 𝐻0 : 𝜅 = 𝜅0


̂ −𝜅
𝜅
versus 𝐻0 : 𝜅 ≠ 𝜅0 , pode-se utilizar a seguinte estatística: 𝑧𝜅 = 𝐸𝑃(𝜅̂0). Para o primeiro caso (hipóteses

unilaterais), rejeita-se 𝐻0 se 𝑧𝜅 > 𝑧1−𝛼 , enquanto que para hipóteses bilaterais, se |𝑧𝜅 | > 𝑧1−𝛼/2, sendo
𝑧1−𝛼 e 𝑧1−𝛼/2 os percentis de ordem (1 − 𝛼)100% e (1 − 𝛼/2)100% da distribuição normal padrão.

9.1.3 O coeficiente kappa ponderado (categorias ordinais)

Para o caso específico em que há ordenação entre as 𝑟 > 2 categorias, é indicada a utilização do
coeficiente kappa ponderado, em inglês weighted kappa. A ideia é atribuir pesos, sem perda de
generalidade, valores entre 0 e 1, e que sejam adequados para representar as discordâncias das
categorias, refletindo as proximidades das discordâncias. Usando a definição de Cohen (1968), o
coeficiente kappa ponderado (𝜅𝑤 ) é definido como:

𝜋0𝑤 − 𝜋𝑒𝑤
𝜅𝑤 = (9.3)
1 − 𝜋𝑒𝑤
Em (9.3), 𝜋0𝑤 = ∑𝑟𝑖=1 ∑𝑟𝑗=1 𝑤𝑖𝑗 𝜋𝑖𝑗 , 𝜋𝑒𝑤 = ∑𝑟𝑖=1 ∑𝑟𝑗=1 𝑤𝑖𝑗 𝜋𝑖. 𝜋.𝑗 , 𝑤𝑖𝑗 são os pesos e 𝜋𝑖𝑗 , 𝜋𝑖. e 𝜋.𝑗 são as
probabilidades apresentadas na Tabela 9.2.

Segundo Fleiss et al. (1969), a variância do estimador de 𝜅𝑤 é dada por 𝑉𝑎𝑟 (𝜅̂ 𝑤 ) =
1
{∑𝑟𝑖=1 ∑𝑟𝑗=1 𝜋𝑖𝑗 [𝑤𝑖𝑗 (1 − 𝜋𝑒𝑤 ) − (𝑤 ̅ .𝑗 ) (1 − 𝜋0𝑤 )]2 − (𝜋0𝑤 𝜋𝑒𝑤 − 2𝜋𝑒𝑤 + 𝜋0𝑤 )2 },
̅ 𝑖. + 𝑤
𝑛(1−𝜋𝑒𝑤 )4

̅ 𝑖. = ∑𝑟𝑗=1 𝑤𝑖𝑗 𝜋.𝑗 e 𝑤


sendo 𝑛 o tamanho de amostra, 𝑤 ̅ .𝑗 = ∑𝑟𝑖=1 𝑤𝑖𝑗 𝜋𝑖. .

Se 𝑤𝑖𝑗 = 1 para todo 𝑖 = 𝑗 e 𝑤𝑖𝑗 = 0 para todo 𝑖 ≠ 𝑗, o coeficiente kappa ponderado (𝜅𝑤 ) reduz-se ao
kappa simples (kappa de Cohen). Os pesos podem ser escolhidos de forma linear, quadrática ou, ainda,
podem ser atribuídos valores que o pesquisador julgue apropriado. Para a 𝑖-ésima linha e 𝑗-ésima
(𝑖−𝑗)2
coluna, Fleiss e Cohen (1973) sugerem a utilização do peso 𝑤𝑖𝑗 = 1 − (𝑟−1)2 . Essa escolha tem a

propriedade de que a concordância é maior para caselas mais próximas da diagonal principal. Existem
outras possibilidades para os pesos, como as descritas na seção 2.4.3, de Tang et al. (2012).

Exemplo 9.1 - Cálculos e interpretação do coeficiente kappa (𝜿) para categorias binárias e para o
coeficiente kappa ponderado (𝜿𝐰 ) para categorias ordinais ╬╬

A seguir são apresentados três exemplos ilustrando os cálculos e a interpretação do coeficiente kappa.
O primeiro é um exemplo com dados artificiais, enquanto que os dois outros foram extraídos e
adaptados de um artigo publicado em revista da área da saúde e de uma dissertação de mestrado.

a) Coeficiente kappa de Cohen: dados artificiais

Se as probabilidades de os avaliadores A e B classificarem um indivíduo na categoria 1 forem 0,55 e


0,40 (as probabilidade marginais são 𝜋1. = 0,55 e 𝜋.1 = 0,40), espera-se que a concordância nessa
categoria feita de forma independente ocorra com probabilidade 0,55 × 0,40 = 0,22. Da mesma
forma, para a categoria 2, essa probabilidade é calculada como 0,45 × 0,60 = 0,27.
Consequentemente, a probabilidade de concordância nas duas categorias, obtida de forma
independente, é 𝜋𝑒 = 𝜋1. 𝜋.1 + 𝜋2. 𝜋.2 = 0,22 + 0,27 = 0,49. Com a informação adicional de que
𝜋0 = 𝜋11 + 𝜋22 = 0,75, 𝑘 = (𝜋0 − 𝜋𝑒 )/(1 − 𝜋𝑒 ) = (0,75 − 0,49)/(1 − 0,49) = 0,51, concordância
considerada moderada. Para 𝜋0 = {0,80; 0,85; 0,90; 0,95}, os valores do coeficiente kappa são,
respectivamente, 𝑘 = {0,61; 0,71; 0,80; 0,90}, todos considerados como concordância boa ou ótima.
Como esperado, à medida que o total das probabilidades de concordâncias (𝜋0 ) aumenta, o valor do
coeficiente 𝑘 também aumenta.
b) Coeficiente kappa de Cohen: dados extraídos de artigo publicado em revista científica

Em estudo realizado na Holanda sobre a prescrição médica em minorias étnicas, Uiters et al. (2006)
relataram a concordância entre autorrelatos e registros médicos. Para as comunidades das Antilhas
Holandesas (A), holandesa (H), de Marrocos (M), do Suriname (S) e da Turquia (T), em ordem
crescente, os valores do coeficiente kappa foram: 𝜅𝑀 = 0,10; 𝜅𝐴 = 0,11; 𝜅𝐻 = 0,16; 𝜅𝑆 = 0,21
e 𝜅𝑇 = 0,26. As três primeiras concordâncias (M, A e H) são consideradas ruins e as demais
(S e T), fracas.

c) Coeficiente kappa ponderado: dados extraídos de dissertação de mestrado e de artigo


publicado em revista científica

A radiografia de tórax (RX) ainda é, no dias atuais, o principal método de diagnóstico da silicose,
seguindo-se as normas da Organização Internacional do Trabalho (OIT). A interpretação radiológica de
casos iniciais é difícil, podendo ocorrer divergências mesmo entre leitores experientes. Recentemente
tem sido considerada a possibilidade de utilização da tomografia computadorizada com técnica de alta
resolução (TCAR) para avaliação de casos incipientes. Estudo comparativo da TCAR com a RX no
diagnóstico da silicose em casos incipientes foi parte da dissertação de mestrado de Carneiro (2000).
A seguir apresentam-se algumas informações sobre o estudo, detalhes adicionais podem ser
encontrados em Carneiro et al. (2001).

Trata-se de delineamento transversal em que foi avaliado um grupo inicial de 135 ex-mineiros, cujas
radiografias foram examinadas por três leitores. Indicou-se TCAR para 68 pacientes cuja mediana de
três leituras radiológicas foi igual ou inferior a 1/0. As tomografias foram avaliadas por dois leitores e,
em casos de divergência, houve participação do terceiro leitor.

A classificação do RX foi feita de forma completa (escala semiquantitativa de 12 pontos, segundo


padronização da OIT) e resumida (0/-, 0/0, 0/1 = 0; 1/0, 1/1, 1/2 = 1; 2/1, 2/2, 2/3 = 2; 3/2, 3/3, 3/+ =
3). As TCARs foram classificadas, de acordo com a profusão de micronódulos, em categorias de 0 a 3.
As quatro categorias de graduação de micronódulos encontrados na TCAR foram: 0 = ausência de
micronódulos; 1 = micronódulos presentes, porém sem borramento dos vasos; 2 = micronódulos
presentes, com algum borramento dos vasos; 3 = micronódulos presentes com acentuado borramento
dos vasos.
As estimativas e intervalos de 95% de confiança para o coefiente kappa ponderado estão apresentadas
na Tabela 9.3, bem como o percentual de concordância dos dois leitores.

Tabela 9.3 - Estimativas e intervalos de 95% de confiança para o coeficiente


kappa ponderado e percentual de leituras concordantes entre os leitores de
radiografia (RX) e tomografia computadorizada de alta resolução (TCAR) de tórax

Método Leitores
(nº de categorias) 1e2 1e3 2e3
0,45 0,26 0,26
RX (12) (0,32; 0,58) (0,09; 0,44) (0,13; 0,39)
49% 43% 35%
0,45 0,30 0,15
RX (4) (0,26; 0,65) (0,06; 0,53) (0,003: 0,30)
72% 79% 69%
0,14 0,16 0,33
TCAR (4) (-0,02; 0,31) (-0,20; 0,51) (0,13; 0,53)
68% 85% 60%

A melhor concordância, avaliada pelo coeficiente kappa, para o método de RX, tanto com 12
categorias como com quatro categorias, foi obtida entre os leitores 1 e 2, enquanto que pelo método
TCAR foi entre os leitores 2 e 3. Também não há relação direta entre os percentuais de leituras
concordantes entre os leitores de RX e TCAR e os valores de kappa, o maior percentual não
correspondente necessariamente ao maior valor de kappa. De fato, sabe-se que o coeficiente kappa
apresenta limitações, entre as quais a dependência em relação à prevalência do evento pesquisado (ver
comentários e referência na seção 9.3).

Não há consistência entre os percentuais de leituras concordantes entre os leitores de radiografia (RX) e
tomografia computadorizada de alta resolução (TCAR) de tórax e os valores de kappa. Por exemplo,
85% das leituras feitas pelos leitores 1 e 3 foram concordantes pela TCAR, enquanto que o valor de
kappa foi de apenas 0,16, com intervalo de 95% confiança bastante amplo, variando de −0,20 a 0,51.
Carneiro et al. (2001) apresenta análise mais completa e informativa a respeito da concordância entre
os avaliadores e entre os métodos utilizando modelos log-lineares.
9.2 Tamanho de amostra em estudos de concordância baseados no coeficiente
kappa quando há dois avaliadores

Questão importante que aparece no planejamento de estudos de concordância é sobre o tamanho de


amostra (𝑛) necessário para atingir o nível de precisão desejada. São apresentados métodos para
dimensionamento de amostra para estudos que utilizam o coeficiente kappa (κ) quando há dois
avaliadores, sendo que a resposta pode ter duas ou mais categorias.

9.2.1 Tamanho de amostra em estudos de concordância usando o coeficiente kappa quando a


variável resposta apresenta apenas duas categorias

A seguir discute-se o método para o cálculo do tamanho de amostra para estudos de concordância que
utilizam o coeficiente kappa e quando a resposta apresenta apenas duas categorias. A metodologia
baseia-se em resultados assintóticos para o estimador do coeficiente kappa. Apesar de ser um método
aproximado e com algumas limitações, a vantagem é que os cálculos são muito simples e, portanto, de
fácil implementação na prática. Utiliza-se a mesma notação da Tabela 9.1 da seção 9.1.

Muitas são as situações que necessitam do método descrito nesta seção. Tibúrcio e Siqueira (2006)
ilustram a metodologia com dados fictícios e com dados reais mais complexos referentes a dois estudos
realizados em parceria com o Programa de Triagem Neonatal de Minas Gerais (“teste do pezinho”).
O primeiro trata do perfil hemoglobínico de crianças retidas em maternidade e o segundo é sobre a
triagem neonatal para toxoplasmose congênita em Belo Horizonte.

Hipóteses simples (comparação de kappa com um valor pré-especificado)

Para testar as hipóteses 𝐻0 : 𝜅 = 𝜅0 versus 𝐻1 : 𝜅 > 𝜅0 , fixando o nível de significância e o poder em


 e (1 – 𝛽), respectivamente, segundo Cantor (1996), cálculos elementares mostram que o tamanho
da amostra é:

2
𝑧1−𝛼 √𝑄0 + 𝑧1−𝛽 √𝑄1
𝑛(𝜅=𝜅1 >𝜅0 ) =( ) (9.4)
𝜅1 − 𝜅0

Em (9.4), 𝑄0 e 𝑄1 têm a mesma expressão de 𝑄 da fórmula (9.2), respectivamente, para a hipótese nula
e para a hipótese alternativa com 𝜅 = 𝜅1 > 𝜅0 ; 𝑧1−𝛼 e 𝑧1−𝛽 são os percentis de ordem (1 − 𝛼)100% e
(1 − 𝛽)100% da distribuição normal padrão. O valor 𝜅0 = 0 é uma das possibilidades que
podem ser testadas.

Se por algum motivo não houve o planejamento do tamanho da amostra, o poder do teste
correspondente ao tamanho de amostra disponível 𝑛 pode ser calculado facilmente a partir do percentil
da distribuição normal dado por:

√𝑛(𝜅1 − 𝜅0 ) − 𝑧1−𝛼 √𝑄0


𝑧1−𝛽 = (9.5)
√𝑄1

Como sempre, aparece a dificuldade sobre os valores dos parâmetros para os quais, em geral, não se
tem conhecimento algum à época do planejamento do estudo. Cantor (1996) e Pires (2003) apresentam
tabelas para o cálculo de 𝑄 e 𝑛.

Exemplo 9.2 - Cálculo do tamanho de amostra para estudos de concordância que utilizam o
coeficiente kappa (testes de hipóteses simples) e a variável resposta apresenta apenas duas
categorias (adaptação: Cantor, 1996) ╬╬

Dois observadores são convidados para avaliar um grupo de indivíduos e decidir se cada um exibe
algum comportamento particular.

Deseja-se testar a hipótese nula 𝐻0 : 𝜅 = 0,30 contra a alternativa unilateral 𝐻1 : 𝜅 > 0,30, quando
𝜅1 = 0,50, com nível de significância de 5% (𝑧1−𝛼 = 1,645) e poder de 80% (𝑧1−𝛽 = 0,842).
Esperando que ambos os observadores vejam o comportamento em cerca de metade dos indivíduos
(𝜋1. = 𝜋.1 = 0,5), tem-se que 𝑄0 = 0,910 e 𝑄1 = 0,750 (ver fórmula 9.2). Aplicando a fórmula (9.4),
2 2
𝑧1−𝛼 √𝑄0 +𝑧1−𝛽 √𝑄1 1,645√0,910+0,842√0,750
obtém-se que 𝑛(𝜅=𝜅1 >𝜅0 ) = ( ) =( ) = 132,07. Portanto, são
𝜅1 −𝜅0 0,50−0,30

necessários 133 indivíduos. A Tabela 9.4 mostra os tamanhos das amostras obtidos, mantendo-se o
mesmo valor na hipótese nula (𝜅0 = 0,30), mas variando-se os valores de 𝜅1 . Os cálculos foram
repetidos supondo-se que cada comportamento seja observado em cerca de 30% do tempo, caso em que
as probabilidades marginais são 𝜋1. = 𝜋.1 = 0,3.

À medida que 𝜅1 aumenta, o tamanho de amostra, 𝑛(𝜅=𝜅1 >𝜅0 ), diminui. A mesma relação inversa vale
entre 𝑛(𝜅=𝜅1 >𝜅0 ) e as probabilidades marginais (𝜋1. = 𝜋.1 ): os tamanhos de amostra referentes ao bloco
𝜋1. = 𝜋.1 = 0,5 são inferiores aos correspondentes do bloco 𝜋1. = 𝜋.1 = 0,3.
Tabela 9.4 - Tamanho de amostra, 𝑛(𝜅=𝜅1 >𝜅0 ), obtido pela fórmula (9.4), para testar
𝐻0 : 𝜅 = 𝜅0 versus 𝐻1 : 𝜅 > 𝜅0 em estudos de concordância que utilizam o
coeficiente kappa (𝜅) quando a variável resposta apresenta apenas duas categorias

𝜅0 𝜅1 𝑛(𝜅=𝜅1 >𝜅0 )

0,30 0,50 133


𝜋1. = 𝜋.1 = 0,5

0,30 0,55 83
0,30 0,60 56
0,30 0,65 40
0,30 0,70 30
0,30 0,50 154
𝜋1. = 𝜋.1 = 0,3

0,30 0,55 97
0,30 0,60 66
0,30 0,65 47
0,30 0,70 35
Nota: 𝜅1 > 𝜅0 ; 𝜋1. e 𝜋.1 : probabilidades marginais.

Teste de hipóteses (comparação de dois coeficientes de concordância kappa)

Para a situação de duas amostras (grupos) independentes, cada uma de tamanho 𝑛, a avaliação da
concordância pode ser formulada pelas hipóteses 𝐻0 : 𝜅1 = 𝜅2 versus 𝐻1 : 𝜅1 ≠ 𝜅2 , sendo 𝜅1 e 𝜅2 os
coeficientes kappa referentes às duas amostras, respectivamente. Segundo Cantor (1996), a partir de
cálculos elementares chega-se a que o tamanho da amostra para testar as hipóteses mencionadas é:

2
𝑧1−𝛼/2 √𝑄01 + 𝑄02 + 𝑧1−𝛽 √𝑄11 + 𝑄12
𝑛𝜅1 ≠𝜅2 =( ) (9.6)
𝜅1 − 𝜅2

Em (9.6), 𝑄01 e 𝑄02 têm a mesma expressão de 𝑄 da fórmula (9.2), calculados sob a hipótese nula
(𝐻0 ), enquanto que 𝑄11 e 𝑄12 são calculados sob a hipótese alternativa (𝐻1 ) e, naturalmente, o
segundo índice (1 ou 2) indica o “grupo” a que pertence. Usando a notação usual, 𝑧1−𝛼/2 e 𝑧1−𝛽 são os
percentis de ordem (1 − 𝛼/2)100% e (1 − 𝛽)100% da normal padrão.
Exemplo 9.3 - Cálculo do tamanho de amostra para a comparação de dois coeficientes de
concordância kappa quando a variável resposta apresenta apenas duas categorias (adaptação de
CANTOR, 1996) ╬╬

Questionário foi elaborado para avaliar quão bem um paciente lida de forma emocional e psicológica
com determinada doença crônica grave. Para simplificar, o resultado da avaliação foi considerado
como dicotômico: satisfatório ou insatisfatório. A utilidade do questionário é feita pela validade
interna, medida pela concordância dos resultados de um paciente em duas administrações distintas.
Assim, como parte de um estudo para comparar dois desses questionários, os pacientes com doença
crônica grave são aleatorizados em um dos dois questionários. Em cada caso, o questionário é
administrado ao paciente duas vezes, no início do estudo e um mês mais tarde.

As estimativas de kappa devem ser comparadas supondo-se que os resultados dos dois períodos sejam
independentes. Especificamente, deve-se testar 𝐻0 : 𝜅1 = 𝜅2 versus 𝐻1 : 𝜅1 ≠ 𝜅2 com 𝛼 = 0,05.
A partir de trabalho anterior com um dos questionários, espera-se que 𝜅1 ≈ 0,70 e que cerca de metade
dos pacientes responderá de forma satisfatória. Fixando-se o poder em pelo menos 80%, se 𝜅2 = 0,5 ou
0,9 (isto é, 𝜅1 ± 0,2), a partir dos valores dos percentis 𝑧1−𝛼/2 = 1,96 e 𝑧1−𝛽 = 0,841 e com a
informação de que 𝑄01 = 𝑄02 = 0,510 e 𝑄11 = 0,510 e 𝑄12 = 0,750, aplicando-se a fórmula (9.6),
2 2
𝑧1−𝛼/2 √𝑄01 +𝑄02 + 𝑧1−𝛽 √𝑄11 +𝑄12 1,96 √0,510+0,510 + 0,841 √0,510+0,750
𝑛𝜅1 ≠𝜅2 = ( ) = ( ) = 213,675, o
𝜅1 −𝜅2 0,70−0,5

tamanho de amostra obtido é 214. Trocando o poder para 90%, o tamanho da amostra sobe para 293.

9.2.2 Tamanho de amostra em estudos de concordância usando o coeficiente kappa quando a


variável resposta apresenta duas ou mais categorias

Flack et al. (1988) apresentam um método para dimensionamento de amostra em estudos de


concordância que utilizam o coeficiente kappa (𝜅) quando há dois avaliadores e a variável pode
apresentar duas ou mais categorias (ver Tabela 9.2). Esse método está implementado no
software Pass®14.

Como pressuposto do método exige-se que as verdadeiras distribuições marginais dos avaliadores
sejam as mesmas. Posteriormente, Cantor (1996) mostrou que para duas categorias (𝑟 = 2) essa
suposição não é necessária.
A ideia principal do método é utilizar as condições que maximizam o erro-padrão do estimador de
kappa na fórmula do cálculo do dimensionamento de amostra, o que seria a situação mais pessimista
possível, gerando assim o tamanho de amostra mais conservador.

Segundo Fleiss et al. (1969), utilizando propriedades de grandes amostras, para o tamanho de amostra
𝑛, o erro-padrão do estimador de kappa é dado por:

𝜏(𝜅̂ ) 1 𝑟 𝑟 2
̂) =
𝐸𝑃(Κ = {𝜋0 (1 − 𝜋𝑒 )2 + (1 − 𝜋0 )2 ∑ ∑ 𝜋𝑖𝑗 (𝜋𝑖. + 𝜋.𝑗 )
2
√𝑛 √𝑛(1 − 𝜋𝑒 ) 𝑖=1 𝑗=1
𝑟 ½ (9.7)
− 2(1 − 𝜋0 )(1 − 𝜋𝑒 ) ∑ 𝜋𝑖𝑖 (𝜋𝑖. + 𝜋.𝑖 ) − (𝜋0 𝜋𝑒 − 2𝜋𝑒 + 𝜋0 } )2
𝑖=1

É a mesma fórmula vista na seção 9.1.2, mas agora são adicionados comentários relacionados a ela e
que são relevantes para os cálculos de tamanho de amostra. As probabilidades (𝜋𝑖𝑗 , 𝜋𝑖. , 𝜋.𝑗 ) que
aparecem em (9.7) estão definidas na Tabela 9.2, 𝜋0 = ∑𝑟𝑖=1 𝜋𝑖𝑖 e 𝜋𝑒 = ∑𝑟𝑖=1 𝜋𝑖. 𝜋.𝑖 .

̂ ).
Flack et al. (1988) apresentam uma configuração de 𝜋𝑖𝑗 que corresponde ao valor máximo de 𝐸𝑃(Κ
O procedimento depende das probabilidades marginais de ambos os avaliadores, {𝜋𝑖. } e {𝜋.𝑗 }, e das
probabilidades conjuntas (𝜋𝑖𝑗 ). Naturalmente, antes que o estudo seja realizado, todas essas
probabilidades são desconhecidas. Assim, torna-se necessário fazer algumas suposições que levam a
̂ ). Em teoria, se os dois avaliadores apresentam uma
algumas simplificações da fórmula de 𝐸𝑃(Κ
concordância perfeita, as probabilidades marginais serão exatamente iguais (marginais simétricas).
Na prática, isso nem sempre acontece, mas se a simetria das marginais for pelo menos razoável, os
resultados apresentados a seguir podem ser utilizados.

̂)
Para determinada distribuição marginal e um valor de kappa (𝜅), a única parte da fórmula de 𝐸𝑃(Κ
dada em (9.7) que não é especificada é a que envolve os somatórios e pode ser reescrita da
seguinte forma:

r 𝑟
𝑟
(1 − 𝜋0 )2 ∑ ∑ 𝜋𝑖𝑗 (𝜋𝑖. + 𝜋.𝑗 )2 − (1 − 𝜋0 ) ∑ 𝜋𝑖𝑖 (𝜋𝑖. + 𝜋.𝑖 )[ 2(1 − 𝜋𝑒 )
𝑖=1 (9.8)
𝑖≠𝑗
− (1 − 𝜋0 )(𝜋𝑖. + 𝜋.𝑖 )]

O somatório duplo que aparece em (9.8) é maximizado colocando o total das probabilidades que ficam
fora da diagonal da Tabela 9.2, 1 − 𝜋0 , nos termos 𝜋𝑖𝑗 correspondentes às maiores probabilidades
marginais. Os demais termos (𝜋𝑖𝑗 ) que estão fora da diagonal devem ter valores iguais a zero.

Além disso, no somatório simples em (9.8), quando 𝜋0 > 𝜋𝑒 , a expressão que está entre colchetes é
positiva e a quantidade que está multiplicada por 𝜋𝑖𝑖 é quadrática em (𝜋𝑖. + 𝜋.𝑖 ). Assumindo marginais
simétricas (𝜋𝑖. = 𝜋.𝑖 , 𝑖 = 1,2, ⋯ , 𝑟), essa forma quadrática assume seu máximo quando 𝜋𝑖. > 0,5.
Portanto, o somatório simples é minimizado maximizando-se 𝜋𝑖𝑖 correspondente às menores marginais.
Consequentemente, o somatório simples é minimizado quando o somatório duplo é maximizado.
Isso deve ser aproximadamente verdade quando as duas marginais são próximas.

Para amostras grandes, o estimador de kappa tem aproximadamente distribuição normal, com média
igual ao teórico, 𝜅 = (𝜋0 − 𝜋𝑒 )/(1 − 𝜋𝑒 ), e erro-padrão dado pela fórmula (9.7). Assim, os cálculos de
tamanhos de amostra dependem de percentis da distribuição normal padrão. Para amostras pequenas,
transformações, como as consideradas em Flack (1987), podem ser aplicadas.

Exemplo 9.4 - Maximização do erro-padrão do estimador de kappa a partir das probabilidades


marginais ╬╬

A seguir discute-se o problema de maximização do erro-padrão do estimador de kappa quando há


quatro categorias e 𝜅 = 0,8. Sendo {0,1; 0,2; 0,3; 0,4} as probabilidades marginais, supostamente
simétricas (𝜋𝑖. = 𝜋.𝑖 , 𝑖 = 1,2, ⋯ ,4), obtém-se 𝜋𝑒 = ∑4𝑖=1 𝜋𝑖. 𝜋.𝑖 = (0,1)2 + (0,2)2 + (0,3)2 +
𝜋0 −𝜋𝑒
(0,4)2 = 0,3. Substituindo-se o valor de 𝜋𝑒 e 𝜅 na fórmula (9.1), 𝜅 = , chega-se a que 𝜋0 = 𝜋𝑒 +
1−𝜋𝑒

𝜅(1 − 𝜋𝑒 ) = 0,3 + 0,8(1 − 0,3) = 0,86.

2
Maximizar ̂)
𝐸𝑃(Κ é equivalente a maximizar ∑𝑟𝑖≠𝑗 ∑𝑟 𝜋𝑖𝑗 (𝜋𝑖. + 𝜋.𝑗 ) = 𝜋12 (𝜋1. + 𝜋.2 )2 +
𝜋21 (𝜋2. + 𝜋.1 )2 + ⋯ + 𝜋34 (𝜋3. + 𝜋.4 )2 + 𝜋43 (𝜋4. + 𝜋.3 )2 = 𝜋12 (0,1 + 0,2)2 + 𝜋21 (0,2 + 0,1)2 + ⋯ +
𝜋34 (0,3 + 0,4)2 + 𝜋43 (0,4 + 0,3)2 ≤ 𝜋12 (0,3 + 0,4)2 + 𝜋21 (0,4 + 0,3)2 + ⋯ + 𝜋34 (0,3 + 0,4)2 +
𝜋43 (0,4 + 0,3)2 = (𝜋12 + 𝜋13 + 𝜋14 + 𝜋23 + 𝜋24 + 𝜋34 )(0,3 + 0,4)2 + (𝜋21 + 𝜋31 + 𝜋41 + 𝜋32 +
1−𝜋0 1−𝜋0 1−0,86 1−0,86
𝜋42 + 𝜋43 )(0,4 + 0,3)2 = (0,3 + 0,4)2 + (0,4 + 0,3)2 = (0,3 + 0,4)2 + (0,4 +
2 2 2 2

0,3)2 = 0,06860. Esse valor máximo é obtido fazendo 𝜋34 = 𝜋43 = (1 − 0,86)/2 e as demais
probabilidades 𝜋𝑖𝑗 , 𝑖 ≠ 𝑗, iguais a zero.

Ou seja, como 𝜋0 = 0,86, 1 − 𝜋0 = 1 − 0,86 = 0,14, esse valor deve ser distribuído entre
as probabilidades 𝜋𝑖𝑗 , 𝑖 ≠ 𝑗, correspondentes às maiores probabilidades marginais, no caso
1−𝜋0 1−0,86
𝜋34 = 𝜋43 = 2
= 2
= 0,07 e as demais probabilidades devem ser zero: 𝜋12 = 𝜋13 =
𝜋14 = 𝜋23 = 𝜋24 = 𝜋21 = 𝜋31 = 𝜋41 = 𝜋32 = 𝜋42 = 0. A partir das marginais, é possível obter os
valores das probabilidades que estão nas diagonais: 𝜋11 = 0,1; 𝜋22 = 0,2; 𝜋33 = 0,3 − 0,07 = 0,23;
𝜋44 = 0,4 − 0,07 = 0,33. Resumindo, a matriz das probabilidades mostrada a seguir é a que maximiza
̂ ), fórmula apresentada em (9.7).
𝐸𝑃(Κ

𝜋11 𝜋12 𝜋13 𝜋14 0,1 0 0 0


𝜋21 𝜋22 𝜋23 𝜋24 0 0,2 0 0
[𝜋 𝜋32 𝜋33 𝜋34 ] = [ 0 ]
31 0 0,23 0,07
𝜋41 𝜋42 𝜋43 𝜋44 0 0 0,07 0,33

Tamanho de amostra e poder do teste de concordância

Para estudos de concordância, o cálculo do tamanho da amostra pode ser feito usando-se dois enfoques:
intervalo de confiança e testes de hipóteses.

Tamanho de amostra com o enfoque de intervalo de confiança

Para um intervalo (aproximado) para 𝜅 com confiança de (1 − 𝛼)100% e comprimento de no máximo


̂ ) ≤ 𝑑. Substituindo 𝐸𝑃(Κ
𝑑, é sempre verdade que 2𝑧1−𝛼/2 𝐸𝑃(Κ ̂ ), fórmula (9.7), pelo seu valor

máximo, o tamanho da amostra é dado por:

2
𝜏(𝜅̂ )2
𝑛𝐼𝐶(𝜅) = 4𝑧1−𝛼/2 𝑚𝑎𝑥 (9.9)
𝑑2

A maximização que aparece em (9.9) deve ser feita como mostrado no exemplo 9.4, além de observar a
fórmula (9.7). O termo 𝑧1−𝛼/2 é o percentil de ordem (1 − 𝛼)100% da distribuição normal padrão.

Exemplo 9.5 - Cálculo do tamanho de amostra para estudos de concordância que utilizam o
intervalo de confiança para o coeficiente kappa quando a variável resposta apresenta três
categorias (adaptação de FLACK et al., 1988) ╬╬

Em diagnósticos psiquiátricos é bastante comum a seguinte classificação: 1-desordem de personalidade


(DP), 2-neurose (N) e 3-psicose (P). Para essas três categorias, Cohen (1968) considera as distribuições
marginais correspondentes a dois avaliadores: (0,50; 0,30; 0,20) e (0,60; 0,30; 0,10). Embora elas não
sejam exatamente idênticas, podem ser consideradas aproximadamente semelhantes, tal que a
metodologia discutida nesta seção para o tamanho da amostra será aplicada. Foram consideradas tanto
distribuições marginais semelhantes às indicadas por Cohen (1968), além de outras, como o caso
balanceado, com proporções praticamente iguais em todas as categorias, e até mesmo uma situação de
grande desbalanceamento das proporções para as três categorias.

A Tabela 9.5 mostra os tamanhos de amostra, calculados pela fórmula (9.9), correspondentes a algumas
distribuições marginais em estudos de concordância envolvendo dois avaliadores, sendo utilizado o
intervalo de 95% de confiança (𝑧1−𝛼/2 = 1,96) para o coeficiente kappa. O comprimento do intervalo
foi fixado em 0,20 (𝑑 = 0,20). Para o cálculo do 𝑚𝑎𝑥 𝜏(𝜅̂ ), foram considerados dois valores de
kappa: 0,70 e 0,60.

Tabela 9.5 - Tamanho de amostra, 𝑛𝐼𝐶(𝜅) , obtido pela fórmula (9.9), considerando-se confiança de
95%, comprimento do intervalo de confiança de 0,20 (𝑑 = 0,20) e dois valores de kappa: 0,7 e 0,6

Distribuição marginal Tamanho de amostra (𝑛𝐼𝐶(𝜅) )


DP N P Kappa = 0,7 Kappa = 0,6
0,337 0,333 0,33 139 170
0,50 0,26 0,24 156 194
0,50 0,30 0,20 161 203
0,55 0,30 0,15 174 221
0,60 0,21 0,19 177 221
0,60 0,30 0,10 190 242
0,80 0,15 0,05 309 388
Nota: DP = desordem de personalidade; N = neurose; P = psicose.

Os tamanhos de amostra correspondentes a kappa igual a 0,7 são inferiores aos de kappa igual a 0,6.
Em geral, quanto maior a concordância (valor de kappa), menor será o tamanho de amostra necessário
(𝑛𝐼𝐶(𝜅) ). Fixando-se um valor de kappa, a distribuição marginal aproximadamente uniforme
(proporções aproximadamente iguais) é aquela com o menor tamanho de amostra, enquanto que a
distribuição marginal mais desbalanceada (no caso a última linha da tabela) é a que exige maior
tamanho de amostra. Foram obtidos exatamente os mesmos resultados pelo software Pass®14, como
comentado na seção 11.3 do capítulo 11.
Tamanho de amostra com o enfoque de testes de hipóteses

Para testar as hipóteses 𝐻0 : 𝜅 = 𝜅0 versus 𝐻1 : 𝜅 > 𝜅0 no nível de significância 𝛼 e fixando o poder em


(1 − 𝛽) quando 𝜅 = 𝜅1 tal que 𝜅1 > 𝜅0 , segundo Dixon e Massey (1983), por procedimentos padrões
para determinação de tamanho de amostra, chega-se ao seguinte resultado:

2
𝑧1−𝛼 𝑚𝑎𝑥 𝜏(𝜅̂ |𝜅 = 𝜅0 ) + 𝑧1−𝛽 𝑚𝑎𝑥 𝜏(𝜅̂ |𝜅 = 𝜅1 )
𝑛𝑇𝐻(𝜅) =( ) (9.10)
𝜅0 − 𝜅1

A maximização, indicada por 𝑚𝑎𝑥, que aparece em (9.10), deve ser feita como demonstrado no
exemplo 9.4, além de observar a fórmula (9.7). Os termos 𝑧1−𝛼 e 𝑧1−𝛽 são, respectivamente, os
percentis de ordem (1 − 𝛼)100% e (1 − 𝛽)100% da distribuição normal padrão.

Exemplo 9.6 - Cálculo do tamanho de amostra para estudos de concordância que utilizam testes
de hipóteses para o coeficiente kappa quando a variável resposta apresenta três categorias
(adaptação de FLACK et al., 1988) ╬╬

Outra possibilidade de dimensionamento de estudos relacionados aos diagnósticos psiquiátricos


discutidos no exemplo 9.5 seria para testes de hipóteses.

A Tabela 9.6 apresenta os tamanhos de amostra, obtidos pela fórmula (9.10), correspondentes a
algumas distribuições marginais para testar as hipóteses 𝐻0 : 𝜅 = 0,40 versus 𝐻1 : 𝜅 > 0,40 no nível de
significância de 5%. O valor de kappa na hipótese alternativa é 𝜅1 = 0,60 e os cálculos foram feitos
para dois valores de poder: 80% e 90%.

Além do esperado efeito do poder no tamanho da amostra (o tamanho de amostra correspondente ao


poder de 90% é aproximadamente 1,35 vez o do poder de 80%), nota-se que os resultados dependem da
distribuição marginal. Novamente, como visto no exemplo 9.5, os extremos, o menor e o maior
tamanho de amostra acontecem quando as proporções das categorias são praticamente as mesmas e há
grande desbalanceamento para as três categorias, respectivamente. Para as distribuições marginais
semelhantes às indicadas por Cohen (1968), os tamanhos das amostras são 99 e 120 se o poder é 80% e
sobem para 133 e 161 quando o poder é 90%.
Tabela 9.6 - Tamanho de amostra, 𝑛𝑇𝐻(𝜅) , obtido pela fórmula (9.10), para testar
𝐻0 : 𝜅 = 0,40 versus 𝐻1 : 𝜅 > 0,40, (𝜅0 = 0,40 e 𝜅1 = 0,60), 𝛼 = 0,05

Distribuição marginal Tamanho de amostra (𝑛𝑇𝐻(𝜅) )

DP N P Poder = 80% Poder = 90%

0,337 0,333 0,33 79 107

0,50 0,26 0,24 93 125

0,50 0,30 0,20 99 133

0,60 0,21 0,19 106 143

0,55 0,30 0,15 109 146

0,60 0,30 0,10 120 161

0,80 0,15 0,05 184 248


Nota: DP = desordem de personalidade; N = neurose; P = psicose.

Exemplo 9.7 - Cálculo do tamanho de amostra para estudos de concordância que utilizam testes
de hipóteses para o coeficiente kappa com vários números de categorias da variável resposta ╬╬

A Tabela 9.7 contém os tamanhos de amostra obtidos pela fórmula (9.10), correspondentes a algumas
distribuições marginais, para os casos de duas, três, quatro e cinco categorias (𝑟 = 2, 3, 4, 5), para
testar as hipóteses 𝐻0 : 𝜅 = 0,40 versus 𝐻1 : 𝜅 > 0,40, sendo que o valor de kappa considerado na
alternativa foi 𝜅1 = 0,60. Foi adotado o nível de significância de 5% e os cálculos foram feitos para
dois valores de poder: 80% e 90%.

Para todos os números de categorias, as configurações da distribuição marginal foram organizadas


começando com o caso mais balanceado, isto é, com as proporções de categorias bem próximas (não
exatamente iguais, já que em geral não acontecem na prática), indo progressivamente para os casos de
desbalanceamentos, sendo que a última configuração correspondente ao maior deles. Sistematicamente,
os tamanhos de amostra são em ordem crescente. Para todas as distribuições marginais, os tamanhos de
amostra obtidos quando o poder é 90% são aproximadamente 1,35 vez maior que aqueles calculados
quando o poder é 80%.
Tabela 9.7 - Tamanhos de amostra, 𝑛𝑇𝐻(𝜅) , obtidos pela fórmula (9.10), correspondentes
a algumas distribuições marginais, segundo o número de categorias (𝑟 = 2, 3, 4, 5),
para testar 𝐻0 : 𝜅 = 0,40 versus 𝐻1 : 𝜅 > 0,40, (𝜅0 = 0,40 e 𝜅1 = 0,60), 𝛼 = 0,05

Distribuição marginal Tamanho de amostra (𝑛𝑇𝐻(𝜅) )


𝑟 C1 C2 C3 C4 C5 Poder = 80% Poder = 90%
2 0,51 0,49 - - - 119 161
2 0,60 0,40 - - - 124 167
2 0,70 0,30 - - - 141 190
2 0,80 0,20 - - - 183 248
2 0,90 0,10 - - - 321 437
3 0,337 0,333 0,33 - - 79 107
3 0,40 0,30 0,30 - - 83 112
3 0,50 0,30 0,20 - - 99 133
3 0,60 0,25 0,15 - - 113 152
3 0,70 0,20 0,10 - - 136 183
4 0,26 0,25 0,245 0,245 - 66 90
4 0,40 0,30 0,20 0,10 - 89 119
4 0,50 0,25 0,15 0,10 - 97 131
4 0,60 0,25 0,08 0,07 - 117 157
4 0,70 0,15 0,08 0,07 - 132 178
5 0,22 0,20 0,20 0,19 0,19 60 82
5 0,40 0,20 0,15 0,15 0,10 80 108
5 0,50 0,25 0,10 0,08 0,07 100 134
5 0,60 0,15 0,10 0,08 0,07 105 142
5 0,70 0,10 0,08 0,06 0,06 125 169
Nota: as categorias estão representadas por C1, C2, C3, C4 e C5.

Exemplo 9.8 - Impacto do grau de concordância no tamanho de amostra para estudos de


concordância que utilizam testes de hipóteses para o coeficiente kappa ╬╬

Neste exemplo ilustra-se o impacto do grau de concordância entre os dois avaliadores no tamanho de
amostra. Consideram-se casos de concordância fraca, moderada, boa e ótima, conforme a classificação
apresentada na seção 9.1.

A Tabela 9.8 apresenta os tamanhos de amostra obtidos pela fórmula (9.10), correspondentes a algumas
distribuições marginais no caso de três categorias (𝑟 = 3), representadas por C1, C2 e C3, para testar
as hipóteses 𝐻0 : 𝜅 = 𝑘0 versus 𝐻1 : 𝜅 > 𝑘0 , para alguns valores de 𝑘0 e de 𝜅1 , o valor de kappa na
hipótese alternativa. O nível de significância adotado foi 5% e os cálculos foram feitos para dois
valores de poder: 80% e 90%.
Tabela 9.8 - Tamanhos de amostra, 𝑛𝑇𝐻(𝜅) , obtidos pela fórmula (9.10), correspondentes
a algumas distribuições marginais, para o caso de três categorias, representadas por
C1, C2, C3, (𝑟 = 3), para testar as hipóteses 𝐻0 : 𝜅 = 𝑘0 versus 𝐻1 : 𝜅 > 𝑘0,
para alguns valores de 𝑘0 e de 𝜅1 (o valor de kappa na hipótese alternativa)

Distribuição marginal Tamanho de amostra (𝑛𝑇𝐻(𝜅) )


𝜅0 𝜅1 C1 C2 C3 Poder = 80% Poder = 90%
0,40 0,60 0,337 0,333 0,33 79 107
0,40 0,60 0,40 0,30 0,30 83 112
0,40 0,60 0,50 0,30 0,20 99 133
0,40 0,60 0,60 0,25 0,15 113 152
0,40 0,60 0,70 0,20 0,10 136 183
0,40 0,60 0,80 0,15 0,05 184 248
0,60 0,80 0,337 0,333 0,33 58 77
0,60 0,80 0,40 0,30 0,30 60 79
0,60 0,80 0,50 0,30 0,20 69 90
0,60 0,80 0,60 0,25 0,15 78 102
0,60 0,80 0,70 0,20 0,10 95 124
0,60 0,80 0,80 0,15 0,05 131 171
0,80 0,95 0,337 0,333 0,33 51 63
0,80 0,95 0,40 0,30 0,30 52 64
0,80 0,95 0,50 0,30 0,20 57 70
0,80 0,95 0,60 0,25 0,15 64 79
0,80 0,95 0,70 0,20 0,10 78 96
0,80 0,95 0,80 0,15 0,05 108 133
Nota: 𝜅 = 0,4: concordância fraca; 𝜅 = 0,6: concordância moderada; 𝜅 = 0,8: concordância boa;
𝜅 = 0,95: concordância ótima; nível de significância = 5%.

No primeiro bloco da tabela (𝑘0 = 0,40 e 𝜅1 = 0,60), a razão entre os tamanhos de amostra referentes
ao poder de 90% e 80% é de aproximadamente 1,35, enquanto que no segundo (𝑘0 = 0,60 e
𝜅1 = 0,80) e terceiro (𝑘0 = 0,80 e 𝜅1 = 0,95) blocos essa razão é da ordem de 1,31 e 1,23.

Além do esperado efeito do poder, mais notável no primeiro bloco, quanto menor o grau de
concordância, maior será o tamanho de amostra necessário para a mesma distribuição marginal.

9.2.3 Tamanho de amostra em estudos de concordância usando o coeficiente kappa ponderado

Existe uma lacuna em relação ao dimensionamento de amostras utilizando o kappa ponderado. Norman
e Streiner (2014) sugerem que, como para este caso muitas conjecturas devem ser feitas, deve-se
utilizar o seguinte critério amplamente aceito, com base em conhecimento prático: o número mínimo
de indivíduos a serem avaliados deve ser 2𝑟 2 , sendo 𝑟 o número de categorias (SOEKEN
e PRESCOTT, 1986). Por exemplo, com quatro categorias, pelo menos 2 × 42 = 32 indivíduos
devem ser avaliados.

9.3 Considerações finais

Apesar da popularidade do coeficiente kappa, há algumas restrições e controvérsias na sua utilização.


Por exemplo, o coeficiente é sensível ao número de categorias de classificação e ao sistema de peso
utilizado. Além disso, há perda de informação ao resumir a concordância em uma única medida.
Entretanto, o maior problema é que o valor de kappa tende a zero, mesmo quando há alto grau de
concordância, se a prevalência do evento pesquisado é muito baixa ou muito alta, próxima de 0 ou 1,
respectivamente. Em resumo, o valor de kappa depende fortemente da distribuição marginal e também
da prevalência da característica em estudo. O mesmo processo de diagnóstico pode produzir valores de
kappa bastante diferentes, dependendo das proporções de casos das categorias. Assim, opção mais
interessante é construir modelos para descrever a estrutura de concordância e discordância, como
discutido, por exemplo, em Silva e Pereira (1998), em vez de depender somente de um único índice.

Um pressuposto fundamental utilizado na definição de kappa e inferência estatísitca associada é que


os avaliadores agem de forma independente, suposição que não é fácil para ser completamente
satisfeita na prática.

Além do coeficiente de kappa de Cohen, definido em 1960, que foi discutido neste capítulo, há outro
conhecido como índice de Scott, introduzido em 1955. Utilizando o índice de Scott, Donner e Eliasziw
(1992) propuseram um método estatístico em que o teste de significância, poder e tamanho de amostra
foram obtidos utilizando-se um procedimento do tipo qui-quadrado para ajuste (“goodness-of-fit”).
O método baseia-se em um teste bilateral.

Há outras medidas para avaliar concordância e vários métodos para calcular o tamanho de amostra e/ou
o poder do teste estão disponíveis na literatura. O coeficiente de correlação de concordância de Lin
(CCC) mede a concordância entre novo teste/instrumento ou medida (𝑌) e o teste padrão-ouro ou
medida (𝑋). Quantifica a concordância entre essas duas medidas da mesma variável. Varia de −1 a 1,
sendo que quando é igual a 1 significa concordância perfeita. CCC nunca excede o valor absoluto de 𝜌,
o coeficiente de correlação de Pearson entre 𝑌 e 𝑋. Liao e Lewis (2000) apresentam revisão de medidas
de concordância.
Formas de calcular tamanho da amostra baseadas em CCC são apresentadas em Lin (1989, 1992, 2000)
e Lin et al. (2012). Em elegante estudo sobre métodos estatísticos para avaliar concordância,
Lin et al (2002) derivam o poder assintótico para os índices de concordância considerados, incluindo
CCC, e algumas fórmulas para o cálculo de tamanho de amostra.

Donner (1998) fornece fórmulas e tabelas para o tamanho da amostra para estudos que comparam dois
ou mais coeficientes de concordância interobservadores. São considerados os casos de variáveis
resposta contínuas ou binárias. A metodologia é ilustrada com três exemplos.

Altaye et al. (2001) desenvolvem procedimento para inferência estatística para medida de concordância
interobservador em estudos envolvendo variável resposta binária com múltiplos avaliadores.
É extensão do trabalho desenvolvido por Donner e Eliasziw (1992) para o caso de dois avaliadores.
O procedimento proposto fornece níveis de confiança de cobertura dos intervalos que estão próximos
dos níveis nominais para vasta gama de combinações de parâmetros. O processo também proporciona
uma fórmula do tamanho da amostra que pode ser usado para determinar os números de indivíduos e de
avaliadores necessários para tais estudos. Donner e Rotondi (2010) consideram a determinação da
amostra usando o coeficiente kappa com múltiplos avaliadores.

Liao (2010) propõe um método que utiliza o enfoque de intervalo de confiança para a concordância no
cálculo do tamanho da amostra na realização de um estudo de concordância. O cálculo do tamanho da
amostra é baseado em duas quantidades: a taxa de discordância e a probabilidade de tolerância, que por
sua vez podem ser usadas para quantificar um estudo de concordância. A abordagem proposta é
demonstrada por meio de um conjunto de dados reais.

Em estudos de concordância, quando há dois avaliadores e a variável resposta é binária, Nam (2002)
apresenta uma estatística eficiente a partir do teste do escore, para testar a força de concordância
utilizando o coeficiente kappa. São derivados o poder assintótico e uma fórmula do tamanho da
amostra. Avaliação do método revela que o teste do escore geralmente é conservador e mais poderoso
do que um método baseado em uma estatística do tipo qui-quadrado de ajuste (“goodness-of-fit”)
apresentado em Donner e Eliasziw (1992). Em particular, quando a pergunta da pesquisa é posta em
determinada direção (hipóteses unilaterais), o teste do escore é substancialmente mais poderoso e a
redução no tamanho da amostra é apreciável.

Em estudos para comparar a concordância entre dois ou mais métodos de avaliação, Lin et al. (2003)
fazem a adaptação do método de estimação de equações generalizadas (GEE) para modelar estatísticas
envolvendo kappa, de forma a estimar os tamanhos de amostra exigidos em estudos de concordância.
Os autores calculam o poder baseado no teste de Wald para a igualdade de duas estatísticas kappa na
situação em que há dependência. O método proposto é útil para estudos de concordância com dois
avaliadores e dois instrumentos e é facilmente estendida para os casos de vários avaliadores e múltiplos
instrumentos. São apresentados os cálculos de poder para quando a classificação é binária em diversos
cenários. Dois estudos biomédicos são apresentados para ilustrar a metodologia.

9.4 Recursos computacionais para os cálculos do tamanho da amostra


e/ou do poder

A maioria das fórmulas fechadas de tamanho de amostra do capítulo foi programada em planilhas
Excel® e elas se encontram disponíveis para os leitores (ver informações na apresentação do livro;
os exemplos com fórmulas programadas estão sinalizados por ╬╬).

Alternativamente, alguns cálculos de tamanho de amostra e/ou do poder do teste discutidos ou


relacionados ao assunto do capítulo podem ser obtidos pelos seguintes softwares/programas citados no
capítulo 11: Pass®, nQuery Advisor® e o pacote kappaSize do software livre R.
10.1 Introdução

Neste capítulo são apresentados alguns tópicos sobre cálculo de tamanho de amostra ou do poder em
situações mais específicas, tais como: métodos não paramétricos, modelos lineares generalizados,
dados grupados e longitudinais, além de poder exato. O capítulo finaliza com breves comentários e
referências sobre estudos sequenciais, delineamentos adaptativos e metanálise.

Diferentemente dos capítulos anteriores, não são fornecidos detalhes de implementações de todos os
métodos citados. O enfoque do capítulo é mais informativo, com indicação das referências
bibliográficas mais importantes para cada seção.

10.2 Métodos não paramétricos

Métodos não paramétricos são frequentemente usados quando não se tem a informação sobre a
distribuição da variável analisada. Testes não paramétricos são construídos tipicamente usando-se os
postos das observações. O posto (rank) de uma observação é o seu número de ordem após a ordenação
de todas as observações. Quando há empates, toma-se como posto de cada observação a média dos
postos que seriam atribuídos às observações, caso os empates não existissem. Por exemplo, se as
observações são {1; 1; 2; 4; 4; 7}, os postos correspondentes são {1,5; 1,5; 3; 4,5; 4,5; 6}.
A explicação dos valores é como se segue: 1,5 (média de 1 e 2, a primeira e segunda posições);
3 (a observação 2 ocupa a terceira posição); 4,5 (média de 4 e 5, a quarta e quinta posições);
6 (a observação 7 ocupa a sexta posição).
Para variáveis contínuas, os testes não paramétricos são em geral desenvolvidos para comparar as
medianas de grupos em situações em que a distribuição da variável de interesse não é conhecida ou tem
comportamento não normal (não gaussiana). De forma geral, a metodologia de testes não paramétricos
não é específica de determinada distribuição e por essa razão é às vezes chamada de método de
distribuição livre. Existem distribuições específicas exatas desenvolvidas para cada tipo de situação,
mas também há aproximações (em geral utilizando a distribuição normal) quando as amostras
são suficientemente grandes. Detalhes podem ser obtidos, por exemplo, em Conover (1999),
Lehamann (2006) e Sprent e Smeeton (2007).

Os testes não paramétricos são boas opções para situações em que ocorrem violações dos pressupostos
básicos necessários para a aplicação de um teste paramétrico, por exemplo, para testar a diferença de
dois grupos quando a distribuição subjacente é assimétrica ou os dados foram coletados em uma escala
ordinal. Também é útil no caso de amostras pequenas, já que propriedades de testes paramétricos
podem não ser válidas.

Embora os cálculos envolvidos em um teste não paramétrico não necessitem de suposição alguma
sobre a distribuição da variável, para o cálculo do tamanho da amostra de um estudo que deverá ser
analisado por meio de um teste não paramétrico, algum tipo de suposição da distribuição (em geral uma
aproximação da distribuição da estatística do teste) deve ser utilizado.

O termo eficiência assintótica relativa (𝐸𝐴𝑅) é usado para comparar testes não paramétricos com os
correspondentes testes paramétricos em termos do poder, sendo que os cálculos são feitos assumindo-
se que as suposições dos testes paramétricos são válidas. Define-se 𝐸𝐴𝑅 = 100 𝑙𝑖𝑚𝑛→∞ (𝑛𝑃 /𝑛𝑁𝑃 ),
sendo 𝑛𝑃 e 𝑛𝑁𝑃 os tamanhos de amostra dos testes paramétricos (𝑃) e não paramétricos (𝑁𝑃), ambos
usando, naturalmente, a mesma hipótese nula, adotando o mesmo nível de significância e fixando o
mesmo poder. Em geral, o poder de métodos não paramétricos é inferior ao dos correspondentes
métodos paramétricos.

Dependendo da natureza da distribuição, os testes não paramétricos podem exigir mais ou menos
indivíduos. Um princípio ou critério amplamente aceito, com base no conhecimento prático, é que para
calcular o tamanho da amostra para o caso de testes não paramétricos devem-se adicionar 15% em
relação à correspondente solução do teste paramétrico.

Noether (1987) apresenta o método para determinar o tamanho de amostra requerido em alguns testes
não paramétricos comuns, tal que o poder do teste é de pelo menos (1 − 𝛽), sendo 𝛽 a probabilidade
de cometer o erro do tipo II.

De Martini e Telesca (1999) discutem métodos para calcular tamanho de amostra para os testes
clássicos de rank no caso de uma e duas amostras. Além da proposta de várias aproximações
assintóticas para o cálculo do poder, utilizam também o método bootstrap, cujas soluções estão
implementadas em um programa para computador.

Testes não paramétricos incluem o teste de Wilcoxon para o caso de uma amostra, o teste de Mann-
Whitney, também chamado de Mann-Whitney-Wilcoxon ou simplesmente teste de postos de
Wilcoxon, que é usado para a comparação de medianas de dois grupos independentes. Podem ser
citados também o teste de Wilcoxon, usado para comparar dois tratamentos quando os dados são
obtidos por meio do esquema de pareamento, o teste de Kruskal-Wallis para amostras independentes e
o teste de Friedman para três ou mais grupos quando há emparelhamento.

A seguir são apresentadas fórmulas de cálculo de tamanho de amostra para algumas situações.
Outras fórmulas e referências nesse contexto podem ser encontradas, por exemplo, no capítulo 10
de Ryan (2013).

10.2.1 Tamanho de amostra para testes não paramétricos no caso de uma amostra

Nesta seção discute-se o problema de dimensionamento de amostra para três testes: a) teste de
Wilcoxon para uma amostra; b) teste de Wilcoxon para dados pareados, que ao tirar as diferenças dos
pares funciona como se fosse para uma amostra; c) teste do sinal. As referências básicas para a seção
são Noether (1987) e o capítulo 10 de Ryan (2013).

Seja (𝑋1 , ⋯ , 𝑋𝑛 ) uma amostra aleatória de uma população cuja mediana é 𝜂. O objetivo é testar se a
mediana é igual a determinado valor (𝜂 = 𝜂0 ) e, sem perda de generalidade, pode ser assumido que
𝜂0 = 0, como em Noether (1987).

Teste de Wilcoxon para uma amostra

O teste de Wilcoxon para uma amostra, em inglês Wilcoxon signed rank test, é usado para testar se a
mediana de uma distribuição simétrica é igual a um valor específico. Note-se que se a distribuição for a
normal, a mediana coincide com a média. A estatística do teste de Wilcoxon para testar a hipótese de
que uma distribuição simétrica está centrada em torno do zero é 𝑊 = ∑ 𝑝𝑜𝑠𝑡𝑜𝑠|𝑋|, sendo que a soma
estende-se para todas as observações positivas da variável estudada 𝑋. De forma equivalente,
a estatística pode ser escrita como 𝑊 = #[𝑐𝑎𝑠𝑜𝑠 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠 𝑑𝑒 (𝑋𝑖 + 𝑋𝑗 )], 1 ≤ 𝑖 ≤ 𝑗 ≤ 𝑛, sendo 𝑛 o
tamanho de amostra e # indica o número de casos. Noether (1987) apresenta detalhes até chegar à
seguinte fórmula de cálculo do tamanho de amostra para testar hipóteses unilaterais:

2
(𝑧1−𝛼 +𝑧1−𝛽 )
𝑛𝑊1 = (10.1)
3(𝑝′ − 0,5)2

Em (10.1), 𝛼 e (1 − 𝛽) são, respectivamente, o nível de significância e o poder do teste, 𝑧1−𝛼 e 𝑧1−𝛽


são os percentis de ordem (1 − 𝛼)100% e (1 − 𝛽)100% da distribuição normal padrão, 𝑝′ =
𝑃𝑟(𝑋(1) + 𝑋(2) > 𝑥̃), sendo que 𝑋(1) e 𝑋(2) denotam duas observações independentes e 𝑥̃ é a mediana.
(𝑋(1) +𝑋(2) )−𝜇(𝑋(1) +𝑋(2) )
O cálculo de 𝑝′ é feito da forma usual: 𝑝′ = 𝑃𝑟(𝑋(1) + 𝑋(2) > 𝑥̃) = 𝑃𝑟 ( >
𝜎(𝑋(1) +𝑋(2) )

𝑥̃−𝜇(𝑋(1) +𝑋(2) ) 𝑥̃−𝜇(𝑋(1) +𝑋(2) ) 𝑥̃−𝜇(𝑋(1) +𝑋(2) )


) = 𝑃𝑟 (𝑍 > ) = 1 − Φ( ), sendo Φ a função acumulada da
𝜎(𝑋(1) +𝑋(2) ) 𝜎(𝑋(1) +𝑋(2) ) 𝜎(𝑋(1) +𝑋(2) )

normal padrão. O uso dos percentis da distribuição normal padrão indica que a aproximação foi feita
supondo-se que o tamanho de amostra é suficientemente grande, ou seja, resultados assintóticos foram
usados para obter a fórmula. Não é bem conhecido quão bem a fórmula (10.1) funciona para amostras
pequenas. Para hipóteses bilaterais, basta trocar 𝑧1−𝛼 por 𝑧1−𝛼/2 na fórmula (10.1).

A eficiência assintótica relativa (𝐸𝐴𝑅) para o teste de Wilcoxon para uma amostra em relação ao
correspondente teste paramétrico 𝑍, supondo-se variância conhecida, é (3/𝜋)100% = 95,5%.
Comparando-se o teste de Wilcoxon com o teste 𝑡 para uma amostra, segundo Conover (1980) e
Lehmann (2006), o limite inferior da 𝐸𝐴𝑅 é 0,864. Assim, de forma conservadora, o tamanho de
amostra obtido para o teste 𝑡 deve ser multiplicado por (1/0,864) = 1,1574.

Para o cálculo da probabilidade 𝑝′ que aparece no denominador de (10.1), é necessário conhecer a


distribuição e fica fácil quando é, por exemplo, a normal. Entretanto, neste caso, seria mais
recomendado utilizar os métodos de dimensionamento específicos para essa distribuição.
Naturalmente, o verdadeiro valor dos testes não paramétricos surge quando realmente a variável
estudada não segue a distribuição normal, mas, por outro lado, deve-se fazer um balanço, já que nesse
caso o método não paramétrico é inferior em termos de poder.
Exemplo 10.1 - Tamanho de amostra para o teste de Wilcoxon no caso de uma amostra ╬╬

Em processo ao longo do tempo, há registro de 100 sucessos e certas melhorias foram feitas tal que se
espera ter boa chance de pelo menos um ganho, ou seja, 101 sucessos. Considerando população infinita
(pressuposto aplicável do ponto de vista prático, já que no contexto de dados de processo a população,
em geral, é bastante grande), é razoável supor que a variável 𝑋 que caracteriza o processo possa ser
analisada pela distribuição normal. Após o aprimoramento do processo, supõe-se que a média suba
para 101 e que o desvio-padrão seja igual a 3. Nesse caso, para duas observações independentes,
𝑋(1) e 𝑋(2) , a média de 𝑋(1) + 𝑋(2) é 101 + 101 = 202 e o desvio-padrão √32 + 32 = √18. Portanto,
𝑋(1) +𝑋(2) −202
𝑍= ~ 𝑁(0,1).
√18

Para avaliar o efetivo aprimoramento do determinado processo, o problema pode ser formalizado da
seguinte forma: testar as hipóteses 𝐻0 : 𝜇 = 100 versus 𝐻1 : 𝜇 > 100, sendo 𝜇 a média da variável
analisada. O nível de significância e o poder serão fixados em 5% e 80%, respectivamente. Sob 𝐻0 ,
a mediana de 𝑋(1) + 𝑋(2) é 𝑥̃ = 200 e para os cálculos de 𝑝′ , considera-se 𝜇 = 101 sob 𝐻1 .

Para o planejamento do estudo, deve-se calcular o tamanho de amostra para testar as hipóteses
especificadas, supondo-se que os dados serão analisados pelo teste de Wilcoxon. Inicialmente, calcula-
se a probabilidade que aparece no denominador da fórmula (10.1): 𝑝′ = 𝑃𝑟(𝑋(1) + 𝑋(2) > 𝑥̃) =

𝑃𝑟(𝑋(1) + 𝑋(2) > 200) = 𝑃𝑟(𝑍 > (200 − 202)/√18) = 𝑃𝑟(𝑍 > −0,47) = 0,681324.

Aplicando a fórmula (10.1), o tamanho da amostra usando o teste de Wilcoxon (𝑛𝑊1 ) é de 63


(os cálculos estão demonstrados no Quadro 10.1). O resultado obtido será comparado com o do teste
paramétrico correspondente.

Usando a fórmula (2.2) para o teste de uma média no caso em que a variância (𝜎 2 ) é conhecida (ver
seção 2.2.2 do capítulo 2), o tamanho da amostra obtido é 56 (ver Quadro 10.1). Usando o software
Pass®14, que faz um ajuste seguindo a recomendação de Al-Sunduqchi (1990), o tamanho da amostra
sobe para 59. A eficiência dos testes paramétricos em relação ao não paramétrico é (56/63)100% =
88,9% para o primeiro cálculo, enquanto que para o resultado do Pass®14 é (59/63)100% =
93,7%, próximo do valor esperado de (3/𝜋)100% = 95,5%, a eficiência do teste Z supondo
variância conhecida.

Se o poder for trocado para 90% ou 99% e mantendo-se as demais informações, o tamanho da amostra
do teste de Wilcoxon (𝑛𝑊1 ) sobe para 87 e 160, respectivamente.

Quadro 10.1 - Cálculos do tamanho da amostra para testes


não paramétrico e paramétrico no caso de uma amostra

Teste Fórmula Cálculos

2
(𝑧1−𝛼 +𝑧1−𝛽 ) (1,64 + 0,84)2
Wilcoxon (10.1) 𝑛𝑊1 = = = 62,36
3(𝑝′ − 0,5)2 3(0,681324 − 0,5)2
≅ 63

2
(𝑧1−𝛼 +𝑧1−𝛽 ) (1,64 + 0,84)2
Paramétrico (2.2) 𝑛= = = 55,35 ≅ 56
[(𝜇 − 𝜇0 )/𝜎]2 [(101 − 100)/3]2

Nota: nível de significância: 5%; poder: 80%.

Teste de Wilcoxon para dados pareados

O teste 𝑡 para amostras pareadas consiste em trabalhar com a diferença das medidas dentro de cada par.
Assim, no caso de amostras pareadas, testar a diferença das médias dos dois grupos é equivalente a
testar a média das diferenças, ou seja, o caso de uma única amostra. Fazendo analogia com o teste
paramétrico, o teste não paramétrico de Wilcoxon para uma amostra pode ser aplicado para dados
pareados. Com as devidas adaptações, a fórmula (10.1) pode ser utilizada.

No caso de correlação entre as diferenças, Rosner et al. (2003, 2006) propuseram modificações para o
teste de Wilcoxon para comparações pareadas quando os dados apresentam estrutura de
conglomerados. Rosner e Glynn (2011) sugerem métodos de determinação do tamanho da amostra
como extensão dos métodos de teste de Wilcoxon apresentados em Rosner e Glynn (2009).

Teste do sinal

Para testar 𝐻0 : 𝜇 = 𝜇0 versus 𝐻1 : 𝜇 > 𝜇0 quando a distribuição da variável de interesse 𝑋 é normal


𝜇 −𝜇
(com parâmetros 𝜇 e 𝜎), pela função de poder do teste chega-se à equação 𝑧1−𝛼 + 𝜎/0 = −𝑧1−β ,
√𝑛
𝜇0 −𝜇
que pode ser reescrita como = 𝑧1−𝛼 + z1−β . Isolando 𝑛, obtém-se a expressão para o
𝜎/√𝑛

tamanho da amostra.
Para o teste do sinal, supõem-se dois resultados possíveis, denominados positivo (+)e negativo (−),
e sem ocorrência de empate. Seja 𝑆 o número de observações positivas. Pelas propriedades da
distribuição binomial, a média e a variância de 𝑆 são dadas por 𝜇(𝑆) = 𝑛𝑝 e 𝜎 2 (𝑆) = 𝑛𝑝(1 − 𝑝),
com 𝑝 = 𝑃𝑟(𝑋 > 0). Sob 𝐻0 , 𝑝 = 1/2, significando que o número esperado de observações positivas
e negativas é igual, 𝜇0 (𝑆) = 𝑛/2 e 𝜎02 (𝑆) = 𝑛/4.

2
𝜇(𝑆) − 𝜇0 (𝑆) 2 𝑛𝑝 − 𝑛/2)
Seja 𝑄(𝑆) = ( ) = ( ) = 4𝑛(𝑝 − 1/2)2 . Supondo-se que, pelo menos
𝜎0 (𝑆) √𝑛/4

aproximadamente, √𝑄(𝑆) siga a distribuição normal, com raciocínio análogo ao exposto


2
anteriormente, deve-se fazer 𝑄(𝑆) = (𝑧1−𝛼 +𝑧1−𝛽 ) . Resolvendo para 𝑛, chega-se a que o tamanho de
amostra para utilizar o teste do sinal no caso de hipóteses unilaterais é:

2
(𝑧1−𝛼 +𝑧1−𝛽 )
𝑛+−,𝑇𝐻1 = (10.2)
4(𝑝 − 0,5)2

Em (10.2), 𝑝 é a probabilidade de uma observação exceder a mediana hipotetizada, dada a verdadeira


mediana. A questão que aparece na prática é qual valor de 𝑝 deve ser considerado na alternativa.
Pode ser baseado em informações dadas por pesquisadores ou as estimativas de 𝑝 podem obtidas a
partir de estudos-piloto ou mesmo de outros estudos publicados. Comentários adicionais podem ser
encontrados em Noether (1987). A fórmula (10.2) é para hipóteses unilaterais, mas facilmente pode ser
adaptada para as bilaterais, bastando trocar 𝑧1−𝛼 por 𝑧1−𝛼/2 . Novamente, supõe-se que a estatística que
gerou a fórmula tem aproximadamente distribuição normal padrão.

Exemplo 10.2 - Dimensionamento para o teste do sinal ╬╬

Considere-se uma distribuição normal com média e desvio-padrão iguais a um (𝜇 = 1; 𝜎 = 1).


Se supostamente a mediana sob 𝐻0 for igual a zero, a probabilidade de uma observação exceder a
𝑋−1
mediana hipotetizada, dada a verdadeira mediana, é 𝑝 = 𝑃𝑟(𝑋 > 0|𝜇 = 1; 𝜎 = 1) = 𝑃𝑟 ( >
1
0−1
) = 𝑃𝑟(𝑍 > −1) = 0,8413. Fixando o nível de significância em 5% e o poder em 80%, ao
1

aplicar a fórmula (10.2) para hipótese unilateral, foram obtidos os seguintes resultados:
2
(𝑧1−𝛼 +𝑧1−𝛽 ) (1,64+0,84)2
𝑛+−,𝑇𝐻1 = = 4(0,8413−0,5)2 = 13,20. Aumentando o poder para 95% e 99%, 𝑛+− = 18,37 e
4(𝑝−0,5)2

𝑛+− = 33,84, respectivamente. Para os três valores de poder (80%, 95% e 99%), os tamanhos de
amostra devem ser arredondados, respectivamente, para 14, 19 e 34. Para testar hipótese bilateral, com
2
(𝑧1−𝛼/2 +𝑧1−𝛽 ) (1,96+0,84)2
poder igual a 80%, 𝑛+−,𝑇𝐻2 = = 4(0,8413−0,5)2 = 16,83 (arredondado para 17). E quando
4(𝑝−0,5)2

o poder sobe para 95% e 99%, os valores de 𝑛+− são 23 e 40, respectivamente.

10.2.2 Tamanho de amostra para o teste de Wilcoxon para duas amostras (teste Wilcoxon-Mann-
Whitney ou teste de Mann-Whitney)

O teste de Wilcoxon para duas amostras independentes, mais comumente conhecido como teste
Wilcoxon-Mann-Whitney (WMW), que também é conhecido simplesmente como teste de Mann-
Whitney, é usado para testar se correspondentes populações apresentam as mesmas distribuições,
quando não é razoável supor a distribuição normal.

Existem várias versões para o dimensionamento da amostra para o teste WMW. Uma delas foi
introduzida na seção 6.4 do capítulo 6, em que foi discutido o método apresentado em Raharhja et al.
(2009) para determinação de amostra para dados com ordenação. No artigo de Raharhja et al. (2009),
destaca-se o trabalho de Zhao et al. (2008), no qual são estudados os métodos de cálculo de tamanho de
amostra para o teste não paramétrico de WMW. Na seção 6.4 são estabelecidas comparações entre o
método não paramétrico de Mann-Whitney e o método de Whitehead (1993).

10.2.3 Tamanho de amostra para o teste de Kruskal-Wallis (comparação de mais de dois grupos)

Análise de variância é o conjunto de técnicas estatísticas apropriadas para a comparação de vários


grupos (por exemplo, tratamentos), tendo como variável resposta uma variável quantitativa (𝑌).
A média é tipicamente a medida usada para caracterizar o grupo, especialmente se 𝑌 segue a
distribuição normal.

Como mencionado na seção 2.5, a técnica estatística padrão é conhecida por ANOVA, abreviatura que
vem do inglês ANalysis Of VAriance. Naquela seção foi considerado o dimensionamento de forma
paramétrica para o delineamento com um fator (em inglês one-way), especificamente quando a análise
é feita por comparações pareadas ou simultâneas.

Nesta seção também é tratado apenas do caso de análise de variância com um fator na versão não
paramétrica, cujo teste comumente aplicado é o Kruskal-Wallis. É baseado em postos e consiste na
seguinte sequência de procedimentos: a) ordenar o total das 𝑛 = ∑𝑘𝑖=1 𝑛𝑖 observações e atribuir postos
da forma usual, lembrando que, quando houver empates, deve-se adotar a média dos postos; b) calcular
a soma dos postos (𝑅𝑖 ) e a média dos postos (𝑅̅𝑖 ) de cada grupo, além da média geral de todos os postos
12 2
𝑛+1
(𝑅̅ = (𝑛 + 2)/2). A estatística do teste é dada por: 𝐾𝑊 = 𝑛(𝑛+1) ∑𝑘𝑖=1 𝑛𝑖 (𝑅̅𝑖 − 2 ) =

12 𝑅𝑖 2
∑𝑘𝑖=1 − 3(𝑛 + 1). A regra de decisão do teste consiste em rejeitar a hipótese nula de que
𝑛(𝑛+1) 𝑛𝑖

todos os tratamentos são equivalentes se 𝐾𝑊 > 𝑐. Nesse caso, 𝑐 é o percentil de uma distribuição
especial que para tamanhos de amostra não muito grandes encontra-se disponível em livros de
estatística não paramétrica e também pode ser obtido em alguns programas de computador.
Alternativamente, de forma aproximada, o percentil a ser usado na regra de decisão é o da distribuição
qui-quadrado com 𝑘 − 1 graus de liberdade.

Existem alguns métodos e implementações para o cálculo de tamanho de amostra utilizando o teste de
Kruskal-Wallis. Por exemplo, o método bootstrap é utilizado por Fan et al. (2011). Trata-se de
adaptação de uma técnica particular de bootstrap para cálculo do poder, uma extensão do trabalho de
Mahoney e Magel (1996) seguida de generalização do método de cálculo do tamanho de amostra para
o teste de Wilcoxon dado por Hamilton e Colling (1991) para o teste de Kruskal-Wallis.

A determinação do tamanho da amostra para o teste de Kruskal-Wallis também foi objeto do trabalho
de Rasch e Šimečková (2007), cujo pôster apresentado no evento Moda, ocorrido no período de 4-8 de
junho de 2007, está disponível na Internet. Os textos completos estão organizados em Moda 8 –
Advances in Model-Oriented Design and Analysis e os editores são Jesús Lópes-Fidalgo, Juan Manuel
Rodríguez-Días e Bem Torsney.

10.3 Modelos lineares generalizados

Modelos lineares generalizados (MLG), em inglês genereralized linear models (GLM), constituem
uma classe de modelos muito utilizados em pesquisas da área da saúde, incluindo vários modelos de
regressão (por exemplo, regressão logística binária e regressão de Poisson), análise de variância e
covariância, tabelas de contingência, modelos lineares, curvas de crescimentos, modelos de dados de
sobrevivência e dados espaciais. A implementação computacional desse tipo de modelo encontra-se
feita em vários programas/softwares, incluindo o software livre R (função glm). Boas referências sobre
o assunto são: McCullagh e Nelder (1989), Lindsey (1997a), Aitkin et al. (2005), Dobson e Barnett
(2008) e Hardin e Hilbe (2012).
10.3.1 Tamanho de amostra para modelos lineares generalizados

Quando não há forma de calcular o tamanho de amostra para algum tipo de dado ou modelo a ser
ajustado que pertença à classe de MLG, um procedimento de determinar o tamanho da amostra ou para
calcular o poder do teste pode ser obtido dentro da estrutura de modelos lineares generalizados.
Outros argumentos para a utilização de MLG no cálculo de tamanho de amostra são: em muitos
métodos desenvolvidos para lidar com determinado tipo de variável, os resultados são conceitualmente
complexos e/ou computacionalmente intensivos; limitação em termos de acomodar covariáveis;
métodos não foram extensivamente avaliados quanto à precisão, assumindo tamanhos de
amostra moderados.

Utilizando a estrutura de MLG, Self e Mauritsen (1988) obtêm aproximação assintótica para o poder
baseado no teste do escore e fazem implementação do caso especial de regressão logística. Os estudos
de simulação apresentados indicam que aproximações assintóticas funcionam satisfatoriamente para
amostras finitas para uma gama de configuração de parâmetros.

Self et al. (1992) apresentam desenvolvimento semelhante ao de Self e Mauritsen (1988),


mas utilizando o teste das razões de verossimilhança. Segundo os autores, o método é mais fácil de
implementar que o de Self e Mauritsen (1988) e estudos de simulação indicam que é acurado para uma
faixa mais ampla de valores de parâmetros e configuração de dados que o método citado.

Lindsey (1997b) fornece uma fórmula simples para cálculos exatos do tamanho de amostra para
qualquer membro de uma família exponencial linear, que inclui modelos lineares generalizados com
parâmetro de dispersão conhecido ou fixo.

Extensão do trabalho de Self et al. (1992) é feita por Shieh (2000), sendo que a principal característica
da abordagem proposta é que a modificação acomoda tanto um número finito como infinito de
configurações das covariáveis, isto é, classificadas como variáveis contínuas.

A metodologia de trabalhos anteriores para o cálculo do tamanho da amostra e poder é estendida por
Shieh (2005), usando a estatística de Wald em modelos lineares generalizados para o caso de testes de
hipótese com qualquer número de parâmetros. Diferentemente de outras abordagens, o método
proposto é aplicável em condições gerais, sem limitações em relação à taxa global da resposta e à
característica das covariáveis, cujos efeitos podem ser fixos ou aleatórios. Estudos de simulação de
Monte Carlo foram realizados para avaliar e comparar a precisão do método proposto com abordagens
existentes sob várias especificações de modelos e para diversas distribuições de covariáveis.
Usando argumentos heurísticos e os resultados das simulações, o autor argumenta que o método
proposto apresenta bom desempenho para uma gama considerável de condições, mas reconhece
algumas exceções. Detalhes, incluindo as fórmulas do método proposto e de outros comparados,
podem ser acompanhados no artigo.

Lyles et al. (2007) apresentam um enfoque prático para o cálculo do poder para modelos lineares
generalizados com resposta nominal, ordinal e de contagem. O método é ilustrado para uma variedade
de tipos de desfechos e padrões de covariáveis, por meio de simulações para demonstrar sua precisão
para tamanhos de amostras realistas, isto é, utilizados na prática.

10.4 Dados grupados e longitudinais

Existem inúmeras situações em que os dados são correlacionados. Basicamente podem ser
categorizados em dois grupos: a) dados grupados (em inglês, clustered data), quando estão dispostos
em conglomerados; b) dados longitudinais. No primeiro tipo, como o nome indica, a partir de uma
estrutura com alguma agregação (por exemplo, clínica, escola), os dados referentes aos elementos da
pesquisa (por exemplo, pacientes, alunos) são coletados. Já os dados longitudinais, às vezes também
chamados de medidas repetidas, referem-se àqueles coletados para cada indivíduo ao longo do tempo.
A diferença básica entre os dois tipos de dados é que dados do mesmo conglomerado podem ser
considerados permutáveis, enquanto que para dados longitudinais, isso não é razoável, não fazendo
sentido, em geral, trocar a observação do tempo 𝑡1 com a do tempo 𝑡2 > 𝑡1 . Esses tipos de dados
aparecem com frequência em estudos da área médica, epidemiológica e do comportamento,
entre tantas outras.

O planejamento de estudos com dados correlacionados impõe desafios para os pesquisadores, já que se
deve levar em conta a potencial estrutura de correlação dos dados, o que requer metodologia mais
sofisticada tanto para análise quanto para o cálculo do tamanho de amostra. Na prática, é provável
encontrar desfechos correlacionados com estrutura hierárquica. Por exemplo, múltiplos níveis
encaixados, como acontece quando se consideram pacientes “encaixados” em clínicas, que por sua vez
estão “encaixados” em sistemas de hospitais, podendo mais complicações aparecer se os dados
coletados forem longitudinais. Breve revisão sobre o assunto encontra-se em Cook e DeMets (2008).
10.4.1 Tamanho de amostra para dados grupados e longitudinais

Estudos longitudinais tendem a ter pequenos grupos, já que em geral serão seguidos por longo tempo,
muitos anos e até décadas. De qualquer forma, é importante determinar o tamanho de amostra
adequado para que os objetivos do estudo sejam atingidos e também levar em conta o fato de que nesse
tipo de estudo pode haver desistências e perdas de participantes durante o estudo.

Ahn et al. (2011) estendem as fórmulas de Noether (1987) para o caso de uma amostra com
observações binárias com dependência dentro dos conglomerados usando o teste do sinal com
ponderação com três diferentes esquemas de pesos. As fórmulas de tamanho da amostra, que no artigo
refere-se ao número de conglomerados, são derivadas incorporando-se a correlação intraclasse e a
variabilidade devido aos tamanhos dos conglomerados. Estudos de simulação foram realizados para
avaliar o desempenho da proposta das fórmulas para o tamanho de amostra. Constatou-se que os
valores dos poderes empíricos são geralmente próximos dos níveis nominais. O número de
conglomerados necessários aumenta à medida que o desbalanceamento no tamanho do conglomerado e
a correlação intraclasse aumentam. Também fazem as comparações dos três diferentes esquemas.
A metodologia é ilustrada no planejamento de um estudo em Odontologia.

O livro de Ahn et al. (2015) é excelente referência para o cálculo do tamanho de amostra para dados
grupados ou longitudinais. Para diferentes tipos de variável resposta, cobre desde casos mais simples
(com apenas uma amostra) até modelos e métodos mais complexos (por exemplo, GEE).

A seguir são citadas referências adicionais sobre tamanho de amostra para estudos longitudinais.
São de destaque as publicações de Basagaña e Spiegelman (2010) e Basagaña et al. (2011), disponíveis
em http://www.hsph.harvard.edu/donna-spiegelman/software/optitxs/, que incluem um manual com
programa em R.

A determinação do tamanho de amostra para estudos longitudinais também foi considerada nas
seguintes publicações: Hedeker et al. (1999), Tu et al. (2004), Roy et al. (2007), Lu et al. (2009),
Barrera-Gómes et al. (2013) e Donohue et al. (2016).

10.5 Poder exato

Na inferência estatística mais tradicional utilizam-se resultados da teoria de grandes amostras.


Métodos baseados na teoria assintótica geralmente requerem amostras muito grandes, o que nem
sempre ocorre na prática. Em muitas situações, a amostra é pequena, por exemplo, por causa de
restrições dos critérios de seleção da amostra, quando os eventos de interesse são raros ou se o custo é
alto e/ou há dificuldade operacional.

Nas situações em que a amostra é pequena e/ou os dados são esparsos, os resultados da teoria
assintótica podem não ser adequados. Além disso, a solução do método utilizado pode não existir,
ou seja, pode não haver convergência. De fato, Albert e Anderson (1984) apresentam condições para a
existência dos estimadores de máxima verossimilhança para modelos de regressão logística.
Nestes casos, é recomendado o uso de métodos exatos, descritos em Souza (2000), Komatsuzaki
(2001), Hirji (2006), entre tantos outros.

Em geral, o cálculo do tamanho de amostra e do poder baseia-se na teoria assintótica. Entretanto,


muitas situações, como estudo de acurácia para avaliação de testes diagnósticos, frequentemente
envolvem tamanhos de amostra moderados ou mesmo pequenos (em geral, menos de 50 pacientes ou
até bem menos). Portanto, não é claro se nesses casos os procedimentos para o cálculo do tamanho de
amostra ou do poder são confiáveis. Daí a necessidade de se obter cálculos exatos e não aproximados,
o que é possível em algumas situações.

Hilton e Mehta (1993) desenvolvem um algoritmo para testes exatos condicionais que possibilita o
cálculo do poder e do tamanho de amostra para dados categóricos com ordenação. O contexto é de duas
amostras, usando-se a estatística da soma de postos de Wilcoxon, mas afirmam que o algoritmo
apresentado pode acomodar a inteira classe linear de estatísticas de postos e pode ser estendida também
a postos não lineares. O tamanho da amostra pode ser obtido a partir do poder calculado de forma exata
ou de forma bastante precisa pelo método de Monte Carlo. Ilustram o método com o modelo
de chances proporcionais. O algoritmo, que se encontra implementado no software StatXact®,
é computacionalmente intensivo. Os interessados podem pesquisar detalhes técnicos do método
no artigo citado.

Como discutido no capítulo 6, o modelo logístico é frequentemente utilizado para dados de resposta
binária e em particular para estudos do tipo dose-resposta. Uma questão relevante refere-se à
determinação do tamanho de amostra, assunto tratado no capítulo 6 usando-se a teoria assintótica.

Tang et al. (1995) apresentam um método para calcular o poder exato para situações em que o modelo
logístico com apenas uma covariável (dose) é usado para descrever a relação dose-resposta e
disponibilizam um programa escrito em Fortran. Além da aplicação tradicional em experimentação,
essa formulação também inclui ensaios clínicos e investigações epidemiológicas para a comparação de
grupos independentes, correspondendo a diferentes valores de uma covariável (𝑥).

A dissertação de mestrado de Souza (2000) sobre regressão logística exata para dados binários tem,
além da revisão da teoria sobre o assunto e inúmeras exemplificações, extenso capítulo dedicado ao
estudo do poder exato em estudos de dose-resposta por meio de simulações de Monte Carlo. Uma das
conclusões é que o poder exato correspondente às amostras balanceadas é em geral superior ao de
amostras não balanceadas.

Ainda sobre o estudo do poder exato utilizando modelos de regressão logística, Souza e Siqueira
(2000) avaliam o efeito do tamanho de amostra e dos níveis das doses estabelecidas no planejamento.
Comparam seis testes (exatos e assintóticos) considerando experimentos balanceados e não
balanceados e três planejamentos, isto é, aplicações de diferentes doses. Os resultados das simulações
revelam a importância de verificar que um particular delineamento é adequado para atingir poder
aceitável em determinado estudo de dose-resposta. Além disso, concluem que o chamado teste mid-p
mostrou ser boa opção, já que na maioria dos casos o poder do teste é alto e o nível de significância
real é mais próximo do nível nominal.

Existem também desenvolvimentos de cálculo de poder exato no contexto de tabelas de contingência


para várias comparações, tais como: diferenças de duas binomiais, equivalência de duas binomiais,
mais de duas binomiais ordenadas e duas multinomiais ordenadas.

O tema do estudo de Komatsuzaki (2001) é sobre métodos exatos e tabelas de contingência como
alternativa para os tradicionais métodos assintóticos. Também considera a inferência exata baseada nos
métodos de Monte Carlo, alternativa de análise útil quando o método assintótico não é apropriado e o
método exato tradicional não é computacionalmente viável. Dois capítulos de Komatsuzaki (2001) são
sobre o poder exato e o cálculo do tamanho de amostras para algumas situações, como a comparação
de duas populações binomiais ou multinomiais, considerando-se diferentes testes. Para os cálculos,
foi utilizado o software StatXact®.

Chan (2002) explora a utilização de métodos exatos para a determinação do poder e do cálculo do
tamanho de amostra em ensaios de não inferioridade. A metodologia é baseada em teste não
condicional para não inferioridade e é ilustrada com exemplo de ensaio clínico sobre nefroblastoma na
infância. O método exato funciona de forma satisfatória em muitos cenários, sendo portanto boa opção
nos casos em que os métodos assintóticos não devem ser adequados.
10.6 Estudos sequenciais e delineamentos adaptativos

Além do delineamento tradicional de amostras fixas, quando o tamanho é predefinido em cada grupo,
há a opção do delineamento sequencial, cuja principal característica é monitorar resultados e fazer
análises intermediárias. Em muitos experimentos nos quais os dados são acumulados de forma regular
ao longo do tempo, é natural monitorar resultados à medida que eles ocorrem, com o objetivo de se
tomar alguma ação, tal como o término ou alguma modificação do estudo. As diversas razões para
conduzir análises intermediárias são basicamente de ordem ética, administrativa e econômica
(JENNISON e TURNBULL, 2000). A grande vantagem de planejamentos sequenciais em relação aos
planejamentos de tamanho de amostra fixo é a redução em termos de tamanho de amostra.

Em delineamentos sequenciais, as pesquisas são monitoradas com o objetivo de tomar decisões e até
mesmo eventualmente fazer alguma alteração no planejamento à medida que o estudo está sendo
realizado e não esperar seu término, como acontece no caso de delineamentos com amostras fixas.
Idealmente, o monitoramento deve ser contínuo, o que não é viável. Na prática, em geral, os dados são
examinados periodicamente, cerca de cinco a 10 vezes durante a realização do ensaio.

Na comparação do tratamento experimental (E) com o controle (C), após a inspeção dos dados, deve-se
tomar alguma decisão, tal como: a) continuar o estudo por não haver evidências suficientes a favor de
E; b) interromper o estudo por já haver evidências suficientes a favor de E; c) interromper o estudo por
não se detectar claramente vantagem alguma de E em relação a C, caso conhecido como futilidade.

Estudos sequenciais podem ser empregados com diferentes tipos de variável resposta (binária, ordinal,
contínua) e em vários contextos (análise de sobrevivência, estudos de equivalência, etc.), bem como
utilizando a estatística clássica (“frequentista”) ou a bayesiana.

O planejamento sequencial é muito comum em indústrias farmacêuticas, existindo até regulamentação


sobre isso, mas aplicações podem ser encontradas em qualquer tipo de estudo em que o experimento
(ou a pesquisa) seja realizado em etapas ou quando a duração é suficientemente longa para permitir
análises intermediárias.

Whitehead (1997) cita os principais tipos de planejamentos sequenciais: triangular, triangular duplo,
triangular reverso, “open top”, etc. A metodologia pode ser empregada em diferentes situações
importantes na prática, lembrando que na análise final deve-se levar em consideração o fato de os
dados terem sido coletados de forma sequencial. Breve revisão sobre a metodologia encontra-se no
capítulo 10 de Cook e DeMets (2008). O software EAST® é específico para estudos sequenciais.

Diferentemente de estudos com amostras de tamanho fixo, o tamanho de amostra em estudos


sequenciais (por exemplo, número total de participantes) é determinado a partir de outro tipo de
metodologia. Cui et al. (1999), Shih (2006) e Chuang-Stein et al. (2006) são referências sobre tamanho
de amostra para delineamentos sequenciais.

Delineamento adaptativo (DA) é nomenclatura mais geral que a sequencial que, como o nome indica,
permite adaptações nos ensaios e/ou nos procedimentos estatísticos depois da inicialização dos ensaios,
sem prejudicar a validade e integridade deles. O estudo adaptativo deve ter o seu delineamento definido
desde o início e não ser decorrente de uma alteração posterior por algum interesse. O conceito de
delineamento adaptativo remonta aos anos de 1970, quando os métodos de aleatorização adaptativa e a
classe de delineamentos de ensaios clínicos sequenciais (DS) foram introduzidos. Alguns autores fazem
distinção entre as terminologias (DA e DS), havendo mesmo controvérsias sobre vantagens e
desvantagens de cada um dos enfoques. O delineamento sequencial pode ser considerado adaptativo,
mas ainda existe bastante confusão sobre o tema. Shih (2006) esclarece vários pontos e estabelece
comparações entre alguns testes em termos de propriedades estatísticas por meio de
estudo de simulação.

O livro de Chow e Chang (2012) sobre métodos para delineamentos adaptativos em ensaios clínicos é
bastante completo e o artigo de revisão de Chow e Chang (2008), de livre acesso na Internet, é bom
ponto de partida para os iniciantes no assunto. O livro trata tanto de aspectos práticos gerais, como
alteração do protocolo e ajuste do tamanho de amostra, como de vários tipos de estudos (dose-
escalação, fases II e III de ensaios clínicos, etc.), diferentes modelos (modelo de riscos proporcionais
com taxa de risco latente, modelo exponencial misto, etc.), incluindo os enfoques clássico e bayesiano,
com muitas exemplificações, inclusive um capítulo com estudo de casos. O capítulo 8 do livro é sobre
ajuste do tamanho da amostra para métodos adaptativos. Nesse âmbito, um ponto-chave é a
reestimação do tamanho da amostra. O capítulo 14 trata da estimação do tamanho de amostra e
do poder. O livro de Chin (2012) sobre delineamentos adaptativos também trata do problema de
tamanho de amostra.

10.7 Metanálise

Define-se como metanálise a metodologia estatística que usa a agregação de dois ou mais estudos
independentes, com o objetivo de resumir suas conclusões ou até mesmo chegar a uma nova a partir de
revisão sistemática da literatura. De forma geral, depois de definir claramente a questão da pesquisa,
faz-se a revisão sistemática da literatura, que consiste em organizar as informações essenciais dos
artigos que deverão entrar na metanálise.

Deve-se mencionar a colaboração de Cochrane, uma rede internacional que mantém uma base de dados
(artigos com várias informações relevantes para as pesquisas) e que é composta por centros de vários
países. O site do Centro Cochrane do Brasil é: http://www.centrocochranedobrasil.org.br/cms/.

Métodos de metanálise procuram contrastar e combinar resultados de diferentes estudos, na esperança


de identificar padrões consistentes e fontes de discordância entre eles. É particularmente útil quando
uma doença e/ou os resultados dos eventos de interesse são raros. Estudos multicêntricos também se
encaixam nesse cenário, sendo que os centros fazem o papel dos ensaios. O planejamento de um estudo
multicêntrico exige cuidados especiais, como a uniformização de protocolos e de condutas.

A metodologia de metanálise pode ser empregada para diversos tipos de dados, tais como binários, com
distribuição normal e de sobrevivência. Podem ser utilizados modelos de efeitos fixos ou de efeitos
aleatórios, como discutido, por exemplo, em Borenstein et al. (2010). Modelos de efeitos aleatórios são
frequentemente utilizados para combinar estimativas de diferentes estudos em uma metanálise.
Detalhes sobre o modelo e a análise estatística podem ser encontrados, por exemplo, em Skrondal e
Rabe-Hesketh (2004).

Greenland (2008) apresenta esclarecedora revisão sobre o assunto e Hedges e Olkin (1985) discutem
sobre métodos estatísticos apropriados a respeito do assunto. O livro de Whitehead (2002) sobre
técnicas de metanálise para estudos clínicos controlados inclui uma discussão que vai desde detalhes
técnicos até implementações práticas. Expõe uma visão bem geral: estudos realizados tanto
retrospectiva como prospectivamente; métodos baseados em dados individuais de pacientes ou
utilizando estatísticas que sumarizam resultados de vários ensaios clínicos; utilização de modelos só
com efeitos fixos ou incluindo efeitos aleatórios; métodos utilizando a estatística clássica
(“frequentista”) ou a bayesiana. No capítulo 12 de Matthews (2006) também se encontra breve revisão
com várias ilustrações.

Publicação em português contendo revisão geral feita por Rodrigues e Ziegelmann (2010) inclui alguns
detalhes técnicos, mas que tem como objetivo o enfoque prático. Outras importantes referências sobre
o assunto são Petitti (2000), Kulinskaya et al. (2008), Borenstein et al. (2009), Pigott (2012) e Chen e
Peace (2013), sendo a última com implementações no software livre R.

O cálculo de poder em metanálise envolve passos semelhantes aos dos necessários em estudos
tradicionais (HEDGES e PIGOTT, 2001; 2004). O capítulo 29 de Borenstein et al. (2009) é dedicado
à análise de poder em metanálise e de certa forma relaciona-se ao tamanho de amostra.
Cohn e Becker (2003) mostram que a metanálise obtida a partir de modelos de efeitos fixos tem
poder aumentado.

Em metanálise, um aspecto ligado ao “tamanho de amostra” seria o número de estudos em uma revisão
da literatura na qual a metanálise será baseada. Naturalmente, a metodologia e as estratégias de uma
revisão sistemática da literatura devem ser seguidas e em alguns casos há limitações quanto ao número
de estudos relacionados à pergunta da pesquisa. Entretanto, às vezes, é recomendável determinar o
número de estudos que terão determinado efeito global médio. Torna-se, assim, necessário avaliar se o
número de estudos é suficiente para a análise dos métodos estatísticos a serem utilizados na metanálise.

De forma geral, uma vantagem da metanálise é que o procedimento de agregar estudos pode resultar
em um poder estatístico adequado para detectar diferenças significativas se elas existirem.

10.8 Recursos computacionais para os cálculos do tamanho da amostra


e/ou do poder

As fórmulas fechadas de tamanho de amostra do capítulo foram programadas em planilhas Excel® e


encontram-se disponíveis para os leitores (ver informações na apresentação do livro; os exemplos com
fórmulas programadas estão sinalizados por ╬╬).

Alternativamente, alguns cálculos de tamanho de amostra e/ou do poder dos testes discutidos ou
relacionados ao assunto do capítulo podem ser obtidos pelos seguintes softwares/programas citados no
capítulo 11: Pass®14, que possui 23 procedimentos para métodos não paramétricos; módulo “Cluster
Randomized” do nQuery Advisor® + nTerim 4.0, que contém vários procedimentos para dados
grupados e longitudinais, incluindo modelos para medidas repetidas; módulo “New Interim Test” do
nQuery Advisor® + nTerim 4.0, que é dedicado a estudos sequenciais, tendo disponível método de
análise de testes de comparação de dois grupos quanto a médias, proporções ou sobrevidas. O software
StatXact® exibe cálculos de poder exato (tamanho de amostra) para algumas situações.
11.1 Introdução

Este capítulo apresenta levantamento do que há disponível em termos de softwares e programas com
implementação de cálculos de tamanho de amostra e de poder de teste para vários tópicos tratados
neste texto, vários deles com exemplificações. Vale destacar que há softwares gratuitos e comerciais,
os que devem ser comprados. Para os primeiros, os de livre acesso, é importante certificar a
procedência, para assegurar a qualidade da acurácia/confiabilidade dos cálculos. Várias universidades,
inclusive algumas de grande reputação e/ou professores/profissionais renomados, disponibilizam
ferramentas para cálculo de tamanho de amostra e do poder de testes estatísticos. Naturalmente, nestes
casos, são fontes confiáveis, mas em geral cobrem situações mais simples, sendo os casos mais
complexos frequentemente tratados apenas em softwares comerciais. Suas licenças podem ser
permanentes (atualmente, cada vez mais raras) ou periódicas (em geral, anual).

Existe ainda a distinção entre softwares específicos para cálculo de tamanho de amostra, destacando-se
Pass® e nQuery Advisor®, ou gerais, como o Minitab®, Stata® ou SAS®, mas que incluem comandos
para cálculos do poder e tamanho da amostra. Também existem programas específicos para
determinadas situações, como os citados em Obuchowski (1998) e que podem ser solicitados, e para
métodos não paramétricos desenvolvidos dentro do trabalho de doutorado em uma universidade
italiana (De MARTINI e TELESCA, 1999).

O StatXact® é um software para métodos não paramétricos exatos e também para métodos de Monte
Carlo. Na versão 10, 150 testes e procedimentos já estão implementados utilizando a “inferência
exata”. Para vários casos, inclusive alguns com exclusividade no mercado, há módulos para cálculos do
poder exato e do tamanho de amostra, com destaque para dados binomiais e multinomiais.

A grande maioria dos softwares/programas ainda é estrangeira, mas tem crescido o interesse na
produção de material nacional e/ou em português, como será citado nas seções seguintes.

Finalmente, os recursos computacionais para os cálculos do tamanho de amostra e/ou poder são
bastante amplos, inclusive com programas individuais utilizando várias linguagens de programação.
O objetivo deste capítulo é dar visão geral da forma mais completa possível, naturalmente não tendo a
intenção de ser exaustivo. A opção e concentração do texto foi no software Excel®, sendo que
praticamente todas as fórmulas fechadas apresentadas nos capítulos 2 a 10 foram programadas e as
planilhas Excel® estão disponibilizadas para os leitores do livro. Assim, é possível não só repetir os
cálculos dos exemplos apresentados, treinar os raciocínios, como também fazer os cálculos para outros
problemas similares. Nas seções 11.2.2 e 11.3.4 apresentam-se comentários e detalhes da utilização
desse tipo de planilha.

11.2 Softwares para cálculo do tamanho de amostra e do poder

Nesta seção apresentam-se breves comentários sobre três softwares comerciais (Pass®, nQuery
Advisor® e Minitab®), além de softwares acadêmicos, governamentais, pacotes de livre acesso
produzidos por vários autores sobre diversos temas e planilhas de trabalho que exigem alguma
programação: PS: Power and Sample Size Calculation; programa desenvolvido pelo LEE para o
cálculo de tamanho de amostra para pesquisas em ciências da saúde; Epi Info; OpenEpi: software para
programação de fórmulas de tamanho de amostra e/ou do poder do teste; software livre R (pacotes pwr,
TrialSize, HMISC, MESS e powerSurvEpi) e Excel®.

11.2.1 Softwares comerciais

1- Pass®

O Pass® é de fácil utilização e, até onde é de nosso conhecimento, é o mais completo software
específico do mercado para o cálculo de poder e tamanho de amostra, tendo procedimentos gerais e
vários com enfoque na área na saúde, especialmente em ensaios clínicos, como estudos de não
inferioridade. Destaque também para os procedimentos envolvendo a curva ROC, que em geral só são
encontrados em programas bem específicos ao assunto. Apresenta documentação do sistema ajuda
(help) bastante completa, com exemplos, de saída (output) anotada, referências e fórmulas.
A documentação de cada procedimento é organizada em capítulo que exibe detalhes diversos,
incluindo a fórmula de poder, mas em geral as fórmulas referentes ao tamanho de amostra são
omitidas. Na versão 14 há centenas de cenários referentes a testes e intervalos de confiança,
que segundo a empresa que desenvolveu o software foram completamente validados.

A Figura 11.1 mostra a tela inicial do Pass®14 com as 21 possíveis categorias que também estão
indicadas no Quadro 11.1 com os respectivos números de procedimentos. Abrindo cada uma delas,
há várias possibilidades. Por exemplo, para estudos envolvendo análise de regressão (Regression),
há 13 procedimentos (regressão linear simples e múltipla, regressão logística, regressão de Cox,
regressão de Poisson, etc.), como mostra a Figura 11.2.

Figura 11.1 - Tela do software Pass®14 mostrando as possíveis


categorias para cálculo do tamanho de amostra.
Quadro 11.1 - Possíveis categorias para o cálculo do tamanho de amostra
e os correspondentes números de procedimentos do software Pass®14
Categoria Nº de procedimentos Categoria Nº de procedimentos
Cluster-Randomized 13 Normality 1
Conditional Power 7 Proportions 62
Confidence Intervals 34 Quality Control 6
Correlation 19 Rates and Counts 7
Design of Experiments 10 Regression 13
Equivalence 21 ROC 3
Group-Sequential 17 Simulation 42
Means 102 Superiority by a Margin 19
Microarray 4 Survival 35
Non-inferiority 23 Variances 15
Nonparametric 23

Figura 11.2 - Tela do software Pass®14 mostrando os 13 procedimentos


implementados para tamanho de amostra em estudos envolvendo regressão.

2- nQuery Advisor®

O software comercial nQuery Advisor®, cuja licença para sua utilização pode ou não ser permanente, é
específico a dimensionamento de amostra. Cobre vários tópicos e embora possa ser utilizado em
qualquer área, possui um enfoque especial na área de Bioestatística, mesmo porque a mentora,
Professora Janet D. Elashoff, à época da criação do software, pertencia ao Departamento de
Biomatemática da UCLA. Estão implementados casos mais tradicionais, tais como dimensionamento
em amostragem para população finita e para proporções e médias (mas inclui vários casos especiais,
como crossover, planejamento com pareamento e medidas repetidas), além de estudos de equivalência,
análise de variância, planejamentos de medidas repetidas e crossover, testes não paramétricos, análise
de sobrevivência, estudo de concordância e análise de regressão com variável resposta dicotômica
(regressão logística) ou contínua, ambas para modelos com uma ou várias covariáveis.

O software nQuery Advisor® possui excelente documentação, é de fácil utilização e cada termo da
planilha é claramente explicado, apresentando sugestão de valores plausíveis ou usuais que
devem ser atribuídos.

Nas versões mais recentes do software, existe a oferta da combinação do tradicional nQuery Advisor®
com o nTerim, específico para estudos sequenciais, como comentado no capítulo 10. A Figura 11.3
reproduz a tela do nQuery Advisor + nTerim4.0® com as três abas correspondentes a cálculos de
amostras de tamanho fixo ou de forma sequencial e gráficos de poder versus tamanho de amostra.

Figura 11.3 - Tela do nQuery Advisor + nTerim4.0® com as três abas para cálculo de
tamanho de amostra no esquema tradicional (New Fixed Term Test) ou de forma sequencial
(New Interim Test) e gráficos de poder versus tamanho de amostra (Plot Power vs Sample Size).

Há várias implementações, como pode ser visto na tela mostrada na Figura 11.4 correspondente à aba
“New Fixed Term Test”. Ao escolher alguma opção, por exemplo, para tamanho de amostra fixo em
teste de médias para dois grupos, abre-se uma planilha (ver Figura 11.5) que deve ser completada com
os valores correspondentes aos termos envolvidos nos cálculos.
Figura 11.4 - Possibilidades de cálculos de tamanhos de amostra
para testes de duas médias pelo nQuery Advisor®.

Figura 11.5 - Planilha do nQuery Advisor® para o cálculo do tamanho


de amostra no caso do teste 𝑡 para comparar duas médias.
3- Minitab®

A versão 17 do software Minitab® é multi-idiomas, podendo ser configurada para português. Apresenta
várias possibilidades para cálculo de poder e tamanho de amostra. Basta clicar na opção “Estat” e
escolher “Poder e Tamanho de Amostra”, como mostra a Figura 11.6. Inclui alguns casos discutidos
nos capítulos anteriores, além de ter outras possibilidades implementadas não discutidas neste texto.
São as seguintes opções disponíveis: estimação de um parâmetro, tal como média, desvio-padrão e
variância (normal); proporção (binomial); taxa e média (Poisson); teste Z e teste 𝑡 para uma amostra;
teste 𝑡 para duas amostras; teste 𝑡 pareado; teste da taxa da Poisson com uma amostra; teste das taxas
da Poisson com duas amostras; testes para os casos de uma e duas variâncias; testes de equivalências
(teste para uma amostra; teste para duas amostras; teste pareado; crossover 2x2); análise de variância
(ANOVA) com um fator; planejamento fatorial com dois níveis, planejamento de Plakett-Burman (PB)
e planejamento fatorial completo geral (GFF).

Figura 11.6 - Tela da versão 17 do Minitab® mostrando as possibilidades de cálculo de poder


e tamanho de amostra (menu “Estat” e opção “Poder e Tamanho de Amostra”).
11.2.2 Softwares acadêmicos, governamentais, pacotes do software livre R e uso de
planilhas Excel®

1- PS: Power and Sample Size Calculation

O software PS foi desenvolvido por William D. Dupont e Walton D. Plummer Jr., ligados ao
Departamento de Bioestatística da Universidade Vanderbilt, situada em Nashville, Tennessee,
nos Estados Unidos. É de domínio público, com livre acesso e encontra-se disponível no endereço
http://biostat.mc.vanderbilt.edu/wiki/Main/PowerSampleSize. A publicação original relacionada ao
software foi feita em 1990 no periódico Controlled Clinical Trials (DUPONT e PLUMMER, 1990);
posteriormente houve outra publicação no mesmo periódico (DUPONT e PLUMMER, 1998).

PS é um programa interativo que realiza cálculos do poder e do tamanho de amostra. Pode ser usado
quando a variável resposta é dicotômica, contínua ou relacionada a dados de sobrevivência.
O programa PS produz gráficos para explorar as relações entre poder e tamanho da amostra.
Várias curvas podem ser colocadas em um único gráfico.

A Figura 11.7 mostra a tela inicial com as abas dos procedimentos implementados no software PS.

Figura 11.7 - Tela do software PS com as abas para cálculo do poder do teste e do tamanho de amostra
nos seguintes casos: Survival, t-test, Regression1, Regression2, Dichotomous, Mantel-Haenszel.
O Quadro 11.2 resume os possíveis planejamentos e algumas indicações/referências dos métodos
utilizados no software PS.

Quadro 11.2 - Possíveis planejamentos e algumas indicações/referências


dos métodos utilizados no software PS

1. Estudos caso-controle (case-control studies) – teste qui-quadrado para


tabelas de contingência com ou sem correção de continuidade e teste exato de
Fisher: o método de Schlesselman (1982) é utilizado para estudos com grupos
de casos e controles independentes que serão analisados usando um teste qui-
quadrado sem correção; o método de Casagrande et al. (1978) é usado para
estudos independentes que serão analisados por meio da estatística qui-
quadrado com correção de continuidade ou o teste exato de Fisher. Quando os
tamanhos de amostra para os casos e controles são desiguais, PS usa a
generalização do método de Casagrande proposta por Fleiss (1981).
As hipóteses alternativas podem ser especificadas em termos de odds ratio ou
taxas de prevalência de exposição.

2. Estudo caso-controle pareado/emparelhado (Matched Case-Control


Studies) – teste de McNemar: o método de Dupont (1988) é utilizado para
estudos com casos e controles pareados ou emparelhados. As hipóteses
alternativas são especificadas em termos da medida odds ratio.

3. Várias tabelas 2 x 2 (Multiple 2 X 2 tables) – teste de Mantel-Haenszel: o


método de Wittes e Wallenstein (1987) é utilizado. Assume-se que cada tabela
2x2 consiste de casos e controles selecionados a partir de um estrato diferente
que é definido por uma ou mais variáveis de confusão. Postula-se que a medida
odds ratio para a doença em indivíduos expostos em comparação aos não
expostos é constante para todos os estratos. As hipóteses alternativas são
especificadas em termos do valor comum de odds ratio.

4. Estudos de coorte com respostas dicotômicas (Cohort Studies With


Dichotomous Outcomes) – testes de tabela de contingência independente, teste
de McNemar: os métodos de Schlesselman (1982), Casagrande et al. (1978),
Fleiss (1981) e Dupont (1988) estão disponíveis. As hipóteses alternativas
podem ser especificados em termos de riscos relativos ou probabilidades de
resultados (outcomes).
5. Regressão linear com um único tratamento (Linear Regression - 1
Treatment) – teste da inclinação de uma linha de regressão linear simples: o
método de Dupont e Plummer (1998) é usado para projetar estudos em que se
deseja detectar uma inclinação de regressão de determinada magnitude.
Os valores da variável independente (𝑥) da reta de regressão podem ser
especificados pelo investigador ou determinados por observação quando o
estudo é realizado. Neste último caso, o investigador deve estimar o desvio-
padrão da variável independente (𝑥).

6. Regressão linear com dois tratamentos (Linear Regression - 2 Treatments)


– comparação das inclinações e dos interceptos de duas retas de regressões
independentes: a abordagem de Dupont e Plummer (1998) é usada para
planejar os estudos em que se quer determinar se as inclinações ou os
interceptos de duas retas de regressão independente diferem por determinada
quantidade. Os valores das variáveis independentes (𝑥) das retas de regressão
podem ser especificados pelo investigador ou determinados de forma
observacional quando o estudo é realizado. Neste último caso, o investigador
deve estimar os desvios-padrão das variáveis independentes.

7. Estudos de sobrevivência (Survival Studies) – avaliação de coortes


independentes utilizando o teste de log-rank: a abordagem de Schoenfeld e
Richter (1982) é usada. A razão entre o número de controles em relação ao
número de indivíduos do grupo experimental pode ser especificada pelo
usuário. As hipóteses alternativas são escritas em termos de taxa de risco
(hazard) para indivíduos do grupo-controle em relação aos do grupo
experimental ou em termos da mediana do tempo de sobrevivência
comparando os dois grupos (controle e experimental).

8. Respostas contínuas nos dois grupos (Continuous Response Measures in


Two Groups) – o teste 𝑡 para amostras pareadas ou independentes: a
abordagem de Dupont e Plummer (1990) é utilizada para amostras pareadas e
independentes. A razão entre o número de controles por indivíduos do grupo
experimental pode ser especificada pelo usuário. Este método produz
resultados que estão em concordância com aqueles de Pearson e Hartley
(1970).
2- Programa desenvolvido pelo LEE para o cálculo de tamanho de amostra para pesquisas
em ciências da saúde

O Laboratório de Epidemiologia e Estatística (LEE) pertence ao Instituto Dante Pazzanese de


Cardiologia, uma autarquia do governo do estado de São Paulo vinculada à Secretaria Estadual da
Saúde e associada à Universidade de São Paulo.

O LEE está ligado ao ensino, à pesquisa e à extensão. Entre suas atividades, oferece a ferramenta do
cálculo do tamanho de amostra de fundamental importância no planejamento de pesquisas em ciências
da saúde. A Figura 11.8 mostra a tela inicial do programa desenvolvido pelo LEE, extraída do site
http://www.lee.dante.br/pesquisa/amostragem/calculo_amostra.html. O programa cobre casos mais
tradicionais, tanto para resposta quantitativa (estimação de uma média, teste para uma média e
comparação de duas médias pelo teste 𝑡) como para resposta dicotômica (estimação de uma proporção,
teste para uma proporção, teste de duas proporções, estudo caso-controle e estudo de coorte).

Figura 11.8 - Tela inicial do programa desenvolvido pelo LEE, extraída do site
http://www.lee.dante.br/pesquisa/amostragem/calculo_amostra.html.
É bastante significativa e prudente a observação que aparece no site do LEE: “É importante ressaltar
que os cálculos feitos aqui devem servir apenas como orientação para o planejamento do estudo e não
serem tomados como decisão final”. Também merece destaque o fato de haver resumo de conceitos
ligados ao assunto, que podem ser bastante úteis para usuários que não são da área da Estatística.

3- Epi Info

O Epi Info, software de domínio público, foi desenvolvido pelo CDC (abreviatura de Centers for
Disease Control and Prevention) dos Estados Unidos. É voltado para a área da saúde, com destaque em
estudos epidemiológicos.

Na versão mais antiga (Epi Info 6), desenvolvido para ambiente DOS, frequentemente referenciado
como Epi 6, há dois programas para cálculo de tamanho de amostra e poder do teste. No programa
StatCalc há o módulo “Sample size and Power”, que contém os seguintes planejamentos: Population
Survey, Cohort or Cross-sectional, Unmatched case-control. No programa EpiTable, dentro da opção
“Sample”, há dois módulos: a) Sample size contendo as opções Single proportion, Two proportions,
Cohort study, Case-control study; b) Power calculation contendo as opções Cohort study,
Case-control study.

No ano 2000 foi lançado o Epi Info 2000, que apresenta mais compatibilidade com outros sistemas de
computador e tem interface mais moderna, o que facilita a utilização das ferramentas disponíveis.
O Epi Info 2000 retém muitas características do Epi 6, mas o menu de técnicas estatísticas é bem mais
amplo, inclusive inclui algumas mais avançadas.

Posteriormente foi lançado o Epi Info 7, compatível com o sistema Windows (funciona para qualquer
versão do Windows a partir do XP). O programa está disponível no portal http://wwwn.cdc.gov/epiinfo.
A Figura 11.9 mostra a tela do Epi Info 7 com as três opções de cálculo de tamanho de amostra e poder
(Sample Size and Power) do StatCalc: Population survey, Cohort or cross-sectional, Unmatched case-
control. Ao clicar em cada uma das opções, abre-se uma tela onde há lugar para preencher as
informações necessárias para o software fazer os cálculos. Claramente as opções estão ligadas ao tipo
de estudo: levantamento populacional, estudo de coorte ou estudo transversal e estudo caso-controle
(sem pareamento).
Figura 11.9 - Tela do Epi Info 7 mostrando as opções de cálculo de tamanho de
amostra e poder (Sample Size and Power) do StatCalc: Population survey,
Cohort or cross-sectional, Unmatched case-control.

4- OpenEpi

O OpenEpi é um programa gratuito e com código aberto voltado para estudos epidemiológicos.
Está disponível em http://www.openepi.com ou no site do CDC: www.cdc.gov/epinfo. Como os
programas têm licença de código livre, eles podem ser obtidos imediatamente após download,
distribuídos ou traduzidos.

Atualmente os textos das versões estão em cinco línguas: inglês, francês, espanhol, italiano e
português. O menu completo do programa OpenEpi pode ser conferido no site citado anteriormente,
mas resumo do que há disponível em termos de tamanho de amostra e poder pode ser visto
no Quadro 11.3.
Quadro 11.3 - Opções para cálculo de tamanho de amostra e poder no OpenEpi

Proporção: tamanho da amostra para uma proporção


Tamanho de amostra
Caso-controle não pareado: tamanho da amostra para estudos do tipo caso-
controle não pareado
Coorte/ensaios clínicos: tamanho da amostra para estudos transversais, de coorte e
ensaios clínicos aleatorizados
Diferença de médias: tamanho da amostra para comparar a diferença de duas
médias

Caso-controle não pareado: poder para estudos do tipo caso-controle não pareado

Coorte: poder para estudos de coorte


Poder

Ensaio clínico: poder para ensaios clínicos aleatorizados

Transversal: poder para os estudos transversais


Diferença de médias: poder para comparar a diferença de duas médias

5- Software livre R

A seguir são apresentados alguns comentários sobre o uso do software livre R, que pode ser utilizado
para programar fórmulas de cálculo do tamanho de amostra e do poder do teste. Também são
fornecidos detalhes de cinco pacotes do R relacionados ao assunto: pwr, TrialSize, HMISC,
MESS e powerSurvEpi.

O software livre R foi criado originalmente por Ross Ihaka e por Robert Gentleman na Universidade de
Auckland, Nova Zelândia, mas depois o projeto passou a ganhar a colaboração de pessoas de vários
locais do mundo. Tudo indica que o software foi batizado de R por causa das iniciais dos primeiros
nomes dos criadores, mas acredita-se que a principal razão foi uma espécie de “brincadeira” pela
existência da linguagem S, desenvolvida pela empresa Bell Laboratories.

O R é gratuito, podendo ser utilizado em máquinas com variados sistemas operacionais. Encontra-se
disponível no site www.r-project.org, contendo implementações de métodos estatísticos desde os bem
simples até bastante complexos e sofisticados. Existem também pacotes que são funções específicas
para determinadas áreas, por exemplo, o pacote pwr, que será comentado posteriormente. Todo o
código fonte do R é aberto, o que permite ao usuário modificar, adaptar e aprimorar
programas existentes.
Como o R é baseado em linhas de comando, pode a príncípio não ser muito atrativo para quem
desconhece linguagens de programação. Entretanto, além dos manuais do software R, atualmente existe
vasto material (capítulo 9 de SIQUEIRA e TIBÚRCIO, 2011; várias apostilas disponíveis na Internet,
publicadas por pessoal ligado a universidades, por exemplo, o relatório técnico da série ensino
RTE 01/2012, disponível em http://www.est.ufmg.br, de Ribeiro et al. intitulado Bioestatística básica
usando o ambiente computacional R, etc.), com instruções incluindo a instalação do software, dicas
úteis, especialmente para iniciantes, entre tantas outras orientações.

Deve-se mencionar que, ao iniciar o R, automaticamente abrirá o console, a janela onde os comandos
são digitados. A Figura 11.10 mostra a tela de interface do R, na qual aparece o console com
informações técnicas sobre o programa e o sinal de prompt (>), indicando que o programa está pronto
para receber o comando a ser executado.

Figura 11.10 - Tela mostrando a interface do R: console e prompt.

Os pacotes básicos do R são instalados automaticamente durante a instalação do R. Outros pacotes


adicionais devem ser instalados manualmente. O modo mais simples de instalar pacotes no R é seguir
os seguintes passos:
(1) Executar o R e na barra de menu clicar em Pacotes e selecionar a opção “Instalar pacote(s)”.

(2) Na janela que se abre (CRAN mirror) escolher um país ou região que fornecerá o repositório do
pacote e clicar OK.

(3) Selecionar o nome do pacote a ser instalado, clicar OK e aguardar a instalação.

Alternativamente, os pacotes podem ser instalados por meio do comando install.packages(), digitando
entre aspas dentro dos parênteses o nome do pacote, por exemplo, install.packages('Hmisc').
Havendo dependências, outros pacotes serão instalados automaticamente para resolver as
dependências. Mais informações sobre instalação de pacotes no R podem ser obtidas por meio do
comando de ajuda ?install.packages().

Para usar as funções de um pacote, é necessário primeiro carregar o pacote no R. Para isso, deve-se
selecionar na barra de menu do R a opção “Carregar pacote” e na janela que se abre selecionar o pacote
e clicar em OK. Outra maneira de carregar o pacote é usar o comando library(), digitando dentro dos
parênteses o nome do pacote, por exemplo, library('Hmisc'). O comando library() tem a vantagem de
poder ser inserido dentro dos programas em R, evitando assim o processo manual.

a) Pacote pwr do software livre R

O pacote pwr é um módulo do software R que permite determinar o tamanho da amostra necessário
para detectar determinado efeito com certo grau de confiança. Por outro lado, permite determinar a
probabilidade de detectar um efeito de determinado tamanho, com dado nível de confiança, sob as
restrições de tamanho de amostra. Se a probabilidade é inaceitavelmente baixa, seria prudente alterar
ou abandonar o experimento.

As quatro seguintes quantidades são intimamente relacionadas: a) tamanho da amostra; b) tamanho do


efeito; c) nível de significância; d) poder do teste. Com a informação de quaisquer três delas, pode-se
determinar a quarta.

O pacote pwr foi desenvolvido por Stéphane Champely com as implementações de análise do poder,
conforme descrito por Cohen (1988). Aparentemente, o pacote foi construído para a utilização do livro
de Cohen, sendo que os exemplos só têm a numeração e página do livro sem qualquer esclarecimento
do enunciado. As funções do pacote pwr estão listadas no Quadro 11.4.
Quadro 11.4 - Funções do pacote pwr do software livre R

Função Cálculo do poder para:

pwr.2p.test Duas proporções (𝑛1 = 𝑛2 = 𝑛)

pwr.2p2n.test Duas proporções (𝑛1 ≠ 𝑛2 )

pwr.anova.test Anova com um fator (caso balanceado)

pwr.chisq.test Teste qui-quadrado

pwr.f2.test Modelo linear geral

pwr.p.test Proporção (uma amostra)

pwr.r.test Correlação
Teste para média supondo distribuição normal (variância
pwr.norm.test
conhecida)
pwr.t.test Testes t (uma amostra, duas amostras, caso pareado)

pwr.t2n.test Teste t (duas amostras com 𝑛 desigual)

Detalhes sobre as funções (por exemplo, os argumentos a serem usados) podem ser encontrados em
http://cran.r-project.org/web/packages/pwr/pwr.pdf. Para cada uma dessas funções, deve-se entrar com
três das quatro quantidades (em inglês: effect size, sample size, significance level, power; em
português: tamanho do efeito, tamanho da amostra, nível de significância, poder) e, consequentemente,
a quarta é calculada.

O padrão (default) para o nível de significância é de 0,05. Portanto, para calcular o nível de
significância, dado o tamanho de efeito, o tamanho da amostra e o poder, deve-se usar a opção
"sig.level = NULL". Na seção 11.3.1 apresenta-se um exemplo da utilização do pacote pwr.

b) Pacote TrialSize do software livre R

O pacote TrialSize contém mais de 80 funções que são amplamente utilizadas para calcular o tamanho
da amostra em ensaios clínicos. Ele cobre as funções dos capítulos 3, 4, 6, 7, 9, 10, 11, 12, 14 e 15 do
livro de Chow et al. (2008). Aparentemente, foi construído exclusivamente para a utilização do livro,
sem ele sua utilização não fica clara e os próprios exemplos em geral só têm a numeração do livro sem
qualquer esclarecimento do enunciado.
As funções do pacote TrialSize vão desde casos mais tradicionais (comparação de médias e proporções,
tabelas de contingência, análise de dados de tempo até a ocorrência de um evento e confiabililidade,
etc.), até situações mais específicas e possivelmente mais complexas (estudos de equivalência, eficácia
de vacinas, estudos de qualidade de vida, etc.). Para o tópico de análise de sobrevivência, estão
disponíveis as funções mostradas no Quadro 11.5.

Quadro 11.5 - Funções do pacote TrialSize do software livre R


referentes ao tópico de análise de sobrevivência

Função Descrição

Teste para duas amostras utilizando o modelo exponencial –


TwoSampleSurvival.Conditional
análise condicional
Teste de igualdade para duas amostras utilizando o modelo
TwoSampleSurvival.Equality
exponencial
Teste de equivalência para duas amostras utilizando o
TwoSampleSurvival.Equivalence
modelo exponencial
Teste de não inferioridade/superioridade para duas amostras
TwoSampleSurvival.NIS
utilizando o modelo exponencial

Cox.Equality Teste de igualdade utilizando o modelo de Cox

Cox.Equivalence Teste de equivalência utilizando o modelo de Cox

Teste de não inferioridade/superioridade utilizando o


Cox.NIS
modelo de Cox

c) Pacote HMISC do software livre R

O pacote HMISC contém muitas funções úteis para a análise de dados e gráficos e inclui também
cálculos de tamanhos de amostra e poder. O manual desse pacote, bastante detalhado, está disponível
em https://cran.r-project.org/web/packages/Hmisc/Hmisc.pdf e pode ser utilizado com facilidade.

Em termos de cálculo do poder e do tamanho de amostra, destacam-se as funções indicadas


no Quadro 11.6.
Quadro 11.6 - Funções do pacote HMISC do software livre R
para cálculo do poder e do tamanho de amostra

Função Descrição

bpower Poder e tamanho de amostra para duas amostras usando o teste binomial

popower Poder e tamanho de amostra para resposta ordinal

cpower Poder do modelo de Cox e do teste de log-rank para duas amostras

samplesize.bin Tamanho de amostra para duas amostras binomiais

d) Pacote MESS do software livre R

O pacote MESS (abreviatura de Miscellaneous Esoteric Statistical Scripts), de autoria de Claus


Ekstrom, é composto de uma coleção de funções relacionadas ao livro “The R Prime”, do mesmo autor
do pacote, publicado em 2011.

Para cálculo de poder/tamanho de amostra, destacam-se duas funções: power.binom.test e


power.mcnemar.test. A primeira calcula o poder para o teste exato de uma hipótese simples em um
experimento de Bernoulli. Já a segunda função destina-se ao cálculo do poder de teste de McNemar em
tabelas de dimensão 2x2, tanto para o método exato como para o assintótico. Neste caso, a referência
é Duffy (1984).

e) Pacote powerSurvEpi do software livre R

O pacote powerSurvEpi (abreviatura de Power and Sample Size Calculation for Survival Analysis of
Epidemiological Studies) é de autoria de Weiliang Qiu, Jorge Chavarro, Ross Lazarus e Jing Ma.
Incluiu funções para calcular poder e tamanho de amostra para testar efeitos principais e efeitos de
interação em análise de sobrevivência de estudos epidemiológicos. Alguns cálculos também levam em
consideração riscos competitivos e análise estratificada. O Quadro 11.7 apresenta as principais funções
do pacote powerSurvEpi.
Quadro 11.7 - Funções do pacote powerSurvEpi do software livre R

Função Descrição

Calcula o número de mortes esperado para o modelo de regressão de Cox com


numDEpi
riscos proporcionais tendo duas covariáveis para estudos epidemiológicos.

Calcula o poder para análise de sobrevivência com preditor binário e função de


power.stratify
sobrevivência exponencial.
powerCT Calcula o poder em análise de sobrevivência para ensaios clínicos.
Calcula o poder para o modelo de regressão de Cox com riscos proporcionais,
powerEpi
tendo duas covariáveis para estudos epidemiológicos.

Calcula o poder para o modelo de regressão de Cox com riscos proporcionais


powerEpiCont
com covariáveis não binárias para estudos epidemiológicos.

Calcula o poder para testar efeito de interação em modelo de regressão de Cox


powerEpiInt com riscos proporcionais, tendo duas covariáveis para estudos epidemiológicos
(ambas as covariáveis devem ser binárias).
Calcula o tamanho de amostra em análise de sobrevivência com preditores
ssize.stratify
binários e função de sobrevivência exponencial.

ssizeCT Calcula o tamanho de amostra em análise de sobrevivência para ensaios clínicos.

Calcula o tamanho de amostra para o modelo de regressão de Cox com riscos


ssizeEpi
proporcionais.

Calcula o tamanho de amostra para o modelo de regressão de Cox com riscos


ssizeEpiCont
proporcionais com covariáveis não binárias para estudos epidemiológicos.

Calcula o tamanho de amostra para testar efeito de interação em modelo de


ssizeEpiInt
regressão de Cox com riscos proporcionais.

6- Excel®

O software Excel® pode ser utilizado para a programação de fórmulas, naturalmente incluindo as de
cálculo de tamanho de amostras e de poder. Existe uma variedade de livros, apostilas e material
didático sobre o software, dos quais se destaca Dretzke (2011). Como comentado na introdução,
praticamente todas as fórmulas fechadas do livro encontram-se disponíveis em planilhas Excel®.
Para aqueles que não possuem experiência alguma em Excel®, a seguir registram-se comentários,
em nível elementar, e na seção 11.3.4, breve tutorial sobre a utilização desse tipo de planilha.

Para a programação de fórmulas em Excel®, frequentemente há necessidade da utilização de


operadores de cálculo do Excel®, como soma (+), subtração (−), multiplicação (∗), divisão (/) e
exponenciação (^), bem como funções matemáticas, por exemplo, logaritmo (LOG) ou raiz quadrada
(RAIZ), e também funções estatísticas, como MÉDIA e DESVPAD para calcular a média e o desvio-
padrão, respectivamente. As funções têm em geral nomes mnemônicos, por exemplo, como citado
anteriormente, as funções logaritmo e raiz quadrada são LOG e RAIZ. Digitando o nome da função
após o sinal de =, aparece uma breve explicação da função (exemplo: ao digitar =raiz, aparece: Retorna
a raiz quadrada de um número) e, dependendo da função, aparecem a sintática e os argumentos
exigidos para a função. Em geral, é bastante fácil de utilizar, especialmente na programação de
fórmulas de tamanho de amostra e poder.

Em programação no Excel®, o sinal de igual (=) indica que vai ser inserida uma fórmula. Por exemplo,
quando o cursor se encontrar na célula C1, ao digitar =A1*B1, significa que o conteúdo da célula A1
será multiplicado pelo da célula B1. Outro recurso muito útil é o de arrastar o mouse para repetir os
cálculos já efetuados, portanto, não é necessário digitar as fórmulas ao se mudar os parâmetros.
Uma vez programada a fórmula, basta posicionar o mouse no canto direito da célula e arrastá-lo para
que os cálculos efetuados na primeira célula sejam repetidos para os novos parâmetros.

A tela apresentada na Figura 11.11(a) mostra os resultados da programação para o dimensionamento da


amostra no caso da estimação de uma média (𝜇) quando a variância é conhecida. Trata-se da fórmula
𝑧1−𝛼/2 𝜎 2 (𝑧1−𝛼/2 )2 𝜎2
(2.1), 𝑛 = ( ) = , e que para o exemplo 2.1 do capítulo 2, 𝛼 = 0,05; 𝐷 = 0,2.
𝐷 𝐷2

Os valores de 𝜎 considerados são 1; 1,5; 2; 2,5; 3 e, portanto, os valores de 𝜎 2 são 1; 2,25; 4; 6,25; 9.
Mantendo-se constante o valor de 𝐷, os tamanhos das amostras correspondentes obtidos foram 97, 217,
385, 601 e 865.

Na planilha, a seguinte convenção é adotada: as colunas amarelas são entradas (informações


fornecidas), enquanto que as verdes são as dos cálculos intermediários e a coluna do resultado final é
vermelha. Observe na Figura 11.11(b) quais os comandos que foram dados para tais cálculos.
Lembre-se de que o sinal de igual (=) que aparece no início do comando (por exemplo: =1-A4) é uma
forma de distinguir que se trata de um comando e não de uma entrada de dados/informações, o que
indica ao software que vai começar um comando. Lembre-se ainda de que a programação é necessária
apenas para a primeira linha das entradas (que pode começar em qualquer linha e em qualquer
coluna da planilha).

Depois de pronta essa etapa, basta posicionar o mouse no canto direito das caselas e arrastar para baixo
para completar os cálculos para as demais entradas (das colunas amarelas). Essa mesma observação
(arrastar o mouse) eventualmente vale para preparar as entradas dos dados, por exemplo, quando há
repetição de dados, como é o caso de adotar o mesmo nível de significância (então basta digitar na
primeira linha e arrastar o mouse para as demais). Quando há certa sistematicidade de um
parâmetro - por exemplo, o parâmetro 𝑝 varia de 0,01 até 0,99 com incremento 0,01
(𝑝 = 0,01; 0,02; 0,03; 0,04; ⋯ 0,97; 0,98; 0,99), não há necessidade de digitar todos os valores,
basta colocar os três primeiros (o software entende como os dados estão organizados) e arrastar até
o valor 0,99.

(a) Planilha Excel® com os resultados obtidos

(b) Planilha mostrando os comandos para a programação da fórmula (2.1) no Excel®

Figura 11.11 - Ilustração do uso da planilha Excel® com dados do exemplo 2.1 do capítulo 2.
11.3 Exemplos utilizando os recursos computacionais

Os programas/softwares comentados no capítulo são ilustrados com alguns exemplos, procurando


apresentar variedade de situações e métodos e selecionando alguns detalhes mais interessantes.

11.3.1 Pacote prw do software livre R

O pacote pwr contém funções para o cálculo de poder e tamanho de amostra conforme descrito por
Cohen (1988). A seguir apresenta-se um exemplo para ilustrar o uso de uma das funções do pacote
pwr. Trata-se da função pwr.norm.test para o dimensionamento de amostras quando se aplica o teste de
uma média com variância (𝜎 2 ) conhecida.

Exemplo 11.1 - Uso da função pwr.norm.test

A função pwr.norm.test é ilustrada com os dados do exemplo 2.2 do capítulo 2. Um dos argumentos da
função é o tamanho do efeito, aqui definido como 𝑑 = (𝜇 − 𝜇0 )/ 𝜎. Neste exemplo não se tem a
informação dos valores de 𝜇 e 𝜇0 , mas sim da diferença, que é de cinco (𝜇 − 𝜇0 = 5). Os outros três
argumentos são: poder desejado (power), nível de significância fixado (sig.level) e tipo de hipótese
alternativa, se uni ou bilateral. No Quadro 11.8 apresentam-se os comandos da função pwr.norm.test e
as saídas (outputs) do R referentes aos dois casos considerados: 𝜎 = 10 e 𝜎 = 15.

Quadro 11.8 - Comandos da função pwr.norm.test e as saídas (outputs) do R para 𝜎 = 10 e 𝜎 = 15


Comando de entrada da função pwr.norm.test:
pwr.norm.test (d=5/10, power=0.9, sig.level=0.05, alternative="two.sided")
Saída (output) do R:
(a) 𝝈 = 𝟏𝟎

Mean power calculation for normal distribution with known variance


d = 0.5
n = 42.02968
sig.level = 0.05
power = 0.9
alternative = two.sided
Comando de entrada da função pwr.norm.test:
pwr.norm.test (d=5/15, power=0.9, sig.level=0.05, alternative="two.sided")
Saída (output) do R:
(b) 𝝈 = 𝟏𝟓

Mean power calculation for normal distribution with known variance


d = 0.3333333
n = 94.56677
sig.level = 0.05
power = 0.9
alternative = two.sided
11.3.2 Pacote TrialSize do software livre R

O pacote TrialSize é ilustrado com dois exemplos sobre sobrevivência extraídos do capítulo 7.
O primeiro refere-se ao exemplo 7.7 sobre cálculo de tamanho de amostra para estudos de
superioridade, não inferioridade e equivalência utilizando o modelo exponencial. O segundo (exemplo
7.8) trata do cálculo de tamanho de amostra utilizando o modelo de Cox para ensaios de
não inferioridade e de superioridade.

Exemplo 11.2 - Uso das funções TwoSampleSurvival.NIS e TwoSampleSurvival.Equivalence


do pacote TrialSize

As funções TwoSampleSurvival.NIS e TwoSampleSurvival.Equivalence do pacote TrialSize são


ilustradas com os dados do exemplo 7.7 do capítulo 7. A seguir são apresentados os comandos
necessários para reproduzir os resultados referentes aos tamanhos de amostra.

No Quadro 11.9 apresentam-se a sintaxe da função TwoSampleSurvival.NIS, seus argumentos,


as entradas e as saídas (outputs) do R.

Quadro 11.9 - Informações sobre a função TwoSampleSurvival.NIS:


teste de não inferioridade/superioridade para duas amostras usando o modelo exponencial,
entradas e saídas (outputs) do R referentes ao exemplo 7.7 do capítulo 7

Sintaxe da função TwoSampleSurvival.NIS:


TwoSampleSurvival.NIS(alpha, beta, lam1, lam2, k, ttotal, taccrual, gamma, margin)

Argumentos da função TwoSampleSurvival.NIS:


alpha: nível de significância
beta: poder do teste = 1 − beta
lam1: razão de chance do grupo controle
lam2: razão de chance do grupo teste
k: n1/n2
ttotal: total trial time
taccrual: período de recrutamento
gamma: parâmetro da distribuição exponencial
margin: margem de não inferioridade/superioridade (entrar com valor não negativo)
Comandos para o R (teste de não inferioridade):
alpha = 0.05
beta = 0.2
lam1 = 2
lam2 = 1
k=1
ttotal = 3
taccrual = 1
gamma = -1
margin = 0.5
TwoSampleSurvival.NIS(alpha, beta, lam1, lam2, k, ttotal, taccrual, gamma, margin)

Saída (output) do R (teste de não inferioridade):


[1] 4.03705
[1] 1.102003
[1] 14.1211
Os dois primeiros valores são as variâncias 𝜎 2 (𝜆1 ) e 𝜎 2 (𝜆2 ) e o terceiro é o tamanho de
amostra calculado.
Comandos para o R (teste de superioridade):
alpha = 0.05
beta = 0.2
lam1 = 2
lam2 = 1
k=1
ttotal = 3
taccrual = 1
gamma = -1
margin = 0
TwoSampleSurvival.NIS(alpha, beta, lam1, lam2, k, ttotal, taccrual, gamma, margin)
Saída (output) do R (teste de superioridade):
[1] 4.03705
[1] 1.102003
[1] 31.77249
Os dois primeiros valores são as variâncias 𝜎 2 (𝜆1 ) e 𝜎 2 (𝜆2 ) e o terceiro é o tamanho de
amostra calculado.

No Quadro 11.10 apresentam-se a sintaxe da função TwoSampleSurvival.Equivalence, seus


argumentos, as entradas e as saídas (outputs) do R.
Quadro 11.10 - Informações sobre a função TwoSampleSurvival.Equivalence:
teste de equivalência para duas amostras para o modelo exponencial,
entradas e saídas (outputs) do R referentes ao exemplo 7.7 do capítulo 7

Sintaxe da função TwoSampleSurvival.Equivalence:


TwoSampleSurvival.Equivalence(alpha, beta, lam1, lam2, k, ttotal, taccrual, gamma,
margin)

Argumentos da função TwoSampleSurvival.Equivalence:


alpha: nível de significância
beta: poder do teste = 1 − beta
lam1: razão de chance do grupo controle
lam2: razão de chance do grupo teste
k: n1/n2
ttotal: tempo total do ensaio
taccrual: período de recrutamento
gamma: parâmetro para a distribuição exponencial
margin: limite de equivalência

Comandos para o R:
alpha = 0.05
beta = 0.2
lam1 = 2
lam2 = 1
k=1
ttotal = 3
taccrual = 1
gamma = -1
margin = 1.5
TwoSampleSurvival.Equivalence(alpha,beta,lam1,lam2,k,ttotal,taccrual,gamma,margin)
Saída (output) do R:
[1] 4.03705
[1] 1.102003
[1] 176.0402
Os dois primeiros valores são as variâncias 𝜎 2 (𝜆1 ) e 𝜎 2 (𝜆2 ) e o terceiro é o tamanho de
amostra calculado.

Exemplo 11.3 - Uso da função Cox.NIS do pacote TrialSize

A função Cox.NIS será ilustrada com os dados do exemplo 7.9 do capítulo 7. No Quadro 11.11
são apresentados os comandos necessários para reproduzir os resultados referentes aos
tamanhos de amostra.
Quadro 11.11 - Informações sobre a função Cox.NIS: teste de não inferioridade/superioridade para
o modelo de Cox, entradas e saídas (outputs) do R referentes ao exemplo 7.9 do capítulo 7

Sintaxe da função Cox.NIS:


Cox.NIS(alpha, beta, loghr, p1, p2, d, margin)
Argumentos da função Cox.NIS:
alpha: nível de significância (nota: na verdade a entrada é o complementar do valor,
por exemplo, se o nível de significância for 5%, alpha = 0.95 se teste unilateral e
alpha = 0.975 se teste bilateral)
beta: poder do teste = 1 – beta
loghr: log da razão de chance
p1: proporção de indivíduos no grupo 1
p2: proporção de indivíduos no grupo 2
d: probabilidade de observar um evento pesquisado (𝑝𝑑 na notação do capítulo 7)
margin: margem de não inferioridade/superioridade
Comandos para o R (teste unilateral de superioridade):
alpha = 0.95
beta = 0.2
loghr = log(1.5)
p1 = 0.5
p2 = 0.5
d = 0.8
margin = 0
n=Cox.NIS(alpha, beta, loghr, p1, p2, d, margin)
print(n)
Saída (output) do R:
[1] 188.0317

Comandos para o R (teste bilateral de superioridade):


alpha = 0.975
beta = 0.2
loghr = log(1.5)
p1 = 0.5
p2 = 0.5
d = 0.8
margin = 0
n=Cox.NIS(alpha, beta, loghr, p1, p2, d, margin)
print(n)
Saída (output) do R:
[1] 238.7101
Comandos para o R (teste de não inferioridade):
alpha = 0.95
beta = 0.2
loghr = log(1)
p1 = 0.5
p2 = 0.5
d = 0.8
margin = -0.5
n=Cox.NIS(alpha, beta, loghr, p1, p2, d, margin)
print(n)
Saída (output) do R:
[1] 123.6511

11.3.3 Pacote HMISC do software livre R

O pacote HMISC contém diversas funções úteis para cálculo de tamanho de amostra e do poder.
A seguir apresenta-se um exemplo de aplicação da função posamsize (Power and Sample Size for
Ordinal Response) do pacote HMISC.

Exemplo 11.4 - Uso da função posamsize do pacote HMISC para cálculo de tamanho de amostra
de dados ordinais

A função posamsize calcula o tamanho de amostra total necessário para atingir determinado poder,
utilizando o método de Whitehead (1993). Ela é ilustrada com os dados do exemplo 6.5 do capítulo 6,
como mostrado no Quadro 11.12.

Quadro 11.12 - Informações sobre a função posamsize (Power and Sample Size for Ordinal Response),
entradas e saídas (outputs) do R referentes ao exemplo 6.5 do capítulo 6

Sintaxe da função posamsize:


posamsize(p, odds.ratio, fraction, alpha, power)
Argumentos da função posamsize:
p: vetor das médias de dimensão 𝑘 (número de categorias), sendo seus elementos definidos por 𝑝̅𝑗 , a
proporção média dos dois grupos comparados (𝐸 e 𝐶) para a 𝑗-ésima categoria, 𝑝̅𝑗 = (𝑝𝐸𝑗 + 𝑝𝐶𝑗 )/2
odds.ratio: razão de chance (odds ratio), medida baseada em probabilidades acumuladas e que com
o pressuposto de chances proporcionais é igual para as (𝑘 − 1) categorias
fraction: razão de alocação do grupo 1 em relação ao total (se omitido, assume-se 0.5)
alpha: nível de significância (se omitido, assume-se 0.05)
power: poder do teste (se omitido, assume-se 0.8)

(a) Dados extraídos de Whitehead (1993)


Comandos para o R:
pC = c(0.2,0.5,0.2,0.1)
pE = c(0.378,0.472,0.106,0.044)
poder = 0.9
A = c(1, 2, 3, 4)
p_barra = (pC+pE)/2
pC_acum = cumsum(pC)
pE_acum = cumsum(pE)
OR = (pE_acum/(1-pE_acum)) /(pC_acum/(1-pC_acum))
OR_sel = OR[2]
t = 1/(A+1)
posamsize(p_barra, odds.ratio=OR_sel, power=poder, fraction=t)
Saída (output) do R:
Total sample size: 186.9 210.2 249.1 292
Efficiency of design compared with continuous response: 0.857 0.857 0.857 0.857

(b) Dados simulados com evidência a favor do pressuposto de chances proporcionais


Comandos para o R:
pC = c(0.4, 0.3, 0.2, 0.1)
pE = c(0.5245, 0.2693, 0.1431, 0.0631)
poder = 0.9
A = c(1, 2, 3, 4)
p_barra = (pC+pE)/2
pC_acum = cumsum(pC)
pE_acum = cumsum(pE)
OR = (pE_acum/(1-pE_acum)) /(pC_acum/(1-pC_acum))
OR_sel = OR[1]
t = 1/(A+1)
posamsize(p_barra, odds.ratio=OR_sel, power=poder, fraction=t)
Saída (output) do R:
Total sample size: 569.9 641.1 759.9 890.5
Efficiency of design compared with continuous response: 0.873 0.873 0.873 0.873
(c) Dados simulados com evidência contra o pressuposto de chances proporcionais
Comandos para o R:
pC = c(0.2,0.3,0.4,0.1)
pE = c(0.55,0.15,0.25,0.05)
poder = 0.9
A = c(1, 2, 3, 4)
p_barra = (pC+pE)/2
pC_acum = cumsum(pC)
pE_acum = cumsum(pE)
OR = (pE_acum/(1-pE_acum)) /(pC_acum/(1-pC_acum))
OR_sel = OR[3]
t = 1/(A+1)
posamsize(p_barra, odds.ratio=OR_sel, power=poder, fraction=t)
Saída (output) do R:
Total sample size: 250.6 281.9 334.1 391.6
Efficiency of design compared with continuous response: 0.901 0.901 0.901 0.901

11.3.4 Planilhas Excel®

A seguir apresentam-se exemplos selecionados dos capítulos para ilustrar a utilização da programação
de fórmulas do tamanho de amostra no Excel®.

Para facilitar o acompanhamento, em geral todas as passagens dos cálculos estão indicadas tal que cada
cálculo está armazenado em uma coluna da planilha, em vez de fazer várias passagens
simultaneamente, como faria uma pessoa com mais experiência. Especialmente na fórmula final do
tamanho de amostra, geralmente o quociente de dois termos, as variáveis “Num” e “Den” são usadas
para designar o numerador e denominador, respectivamente. Em muitos casos, a fórmula do tamanho
de amostra (𝑛) ou do numerador (denominador) de 𝑛 é o produto de fatores. Novamente na
programação, a notação ficará clara, por exemplo, com a seguinte indicação fator1*fator2*fator3, como
aparece no exemplo 11.5.

Relembrando que, por uniformidade e para facilitar, as células foram distinguidas por cores: as
entradas foram marcadas em amarelo, as células em que foram efetuados cálculos são as verdes e os
resultados finais estão em vermelho.
Exemplo 11.5 - Programação da fórmula (2.7) no Excel® com os dados do exemplo 2.7
do capítulo 2

A fórmula (2.7) refere-se ao tamanho de amostra para a comparação das médias de dois tratamentos
levando-se em conta seus custos (𝑐1 e 𝑐2 ), supondo-se que a variável analisada tenha distribuição
normal, que as variâncias são conhecidas e que haja homocedasticidade.

A Figura 11.12 mostra a planilha Excel® em que foi programada a fórmula (2.7) e no Quadro 11.13 são
exibidos os comandos utilizados na programação. Inicialmente, na quinta linha da planilha, anotar os
nomes dos termos envolvidos nos cálculos. Por exemplo, nas caselas A5 (quinta linha da coluna A) e
B5 (quinta linha da coluna B), digitar alfa e 1-alfa, respectivamente. No exemplo 2.7, não há
informação dos custos 𝑐1 e 𝑐2 separadamente, mas da razão 𝑐1 /𝑐2 (entrada da coluna I: casela I6).
Propositalmente, as colunas referentes às entradas de 𝑐1 e 𝑐2 foram deixadas em branco em caso de
haver tais informações, quando então a razão (𝑐1 /𝑐2 ) deve ser calculada.

Figura 11.12 - Programação da fórmula (2.7) em planilha Excel®


com os dados do exemplo 2.7 do capítulo 2.
Quadro 11.13 - Comandos utilizados na programação da fórmula (2.7) no Excel® com os
dados do exemplo 2.7 do capítulo 2, referente à planilha mostrada na Figura 11.12

Coluna Digitar na 6ª linha Resultado (6ª linha)


B: 1-alfa =1-A6 0,95
C 1-alfa/2 =1-A6/2 0,975
D: z_(1-alfa/2) =INV.NORM(C6;0;1) 1,96
F: z_poder = INV.NORM(E6;0;1) 1,28
J: gama =RAIZ(I6) 2
M: fator1 =(D6+F6)^2 10,5
N: fator2 =(1+J6)/J6 1,50
O: fator3 =K6/(L6)^2 2,50
P: prod_fatores =M6*N6*O6 39,40
Q: n1 =TETO(P6;1) 40
R: n2 =J6*Q6 80
Nota: INV.NORM(probabilidade; média; desv-padrão): função que fornece o percentil da distribuição normal
que acumula determinada probabilidade; RAIZ(núm): fornece a raiz quadrada do número; TETO(núm):
aproxima para valor inteiro imediatamente superior ao valor calculado.

Exemplo 11.6 - Programação da fórmula (3.16) no Excel® com os dados do exemplo 3.7
do capítulo 3

A Figura 11.13 mostra um recorte da planilha Excel® com a programação da fórmula (3.16) referente
ao exemplo 3.7 para a determinação de amostra utilizando a medida odds ratio no caso de amostras
pareadas. Propositalmente, as colunas G e H (p12 e p21) foram deixadas em branco, pois no
exemplo 3.7 não havia tais dados. Eles estavam consolidados como a probabilidade de discordância
(p12 + p21), que na planilha é o termo pdisc da coluna I. Dependendo da situação, deve-se fazer
adaptação, entrando com as probabilidades individualmente (p12 e p21) e a seguir deve-se calcular a
probabilidade de discordância (pdisc = p12 + p21), como está na planilha. No Quadro 11.14 são
ilustrados os comandos utilizados na programação. Como já comentado, basta digitar os comandos,
aqui na quarta linha de cada coluna, e depois arrastar para as linhas seguintes.
Figura 11.13 - Programação da fórmula (3.16) em planilha Excel®
com os dados do exemplo 3.7 do capítulo 3.

Quadro 11.14 - Comandos utilizados na programação da fórmula (3.16) no Excel® com os


dados do exemplo 3.7 do capítulo 3, referente à planilha mostrada na Figura 11.13

Coluna Digitar na 4ª linha Resultado (4ª linha)


B: 1-alfa/2 =1-A4/2 0,975
C: z_(1-alfa/2) =INV.NORM(B4;0;1) 1,96
E: z_poder =INV.NORM(D4;0;1) 1,28
J: OR+1 =F4+1 3,0
K: OR-1 =F4-1 1,0
L: Fator1 =C4*J4 5,88
M: Fator2 =E4*(RAIZ((J4)^2-(K4)^2*I4)) 3,83
N: Num =(L4+M4)^2 94,36
O: Den =(K4^2)*I4 0,05
P: Num/Den =N4/O4 1887,18
Q: n_McN =TETO(P4;1) 1888
R: Total(casos+controles) =2*Q4 3776
Nota: INV.NORM(probabilidade; média; desv-padrão): função que fornece o percentil da distribuição
normal que acumula determinada probabilidade; RAIZ(núm): função raiz quadrada de um número;
TETO(núm): aproxima para o valor inteiro imediatamente superior ao valor calculado.
Exemplo 11.7 - Programação das fórmulas (9.9) e (9.10) no Excel® com os dados dos exemplos
9.4, 9.5, 9.6, 9.7 e 9.8 do capítulo 9 sobre uso do coeficiente kappa

Na programação das fórmulas para cálculo do tamanho de amostra em estudos de concordância que
utilizam o intervalo de confiança para o coeficiente kappa quando a variável resposta apresenta três ou
cinco categorias, fórmulas (9.9) e (9.10), e também para obter a maximização do erro-padrão a partir
das probabilidades marginais envolvidas nas fórmulas, é importante que a entrada das probabilidades
marginais seja feita em ordem decrescente. As planilhas Excel® de programação referentes aos
exemplos 9.4 a 9.8 estão disponíveis para os leitores.

Exemplo 11.8 - Efeito do número de casas decimais nos resultados obtidos pelo Excel®

Algumas fórmulas são bastante sensíveis à precisão dos dados expressa pelo número de casas decimais
utilizadas. Para o exemplo 6.6 do capítulo 6, a Figura 11.14 ilustra este fato com a fórmula (6.14), para
dimensionamento de amostra pelo método não paramétrico (ZHAO et al., 2008) no caso de três
categorias (𝑘 = 3), mostrando as entradas p1, p2 e p3 com duas e quatro casas decimais.
(a) Entradas p1, p2 e p3 com duas casas decimais
(b) Entradas p1, p2 e p3 com quatro casas decimais.

Figura 11.14 - Recortes das planilhas Excel® para dimensionamento de amostra


pelo método não paramétrico (ZHAO et al., 2008), com três categorias
(𝑘 = 3), utilizando a fórmula (6.14) do capítulo 6.

11.3.5 Pass®

Nesta seção são apresentados quatro exemplos para ilustrar a aplicação do software Pass®14.
O primeiro refere-se ao dimensionamento de estudos no caso de amostras pareadas quando a variância
é conhecida ou desconhecida. O segundo exemplo é para o dimensionamento de ensaio clínico com
dois grupos com dados ordinais, utilizando o método de Whitehead (1993). Os dois últimos exemplos
são sobre o dimensionamento de amostra baseando-se na comparação de duas curvas ROC e para
estudos de concordância que utilizam o intervalo de confiança para o coeficiente kappa,
respectivamente.

Exemplo 11.9 - Uso do comando “Means” do Pass®14 para o dimensionamento de estudos no


caso de amostras pareadas (variância conhecida ou desconhecida)

A utilização do Pass®14 para dimensionamento de amostras no caso de amostras pareadas para a


diferença de média, quando a análise é feita por teste de hipóteses, é ilustrada com os
exemplos 2.9 e 2.10 do capítulo 2.

Lembrando que o exemplo 2.9 é sobre o dimensionamento de amostras para o teste da diferença de
médias no caso de amostras pareadas quando a variância é conhecida, utilizando o software Pass®14, a
opção de escolher em “Means” é “Tests for Paired Means”. É necessário lançar o valor 3,162 (= √10)
do desvio-padrão supostamente conhecido e marcar a opção “Known Standard Deviation”. O resultado
obtido é 𝑛 = 62 e o poder correspondente é 0,80104.

No exemplo 2.10, são utilizadas as mesmas informações do exemplo 2.9, mas supõe-se que a variância
seja desconhecida. Novamente, deve-se escolher as opções “Means” e “Tests for Paired Means” do
Pass®14 e lançar o valor 3,162 (= √10) como valor do desvio-padrão. Entretanto, agora não será
marcado que seja supostamente conhecido, assim a opção “Known Standard Deviation” não deve ser
marcada, tal que a solução (que utiliza a distribuição 𝑡 de Student) será iterativa. O resultado obtido é
𝑛 = 64 e o poder é de 0,80495.

Exemplo 11.10 - Uso do software Pass®14 para o dimensionamento de ensaio clínico com dois
grupos com dados ordinais utilizando o método de Whitehead (1993)

A utilização do software Pass®14 para o dimensionamento de ensaio clínico com dois grupos com
dados ordinais utilizando o método de Whitehead (1993) é ilustrado com o exemplo 6.5 do capítulo 6.
Para essa situação, basta escolher a categoria “Proportions” e, a seguir, entre as 62 opções, usar “Tests
for Two Ordered Categorical Variables”.

Exemplo 11.11 - Uso do software Pass®14 para o dimensionamento de amostra baseado na


comparação de duas curvas ROC

Os resultados mostrados na Tabela 8.9, do exemplo 8.7 do capítulo 8, foram obtidos utilizando-se o
Pass®14. Basta escolher a categoria “ROC” e, a seguir, entre as três opções, escolher “Tests for Two
ROC Curves”. A Figura 11.15 mostra duas telas do Pass®14, sendo a segunda referente a apenas um
caso para ilustrar a entrada das informações. A Figura 11.16 mostra as saídas (outputs) para três casos
selecionados (primeira linha da Tabela 8.9) quando 𝐴𝑆𝐶2 = {0,85; 0,90; 0,95}, a correlação entre as
variáveis é igual a 0,30, a razão 𝑅 = 𝑛𝐶 /𝑛𝐷 é 1 e a variável analisada é classificada como contínua.
(a) Tela mostrando os três procedimentos da categoria ROC

(b) Tela do procedimento “Tests for Two ROC Curves”


para os dados do exemplo 8.7 do capítulo 8

Figura 11.15 - Telas do procedimento “Tests for Two ROC Curves” do software Pass®14.
Figura 11.16 - Saídas (outputs) do Pass®14 (procedimento “Tests for Two ROC Curves”)
referentes à Tabela 8.9 do exemplo 8.7 do capítulo 8 para os três casos considerados
(𝐴𝑆𝐶2 = {0,85; 0,90; 0,95}) com correlação entre as variáveis igual a 0,30 e 𝑅 = 1.

Exemplo 11.12 - Uso do software Pass®14 para cálculo do tamanho de amostra para estudos de
concordância que utilizam o intervalo de confiança para o coeficiente kappa

A Tabela 9.5 do exemplo 9.5 do capítulo 9 pode ser reproduzida utilizando o Pass®14. Basta escolher a
categoria “Correlation” e, a seguir, entre as 19 opções, selecionar “Confidence Interval for kappa”.
A Figura 11.17 mostra duas telas do Pass®14, sendo a segunda referente a apenas um caso para ilustrar
a entrada das informações. A Figura 11.18 mostra as saídas (outputs) para dois casos selecionados
(primeira linha da tabela) quando as frequências marginais são 0,337; 0,333 e 0,33 (que após
arredondamento aparecem como 0,34; 0,33 e 0,33), respectivamente, para kappa igual a 0,7 e 0,6.
(a) Tela mostrando os 19 procedimentos da categoria “Correlation”

(b) Tela do procedimento “Confidence Interval for kappa” mostrando as entradas para o cálculo de
tamanho de amostra referentes à Tabela 9.5 do exemplo 9.5 do capítulo 9.

Figura 11.17 - Telas da categoria “Correlation” e do procedimento


“Confidence Interval for Kappa” do software Pass®14.
Figura 11.18 - Saídas (outputs) do Pass®14 (procedimento “Confidence Interval for Kappa”)
referentes à Tabela 9.5 do exemplo 9.5 do capítulo 9, quando as frequências marginais
são 0,337; 0,333 e 0,33 (que após arredondamento aparecem como 0,34; 0,33 e 0,33),
respectivamente, para os valores de kappa iguais a 0,7 e 0,6.

11.3.6 nQuery Advisor®

O uso de software nQuery Advisor® é ilustrado com o dimensionamento para estudos de


bioequivalência comparando dois produtos. O método implementado é o padrão-ouro, que utiliza a
distribuição 𝑡 não central. Apesar de ser o método mais indicado, é relativamente trabalhoso de ser
programado, daí a praticidade de tal tipo de software.

Exemplo 11.13 - Uso do nQuery Advisor® para cálculo do tamanho de amostra em


estudos de bioquivalência

Os resultados da Tabela 5.12 do exemplo 5.7 do capítulo 5, obtidos por um programa escrito em C,
podem ser reproduzidos utilizando-se o nQuery Advisor®. A Figura 11.19 mostra duas telas do
software, a primeira sobre as escolhas efetuadas e a segunda referente aos termos envolvidos nos
cálculos e saídas (outputs) de apenas um caso (𝜃𝛾 = 0), para os seis valores de
𝜎𝑑 : 0,10; 0,12; 0,14; 0,16; 0,20.
(a) Escolhas efetuadas no exemplo 5.7 do capítulo 5

(b) Entradas e saídas (outputs) obtidos

Figura 11.19 - Telas do software nQuery Advisor® ilustrado com o exemplo 5.7 do capítulo 5
mostrando as escolhas dos comandos, as entradas e as saídas (outputs).
Deve-se ressaltar que na planilha os valores de 𝜎𝑑 foram multiplicados por 2
(𝜎𝑑 : 0,20; 0,24; 0,28; 0,32; 0,40), como é chamada a atenção no quadro à direita do programa (ver
Standard deviation of differences). A justificativa encontra-se no livro do Chow e Liu (2009) e também
no capítulo 5 deste texto: define-se 𝑑𝑖𝑘 = (𝑦𝑖2𝑘 − 𝑦𝑖1𝑘 )/2 como a metade da diferença entre as
medidas dos dois períodos para o 𝑖-ésimo indivíduo na 𝑘-ésima sequência, enquanto que no software
nQuery Advisor® e em alguns textos, a diferença é definida sem dividir por 2. Assim, para haver
consistência entre os termos envolvidos nas fórmulas, deve-se fazer tal ajuste.

11.3.7 Epi Info

Para ilustrar a aplicação do software Epi Info, são apresentados três exemplos utilizando cada uma das
três opções disponíveis para cálculo de tamanho de amostra e poder (opção “Sample Size and Power”)
no módulo StatCalc: a) levantamento populacional (“Population survey”); b) estudos de coorte
ou estudos transversais (Cohort or cross-sectional); c) estudos do tipo caso controle
(Unmatched case-control).

Exemplo 11.14 - Uso do software Epi Info (comando “Population Survey” da opção “Sample Size
and Power”) para cálculo do tamanho de amostra de levantamentos populacionais

Acredita-se que a verdadeira prevalência de anticorpos anti-HIV em uma população seja de 10%.
Estima-se que o tamanho da população investigada seja de 50.000 indivíduos. Amostra aleatória ou
sistemática da população está planejada para estimar a prevalência supondo-se erro máximo aceitável
de 5% (no comando “Population Survey”, o termo usado é limite de confiança).

A Figura 11.20 mostra as entradas e a saída (output) do comando “Population Survey” da opção
“Sample Size and Power” do software Epi Info 7 para vários níveis de confiança. Seguindo a instrução
que aparece na tela, como foi utilizada uma amostra aleatória simples, especifica-se o valor 1 para
“design effect” e “cluster”.

Para avaliar o impacto dos termos envolvidos do cálculo do tamanho de amostra (por exemplo, o
tamanho da população, a pervalência e o limite de confiança), um exercício interessante seria fazer
algumas variações e utilizar o comando “Population Survey”.
Figura 11.20 - Tela do comando “Population Survey” da opção “Sample Size and Power” do
software Epi Info 7, mostrando as entradas e a saída (output) referentes ao exemplo 11.13.

Exemplo 11.15 - Uso do software Epi Info 7 (comando “Cohort or cross-sectional” da opção
“Sample Size and Power”) para cálculo do tamanho de amostra de estudos de coorte ou estudos
transversais com enfoque em testes de hipóteses para a razão de chances (𝑶𝑹)

No exemplo 4.2 do capítulo 4 sobre estudo de coorte, dois grupos de exposição (𝐸 + e 𝐸 − ) foram
acompanhados durante dois anos. Para o dimensionamento do estudo com o enfoque de teste de
hipótese para o risco relativo, o poder e o nível de significância foram fixados em 90% e 5%,
respectivamente. Assumiu-se que no grupo não exposto 35% apresentam o desfecho pesquisado
(𝑃0 = 0,35) e que a proporção entre o grupo exposto seja a metade da proporção do grupo não exposto
(𝑅𝑅 = 0,50).

A Figura 11.21 mostra a tela do comando “Cohort or cross-sectional” da opção “Sample Size and
Power” do Epi Info 7 com as entradas (à esquerda) e os tamanhos de amostra obtidos por três métodos:
Kelsey e Fleiss sem e com correção de continuidade (w/CC). Os resultados dos métodos de Kelsey e
Fleiss são bastante parecidos, enquanto que o de Fleiss com correção de continuidade é bem superior.
O resultado apresentado no exemplo 4.2 usando a fórmula (4.2) coincide com o método de Fleiss.
Figura 11.21 - Tela do comando “Cohort or cross-sectional” da opção “Sample Size and Power”
do software Epi Info 7, mostrando as entradas referentes ao exemplo 11.15 (1 − 𝛼 = 0,95;
1 − 𝛽 = 0,90; 𝑃0 = 0,35; 𝑅𝑅 = 0,50) e os tamanhos de amostra obtidos por
três métodos: Kelsey e Fleiss sem e com correção de continuidade (w/CC).

Exemplo 11.16 - Uso do software Epi Info (comando “Unmatched case-control” da opção
“Sample Size and Power”) para cálculo do tamanho de amostra em estudo caso-controle com
enfoque em teste de hipóteses para a razão de chances (𝑶𝑹)

No exemplo 4.6 do capítulo 4 sobre estudo caso-controle sem pareamento com enfoque em teste de
hipótese para a razão de chances (𝑂𝑅), supondo-se que a proporção de ocorrências entre os não
expostos seja de 2% (𝑃0∗ = 0,02), pode-se calcular a proporção para o grupo de exposto (𝑃1∗ ) para
valores fixos da razão de chance (𝑂𝑅). Por exemplo, para 𝑂𝑅 = 3, tem-se que 𝑃1∗ = 0,058. Na
Tabela 4.2 foram mostrados os tamanhos de amostras para vários valores de 𝑂𝑅, com 𝛼 = 𝛽 = 0,05.

A Figura 11.22 mostra a tela do comando “Unmatched case-control” da opção “Sample Size and
Power” do software Epi Info 7 com as entradas e o tamanho de amostra referente a apenas um caso da
Tabela 4.2: 𝑂𝑅 = 3. Por questão de aproximação utilizada no software, para obter 𝑂𝑅 = 3 foi
necessário entrar com (𝑃0∗ = 0,0200001), correspondendo a 2,00001% tal que 𝑃1∗ seja igual a 0,058.
Assim como no exemplo 11.15 sobre estudo de coorte, são apresentados três métodos: Kelsey, Fleiss e
Fleiss w/CC (com correção de continuidade). Novamente, há pouca diferença entre os resultados dos
métodos de Kelsey e Fleiss e o valor do método de Fleiss com correção de continuidade é bem superior
aos demais. O resultado apresentado no exemplo 4.6 usando a fórmula (4.7) para hipótese bilateral
coincide com o método de Fleiss.

Figura 11.22 - Tela do comando “Unmatched case-control” da opção “Sample Size and Power”
do software Epi Info 7, mostrando as entradas do exemplo 11.16 (1 − 𝛼 = 1 − 𝛽 = 0,95;
𝑃0∗ = 0,0200001; 𝑃1∗ = 0,058; 𝑂𝑅 = 3) e os tamanhos de amostra obtidos por
três métodos: Kelsey e Fleiss sem e com correção de continuidade (w/CC).

11.4 Resumo de softwares/programas utilizados por capítulo

O Quadro 11.15 apresenta resumo de softwares/programas (comerciais, de domínio público, incluindo


o software livre R) que podem ser utilizados tanto para os métodos apresentados nos capítulos do texto
como para métodos relacionados e/ou citados.
Quadro 11.15 - Resumo de softwares/programas segundo os assuntos principais dos capítulos

Capítulo (assunto principal) Software/Programa

2 (Médias)
Pass®, nQuery Advisor®, Minitab®, PS: Power and Sample
Size Calculation, Programa desenvolvido pelo LEE, pacotes do
R: pwr, HMISC (funções: samplesize.bin e bpower).

3 (Proporções) Pass®, nQuery Advisor®, Minitab®, PS: Power and Sample


Size Calculation, programa desenvolvido pelo LEE, Epi Info,
OpenEpi, pacotes do R: pwr, MESS
4 (Estudos epidemiológicos e Pass®, nQuery Advisor®, PS: Power and Sample Size
clínicos) Calculation, programa desenvolvido pelo LEE, Epi Info,
OpenEpi, pacote do R: pwr
Pass®, nQuery Advisor®
5 (Ensaios de não inferioridade,
superioridade e equivalência)

6 (Regressão e correlação) Pass®, nQuery Advisor®, PS: Power and Sample Size
Calculation, pacotes do R: pwr, HMISC (funções: posamsize,
popower)
7 (Sobrevivência)
Pass®, nQuery Advisor®, PS: Power and Sample Size
Calculation, pacotes do R: TrialSize (funções:
TwoSampleSurvival.Conditional,
TwoSampleSurvival.Equality,
TwoSampleSurvival.Equivalence, TwoSampleSurvival.NIS);
HMISC (função cpower); powerSurvEpi (funções: numDEpi,
power.stratify, powerCT, powerEpi, powerEpiCont,
powerEpiInt, ssize.stratify, ssizeCT, ssizeEpi, ssizeEpiCont,
ssizeEpiInt)

8 (Concordância) Pass®, nQuery Advisor®, pacote do R: MESS (função:


power.mcnemar.test)
Pass®, nQuery Advisor®, pacote do R: kappaSize
9 (Acurácia de testes diagnósticos)

Pass®, nQuery Advisor® + nTerim 4.0, StatXact®


10 (Tópicos especiais: métodos
não paramétricos, modelos
lineares generalizados, dados
agrupados e longitudinais, poder
exato, estudos sequenciais,
metanálise)
ABREU M. N. S. et al. Ordinal logistic regression models: applications in quality of life studies.
Cadernos de Saúde Pública, v. 24, Sup 4, p. S581-S591, 2008.

ABREU M. N. S.; SIQUEIRA, A. L.; CAIAFFA, W. T. Regressão logística ordinal em estudos


epidemiológicos. Revista de Saúde Pública, v. 43, n. 1, p. 183-194, 2009.

AHN, C.; HEO, M; ZHANG, S. Sample size calculations for clustered and longitudinal outcomes
in clinical research. Boca Raton: Chapman & Hall/CRC, 2015. 244 p.

AHN, C.; HU, F.; SCHUCANY, W. R. Sample size calculations for clustered binary data with sign
tests using different weighing schemes. Statistics in Biopharmaceutical Research, v. 3, n. 1, p. 65-
72, 2011.

AITKIN, M.; FRANCIS, B.; HINDE, J. Statistical modelling in GLIM4 (Oxford Statistical Science
Series) 2. ed. Oxford: Oxford University Press, 2005. 572 p.

ALBERT, A.; ANDERSON, J. A. On the existence of maximum likelihood estimates in logistic


regression models. Biometrika, v. 71, n. 1, p. 1-10, 1984.

Al-SUNDUQCHI, M. S. Determining the appropriate sample size for inferences based on the
Wilcoxon statistics. 1990. 262 f. Ph.D. Thesis (Statistics), University of Wyoming, Laramie, WY,
1990.

ALONZO, T. A.; PEPE, M. S. Distribution-free ROC analysis using binary regression techniques.
Biostatistics, v. 3, n. 3, p. 421-432, 2002.

ALTAYE, M.; DONNER, A.; KLAR, N. Inference procedures for assessing interobserver agreement
among multiple raters. Biometrics, v. 57, n. 2, p. 584-588, 2001.

ALTMAN, D. G. Practical statistics for medical research. London: Chapman & Hall/CRC, 1991.
611 p.

ALTMAN, D. G.; BLAND, J. M. Statistics notes: Standard deviations and standard errors. British
Medical Journal, v. 311, n. 7521, p. 903, 2005.

ARKIN, C. F.; WACHTEL, M. S. How many patients are necessary to assess test performance?
Journal of American Medical Association, v. 263, n. 2, p. 275-278, 1990.

BACHMANN, L. M. et al. Sample sizes of studies on diagnostic accuracy: literature survey. British
Medical Journal, v. 332, n. 7550, p. 1127-1129, 2006.
BANG, H.; JUNG, S. H.; GEORGE, S. L. Sample size calculation for simulation-based multiple-
testing procedures. Journal of Biopharmaceutical Statistics, v. 15, n. 6, p. 957-967, 2005.

BARBETTA, P. A. Estatística aplicada às ciências sociais. 9. ed. Florianópolis: Editora UFSC, 2014.
320 p.

BARRERA-GÓMEZ, J.; SPIEGELMAN, D.; BASAGAÑA, X. Optimal combination of number of


participants and number of repeated measurements in longitudinal studies with time-varying exposure.
Statistics in Medicine, v. 32, n. 27, p. 4748-4762, 2013.

BARROS, F. C.; VICTORA, C. G. Epidemiologia da saúde infantil: um manual para diagnósticos


comunitários. 3. ed. São Paulo: HUCITEC/ UNICEF, 1998. 176 p.

BASAGAÑA, X.; LIAO, X.; SPIEGELMAN, D. Power and sample size calculation for longitudinal
studies estimating a main effect of a time-varying exposure. Statistical Methods in Medical
Research, v. 20, n. 5, p. 471-487, 2011.

BASAGAÑA, X.; SPIEGELMAN, D. Power and sample size calculations for longitudinal studies
comparing rates of change with a time-varying exposure. Statistics in Medicine, v. 29, n. 2, p. 181-
192, 2010.

BEAM, C. A. Strategies for improving power in diagnostic radiology research. American Journal of
Roentgenology, v. 159, n. 3, p. 631-637, 1992.

BECK, S. T. et al. Taxa de probabilidade como guia de interpretação do FAN-HEp-2 na pesquisa de


autoanticorpos no lúpus eritematoso sistêmico. Jornal Brasileiro de Patologia e Medicina
Laboratorial, v. 45, n. 4, p. 275-283, 2009.

BICKEL, P. J.; DOKSUM, K. A. Mathematical statistics: basic ideas and selected topics. 2. ed. Boca
Raton: Chapman and Hall/CRC, 2015. 576 p.

BIRKETT, M. A.; DAY, S. J. Internal pilot studies for estimating sample size. Statistics in Medicine,
v. 13, n. 23-24, p. 2455-2463, 1994.

BLAND, J. M. The tyranny of power: is there a better way to calculate sample size? British Medical
Journal, v. 339, p. b3985, 2009.

BLAND, J. M.; ALTMAN, D. G. Statistics notes: matching. British Medical Journal, v. 309, n. 6962,
p. 1128, 1994.

BOCHMANN, F.; JOHNSON, Z.; AZUARA-BLANCO, A. Sample size in studies on diagnostic


accuracy in ophthalmology: a literature survey. British Journal of Ophthalmology, v. 91, n. 7, p. 898-
900, 2007.

BOLFARINE. H.; BUSSAB, W. O. Elementos de amostragem. São Paulo: Blucher, 2005. 269 p.

BORENSTEIN, M. et al. Introduction to meta analysis. Chichester, UK: John Willey, 2009. 421p.
BORENSTEIN, M. et al. A basic introduction to fixed-effect and random-effects models for meta-
analysis. Research Synthesis Methods, v. 1, n. 2, p. 97-111, 2010.

BORGES, J. M. Planejamento e análise de estudos envolvendo a distribuição de Poisson. Belo


Horizonte: Instituto de Ciências Exatas da Universidade Federal de Minas Gerais, 2002. 108 p.
(Dissertação, Mestrado em Estatística).

BOWKER, A. H. A test for symmetry in contingency tables. Journal of the American Statistical
Association, v. 43, n. 244, p. 572-574, 1949.

BRANT, R. Assessing proportionality in the proportional odds model for ordinal logistic regression.
Biometrics, v. 46, n. 4, p. 1171-1178, 1990.

BRESLOW, N. E. Discussion of Professor Cox’s paper. Journal of the Royal Statistical Society,
Series B (Methodological), v. 34, p. 216–217, 1972.

BRESLOW, N. E.; DAY, N. E. Statistical methods in cancer research: The analysis of case-control
studies. Lyon: IARC Scientific Publications, v. 1, 1980. 350 p.

BRESLOW, N. E.; DAY, N. E. Statistical methods in cancer research: The design and analysis of
cohort studies. Lyon: IARC Scientific Publications, v. 2, 1987. 406 p.

BROWNER, W. S.; NEWMAN, T. B.; HULLEY, S. B. Estimando o tamanho de amostra e o poder


estatístico: aplicações e exemplos. In: HULLEY, S. B. et al. Delineando a pesquisa clínica: uma
abordagem epidemiológica. 4. ed. Porto Alegre: Artmed Editora, 2015. cap 6.

BUDERER, N. M. Statistical methodology: I. Incorporating the prevalence of disease into the sample
size calculation for sensitivity and specificity. Academic Emergency Medicine, v. 3, n. 9, p. 895-900,
1996.

BYRT, T.; BISHOP, J.; CARLIN, J. B. Bias, prevalence and kappa. Journal of Clinical
Epidemiology, v. 46, n. 5, p. 423-429, 1993.

CAMPBELL, G. General methodology I: Advances in statistical methodology for the evaluation of


diagnostic and laboratory tests, Statistics in Medicine, v. 13, n. 5-7, p. 499-508, 1994.

CAMPBELL, M. J.; JULIOUS, S. A.; ALTMAN, D. G. Estimating sample sizes for binary, ordered
categorical, and continuous outcomes in two group comparisons. British Medical Journal, v. 311, n.
7013, p. 1145-1148, 1995. Errata em: British Medical Journal, v. 312, n. 7023, p. 96, 1996.

CANTOR, A. B. Sample-size calculations for Cohen’s kappa, Psychological Methods, v. 1, n. 2, p.


150-153, 1996.

CARLEY, S. et al. Simple nomograms to calculate sample size in diagnostic studies. Emergency
Medicine Journal, v. 22, n. 3, p. 180-181, 2005. Errata em: Emergency Medicine Journal, v. 22, n. 5,
p. 352, 2005.

CARNEIRO, A. P. S. Estudo comparativo da tomografia computadorizada de alta resolução com


o RX de tórax no diagnóstico da silicose. Belo Horizonte: Faculdade de Medicina da Universidade
Federal de Minas Gerais, 2000. 139 f. (Dissertação, Mestrado em Saúde Pública).

CARNEIRO, A. P. S. et al. Estudo comparativo da tomografia computadorizada de alta resolução


coma a radiografia de tórax no diagnóstico da silicose em casos incipientes. Jornal de Pneumologia,
v. 27, n. 4, p. 199-205, 2001.

CARVALHO, M. S. et al. Análise de sobrevivência: teoria e aplicações em saúde. 2. ed. Rio de


Janeiro: Editora Fiocruz, 2011. 432 p.

CASAGRANDE, J. T.; PIKE, M. C.; SMITH, P. G. An improved approximate formula for calculating
sample size for comparing two binomials distributions. Biometrics, v. 34, n. 3, p. 483-486, 1978.

CASELLA, G.; BERGER, R. L. Statistical inference. 2. ed. Stamford, CT: Cengage Learning, 2001.
660 p.

CHAN, I. S. F. Power and sample size determination for noninferiority trials using an exact method.
Journal of Biopharmaceutical Statistics, v. 12, n. 4, p. 457-469, 2002.

CHAN, I. S. F. Proving non-inferiority or equivalence of two treatments with dichotomous endpoints


using exact methods. Statistical Methods in Medical Research, v. 12, n. 1, p. 37-58, 2003.

CHELLINI, P. R. Boas práticas estatísticas em estudos de bioequivalência com delineamento


crossover 2x2. Belo Horizonte: Instituto de Ciências Exatas da Universidade Federal de Minas Gerais,
2007. 71 f. (Dissertação, Mestrado em Estatística).

CHELLINI, P. R.; SIQUEIRA, A. L. Incerteza da estimativa da variabilidade em estudos de


bioequivalência. In: SIMPÓSIO NACIONAL DE PROBABILIDADE E ESTATÍSTICA, 17, 2006,
Caxambu. Anais... Caxambu, 2006. 1CD-ROM.

CHEN, D.-G.; PEACE, K. E. Applied meta-analysis with R. Boca Raton: Chapman & Hall/CRC,
2013. 321p.

CHIN, R. Adaptive and flexible clinical trials. Boca Raton: CRC Press Chapman & Hall, 2012.
198 p.

CHOW, S.-C.; CHANG, M. Adaptive design methods in clinical trials. Orphanet Journal of Rare
Diseases, v. 3, n. 1, article 11, 2008.

CHOW, S.-C.; CHANG, M. Adaptive design methods in clinical trials. 2. ed. Boca Raton: Chapman
& Hall, 2012. 374 p.

CHOW, S.-C.; LIU, J.-P. Design and analysis of bioavailability and bioequivalence studies. 3. ed.
Boca Raton: Chapman & Hall/CRC Biostatistics Series, 2009. 733 p.

CHOW, S.-C.; LIU, J.-P. Design and analysis of clinical trials: Concepts and Methodologies. 3. ed.
Hoboken/NJ: John Wiley & Sons, 2013. 892 p.
CHOW, S.-C.; SHAO, J.; WANG, H. Sample size calculation in clinical research. New York:
Marcel Dekker, 2003. 358 p.

CHOW, S.-C.; SHAO, J.; WANG H. Sample size calculation in clinical research, 2. ed. Boca Raton:
Chapman & Hall, 2008. 465 p.

CHUANG-STEIN, C. et al. Sample size reestimation: a review and recommendations. Drug


Information Journal, v. 40, n. 4, p. 475-484, 2006.

CICCHETTI, D. V.; FEINSTEIN, A. R. High agreement but low kappa: II. Resolving the paradoxes.
Journal of Clinical Epidemiology, v. 43, n. 6, p. 551-558, 1990.

CICCHETTI, D. V.; SPARROW, S. A. Developing criteria for establishing interrater reliability of


specific items: applications to assessment of adaptive behavior, American Journal of Mental
Deficiency, v. 86, n. 2, p. 127-137, 1981.

COCHRAN, W. G. Sampling techniques. 3. ed. New York: John Wiley & Sons, 1977. 428 p.

COHEN, J. A coefficient of agreement for nominal scales. Educational and Psychological


Measurement, v. 20, n. 1, p. 37-46, 1960.

COHEN, J. Weighted kappa: nominal scale agreement with provision for scaled disagreement or partial
credit. Psychological Bulletin, v. 70, n. 4, p. 213-220, 1968.

COHEN, J. Statistical Power Analysis for the Behavioral Sciences. Revised ed. Lawrence Erlbaum
Associates, 1977. 474 p.

COHEN, J. Statistical power analysis for the behavioral sciences. 2. ed. Lawrence Erlbaum
Associates, 1988. 567 p.

COHN, L. D.; BECKER, B. J. How meta-analysis increases statistical power. Psycological Methods,
v. 8, n. 3, p. 243-253, 2003.

COLLETT, D. Modelling binary data. 2. ed. Boca Raton: Chapman & Hall/CRC, 2003. 387 p.

COLLETT, D. Modelling survival data in medical research. 3. ed. Boca Raton: Chapman & Hall,
2015. 548 p.

COLOSIMO, E. A.; CHALITA, L. V.; DEMÉTRIO, C. G. Tests of proportional hazards and


proportional odds models for grouped survival data. Biometrics, v. 56, n. 4, p. 1233-1240, 2000.

COLOSIMO, E. A.; GIOLO, S. R. Análise de sobrevivência aplicada. ABE: Projeto Fisher. São
Paulo: Editora Edgard Blücher, 2006. 370 p.

CONNETT, J. E; SMITH, J. A.; McHUGH, R. B. Sample size and power for pair-matched case-
control studies. Statistics in Medicine, v. 6, n. 1, p. 53-59, 1987.

CONNOR, R. J. Sample size for testing differences in proportions for the paired-sample design.
Biometrics, v. 43, n. 1, p. 207-211, 1987.

CONOVER, W. J. Practical nonparametric statistics, 2. ed. New York: John Wiley & Sons, 1980.
493 p.

CONOVER, W. J. Practical nonparametric statistics, 3. ed. New York: John Wiley & Sons, 1999.
592 p.

COOK, T. D.; DeMETS, D. L. Introduction to statistical methods for clinical trials. Boca Raton:
Chapman & Hall/CRC, 2008. 439 p.

CUI, L.; HUNG, H. M. J.; WANG, S.-J. Modification of sample size in group sequential clinical trials.
Biometrics, v. 55, n. 3, p. 853-857, 1999.

DANN, R. S.; KOCH, G. G. Methods for one-sided testing of the difference between proportions and
sample size considerations related to non-inferiority clinical trials. Pharmaceutical Statistics, v. 7,
n. 2, p. 130-141, 2008.

De MARTINI, D.; TELESCA, D. NP-SIZE: a programme to compute power and sample size for
nonparametric tests. In: INTERNATIONAL WORKSHOP ON STATISTICAL MODELLING, 1999,
Graz, Proceedings… Graz: Statistical Modelling Society, 1999. p. 472-475.

DEMIDENKO, E. Sample size determination for logistic regression revisited. Statistics in Medicine,
v. 26, n. 18, p. 3385-3397, 2007.

DEMIDENKO, E. Sample size and optimal design for logistic regression with binary interaction.
Statistics in Medicine, v. 27, n. 1, p. 36-46, 2008.

DILETTI, E.; HAUSCHKE, D.; STEINIJANS, V. W. Sample size determination for bioequivalence
assessment by means of confidence intervals. International Journal of Clinical Pharmacology,
Therapy, and Toxicology, v. 29, n. 1, p. 1-8, 1991.

DIXON, W. J.; MASSEY, F. J. Introduction to statistical analysis. 4. ed. New York: McGraw-Hill,
1983. 678 p.

DOBSON, A. J.; BARNETT, A. G. An Introduction to generalized linear models, 3. ed. Boca


Raton: Chapman & Hall/CRC, 2008. 320 p.

DONNER, A. Sample size requirements for the comparison of two or more coefficients of inter-
observer agreement. Statistics in Medicine, v. 17, n. 10, p. 1157–1168, 1998.

DONNER, A.; ELIASZIW, M. A goodness-of-fit approach to inference procedures for the kappa
statistic: confidence interval construction, significance-testing and sample size estimation. Statistics in
Medicine, v. 11, n. 11, p. 1511-1519, 1992.

DONNER, A.; ROTONDI, M. A. Sample size requirements for interval estimation of the kappa
statistic for interobserver agreement studies with a binary outcome and multiple raters. The
International Journal of Biostatistics, v. 6, n. 1, article 31, 2010.
DONOHUE, M. C.; EDLAND, S. D.; GAMST, A. C. Power of linear models of longitudinal data with
applications to Alzheimer´s disease Phase II study design. Manuscript of Division of Biostatistics and
Bioinformatics University of California, 2016. Disponível em: https://cran.r-
project.org/web/packages/longpower/vignettes/longpower.pdf Acesso em: nov./2016.

DRAPER, N. R.; SMITH, H. Applied regression analysis. 3. ed. New York: John Wiley & Sons,
1998. 706 p.

DRETZKE, B. Statistics with Microsoft Excel. 5. ed. Upper Saddle River: Prentice Hall, 2011. 288p.

DUFFY, S. W. Asymptotic and exact power for the McNemar test and its analogue with R controls per
case, Biometrics, v. 40, n. 4, p. 1005-1015, 1984.

DUPONT, W. D. Power calculations for matched case-control studies, Biometrics, v. 44, n. 4, p. 1157-
1168, 1988.

DUPONT, W. D.; PLUMMER, W. D. JR. Power and sample size calculations: a review and computer
program, Controlled Clinical Trials, v. 11, n. 2, p. 116-128, 1990.

DUPONT, W. D.; PLUMMER, W. D. JR. Power and sample size calculations for studies involving
linear regression, Controlled Clinical Trials, v. 19, n. 6, p. 589-601, 1998.

EFRON, B.; TIBSHIRANI, R. J. An introduction to the bootstrap. New York: Chapman and
Hall/CRC, 1993. 456 p.

ENG, J. Sample size estimation: how many individuals should be studied? Radiology, v. 227, n. 2, p.
309-313, 2003.

EVERITT, B. S.; PICKLES, A. Statistical aspects of the design and analysis of clinical trials.
Revised ed. London: Imperial College Press, 2004. 323 p.

FAN, C.; ZHANG, D.; ZHANG, C.-H. On sample size of the Kruskal-Wallis test with application to
the mouse peritoneal cavity study. Biometrics, v. 67, n. 1, p. 213-224, 2011.

FEINSTEIN, A. R.; CICCHETTI, D. V. High agreement but low kappa: I. The problems of two
paradoxes. Journal of Clinical Epidemiology, v. 43, n. 6, p. 543-549, 1990.

FIRTH, D. Bias Reduction of maximum likelihood estimates, Biometrika, v. 80, n. 1, p. 27-38, 1993.

FISCHL, M. A. et al. The efficacy of azidothymidine (AZT) in the treatment of patients with AIDS
and AIDS-related complex. A double-blind, placebo-controlled trial. The New England Journal of
Medicine, v. 317, n. 4, p. 185-91, 1987.

FLACK, V. F. Confidence intervals for the two rater kappa. Communications in Statistics: Theory
and Methods, v. 16, p. 953-968, 1987.

FLACK, V. F. et al. Sample size determinations for the two rater kappa statistic, Psychometrika,
v. 53, n. 3, p. 321-325, 1988.
FLEISS, J. L. Measuring nominal scale agreement among many raters. Psychological Bulletin, v. 76,
n. 5, p. 378-382, 1971.

FLEISS, J. L. Statistical methods for rates and proportions. 2. ed. New York: John Wiley & Sons,
1981. 321 p.

FLEISS, J. L. The design and analysis of clinical experiments. New York: John Wiley & Sons, 1986.
432 p.

FLEISS, J. L.; COHEN, J. The equivalence of weighted kappa and the intraclass correlation coefficient
as measures of reliability. Educational and Psychological Measurement, v. 33, n. 3, p. 613–619,
1973.

FLEISS, J. L.; COHEN, J.; EVERITT, B. S. Large sample standard errors of kappa and weighted
kappa. Psychological Bulletin, v. 72, n. 5, p. 323-327, 1969.

FLEISS, J. L.; LEVIN, B.; PAIK, M. C. Statistical methods for rates and proportions. 3. ed. New
York: John Wiley & Sons, 2003. 800 p.

FONSECA, I. K. Análise do tempo até a ocorrência de um evento para dados censurados e


intervalares. Belo Horizonte: Instituto de Ciências Exatas da Universidade Federal de Minas Gerais,
2003. 56 f. (Dissertação, Mestrado em Estatística).

FOPPA, I.; SPIEGELMAN, D. Power and sample size calculations for case-control studies of gene-
environment interactions with a polytomous exposure variable. American Journal of Epidemiology,
v. 146, n. 7, p. 596-604, 1997.

FREIMAN, J. A. et al. The importance of beta, the type II error and sample size in the design and
interpretation of the randomized control trial. The New England Journal of Medicine, v. 299, n. 13,
p. 690-694, 1978.

FRIEDMAN, L. et al. Fundamentals of clinical trials. 5. ed. New York: John Wiley & Sons, 2015.
550 p.

GALDURÓZ, J. C. F. et al. Fatores associados ao uso pesado de álcool entre estudantes das capitais
brasileiras. Revista de Saúde Pública, v. 44, n. 2, p. 267-273, 2010.

GALEN, R. S.; GAMBINO, S. R. Beyond normality: the predictive value and efficiency of medical
diagnosis. New York: John Wiley & Sons, 1975. 254 p.

GARDNER, M. J.; ALTMAN, D. G. Confidence intervals rather than P values: estimation rather than
hypothesis testing. British Medical Journal, v. 292, n. 6522, p. 746-750, 1986.

GARRETT, A. D. Therapeutical equivalence: fallacies and falsification. Statistics in Medicine, v. 22,


n. 5, p. 741-762, 2003.

GAUDERMAN, W. J. Sample size requirements for association studies of gene-gene interaction.


American Journal of Epidemiology, v. 155, n. 5, p. 478-484, 2002.
GORDIS, L. Epidemiologia. 4. ed. Rio de Janeiro: Revinter, 2010. 392 p.

GREENLAND, S. Meta-analysis. In: ROTHMAN, K. J.; GREENLAND, S.; LASH, T. L. Modern


Epidemiology. 3. ed. Philadelphia: Lippincott Williams & Wilkins, 2008. cap. 33.

GUENTHER, W. C. Sample size formulas for normal theory t-tests. The American Statistician, v. 35,
n. 4, p. 243-244, 1981.

HAJIAN-TILAKI, K. Sample size estimation in diagnostic test studies of biomedical informatics.


Journal of Biomedical Informatics, v. 48, C, p. 193-204, 2014.

HAMILTON, M. A.; COLLING, B. J. Determining the appropriate sample size for nonparamentric
tests for location shift. Technometrics, v. 33, n. 3, p. 327-337, 1991.

HANLEY, J. A.; McNEIL, B. J. The meaning and use of the area under a receiver operating
characteristic (ROC) curve. Radiology, v. 143, n. 1, p. 29-36, 1982.

HANLEY, J. A.; CSIZMADI, I.; COLLET, J. P. Two-stage case-control studies: precision of


parameter estimates and considerations in selecting sample size. American Journal of Epidemiology,
v. 162, n. 12, p. 1225-1234, 2005.

HARDIN, J. W.; HILBE, J. M. Generalized linear models and extensions, 3. ed. Stata Press, 2012.
479 p.

HAUSCHKE, D.; STEINIJANS, V.; PIGEOT, I. Bioequivalence studies in drug development:


methods and applications. New York: John Wiley & Sons, 2007. 311 p.

HAYNES, R. B. et al. Epidemiologia clínica: como realizar pesquisa clínica na prática. 3. ed. Santa
Cecília: Artmed Editora, 2006. 544 p.

HEDEKER, D.; GIBBONS, R. D.; WATERNAUX, C. Sample size estimation for longitudinal designs
with attrition: comparing time-related contrasts between two groups. Journal of Educational and
Behavioral Statistics, v. 24, n. 1, p. 70-93, 1999.

HEDGES, L. V.; OLKIN, I. Statistical methods for meta-analysis. New York: Academic Press,
1985. 369 p.

HEDGES, L. V.; PIGOTT, T. D. The power of statistical tests in meta-analysis. Psycological


Methods, v. 6, n. 3, p. 203-217, 2001.

HEDGES, L. V.; PIGOTT, T. D. The power of statistical tests for moderators in meta-analysis.
Psycological Methods, v. 9, n. 4, p. 424-445, 2004.

HEINZE, G.; DUNKLE, D. Avoiding infinite estimates of time-dependent effects in small-sample


survival studies. Statistics in Medicine, v. 27, n. 30, p. 6455-6469, 2008.

HEINZE, G.; SCHEMPER, M. A solution to the problem of monotone likelihood in Cox regression.
Biometrics, v. 57, n. 1, p. 114-119, 2001.
HILBE, J. M. Logistic regression models. Boca Raton: Chapman & Hall/CRC. 2009. 637 p.

HILTON, J. F.; MEHTA, C. R. Power and sample size calculations for exact conditional tests with
ordered categorial data. Biometrics, v. 49, n. 2, p. 609-616, 1993.

HIRJI, K. F. Exact analysis of discrete data. Boca Raton: Chapman & Hall/CRC, 2005. 552 p.

HOENIG, J. M.; HEISEY, D. M. The abuse of power: the pervasive fallacy of power calculation for
data analysis. The American Statistician, v. 55, n. 1, p. 19-24, 2001.

HOSMER, W. D.; LEMESHOW, S.; STURDIVANT, R. X. Applied logistic regression. 3. ed. New
York: John Wiley & Sons, 2013. 528 p.

HSIEH, F. Y. Sample size tables for logistic regression. Statistics in Medicine. John Wiley & Sons.
v. 8, n. 7, p. 795-802, 1989.

HSIEH, F. Y.; BLOCH, D. A.; LARSEN, M. D. A simple method of sample size calculation for linear
and logistic regression. Statistics in Medicine, v. 17, n. 14, p. 1623-1634, 1998.

HSIEH, F. Y.; LAVORI, P. W. Sample-Size calculations for the Cox proportional hazards regression
model with nonbinary covariates. Controlled Clinical Trials, v. 21, n. 6, p. 552-560, 2000.

HULLEY, S. B. et al. Delineando a pesquisa clínica: uma abordagem epidemiológica. 4. ed. Porto
Alegre: Artmed Editora, 2015. 400 p.

HUNG, H. M.; WANG, S. J.; O'NEILL, R. A regulatory perspective on choice of margin and statistical
inference issue in non-inferiority trials. Biometrical Journal, v. 47, n. 1, p. 28-36, 2005.

HWANG, S. J. et al. Minimum sample size estimation to detect gene-environment interaction in case-
control designs. American Journal of Epidemiology, v. 140, n. 11, p. 1029-1037, 1994.

JEKEL, J. F.; ELMORE, J. G.; KATZ, D. L. Epidemiologia, bioestatística e medicina preventiva.


2. ed. Porto Alegre: Artmed Editora, 2005. 432 p.

JENNISON, C.; TURNBULL, B. W. Group sequential methods with applications to clinical trials.
Boca Raton: Chapman & Hall/CRC, 2000. 390 p.

JONES, B.; KENWARD, M. G. Design and analysis of cross-over trials. 3. ed. Boca Raton:
Chapman & Hall/CRC, 2015. 438 p.

JULIOUS, S. A. Sample sizes for clinical trials. Boca Raton: Chapman & Hall/CRC, 2010. 299 p.

JULIOUS, S. A. et al. Sample sizes for randomized trials measuring quality of life in cancer patients.
Quality of Life Research, v. 6, n. 2, p. 109-117, 1997.

JULIOUS, S. A. et al. Determining sample sizes for cancer trials involving quality of life instruments.
British Journal of Cancer, v. 83, n. 7, p. 959-963, 2000.
JULIOUS, S. A.; CAMPBELL, M. J.; ALTMAN, D. G. Estimating sample sizes for continuous,
binary, and ordinal outcomes in paired comparisons: practical hints. Journal of Biopharmaceutical
Statistics, v. 9, n. 2, p. 241-251, 1999.

JULIOUS, S. A.; OWEN, R. J. A comparison of methods for sample size estimation for non-inferiority
studies with binary outcomes. Statistical Methods in Medical Research, v. 20, n. 6, p. 595-612, 2011.

JUNG, S.-H. et al. Sample size computation for two-sample noninferiority log-rank test. Journal of
Biopharmaceutical Statistics, v. 15, n. 6, p. 969-979, 2005.

KIM, H. Y.; WILLIAMSON, J. M.; LIN, H.-M. Power and sample size calculations for interval-
censored survival analysis. Statistics in Medicine, v. 35, n. 8, p. 1390-1400, 2016.

KISH, L. Survey sampling. New York: John Wiley & Sons, 1965, 643 p.

KOLASSA, J. E. A comparison of size and power calculations for the Wilcoxon statistic for ordered
categorical data. Statistics in Medicine, v. 14, n. 14, p. 1577-1581, 1995.

KOMATSUZAKI, F. Métodos exatos em tabelas de contingência. Belo Horizonte: Instituto de


Ciências Exatas da Universidade Federal de Minas Gerais, 2001. 99 f. (Dissertação, Mestrado em
Estatística).

KULINSKAYA, E.; MORGENTHALER, S.; STAUDTE, R. G. Meta analysis: a guide to calibrating


and combining statistical evidence. New York: John Willey, 2008. 260p.

KUPPER, L. L.; HAFNER, K. B. How appropriate are popular sample size formulas? The American
Statistician, v. 43, n. 2, p. 101-105, 1989.

KUTNER, M. H. et al. Applied linear statistical models. 5. ed. New York: McGraw-Hill, 2004.
1396 p.

LACHENBRUCH, P. A. On the sample size for studies based upon McNemar's test. Statistics in
Medicine, v. 11, n. 11, p. 1521-1525, 1992.

LACHIN, J. M.; FOULKES, M. A. Evaluation of sample size and power for analyses of survival with
allowance for nonuniform patient entry, losses to follow-up, noncompliance, and stratification.
Biometrics, v. 42, n. 3, p. 507-519, 1986.

LAKATOS, E.; LAN, K. K. G. A comparison of sample size methods for the logrank statistic.
Statistics in Medicine, v. 11, n. 2, p. 179-191, 1992.

LANDAU, S.; STAHL, D. Sample size and power calculations for medical studies by simulation when
closed form expressions are not available. Statistical Methods Medical Research, v. 22, n. 3, p. 324,
2013.

LANDIS, J. R.; KOCH, G. G. The measurement of observer agreement for categorical data.
Biometrics, v. 33, n. 1, p. 159-174, 1977.
LAWLESS, J. F. Statistical models and methods for lifetime data. 2. ed. New York: John Wiley &
Sons, 2003, 630 p.

LEE, E. W.; WEI, L. J.; AMATO, D. A. Cox-type regression analysis for large number of small groups
of correlated failure time observations. In: KLEIN, J. P.; GOEL, P. K. (Eds.). Survival analysis: state
of the art. Dordrecht: Kluwer Academic Publishers, 1992. p. 237–247.

LEHMANN, E. L. Nonparametrics: statistical methods based on ranks. Revised ed. New York:
Springer-Verlag, 2006. 464 p.

LEMESHOW, S. et al. Adequacy of sample size in health studies. New York: John Wiley & Sons,
1990. 239 p.

LENTH, R. V. Some practical guidelines for effective sample size determination. The American
Statistician, v. 55, n. 3, p. 187-193, 2001.

LEVY, P. S.; LEMESHOW, S. Sampling of populations: methods and applications. 4. ed. New York:
John Wiley & Sons, 2008. 420 p.

LIAO, J. J. Z. Sample size calculation for an agreement study. Pharmaceutical Statistics, v. 9, n. 2, p.


125-132, 2010.

LIAO, J. J.; LEWIS, J. W. A note on concordance correlation coefficient. Journal of Pharmaceutical


Science and Technology, v. 54, n. 1, p. 23-26, 2000.

LIN, L. I.-K. A concordance correlation coefficient to evaluate reproducibility. Biometrics, v. 45, n. 1,


p. 255-268, 1989.

LIN, L. I.-K. Assay validation using the concordance correlation coefficient. Biometrics, v. 48, n. 2, p.
599-604, 1992.

LIN, L. I.-K. Total deviation index for measuring individual agreement with applications in laboratory
performance and bioequivalence. Statistics in Medicine, v. 19, n. 2, p. 255-270, 2000.

LIN, L. et al. Statistical methods in assessing agreement: models, issues, and tools. Journal of the
American Statistical Association, v. 97, n. 457, p. 257-270, 2002.

LIN, L; HEDAYAT, A. S.; WU, W. Statistical tools for measuring agreement. New York: Springer-
Verlag, 2012. 161 p.

LIN, H.-M.; WILLIAMSON, J. M.; LIPSITZ, S. R. Calculating power for the comparison of
dependent κ-coefficients. Journal of the Royal Statistical Society. Series C (Applied Statistics),
v. 52, n. 4, p. 391-404, 2003.

LINDSEY, J. K. Applying Generalized Linear Models. New York: Springer-Verlag, 1997a. 256 p.

LINDSEY, J. K. Exact sample size calculations for exponential family models. Journal of the Royal
Statistical Society. Series D (The Statistician), v. 46, n. 2, p. 231-237, 1997b.
LINDSEY, J. C.; RYAN, L. M. Tutorial in biostatistics methods for interval-censored data. Statistics
in Medicine, v. 17, n. 2, p. 219-238, 1998. Errata em: Statistics in Medicine, v. 18, n. 7, p. 890, 1999.

LIU, G.; SNAVELY, D. Power and sample size considerations in clinical trials: a simple review for
practical clinical researchers. Bio-Pharma Quartly Journal, v. 9, n. 2, 2003.

LU, K.; MEHROTRA, D. V.; LIU, G. Sample size determination for constrained longitudinal data
analysis. Statistics in Medicine, v. 28, n. 4, p. 679-699, 2009.

LU, Y.; BEAN, J. A. On the sample size for one-sided equivalence of sensitivities based upon
McNemar's test. Statistics in Medicine, v. 14, n. 16, p. 1831-1839, 1995.

LUBIN, J. H.; GAIL, M. H.; ERSHOW, A. G. Sample size and power for case-control studies when
exposures are continuous. Statistics in Medicine, v. 7, n. 3, p. 363-376, 1988.

LYLES, R. H.; LIN, H.-M.; WILLIAMSON, J. M. A practical approach to computing power for
generalized linear models with nominal, count, or ordinal responses. Statistics in Medicine, v. 26, n. 7,
p. 1632-1648, 2007.

MACHIN, D. et al. Sample size tables for clinical studies. 2. ed. Malden, MA: Blackwell Science,
1997. 315 p.

MAHONEY, M.; MAGEL, R. Estimation of the power of the Kruskal-Wallis test. Biometrical
Journal, v. 38, n. 5, p. 613-630, 1996.

MALHOTRA, R. K.; INDRAYAN, A. A simple nomogram for sample size for estimating sensitivity
and specificity of medical tests. Indian Journal of Ophthalmology, v. 58, n. 6, p. 519-522, 2010.

MATTHEWS, J. N. S. Introduction to randomized controlled clinical trials. 2. ed. Boca Raton:


Chapman & Hall/CRC, 2006. 283 p.

MAXWELL, A. E. Comparing the classification of subjects by two independent judges. British


Journal of Psychiatry, v. 116, n. 535, p. 651–655, 1970.

McCULLAGH, P. Regression models for ordinal data. Journal of the Royal Statistical Society,
Series B. (Methodological), v. 42, n. 2, p. 109-142, 1980.

McCULLAGH, P.; NELDER, J. A. Generalized linear models. 2. ed. Cambridge: Chapman and Hall,
1989. 511 p.

MEDRONHO, R. A.; BLOCH, K. V.; WERNECK, G. L. Epidemiologia. 2. ed. São Paulo: Atheneu,
2009. 685 p.

MEINERT, C. L. Clinical trials: design, conduct, and analysis. 2. ed. Oxford: Oxford University
Press, 2012. 720 p.

MIETTINEN, O. S. The matched pairs design in the case of all-or-none responses, Biometrics, v. 24,
n. 2, p. 339-352, 1968.
M'LAN, C. E.; JOSEPH, L.; WOLFSON, D. B. Bayesian sample size determination for case-control
studies. Journal of the American Statistical Association, v. 101, n. 474, p. 760-772, 2006.

MOOD, A. M.; GRAYBILL, F. A.; BOES, D. C. Introduction to the theory of Statistics. 3. ed. New
York: McGraw-Hill, 1974. 564 p.

MORRISON, J. M.; GILMOUR, H.; SULLIVAN, F. Children seen frequently out of hours in one
general practice. British Medical Journal, v. 303, n. 6810, p. 1111–1114, 1991.

MOURA, J. C. C. R. Avaliação dos níveis plasmáticos de vitamina A e caroteno em diabéticos:


possíveis correlações como o controle metabólico. Belo Horizonte: Faculdade de Medicina da UFMG,
1990. 77 f. (Dissertação, Mestrado em Pediatria).

NAM, J.-M., Testing the intraclass version of kappa coefficient of agreement with binary scale and
sample size determination. Biometrical Journal, v. 44, n. 5, p. 558-570, 2002.

NAM, J.-M.; FEARS, T. R. Optimum sample size determination in stratified case-control studies with
cost considerations. Statistics in Medicine, v. 11, n. 4, p. 547-556, 1992.

NIAZI, S. K. Handbook of bioequivalence testing. 2. ed. CRC Press, 2015. 1007 p.

NOETHER, G. E. Sample size determination for some common nonparametric tests. Journal of the
American Statistical Association, v. 82, n. 398, p. 645-647, 1987.

NORMAN, G. R.; SREINER, D. L. Biostatistics: The bare essentials, 4. ed. Shelton, CT: People's
Medical Publishing House - USA, 2014, 438 p.

NOVIKOV, I.; FUND, N.; FREEDMAN, L. S. A modified approach to estimating sample size for
simple logistic regression with one continuous covariate. Statistics in Medicine, v. 29, n. 1, p. 97-107,
2010.

OBUCHOWSKI, N. A. Computing sample size for receiver operating characteristic studies.


Investigative Radiology, v. 29, n. 2, p. 238-243, 1994.

OBUCHOWSKI, N. A. Sample size calculations in studies of test accuracy. Statistical Methods in


Medical Research, v. 7, n. 4, p. 371-392, 1998.

OBUCHOWSKI, N. A.; McCLISH, D. K. Sample size determination for diagnostic accuracy studies
involving binormal ROC curve indices. Statistics in Medicine, v. 16, n. 13, p. 1529-1542, 1997.

OWEN, D. B. A special case of a bivariate non-central t-distribution. Biometrika, v. 52, n. 3-4, p. 437-
466, 1965.

PAGANO, M.; GAUVREAU, K. Princípios de Bioestatística. Tradução de Luiz Sérgio de Castro


Paiva. São Paulo: Pioneira Thompson Learning, 2004. 506 p. Título original: Principles of
Bioestatistics. 2. ed.

PAN, Z.; KUPPER, L. L. Sample size determination for multiple comparison studies treating
confidence interval width as random. Statistics in Medicine, v. 18, n. 12, p. 1475-1488, 1999.

PATTERSON, S.; JONES, B. Bioequivalence and statistics in clinical pharmacology. Boca Raton:
Chapman & Hall/CRC, 2006. 374 p.

PEARSON, E. S.; HARTLEY, H. O. Biometrika tables for statisticians. Vol I, 3. ed. Cambridge:
Cambridge University Press, 1970. 280 p.

PEREIRA, M. G. Epidemiologia: Teoria e Prática. Rio de Janeiro: Guanabara Koogan, 2008. 596 p.

PETITTI, D. B. Meta-analysis, decision analysis, and cost-effectiveness analysis. 2. ed. Oxford:


Oxford University Press, 2000. 306 p.

PETO, R. Experimental survival curves for interval-censored data. Journal of the Royal Statistical
Society. Series C (Applied Statistics), v. 22, n. 1, p. 86-91, 1973.

PIANTADOSI, S. Clinical trials: a methodologic perspective. 2. ed. New York: John Wiley & Sons,
2005. 687 p.

PIGOTT, T. D. Advances in meta-analysis. New York: Springer, 2012. 155 p.

PIRES, E. C. Avaliação de testes complementares para diagnósticos médicos: uma contribuição


estatística. Belo Horizonte: Instituto de Ciências Exatas da Universidade Federal de Minas Gerais,
2003. 107 f. (Dissertação, Mestrado em Estatística).

POCOCK, S. J. Clinical trials: a practical approach. Brisbane: John Wiley & Sons, 1983. 266 p.

POCOCK, S. J. The pros and cons of noninferiority trials. Fundamental and Clinical Pharmacology,
v. 17, n. 4, p. 483-490, 2003.

POSNER, K. L. et al. Measuring interrater reliability among multiple raters: an example of methods
for nominal data. Statistics in Medicine, v. 9, n. 9, p. 1103-1115, 1990. Errata em: Statistics in
Medicine, v. 11, n. 10, p. 1401, 1992.

QIU, P. et al. Sample size to test for interaction between a specific exposure and a second risk factor in
a pair-matched case-control study. Statistics in Medicine, v. 19, n. 7, p. 923-935, 2000.

RABBEE, N. et al. Power and sample size for ordered categorical data. Statistical Methods in
Medical Research, v. 12, n. 1, p. 73-84, 2003.

RAHARDJA, D.; ZHAO, Y.- D.; QU, Y. Sample size determinations for the Wilcoxon-Mann-Whitney
test: a comprehensive review. Statistics in Biopharmaceutical Research, v. 1, n. 3, p. 317-322, 2009.

RAE, G. The equivalence of multirater kappa statistics and intraclass correlation coefficients.
Educational and Psychological Measurement, v. 48, n. 2, p. 367-374, 1988.

RASCH, D.; ŠIMEČKOVÁ, M. The size of experiments for the one-way ANOVA for ordered
categorical data. In: INTERNATIONAL WORKSHOP IN MODEL-ORIENTED DESIGN AND
ANALYSIS, 8, 2007, Almagro, Spain, Proceedings… mODa 8 – Advances in Model-Oriented Design
and Analysis, June 4-8, 2007. p. 173-180.

RIBEIRO, A. J. F. et al. Bioestatística básica usando o ambiente computacional R. Relatório técnico da


série ensino RTE 01/2012, disponível em http://www.est.ufmg.br, 2012. 177 p. Acesso em: nov./2016.

RIFFENBURGH, R. H. Statistics in Medicine. 3. ed. Maryland Heights: Academic Press, 2012.


738 p.

RODRIGUES, C.; ZIEGELMANN, P. Metanálise: um guia prático. Revista Hospital das Clínicas de
Porto Alegre, v. 30, n. 4, p. 435-446, 2010.

ROSNER, B.; GLYNN, R. J. Power and sample size estimation for the Wilcoxon rank sum test with
application to comparisons of C statistics from alternative prediction models. Biometrics, v. 65, n. 1, p.
188-197, 2009.

ROSNER, B.; GLYNN, R. J. Power and sample size estimation for the clustered Wilcoxon test.
Biometrics, v. 67, n. 2, p. 646-653, 2011.

ROSNER, B.; GLYNN, R. J.; LEE, M.-L. Incorporation of clustering effects for the Wilcoxon rank
sum test: A large-sample approach. Biometrics, v. 59, n. 4, p. 1089-1098, 2003.

ROSNER, B.; GLYNN, R. J.; LEE, M.-L. The Wilcoxon signed rank test for paired comparisons of
clustered data. Biometrics, v. 62, n. 1, p. 185-192, 2006.

ROTHMAN, K. J.; GREENLAND, S.; LASH, T. L. Modern Epidemiology. 3. ed. Philadelphia:


Lippincott Williams & Wilkins, 2008. 851 p.

ROTHMANN, M. D.; WIENS, B. L.; CHAN, I. S. F. Design and analysis of non-inferiority trials.
Boca Raton: Chapman & Hall/CRC, 2012. 454 p.

ROUSSON, V; SEIFERT, B. A mixed approach for proving non-inferiority in clinical trials with
binary endpoints. Biometrical Journal, v. 50, n. 2, p. 190-204, 2008.

ROY, A. et al. Sample size determination for hierarchical longitudinal design with differential attrition
rates. Biometrics, v. 63, n. 3, p. 699-707, 2007.

ROYSTON, P. Exact conditional and unconditional sample size for pair-matched studies with binary
outcome: a practical guide. Statistics in Medicine, v. 12, n. 7, p. 699-712, 1993.

RYAN, T. P. Sample size determination and power. New York: John Wiley & Sons, 2013. 404 p.

SANTIS, F.; PACIFICO, M. P.; SAMBUCINI, V. Optimal predictive sample size for case–control
studies. Journal of the Royal Statistical Society, Series C (Applied Statistics), v. 53, n. 3, p. 427-
441, 2004.

SATTEN, G. A.; KUPPER, L. L. Sample size determination for pair-matched case-control studies
where the goal is interval estimation of the odds ratio. Journal of Clinical Epidemiology, v. 43, n. 1,
p. 55-59, 1990.

SCHLESSELMAN, J. J. Case-control studies: design conduct, analysis. Oxford: Oxford University


Press, 1982. 354 p.

SCHOENFELD, D. A. The asymptotic properties of nonparametric tests for comparing survival


distributions. Biometrika, v. 68, n. 1, p. 316-319, 1981.

SCHOENFELD, D. A. Sample-size formula for the proportional-hazards regression model,


Biometrics, v. 39, n. 2, p. 499-503, 1983.

SCHOENFELD, D. A.; RICHTER, J. R. Nomograms for calculating the number of patients needed for
a clinical trial with survival as an endpoint, Biometrics, v. 38, n. 1, p. 163-170, 1982.

SCHORK, M. A.; WILLIAMS, G. W. Number of observations required for the comparison of two
correlated proportions. Communications in Statistics: Simulation and Computation, v. 9, n. 4 , p.
349-357, 1980.

SCHOUTEN, H. J. A Sample size formula with a continuous outcome for unequal group sizes and
unequal variances. Statistics in Medicine, v. 18, n. 1, p. 87-91, 1999.

SCHUIRMANN, D. J. A comparison of the two one-sided tests procedure and the power approach for
assessing the equivalence of average bioavailability. Journal of Pharmacokinetics and
Biopharmaceutics, v. 15, n. 6, p. 657-680, 1987.

SCHULZ, K. F.; GRIMES, D. A. Sample size calculations in randomised trials: mandatory and
mystical. Lancet, v. 365, n. 9467, p. 1348-1353, 2005.

SCHWERTMAN, N. C. An alternative procedure for determining analysis of variance sample size.


Communications in Statistics: Simulation and Computation, v. 16, n. 4, p. 957-967, 1987.

SELF, S. G.; MAURITSEN, R. H. Power/sample size calculations for generalized linear models.
Biometrics, v. 44, n. 1, p. 79-86, 1988.

SELF, S. G.; MAURITSEN, R. H.; OHARA, J. Power calculations for likelihood ratio tests in
generalized linear models. Biometrics, v. 48, n. 1, p. 31-39, 1992.

SENN S. Consensus and controversy in pharmaceutical statistics (with discussion). Journal of the
Royal Statistical Society, Series D (The Statistician), v. 49, n. 2, p. 135-176, 2000.

SENN, S. Cross-over trials in clinical research. 2. ed. New York: John Wiley & Sons, 2002. 345 p.

SHIEH, G. On power and sample size calculations for likelihood ratio tests in generalized linear
models. Biometrics, v. 56, n. 4, p. 1192-1196, 2000.

SHIEH, G. Sample size calculations for logistic and Poisson regression models. Biometrika, v. 88,
n. 4, p. 1193-1199, 2001.
SHIEH, G. On power and sample size calculations for Wald tests in generalized linear models. Journal
of Statistical Planning and Inference, v. 128, n. 1, p. 43-59, 2005.

SHIH, W. J. Group sequential, sample size re-estimation and two-stage adaptive designs in clinical
trials: a comparison. Statistics in Medicine, v. 25, n. 6, p. 933-941, 2006.

SIGNORINI, D. F. Sample size for Poisson regression. Biometrika, v. 78, n. 2, p. 446-450, 1991.

SILVA, N. N. Amostragem probabilística: um curso introdutório. 3. ed. São Paulo: Editora da


Universidade de São Paulo, 2004. 136 p.

SILVA, E. F.; PEREIRA, M. G. Avaliação das estruturas de concordância e discordância nos estudos
de confiabilidade, Revista de Saúde Pública, v. 32, n. 4, p. 383-393, 1998.

SIMEL, D. L.; SAMSA, G. P.; MATCHAR, D. B. Likelihood ratios with confidence: sample size
estimation for diagnostic test studies. Journal of Clinical Epidemiology, v. 44, n. 8, p. 763-770, 1991.

SIQUEIRA, A. L. et al. Comparison of sample size formulae for 2 x 2 cross-over designs applied to
bioequivalence studies. Pharmaceutical Statistics, v. 4, n. 4, p. 233-243, 2005.

SIQUEIRA, A. L.; WHITEHEAD, A.; TODD, S. Active-control trials with binary data: a comparison
of methods for testing superiority or non-inferiority using the odds ratio. Statistics in Medicine, v. 27,
n. 3, p. 353-370, 2008.

SIQUEIRA, A. L.; TIBÚRCIO, J. D. Estatística na área da saúde: Conceitos, Metodologia,


Aplicações e Prática Computacional. Belo Horizonte: COOPMED, 2011. 520 p.

SIQUEIRA, A. L.; TODD, S.; WHITEHEAD, A. Sample size considerations in active-control non-
inferiority trials with binary data based on the odds ratio. Statistical Methods in Medical Reseach,
v. 24, n. 4, p. 453-461, 2015.

SKRONDAL, A.; RABE-HESKETH, S. Generalized latent variable modeling: multilevel,


longitudinal, and structural equation models. Boca Raton: Chapman & Hall/CRC, 2004. 528 p.

SOEKEN, K. L.; PRESCOTT, P. A. Issues in the use of kappa to estimate reliability. Medical Care,
v. 24, n. 8, p. 733-741, 1986.

SOKAL, R. R.; ROHLF, F. J. Biometry: the principles and practice of statistics in biological research.
3. ed. New York: W. H. Freeman & Co, 1995. 887 p.

SOUZA, M. C. F. M. C. Regressão logística exata para dados de resposta binária. Belo Horizonte:
Departamento de Estatística da UFMG, 2000, 144p. (Dissertação, Mestrado em Estatística).

SOUZA, M. C. F. M. C.; SIQUEIRA, A. L. Poder exato para estudos de dose-resposta: efeito do


tamanho da amostra e das doses. In: SIMPÓSIO NACIONAL DE PROBABILIDADE E
ESTATÍSTICA, 14, 2000, Caxambu. Resumos... Caxambu, 2000. p. 484-485.

SPRENT, P.; SMEETON, N. C. Applied nonparametric statistical methods. 4. ed. Boca Raton:
Chapman & Hall/CRC, 2007. 542 p.

STABLEIN, D. M.; CARTER JR.; W. H.; NOVAK, J. W. Analysis of survival data with
nonproportional hazard functions. Controlled Clinical Trials, v. 2, n. 2, p. 149-159, 1981.

STREINER, D. L.; NORMAN, G. R.; CAIRNEY, J. Health measurement scales: a practical guide to
their development and use. 5. ed. Oxford: Oxford University Press, 2015. 399 p.

STUART, A. A test for homogeneity of the marginal distributions in a two-way classification,


Biometrika, v. 42, n. 3-4, p. 412-416, 1955.

TANG, W.; HE, H.; TU, X. M. Applied categorical and count data analysis. Boca Raton: CRC
Press, 2012. 363 p.

TANG, M.-L.; HIRJI, K. F.; VOLLSET, S. E. Exact power computation for dose-response studies.
Statistics in Medicine, v. 14, n. 20, p. 2261-2272, 1995.

TAYLOR, J. M. G. Choosing the number of controls in a matched case-control study, some sample
size power and efficiency considerations. Statistics in Medicine, v. 5, n. 1, p. 29-36, 1986.

THERNEAU, T. M.; GRAMBSCH, P. M. Modeling survival data: extending the Cox model. New
York: Springer-Verlag, 2000. 350 p.

THOMPSON, W. D.; WALTER, S. D. A reappraisal of the kappa coefficient. Journal of Clinical


Epidemiology, v. 41, n. 10, p. 949-958, 1988a.

THOMPSON, W. D.; WALTER, S. D. Kappa and the concept of independent errors. Journal of
Clinical Epidemiology, v. 41, n. 10, p. 969-970, 1988b.

TIBÚRCIO, J. D.; SIQUEIRA, A. L. Dimensionamento de amostra e cálculo do poder em estudos de


concordância para respostas dicotômicas. In: SIMPÓSIO NACIONAL DE PROBABILIDADE E
ESTATÍSTICA, 17, 2006, Caxambu. Anais... Caxambu, 2006. 1CD-ROM.

TRACY, M. Methods of sample size calculation for clinical trials. Glasgow: Department of
Statistics, University of Glasgow, 2009. 123 p. (Masters thesis, Faculty of Information & Mathematical
Sciences).

TU, D. On the use of ratio or odds ratio of cure rates in therapeutic equivalence clinical trials with
binary endpoints. Journal of Biopharmaceutical Statistics, v. 8, n. 2, p. 263-282, 1998.

TU, X. M. et al. Power analyses for longitudinal trials and other clustered designs. Statistics in
Medicine, v. 23, n. 18, p. 2799-2815, 2004.

TURNBULL, B. W. The empirical distribution function with arbitrarily grouped, censored and
truncated data. Journal of the Royal Statistical Society. Series B (Methodological), v. 38, n. 3, p.
290-295, 1976.

UITERS, E. et al. Ethnic minorities and prescription medication; concordance between self-reports and
medical records. BMC Health Services Research, v. 6, p. 115-121, 2006.

UTSCH, F. B. Dimensionamento de amostras: determinação de sua utilização e aplicação em trabalhos


finais de pós-graduação (mestrado e doutorado) aprovados na Faculdade de Medicina da Universidade
Federal de Minas Gerais, 1995-1998. Revista Médica de Minas Gerais, v. 10, n. 1, p. 13-17, 2000.

VACH, W. Regression models as a tool in medical research. CRC Press, 2013. 493 p.

VAZ, J. C. L. Regiões de incerteza para a curva ROC em testes diagnósticos. São Carlos:
Departamento de Estatística da Universidade Federal de São Carlos, 2009. 151 f. (Dissertação,
Mestrado em Estatística).

VECCHIO, T. J. Predictive value of a single diagnostic test in unselected populations. The New
England Journal of Medicine, v. 274, n. 21, p. 1171-1173, 1966.

VITTINGHOFF, E. et al. Regression methods in biostatistics: linear, logistic, survival, and


repeated measures models. 2. ed. New York: Springer, 2012. 509 p.

WALTERS, S. J. Sample size and power estimation for studies with health related quality of life
outcomes: a comparison of four methods using the SF-36. Health and Quality of Life Outcomes, v. 2,
n. 26, p. 1-17, 2004.

WALTERS, S. J. Consultants’ forum: should post hoc sample size calculations be done?
Pharmaceutical Statistics, v. 8, n. 2, p. 163-169, 2009.

WANG, D.; BAKHAI, A. Clinical trials: a practical guide to design, analysis, and reporting. Chicago:
Remedica Publishing, 2006. 480 p.

WANG, H.; CHOW, S.-C.; CHEN, M. A bayesian approach on sample size calculation for comparing
means. Journal of Biopharmaceutical Statistics, v. 15, n. 5, p. 799-807, 2005.

WANG, H.; CHOW, S.-C.; LI, G. On sample size calculation based on odds ratio in clinical trials.
Journal of Biopharmaceutical Statistics, v. 12, n. 4, p. 471-483, 2002.

WELLEK, S. Statistical methods for the analysis of two-arm non-inferiority trials with binary
outcomes. Biometrical Journal, v. 47, n. 1, p. 48-61, 2005.

WELLEK, S. Testing statistical hypotheses of equivalence and noninferiority. 2. ed. Boca Raton:
Chapman & Hall/CRC, 2010. 431 p.

WHITEHEAD, A. Meta-analysis of controlled clinical trials. New York: John Willey, 2002. 336 p.

WHITEHEAD, J. Sample size calculations for ordered categorical data. Statistics in Medicine, v. 12,
n. 24, p. 2257-2271, 1993.

WHITEHEAD, J. The design and analysis of sequential clinical trials. Revised 2. ed. New York:
John Wiley & Sons, 1997. 328 p.
WHITTEMORE, A. S. Sample size for logistic regression with small response probability. Journal of
the American Statistical Association, v. 76, n. 373, p. 27-32, 1981.

WIENS, B. L. Choosing an equivalence limit for noninferiority or equivalence studies. Controlled


Clinical Trials, v. 23, n. 1, p. 2-14, 2002.

WITTE, J. S.; ELSTON, R. C.; CARDON, L. R. On the relative sample size required for multiple
comparisons. Statistics in Medicine, v. 19, n. 3, p. 369-372, 2000.

WITTES, J.; WALLENSTEIN, S. The power of the Mantel-Haenszel test. Journal of the American
Statistical Association, v. 82, n. 400, p. 1104-1109, 1987.

XIE, T.; WAKSMAN, J. Design and sample size estimation in clinical trials with clustered survival
times as the primary endpoint. Statistics in Medicine, v. 22, n. 18, p. 2835-2846, 2003.

ZHAO, Y. D.; RAHARDJA, D.; QU, Y. Sample size calculation for the Wilcoxon-Mann-Whitney test
adjusting for ties. Statistics in Medicine, v. 27, n. 3, p. 462–468, 2008.

ZHOU, X.-H.; OBUCHOWSKI, N. A.; McCLISH, D. K. Statistical methods in diagnostic medicine.


2. ed. New York: John Wiley & Sons, 2011. 592 p.

ZWEIG, M. H.; CAMPBELL, G. Receiver-operating characteristic (ROC) plots: a fundamental


evaluation tool in clinical medicine. Clinical Chemistry, v. 39, n. 4, p. 561-577, 1993.
Neste apêndice são apresentadas as noções básicas sobre inferência estatística utilizadas ao longo do
texto. Informações adicionais podem ser obtidas, por exemplo, em Siqueira e Tibúrcio (2011) e em
textos especializados. O apêndice poderá ser útil para quem não tem muita familiaridade com a
Estatística e naturalmente será desnecessária para vários leitores. Outro objetivo é tornar a
nomenclatura e notação o mais uniforme possível ao longo dos capítulos.

Inferência estatística é a metodologia estatística que possibilita, a partir de dados amostrais, fazer
generalizações ou inferências sobre uma população, sempre com medida de precisão sobre sua
veracidade. Basicamente, existem dois procedimentos em inferência estatística: teste de hipóteses (TH),
também chamado de teste de significância, e estimação, pontual ou por intervalo. Neste último,
é utilizado o intervalo de confiança (IC) para um parâmetro de interesse (média, mediana, desvio-
padrão, proporção, etc.). Como, em geral, o parâmetro é desconhecido, precisa ser estimado a partir
de uma amostra.

A metodologia de TH refere-se a um procedimento de tomada de decisão. Por exemplo, é útil para


decidir se há ou não diferença entre tratamentos comparados. É usado amplamente nas áreas do
conhecimento humano em que as variáveis envolvidas estão sujeitas à variabilidade. Abrange
problemas específicos de comparações, como de um novo tratamento com um convencional, entre dois
ou mais grupos, entre outros.

Entretanto, na prática, há necessidade de se quantificar efeitos de tratamento e não apenas dizer que há
diferença entre eles, daí o procedimento de estimação. A estimação é um procedimento que permite dar
alguma ideia sobre algum parâmetro populacional com base nas informações contidas nas amostras.
Deve-se distinguir entre significância estatística (obtida por meio de um teste de significância) e
significância clínica (ou na área considerada), isto é, o efeito que é considerado relevante na prática.
Assim, em várias situações, o problema é realmente de estimação. Por exemplo, o interesse pode ser a
estimação da prevalência de uma doença ou a estimação da média de uma variável clínica. Em resumo:
a finalidade do TH é avaliar afirmações sobre valores de parâmetros, enquanto que a partir de um IC é
possível fornecer valores plausíveis para parâmetros.

A seguir serão introduzidos os conceitos fundamentais necessários em inferência estatística, tanto para
testes de hipóteses, tais como hipótese nula e hipótese alternativa, erros associados (tipo I e tipo II),
nível de significância, poder do teste, probabilidade de significância, como também para estimação de
parâmetros, especialmente por meio de intervalo de confiança.

Testes de hipóteses

Hipótese nula (𝑯𝟎 )

No problema de comparação de dois tratamentos, é usual fixar como hipótese de interesse a


inexistência da diferença entre os dois tratamentos comparados. Como frequentemente a comparação é
feita entre um tratamento padrão e um tratamento novo, essa opção implica colocar o ônus da prova de
efetividade no tratamento novo, uma opção conservadora, mas prudente. Por essas razões, a hipótese a
ser testada é usualmente chamada hipótese nula (𝐻0 ), nome que se generalizou mesmo para situações
em que o problema não é mais testar se a diferença entre dois tratamentos é nula.

Hipótese alternativa (𝑯𝟏 )

A hipótese nula deve ser comparada com uma hipótese alternativa, denominada 𝐻1 , que pode ser a
superioridade do tratamento testado. Entretanto, seguindo convenção estabelecida pelos editores de
revistas científicas na área médica, a hipótese alternativa será a inexistência de igualdade entre os
tratamentos. Em geral, esta é a hipótese de pesquisa, do problema a ser investigado.

A formulação das hipóteses nula e alternativa é em função dos parâmetros envolvidos no estudo. Para
ilustrar os conceitos apresentados, será utilizado um exemplo histórico sobre a eficácia da zidovudina
(AZT). Trata-se do primeiro relato de um ensaio clínico que comprovou a eficácia da AZT para
prolongar a vida de pacientes com AIDS. Obviamente esse experimento foi cercado de muitos cuidados
e, embora a análise estatística dos dados seja fundamental, a decisão final de liberação da AZT foi
tomada levando-se em consideração muitos outros resultados fornecidos pelo estudo, como aqueles
referentes a efeitos colaterais.

Exemplo A1 - Formulação de um ensaio clínico em termos de teste de hipóteses

Neste exemplo serão apresentados resultados da eficácia da AZT em termos de sobrevivência.


Os principais dados do trabalho de Fischl et al. (1987) estão na Tabela A.1. A análise dos dados
consiste basicamente na comparação de duas proporções. A proporção dos que estavam vivos depois de
24 semanas de tratamento foi de 144⁄145 = 0,993 entre os pacientes que receberam a AZT, enquanto
que para o grupo placebo foi de 121⁄137 = 0,883. A diferença de proporção de sobrevida entre dois
grupos é de 0,11, ou seja, de 11 pontos percentuais.

Tabela A.1- Número de sobreviventes tratados com AZT ou placebo

Situação
Grupo Total
Vivo Morto
AZT 144 1 145
Placebo 121 16 137
Total 265 17 282

Como a alocação dos pacientes aos grupos foi feita de forma aleatória, a diferença entre essas duas
proporções parece indicar que em pacientes com AIDS a AZT tem o efeito de prolongar a vida.
Entretanto, é preciso afastar o acaso como explicação alternativa. Ou seja, deve-se responder à
pergunta: será que esse resultado ocorreu por mero acaso ou por ser a AZT de fato uma droga efetiva?
Para responder a esta pergunta, as proporções de sobreviventes 𝑝 dos dois grupos devem
ser comparadas.

O problema pode ser formulado por meio das seguintes hipóteses: 𝐻0 : 𝑝𝐴𝑍𝑇 = 𝑝𝑃𝑙𝑎𝑐𝑒𝑏𝑜 versus
𝐻1 : 𝑝𝐴𝑍𝑇 ≠ 𝑝𝑃𝑙𝑎𝑐𝑒𝑏𝑜 . Isso é equivalente a testar diferenças de proporções, ou seja,
𝐻0 : 𝑝𝐴𝑍𝑇 − 𝑝𝑃𝑙𝑎𝑐𝑒𝑏𝑜 = 0 versus 𝐻1 : 𝑝𝐴𝑍𝑇 − 𝑝𝑃𝑙𝑎𝑐𝑒𝑏𝑜 ≠ 0. A hipótese nula é conservadora ao assumir
que não há diferença entre os dois grupos comparados, enquanto que na alternativa há suspeita de
diferença, possivelmente a favor da AZT, mas que não pode ser antecipada antes de analisar os dados.

Para a comparação de dois grupos, controle (𝐶) e tratamento (𝑇), sejam 𝑝𝐶 e 𝑝𝑇 , respectivamente,
as probabilidades de se observar a resposta de interesse entre os pacientes dos dois grupos comparados.
Nesse caso, as hipóteses (nula e alternativa) a serem testadas são 𝐻0 : 𝑝C = 𝑝T versus 𝐻1 : 𝑝C ≠ 𝑝T . De
forma mais geral, para a comparação das proporções de dois grupos, as hipóteses nula e alternativa são:

𝐻0 : 𝑝1 = 𝑝2 𝑣𝑒𝑟𝑠𝑢𝑠 𝐻1 : 𝑝1 ≠ 𝑝2 (A.1)

Critério de decisão

Decididas as hipóteses a serem testadas, o próximo passo é construir um critério no qual a hipótese 𝐻0
será julgada. O critério de decisão é baseado na estatística do teste. De forma bem genérica e intuitiva,
pode-se dizer que a estatística do teste mede a discrepância entre o que foi observado na amostra e o
que seria esperado se a hipótese nula fosse verdadeira. “Grande” distância medida pela distribuição de
probabilidade é indicação de que 𝐻0 não é verdadeira, devendo, portanto, ser rejeitada.

Resumindo, rejeita-se a hipótese nula se o valor da estatística do teste é “grande”. Portanto, esse valor
deve ser comparado a alguma distribuição de probabilidade de referência que depende de cada caso.
As distribuições utilizadas com frequência são: normal (ou gaussiana), 𝑡 de Student, qui-quadrado
e 𝐹 de Fisher.

Erros associados a testes de hipóteses

Em termos técnicos, a decisão de rejeitar 𝐻0 quando de fato 𝐻0 é verdadeira é chamada de erro do


tipo I. No exemplo da AZT havia a possibilidade de se rejeitar a hipótese de igualdade entre a AZT e o
placebo, mesmo se de fato eles fossem iguais. Para evitá-lo, foi escolhido um critério de decisão (que
corresponde a um percentil de distribuição de probabilidade) que torna esse erro pouco provável.
Na literatura, a probabilidade de cometer esse erro recebe o nome de nível de significância do teste.

Há, no entanto, um segundo tipo de erro, denominado erro do tipo II. No exemplo da AZT ele consiste
em não rejeitar a hipótese de igualdade entre a AZT e o placebo quando de fato esses dois tratamentos
são diferentes. Isso implicaria a não liberação do novo tratamento, cujo efeito real não estaria
sendo percebido.

A probabilidade de cometer o erro do tipo I é tradicionalmente representada pela letra grega 𝛼 (lê-se
alfa). Em um segundo momento, calcula-se o tamanho da amostra que reduza a probabilidade do erro
do tipo II, usualmente representado pela letra grega 𝛽 (lê-se beta), em níveis aceitáveis. O Quadro A.1
resume detalhes relativos aos possíveis erros associados a cada decisão tomada em um teste de
hipóteses e as probabilidades correspondentes.

Quadro A.1- Possíveis erros que podem ser cometidos ao se usar testes
de hipóteses (TH) e as probabilidades associadas

Tipos de erros em TH

Situação real
Conclusão do teste 𝐻0 verdadeira 𝐻0 falsa
Não rejeitar 𝐻0 decisão correta erro tipo II

Rejeitar 𝐻0 erro tipo I decisão correta

Probabilidades associadas a erros de TH

Erro Definição Probabilidade


I Rejeitar 𝐻0 quando 𝐻0 é verdadeira 𝛼
II Não rejeitar 𝐻0 quando 𝐻0 é falsa 𝛽

Nível de significância

O nível de significância, em geral designado por 𝛼, é a probabilidade de se cometer o erro do tipo I, ou


seja, é a probabilidade de rejeitar a hipótese nula (𝐻0 ) quando ela é verdadeira. O nível de significância
mais usual é de 5% (𝛼 = 0,05).

Poder do teste

A capacidade de um teste identificar diferenças que realmente existem, ou seja, de rejeitar 𝐻0 quando é
realmente falsa, é denominada poder do teste e é definida como (1 − 𝛽). Portanto, o poder é a
probabilidade complementar da probabilidade de cometer o erro do tipo II. O poder correspondente a
alguns valores comuns de 𝛽 é mostrado no Quadro A.2.
Quadro A.2 - Poder correspondente a alguns valores comuns de 𝛽
𝛽 Poder (%)
0,20 0,80 (80%)
0,10 0,90 (90%)
0,05 0,95 (95%)
0,01 0,99 (99%)

Probabilidade de significância, nível descritivo, valor-p

Existem duas abordagens para expressar a conclusão de um teste de hipóteses. A primeira consiste em
comparar o valor da estatística do teste com o valor obtido a partir da distribuição teórica, específica
para o teste, para um valor prefixado do nível de significância (por exemplo, 5% ou 1%).

Na segunda abordagem, mais usada e recomendada, o interesse é quantificar a chance do que foi
observado ou resultados mais extremos, sob a hipótese de igualdade dos grupos. Assim, essa opção
baseia-se na probabilidade de ocorrência de valores iguais ou superiores ao assumido pela estatística do
teste, sob a hipótese de que 𝐻0 é verdadeira.

Esse número é denominado probabilidade de significância, nível descritivo ou, usando um neologismo,
valor-p, inspirado no termo em inglês p-value, e frequentemente é indicado apenas por p. Como o
valor-p é calculado supondo-se que 𝐻0 é verdadeira, podem-se fazer duas conjecturas quando se obtém
um valor muito baixo. Um evento que é extremamente raro pode ter ocorrido ou a hipótese 𝐻0 não
deve ser verdadeira, isto é, a conjectura inicial e conservadora não é plausível.

Portanto, quanto mais baixo o valor-p, mais evidências para se rejeitar 𝐻0 . De modo geral, na área
médica, considera-se que valor-p igual ou inferior a 0,05 indica que há diferenças significativas entre
os grupos comparados.

Hipóteses unilaterais e bilaterais

A hipótese alternativa para a comparação de proporções de dois grupos (𝐻1 : 𝑝1 ≠ 𝑝2 ) pode ser
desmembrada em 𝐻1 : 𝑝1 > 𝑝2 ou 𝑝1 < 𝑝2 . Isso significa que qualquer um dos dois grupos pode ter
proporção maior do que a do outro. Por isso esse tipo de hipótese é denominada bilateral.

Na prática pode haver interesse em testar determinada direção (por exemplo, 𝐻1 : 𝑝1 > 𝑝2 ), chamada
hipótese alternativa unilateral. No Quadro A.3 são resumidas as possibilidades.

Quadro A.3 - Possibilidades de hipóteses na comparação de proporções de dois grupos

Tipo de hipótese Hipótese nula Hipótese alternativa


Unilateral 𝐻0 : 𝑝1 ≤ 𝑝2 𝐻1 : 𝑝1 > 𝑝2
Unilateral 𝐻0 : 𝑝1 ≥ 𝑝2 𝐻1 : 𝑝1 < 𝑝2
Bilateral 𝐻0 : 𝑝1 = 𝑝2 𝐻1 : 𝑝1 ≠ 𝑝2

De forma análoga, podem-se formular hipóteses unilaterais ou bilaterais para a comparação de médias
de dois grupos, como mostrado no Quadro A.4.

Quadro A.4 - Possibilidade de hipóteses de comparação de médias de dois grupos

Tipo de hipótese Hipótese nula Hipótese alternativa


Unilateral 𝐻0 : 𝜇1 ≤ 𝜇2 𝐻1 : 𝜇1 > 𝜇2
Unilateral 𝐻0 : 𝜇1 ≥ 𝜇2 𝐻1 : 𝜇1 < 𝜇2
Bilateral 𝐻0 : 𝜇1 = 𝜇2 𝐻1 : 𝜇1 ≠ 𝜇2

Variações das hipóteses apresentadas aqui foram consideradas no capítulo 5 no contexto de ensaios de
não inferioridade e equivalência.

Estimação de parâmetros

Em geral, para a análise estatística dos dados de um problema clínico, é preciso, primeiramente,
identificar os parâmetros de interesse, aqueles cujo conhecimento viabiliza a solução da questão
estabelecida. Essa identificação exige, de quem analisa os dados, experiência clínica relevante além de
conhecimentos estatísticos.

A tomada de qualquer decisão deve ser baseada no valor do parâmetro de interesse que, entretanto,
não é conhecido na prática. Para atender a essa necessidade, foram desenvolvidos métodos agrupados
na chamada Teoria da Estimação, um importante tópico da Estatística.

O estimador é uma estatística (uma fórmula), enquanto a estimativa é um valor particular do estimador.
A notação usual para o estimador consiste em colocar o sobrescrito ^ (chapéu), por exemplo,
o estimador 𝑃̂. Uma exceção é na média amostral, em que tradicionalmente é utilizada a barra (X
̅).
Os parâmetros a serem estimados são específicos para cada distribuição de probabilidade, discreta ou
contínua. Na distribuição binomial B(n;p), o parâmetro é a probabilidade de sucesso p; na distribuição
Poisson 𝑃(𝜆), o parâmetro é a taxa média de ocorrência 𝜆; e na distribuição normal com média 𝜇 e
desvio-padrão 𝜎, 𝑁(𝜇, 𝜎), os parâmetros são 𝜇 e 𝜎.

O primeiro passo é a identificação do parâmetro de interesse: média, mediana, desvio-padrão,


proporção, risco relativo, razão de chances, etc.

A forma de estimar um parâmetro depende do esquema amostral adotado (amostra aleatória simples,
amostragem sistemática, amostragem estratificada, amostragem por conglomerados ou combinação dos
esquemas básicos). Por exemplo, a média é estimada de forma diferente dependendo do esquema
amostral adotado.

Exemplo A.2 - Identificação do parâmetro de interesse da pesquisa

Moura (1990) avaliou os níveis plasmáticos de vitamina A em um grupo de 47 crianças diabéticas com
idades de até 12 anos. Um dos interesses de sua pesquisa era conhecer o nível sanguíneo da vitamina A
nesse grupo, composto de pacientes típicos dos atendidos pelo setor de Endocrinologia Pediátrica da
Faculdade de Medicina da UFMG.

Em termos estatísticos, o objetivo do estudo é conhecer o nível médio (𝜇) da distribuição do nível
sanguíneo de vitamina A em crianças diabéticas. Nesse caso, o parâmetro de interesse é a média (𝜇).

Estimação pontual e intervalar

Como já mencionado, existem duas formas de estimação: a) pontual, que fornece um único valor;
b) intervalar, que fornece um intervalo denominado intervalo de confiança (IC). O estimador pontual
recebe esse nome, pois fornece apenas o valor da estimativa do parâmetro. O IC pode ser entendido
como valores plausíveis para o parâmetro, obtidos com determinada confiança, usualmente 95%.

Coeficiente de confiança

O coeficiente de confiança (𝛾) é o complementar do nível de significância (𝛼), isto é, 𝛾 = 1 − 𝛼.


Por exemplo, se α = 0,05, 𝛾 = 0,95 (confiança de 95%); se 𝛼 = 0,01, 𝛾 = 0,99 (confiança de 99%).
Intervalo de confiança

Com a construção de intervalos de confiança, agrega-se ao estimador pontual informação sobre sua
variabilidade. Isso é feito determinando um limite inferior e outro superior para a estimativa por meio
de metodologia apropriada.

A amplitude (𝐴) do intervalo é definida como 𝐴 = limite superior – limite inferior, sendo desejável
uma amplitude pequena. Em geral, 𝐴 depende do tamanho da amostra e da confiança fixada.
Quanto maior o tamanho da amostra, menor será 𝐴, daí a importância do dimensionamento da amostra
adequado. Quanto mais alto o nível de confiança, maior será 𝐴.

Como consequência, deve haver um balanço entre a confiança e a amplitude. Por exemplo, a afirmativa
de que a proporção de analfabetos na região metropolitana de Belo Horizonte é algum valor no
intervalo (0;1) é absolutamente correta, independentemente de qualquer informação subjacente, já que
uma proporção varia entre zero e um. Sua confiança é de 100%, mas esse intervalo não apresenta
utilidade alguma. Assim, é preferível ter um IC com menos confiança, desde que seja aceitável, e que
assim mesmo fornece alguma informação relevante.

Existem vários métodos de estimação, entre eles: método de máxima verossimilhança (um dos mais
utilizados), método dos momentos, método de mínimos quadrados, método de Bayes (também
chamado de método bayesiano) e métodos de reamostragem (por exemplo, bootstrap).
Algumas referências são: Mood et al. (1974), Efron e Tibshirani (1993), Casella e Berger (2001) e
Bickel e Doksum (2015).
Tabela B1: Tabela de números aleatórios

Coluna
Linha
1 2 3 4 5 6 7 8 9 10 11 12
1 59 39 32 12 17 70 67 36 08 21 78 34
2 36 78 65 03 43 43 73 26 82 74 72 96
3 08 00 59 13 19 89 58 51 45 59 09 94
4 72 34 14 91 12 17 80 58 67 84 93 95
5 11 65 20 53 75 33 26 80 96 30 14 36
6 54 33 27 86 93 59 94 40 12 37 67 89
7 73 79 44 44 69 78 49 08 54 13 57 30
8 34 48 63 96 42 36 50 22 52 44 65 34
9 45 33 28 97 70 40 52 29 58 43 48 83
10 72 93 32 27 55 39 24 26 27 91 87 33
11 40 08 04 50 67 27 94 56 63 40 80 70
12 85 03 28 54 23 73 27 36 10 81 91 39
13 90 99 01 90 95 43 85 24 67 81 16 42
14 14 09 66 07 92 71 76 62 10 33 76 38
15 82 19 36 59 83 62 62 39 11 55 90 58
16 86 74 35 26 73 74 32 09 34 12 45 91
17 54 06 25 29 47 35 36 07 13 89 18 71
18 18 77 08 76 29 91 90 41 92 68 23 41
19 23 16 37 27 97 69 29 92 11 36 97 75
20 79 31 37 63 03 77 70 39 87 04 20 42
21 57 05 45 04 69 75 73 89 06 59 56 11
22 02 43 90 70 63 92 91 60 12 93 52 68
23 80 49 26 88 12 07 91 46 93 95 59 03
24 22 86 80 66 82 71 61 68 12 85 40 92
25 60 47 97 69 41 62 13 02 35 11 15 89
26 52 43 93 09 12 93 07 98 16 29 08 33
27 03 84 06 73 34 62 79 13 39 10 61 62
28 11 87 93 42 15 51 43 62 48 26 89 50
29 44 52 65 49 18 51 04 89 47 93 88 92
30 95 49 83 38 08 86 32 09 90 26 22 11
Nota: No corpo da tabela encontram-se dígitos (de zero a nove) que foram gerados de forma aleatória e que, para facilitar
a leitura, foram dispostos em blocos de dois dígitos cada. Após escolher um número para linha e outro para coluna,
identifique o valor correspondente e, em seguida, os números selecionados. Sua utilização dependerá de vários fatores,
tais como o tamanho da população e o esquema de aleatorização.
Exemplo: para uma população com 100 elementos numerados de 01 a 100 (que na tabela corresponde a 00), serão
sorteados cinco (𝑛 = 5) indivíduos. Escolhendo, por exemplo, a linha 6 e a coluna 2, seguindo por linha, os elementos
sorteados são: 33, 27, 86, 93, 59; seguindo por coluna, os elementos sorteados (sem reposição) são: 33, 79, 48, 93, 08.
Tabela B2: Distribuição binomial: 𝑃𝑟(𝑋 = 𝑥), 𝑋~𝐵(𝑛; 𝑝)

𝑋: número de “sucessos” em 𝑛 ensaios independentes da


distribuição de Bernoulli com probabilidade de “sucesso” 𝑝
Probabilidade Bernoulli (1654-1705)

𝑛
𝑃𝑟(𝑋 = 𝑥) = ( ) 𝑝 𝑥 (1 − 𝑝)𝑛−𝑥 , 𝑥 = 0,1, ⋯ , 𝑛
𝑥

𝑝
𝑛 𝑥
0,01 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95 0,99
0 0,970 0,857 0,729 0,512 0,343 0,216 0,125 0,064 0,027 0,008 0,001 0,000 0,000
1 0,029 0,135 0,243 0,384 0,441 0,432 0,375 0,288 0,189 0,096 0,027 0,007 0,000
3
2 0,000 0,007 0,027 0,096 0,189 0,288 0,375 0,432 0,441 0,384 0,243 0,135 0,029
3 0,000 0,000 0,001 0,008 0,027 0,064 0,125 0,216 0,343 0,512 0,729 0,857 0,970
0 0,961 0,815 0,656 0,410 0,240 0,130 0,063 0,026 0,008 0,002 0,000 0,000 0,000
1 0,039 0,171 0,292 0,410 0,412 0,346 0,250 0,154 0,076 0,026 0,004 0,000 0,000
4 2 0,001 0,014 0,049 0,154 0,265 0,346 0,375 0,346 0,265 0,154 0,049 0,014 0,001
3 0,000 0,000 0,004 0,026 0,076 0,154 0,250 0,346 0,412 0,410 0,292 0,171 0,039
4 0,000 0,000 0,000 0,002 0,008 0,026 0,063 0,130 0,240 0,410 0,656 0,815 0,961
0 0,951 0,774 0,590 0,328 0,168 0,078 0,031 0,010 0,002 0,000 0,000 0,000 0,000
1 0,048 0,204 0,328 0,410 0,360 0,259 0,156 0,077 0,028 0,006 0,000 0,000 0,000
2 0,001 0,021 0,073 0,205 0,309 0,346 0,313 0,230 0,132 0,051 0,008 0,001 0,000
5
3 0,000 0,001 0,008 0,051 0,132 0,230 0,313 0,346 0,309 0,205 0,073 0,021 0,001
4 0,000 0,000 0,000 0,006 0,028 0,077 0,156 0,259 0,360 0,410 0,328 0,204 0,048
5 0,000 0,000 0,000 0,000 0,002 0,010 0,031 0,078 0,168 0,328 0,590 0,774 0,951
0 0,941 0,735 0,531 0,262 0,118 0,047 0,016 0,004 0,001 0,000 0,000 0,000 0,000
1 0,057 0,232 0,354 0,393 0,303 0,187 0,094 0,037 0,010 0,002 0,000 0,000 0,000
2 0,001 0,031 0,098 0,246 0,324 0,311 0,234 0,138 0,060 0,015 0,001 0,000 0,000
6 3 0,000 0,002 0,015 0,082 0,185 0,276 0,313 0,276 0,185 0,082 0,015 0,002 0,000
4 0,000 0,000 0,001 0,015 0,060 0,138 0,234 0,311 0,324 0,246 0,098 0,031 0,001
5 0,000 0,000 0,000 0,002 0,010 0,037 0,094 0,187 0,303 0,393 0,354 0,232 0,057
6 0,000 0,000 0,000 0,000 0,001 0,004 0,016 0,047 0,118 0,262 0,531 0,735 0,941
0 0,932 0,698 0,478 0,210 0,082 0,028 0,008 0,002 0,000 0,000 0,000 0,000 0,000
1 0,066 0,257 0,372 0,367 0,247 0,131 0,055 0,017 0,004 0,000 0,000 0,000 0,000
2 0,002 0,041 0,124 0,275 0,318 0,261 0,164 0,077 0,025 0,004 0,000 0,000 0,000
3 0,000 0,004 0,023 0,115 0,227 0,290 0,273 0,194 0,097 0,029 0,003 0,000 0,000
7
4 0,000 0,000 0,003 0,029 0,097 0,194 0,273 0,290 0,227 0,115 0,023 0,004 0,000
5 0,000 0,000 0,000 0,004 0,025 0,077 0,164 0,261 0,318 0,275 0,124 0,041 0,002
6 0,000 0,000 0,000 0,000 0,004 0,017 0,055 0,131 0,247 0,367 0,372 0,257 0,066
7 0,000 0,000 0,000 0,000 0,000 0,002 0,008 0,028 0,082 0,210 0,478 0,698 0,932
Tabela B2: Distribuição binomial: 𝑃𝑟(𝑋 = 𝑥), 𝑋~𝐵(𝑛; 𝑝) (continuação)

𝑋: número de “sucessos” em 𝑛 ensaios independentes da


distribuição de Bernoulli com probabilidade de “sucesso” 𝑝
Probabilidade Bernoulli (1654-1705)

𝑛
𝑃𝑟(𝑋 = 𝑥) = ( ) 𝑝 𝑥 (1 − 𝑝)𝑛−𝑥 , 𝑥 = 0,1, ⋯ , 𝑛
𝑥

𝑝
𝑛 𝑥
0,01 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95 0,99
0 0,923 0,663 0,430 0,168 0,058 0,017 0,004 0,001 0,000 0,000 0,000 0,000 0,000
1 0,075 0,279 0,383 0,336 0,198 0,090 0,031 0,008 0,001 0,000 0,000 0,000 0,000
2 0,003 0,051 0,149 0,294 0,296 0,209 0,109 0,041 0,010 0,001 0,000 0,000 0,000
3 0,000 0,005 0,033 0,147 0,254 0,279 0,219 0,124 0,047 0,009 0,000 0,000 0,000
8 4 0,000 0,000 0,005 0,046 0,136 0,232 0,273 0,232 0,136 0,046 0,005 0,000 0,000
5 0,000 0,000 0,000 0,009 0,047 0,124 0,219 0,279 0,254 0,147 0,033 0,005 0,000
6 0,000 0,000 0,000 0,001 0,010 0,041 0,109 0,209 0,296 0,294 0,149 0,051 0,003
7 0,000 0,000 0,000 0,000 0,001 0,008 0,031 0,090 0,198 0,336 0,383 0,279 0,075
8 0,000 0,000 0,000 0,000 0,000 0,001 0,004 0,017 0,058 0,168 0,430 0,663 0,923
0 0,914 0,630 0,387 0,134 0,040 0,010 0,002 0,000 0,000 0,000 0,000 0,000 0,000
1 0,083 0,299 0,387 0,302 0,156 0,060 0,018 0,004 0,000 0,000 0,000 0,000 0,000
2 0,003 0,063 0,172 0,302 0,267 0,161 0,070 0,021 0,004 0,000 0,000 0,000 0,000
3 0,000 0,008 0,045 0,176 0,267 0,251 0,164 0,074 0,021 0,003 0,000 0,000 0,000
4 0,000 0,001 0,007 0,066 0,172 0,251 0,246 0,167 0,074 0,017 0,001 0,000 0,000
9
5 0,000 0,000 0,001 0,017 0,074 0,167 0,246 0,251 0,172 0,066 0,007 0,001 0,000
6 0,000 0,000 0,000 0,003 0,021 0,074 0,164 0,251 0,267 0,176 0,045 0,008 0,000
7 0,000 0,000 0,000 0,000 0,004 0,021 0,070 0,161 0,267 0,302 0,172 0,063 0,003
8 0,000 0,000 0,000 0,000 0,000 0,004 0,018 0,060 0,156 0,302 0,387 0,299 0,083
9 0,000 0,000 0,000 0,000 0,000 0,000 0,002 0,010 0,040 0,134 0,387 0,630 0,914
0 0,904 0,599 0,349 0,107 0,028 0,006 0,001 0,000 0,000 0,000 0,000 0,000 0,000
1 0,091 0,315 0,387 0,268 0,121 0,040 0,010 0,002 0,000 0,000 0,000 0,000 0,000
2 0,004 0,075 0,194 0,302 0,233 0,121 0,044 0,011 0,001 0,000 0,000 0,000 0,000
3 0,000 0,010 0,057 0,201 0,267 0,215 0,117 0,042 0,009 0,001 0,000 0,000 0,000
4 0,000 0,001 0,011 0,088 0,200 0,251 0,205 0,111 0,037 0,006 0,000 0,000 0,000
10 5 0,000 0,000 0,001 0,026 0,103 0,201 0,246 0,201 0,103 0,026 0,001 0,000 0,000
6 0,000 0,000 0,000 0,006 0,037 0,111 0,205 0,251 0,200 0,088 0,011 0,001 0,000
7 0,000 0,000 0,000 0,001 0,009 0,042 0,117 0,215 0,267 0,201 0,057 0,010 0,000
8 0,000 0,000 0,000 0,000 0,001 0,011 0,044 0,121 0,233 0,302 0,194 0,075 0,004
9 0,000 0,000 0,000 0,000 0,000 0,002 0,010 0,040 0,121 0,268 0,387 0,315 0,091
10 0,000 0,000 0,000 0,000 0,000 0,000 0,001 0,006 0,028 0,107 0,349 0,599 0,904

Nota: A tabela fornece a probabilidade de 𝑥 “sucessos” em 𝑛 ensaios independentes da distribuição de Bernoulli com
probabilidade de “sucesso” 𝑝, isto é, 𝑃𝑟(𝑋 = 𝑥) = (𝑛𝑥)𝑝 𝑥 (1 − 𝑝)𝑛−𝑥 , 𝑥 = 0,1, ⋯ , 𝑛.

Exemplos: 𝑋~𝐵(𝑛 = 10; 𝑝): a) 𝑝 = 0, 01: 𝑃𝑟(𝑋 = 0) = 0,904; b) 𝑝 = 0, 01: 𝑃𝑟(𝑋 = 2) = 0,004;
c) 𝑝 = 0, 05: 𝑃𝑟(𝑋 = 0) = 0,599; d) 𝑝 = 0, 05: 𝑃𝑟(𝑋 = 2) = 0,075; e) 𝑝 = 0, 05: 𝑃𝑟(𝑋 = 5) = 0,000.
Tabela B3: Distribuição de Poisson: 𝑃𝑟(𝑋 = 𝑥) , 𝑋~𝑃(𝜆)

𝑋: número de ocorrências de um evento por


certa unidade (tempo, área, volume, etc.)
Probabilidade Poisson (1781-1840)

𝑒 −𝜆 𝜆𝒙
𝑃𝑟(𝑋 = 𝑥) = , 𝑥 = 0, 1, 2, ⋯
𝑥!

𝜆: taxa de ocorrências

𝜆
𝑥
1 2 2,5 3 3,5 5 8 10
0 0,368 0,135 0,082 0,050 0,030 0,007 0,000 0,000
1 0,368 0,271 0,205 0,149 0,106 0,034 0,003 0,000
2 0,184 0,271 0,256 0,224 0,185 0,084 0,011 0,002
3 0,061 0,181 0,214 0,224 0,216 0,140 0,029 0,008
4 0,015 0,090 0,134 0,168 0,189 0,176 0,057 0,019
5 0,003 0,036 0,067 0,101 0,132 0,176 0,092 0,038
6 0,001 0,012 0,028 0,050 0,077 0,146 0,122 0,063
7 0,000 0,003 0,010 0,022 0,038 0,105 0,140 0,090
8 0,000 0,001 0,003 0,008 0,017 0,065 0,140 0,112
9 0,000 0,000 0,001 0,003 0,007 0,036 0,123 0,125
10 0,000 0,000 0,000 0,001 0,002 0,018 0,099 0,125
11 0,000 0,000 0,000 0,000 0,001 0,008 0,072 0,114
12 0,000 0,000 0,000 0,000 0,000 0,004 0,048 0,095
13 0,000 0,000 0,000 0,000 0,000 0,001 0,030 0,073
14 0,000 0,000 0,000 0,000 0,000 0,000 0,017 0,052
15 0,000 0,000 0,000 0,000 0,000 0,000 0,009 0,035
16 0,000 0,000 0,000 0,000 0,000 0,000 0,005 0,022
17 0,000 0,000 0,000 0,000 0,000 0,000 0,002 0,013
18 0,000 0,000 0,000 0,000 0,000 0,000 0,001 0,007
19 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,004
20 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,002
21 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,001
22 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

Nota: A tabela fornece a probabilidade de 𝑥 ocorrências de um evento de uma variável com distribuição Poisson com
𝑒 −𝜆 𝜆𝒙
parâmetro 𝜆, isto é, para 𝑥 = 0, 1, 2, ⋯ , 𝑃𝑟(𝑋 = 𝑥) = .
𝑥!

Exemplos: 𝜆 = 1: 𝑃𝑟(𝑋 = 3) = 0,061; 𝜆 = 10: 𝑃𝑟(𝑋 = 3) = 0,008.


Tabela B4-A: Distribuição normal padrão, 𝑍~𝑁(0; 1), para percentil (𝑧) negativo

𝑍: variável contínua com função de distribuição de


probabilidade 𝑓(𝑧) na forma da curva de Gauss
Curva de Gauss Função densidade de probabilidade Gauss (1777-1855)

1 𝑧2
𝑓(𝑧) = 𝑒− 2
√2𝜋

Segunda casa decimal de 𝑧


𝑧
0 1 2 3 4 5 6 7 8 9
-2,9 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
-2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019
-2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
-2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
-2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048
-2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
-2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
-2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110
-2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
-2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
-1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
-1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
-1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
-1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
-1,5 0,0668 0,0655 0,0643 0,063 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
-1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
-1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
-1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985
-1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170
-1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379
-0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611
-0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867
-0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148
-0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451
-0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776
-0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121
-0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483
-0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859
-0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247
0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641

Nota: A tabela fornece a probabilidade acumulada desde o início da curva até o percentil 𝑧, isto é, a probabilidade
correspondente à área sombreada na curva: 𝑃𝑟(𝑍 ≤ 𝑧).

Exemplos: 𝑃𝑟(𝑍 ≤ −1,96) = 0,0250; 𝑃𝑟(𝑍 ≤ −1,64) = 0,0505.


Tabela B4-B: Distribuição normal padrão, 𝑍~𝑁(0; 1), para percentil (𝑧) positivo

𝑍: variável contínua com função de distribuição de


probabilidade 𝑓(𝑧) na forma da curva de Gauss
Curva de Gauss Função densidade de probabilidade Gauss (1777-1855)

1 𝑧2
𝑓(𝑧) = 𝑒2
√2𝜋

Segunda casa decimal de 𝑧


𝑧
0 1 2 3 4 5 6 7 8 9
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,591 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,937 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,983 0,9834 0,9838 0,9842 0,9846 0,985 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,989
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,998 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986

Nota: A tabela fornece a probabilidade acumulada desde o início da curva até o percentil 𝑧, isto é, a probabilidade
correspondente à área sombreada na curva: 𝑃𝑟(𝑍 ≤ 𝑧).

Exemplos: 𝑃𝑟(𝑍 ≤ 0,00) = 0,5000; 𝑃𝑟(𝑍 ≤ 1,96) = 0,9750.


Tabela B5: Distribuição 𝑡 de Student (𝑡𝜈2 )

𝑋: variável contínua com função de distribuição de probabilidade 𝑓(𝑥) na forma da curva da


distribuição 𝑡 de Student com 𝜈 graus de liberdade, sendo Γ sua função de distribuição acumulada
Curva da distribuição 𝑡 Função densidade de probabilidade Gosset (1876-1937)

𝑣+1 −(
𝑣+1
)
Γ( 2 ) 𝑥2 2
𝑓(𝑥) = 𝑣 (1 + )
Γ (2) √𝑣𝜋 𝑣

Área sombreada na curva


Graus de liberdade (𝜈)
0,50 0,40 0,20 0,10 0,05 0,02 0,01
1 1,000 1,376 3,078 6,314 12,706 31,821 63,657
2 0,817 1,061 1,886 2,920 4,303 6,965 9,925
3 0,765 0,978 1,638 2,353 3,182 4,541 5,841
4 0,741 0,941 1,533 2,132 2,776 3,747 4,604
5 0,727 0,920 1,476 2,015 2,571 3,365 4,032
6 0,718 0,906 1,440 1,943 2,447 3,143 3,708
7 0,711 0,896 1,415 1,895 2,365 2,998 3,500
8 0,706 0,889 1,397 1,860 2,306 2,897 3,355
9 0,703 0,883 1,383 1,833 2,262 2,821 3,250
10 0,700 0,879 1,372 1,812 2,228 2,764 3,169
11 0,697 0,876 1,363 1,796 2,201 2,718 3,106
12 0,695 0,873 1,356 1,782 2,179 2,681 3,055
13 0,694 0,870 1,350 1,771 2,160 2,650 3,012
14 0,692 0,868 1,345 1,761 2,145 2,625 2,977
15 0,691 0,866 1,341 1,753 2,132 2,603 2,947
16 0,690 0,865 1,337 1,746 2,120 2,584 2,921
17 0,689 0,863 1,333 1,740 2,110 2,567 2,898
18 0,688 0,862 1,330 1,734 2,101 2,552 2,878
19 0,688 0,861 1,328 1,729 2,093 2,540 2,861
20 0,687 0,860 1,325 1,725 2,086 2,528 2,845
30 0,683 0,854 1,310 1,697 2,042 2,457 2,750
40 0,681 0,851 1,303 1,684 2,021 2,423 2,705
60 0,679 0,848 1,296 1,671 2,000 2,390 2,660
120 0,677 0,845 1,289 1,658 1,980 2,358 2,617

Nota: A tabela fornece o percentil (𝑥) correspondente às probabilidades acumuladas nas duas caudas da distribuição 𝑡 de
Student com 𝜈 graus de liberdade, isto é, a probabilidade correspondente à área sombreada na curva é 𝑃𝑟(𝑋 ≤ −𝑥) +
𝑃𝑟(𝑋 ≥ 𝑥) para 𝑋~𝑡𝜈 .

Exemplos: 𝜈 = 10: a) 𝑃𝑟(𝑋 ≤ −2,228) + 𝑃𝑟(𝑋 ≥ 2,228) = 0,05; b) 𝑃𝑟(𝑋 ≥ 2,228) = 0,025; c) 𝑃𝑟(𝑋 ≤ −2,228) =
0,025.
Tabela B6: Distribuição qui-quadrado (𝜒𝜈2 )

𝑋: variável contínua com função de distribuição de probabilidade 𝑓(𝑥) na forma da curva da


distribuição qui-quadrado com 𝜈 graus de liberdade, sendo Γ sua função de distribuição acumulada
Curva da distribuição Função densidade de probabilidade Pearson (1857-1936)

𝜈
1 1 2 𝜈 𝑥
𝑓(𝑥) = ( ) 𝑥 2−1 𝑒 −2
Γ(ν/2) 2

Área sombreada na curva


Graus de liberdade (𝜈)
0,750 0,250 0,100 0,050 0,025 0,010 0,005
1 0,102 1,323 2,706 3,841 5,024 6,635 7,879
2 0,575 2,773 4,605 5,991 7,378 9,210 10,597
3 1,213 4,108 6,251 7,815 9,348 11,345 12,838
4 1,923 5,385 7,779 9,488 11,143 13,277 14,860
5 2,675 6,626 9,236 11,070 12,833 15,086 16,750
6 3,455 7,841 10,645 12,592 14,449 16,812 18,548
7 4,255 9,037 12,017 14,067 16,013 18,475 20,278
8 5,071 10,219 13,362 15,507 17,535 20,090 21,955
9 5,899 11,389 14,684 16,919 19,023 21,666 23,589
10 6,737 12,549 15,987 18,307 20,483 23,209 25,188
11 7,584 13,701 17,275 19,675 21,920 24,725 26,757
12 8,438 14,845 18,549 21,026 23,337 26,217 28,300
13 9,299 15,984 19,812 22,362 24,736 27,688 29,819
14 10,165 17,117 21,064 23,685 26,119 29,141 31,319
15 11,037 18,245 22,307 24,996 27,488 30,578 32,801
16 11,912 19,369 23,542 26,296 28,845 32,000 34,267
17 12,792 20,489 24,769 27,587 30,191 33,409 35,718
18 13,675 21,605 25,989 28,869 31,526 34,805 37,156
19 14,562 22,718 27,204 30,143 32,852 36,191 38,582
20 15,452 23,828 28,412 31,410 34,170 37,566 39,997
30 24,478 34,800 40,256 43,773 46,979 50,892 53,672
40 33,660 45,616 51,805 55,759 59,342 63,691 66,767
50 42,942 56,334 63,167 67,505 71,420 76,154 79,490
60 52,294 66,982 74,397 79,082 83,298 88,381 91,955

Nota: A tabela fornece o percentil (𝑥) correspondente à probabilidade acumulada no final da curva da distribuição
qui-quadrado com 𝜈 graus de liberdade a partir do percentil 𝑥, isto é, a probabilidade correspondente à área sombreada na
curva é 𝑃𝑟(𝑋 ≥ 𝑥) para 𝑋~𝜒𝜈2.

Exemplo: 𝜈 = 1, 𝑃𝑟(𝑋 ≥ 3,841) = 0,05.


Tabela B7-A: Distribuição F (𝐹𝑚;𝑛 )

Área sombreada no final da curva = 0,05


𝑋: variável contínua com distribuição de probabilidade 𝑓(𝑥) na forma da curva da
distribuição F (de Snedecor-Fisher), sendo Γ sua função de distribuição acumulada
Curva da distribuição 𝐹 Função densidade de probabilidade Fisher (1890-1962)

(𝑚 + 𝑛) 𝑚 𝑚−2
Γ 𝑚 2 𝑥 2
𝑓(𝑥) = 𝑚 2
𝑛 ( ) 𝑚 𝑚+𝑛
Γ ( 2 ) Γ (2) 𝑛 [1 + ( 𝑛 ) 𝑥] 2

Graus de liberdade do Graus de liberdade do numerador (𝑚)


denominador (𝑛) 1 2 3 4 5 6 7 8 9
1 161,40 199,50 215,70 224,60 230,20 234,00 236,80 238,90 240,50
2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02
11 4,84 3,98 2,59 3,36 3,20 3,09 3,01 2,95 2,90
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39
21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34
23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32
24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28
26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27
27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25
28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24
29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21
40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12
50 3,06 3,05 2,91 2,79 2,69 2,61 2,54 2,48 2,43
60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04
120 3,92 3,07 2,68 2,45 2,29 2,17 2,09 2,02 1,96
∞ 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88
Nota: A tabela fornece o percentil (𝑥) de ordem 0,95 correspondente à probabilidade acumulada no final da curva da
distribuição 𝐹 com números de graus de liberdade do numerador (𝑚) e denominador (𝑛): 𝑃𝑟(𝑋 ≥ 𝑥) = 0,05 para 𝑋~𝐹𝑚;𝑛 .
Exemplos: a) 𝑚 = 8 e 𝑛 = 12, 𝑃𝑟(𝑋 ≥ 2,85) = 0,05; b) 𝑚 = 1 e 𝑛 = 120, 𝑃𝑟(𝑋 ≥ 3,92) = 0,05.
Tabela B7-B: Distribuição F (𝐹𝑚;𝑛 )

Área sombreada no final da curva = 0,025


𝑋: variável contínua com distribuição de probabilidade 𝑓(𝑥) na forma da curva da
distribuição F (de Snedecor-Fisher), sendo Γ sua função de distribuição acumulada
Curva da distribuição 𝐹 Função densidade de probabilidade Fisher (1890-1962)

(𝑚 + 𝑛) 𝑚 𝑚−2
Γ 𝑚 2 𝑥 2
𝑓(𝑥) = 𝑚 2
𝑛 ( ) 𝑚 𝑚+𝑛
Γ ( 2 ) Γ (2) 𝑛 [1 + ( 𝑛 ) 𝑥] 2

Graus de liberdade Graus de liberdade do numerador (𝑚)


do denominador (𝑛) 1 2 3 4 5 6 7 8 9
1 647,79 799,50 864,16 899,58 921,85 937,11 948,22 956,66 963,28
2 38,51 39,00 39,17 39,25 39,30 39,33 39,36 39,37 39,39
3 17,44 16,04 15,44 15,10 14,89 14,74 14,62 14,54 14,47
4 12,22 10,65 9,98 9,60 9,36 9,20 9,07 8,98 8,90
5 10,01 8,43 7,76 7,39 7,15 6,98 6,85 6,76 6,68
6 8,81 7,26 6,60 6,23 5,99 5,82 5,70 5,60 5,52
7 8,07 6,54 5,89 5,52 5,29 5,12 4,99 4,90 4,82
8 7,57 6,06 5,42 5,05 4,82 4,65 4,53 4,43 4,36
9 7,21 5,71 5,08 4,72 4,48 4,32 4,20 4,10 4,03
10 6,94 5,46 4,83 4,47 4,24 4,07 3,95 3,85 3,78
11 6,72 5,26 4,63 4,28 4,04 3,88 3,76 3,66 3,59
12 6,55 5,10 4,47 4,12 3,89 3,73 3,61 3,51 3,44
13 6,41 4,97 4,35 4,00 3,77 3,60 3,48 3,39 3,31
14 6,30 4,86 4,24 3,89 3,66 3,50 3,38 3,29 3,21
15 6,20 4,77 4,15 3,80 3,58 3,41 3,29 3,20 3,12
16 6,12 4,69 4,08 3,73 3,50 3,34 3,22 3,12 3,05
17 6,04 4,62 4,01 3,66 3,44 3,28 3,16 3,06 2,98
18 5,98 4,56 3,95 3,61 3,38 3,22 3,10 3,01 2,93
19 5,92 4,51 3,90 3,56 3,33 3,17 3,05 2,96 2,88
20 5,87 4,46 3,86 3,51 3,29 3,13 3,01 2,91 2,84
21 5,83 4,42 3,82 3,48 3,25 3,09 2,97 2,87 2,80
22 5,79 4,38 3,78 3,44 3,22 3,05 2,93 2,84 2,76
23 5,75 4,35 3,75 3,41 3,18 3,02 2,90 2,81 2,73
24 5,72 4,32 3,72 3,38 3,15 2,99 2,87 2,78 2,70
25 5,69 4,29 3,69 3,35 3,13 2,97 2,85 2,75 2,68
26 5,66 4,27 3,67 3,33 3,10 2,94 2,82 2,73 2,65
27 5,63 4,24 3,65 3,31 3,08 2,92 2,80 2,71 2,63
28 5,61 4,22 3,63 3,29 3,06 2,90 2,78 2,69 2,61
29 5,59 4,20 3,61 3,27 3,04 2,88 2,76 2,67 2,59
30 5,57 4,18 3,59 3,25 3,03 2,87 2,75 2,65 2,57
40 5,42 4,05 3,46 3,13 2,90 2,74 2,62 2,53 2,45
50 5,34 3,97 3,39 3,05 2,83 2,67 2,55 2,46 2,38
60 5,29 3,93 3,34 3,01 2,79 2,63 2,51 2,41 2,33
120 5,15 3,80 3,23 2,89 2,67 2,52 2,39 2,30 2,22
∞ 5,02 3,69 3,12 2,79 2,57 2,41 2,29 2,19 2,11
Nota: A tabela fornece o percentil (𝑥) de ordem 0,975 correspondente à probabilidade acumulada no final da curva da
distribuição F com números de graus de liberdade do numerador (𝑚) e denominador (𝑛): 𝑃𝑟(𝑋 ≥ 𝑥) = 0,025 para 𝑋~𝐹𝑚;𝑛 .
Exemplos: a) 𝑚 = 8 e 𝑛 = 12, 𝑃𝑟(𝑋 ≥ 3,51) = 0,025; b) 𝑚 = 1 e 𝑛 = 120, 𝑃𝑟(𝑋 ≥ 5,15) = 0,025.
Tabela B7-C: Distribuição F (𝐹𝑚;𝑛 )

Área sombreada no final da curva = 0,01


𝑋: variável contínua com distribuição de probabilidade 𝑓(𝑥) na forma da curva da
distribuição F (de Snedecor-Fisher), sendo Γ sua função de distribuição acumulada
Curva da distribuição 𝐹 Função densidade de probabilidade Fisher (1890-1962)

(𝑚 + 𝑛) 𝑚 𝑚−2
Γ 𝑚 2 𝑥 2
𝑓(𝑥) = 𝑚 2
𝑛 ( ) 𝑚 𝑚+𝑛
Γ ( 2 ) Γ (2) 𝑛 [1 + ( 𝑛 ) 𝑥] 2

Graus de liberdade Graus de liberdade do numerador (𝑚)


do denominador (𝑛) 1 2 3 4 5 6 7 8 9
1 4052,20 4999,50 5403,40 5624,60 5763,60 5859,00 5928,40 5981,10 6022,50
2 98,50 99,00 99,17 99,25 99,30 99,33 99,36 99,37 99,39
3 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,35
4 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,66
5 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,16
6 13,75 10,93 9,78 9,15 8,75 8,47 8,26 8,10 7,98
7 12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72
8 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91
9 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35
10 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94
11 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,63
12 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39
13 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19
14 8,86 6,51 5,56 5,04 4,70 4,46 4,28 4,14 4,03
15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89
16 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78
17 8,40 6,11 5,19 4,67 4,34 4,10 3,93 3,79 3,68
18 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,60
19 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52
20 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46
21 8,02 5,78 4,87 4,37 4,04 3,81 3,64 3,51 3,40
22 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,35
23 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,30
24 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,26
25 7,77 5,57 4,68 4,18 3,86 3,63 3,46 3,32 3,22
26 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,18
27 7,68 5,49 4,60 4,11 3,78 3,56 3,39 3,26 3,15
28 7,64 5,45 4,57 4,07 3,75 3,53 3,36 3,23 3,12
29 7,60 5,42 4,54 4,04 3,73 3,50 3,33 3,20 3,09
30 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,07
40 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89
50 7,17 5,06 4,20 3,72 3,41 3,19 3,02 2,89 2,79
60 7,08 4,98 4,13 3,65 3,34 3,12 2,95 2,82 2,72
120 6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,56
∞ 6,63 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,41
Nota: A tabela fornece o percentil (𝑥) de ordem 0,99 correspondente à probabilidade acumulada no final da curva da
distribuição F com números de graus de liberdade do numerador (𝑚) e denominador (𝑛): 𝑃𝑟(𝑋 ≥ 𝑥) = 0,01 para 𝑋~𝐹𝑚;𝑛 .
Exemplos: a) 𝑚 = 8 e 𝑛 = 12, 𝑃𝑟(𝑋 ≥ 4,50) = 0,01; b) 𝑚 = 1 e 𝑛 = 120, 𝑃𝑟(𝑋 ≥ 6,85) = 0,01.
Tabela B7-D: Distribuição F (𝐹𝑚;𝑛 )

Área sombreada no final da curva = 0,005


𝑋: variável contínua com distribuição de probabilidade 𝑓(𝑥) na forma da curva da
distribuição F (de Snedecor-Fisher), sendo Γ sua função de distribuição acumulada
Curva da distribuição 𝐹 Função densidade de probabilidade Fisher (1890-1962)

(𝑚 + 𝑛) 𝑚 𝑚−2
Γ 𝑚 2 𝑥 2
𝑓(𝑥) = 𝑚 2
𝑛 ( ) 𝑚 𝑚+𝑛
Γ ( 2 ) Γ (2) 𝑛 [1 + ( 𝑛 ) 𝑥] 2

Graus de liberdade do Graus de liberdade do numerador (𝑚)


denominador (𝑛) 1 2 3 4 5 6 7 8 9
1 16.207,5 19.995,6 21.610,5 22.495,1 23.051,2 23.432,5 23.709,9 23.920,7 24.086,2
2 198,49 198,99 199,15 199,23 199,28 199,32 199,34 199,36 199,37
3 55,55 49,80 47,46 46,19 45,39 44,84 44,43 44,12 43,88
4 31,33 26,28 24,26 23,15 22,46 21,97 21,62 21,35 21,14
5 22,78 18,31 16,53 15,56 14,94 14,51 14,20 13,96 13,77
6 18,63 14,54 12,92 12,03 11,46 11,07 10,79 10,57 10,39
7 16,24 12,40 10,88 10,05 9,52 9,16 8,89 8,68 8,51
8 14,69 11,04 9,60 8,80 8,30 7,95 7,69 7,50 7,34
9 13,61 10,11 8,72 7,96 7,47 7,13 6,88 6,69 6,54
10 12,83 9,43 8,08 7,34 6,87 6,54 6,30 6,12 5,97
11 12,23 8,91 7,60 6,88 6,42 6,10 5,86 5,68 5,54
12 11,75 8,51 7,23 6,52 6,07 5,76 5,52 5,35 5,20
13 11,37 8,19 6,93 6,23 5,79 5,48 5,25 5,07 4,93
14 11,06 7,92 6,68 6,00 5,56 5,26 5,03 4,86 4,72
15 10,80 7,70 6,48 5,80 5,37 5,07 4,85 4,67 4,54
16 10,58 7,51 6,30 5,64 5,21 4,91 4,69 4,52 4,38
17 10,38 7,35 6,16 5,50 5,07 4,78 4,56 4,39 4,25
18 10,22 7,21 6,03 5,37 4,96 4,66 4,44 4,28 4,14
19 10,07 7,09 5,92 5,27 4,85 4,56 4,34 4,18 4,04
20 9,94 6,99 5,82 5,17 4,76 4,47 4,26 4,09 3,96
21 9,83 6,89 5,73 5,09 4,68 4,39 4,18 4,01 3,88
22 9,73 6,81 5,65 5,02 4,61 4,32 4,11 3,94 3,81
23 9,63 6,73 5,58 4,95 4,54 4,26 4,05 3,88 3,75
24 9,55 6,66 5,52 4,89 4,48 4,20 3,99 3,83 3,69
25 9,48 6,60 5,46 4,83 4,43 4,15 3,94 3,78 3,64
26 9,41 6,54 5,41 4,78 4,38 4,10 3,89 3,73 3,60
27 9,34 6,49 5,36 4,74 4,34 4,06 3,85 3,69 3,56
28 9,28 6,44 5,32 4,70 4,30 4,02 3,81 3,65 3,52
29 9,23 6,40 5,28 4,66 4,26 3,98 3,77 3,61 3,48
30 9,18 6,35 5,24 4,62 4,23 3,95 3,74 3,58 3,45
40 8,83 6,07 4,97 4,37 3,99 3,71 3,51 3,35 3,22
50 8,63 5,90 4,83 4,23 3,85 3,58 3,38 3,22 3,09
60 8,49 5,79 4,73 4,14 3,76 3,49 3,29 3,13 3,01
120 8,18 5,54 4,50 3,92 3,55 3,28 3,09 2,93 2,81
∞ 7,88 5,30 4,28 3,72 3,35 3,09 2,90 2,74 2,62
Nota: A tabela fornece o percentil (𝑥) de ordem 0,995 correspondente à probabilidade acumulada no final da curva da
distribuição F com números de graus de liberdade do numerador (𝑚) e denominador (𝑛): 𝑃𝑟(𝑋 ≥ 𝑥) = 0,005 para 𝑋~𝐹𝑚;𝑛 .
Exemplos: a) 𝑚 = 8 e 𝑛 = 12, 𝑃𝑟(𝑋 ≥ 5,35) = 0,005; b) 𝑚 = 1 e 𝑛 = 120, 𝑃𝑟(𝑋 ≥ 8,18) = 0,005.
Planilhas Excel®

2PLANILHAS_EXCEL_CAP2

https://drive.google.com/open?id=0B-pSp8czikO8YlB2RTlnV2JMOXc

3PLANILHAS_EXCEL_CAP3

https://drive.google.com/open?id=0B-pSp8czikO8V3BUZFlEenk3M2M

4PLANILHAS_EXCEL_CAP4

https://drive.google.com/open?id=0B-pSp8czikO8ZVBOOGxUU0VQbEk

5PLANILHAS_EXCEL_CAP5

https://drive.google.com/open?id=0B-pSp8czikO8bGdGTmNNeVFyN1U

6PLANILHAS_EXCEL_CAP6

https://drive.google.com/open?id=0B-pSp8czikO8M09JYzRDcGQwLTA
7PLANILHAS_EXCEL_CAP7

https://drive.google.com/open?id=0B-pSp8czikO8bzZSTTgzdW05SGM

8PLANILHAS_EXCEL_CAP8

https://drive.google.com/open?id=0B-pSp8czikO8d1RGa1NMSE9IMDg

9PLANILHAS_EXCEL_CAP9

https://drive.google.com/open?id=0B-pSp8czikO8RU1HR1JBQ2dHems

10PLANILHAS_EXCEL_CAP10

https://drive.google.com/open?id=0B-pSp8czikO8dEUxVTZpVUw0em8

Você também pode gostar