Testes estatísticos em medicina

See discussions, stats, and author profiles for this publication at: https://www.researchgate.
net/publication/326522403
OS TESTES ESTATÍSTICOS (EM MEDICINA)
Chapter · July 2017
CITATIONS READS
0 3,045
3 authors:
Joaquim Edson Vieira Paulo Sergio Panse Silveira

University of São Paulo University of São Paulo
154 PUBLICATIONS 2,172 CITATIONS 44 PUBLICATIONS 1,110 CITATIONS
SEE PROFILE SEE PROFILE
José Siqueira
University of São Paulo
110 PUBLICATIONS 655 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Avaliação em Educação Médica View project
Mathematics View project
All content following this page was uploaded by José Siqueira on 20 July 2018.
The user has requested enhancement of the downloaded file.

TESTES ESTATÍSTICOS
Joaquim Edson Vieira
Paulo Sergio Panse Silveira
José de Oliveira Siqueira
...when you can measure what you are speaking about

and express it in numbers you know something about it;
but when you cannot measure it, when you cannot express it in numbers,
your knowledge is of a meager and unsatisfactory kind.
William Thompson, Lord Kevin (1891).
INTRODUÇÃO
O uso da estatística traz, por certo, segurança ao pesquisador. Por outro lado,
para aqueles que não sentem domínio sobre seu instrumental, mistura-se um
sentimento de insegurança pela possibilidade de ser ludibriado com números... Piora a
sensação porque, confrontado por “dados científicos” que têm por base um
instrumental que lhes parece críptico, não há como contra-argumentar sem eventual
desconforto... Ouve-se demais o lugar comum de que estatística “serve para mentiras
sofisticadas”. Ninguém nega que se fez mau uso dela, um desserviço que contribuiu
para sua má fama. Mas, não há caminho fácil para escapar da armadilha, senão
enfrentar e compreender os conceitos estatísticos.
Estatística é uma ferramenta que aumenta a segurança… ou, melhor dizendo,

é uma ferramenta que mede nossa incerteza. Também o leitor pode se sentir melhor
instruído ao entender a proposta, o “desenho” do estudo lido e contemplar os números
encontrados. Embora os profissionais estatísticos clamem, com justiça, pelo uso
apropriado dos instrumentos desta área, pode ser justo, também, que médicos
possam não somente apreciar, mas também alcançar os números descritores do que
é investigado, comprometendo-se com a proposta de Lord Kevin, citada acima (Crosby
1997).
Este texto tem a pretensão de orientar na compreensão de conceitos

estatísticos e na aplicação de seus testes básicos. Embora possa ser visto como uma
heresia para os profissionais estatísticos, o procedimento matemático em si é
secundário para a boa comunicação interdisciplinar, como é o caso de médicos que se
utilizam desse conhecimento. Conceitos corretos, porém, não podem ser
negligenciados, para que escolhas corretas dos testes estatísticos sejam propriamente
executados pelos computadores. Certamente os instrumentos para se atingir
resultados poderão ser buscados em programas comerciais gratuitos (MYSTAT,
1
INSTAT, PAST, sítio do GRAPHPAD) e de código aberto (R com algumas interfaces
gráficas que auxiliam seu uso como RCommander e EZR). Idealmente, no entanto,
nada substituirá o preparo e interesse de um profissional estatístico, mas o
conhecimento do jargão básico, por parte de um profissional da saúde, facilita
enormemente a comunicação. Este texto também assume que alguns termos comuns
não necessitam detalhamento ou explicação como, por exemplo, “distribuição normal”.
O que se espera é que este capítulo oriente sobre os possíveis testes e traga
informações para o entendimento dos mesmos.
A ESCOLHA DO TESTE DEPENDE DA PERGUNTA
As variáveis observáveis, classificadas conforme seu nível de mensuração,

podem ser qualitativas ou quantitativas. As primeiras dividem-se em variáveis
nominais, tais como sexo, estado civil ou etnia, com duas ou mais categorias,
enquanto as variáveis ordinais, tais como categorias de escala Likert (e.g., com
opções numeradas de 1 a 5), faixa etária, faixa salarial ou escalas de uso médico
(Apgar, Glasgow), têm duas ou mais categorias ordenáveis. Sendo qualitativas as
variáveis nominais e ordinais, não é possível calcular com elas; ainda que as
categorias tenham a aparência de números (como no caso da escala de Glasgow para
coma), os valores não guardam distâncias de quantidade entre si e, portanto, não são
números verdadeiros para podermos computar, por exemplo, sua média. Já as
variáveis intervalares ou de razão, tais como estatura, temperatura, peso ou latência e
tempo de tratamento, são exemplos de variáveis quantitativas e seus valores, sendo
numéricos, permitem o cálculo de seus valores médios e variâncias ou desvio-padrão.
A incerteza sobre os fenômenos observados vem, em grande parte, da

variabilidade dos organismos e é função da estatística descrever um conjunto de
observações e sintetizá-los para facilitar nossa percepção e conclusões. Qualquer
conjunto de valores distribui-se de alguma forma e, assim, o tratamento estatístico
costuma pressupor um modelo que descreva nosso conhecimento sobre como os
valores mensurados em cada indivíduo se situam em relação aos demais. Estatura,
por exemplo, é habitualmente modelada com a distribuição normal (ou gaussiana),
assumindo-se que as estaturas dos indivíduos são simetricamente distribuídas em
torno da média populacional (μ) com grau de dispersão dos valores em torno da média
dado pelo desvio-padrão (σ). Esta não é uma pressuposição qualquer. A partir de
qualquer conjunto de números com dois ou mais valores individuais é possível calcular
média e desvio-padrão, mas nem tudo que tem média e desvio-padrão pode ser
tratado com um modelo de distribuição normal. Além disso, é importante notar que os
valores verdadeiros de tais parâmetros na população inteira (μ e σ) são inacessíveis
2
por razões práticas e, portanto, desconhecidos (provavelmente seja impossível
mensurar toda a população de um país...). Lidamos com estimativas, com medidas
associadas de nossa incerteza para a obtenção dos dados por meio de uma amostra
retirada da população.
Convenientemente, uma vez adotada, a distribuição normal é precisamente

definida e somente necessita de dois parâmetros: sua posição (dada pela média, μ) e
seu formato (dado pelo desvio-padrão, σ). Uma forma concisa de dizer que a variável
estatura (X) obedece aproximadamente uma distribuição normal com parâmetros μ e σ
é a seguinte:
X~N(μ;σ)
No entanto, é mais frequente encontrar a seguinte expressão:
X~N(μ;σ2),
...sendo que se usa a variância (desvio-padrão ao quadrado) no lugar do

desvio-padrão.
Distribuição normal pode ser transformada em escore-z, também conhecido

como normal padrão ou simplesmente Z, tornando-se uma variável com distribuição
normal com média nula e desvio-padrão unitário:
Z~N(0;1).
Tal transformação traz facilidade operacional e a regra para esta

transformação é:
Se X~N(μ;σ2), então Z=(X-μ)/σ~N(0;1).
A notação matemática pode parecer críptica para alguns, mas com a devida
calma torna-se legível. Em palavras, a regra diz: “se a variável X segue uma
distribuição normal com média μ e variância σ2, então o escore-z correspondente é
dado subtraindo-se do valor X a média e dividindo-se o resultado pelo desvio-padrão;
como resultado obtém-se uma normal padrão com média igual a zero e desvio-padrão
igual a um”.
O escore-z com distribuição normal padrão obtido por esta regra (Figura 1),
dado que a média e o desvio-padrão estão na mesma unidade de medida (no exemplo
da estatura, em centímetros), é uma variável com distribuição normal que não tem
mais unidade de medida, i.e., ela é adimensional. Além disso, no escore-z positivo o
valor de X está acima da média de X, o escore-z negativo corresponde aos valores
abaixo da média X, e a dispersão dos valores de X fica sempre convertida em
3
unidades de desvio-padrão. É uma abstração, mas é simplesmente uma troca de
escala.
Um exemplo pode tornar a operação mais clara e mostrar sua utilidade.

Suponha que a estatura em centímetros, X, de homem adulto brasileiro nascido na
década de 60 fosse descrita por média de 170 cm e desvio-padrão de 7 cm. Como
situar alguém desta população que tivesse 180,5 cm de altura? Sem o escore-z
teríamos que calcular a integral (a área) sob a curva normal dada por:
X~N(170;7);
No entanto, com a transformação,
Z=(X-170)/7~N(0;1);
Se X=180,5 cm; então Z=(180,5-170)/7
Z=1,5.
Isso é dizer que essa estatura está situada 1,5 desvios-padrão (valor de Z)
acima da média. Como as áreas sob a normal padronizada estão previamente
calculadas, conhecemos também o percentil correspondente, neste exemplo de 93%,
ou seja, apenas 7% da população masculina, nesta população, é mais alta do que o
indivíduo considerado.
A vantagem é que, sendo Z adimensional, caso verifiquemos a glicemia,

creatinina, ou qualquer outra medida com distribuição normal, seja qual for a média e
desvio-padrão da variável, quando encontramos um indivíduo com Z=1,5, sabemos
que seu valor é mais alto que 93% da população à qual ele pertence.
Sendo a distribuição normal uma distribuição de probabilidades, a área sob a

curva é unitária (ou seja, “a soma de todas as probabilidades é igual a 1”, ou “a
probabilidade de se observar algum valor qualquer – pois todo mundo tem alguma
estatura – é 100%”), sendo que 68,2% dos valores estão entre μ+σ e μ-σ, ou seja,
dentro de um desvio-padrão abaixo e acima da média. No exemplo da estatura dos
homens brasileiros, 68,2% dos homens estavam, portanto, entre 163 e 177 cm.
Apenas com isso o leitor, se for homem, brasileiro, nascido na década de 60, saberá
dizer se sua estatura é típica de sua geração.
A ordenada da distribuição normal é chamada de verossimilhança para

diferenciar de probabilidade, pois a chance de um único valor da variável (entre
infinitos!) é nula. Dito desta forma, este conceito pode parecer obscuro, mas é
fundamental para nosso raciocínio. É importante distinguir uma faixa de valores dos
valores pontuais. Caso eu sorteie um indivíduo da população do exemplo dado, há
4
probabilidade de 68,2% de encontrar alguém com estatura entre 163 e 177 cm. No
entanto, não há sentido em esperar qualquer probabilidade diferente de zero de
sortear alguém com exatos 172 cm (nem uma fração de picômetros acima ou abaixo
deste valor). Mesmo quando não percebemos, por limitações de nossos instrumentos
de medida, estamos pesquisando uma faixa de valores, por exemplo entre 171,1 e
172,5 cm; para faixas de valores a probabilidade é computável, neste exemplo de
aproximadamente 5,47%.
Após aprendermos sobre a anatomia da distribuição normal, estamos aptos

para entendermos um teste estatístico paramétrico. Se, por exemplo, desejamos testar
a hipótese de que as médias das estaturas de todos as mulheres e homens nascidos
na década de 60 no Brasil são iguais, temos que supor (i) que as duas distribuições
são normais e (ii) que as duas normais têm desvios-padrão populacionais iguais
(homocedasticidade). Ao propor tal hipótese, dizemos que ela é “nula”, ou H0. A
hipótese nula H0: μH=μM significa que testaremos se homens (H) e mulheres (M) têm a
mesma altura na população.
Rigorosamente falando, as duas suposições são inverossímeis, pois a

distribuição normal vai de menos infinito a mais infinito, assumindo valores negativos
quando muito abaixo da média e, portanto, estatura (como qualquer outra variável
biológica) não pode ter distribuição normal. A segunda suposição também deve ser
falha pois, em geral, quanto maior a média, maior o desvio-padrão (e vice-versa). No
entanto, a distribuição normal para estatura é uma boa aproximação para modelar sua
distribuição no intervalo de valores mínimo e máximo que observamos na realidade e,
com isso, usufruímos de suas propriedades matemáticas que facilitam os cálculos e o
teste da hipótese nula. Quanto à hipótese nula, é conhecimento comum que as
estaturas médias populacionais de homens e mulheres são diferentes, e não é
necessário, na prática, realizar esse teste estatístico. No entanto, ele é útil para efeito
didático. Na sequência, diz-se que há uma hipótese adicional, ou alternativa à “nula”. A
hipótese alternativa – em geral descrita como (H1) – tem a grafia H1: μH≠μM, e concorre
com a hipótese nula diante das duas suposições de normalidade e
homocedasticidade.
O que ocorre num teste de hipótese paramétrico é a comparação entre duas

distribuições normais que podem (ou não) diferir apenas por causa do parâmetro μ,
uma vez que uma não diferença no formato da distribuição foi suposto. Caso o
pesquisador não consiga supor que as duas distribuições são normais para estatura,
então estamos diante de um teste não-paramétrico. Uma saída é supor, pelo menos,
que as duas distribuições são iguais, porém desconhecidas. Outra saída é supor que
5
as duas distribuições são desconhecidas, porém simétricas (a normal é simétrica, mas
existem várias distribuições simétricas que diferentes da normal.
Figura 1: Distribuição normal padrão com média μ=0 e desvio-padrão σ=1
As suposições do teste paramétrico de igualdade de médias populacionais

(normalidade e homocedasticidade) podem eventualmente serem testadas
estatisticamente também! Um teste que avalia se a distribuição é normal é o teste
Kolmogorov-Smirnov. A suposição de homocedasticidade pode ser avaliada pelo teste
Levene. De um modo geral, o teste utilizado deve ser nominado pelo autor do texto,
ou, se incomum, descrito e ou referenciado. Porém, antes de saber se os dados
encontrados são normais e homocedásticos, é preciso obter uma amostra de
participantes (unidades observacionais) para realizar o teste paramétrico. A questão
prática que se impõe é o tamanho adequado dessa amostra.
CÁLCULO DO TAMANHO DA AMOSTRA
O tamanho da amostra deve preferencialmente ser determinado antes do

estudo acontecer. Receber a menor ou maior contribuição de voluntários ou de
selecionados do que o necessário é sempre uma situação antiética: a primeira pode
gerar resultados estatísticos inadequados, a segunda expõe mais pessoas ou animais
a condições experimentais além do que seria necessário.
Para a amostragem aleatória simples sem reposição com pelo menos 30

observações na amostra (n ≥ 30), qualquer que seja a distribuição original da variável
na população, a média amostral M tem distribuição aproximadamente normal. A média
amostral é simplesmente a média aritmética dos valores da amostra, i.e.:
6
M = (X1+X2+...+Xn)/n.
Esse resultado é denominado Teorema do Limite Central (TLC). Se cada

observação tem média μ e desvio-padrão σ, então a média amostral tem distribuição
aproximadamente normal com média μ e desvio-padrão σ/√n, sendo n o tamanho da
amostra superior a 30.
O TLC é frequentemente mal interpretado e confuso para quem não é

estatístico. A chave desta definição está em dizer que “média amostral tem distribuição
aproximadamente normal”. Note que substituímos a variável. Estudando estatura,
sabemos que os valores das estaturas (de uma “população de estaturas”) seguem
uma distribuição normal. Completamente distinta será outra variável que vem de uma
“população de amostras”! A distribuição do número de Ascaris lumbricoides no
intestino de humanos não segue uma distribuição normal: há um grande número de
indivíduos albergando poucos vermes e raras superinfestações, o que mostra que se
trata de uma distribuição assimétrica. Porém, se fizéssemos repetidas amostragens
contando o número desses indesejados vermes em 30 ou mais participantes de cada
amostra, cada amostra teria uma média de vermes; essas várias médias obtidas
seriam raramente muito baixas (quando quase todos os amostrados estivessem
completamente livres desse verme altamente prevalente) ou muito altas (quando
muitos superinfestados aparecessem na mesma amostra), com a maior parte
distribuídas ao redor da média das médias amostrais de acordo com uma distribuição
normal. Ocorre que a média das médias coincide com a média populacional original, μ.
O desvio-padrão das médias amostrais (chamado de erro-padrão), porém, não reflete
o desvio-padrão da variável original e é função do tamanho das amostras.
Fazer repetidas, infinitas amostras, repetindo o estudo diversas vezes, é uma

abstração. Na prática, apenas uma amostra é feita. Supondo que sua amostra não é
muito atípica (a maior probabilidade, com 30 indivíduos ou mais, selecionados
aleatoriamente, é que não teremos indivíduos em condição extrema), usamos a média
da única amostra que temos, M, e seu desvio-padrão, S, como estimadores de μ e σ.
Confiando no TLC, se a amostra pertence à esta população, a média amostral
esperada deveria ser também μ, com certa incerteza de não ser exatamente μ mas de
estar ao redor deste valor, seguindo uma distribuição normal com erro padrão de σ/√n.
Note que o tamanho da amostra (o valor “n”) está no denominador e, portanto, quanto
maior a amostra, mais é provável que nossa amostra tenha seu valor M próximo a μ.
Podemos ter uma ideia de quanto M pode estar distante de μ utilizando o intervalo de
confiança de 95% da média populacional (IC95) dado por:
𝐼𝐶95(𝜇) = [M ± 1,96𝜎⁄√𝑛].
7
Por exemplo, se queremos determinar o IC95 da estatura média de homem
adulto brasileiro nascido na década de 60 e as informações disponíveis de uma
amostra de 100 indivíduos com média amostral M = 171cm e desvio-padrão
populacional conhecido σ = 7cm, então, o IC95(μ) = [169,63; 172,37]. Isso significa
que a média populacional, estimada a partir desta amostra, está no intervalo de
169,63cm a 172,37cm com nível de confiança de 95%, i.e., se fosse possível retirar
1.000 amostras aleatórias de tamanho 100, então 950 destes IC95 conteriam a média
populacional.
Na área da saúde é comum utilizarmos proporções, definidas pela média de

valores 0 e 1 de uma variável de contagem de ausência (0) e presença (1) de uma
característica ou doença. Como a proporção é uma média, então o TLC também se
aplica. Neste caso, o tamanho amostral para uma estimativa pontual de proporção
populacional π precisa de três valores: uma proporção estimada p baseada em
experiência anterior, estudo-piloto ou mesmo num palpite, um escore-z de 1,96 (que
corresponde a 95% da área sob a curva normal) e o erro amostral E (para cima e para
baixo da média) tolerado pelo pesquisador.
O tamanho da amostra “n” para que o erro amostral da estimativa da proporção

“p” seja “E” com nível de confiança de 95% é dado por:
n = p(1-p)(1,96/E)2.
Se a estimativa da proporção p não estiver disponível, então
n = (1,96/(2E))2.
Uma fórmula mais geral do tamanho de amostra para uma variável quantitativa
com qualquer distribuição, se o desvio-padrão é conhecido, é
n = (1,96σ/E)2.
Para calcular o tamanho amostral precisamos decidir, antes, com qual precisão
desejamos medir. Quanto maior a precisão, maior o tamanho da amostra e, portanto,
precisamos ter conhecimento para definir o que é relevante, sua significância prática,
em contraste com a significância estatística. Imagine que consideremos relevante
distinguir pacientes pela glicemia com precisão de 10 mg/dl, pois isso poderá situá-los
entre diabéticos ou não diabéticos. Por outro lado, uma precisão de 0,1mg/dl é
irrelevante, separando, digamos, quem tem 98 de 98,1 mg/dl ao custo de utilizar uma
amostra suficientemente grande!
Exemplo 1: Numa pesquisa-piloto estima-se que 60% dos anestesiologistas

(p = 0,6; proporção) entrevistados preferem um determinado método de anestesia. (i)
Qual deve ser o tamanho da amostra para estimação por intervalo da proporção
8
populacional do uso desse método com precisão de 3% e nível de confiança de 95%?
(ii) Qual deve ser o tamanho da amostra se a proporção estimada no estudo-piloto não
puder ser usada?
(i) n = p(1 – p)(Z/E)2
n = 0,6*(1 – 0,6)(1,96/0,03)2 = 1.024
(ii) n = (Z/(2E))2
n = (1,96/(2*0,03))2 = 1.067
Alguns tamanhos de amostra para valores de P e E mais habituais aparecem
no Quadro 1.
Quadro 1: Tamanho da amostra para P (proporção estimada) e d (erro amostral E)
Exemplo 2: Deseja-se estimar a pressão arterial sistólica (PAS) média de

anestesiologistas com desvio-padrão de 10 mmHg, precisão de 5 mmHg e nível de
confiança de 95%. Qual deve ser o tamanho da amostra nessas condições?
n = (1,96σ/E)2
n = (1,96*10/5)2 = 16
Exemplo 3: Deseja-se estimar a pressão arterial sistólica (PAS) média de

anestesiologistas com precisão de 0,5 desvio-padrão e nível de confiança de 95%.
Qual deve ser o tamanho da amostra nessas condições?
n = (1,96σ/E)2 = (1,96σ/0,5σ)2
n = (1,96/0,5)2 = 15
Se o objetivo for construir um intervalo de confiança de 95% (IC95) para a

diferença das médias populacionais de duas distribuições normais homocedásticas
com desvio-padrão conhecido de dois grupos (e.g., controle e tratamento)
balanceados num delineamento entre participantes (cada participante é submetida a
apenas uma das condições experimentais), então:
n = 2(1,96σ/D)2,
sendo D a diferença detectável entre as duas médias populacionais pelo teste.
Exemplo 4: Deseja-se construir o IC95 da diferença entre as médias

populacionais da PAS de anestesiologistas que trabalham menos e mais de 12 horas
9
por dia para testar se a diferença entre as duas médias populacionais é nula. O
desvio-padrão (conhecido) é 10 mmHg. A diferença detectável entre as médias
populacionais é 5 mmHg. Qual é a quantidade de participantes por grupo para realizar
esse teste?
n = 2(1,96σ/D)2
n = 2(1,96*10/5)2 = 32
Portanto, são necessários 64 participantes no estudo (32 em cada grupo).
Para simular o estudo do exemplo 4, podemos criar duas populações de

anestesiologistas com distribuição normal, um grupo dos que trabalham menos de 12
horas por dia com média 130 mmHg e desvio-padrão 13 mmHg (grupo Menos) e um
grupo de anestesiologistas que trabalham mais de 12 horas por dia com média 140
mmHg e desvio-padrão 13 mmHg (grupo Mais). Como é uma simulação, sabemos a
resposta em nossa realidade (simulada): o grupo Mais tem PAS maior do que a do
grupo Menos.
Na prática, só temos uma única amostra. Será que um teste estatístico

conseguiria revelar a realidade? Então, seguindo o cálculo amostral, extraímos 32
observações independentes de pressão sistólica de cada uma das duas distribuições
normais por meio do procedimento de geração de números aleatórios do Excel. Os
valores obtidos foram:
Menos: 130 101 137 129 132 137 143 160 132 117 117
114 137 144 117 147 134 123 113 114 112 134
125 110 148 121 143 143 123 148 137 151
Mais: 148 113 137 130 136 163 150 152 136 150 146
118 152 114 120 149 151 131 143 131 138 127
137 129 146 119 150 143 165 131 163 138
A média amostral do grupo Mais é 139,3 e sua expressão de cálculo é a

seguinte:
130 + 101 + 137 + ⋯ + 151

𝑀Mais = = 139,3.
32
O desvio-padrão amostral do grupo Mais é 14 e sua expressão de cálculo é a

seguinte:
10
(130 − 139,3)2 + (101 − 139,3)2 + (137 − 139,3)2 + ⋯ + (151 − 139,3)2
𝑠Mais = √ = 14
32 − 1
Com o mesmo procedimento para o grupo Menos obtemos:
Desvio-
Grupo N Média
padrão
Mais 32 139,3 14,0
Menos 32 130,4 14,3
Note que não conhecemos as médias verdadeiras (sabemos que são 140 e
130 mmHg, respectivamente, somente porque estamos simulando), mas temos as
médias amostrais para trabalhar. Para utilizar o teste z, na verdade estamos
comparando duas distribuições normais hipotéticas homocedásticas (Figura 2)
supondo que o desvio-padrão de 13 mmHg é conhecido (é uma simplificação; não
conhecendo σ, teríamos que usar os dois desvios-padrão amostrais e o teste t de
Student, levando em conta um pouco mais de incerteza ao considerar graus de
liberdade e obtendo-se valores de p um pouco mais altos para o mesmo número de
desvios-padrão – Anexo 1). Nosso objetivo é definir se as duas médias amostrais são
iguais (H0) ou não; em outros termos, se considerarmos os valores diferentes, teremos
evidência para afirmar que os valores amostrais vieram de duas populações distintas.
Caso contrário, se não rejeitarmos H0, pelo menos em relação à PAS, diremos que o
número de horas trabalhadas não tem influência (e estaríamos errados, pois nossa
realidade simulada é a de que esta influência existe).
11
Figura 2: Distribuições normais baseadas nas observações dos grupos, dotplots e boxplots.
Uma forma de realizar esse teste é construir o IC95 da diferença entre as

médias e verificar se ele contém o valor zero. Usando o software gratuito MYSTAT 12,
foi selecionado o teste z para duas amostras independentes para testar essa hipótese
nula. A estimativa da diferença entre as médias amostrais é 8,9 (139,3 – 130,4). A
expressão
132
𝐼𝐶95(𝜇Mais − 𝜇Menos ) = [8,9 ± 1,96√2 ] = [2,5; 15,3]
32
mostra que o IC95 da diferença entre as médias populacionais tem limites

inferior e superior, respectivamente, de 2,5 e 15,3. O valor zero, portanto, está fora do
intervalo e, com nível de confiança de 95%, a hipótese nula é rejeitada, i.e., a
diferença é estatisticamente significante. Sabemos ser esta a decisão correta; o IC95
indica que é improvável que a diferença populacional do PAS entre os dois grupos
seja nula e, além disso, sugere que o grupo Mais tem PAS mais elevada. Nas
situações não simuladas só escolhemos o nível de confiança e jamais a certeza.
12
Outra forma de abordar esta situação é utilizar a estatística-teste z da diferença
estimada das médias amostrais dividida pelo desvio-padrão das diferenças entre as
médias amostrais (erro-padrão, EP). A expressão do erro-padrão para duas amostras
de tamanhos iguais é estimada por:
𝜎2
𝐸𝑃 = √2
𝑛
e a estatística-teste z, portanto, é dada por
𝑀𝑚𝑎𝑖𝑠 − 𝑀𝑚𝑒𝑛𝑜𝑠
𝑧=
2
√2 𝜎
𝑛
Neste exemplo, o valor da estatística-teste z é 2,73:
8,9
𝑧= 2
= 2,73.
√213
32
Esse valor informa que a diferença de 8,9 está acima da diferença nula 2,73
desvios-padrão. Diferenças mais extremas que -1,96 ou 1,96, em geral, são
consideradas estatisticamente significantes.
A probabilidade da estatística-teste z ser mais extrema que 2,73 e -2,73

corresponde ao valor-p igual a 0,006, supondo que a hipótese nula é verdadeira.
Como valor-p é menor que 0,05 (nível de significância usual do teste), então a
hipótese nula é rejeitada. Note que os três métodos de teste de hipótese nula (IC95,
estatística-teste z e valor-p) são equivalentes e produzem a mesma conclusão:
rejeição da hipótese nula.
Uma forma gráfica de testar a hipótese nula é comparar os IC95 de cada um

dos dois grupos. Se a sobreposição é menor que 25%, rejeita-se a hipótese nula
(Figura 3).
13
Figura 3: IC95 dos grupos Mais e Menos.
A estatística-teste z depende do tamanho da amostra, de tal forma que quanto

maior o tamanho da amostra, maior seu valor e, portanto, maior a chance de
significância estatística. A medida eta ao quadrado (𝜂 2 ) não depende do tamanho da
amostra, é adimensional e varia entre zero (nenhuma informação é explicada pelos
grupos) e um (toda informação é explicada pelos grupos). Eta ao quadrado é uma
estimativa de tamanho de efeito e seu valor é 0,11 neste exemplo, calculado por:
2,732
𝜂2 = = 0,11.
2,732 + 2(32 − 1)
O tamanho de efeito informa que 11% da variância de PAS é explicada pelos

grupos Mais e Menos. Para estudos de metanálise, IC95%, estatística-teste z, valor-p
e eta ao quadrado são informações cruciais e devem sempre ser incluídas nas
publicações científicas.
O teste de hipótese tem mais um componente denominado poder. O poder é a

probabilidade de rejeitar a hipótese nula dado que ela é falsa. Para o cálculo de
tamanho de amostra, geralmente é usado o valor de 90% para o poder. A fórmula para
o cálculo do tamanho da amostra do teste da hipótese nula da igualdade de duas
14
médias contra a hipótese alternativa da diferença em condição de homocedasticidade,
considerando o poder, é:
n = 2(3,24σ/D)2.
Usando os dados do exemplo 4, sem considerar o poder, o tamanho da

amostra de cada um dos dois grupos foi calculado em 32 mas, considerando-se o
poder de 90%, o tamanho de cada um dos dois grupos é 84. O poder precisa ser
considerado quando a hipótese nula não for rejeitada. Com um tamanho de amostra
adequado para poder suficiente, a falta de rejeição da hipótese nula não é devido ao
tamanho da amostra ser insuficiente, mas provavelmente pela ausência de efeito da
variável independente (no exemplo, o fator com os níveis Mais e Menos de 12h de
trabalho por dia) sobre a variável dependente (no exemplo, medida da PAS).
ESCOLHENDO SEU TESTE ESTATÍSTICO
Até agora considerou-se que a distribuição da média amostral é normal se o

TLC é válido. Quando tais suposições são válidas, os testes estatísticos paramétricos
são mais poderosos que suas contrapartidas não paramétricas. Em amostras grandes
(mais que 30 observações) o TLC é válido e podemos aplicar testes paramétricos. A
decisão deve ser mais cuidadosa quando o tamanho da amostra de observações
independentes for menor que 30 (amostra pequena). Quando a distribuição é normal,
o TLC é dispensável e a distribuição da média amostral também é normal. Porém, e se
a amostra é pequena e não tiver distribuição normal? Uma das possibilidades é
transformar os dados (de todos os grupos, certamente) e usar testes paramétricos. Por
exemplo, ao utilizar o logaritmo natural dos valores originais pode ocorrer que a
distribuição passe a ser normal. As outras possibilidades são (i) utilizar testes exatos
ou (ii) o método de reamostragem (bootstrapping).
Exemplo 5: pretendemos comparar o número de plantões por mês entre

anestesiologistas de um hospital público com mais e menos de 10 anos de
experiência. O número de plantões é uma variável quantitativa discreta (contagem) e
não esperamos que tenha distribuição normal. Além disso, os grupos com mais e
menos de 10 anos de experiência têm somente seis e oito observações
independentes. São amostras pequenas, impossibilitando a aplicação do TLC. Os
dados são os seguintes:
Mais de 10 anos: 4, 6, 8, 4, 5, 6
Menos de 10 anos: 3, 8, 7, 6, 7, 6, 7, 6
15
Aplicando o teste exato não-paramétrico de Mann-Whitney para testar a
hipótese nula de igualdade das distribuições contra a hipótese alternativa de diferença
produz o valor-p exato igual a 0,28, maior do que o nível de significância de 0,05,
implicando a não rejeição da hipótese nula. Neste tipo de teste os valores são
substituídos por postos, como na classificação de uma disputa esportiva, ordenando-
se do menor ao maior valor ou vice-versa. Neste exemplo, ao substituirmos valores
quantitativos por postos, perdemos alguma informação em troca de maior relaxamento
das suposições para poder aplicar um teste não paramétrico. No entanto, observe que
o uso de postos permite lidar, também, com variáveis ordinais, com as quais não
podemos computar média ou desvio-padrão e, portanto, sem aplicabilidade de testes
paramétricos.
Finalmente, para comparações entre três ou mais amostras ou grupos, o teste

utilizado é a análise de variância, cujo acrônimo é ANOVA (ANalysis Of VAriance).
Embora receba esse nome, não considera somente as variâncias para perfazer o
cálculo, mas sim a distribuição dos valores das médias, o desvio-padrão de cada
grupo e o tamanho de suas amostras. O teste t é, na verdade, uma forma simples de
ANOVA, quando se comparam dois grupos não-pareados.
Se a hipótese nula de igualdade das três médias populacionais é rejeitada ao

nível de 5% de significância, é necessário analisar as possíveis diferenças entre os
três grupos. São testes “a posteriori” (post hoc), ou seja, executados somente se o
resultado obtido da ANOVA for estatisticamente significante.
Neste texto, exemplificamos com testes estatísticos utilizados em estudos

entre participantes, i.e., em situações em que os dois ou mais grupos são
independentes, pois cada indivíduo aparece apenas em determinado grupo. Há outros
estudos, porém, em que um mesmo indivíduo é submetido a mais de uma condição,
de forma que os resultados têm relação entre si. Este é notadamente o caso quando
se comparam resultados antes e após uma intervenção no mesmo participante. A
versão paramétrica é o teste t pareado. Da mesma forma que acontece com as
situações de amostras independentes, em situações pareadas quando o TLC não se
aplica ou a variável dependente é ordinal, há indicação para se utilizar o teste não-
paramétrico de Wilcoxon.
CALCULANDO RISCOS EM ESTUDOS CLÍNICOS
Muito frequentes na área médica são os estudos com delineamentos de coorte

(cohort) ou corte transversal (cross-sectional) que consideram indivíduos com ou sem
certos fatores de exposição (tabagismo, etilismo, sexo, idade etc.) e determinados
16
desfechos (morte, alta hospitalar, recidiva etc.). Com esses delineamentos é possível
observar incidências ou prevalências, de modo que é possível calcular o Risco
Relativo (RR). O RR é uma estimativa pontual que informa quantas vezes a
probabilidade de ocorrer o desfecho (D) dada a exposição (E) é maior que a
probabilidade de ocorrer o desfecho (D) quando não há exposição (~E) ao fator:
RR = P(D|E)/P(D|~E).
Na análise de RR a variável de desfecho é a variável dependente e o fator é a

variável independente. As duas variáveis são nominais dicotômicas.
Os cálculos são relativamente fáceis de serem obtidos, como se verá a seguir.

No entanto, sejam os riscos elevados ou reduzidos, a validade só pode ser afirmada
quando observado o intervalo de confiança de 95% do RR populacional, IC95, cujo
cálculo não é tão simples. Observe que, se a exposição não tem relação com o
desfecho, então as probabilidades de observar este desfecho com e sem a exposição
serão semelhantes, e o valor de RR será próximo da unidade. Para interpretar o RR,
portanto, é fundamental observar o seu IC95 e verificar se o valor 1 está dentro
(aceitando-se a hipótese nula de que a exposição não tem influência no desfecho).
Caso contrário, se o RR estiver acima de 1, o fator presente aumenta o risco do
desfecho. Caso RR esteja abaixo de 1, o fator presente diminui o risco do desfecho e
é ele mesmo um fator protetor ou é um marcador, associado com algum fator protetor.
Figura 4: Representação do IC95 e da estimativa pontual do RR (retângulo central). Os

esquemas à direita e à esquerda, respectivamente, têm redução e elevação de risco do
desfecho por não incluírem o valor unitário. O esquema central (retângulo sólido) não é
estatisticamente significante, pois seu IC95 inclui o valor unitário e, portanto, o fator não
é de risco e também não é de proteção.
Exemplo 6: Entre 187 pacientes que receberam anestesia geral, foram

encontrados dois ou mais fatores para náuseas e vômitos no pós-operatório (PONV)
para 113 pacientes e nenhum ou um fator para 74 pacientes. Não houve interferência
na escolha dos fármacos para a anestesia e os pacientes foram observados para a
incidência de náuseas ou vômitos na sala de recuperação pós-anestésica (RPA). Os
resultados são apresentados no quadro abaixo (Quadro 2).
17
Quadro 2. Tabela de contingência
~D = PONV
D = PONV Total
ausente
E = 2 ou mais fatores 28 (A) 85 (B) 113 (A + B)
~E = 0 ou 1 fator 7 (C) 67 (D) 74 (C + D)
Total 35 (A + C) 152 (B + D) 187
O RR aqui é dado pela razão entre a incidência de PONV nos expostos (Ie) e
não expostos (Ine):
RR = Ie / Ine
A incidência entre os expostos é a proporção de PONV dos pacientes expostos

a 2 ou mais fatores em relação ao total de expostos, dada por
Ie = A / (A + B)
Similarmente, calculamos a incidência entre os não expostos pela proporção

entre pacientes que tiveram PONV embora não estivessem expostos e o total de
pacientes não expostos,
Ine = C / (C + D)
Como o RR refere-se ao cálculo entre as incidências do efeito entre os

expostos e não expostos, perfaz uma relação entre percentuais e resulta em numeral.
Assim, neste exemplo,
Ie = 28 / 113 = 24,8% (RAi – Risco Atribuível à intervenção)
Ine = 7 / 74 = 9,5% (RAc – Risco Atribuível ao controle)
RR = 24,8% / 9,5% = 2,61
Uma forma alternativa e mais direta de cálculo é
RR = P(D|E)/P(D|~E) = (28/113)/(7/74) = 2,61.
Adicionalmente podemos computar o IC95(RR) = [1,21; 5,68], intervalo que

não inclui e está acima do valor 1, indicando que o fator é de risco. Desta forma,
considera-se um risco 2,6 vezes maior para se ter vômitos ou náuseas no período de
recuperação da anestesia em RPA quando existe a presença de dois ou mais fatores
em comparação com a presença de nenhum ou um fator de exposição.
Outra importante observação que pode ser alcançada com a tabela de

contingência são os números necessários. O NNT (número necessário para tratar) diz
respeito ao total de pacientes que devem receber determinada intervenção para se
obter resultado positivo. O NNH (número necessário para provocar dano – Harm) diz
18
respeito ao total de pacientes que sofrerão algum tipo de lesão ao serem expostos ao
fator observado.
No exemplo acima, o risco atribuível à intervenção (RAi) é maior do que o risco

atribuível ao controle (RAc) e mostra aumento do risco absoluto. O NNH é dado por
NNH = 1 / (RAi – RAc)
NNH = 1 / (0,248 – 0,095) = 1 / 0,0653 = 6,54
sugerindo que a cada quase sete pacientes expostos a dois ou mais fatores,
um paciente apresentará PONV no pós-operatório.
O trabalho com tabelas de contingência aponta outra importante concepção,

denominada Odds Ratio (OR) cuja tradução mais aceita tem sido “razão de chances”.
OR é uma estimativa do risco do desfecho para dados oriundos de estudos
retrospectivos ou prospectivos, i.e., OR pode ser calculado validamente para todos os
delineamentos epidemiológicos (coorte, transversal e caso-controle), mas a sua
interpretação é uma desvantagem se o desfecho não é raro na população não
exposta. Na análise de OR a variável de desfecho é a variável dependente e o fator é
a variável independente. As duas variáveis são nominais.
O OR é uma razão entre duas chances. A primeira chance é calculada entre as

proporções dos que apresentaram desfecho e os que não apresentaram desfecho
estando expostos,
[A/(A+C)] / [C/(A+C)],
i.e., quantas vezes mais esperamos observar, em comparação com não

observar, o desfecho quando existe a exposição. A segunda chance diz, similarmente,
respeito a quando não ocorre o desfecho,
[B/(B+D)] / [D/(B+D)],
i.e., quantas vezes mais esperamos observar, em comparação com não

observar, o desfecho quando não existe a exposição. O OR, portanto, é dado por
OR = {[A/(A+C)] / [C/(A+C)]} / {[B/(B+D)] / [D/(B+D)]},
o que, com um pouco de álgebra, reduz-se a
OR = (A × D) / (B × C)
resultando na forma prática de calcular OR pela divisão dos, assim chamados,

produtos cruzados: os doentes expostos × sadios não-expostos e os sadios expostos
× doentes não-expostos, correspondendo às duas diagonais da tabela de
contingência. No exemplo dado:
19
OR= (28 × 67) / (7 × 85) = 1867 / 595 = 3,15
Uma maneira alternativa de definir a razão de chances é:
𝑃(𝐷|𝐸)
𝑃(~𝐷|𝐸) 1 − 𝑃(𝐷|~𝐸)
𝑂𝑅 = =
𝑃(𝐷|~𝐸) 1
− 𝑃(𝐷|~𝐸)
𝑃(~𝐷|~𝐸) 𝑅𝑅
Da expressão anterior decorre que:
(i) Se o RR > 1, então OR > RR; Como RR = 2,6, então OR > 2,61.
De fato, OR = 3,15.
(ii) Se o RR < 1, então OR < RR;
(iii) Se o desfecho é raro na população não exposta (condição suficiente), ou seja,

P(D|~E) < 0,05; então OR ≈ RR. Como o valor da proporção P(D|~E) = 0,095 é
ainda pequeno, OR e RR são diferentes mas não muito discrepantes; de fato
RR = 2,61 e OR = 3,15.
(iv) RR < 1 / P(D|~E). O valor de 1 / P(D|~E) é 10,53. Portanto, o RR não pode ser
superior a 10,53.
Computa-se também IC95(OR) = [1,30; 7,66], o qual não contém o valor

unitário, implicando a rejeição da hipótese nula. Como o intervalo é superior ao valor
unitário, o fator é de risco (Patti et al., 2008).
O quadro 3 sintetiza as principais diferenças entre estudos de coorte e caso-

controle.
Quadro 3. Estudos de coorte (prospectivo) e caso-controle (retrospectivo).
Coorte Caso-controle
Estudo de duração prolongada Estudo de duração curta
Adequado para doenças comuns Adequado para doenças raras
Medida direta de risco (RR) Medida indireta do risco (OR)
Conclusões mais precisas sobre Conclusões menos precisas sobre
relações causais relações causais
Maior chance de limitações éticas Menor risco ético (retrospectivo)
20
Adequado para estudar incidência Não é adequado para estudar incidência
e prevalência
Arquivo de dados do STATA: lbw.dta
SMOKE: VI (fator de exposição): Tabagismo durante gravidez (Sim (1):

exposição; Não (0): não-exposição)
LOW: VD (desfecho): Nascido com subpeso (≥2,5kg (0): controle (não-doente);

<2,5kg (1): caso (doente))
. desc low smoke
storage display value

variable name type format label variable label
low byte %15.0g Subpeso Nascido com subpeso

smoke byte %8.0g SimNao Tabagismo durante gravidez
. sum low smoke
Variable Obs Mean Std. Dev. Min Max
low 189 .3121693 .4646093 0 1

smoke 189 .3915344 .4893898 0 1
21
VI: Tabagismo
E ~E
Exposto Não-Exposto
VD: D Caso 30 29
Subpeso ~D Controle 44 86
Total 74 115
Modelo de Regressão Logística (estimação robusta)
• OR = (30/44) / (29/86) = 2,02
• IC95(or) = [1,08; 3,79]
• z = 2,2
• p = 0,0280
• Pseudo-R2 = 0,0207
Modelo de Regressão de Poisson (estimação robusta)
• RR = (30/74) / (29/115) = 1,60
• IC95(rr) = [1,06; 2,45]
• z = 2,22
• p = 0,0265
. tabulate low smoke, cchi2 exact V
Key
frequency
chi2 contribution
Tabagismo durante
Nascido com gravidez
subpeso Nao Sim Total
MaiorIgual2.5kg 86 44 130
0.6 0.9 1.5
Menor2.5kg 29 30 59
1.3 2.1 3.4
Total 115 74 189

1.9 3.0 4.9
Cramér's V = 0.1614
Fisher's exact = 0.036
1-sided Fisher's exact = 0.020
22
. tabodds low smoke
smoke cases controls odds [95% Conf. Interval]
Nao 29 86 0.33721 0.22137 0.51367

Sim 30 44 0.68182 0.42868 1.08445
Test of homogeneity (equal odds): chi2(1) = 4.90

Pr>chi2 = 0.0269
Score test for trend of odds: chi2(1) = 4.90

Pr>chi2 = 0.0269
Statistics | Epidemiology | Cohort Study Risk-Ratio (RR) etc.
. cs low smoke, or
Tabagismo durante
gravidez
Exposed Unexposed Total
Cases 30 29 59
Noncases 44 86 130
Total 74 115 189
Risk .4054054 .2521739 .3121693
Point estimate [95% Conf. Interval]
Risk difference .1532315 .0160718 .2903912

Risk ratio 1.607642 1.057812 2.443262
Attr. frac. ex. .377971 .0546528 .5907112
Attr. frac. pop .1921887
Odds ratio 2.021944 1.084529 3.770602 (Cornfield)
chi2(1) = 4.92 Pr>chi2 = 0.0265
Statistics | Binary outcomes | Logistic regression (reporting ORs)
23
. logistic low smoke, vce(r)
Logistic regression Number of obs = 189

Wald chi2(1) = 4.83
Prob > chi2 = 0.0280
Log pseudolikelihood = -114.9023 Pseudo R2 = 0.0207
Robust
low Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]
smoke 2.021944 .6480155 2.20 0.028 1.078863 3.789412

_cons .3372093 .0726026 -5.05 0.000 .2211221 .5142412
Statistics | Count outcomes | Poisson Regression
. poisson low smoke, irr vce(r)
Iteration 0: log pseudolikelihood = -126.03748

Iteration 1: log pseudolikelihood = -126.03748
Poisson regression Number of obs = 189

Wald chi2(1) = 4.92
Prob > chi2 = 0.0266
Log pseudolikelihood = -126.03748 Pseudo R2 = 0.0129
Robust
low IRR Std. Err. z P>|z| [95% Conf. Interval]
smoke 1.607642 .3442364 2.22 0.027 1.056637 2.44598

_cons .2521739 .0406026 -8.56 0.000 .1839281 .3457421
ASSOCIAÇÃO ENTRE DUAS VARIÁVEIS QUALITATIVAS NOMINAIS:

TESTE QUI-QUADRADO DE PEARSON
Quando o objetivo é testar a hipótese nula de ausência do efeito de interação

ou a presença de independência probabilística entre duas variáveis nominais, o teste
qui-quadrado pode ser usado. Observe que nessa situação não há variáveis
dependente e independente na análise, pois o objetivo é analisar se há associação ou
relação simétrica entre as duas variáveis. A tabela de contingência também permite o
cálculo da estatística qui-quadrado (χ2).
Uma suposição importante para essa análise é que o delineamento tem que
ser entre participantes, i.e., cada participante está em apenas uma casela da tabela de
contingência para garantir a independência das observações. Neste cálculo a proposta
é bastante simples: cotejar os resultados observados com resultados esperados
24
supondo que as duas variáveis são independentes. Quanto maior a discrepância entre
os valores observados e os esperados, maior será o valor de χ2 e menor será a
chance de que a diferença seja explicada apenas pelo acaso. Cabe estabelecer que
as categorias devem ser mutuamente excludentes.
Sugere-se o uso do teste exato qui-quadrado para qualquer tabela de

contingência. O número de graus de liberdade (gl) é dado pelo produto do número de
linhas menos uma unidade vezes o número de colunas menos uma unidade. Por
exemplo, se a tabela de contingência é 2×2, então só existe 1 grau de liberdade:
gl = (2 – 1) × (2 – 1) = 1.
Exemplo 7: Um estudo mostrou a preferência, entre anestesiologistas, do uso

de agentes beta-2 agonistas no tratamento do broncoespasmo intra-operatório em
relação ao tempo de experiência profissional (Menezes e Vieira, 2002). Os resultados
são apresentados no modelo de tabela de contingência 2×2 a seguir.
Usa Beta-2 Não usa Beta-2 Total

< 10 anos de experiência 18 10 28
> 10 anos de experiência 17 28 45
Total 35 38 73
O valor da estatística qui-quadrado é dado pela soma dos desvios ao quadrado

das frequências absolutas observadas (O) em relação às respectivas frequências
absolutas esperadas (E) divididos pelas frequências absolutas esperadas das caselas.
4
2
(𝑂𝑖 − 𝐸𝑖 )2
𝜒 =∑
𝐸𝑖
𝑖=1
Para se obter os valores esperados, os cálculos utilizam os totais de linhas e

colunas e o total geral: [total coluna × total linha / total geral]. Os resultados abaixo
mostram passo a passo a obtenção dos valores e a tabela 2×2 complementar:
1. A’ = 35 × 28 / 73 = 13,42
2. B’ = 38 × 28 / 73 = 14,57
3. C’ = 35 × 45 / 73 = 21,57
4. D’ = 38 × 45 / 73 = 23,42
25
Usa Beta-2 Não usa Beta-2 Total
< 10 anos de experiência 13,42 14,57 28
> 10 anos de experiência 21,57 23,42 45
Total 35 38 73
Tais valores esperados são aqueles que deveríamos encontrar sob a hipótese
nula de que o número de anos de experiência e a escolha de Beta-2 não estivessem
associados, mantidos os totais marginais de 28 e 45 anestesiologistas com menos e
mais que 10 anos de experiência e 35 e 38 escolhas do uso ou não da droga. Observe
que os valores observados diferem um tanto dos valores esperados. A estatística qui-
quadrado computa a discrepância entre os valores observados e esperados com:
(18 − 13,42)2 (10 − 14,57)2 (17 − 21,57)2 (28 − 23,42)2

𝜒2 = + + + = 4,86
13,42 14,57 21,57 23,42
Neste exemplo, o valor encontrado de χ2 = 4,86 é alto para gl = 1, indicado

pelo valor crítico para 5% de nível de significância adotado, neste caso 3,841 (Anexo
2). Como o valor observado do qui-quadrado é maior que o valor crítico para o nível de
significância α = 5%, a hipótese nula é rejeitada, sugerindo que existe uma associação
estatisticamente significante entre uso do beta-2 agonista e tempo de experiência do
anestesiologista.
O exemplo citado é uma adaptação que utiliza uma tabela com três categorias.
Nesta situação gl = 2. Duas observações: alguns textos de estatística sugerem aplicar
a correção de Yates sempre que se utilizam tabelas 2×2. Ela é feita subtraindo 0,5 de
cada termo (observado - esperado) da equação descrita acima. O resultado final
pouco se altera quando o valor de χ2 já se mostra elevado. A outra observação diz
respeito à escolha do teste se mais de 50% das frequências absolutas esperadas das
células (e.g., A, B, C ou D) são inferiores a cinco, demandando que se utilize o teste
exato de Fisher ou o teste exato qui-quadrado.
26
ASSOCIAÇÃO ENTRE VARIÁVEL NOMINAL E ORDINAL: TESTE
QUI-QUADRADO PARA TENDÊNCIA (TREND) DE ARMITAGE-
BERRY
. desc low ftv
storage display value

variable name type format label variable label
low byte %15.0g Subpeso Nascido com subpeso

ftv byte %8.0g No visitas ao médico durante 1o trim
. sum low ftv
Variable Obs Mean Std. Dev. Min Max
low 189 .3121693 .4646093 0 1

ftv 189 .7936508 1.059286 0 6
27
. tabulate low ftv, cchi2 exact V
Key
frequency
chi2 contribution
Enumerating sample-space combinations:

stage 6: enumerations = 1
Nascido com No visitas ao médico durante 1o trim

subpeso 0 1 2 3 4 6 Total
MaiorIgual2.5kg 64 36 23 3 3 1 130
0.3 0.4 0.3 0.7 0.0 0.1 1.9
Menor2.5kg 36 11 7 4 1 0 59
0.7 0.9 0.6 1.5 0.0 0.3 4.1
Total 100 47 30 7 4 1 189

1.1 1.3 0.9 2.2 0.1 0.5 6.0
Cramér's V = 0.1780
Fisher's exact = 0.287
. tabodds low ftv
ftv cases controls odds [95% Conf. Interval]
0 36 64 0.56250 0.37393 0.84617

1 11 36 0.30556 0.15554 0.60026
2 7 23 0.30435 0.13060 0.70926
3 4 3 1.33333 0.29842 5.95737
4 1 3 0.33333 0.03467 3.20451
6 0 1 0.00000 . .
Test of homogeneity (equal odds): chi2(5) = 5.96

Pr>chi2 = 0.3106
Score test for trend of odds: chi2(1) = 0.75

Pr>chi2 = 0.3880
CORRELAÇÃO
A análise de correlação é usada para avaliar o grau de associação entre duas

variáveis quantitativas ou ordinais. Também aqui as duas variáveis não são variáveis
dependente e independente, buscando-se somente verificar se há correlação entre
elas. Enfatiza-se que correlação não implica, necessariamente, em relação de
28
causação, pois a relação pode ser apenas simétrica. Assim, como lembrado
anteriormente, a previsão do teste a ser realizado deve ser anterior ao experimento,
embasado em hipóteses.
O coeficiente de correlação de Pearson (r) avalia o grau de associação linear

entre duas variáveis quantitativas ou entre os postos de duas variáveis ordinais, sendo
n o tamanho da amostra,
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)

𝑟=
√∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 √∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2
O valor de r varia entre -1 e +1. Esses valores, positivo ou negativo, indicam a

direção da relação linear: positivo quando ambos seguem a mesma direção
(aumentam ou diminuem conjuntamente), ou negativo quando o aumento de um
implica na diminuição do outro e vice-versa. O valor nulo de r indica ausência de
relação linear entre as duas variáveis quantitativas. O valor de r2 explica o percentual
de variância (informação mútua) entre as duas variáveis. Note que o r não depende do
tamanho da amostra. Portanto, r2 é a medida natural do tamanho do efeito da
associação entre duas variáveis quantitativas.
Exemplo 8: As estaturas e pesos de 51 estudantes brasileiros do sexo

masculino de uma turma do curso de graduação foram registradas. Computou-se r =
0,65 indicando um alto grau de associação linear entre as duas variáveis. O valor de r2
= 0,42, i.e., indica 42% de variância compartilhada entre as duas variáveis
padronizadas (58% da variância cada variável padronizada é explicada por outras
variáveis). O valor-p < 0,001 implica a rejeição da hipótese nula da correlação
populacional nula contra a hipótese alternativa da correlação diferente de zero (Figura
5). Uma suposição importante para a validade do teste de correlação de Pearson é
que a distribuição conjunta do peso e da estatura seja normal bivariada.
29
Figura 5. Exemplo de correlação entre estatura e peso de estudantes brasileiros de graduação
do sexo masculino.
As correlações servem a um excelente propósito estatístico na investigação de

duas variáveis quantitativas que sofrem alterações conjuntamente. Em outras
palavras, se há covariação ou correlação. No entanto, pode ocorrer de que a
associação de resultados não necessariamente tenha o mesmo grau de confiança.
Esta “desconfiança” deve estar presente sempre que se comparam dois métodos de
medidas, sendo um deles um “padrão-ouro” estabelecido. Nestas situações, embora a
correlação possa ser elevada ou mesmo próxima do ideal (r=1), os valores que se
correlacionam precisam ter o mesmo significado clínico (Leme et al., 2002). Esta
concordância de resultados pode ser avaliada pelo método proposto pelos autores e
denominado pelos mesmos de Bland-Altman (Bland e Altman 1986). Em seu texto
original, entre os valores considerados estavam aqueles da saturação da hemoglobina
por oxigênio quando medida por gasometria arterial (padrão-ouro) comparado com a
então nova técnica de mensuração da saturação de hemoglobina pela oximetria de
pulso periférico.
30
CONCLUSÃO
A prática médica nunca esteve dissociada da estatística. A simples observação

durante um período de tempo promoveu a escolha de (aparentes) melhores
tratamentos. Não poderia ser diferente se esperar o refinamento da medicina
acompanhado do refinamento da estatística. O cuidado que o médico atual deve ter é
manter a prática da medicina embasada em estatísticas confiáveis, mesmo que
simples, mantendo a tradição de refinamento entre estas duas ciências.
31
REFERÊNCIAS
1. Bland JM, Altman DG (1986) Statistical methods for assessing agreement between
two methods of clinical measurement. Lancet, 1(8476): 307-310.
2. Crosby AW (1997) The Measure of Reality. UK: Cambridge University Press.
3. Leme AS, Kasahara DI, Nunes MP, Martins MA, Vieira JE (2002) Exhaled nitric oxide
collected with two different mouthpieces: a study in asthmatic patients. Brazilian
Journal of Medical and Biological Research, 35: 1133-1137.
4. Menezes CC, Vieira JE (2002) Condutas no tratamento do broncoespasmo no peri-
operatório. Revista Brasileira de Anestesiologia, 52: 728-738.
5. Motulsky H (1995) Intuitive Biostatistics. UK: Oxford University Press.
6. Patti CAM, Vieira JE, Benseñor FEM (2008) Incidência e profilaxia de náuseas e
vômitos na recuperação pós-anestésica de um hospital-escola terciário. Revista
Brasileira de Anestesiologia, 58: 462-469.
7. Selwyn, M (1996) Principles of experimental design for the life sciences. NY: CRC.
8. Vieira JE, Silva BAR, Garcia Júnior D (2002) Padrões de ventilação em anestesia:
estudo retrospectivo. Revista Brasileira de Anestesiologia, 52: 756-763.
32
ANEXO 1. Determinando valores-p a partir de t.
Graus de liberdade
t 6 7 8 9 10 11 12 13 14 15 16 18 20 25 50 1000
1 0,356 0,351 0,347 0,343 0,341 0,339 0,337 0,336 0,334 0,333 0,332 0,331 0,329 0,327 0,322 0,318
1,1 0,313 0,308 0,303 0,3 0,297 0,295 0,293 0,291 0,29 0,289 0,288 0,286 0,284 0,282 0,277 0,272
1,2 0,275 0,269 0,264 0,261 0,258 0,255 0,253 0,252 0,25 0,249 0,248 0,246 0,244 0,241 0,236 0,23
1,3 0,241 0,235 0,23 0,226 0,223 0,22 0,218 0,216 0,215 0,213 0,212 0,21 0,208 0,205 0,2 0,194
1,4 0,211 0,204 0,199 0,195 0,192 0,189 0,187 0,185 0,183 0,182 0,181 0,179 0,177 0,174 0,168 0,162
1,5 0,184 0,177 0,172 0,168 0,165 0,162 0,159 0,158 0,156 0,154 0,153 0,151 0,149 0,146 0,14 0,134
1,6 0,161 0,154 0,148 0,144 0,141 0,138 0,136 0,134 0,132 0,13 0,129 0,127 0,125 0,122 0,116 0,11
1,7 0,14 0,133 0,128 0,123 0,12 0,117 0,115 0,113 0,111 0,11 0,108 0,106 0,105 0,102 0,095 0,089
1,8 0,122 0,115 0,11 0,105 0,102 0,099 0,097 0,095 0,093 0,092 0,091 0,089 0,087 0,084 0,078 0,072
1,9 0,106 0,099 0,094 0,09 0,087 0,084 0,082 0,08 0,078 0,077 0,076 0,074 0,072 0,069 0,063 0,058
2 0,092 0,086 0,081 0,077 0,073 0,071 0,069 0,067 0,065 0,064 0,063 0,061 0,059 0,056 0,051 0,046
2,1 0,08 0,074 0,069 0,065 0,062 0,06 0,058 0,056 0,054 0,053 0,052 0,05 0,049 0,046 0,041 0,036
2,2 0,07 0,064 0,059 0,055 0,052 0,05 0,048 0,046 0,045 0,044 0,043 0,041 0,04 0,037 0,032 0,028
2,3 0,065 0,055 0,05 0,047 0,044 0,042 0,04 0,039 0,037 0,036 0,035 0,034 0,032 0,03 0,026 0,022
2,4 0,053 0,047 0,043 0,04 0,037 0,035 0,034 0,032 0,031 0,03 0,029 0,027 0,026 0,024 0,02 0,017
2,5 0,047 0,041 0,037 0,034 0,031 0,03 0,028 0,027 0,025 0,025 0,024 0,022 0,021 0,019 0,016 0,013
2,6 0,041 0,035 0,032 0,029 0,026 0,025 0,023 0,022 0,021 0,02 0,019 0,018 0,017 0,015 0,012 0,009
2,7 0,036 0,031 0,027 0,024 0,022 0,021 0,019 0,018 0,017 0,016 0,016 0,015 0,014 0,012 0,009 0,007
2,8 0,031 0,027 0,023 0,021 0,019 0,017 0,016 0,015 0,014 0,013 0,013 0,012 0,011 0,01 0,007 0,005
2,9 0,027 0,023 0,02 0,018 0,016 0,014 0,013 0,012 0,012 0,011 0,01 0,01 0,009 0,008 0,006 0,004
3 0,024 0,02 0,017 0,015 0,013 0,012 0,011 0,01 0,01 0,009 0,008 0,008 0,007 0,006 0,004 0,003
3,1 0,021 0,017 0,015 0,013 0,011 0,01 0,009 0,008 0,008 0,007 0,007 0,006 0,006 0,005 0,003 0,002
3,2 0,019 0,015 0,013 0,011 0,009 0,008 0,008 0,007 0,006 0,006 0,006 0,005 0,004 0,004 0,002 0,001
3,3 0,016 0,013 0,011 0,009 0,008 0,007 0,006 0,006 0,005 0,005 0,005 0,004 0,004 0,003 0,002 0,001
3,4 0,014 0,011 0,009 0,008 0,007 0,006 0,005 0,005 0,004 0,004 0,004 0,003 0,003 0,002 0,001 0,001
3,5 0,013 0,01 0,008 0,007 0,006 0,005 0,004 0,004 0,004 0,003 0,003 0,003 0,002 0,002 0,001 <0,001
3,6 0,011 0,009 0,007 0,006 0,005 0,004 0,004 0,003 0,003 0,003 0,002 0,002 0,001 0,001 0,001 <0,001
3,7 0,01 0,008 0,006 0,005 0,004 0,004 0,003 0,003 0,002 0,002 0,002 0,002 0,001 0,001 0,001 <0,001
3,8 0,009 0,007 0,005 0,004 0,003 0,003 0,003 0,002 0,002 0,002 0,002 0,001 0,001 0,001 <0,001 <0,001
3,9 0,008 0,006 0,005 0,004 0,003 0,002 0,002 0,002 0,002 0,001 0,001 0,001 0,001 0,001 <0,001 <0,001
4 0,007 0,005 0,004 0,003 0,003 0,002 0,002 0,002 0,001 0,001 0,001 0,001 0,001 <0,001 <0,001 <0,001
4,1 0,006 0,005 0,003 0,003 0,002 0,002 0,001 0,001 0,001 0,001 0,001 0,001 0,001 <0,001 <0,001 <0,001
4,2 0,006 0,004 0,003 0,002 0,002 0,001 0,001 0,001 0,001 0,001 0,001 0,001 <0,001 <0,001 <0,001 <0,001
4,3 0,005 0,004 0,003 0,002 0,002 0,001 0,001 0,001 0,001 0,001 0,001 <0,001 <0,001 <0,001 <0,001 <0,001
4,4 0,005 0,003 0,002 0,002 0,001 0,001 0,001 0,001 0,001 0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001
4,5 0,004 0,003 0,002 0,001 0,001 0,001 0,001 0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001
4,6 0,004 0,002 0,002 0,001 0,001 0,001 0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001
4,7 0,003 0,002 0,002 0,001 0,001 0,001 0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001
4,8 0,003 0,002 0,001 0,001 0,001 0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001
4,9 0,003 0,002 0,001 0,001 0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001
5 0,002 0,002 0,001 0,001 0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001
5,1 0,002 0,001 0,001 0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001
5,2 0,002 0,001 0,001 0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001
5,3 0,002 0,001 0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001
5,4 0,002 0,001 0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001
5,5 0,002 0,001 0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001
5,6 0,001 0,001 0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001 <0,001
33
ANEXO 2. Valores críticos para distribuição qui-quadrado.
Valor de α [ p = ou < ]
df 0,25 0,2 0,15 0,1 0,07 0,06 0,05 0,04 0,03 0,02 0,01 0,005 0,001
1 1,323 1,642 2,072 2,706 3,283 3,537 3,841 4,218 4,709 5,412 6,635 7,879 10,827
2 2,773 3,219 3,794 4,605 5,319 5,627 5,991 6,438 7,013 7,824 9,210 10,597 13,815
3 4,108 4,642 5,317 6,251 7,060 7,407 7,815 8,311 8,947 9,837 11,345 12,838 16,266
4 5,385 5,989 6,745 7,779 8,666 9,044 9,488 10,026 10,712 11,668 13,277 14,860 18,466
5 6,626 7,289 8,115 9,236 10,191 10,596 11,070 11,644 12,375 13,388 15,086 16,750 20,515
6 7,841 8,558 9,446 10,645 11,660 12,090 12,592 13,198 13,968 15,033 16,812 18,548 22,457
7 9,037 9,803 10,748 12,017 13,088 13,540 14,067 14,703 15,509 16,622 18,475 20,278 24,321
8 10,219 11,030 12,027 13,362 14,484 14,956 15,507 16,171 17,011 18,168 20,090 21,955 26,124
9 11,389 12,242 13,288 14,684 15,854 16,346 16,919 17,608 18,480 19,679 21,666 23,589 27,877
10 12,549 13,442 14,534 15,987 17,203 17,713 18,307 19,021 19,922 21,161 23,209 25,188 29,588
11 13,701 14,631 15,767 17,275 18,533 19,061 19,675 20,412 21,342 22,618 24,725 26,757 31,264
12 14,845 15,812 16,989 18,549 19,849 20,393 21,026 21,785 22,742 24,054 26,217 28,300 32,909
13 15,984 16,985 18,202 19,812 21,151 21,711 22,362 23,142 24,125 25,471 27,688 29,819 34,527
14 17,117 18,151 19,406 21,064 22,441 23,017 23,685 24,485 25,493 26,873 29,141 31,319 36,124
15 18,245 19,311 20,603 22,307 23,720 24,311 24,996 25,816 26,848 28,259 30,578 32,801 37,698
16 19,369 20,465 21,793 23,542 24,990 25,595 26,296 27,136 28,191 29,633 32,000 34,267 39,252
17 20,489 21,615 22,977 24,769 26,251 26,870 27,587 28,445 29,523 30,995 33,409 35,718 40,791
18 21,605 22,760 24,155 25,989 27,505 28,137 28,869 29,745 30,845 32,346 34,805 37,156 42,312
19 22,718 23,900 25,329 27,204 28,751 29,396 30,144 31,037 32,158 33,687 36,191 38,582 43,819
20 23,828 25,038 26,498 28,412 29,991 30,649 31,410 32,321 33,462 35,020 37,566 39,997 45,314
21 24,935 26,171 27,662 29,615 31,225 31,895 32,671 33,597 34,759 36,343 38,932 41,401 46,796
22 26,039 27,301 28,822 30,813 32,453 33,135 33,924 34,867 36,049 37,659 40,289 42,796 48,268
23 27,141 28,429 29,979 32,007 33,675 34,370 35,172 36,131 37,332 38,968 41,638 44,181 49,728
24 28,241 29,553 31,132 33,196 34,893 35,599 36,415 37,389 38,609 40,270 42,980 45,558 51,179
25 29,339 30,675 32,282 34,382 36,106 36,824 37,652 38,642 39,880 41,566 44,314 46,928 52,619
26 30,435 31,795 33,429 35,563 37,315 38,044 38,885 39,889 41,146 42,856 45,642 48,290 54,051
27 31,528 32,912 34,574 36,741 38,520 39,259 40,113 41,132 42,407 44,140 46,963 49,645 55,475
28 32,620 34,027 35,715 37,916 39,721 40,471 41,337 42,370 43,662 45,419 48,278 50,994 56,892
29 33,711 35,139 36,854 39,087 40,919 41,679 42,557 43,604 44,913 46,693 49,588 52,335 58,301
30 34,800 36,250 37,990 40,256 42,113 42,883 43,773 44,834 46,160 47,962 50,892 53,672 59,702
34
35
View publication stats

Testes estatísticos em medicina

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Testes estatísticos em medicina

Enviado por

Direitos autorais:

Formatos disponíveis

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

OS TESTES ESTATÍSTICOS (EM MEDICINA)

Chapter · July 2017

Joaquim Edson Vieira Paulo Sergio Panse Silveira

SEE PROFILE SEE PROFILE

Avaliação em Educação Médica View project

Mathematics View project

The user has requested enhancement of the downloaded file.

...when you can measure what you are speaking about

Estatística é uma ferramenta que aumenta a segurança… ou, melhor dizendo,

Este texto tem a pretensão de orientar na compreensão de conceitos

A ESCOLHA DO TESTE DEPENDE DA PERGUNTA

As variáveis observáveis, classificadas conforme seu nível de mensuração,

A incerteza sobre os fenômenos observados vem, em grande parte, da

Convenientemente, uma vez adotada, a distribuição normal é precisamente

No entanto, é mais frequente encontrar a seguinte expressão:

...sendo que se usa a variância (desvio-padrão ao quadrado) no lugar do

Distribuição normal pode ser transformada em escore-z, também conhecido

Tal transformação traz facilidade operacional e a regra para esta

Se X~N(μ;σ2), então Z=(X-μ)/σ~N(0;1).

Um exemplo pode tornar a operação mais clara e mostrar sua utilidade.

No entanto, com a transformação,

Se X=180,5 cm; então Z=(180,5-170)/7

A vantagem é que, sendo Z adimensional, caso verifiquemos a glicemia,

Sendo a distribuição normal uma distribuição de probabilidades, a área sob a

A ordenada da distribuição normal é chamada de verossimilhança para

Após aprendermos sobre a anatomia da distribuição normal, estamos aptos

Rigorosamente falando, as duas suposições são inverossímeis, pois a

O que ocorre num teste de hipótese paramétrico é a comparação entre duas

Figura 1: Distribuição normal padrão com média μ=0 e desvio-padrão σ=1

As suposições do teste paramétrico de igualdade de médias populacionais

CÁLCULO DO TAMANHO DA AMOSTRA

O tamanho da amostra deve preferencialmente ser determinado antes do

Para a amostragem aleatória simples sem reposição com pelo menos 30

Esse resultado é denominado Teorema do Limite Central (TLC). Se cada

O TLC é frequentemente mal interpretado e confuso para quem não é

Fazer repetidas, infinitas amostras, repetindo o estudo diversas vezes, é uma

Na área da saúde é comum utilizarmos proporções, definidas pela média de

O tamanho da amostra “n” para que o erro amostral da estimativa da proporção

Se a estimativa da proporção p não estiver disponível, então

Exemplo 1: Numa pesquisa-piloto estima-se que 60% dos anestesiologistas

Quadro 1: Tamanho da amostra para P (proporção estimada) e d (erro amostral E)

Exemplo 2: Deseja-se estimar a pressão arterial sistólica (PAS) média de

Exemplo 3: Deseja-se estimar a pressão arterial sistólica (PAS) média de

Se o objetivo for construir um intervalo de confiança de 95% (IC95) para a

sendo D a diferença detectável entre as duas médias populacionais pelo teste.

Exemplo 4: Deseja-se construir o IC95 da diferença entre as médias

Portanto, são necessários 64 participantes no estudo (32 em cada grupo).

Para simular o estudo do exemplo 4, podemos criar duas populações de

Na prática, só temos uma única amostra. Será que um teste estatístico

A média amostral do grupo Mais é 139,3 e sua expressão de cálculo é a

130 + 101 + 137 + ⋯ + 151

O desvio-padrão amostral do grupo Mais é 14 e sua expressão de cálculo é a

Com o mesmo procedimento para o grupo Menos obtemos:

Uma forma de realizar esse teste é construir o IC95 da diferença entre as

mostra que o IC95 da diferença entre as médias populacionais tem limites

e a estatística-teste z, portanto, é dada por

Neste exemplo, o valor da estatística-teste z é 2,73:

A probabilidade da estatística-teste z ser mais extrema que 2,73 e -2,73

Uma forma gráfica de testar a hipótese nula é comparar os IC95 de cada um

A estatística-teste z depende do tamanho da amostra, de tal forma que quanto

O tamanho de efeito informa que 11% da variância de PAS é explicada pelos