Escolar Documentos
Profissional Documentos
Cultura Documentos
co
s.
♥
eo
P R O F . B Á R B A R A D ’ A L E G R I A
o
ub
ro
id
é
o
nã
E S TAT Í S T I CA M É D I CA
a
dv
pi
Có
me
MEDICINA PREVENTIVA Prof. Bárbara D’Alegria | Estatística Médica 2
APRESENTAÇÃO:
m
PROF. BÁRBARA
coD’ALEGRIA
s.
Olá, Estrategista! Tudo bem com você? Espero que sim!
Seja muito bem-vindo ao resumo de Estatística Médica!
Esse é um tema que deixa muitas pessoas de “cabelos em pé”,
♥
eo
mas fique calmo! Esse tema não é tão difícil quanto parece! Nas próximas
o
ponto! Tudo para ajudá-lo a realizar seu grande sonho de ser R1!
ro
Um forte abraço,
o
nã
Bárbara D’Alegria.
a
dv
pi
Có
me
@estrategiamed t.me/estrategiamed
@estrategiamed
/estrategiamed
Estratégia
MED
MEDICINA PREVENTIVA Estatística Médica Estratégia
MED
SUMÁRIO
4.1.1 MODA 10
m
4.1.2 MÉDIA ARITMÉTICA 11
co
4.1.3 MEDIANA 12
4 .2 MEDIDAS DE DISPERSÃO 13
CAPÍTULO
m
co
Princípio da hipótese nula
(erros e valor p)
Testes estatísticos
s.
Medidas-resumo
Cálculo do intervalo
eo
de confiança
o
ub
Escala de variáveis
ro
id
é
Distribuição normal
o
nã
Amostragem
a
dv
Representação
pi
Có
0 5 10 15 20 25
me
CAPÍTULO
m
Figura 1. Diferença entre dado e variável. Observe que variável é a característica para
a qual atribuímos um determinado valor, enquanto o dado é o valor propriamente
peso corporal (70 kg ou 120 kg) é um dado. dito. Na imagem acima, a variável é o peso corporal, enquanto os dados são os
co
pesos de cada indivíduo, respectivamente, 120 e 70 kg. Fonte: Shutterstock.
Variável: é a propriedade ou característica propriamente dita. Em outras palavras, é toda característica que pode
apresentar variações entre os elementos de uma mesma natureza, e tais variações compõem o espectro de valores que a
s.
variável pode assumir.
Dado: é o valor que aquela característica pode assumir em determinado indivíduo ou objeto.
♥
eo
o
As variáveis podem ser classificadas com base em sua natureza, sendo essa classificação fundamental para direcionar toda e qualquer
ub
CAPÍTULO
o
nã
Uma variável pode ser classificada em duas naturezas fundamentais: quantitativa e qualitativa.
Có
As variáveis quantitativas, que também podem ser chamadas de numéricas, são aquelas que podem ser mensuradas ou quantificadas
por meio de NÚMEROS. Por sua vez, esse tipo de variável pode ser subdividido, ainda, em mais duas naturezas: contínua ou discreta.
me
As variáveis contínuas são aquelas cuja mensuração admite valores decimais e que formam, como o próprio nome diz,
um intervalo contínuo de valores. Um exemplo desse tipo de variável é o peso corporal (exemplos: 51,5 kg, 54,6 kg, 68,9 kg
e assim por diante...).
Já as variáveis discretas são aquelas cujas mensurações não admitem “casas decimais”, limitando-se a uma quantidade
de valores. Por exemplo, o número de filhos é uma variável discreta, porque ninguém tem “1,5 filho”; afinal, um filho (ou uma
pessoa) não pode ser fracionado, ele é um inteiro. Assim, essa variável é expressa por meio de números inteiros, como 1, 2,
3 e assim por diante.
Em contrapartida, as variáveis qualitativas, que também podem ser chamadas de categóricas, são aquelas em que NÃO podemos
atribuir valores numéricos, pois elas expressam uma qualidade ou característica do indivíduo. Por exemplo, a cor dos olhos (azul, verde,
castanho-claro, castanho-escuro ou preto1) e a gravidade de uma queimadura (leve, moderada e grave) são exemplos de variáveis qualitativas.
Por sua vez, assim como vimos para as variáveis numéricas, as variáveis categóricas também podem ser subdivididas em mais duas naturezas:
nominal ou ordinal.
Uma variável nominal é aquela que nomeia a característica (por isso, o termo nominal). Por exemplo, temos algumas categorias
ou alguns nomes que caracterizam as cores dos olhos, como azul, verde, preto... De igual forma, os grupos sanguíneos também variam
entre os indivíduos, e cada um deles também recebe um nome: A, B, AB e O.
Já a variável ordinal é aquela em que a característica analisada apresenta categorias que, por sua vez, apresentam uma ordem
m
ou hierarquia entre si – por isso o termo ordinal, que significa ordenado ou em ordem. Por exemplo, a profundidade histológica de
uma queimadura pode variar em 1º, 2º e 3º graus, sendo a de 3º grau mais profunda do que a de 2º, que, por sua vez, é mais profunda
co
do que a de 1º. Portanto, existe uma ordem entre elas. De igual forma, os episódios depressivos podem ser classificados em leves,
moderados ou graves, e tais categorias também apresentam uma gradação ou ordem de intensidade: grave > moderado > leve.
Portanto, podemos ordená-las!
s.
♥
eo
Contínua
o
ub
Quantitativa
ro
Discreta
id
é
o
nã
Natureza das
variáveis
a
dv
pi
Có
Nominal
Qualitativa
me
Ordinal
Figura 2. Natureza das variáveis. Podemos classificar as variáveis em quatro grupos principais: quantitativa (ou numérica) contínua, quantitativa (ou numérica) discreta,
qualitativa (ou categórica) nominal e qualitativa (ou categórica) ordinal.
1 Para esse resumo, consideramos essas cinco cores básicas para a pigmentação da íris. Porém, a sugestão de espectro de cores possíveis para a íris humana pode variar de acordo com a referência bibliográfica.
Veja, a seguir, uma lista de variáveis que já apareceram nas provas de Residência Médica, com suas respectivas naturezas.
Variável Natureza
Idade Contínua
Peso Contínua
m
Estatura Contínua
Glicemia
co Contínua
s.
Pressão arterial (sistólica ou diastólica) Contínua
Sexo/gênero Nominal
o
ub
ro
IMC Contínua
a
dv
pi
Có
Nacionalidade Nominal
Tabagismo Nominal
Etnia Nominal
m
Temperatura corporal Contínua
co
Paridade Discreta
Ocupação Nominal
s.
Tabela 1. Variáveis cujas naturezas já foram questionadas nas provas, segundo a engenharia reversa.
* A escolaridade pode ser classificada como variável numérica discreta caso a banca mencione “anos completos de escolaridade”, subentendendo-se que
são anos inteiros (isto é, sem o fracionamento em meses).
** Depende das informações que a banca fornecer, conforme mencionado anteriormente.
♥
eo
o
— Bárbara, mesmo com essa lista, ainda estou inseguro... Existe alguma estratégia que eu possa utilizar na hora da prova para
ub
Sim, existe! Na hora da prova, basta seguir os três passos a seguir para concluir qual é a natureza da variável.
id
é
o
A variável pode
ser quantificada?
nã
a
dv
pi
S N
Có
S N S N
Figura 3. Algoritmo de decisão acerca da natureza de uma variável. Primeiro, questione: “essa variável pode ser quantificada?”. Em caso positivo, você estará diante de uma
variável quantitativa ou numérica. Em caso negativo, então a variável é qualitativa (ou categórica). Ainda, as variáveis numéricas que podem ser fracionadas são chamadas de
contínuas. Paralelamente, as variáveis categóricas cujas classes apresentam uma ordem, ou hierarquia entre si, são ditas ordinais. Legenda: S: sim; N: não. .
Por exemplo, suponha que o objetivo é descobrir a natureza categorias da variável”. Em outras palavras: podemos estabelecer
da variável etnia. Primeiro, questione: “essa variável pode ser uma hierarquia entre elas? Em caso positivo, estaremos diante de
quantificada?”. Em caso positivo, você estará diante de uma uma variável ordinal. Em caso negativo, será uma variável nominal.
variável quantitativa ou numérica. Em caso negativo, então a Veja bem: estabelecer uma hierarquia entre caucasianos,
variável é qualitativa (ou categórica). Observe que não é possível afrodescendentes, asiáticos, e assim por diante, seria uma
quantificarmos a etnia, portanto trata-se de uma variável categórica. verdadeira afronta aos direitos humanos, concorda? Portanto,
Segundo o algoritmo, quando a variável é categórica, o como não é possível estabelecer uma ordem, essa é uma variável
segundo passo é questionar se “existe uma ordem entre as categórica do tipo nominal.
m
Uma outra classificação que pode aparecer na prova é a seguinte: as variáveis qualitativas ou categóricas podem ser classificadas
de acordo com o número de classes que apresentam. Quando elas apresentam apenas duas classes, são chamadas de dicotômicas ou
co
binárias; no entanto, caso apresentem três classes ou mais, são chamadas de não dicotômicas ou politômicas. Por isso, fique atento!
s.
CAPÍTULO
4.0 MEDIDAS-RESUMO
♥
eo
Este é um dos capítulos mais importantes deste resumo, uma vez que as medidas-resumo são o
o
ub
procuram entender como os dados variam entre si (isto é, como é a variabilidade entre os elementos do
o
nã
grupo). São formadas principalmente pelas medidas de tendência central, medidas de dispersão e medidas
de posição. Vamos revisar as duas primeiras, pois são as mais prevalentes nas provas! Para mais detalhes
a
dv
sobre as medidas de posição (que são menos prevalentes), não deixe de consultar seu livro digital integrado.
pi
Có
me
São medidas que resumem os dados de um conjunto, grupo ou amostra em um único número representativo.
Por exemplo, suponha que temos uma caixa com 7 bolas e que cada bola está numerada com um determinado número.
9
8
10
2 7
9
4
m
co
Figura 4. Caixa contendo 7 bolas (ou 7 elementos), e todas estão numeradas aleatoriamente. Essa caixa será nossa referência para os exemplos a seguir.
Agora, suponha que precisamos escolher uma única bola agora, como escolher a melhor representante?
s.
que seja representativa de todas as que estão dentro da caixa. Pois bem! Essa escolha não é feita de forma aleatória. Pelo contrário,
Isso mesmo! Foi-nos dada a missão de escolher uma espécie de existem três maneiras por meio das quais podemos fazer essa escolha: a
representante de turma e precisamos fazer isso o quanto antes... E moda, a mediana e a média. Vamos discutir cada uma delas a seguir.
♥
eo
o
ub
4.1.1 MODA
ro
A moda é a medida de tendência central que parte do pressuposto de que o melhor representante de turma é o número que mais se
id
Para encontrá-la, precisamos colocar as bolas em ordem crescente e, a partir disso, verificar qual foi a numeração com maior número
de repetições (ou maior número de observações). No nosso caso, foi a bola de número 9.
me
MODA 2 4 7 8 9 9 10
Figura 5. Organização das bolas que estavam na caixa anterior em ordem crescente. Observe que temos duas bolas de número 9, portanto essa é a moda desse conjunto
de dados.
m
co
4.1.2 MÉDIA ARITMÉTICA
A média aritmética é a medida de tendência central mais utilizada em Estatística e tem por objetivo condensar todos os valores do
s.
conjunto de dados em um único número. Para seu cálculo, basta somar todos os números e dividir pela quantidade total de elementos.
Voltando para a caixa de bolas anterior, veja que a média será igual a 7:
♥
eo
o
ub
MÉDIA 2 4 7 8 9 9 10
ro
id
é
o
Média = (2 + 4 + 7 + 8 + 9 + 9 + 10) / 7
nã
a
Média = 49 / 7 = 7.
dv
pi
Có
Figura 6. A média aritmética é uma das medidas de tendência central mais famosas da estatística. Por sorte, apresenta baixa dificuldade matemática e faz parte do nosso
dia a dia.
me
Algumas propriedades da média aritmética já foram questionadas em prova, por isso é importante que você as conheça:
• Se todos os dados do intervalo forem multiplicados por um mesmo número, a média também será automaticamente multiplicada
por esse número. Por exemplo, se multiplicarmos o intervalo acima por 4, então a média também será multiplicada por 4:
• O mesmo acontece se dividirmos, diminuirmos ou somarmos todos os dados do intervalo por um determinado número “y”: o valor
da média também será, respectivamente, dividido, diminuído ou somado a esse mesmo número “y”.
• A média é afetada por valores extremos. Por exemplo, se substituirmos as bolas 2 e 10 por valores mais extremos, como 0 e 26,
perceberemos que a média se deslocará em direção à extremidade de maior valor.
Média Média
antiga nova
MÉDIA 0 4 7 8 9 9 26
m
co
Média = (0 + 4 + 7 + 8 + 9 + 9 + 26) / 7
Média = 63 / 7 = 9.
s.
Figura 7. A média aritmética é afetada por valores extremos e desloca-se em direção ao maior valor. Por exemplo, se substituirmos as bolas de número 2 e 10 por novas
bolas (0 e 26), teremos o deslocamento da média em direção ao 26, já que esse valor extremo é maior do que a bola de número 0.
♥
eo
o
ub
4.1.3 MEDIANA
ro
id
A mediana é o elemento que ocupa a posição central em Caso contrário, vamos errar na escolha! A partir disso, basta checar
é
um conjunto de dados, de forma que essa posição privilegiada faz quem ocupou a posição almejada!
o
nã
com que ela consiga dividir esse conjunto em dois subgrupos com a
mesma quantidade de elementos!
a
dv
pi
9
Mas, afinal, qual é a bola que ocupa a 4ª posição? Não 4
sabemos, pois as bolas estão embaralhadas na caixa! Portanto,
precisamos colocá-las em fileira. MEDIANA 2 4 7 8 9 9 10
Porém, não basta organizá-las aleatoriamente e, então,
verificar quem, por acaso, ficou na 4ª posição. Em outras palavras,
escolher a mediana não é uma função do acaso! Figura 8. Cálculo da mediana em um conjunto de dados com número ímpar de
elementos. Quando o número de elementos é ímpar, a mediana é o elemento
Para escolhermos a mediana correta, precisamos organizar
central do conjunto. Porém, atenção: para encontrá-la, é preciso que os dados
as bolas em ordem crescente de valores. Isso é muito importante! estejam em ordem crescente. Fonte: Estratégia MED.
Veja que a bola de número 8 é aquela que ocupou a 4ª apresentar um número par de elementos, a mediana será a
posição após a organização das bolas em ordem crescente, média aritmética dos dois elementos centrais. Por exemplo,
portanto o número 8 é a mediana! Ainda, observe que a mediana suponha que, em vez de 7, existissem 10 bolas, como na
não pertence a nenhum dos subconjuntos formados. Ela ocupa a sequência a seguir. Veja que os elementos centrais, que serão
posição central, sem desviar para a esquerda ou para a direita. aqueles que estão na 5ª e 6ª posições, dão origem à mediana
Agora, preste atenção: quando o conjunto de dados por meio da média aritmética:
Posições: 1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª 10ª
Dados: 1 2 4 5 7 8 9 9 9 10
m
co
Mediana = (7 + 8) = 7,5
2
Figura 9. Cálculo da mediana em um conjunto de dados com número par de elementos: a mediana será a média aritmética dos dois elementos centrais. Nesse caso, a
s.
mediana pode ser um número que não pertencia inicialmente ao conjunto. Fonte: Estratégia MED.
♥
eo
A mediana tem como principal vantagem o fato de não ser afetada por valores
o
extremos nem pela mudança deles. Por exemplo, no intervalo acima, a mediana continuaria
ub
7,5 independentemente da mudança dos números 1 ou 10. Fique ligado, porque essa
ro
4. 2 MEDIDAS DE DISPERSÃO
a
dv
pi
Có
Em estatística, não basta encontrarmos um único número de “X9”, que vão informar se aquele representante está realmente
para representar todo o conjunto de dados; precisamos saber se apto ao cargo.
esse número está adequado! Afinal, os dados do intervalo podem Portanto:
me
ser muito diferentes entre si, o que faz com que aquele número
escolhido não seja tão representativo... As medidas de dispersão informam quanto cada
Em outras palavras: será que a medida de tendência central elemento do conjunto está afastado da medida de tendência
escolhida realmente representa aquele conjunto de dados? central, que, na maioria das vezes, é a média aritmética.
Essa pergunta será respondida pelas medidas de dispersão! Nesse sentido, quanto maior for esse afastamento, menos
A função primordial delas é informar quanto os dados estão homogêneo é o conjunto de dados e menos representativa
dispersos em relação à medida de tendência central que foi será a média.
escolhida. É como se as medidas de dispersão fossem uma espécie
9
8 10
4 2 4 8 9 9 10
m
2 9 Média = 2 + 4 + 8 + 9 + 9 + 10 = 42 = 7
6 6
co
Figura 10. Caixa de bolas contendo 6 bolas numeradas aleatoriamente. Essa é a caixa que servirá de referência para os exemplos a seguir. Ainda, observe que a média
aritmética desse conjunto é igual a 7.
s.
Agora, vamos checar se a média é uma boa representante de turma!
Primeiro, veja que cada bola está afastada da média a uma distância própria chamada d. Em estatística, chamamos essa distância de
desvio, uma vez que ele informa quanto aquele número se desviou da média que foi calculada. Na imagem a seguir, temos pelo menos 6
♥
eo
Figura 11. Dispersão das bolas numeradas ao longo da média. Veja que cada bola apresenta uma distância “d”. As bolas de numeração inferior à média (2 e 4) posicionam-
se à esquerda dela, enquanto as bolas com numeração superior se posicionam à direita da média calculada. Essa distância recebe o nome de desvio.
m
co
s.
♥
eo
o
ub
ro
id
é
o
nã
a
dv
pi
Có
me
Figura 12. Cálculo do desvio-médio, que é a média aritmética dos desvios. Basta somarmos todos os desvios e dividirmos pelo número de elementos que estão distribuídos
ao longo da média.
Só que existe um grande problema: não podemos tratar esses desvios como se fossem todos “positivos”. Na realidade, para que isso
fique correto do ponto de vista matemático, os desvios que estão à esquerda da medida de tendência central devem receber o sinal negativo,
enquanto os desvios que estão à direita permanecem com o sinal positivo. É como se a média aritmética fosse um grande “marco zero”.
Portanto, tudo aquilo que se desvia para a direita é positivo e, em contrapartida, tudo aquilo que se afasta no sentido da esquerda é negativo
(veja a imagem a seguir).
m
co
s.
♥
eo
o
ub
ro
id
é
o
nã
a
dv
pi
Có
Figura 13. O somatório dos desvios é matematicamente igual a zero. Essa condição impossibilita o cálculo matemático da média dos desvios, também conhecida como
desvio-médio. Fonte: Estratégia MED.
me
Agora, veja o problemão que temos: observe que o somatório das distâncias que estão à esquerda é igual ao somatório das distâncias
que estão à direita (-8 de um lado e +8 do outro). Isso acontece com qualquer distribuição de dados ao redor da média: as distâncias do lado
esquerdo anulam as distâncias do lado direito!
Nesse sentido, quando vamos calcular a média de dispersão, ou desvio-médio, encontramos um numerador igual a zero! Por isso, o
cálculo do desvio-médio não é “matematicamente” possível.
Média dos desvios ou desvio-médio = (-3) + (-5) + (1) + (2) + (2) + (3) = - 8 + 8 = 0
6 6 6
Impossibilidade matemática!
m
co
s.
♥
eo
o
ub
ro
id
é
o
nã
Figura 14. Os três amigos e a história das medidas de dispersão. Leonel, Scott e João são três amigos que tentaram resolver o problema do somatório nulo dos desvios! É
claro que houve muita discussão, mas a vitória é brasileira! Só aqui no Estratégia MED você estuda Medicina Preventiva de maneira lúdica e, ao mesmo tempo, “aquece”
a
para a Copa do Mundo de 2022 (risos)! Só que eu tenho uma notícia: você vai assistir aos jogos no hospital, pois você será R1! Fonte: Estratégia MED.
dv
pi
Có
Pois bem! Vendo a impossibilidade matemática que ocorreu acima, o argentino teve a seguinte ideia:
— Pessoal, vamos fazer o seguinte: vamos ignorar esses sinais negativos! Se nós utilizarmos o módulo matemático, conseguiremos
me
DESVIO-MÉDIO ABSOLUTO
É a utilização de módulos matemáticos para que a média de dispersão seja calculada. No nosso exemplo acima, o cálculo ficaria da
seguinte forma:
m
— Leonel! Você não pode fazer isso! Isso é trapacear! Você não pode simplesmente forçar a barra, utilizar o módulo e fingir
co
que o sinal negativo não existe! Eu tenho uma ideia melhor! Vamos elevar todo mundo ao quadrado! Afinal, sempre que um número
negativo é elevado ao quadrado, o resultado é positivo! Por exemplo: (-2)2 é +4.
Na variância, que geralmente é representada por s2, todos os desvios-médios são elevados ao quadrado – dessa forma, os sinais negativos
eo
o
dos desvios que ficam à esquerda são eliminados. Por isso, cada desvio passa a ser chamado de desvio-médio quadrático. Considerando o
ub
n
Variância = (-3)2 + (-5)2 + (1)2 + (2)2 + (2)2 + (3)2 = (9) + (25) + (1) + (4) + (4) + (9) = 8,66 unidades2.
a
dv
pi
6 6
Có
Em média, cada valor está distante da média em 8,66 unidades ao quadrado. Esse detalhe é importante! Na variância, as
unidades também são elevadas ao quadrado! Fique atento, pois isso já apareceu em prova e a banca queria que o candidato sinalizasse
me
isso.
De forma geral, o denominador é n-1, no caso, 5. Isso acontece porque envolve um conceito chamado graus de liberdade,
que foge ao nosso escopo. Ainda, apenas uma questão sobre variância, que envolve n-1, foi cobrada nas provas. O que eu quero é
que você pegue “a visão” de que a variância é elevada ao quadrado.
— Ah, que ótimo, Scott! Você elevou todo mundo ao quadrado e, agora, temos uma média de dispersão que superestimou a
distância! Fica parecendo que nós não soubemos escolher um representante de turma adequado!!! Não gostei disso e não concordo!
De repente, eles começaram a discutir, uma gritaria, “tiro, porrada e bomba”, até que João, nosso querido brasileiro, chega...
— Oxente! O que está acontecendo? – perguntou João.
— Scott teve a brilhante ideia de elevar todos os desvios ao quadrado! Agora parece que somos
incompetentes, pois a média de dispersão também ficou ao quadrado... – explicou Leonel.
— Oxente! Mas isso é fácil de resolver... é só a gente tirar a raiz quadrada! – exclamou nosso querido brasileiro!
m
E foi assim que nasceu o desvio-padrão! A NASA precisa estudar o nosso povo, não é mesmo?
DESVIO-PADRÃO
co
s.
No desvio-padrão, nós efetuamos a raiz quadrada da variância! No exemplo acima, o cálculo ficaria da seguinte forma:
♥
Desvio-padrão = √variância
eo
o
Esteja atento, pois a unidade também passa pela raiz quadrada! Por exemplo, se 36 kg2/m4, então o desvio-padrão é igual a 6
id
Observe que o desvio-padrão (DP) superestima muito de dados) é aquele com menor desvio-padrão!
Có
pouco o desvio-médio absoluto, que seria o mais próximo da Como desvantagem, existe o fato de só conseguirmos
média de dispersão real. Nos exemplos que usamos, teríamos, compreender se um desvio-padrão é alto ou baixo se olharmos para
respectivamente, 2,94 e 2,66! Portanto, o DP é uma medida que a média! Portanto, não temos como “olhar apenas para ele” e saber
me
nos informa a média de dispersão sem superestimá-la de forma “de cara” se os dados estão dispersos. Por exemplo, um desvio-padrão
significativa (e sem que exista o problema dos desvios com sinais igual a 10 pode ser muito pequeno se a média for igual 200 (por
negativos)! exemplo, 200 ± 10); Porém, pode ser muito alto se a média for igual a
Ainda, o desvio-padrão é muito utilizado para compararmos 20 (20 ± 10) (MEDRONHO et al., 2009). Por isso, outras medidas foram
grupos com a mesma média. Quando as médias são iguais, o grupo desenvolvidas no sentido de aprimorar essa informação, como é o caso
mais homogêneo ou regular (isto é, aquele com menor dispersão do coeficiente de variação, que veremos a seguir.
Resumindo:
Para descobrir quanto, em média, os dados estão dispersos em relação à própria média, o ideal seria fazer uma média aritmética
das distâncias (desvio-médio). Porém, isso não é possível, pois o somatório das distâncias resulta em zero. Uma das soluções é utilizar
o módulo matemático, muito criticado porque o sinal negativo é retirado de forma arbitrária. A variância surge com a proposta de
eliminar os sinais negativos ao elevar os números ao quadrado, porém, ela acaba superestimando a média de dispersão. E o desvio-
padrão surge como tentativa de “ajudar a variância” ao extrair a raiz quadrada dela para que essa superestimativa seja corrigida!
m
co
s.
♥
eo
o
ub
ro
id
é
Figura 15. Resumo das principais medidas de dispersão. As diversas medidas de dispersão são estratégias matemáticas para entendermos quanto, em média, os dados
o
Gostou da história dos três amigos? Conseguiu compreender bem as medidas de dispersão? Conte-me depois, quero saber! A ideia,
dv
pi
Existem outras medidas de dispersão que podem aparecer na prova. Veja a seguir:
me
• Coeficiente de variação (CV) ou coeficiente de dispersão (CD): é calculado por meio da seguinte fórmula: (desvio-padrão/média
aritmética) x 100. No exemplo anterior, como o desvio-padrão foi igual a 2,94 e a média foi igual a 7, temos um coeficiente de
variação igual a 42% – isto é, [(2,94/7)] x 100.
• Amplitude: é a distância entre os extremos do intervalo de dados. Ela não se baseia em nenhuma medida de tendência central,
apenas avalia a extensão máxima do conjunto. Por exemplo, considere o seguinte intervalo de dados: 2, 4, 8, 9, 9 e 10. A
amplitude seria igual a 10 - 2 = 8.
Distância interquartílica (DI): é uma medida de amplitude que utilizamos quando consideramos a mediana como medida de
tendência central. Porém, é uma amplitude modificada, já que consideraremos os 50% de dados no centro do conjunto, ao invés de
considerarmos os extremos (MEDRONHO et al., 2009). Por exemplo, considere o seguinte intervalo de dados: 1, 2, 3, 4, 8, 9 e 10. A
mediana será igual a 4, que corresponde ao percentil 50. A DI será a distância entre o percentil 25 e o percentil 75.
m
1 2 3 4 8 9 10
Distância co
s.
=9-2=7
interquartica
Figura 16. A distância interquartílica é considerada uma variação da amplitude, englobando 50% dos dados ao redor da mediana. Veja, portanto, que a medida
♥
eo
CAPÍTULO
Dependendo da forma como seus valores se distribuem na população, uma variável pode assumir dois padrões fundamentais:
simétrico e assimétrico. Vamos falar sobre isso a seguir.
A distribuição simétrica, gaussiana ou normal é aquela Ainda, para esse tipo de distribuição, a média aritmética é
em que a maioria dos indivíduos da população apresenta valores igual a mediana, que por sua vez é igual à moda. Observe que
que coincidem com a média aritmética da população. Os demais o gráfico formado se assemelha à um sino e que a sua metade
m
distribuem-se simetricamente para valores muito elevados ou esquerda é simétrica à metade direita. Essa curva é conhecida
muito baixos da escala da variável. também como curva de Gauss.
co
s.
♥
eo
o
ub
ro
id
é
o
nã
a
dv
pi
Có
me
Figura 17. Curva de distribuição normal, também conhecida como curva de Gauss. Observe que a maioria dos indivíduos apresenta valores intermediários da variável (no
caso acima, representado pelos valores “e” e “f”), enquanto a minoria apresenta valores baixos e altos. Além disso, nesse tipo de distribuição, a média é igual à moda,
que, por sua vez, é igual à mediana.
Em contrapartida, como o próprio nome sugere, a distribuição assimétrica é aquela que não tem simetria (o prefixo a- significa
ausência). Nesse tipo de comportamento, o maior número de observações será concentrado no menor valor ou no maior valor da escala
(respectivamente, assimetrias positiva e negativa).
Dizemos que a assimetria é positiva quando a maioria dos indivíduos apresenta baixos valores da variável. Em contrapartida, a
assimetria é dita negativa quando a maioria dos indivíduos apresenta altos valores da variável.
m
co
s.
♥
eo
o
ub
ro
id
é
o
nã
a
dv
pi
Có
me
Figura 18. Curva com distribuições assimétricas. Primeiro, é possível visualizarmos uma curva assimétrica positiva, em que a maioria dos indivíduos está concentrada
nos baixos valores da variável. Em contrapartida, na assimetria negativa, a maior parte dos indivíduos apresenta valores elevados.
Em relação à média, à moda e à mediana, a ordem entre elas vai depender se a assimetria é positiva ou negativa. Por exemplo, nas
assimetrias positivas, o valor da moda é inferior ao da mediana, que, por sua vez, é inferior ao da média (média > mediana > moda ou z > y >
x). Em contrapartida, na assimetria negativa, é justamente o contrário: o valor da média é inferior ao da mediana, que, por sua vez, é inferior
ao da moda (média < mediana < moda ou z < y < x).
m
co
s.
♥
eo
o
ub
ro
id
Figura 19. Posição da moda, mediana e média nas assimetrias. Nesses tipos de distribuições, temos a moda maior do que a mediana, que, por sua vez, é maior do que
é
a média. Fique atento apenas à ordem em que elas aparecem nos gráficos. Na assimetria positiva, a ordem é moda-mediana-média. Na assimétrica negativa, média-
o
mediana-moda.
nã
a
dv
pi
Có
Agora, veja que interessante: quando estamos diante de uma observações de PAS daquela população?
distribuição simétrica, se conhecermos a média da população e seu — Misericórdia! Não sei responder isso!
desvio-padrão, somos capazes de conhecer quantos indivíduos Então, vamos lá! Observe a imagem a seguir. Veja que,
me
estão dentro de determinados valores! para distribuições simétricas, 68,3% da população apresentará
— Como assim, Bárbara? Agora complicou... valores que estão entre -1 e +1 desvio-padrão. De igual forma,
Por exemplo, suponha que um determinado pesquisador 95,5% da população apresentará valores que estão entre -1,96
avaliou a população de Arumã e descobriu que os adultos e +1,96 desvio-padrão. Portanto, ao conhecermos a média e
apresentam uma média de pressão arterial sistólica (PAS) igual a o desvio-padrão, somos capazes de calcular os intervalos de
117 mmHg. Considerando que o desvio-padrão foi igual a 11 mmHg, valores em que 68,3% ou 95,5% da população, ou até mesmo
qual é o intervalo em que será possível encontrarmos 95,5% das 99,7%, está incluída!
m
co
s.
Figura 20. Distâncias dos desvios-padrão em relação à média e número de observações incluídas em cada intervalo. Observe que o total de 68,3% das observações fica
entre ±1 desvio-padrão quando a distribuição é dita normal, assim como 95% das observações ficam entre ±1,96 desvio-padrão e assim por diante. O intervalo mais
♥
•
99,7% das observações estarão entre a média ±3 desvios-padrão.
o
•
nã
No nosso exemplo, a média aritmética de pressão arterial sistólica foi igual a 117 mmHg. Como o desvio-padrão foi igual a 11 mmHg e
a
dv
pi
queremos descobrir o intervalo de valores em que encontraremos 95,5% da população de Arumã, temos que:
Có
Portanto:
Logo, 95,5% dos adultos observados em Arumã apresentam compreende 68,3%, 95,5% ou 99,7% da população! Observe
uma pressão arterial sistólica que varia entre 106 e 128 mmHg! Em que são percentuais com casas decimais. Se quisermos calcular o
outras palavras, esse é o intervalo considerado normal para aquela intervalo para exatos 95% e 99%, por exemplo, basta ajustarmos
população. os desvios-padrão. Por exemplo, para 95%, basta multiplicarmos
Agora, fique atento ao seguinte: na curva anterior, falamos por 1,96 desvio-padrão; para 99%, basta multiplicarmos por 2,576
sobre o cálculo que permite conhecer o intervalo de valores que desvios-padrão, conforme demonstrado a seguir.
m
co
s.
♥
eo
o
ub
ro
id
é
o
nã
Figura 21. Distribuições de probabilidades segundo a curva de Gauss. Em (A), marcamos apenas as distâncias inteiras dos desvios-padrão. Um intervalo que compreende
a
dv
±1 desvio-padrão a partir da média inclui 68,3% das observações da população estudada. Em contrapartida, um intervalo que compreende ±3 desvios-padrão compreende
pi
quase 100% das observações (99,7%), ficando apenas 0,3% fora desse intervalo. Em (B), marcamos os desvios-padrão fracionados, que são os mais solicitados nas provas
Có
de Residência Médica. O principal deles é o intervalo entre ±1,96 desvio-padrão, que corresponde a 95% das observações.
me
CAPÍTULO
A engenharia reversa mostrou que o princípio da hipótese nula é o tópico mais cobrado nas questões
de Estatística Médica. Por isso, preciso que você tenha atenção máxima neste capítulo.
Temos pela frente uma leitura um pouco mais densa, justamente porque vamos estudar alguns
conceitos que, de forma geral, são difíceis para nós que não somos estatísticos. É o caso do valor p.
A boa notícia é que a compreensão deles vai ajudar você não só a conquistar sua vaga de Residência
m
Médica, mas também será essencial para que você entenda a medicina baseada em evidências, que é uma
ferramenta que levamos “para a vida”. Então, vamos lá?
co
s.
Para que você entenda o princípio da hipótese nula, considere A desconfiança dos outros pesquisadores nada mais é do
o seguinte exemplo: suponha que um renomado pesquisador, que que o princípio da hipótese nula!
vamos chamar de Dr. José, desenvolveu uma nova medicação
♥
eo
para o tratamento de diabetes mellitus tipo 2. Essa medicação Esse postulado refere-se à negativa inicial em aceitar
o
promete diminuir a glicemia de jejum dos pacientes em até 20%, que um determinado fenômeno existe!
ub
mantendo-a estável ao longo do dia, mesmo após refeições com Em outras palavras, sempre partimos do pressuposto
ro
razoáveis quantidades de carboidratos simples. de que o fenômeno não existe. Por isso, para acreditarmos
id
é
Além disso, o novo medicamento tem uma ótima nele, ele precisa ser provado cientificamente.
o
Quando Dr. José contou sobre os resultados preliminares — A hipótese nula é aquela que afirma que o
para os colegas de laboratório, a desconfiança foi generalizada. fenômeno não existe?
me
Hipótese nula ou H0 (lê-se “agá zero”): a medicação CIG não tem efeito sobre a glicemia quando comparada ao tratamento
tradicional (isto é, o fenômeno não existe).
Hipótese alternativa ou H1 (lê-se “agá um”): a medicação CIG diminui a glicemia de forma importante quando comparada ao
tratamento tradicional (isto é, o fenômeno existe).
Observe que, a partir disso, quatro situações podem ocorrer: grupos! Portanto, embora a hipótese nula seja a verdadeira, ela
é rejeitada erroneamente em prol da hipótese alternativa. Em
m
1. Na vida real, a medicação CIG não tem efeito na glicemia, outras palavras, o pesquisador acredita que existe diferença, mas a
e o estudo não encontra diferença entre os grupos. Portanto, a verdade é que não existe. Quando isso acontece, temos um erro do
co
hipótese nula é a verdadeira, e o estudo realizado pelo Dr. José tipo alfa, também conhecido como erro tipo I.
demonstra exatamente isso.
4. Na vida real, a medicação CIG influencia na glicemia.
2. Na vida real, a medicação CIG diminui a glicemia, e o estudo Porém, o estudo não encontra diferença entre os grupos – veja
s.
consegue demonstrar que há diferença entre os grupos. Portanto, que é o oposto da situação anterior! Portanto, embora a hipótese
a hipótese alternativa é a verdadeira, e o estudo demonstra esse alternativa seja a verdadeira, ela é rejeitada erroneamente em
fato. prol da hipótese nula. Em outras palavras, o pesquisador acredita
que não existe diferença, mas a verdade é que existe. Quando isso
♥
eo
3. Na vida real, a medicação CIG não influencia na glicemia. acontece, temos um erro do tipo beta, também conhecido como
o
ub
Porém, o estudo de Dr. José encontra diferença entre os dois erro tipo II.
ro
id
é
o
SIM NÃO
dv
pi
Có
NÃO
Tabela 2. Tipos de erros que podem ocorrer na avaliação das hipóteses nula e alternativa. Tabela adaptada a partir de Fletcher e colaboradores, em Epidemiologia clínica
– elementos essenciais (5ª edição, Editora Artmed).
Veja que interessante: quando realizamos uma pesquisa, desconhecemos se o fenômeno existe ou não, certo? O que fazemos
é justamente inferir (ou deduzir) que ele existe por meio dos dados obtidos com as nossas amostras!
Então, como devemos proceder para não cometermos um erro alfa ou um erro beta?
Pois bem! Vamos voltar para os estudos de Dr. José. Suponha que ele tenha encontrado as seguintes médias de glicemia de jejum para
cada grupo estudado:
Tabela 3. Resultados dos experimentos de Dr. José. Observe que a glicemia de jejum do grupo tratado com o CIG (grupo 1) é inferior à do grupo que realizou o tratamento
convencional (grupo 2), e essa diferença é de 21 mg/dL. Fonte: Estratégia MED.
m
co
Veja que a média glicêmica do grupo tratado é bem menor: 21 É agora que vem o voo da coruja!
mg/dL a menos! Essa diferença é chamada de tamanho do efeito! Antes de realizar o estudo propriamente dito, Dr. José
estabeleceu a probabilidade máxima de erro tipo I que ele aceitaria
Tamanho do efeito ou magnitude do efeito é a cometer. Nesse sentido, ele combinou “com ele mesmo” que essa
s.
diferença encontrada entre os grupos comparados. Quanto probabilidade seria de até 5%. Portanto, o nível de significância
maior for essa diferença, maior é a probabilidade de que ela estatística adotado por ele foi igual a 5%.
realmente seja verdadeira (VIEIRA, 2018; SUCHMACHER; — Mas calma aí, professora! O nível de significância
GELLER, 2019). estatística é o erro alfa?
♥
eo
só mostrar para os colegas do laboratório que a medicação CIG O nível de significância estatística, também
realmente funciona! conhecido como alfa, nada mais é do que a probabilidade
id
é
Na realidade, Dr. José ainda precisa fazer mais alguns cálculos de afirmarmos que há diferença entre os grupos estudados
o
nã
antes de finalizar o estudo. Embora o tamanho do efeito seja bem quando, na realidade, essa diferença não existe.
animador, ainda assim é possível que ele esteja diante daquela Em outras palavras, é a probabilidade de rejeitarmos
a
dv
situação 3 que vimos lá em cima, lembra? a hipótese nula quando ela é verdadeira ou de cometermos
pi
um erro tipo I.
Có
“3. Na vida real, a medicação CIG não influencia na Portanto: nível de significância estatística =
glicemia. Porém, o estudo de Dr. José encontra diferença probabilidade de erro tipo I.
me
entre os dois grupos! Portanto, embora a hipótese nula Em estatística, essa probabilidade é escolhida de
seja a verdadeira, ela é rejeitada erroneamente em prol forma arbitrária e costuma ser fixada em 5%, o que significa
da hipótese alternativa. Em outras palavras, o pesquisador 1 erro a cada 20 experimentos realizados (1:20).
acredita que existe diferença, mas a verdade é que não
existe. Quando isso acontece, temos um erro do tipo alfa, Após estabelecer o nível de significância estatística, Dr. José
também conhecido como erro tipo I.” precisa comparar as médias dos dois grupos por meio de um teste
estatístico. Esse teste precisa ter poder suficiente para detectar a
— E como saber se ele está diante da situação 3?! diferença entre os grupos!
Poder do teste estatístico é a capacidade que o teste tem de encontrar diferença entre os grupos estudados quando o
fenômeno realmente existe. É como se o teste fosse um grande juiz e apresentasse uma capacidade intrínseca de julgamento. Nesse
sentido, bons juízes fazem bons julgamentos, certo? Em contrapartida, juízes ruins podem atrapalhar... Por isso, a escolha do teste é
tão importante! Falaremos mais sobre eles no capítulo 10.
Dependendo do poder que tem, o teste “vai olhar” para o tamanho do efeito (isto é, para aquela diferença de 21 mg/dL) e vai “se
perguntar”:
“Seria possível encontrarmos essa diferença tão grande entre os grupos – ou até mesmo diferença maior – se a hipótese nula
m
fosse verdadeira?”
O valor p é a probabilidade de encontrarmos uma diferença igual à que foi vista no estudo (ou até mesmo maior) caso a
ro
Suponha, então, que Dr. José encontrou um valor p igual a para o nível de significância estatística. Lembre-se de que Dr. José
a
0,03. Isso significa que a probabilidade de ele encontrar aquela estipulou um nível de significância igual a 5%. Como o valor p foi
dv
pi
diferença de 21 mg/dL caso a hipótese nula seja verdadeira é de inferior ao nível estipulado, então Dr. José rejeita a hipótese nula
Có
“de cara” se essa probabilidade é alta ou baixa... Precisamos olhar “o braço a torcer” para os colegas de trabalho.
2 Os estatísticos afirmam que é errado falar em aceitar a hipótese nula. Veja o porquê no box “Indo mais fundo”, ao final do capítulo.
Observe que:
O valor p:
NÃO É a probabilidade de os resultados do estudo terem ocorrido ao acaso. A probabilidade de acaso é a probabilidade de
erro aleatório, a qual não pode ser prevista, controlada ou calculada. Só sabemos que quanto maior a amostra, menor será essa
probabilidade.
NÃO É a probabilidade de a hipótese nula ser verdadeira! Veja bem, quando o teste estatístico emite o parecer, ele o faz
considerando que a hipótese nula é 100% verdadeira, afinal ele verifica se aquele tamanho do efeito seria possível caso a hipótese
nula fosse verdadeira! É por isso que o valor p não pode ter esse significado.
NÃO É o nível de significância estatística! Essa é a probabilidade de a hipótese nula ter sido rejeitada erroneamente, isto é, o
erro tipo I, lembra?
m
NÃO É o tamanho do efeito! Esse é a diferença entre os grupos estudados e que vai ser analisada pelo teste estatístico.
Reforçando: o valor p é a probabilidade de encontrarmos uma diferença igual à que foi vista no estudo (ou até mesmo maior)
co
caso a hipótese nula seja verdadeira (VIEIRA, 2018).
E só por curiosidade: esses “nãos” são as diretrizes da Associação Americana de Estatística para o valor p e são seguidas por
grande parte da comunidade científica (TANHA et al., 2017; WASSERSTEIN; LAZAR, 2016; HUBBARD; BAYARRI, 2003).
s.
Em 2002, Smith e colaboradores afirmaram que o valor p poderia ser interpretado como “o menor nível de significância
estatística com a qual rejeitamos a hipótese nula” (SMITH et al., 2002). Muitas páginas de internet e fóruns estatísticos vêm repetindo
isso desde então. Como vimos acima, esse não é bem o conceito de valor p, mas fato é que tal afirmativa já caiu duas vezes em prova!
♥
Tudo o que foi dito acima vai servir para sua vida! Acredite! Poucas pessoas conhecem esse assunto da forma como deveriam! Agora,
ro
meu coração está mais tranquilo porque eu consegui mostrar a você os conceitos corretos do ponto de vista realmente estatístico.
id
é
Mas nem tudo é perfeito! O que a engenharia reversa mostrou é que algumas questões sobre valor p, infelizmente, vêm com
o
nã
• A questão afirma que o valor p é a probabilidade de rejeitarmos a hipótese nula quando ela é verdadeira – como vimos, esse é
Có
— Bárbara, eu só fiquei com uma dúvida! Na hora em parecido. Ainda, como vimos, se Dr. José tivesse escolhido um
que Dr. José rejeita a hipótese nula, ele faz essa rejeição nível de significância de 1% em vez de 5%, o “p” não teria sido
com 3% de probabilidade de erro... Por que o valor p não significativo.
pode ser o erro tipo I? Afinal, se os 3% estiverem certos, Portanto, veja que a decisão em rejeitar a H0 envolve outros
Dr. José está rejeitando uma hipótese nula quando ela é fatores, o que altera a probabilidade de erro tipo I, uma vez que
verdadeira. também envolve o julgamento pessoal. Por isso, dizemos que o
valor p não é o erro tipo I. Além disso, Sellke e colaboradores (2001)
Excelente pergunta! Veja bem: o valor p é a probabilidade tentaram estimar a probabilidade de erro tipo I quando p é igual ou
de a diferença entre os grupos existir na vigência da hipótese inferior a 0,05. Eles verificaram que essa probabilidade pode chegar
nula, certo? Dr. José pode simplesmente olhar para essa a até 50%!
probabilidade e não rejeitar a hipótese nula, porque ele julga Que tal resolvermos algumas questões de anos anteriores
m
que o experimento pode ter tido algum erro de aferição ou erro para você ver como esse assunto é cobrado nas provas?
co
Lembra-se de que combinamos de resolver as questões sobre o intervalo de confiança após o capítulo de princípios de hipótese
s.
nula, já que as questões misturavam esses conceitos?
— Eu quase esqueci...
Ah, mas dessa vez eu lembrei! Chegou a hora! Veja as questões seguir!
♥
eo
o
ub
ro
id
é
o
nã
a
dv
pi
Có
me
CAPÍTULO
Um teste estatístico nada mais é do que uma ferramenta matemática que fornece o valor p! Esse valor, ao ser confrontado com
o nível de significância estatística, ajuda-nos a decidir se devemos rejeitar a hipótese nula!
m
Agora, o que você precisa saber efetivamente para acertar engenharia reversa mostrou que mais de 97% das questões têm
as questões de testes estatísticos? O primeiro ponto fundamental é como gabarito o teste t de Student ou o teste qui-quadrado (χ2)!
co
entender a diferença entre testes paramétricos e não paramétricos. Então, vamos relembrá-los rapidamente!
Os testes paramétricos são aqueles aplicados em amostras
suficientemente grandes, nas quais podemos pressupor que os dados TESTE T DE STUDENT
seguem a distribuição normal (curva de Gauss). Em contrapartida, os O teste t é utilizado quando temos uma variável numérica
s.
testes não paramétricos são aqueles aplicados em amostras pequenas e uma variável categórica, sendo a categórica do tipo dicotômica
ou naquelas situações em que não conseguimos prever se a variável (MEDRONHO et al., 2009).
segue uma distribuição normal. Portanto: Portanto, ele compara as médias de uma variável numérica
♥
O segundo ponto fundamental é você conhecer os principais entre dois grupos fundamentais: aquele que tem a variável
eo
o
testes estatísticos que podem ser cobrados em sua prova. A categórica e aquele que não a tem!
ub
ro
id
é
VARIÁVEL NUMÉRICA
o
nã
VARIÁVEL CATEGÓRICA
Có
Tabela 4. O teste t de Student é utilizado para verificarmos a associação entre uma variável numérica e uma variável categórica dicotômica. Fonte: Estratégia MED.
me
Por exemplo, o nosso querido Dr. José queria provar que seu Observe que a glicemia de jejum é uma variável numérica!
medicamento, o controlador ideal de glicemia (CIG), diminuía de Em contrapartida, o tipo de tratamento é uma variável categórica
forma eficaz a glicemia de indivíduos diabéticos, certo? Pois bem! dicotômica, uma vez que só existem duas possibilidades: ter usado
Para mostrar que o fármaco funciona, suponha que ele comparou a CIG ou não (tratamento convencional)!
média de glicemia de jejum dos pacientes que utilizaram o CIG com
a média de glicemia de jejum dos pacientes que permaneceram Resumindo: para sabermos se a medicação é eficaz, basta
com o tratamento convencional (isto é, que não utilizaram o CIG). compararmos as médias de glicemia entre os dois grupos!
Tabela 5. Média de glicemia de jejum nas duas amostras de pacientes diabéticos. Veja que o grupo 1 recebeu o CIG e apresentou uma média glicêmica de 117 mg/dL,
com desvio-padrão de 3 mg/dL. Em contrapartida, o grupo 2 não recebeu o CIG (isto é, o grupo fez o tratamento convencional), o que resultou em uma média glicêmica
de 138 mg/dL com desvio-padrão de 7 mg/dL. A pergunta é: será que essas médias são iguais do ponto de vista estatístico ou são diferentes? A resposta será fornecida
pelo teste t de Student.
m
Portanto:
co
• H0 (hipótese nula):
A média de glicemia do grupo CIG (117 mg/dL) não é estatisticamente diferente da média do grupo tradicional (138 mg/dL).
Logo, não há diferença entre os grupos e a medicação CIG não é superior ao tratamento tradicional3.
• H1 (hipótese alternativa):
s.
A média de glicemia do grupo CIG (117 mg/dL) é estatisticamente diferente da média de glicemia do grupo tradicional (138 mg/
dL). Logo, há diferença entre os grupos e a medicação CIG é superior ao tratamento tradicional.
♥
eo
Agora, suponha que o nível de significância estatística adotado foi de 5%. Se, ao aplicar o teste t de Student, Dr. José encontrar um
o
ub
valor p igual a 0,03, então ele poderá rejeitar a hipótese nula! Portanto, existe diferença significativa entre os grupos!
ro
As operações matemáticas por meio das quais o teste t de Student chega ao valor p fogem completamente ao escopo do nosso
a
dv
pi
estudo. Para as provas de Residência Médica, você só precisa entender quando o teste deve ser indicado.
Có
Observe que Dr. José comparou as médias de dois grupos diferentes, mas o teste t de Student é tão versátil que pode, inclusive, ser
usado para comparar as médias de um único grupo ou amostra...
— Agora eu fiquei confuso, Bárbara! Como é possível uma única amostra ter duas médias?
Uma mesma amostra pode gerar duas médias se os indivíduos forem comparados em uma espécie de antes e depois. Por exemplo,
suponha que Dr. José separou uma nova amostra de pacientes. Agora, ao invés de usar um grupo separado para o tratamento convencional,
ele optou por comparar a própria glicemia de jejum dos pacientes antes e depois do tratamento. Nesse caso, teríamos duas médias, mas
apenas uma amostra!
3 A expressão “não funciona” é apenas para que você entenda o conceito de forma pedagógica. Na realidade, o correto a ser dito é “não é superior ao tratamento tradicional” nesse estudo.
Quando as médias são obtidas a partir de dois grupos ou amostras diferentes, optamos por usar o teste t de Student para amostras
independentes (ou não pareadas).
Em contrapartida, quando a amostra é única, utilizamos o teste t de Student para amostras dependentes (ou pareadas), já que cada
paciente é o próprio controle.
m
co
s.
♥
eo
o
ub
ro
id
é
o
nã
a
dv
pi
Có
Figura 22. Uma amostra única é pareada na medida em que cada indivíduo gera duas medidas: uma antes do tratamento e uma depois. Nesse sentido, devemos usar o
teste t de Student pareado.
me
Além disso, o teste t pareado também pode ser utilizado para amostras diferentes, mas cujos indivíduos foram emparelhados de
alguma forma.
Por exemplo, suponha que temos duas amostras, chamadas grupo 1 e grupo 2. Se cada indivíduo do grupo 1 apresentar um
“par” no grupo 2, isto é, alguém com as mesmas características constitucionais que servirá de base de comparação, então as amostras
são ditas pareadas.
m
co
s.
♥
eo
o
ub
Figura 23. Pareamento ou emparelhamento entre grupos. Observe que os indivíduos 1 e 5, por exemplo, estão pareados. Nesse sentido, se Dr. José optasse
ro
por realizar o estudo do controlador ideal de glicemia com amostras pareadas, considerando que o grupo 2 recebeu o tratamento e o grupo 1 não o recebeu,
então a média de glicemia do indivíduo 5 seria comparada especificamente com a do indivíduo 1.
id
é
o
nã
a
dv
pi
Có
Por último, é importante que você saiba que o teste t de Student é aplicado para distribuições normais! Portanto,
ele é um teste paramétrico! Se os dados fugirem da distribuição normal, a opção é utilizar o teste de Mann-Whitney,
me
AZUL 13 ± 3
VERDE 16 ± 7
CASTANHO-ESCURO 15 ± 1
m
PRETO 14 ± 2
co
Tabela 6. Média de pressão intraocular (PIO) de acordo com a cor dos olhos4. Observe que temos uma variável numérica (PIO) e uma variável categórica do tipo
politômica (cor da íris). Portanto, o teste estatístico adequado é a ANOVA. Fonte: Estratégia MED.
s.
A engenharia reversa mostrou que o teste de Mann-Whitney nunca foi cobrado nas provas de Residência Médica. Já a ANOVA
foi cobrada uma única vez, como veremos a seguir.
♥
eo
o
ub
Paralelamente, o qui-quadrado (χ2) é o teste de escolha para situações em que queremos verificar se existe associação entre duas
ro
variáveis categóricas do tipo dicotômicas! Para isso, comparamos as proporções de uma determinada variável y em dois grupos diferentes,
e esses grupos diferem em relação à presença de uma segunda variável, que chamaremos de x. Enquanto um grupo tem a variável x, o outro
id
é
não tem.
o
nã
— Eita, professora! Esse tanto de variável me deixou confuso! Tem como explicar de novo?
Claro! Vamos usar um exemplo. Suponha que eu tenho duas amostras, sendo a primeira formada exclusivamente por indivíduos obesos
a
dv
(grupo 1) e a segunda por indivíduos eutróficos (grupo 2). Portanto, esses grupos diferem em relação à presença ou ausência de obesidade.
pi
Por sua vez, o diagnóstico dessa doença é considerado uma variável dicotômica! Afinal, só existem duas possibilidades: ser obeso ou não ser.
Có
Ainda, digamos que a nossa suposição é a de que a obesidade está associada à hipertensão arterial sistêmica (HAS), podendo ser,
inclusive, uma de suas causas. Para verificarmos essa hipótese, precisamos comparar a proporção de hipertensos do grupo 1 (grupo dos
me
obesos) com a proporção de hipertensos do grupo 2 (grupo dos eutróficos). Se a nossa hipótese for verdadeira, então a proporção da HAS
no grupo 1 será significativamente maior do que a do grupo 2. Dessa forma, poderemos dizer que a obesidade está associada à hipertensão.
Agora vem o voo da coruja: observe que a HAS também é uma variável categórica dicotômica, uma vez que também só existem duas
possibilidades para o diagnóstico: ser hipertenso ou não ser. Portanto, o teste de escolha será o qui-quadrado!
4 A literatura oftalmológica aponta alguns estudos que mostraram uma incidência aumentada de glaucoma esfoliativo em indivíduos com a íris mais pigmentada. Em outras palavras, pessoas com olhos escuros
apresentariam maior risco de glaucoma do que aquelas com olhos claros. No entanto, estudos posteriores não confirmaram essa relação (KANG et al., 2012). Utilizamos esse exemplo, aqui, só para que você entenda
como seria relacionar uma variável numérica com uma categórica não dicotômica.
DIAGNÓSTICO DE HAS
PROPORÇÃO DE
SIM NÃO TOTAL
HIPERTENSOS
m
Tabela 7. Tabela de contingência 2 x 2 mostrando a proporção de hipertensos no grupo 1 (obesos) e no grupo 2 (eutróficos). Observe que, dos 100 obesos selecionados
para o estudo, 70 apresentam HAS. Em contrapartida, dos 100 eutróficos selecionados, apenas 20 são hipertensos. Se o teste qui-quadrado resultar em um valor p inferior
a 0,05 (para um nível de significância estatística a 5%), então poderemos dizer que existe diferença entre as proporções de HAS, sendo a obesidade, provavelmente,
co
a grande responsável por essa diferença.
• H0 (hipótese nula):
s.
A proporção de hipertensos no grupo dos obesos (70%) é estatisticamente igual à proporção de hipertensos no grupo dos
eutróficos (20%). Em outras palavras, não há diferença entre os grupos e a HAS não está associada à obesidade.
• H1 (hipótese alternativa):
A proporção de hipertensos no grupo dos obesos (70%) é estatisticamente diferente da proporção de hipertensos no grupo dos
♥
eo
Suponha que o nível de significância estatística escolhido foi igual a 5%. Se, ao aplicarmos o teste qui-quadrado, encontrarmos um valor
id
é
p igual a 0,02, então poderemos rejeitar a hipótese nula. Nesse sentido, podemos confirmar a associação entre a obesidade e a HAS!
o
nã
a
dv
pi
Resumindo:
O qui-quadrado verifica se há associação entre duas variáveis categóricas dicotômicas. É importante frisar que ele é usado para
Có
comparar proporções em dois grupos de observações independentes, isto é, as amostras não estão pareadas!
me
O teste qui-quadrado é o teste estatístico mais cobrado nas questões de Estatística Médica!
Se você entender o quadro a seguir, vai gabaritar praticamente 90% das questões de testes estatísticos!
TESTE T DE STUDENT: teste estatístico que verifica a associação entre uma variável numérica e uma variável categórica, e
essa última deve ser dicotômica! Ele compara médias! Se as amostras forem dependentes ou pareadas, usamos o teste t pareado; se
forem independentes, usamos o teste t não pareado.
TESTE DE MANN-WHITNEY: teste que tem a mesma função do teste t (variável numérica x variável categórica dicotômica),
porém os dados são não paramétricos.
ANOVA: teste estatístico que verifica a associação entre uma variável numérica e uma variável categórica com mais de duas
categorias.
TESTE QUI-QUADRADO (χ2): teste estatístico que verifica a associação entre duas variáveis categóricas dicotômicas! Compara
m
proporções! É utilizado para amostras independentes.
TESTE DE MCNEMER: teste que tem a mesma função do qui-quadrado, porém para amostras dependentes.
co
s.
♥
eo
o
ub
ro
id
é
o
nã
a
dv
pi
Có
me
m
Copie o link abaixo e cole no seu navegador
para acessar o site
co
s. https://estr.at/juHb
♥
eo
o
ub
ro
id
é
CAPÍTULO
m
CAPÍTULO
co
Veja abaixo a lista de referências bibliográficas utilizadas para este resumo!
1. KANG, J.H. et al. Demographic and Geographic Features of Exfoliation Glaucoma in Two United States-based Prospective Cohorts.
s.
Ophthalmology. 2012 January ; 119(1): 27–35. doi:10.1016/j.ophtha.2011.06.018. Disponível em: https://pubmed.ncbi.nlm.nih.
gov/21982415/. Acesso em 15/05/2021.
2. SUCHMACHER, M.; GELLER, M. Bioestatística passo a passo. 2ª edição. Editora Thieme Revinter, Rio de Janeiro, RJ, 2019.
♥
3. VIEIRA, S. Fundamentos de estatística. 6ª edição. Grupo GEN - Editora Atlas, São Paulo, SP, 2019.
eo
o
4. VIEIRA, S. Bioestatística: tópicos avançados. 4ª edição. Editora Elsevier. Rio de Janeiro, RJ, 2018.
ub
5. LUIZ, R.R.; SZKLO, M. Capítulo 17: Introdução à análise exploratória de dados. In: Epidemiologia – 2ª edição. Organizado por Roberto
ro
6. PINHEIRO, R.S.; TORRES, T.Z.G. Capítulo 18: Análise exploratória de dados. In: Epidemiologia – 2ª edição. Organizado por Roberto Medronho
é
7. TORRES, T.Z.G. et al. Capítulo 22: Amostragem. In: Epidemiologia – 2ª edição. Organizado por Roberto Medronho e colaboradores, editora
Atheneu, Rio de Janeiro (RJ), 2009.
a
dv
pi
8. LUIZ, R.R. Capítulo 24: Associação estatística em Epidemiologia – Análise bivariada. In: Epidemiologia – 2ª edição. Organizado por Roberto
Có
129-133, 2016.
11.HUBBARD, R.; BAYARRI, M.J. P Values are not Error Probabilities. Disponível em https://www.uv.es/sestio/TechRep/tr14-03.pdf.
12.TANHA, K. et al. P-value: What is and what is not. Medical Journal of Islamic Republic Iran: 1-2. September, 25, 2017. Disponível em
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5804470/.
13.SMITH, R.A. et al. The High Cost of Complexity in Experimental Design and Data Analysis Type I and Type II Error Rates in Multiway ANOVA.
Human Communication Research, Vol. 28, N°. 4: 515–530, 2002.
14.NEYMAN, J. Outline of a Theory of Statistical Estimation based on the Classical Theory of Probability. Philosophical Transaction of the
Royal Society. Vol 236: 333-380, 1937. Disponível em: https://www.jstor.org/stable/91337?seq=1.
m
co
s.
♥
eo
o
ub
ro
id
é
o
nã
a
dv
pi
Có
me