Escolar Documentos
Profissional Documentos
Cultura Documentos
2024
CASA NOSSA SENHORA DA PAZ – AÇÃO SOCIAL FRANCISCANA, PROVÍNCIA
FRANCISCANA DA IMACULADA CONCEIÇÃO DO BRASIL –
ORDEM DOS FRADES MENORES
PRESIDENTE
Frei Thiago Alexandre Hayakawa, OFM
DIRETOR GERAL
Jorge Apóstolos Siarcos
REITOR
Frei Gilberto Gonçalves Garcia, OFM
VICE-REITOR
Frei Thiago Alexandre Hayakawa, OFM
PRÓ-REITOR DE ADMINISTRAÇÃO E PLANEJAMENTO
Adriel de Moura Cabral
PRÓ-REITOR DE ENSINO, PESQUISA E EXTENSÃO
Dilnei Giseli Lorenzi
COORDENADOR DO NÚCLEO DE EDUCAÇÃO A DISTÂNCIA - NEAD
Franklin Portela Correia
CENTRO DE INOVAÇÃO E SOLUÇÕES EDUCACIONAIS - CISE
Franklin Portela Correia
PROJETO GRÁFICO
Centro de Inovação e Soluções Educacionais - CISE
CAPA
Centro de Inovação e Soluções Educacionais - CISE
DIAGRAMADORES
Daniel Landucci
1. Definição de bioestatística................................................................................... 6
2. Introdução a pesquisa.......................................................................................... 6
4. Coleta de dados................................................................................................... 13
1. Resultados........................................................................................................... 22
2. Probabilidade....................................................................................................... 32
3. Distribuição normal............................................................................................... 35
4. Anormalidades...................................................................................................... 39
1. Análise estatística................................................................................................. 44
1. Análise estatística................................................................................................. 58
3. Uso de softwares.................................................................................................. 68
Introdução a Bioestatística UNIDADE 1
INTRODUÇÃO A BIOESTATÍSTICA
1
INTRODUÇÃO
Muitas pessoas, mesmo sem saber, já usaram fundamentos e partes da estatística em
seu dia a dia. Ao organizar uma festa, por exemplo, usamos o conceito de estatística
para preparar a lista de compras de comida. Se no churrasco teremos 20 convidados
e, conforme as informações encontradas na internet, em média, o consumo de carne
por pessoa é 100g, comprar 2kg de carne será suficiente para o evento? Saber o sexo
e a idade dos convidados influencia na minha compra? Será que posso confiar na in-
formação que eu encontrei na internet? Para responder essas perguntas, utilizaremos
conceitos de estatística.
1. DEFINIÇÃO DE BIOESTATÍSTICA
Contar, medir, comparar e resumir informações são ações que estão presentes no co-
tidiano de todas as pessoas, independentemente da profissão. No entanto, a forma
com que esses processos são realizados influencia na qualidade da informação obtida.
A mídia divulga que um em cada cinco brasileiros terão hipertensão arterial sistêmica,
mas saber que essa informação foi obtida em uma pesquisa com 50 indígenas do Ama-
zonas ou em uma população com 2.500 pessoas de todos os estados do Brasil mudaria
o quanto você confia na informação?
A estatística não se resume a números e cálculos, ela considera todo o processo, des-
de o modo em que os dados são coletados e analisados até a forma com que eles são
interpretados e divulgados. Em outros termos, “estatística é a ciência que fornece os
princípios e os métodos para coleta, organização, resumo, análise e interpretação de
informações” (Vieira, 2016, p. 1).
2. INTRODUÇÃO A PESQUISA
Antes de entrarmos nos conceitos de bioestatística, é preciso primeiro entender o que
é uma pesquisa científica. A pesquisa científica é um processo sistemático de investi-
gação que busca responder a questões específicas por meio da coleta e análise de da-
dos. Ela segue métodos rigorosos e utiliza abordagens científicas para obter resultados
confiáveis e válidos.
Quais são as etapas básicas de uma pesquisa? As informações básicas de como estru-
turar uma pesquisa influencia em como avaliar a qualidade e a confiabilidade dela. As
etapas iniciais do planejamento da pesquisa podem parecer simples, mas na verdade
elas são a base fundamental para o sucesso final da pesquisa.
6
Esse processo se inicia com a escolha de um tema que se pretende estudar. As pesqui-
sas de base, como investigar característica de uma estrutura química de um nutriente,
são tão importantes quanto as de aplicação como avaliar a eficácia de um novo trata-
mento. Conversar com pessoas que atuam com o tema ou escolher um assunto que 1
você observe no cotidiano do seu trabalho pode ajudar a definir quais são assuntos
interessantes de serem pesquisados. Outro fator necessário é buscar na literatura o
que já foi publicado sobre o tema escolhido. A partir disso, deve-se buscar lacunas no
Essa etapa de refinamento e reflexão, de qual parte estudar, tem como finalidade definir
a questão da pesquisa, a hipótese e os objetivos que espera-se alcançar ao final. Uma
boa pergunta de pesquisa deve ser específica quanto ao tempo, espaço, população e
contexto. Com suas características deve ser possível reproduzir a pesquisa. É reco-
mendado que o assunto tenha algum aspecto novo, mesmo que seja ver se os resulta-
dos encontrados em outros locais também acontecem no Brasil ou no serviço que você
trabalha. Um exemplo de pergunta é “Qual é o impacto do consumo de produtos à base
de soja na eficácia da reposição hormonal em mulheres brasileira na pós-menopausa,
em termos de alívio dos sintomas vasomotores, saúde óssea e perfil lipídico?”.
Durante todo o tempo de realização da pesquisa deve-se lembrar qual é a questão nor-
teadora e refletir se as ações realizadas e os dados coletados irão ajudar a responder à
pergunta e confirmar a hipótese. Como as informações são coletas, será que influencia
na capacidade da pesquisa de atingir seus objetivos?
É importante ter um equilíbrio entre coletar pouca informação e depois não conseguir
fazer algumas análises ou coletar muito dado e acabar só utilizando metade das
informações coletadas. Quanto mais se estuda sobre o tema, mais fácil fica a decisão
de o quê, como, quando e onde coletar. Essas decisões impactam no sucesso da
pesquisa. Usando como referência os acertos, erros e resultados das outras pesquisas,
o pesquisador consegue decidir o que é essencial coletar
EXEMPLO 1
Se o objetivo é avaliar a associação de entre uma exposição com um desfecho, como tomar
vacina e ter um efeito adverso grave, quais variáveis devem ser coletadas?
Inicialmente pode-se pensar em somente coletar duas informações: quem é tomou a vacina
ou placebo e quem foi hospitalizado ou faleceu dentro de 5 dias após a vacina. Mas não deta-
lhar as informações sobre as características das pessoas ou coletar outros dados que podem
contribuir com uma internação ou óbito podem atrapalhar na interpretação dos resultados.
Como fazer a coleta das informações individuais, por questionário com os sujeitos da pes-
quisa ou a partir de revisão de prontuário? Qual método será mais confiável de que os dados
coletados são verdadeiros e os mais fiéis possíveis?
Bioestatística 7
Introdução a Bioestatística
3. MÉTODO DE PESQUISA
Uma pesquisa tem várias etapas, logo, ao desenvolver o método que será utilizado na
1 coleta e análise dos dados devemos realizar diversas escolhas. Essas decisões devem
ser feitas com o objetivo de melhorar a qualidade da pesquisa, mas, como nem sempre
isso é possível, o pesquisador pode ser obrigado a escolher a opção mais viável e não
a mais adequada.
IMPORTANTE
Para ajudar na decisão do pesquisador é importante saber as vantagens e desvantagens de
cada possibilidade. Assim, ter o conhecimento de quais são
os possíveis vieses que podem acontecer são conhecimentos essenciais para desenhar o
estudo de maneira a contornar as dificuldades.
3.1 AMOSTRAGEM
Uma das primeiras etapas ao realizar ou avaliar uma pesquisa é preciso decidir quem
serão os participantes. Por exemplo, considere que você deseja realizar uma pesquisa
sobre a frequência do uso de drogas, lícitas e ilícitas, nos universitários que moram
no Brasil. Pela facilidade de acesso, aplica-se um questionário com os estudantes da
Universidade São Francisco (USF) que estão cursando o componente curricular de Bio-
estatística e Epidemiologia. Nesse contexto, realizar a coleta de dados dessa maneira
trará resultados confiáveis e compatíveis com o objetivo da pesquisa?
Fonte: 123RF.
ca que desejamos estudar, já a amostra é
composta pelos indivíduos que foram se-
lecionados para a pesquisa (Vieira, 2016,
p. 91). No exemplo da pesquisa sobre
drogas, a população é: todos os univer-
sitários que moram no Brasil e a amostra
é: todos os alunos que responderam ao
questionário. Uma amostra pode ser ade-
quada se for capaz de fornecer resultados
similares aos que existem na população.
Na maioria dos casos, usa-se uma amostra principalmente pela economia do tempo
e custo. Não é viável fazer exame laboratorial em todos os moradores da cidade para
saber a proporção de munícipes que tem alguma doença. Segundo Vieira (2016, p.
92-93), as pesquisas que realizam levantamento de dados de toda a população são
chamadas de censo e não precisam de amostragem.
8
Outro motivo para usar amostras é em casos em que não é possível estudar toda a po-
pulação. Por exemplo, você deixou uma embalagem de leite aberta a noite inteira fora
da geladeira e, agora, precisa saber se o leite já estragou. Se a análise da qualidade for
feita com todo o conteúdo do pacote, mesmo que o resultado seja que é possível consu- 1
mir o leite, não seria possível realizar isso já que todo o produto foi totalmente utilizado
no teste. Nesse caso, é obrigatório o uso de uma amostra de pequena quantidade do
produto para que, se possível, utilizar o restante.
IMPORTANTE
As características das pessoas da amostra impactam na qualidade do resultado. Por isso, as
descrições dos sujeitos da pesquisa e de todas as etapas de seleção desses indivíduos são
essenciais para avaliar a qualidade dos resultados.
Métodos amostrais
É possível obter uma amostra por diversos métodos. Assim, escolher qual método uti-
lizar é uma decisão dos pesquisadores a partir de suas características, vantagens e
desvantagens. Logo, é de extrema importância que o método seja seguido exatamente
como definido e que sua descrição permita que ele seja reproduzido. Nesse sentido,
muitas pessoas comparam os métodos de uma pesquisa com uma receita culinária, em
que é preciso deixar claro todas as etapas para que outros consigam realizar e chegar
no mesmo resultado.
EXEMPLO 2
Considere uma pesquisa da cidade de Votorantim (SP), com o objetivo de investigar quais
são as medicações que os residentes com diabetes mellitus usam. Nesse caso, a população
se trata dos diabéticos que moram na cidade. Seria possível ter conhecimento de quem são
todos indivíduos da população antes de realizar o sorteio? Ainda não temos um cadastro obri-
gatório e único com informações de saúde da população, independentemente de as pessoas
serem ou não usuárias do Sistema Único de Saúde (SUS). Por não ser possível listar todos
os diabéticos da cidade, não é possível obter uma amostra aleatória para essa pesquisa.
Bioestatística 9
Introdução a Bioestatística
A amostra pode ser aleatória simples quando o sorteio acontece a partir de toda a popula-
ção. Esse método é utilizado quando a população é homogênea e não existem caracterís-
ticas individuais que irão atrapalhar a análise dos dados. Porém, há casos em que alguns
1 subgrupos podem ter características diferentes que influenciam nos dados coletados.
EXEMPLO 3
Considere uma pesquisa com o objetivo de avaliar a proporção de pessoas com depressão
entre os estudantes matriculados na Universidade São Francisco. Entre 10.350 estudan-
tes, 33% são bolsistas. Para obter resultados significativos será necessária uma amostra
com 75 pessoas.
Uma amostra aleatória simples seria obtida a partir do sorteio de 75 pessoas entre os 10.350
estudantes. Já uma amostra aleatória estratificada seria obtida dividindo a população entre
bolsistas e pagantes, depois sorteando 50 pessoas entre os pagantes e 25 entre os bolsistas
para manter a proporção com a população.
Uma amostra semiprobabilística tem parte do processo de seleção com uma aborda-
gem aleatória. A amostra sistemática tem regras pré-estabelecidas que devem ser
seguidas de forma sistemática. A parte aleatória acontece por meio de um sorteio que
indica o valor que deve ser sorteado e repetido, inclusive, de forma sistemática. Para
utilização desse método, é necessário que a população esteja distribuída em ordem e,
por isso, esse é um método comum para seleção de prontuários.
10
duos, a amostra sistemática será a seleção da sétima pessoa de cada um dos vinte e
cinco grupos considerando que o sorteio de 1 a 25 deu 7.
A amostra por conglomerados seleciona grupos de pessoas definidos por algum moti-
1
vo que são encontrados na população, como um município, uma clínica ou uma escola.
Nesse caso, o sorteio não é dos sujeitos e sim dos conglomerados. Para utilização
desse método, o pesquisador deve ter acesso a todos os conglomerados possíveis, ou
EXEMPLO 4
Considere uma pesquisa com o objetivo de avaliar a proporção de pessoas com depressão entre
os estudantes matriculados na Universidade São Francisco. Entre 10.350 estudantes, 33% são
bolsistas. Para obter resultados significativos será necessária uma amostra com 75 pessoas.
Uma amostra sistemática seria obtida sorteando um número de 1 a 138 (considere que o resulta-
do foi o número 84). A amostra será a octogésima quarta pessoa de cada grupo de 138 pessoas.
Já uma amostra por conglomerados seria obtida sorteando uma sala de aula e os participan-
tes da pesquisa seriam quem assiste aula nesse local.
Uma amostra por cotas teria 50 vagas para pagantes e 25 vagas para bolsistas. Para realizar
a pesquisa, o pesquisador poderia ficar na entrada principal da universidade e perguntar para
cada aluno se eles eram bolsistas ou pagantes. As primeiras pessoas que preenchessem os
critérios seriam selecionadas.
Bioestatística 11
Introdução a Bioestatística
Pessoas leigas podem explicar esse método descrevendo que a seleção das pessoas
ocorreu ao acaso, conforme encontravam as pessoas na rua. Para estatística, o termo
acaso está relacionado à aleatoriedade de um evento acontecer e não a ausência de
método de coleta.
EXEMPLO 5
Considere uma pesquisa com o objetivo de avaliar a proporção de pessoas com depressão entre
os estudantes matriculados na Universidade São Francisco. Entre 10.350 estudantes, 33% são
bolsistas. Para obter resultados significativos será necessária uma amostra com 75 pessoas.
Uma amostra de conveniência seria obtida distribuindo o questionário on-line para todos os
estudantes por meio de grupos de redes sociais.
Tamanho da amostra
A vantagem da amostra é não precisar avaliar a população inteira. Entretanto, o tama-
nho da amostra tem que ser pequeno para otimizar tempo e recursos, mas grande o su-
ficiente para ter significância estatística. Quanto maior o tamanho da amostra, maiores
as chances dos valores encontrados (estimativas) a serem próximos aos valores reais
encontrados na população (parâmetros). Para saber se um novo tratamento é eficaz,
não se pode avaliar somente 10 pessoas, é preciso de um número suficiente que con-
siga garantir que o que foi observado não é uma exceção.
Desse modo, para saber o tamanho ideal, existem cálculos que definem o número ideal
para a amostra ter significância e qualidade. De acordo com a situação, pode-se utilizar
fórmulas diferentes. Normalmente, os critérios que precisam ser definidos ao fazer o
cálculo são: margem de erro, nível de confiança e proporção na população.
12
os resultados da sua amostra para a população. Para fazer a inferência é necessário
avaliar as características da amostra e refletir se ela é representativa da população.
Uma amostra é tendenciosa quando suas características não são similares a população. Dessa
1
forma, toda amostra tendenciosa ocorre por viés de seleção. Uma pesquisa sobre uso de dro-
gas entre brasileiros teve uma amostra somente de alunos universitários. Com os dados obtidos
não é possível concluir que todos os brasileiros se comportam como na amostra. Portanto, para
PARA REFLETIR
Procure nos artigos científicos se os autores deixam claro o método amostral utilizado. Será que
descrever como foi feita a seleção facilita a avaliação de validade da pesquisa e da presença de
erros no método de coleta de dados?
4. COLETA DE DADOS
Uma parte importante para avaliar a qualidade da pesquisa é ter uma adequada coleta
dos dados. Qual informação coletar, como aferir e qual instrumento utilizar são defini-
ções importantes que um pesquisador deve fazer. Desse modo, toda escolha influencia
na qualidade dos resultados.
Ao desenhar uma pesquisa é preciso definir quais variáveis coletar e como conduzir
esse processo. As variáveis são as informações de interesse que a pesquisa pretende
estudar e suas características influenciam nas análises estatísticas que serão realiza-
das que, por sua vez, definem os resultados.
Variáveis
Qualitativas Quantitativas
ou Categórica ou Numérica
Bioestatística 13
Introdução a Bioestatística
A variável qualitativa pode ser ordinal quando as categorias possuem uma ordem na-
tural. A ordenação é um consenso e não pode estar associada a juízo de valor pessoal.
Uma pesquisa de satisfação que tem toda pergunta estruturada com as possibilidades
1 de resposta: ruim, satisfatório e bom. Essa é uma variável qualitativa, pois as respostas
são categorias (ruim, satisfatório e bom) e é ordinal porque as respostas têm uma or-
denação de intensidade da satisfação. Um questionário fechado tem as possíveis res-
postas em ordem, mas isso não quer dizer que exista uma ordem natural nas respostas
para classificá-la como ordinal. Nesse contexto, podemos apresentar outros exemplos
como escolaridade (ensino infantil, fundamental, médio e superior) e tamanho do ede-
ma (1+, 2+, 3+, 4+).
A variável qualitativa pode ser nominal quando as categorias não têm uma distribuição
ordinal. Uma grande parte das variáveis são desse tipo. Na declaração de nascido vivo,
por exemplo, a variável tipo de parto é coletada com possibilidades de resposta: cesáreo,
vaginal e ignorado. Apesar das evidências científicas e do juízo de valor que parto vaginal
é melhor, a ordenação não é natural e, portanto, tipo de parto é uma variável qualitativa
nominal. Além desse, são outros exemplos de variável qualidade nominal: município de
residência ou droga ilícita utilizada (maconha, cocaína, crack, LSD, entre outras).
Por fim, a variável quantitativa contínua pode ter números decimais e resultados são
obtidos por aferição. O peso de cada sujeito da pesquisa é aferido em uma balança
e tem a possibilidade de um resultado decimal, 75,1 kg. Dessa forma, todo exame la-
boratorial de análises clínicas é variável quantitativa contínua, pois os resultados são
sempre uma proporção.
14
EXEMPLO 6
Para classificar uma variável normalmente devemos responder uma sequência de questões que 1
nos ajudam a decidir qual caminho seguir da Figura 3.
1) As respostas da questão de coleta de dados da variável são em formato de texto ou são núme-
2) As respostas da questão de coleta de dados são resultado de contagens e só podem ter núme-
ros inteiros? Se a resposta for sim provavelmente a variável é discreta. Se a resposta for não, ou
seja, a há uma aferição e pode ter número decimais, a variável será contínua.
Como classificar a variável antecedente familiar que terá seus dados coletados perguntando para
o paciente se algum parente já teve câncer de mama.
Nesse caso as respostas possíveis para a questão de coleta de dado são não, sim (mãe ou irmã),
sim (tia ou avó). Essas respostas são em texto, portanto a variável é qualitativa.
Então a variável antecedente familiar pode ser classificada como qualitativa nominal.
5. RESULTADOS
Falar que houve 10 casos de cárie dentária em crianças menores de 2 anos é muito ou
pouco? Se ao invés de usar o número de casos, o dado for expresso porcentagem, 2%
das crianças nessas faixas têm cárie influencia na sua análise? Há diversas maneiras
que os dados da pesquisa podem ser transmitidos ou resumidos. A escolha de como
divulgar os resultados influencia em como a pesquisa é interpretada.
Bioestatística 15
Introdução a Bioestatística
Os dados são os valores ou as respostas obtidas. A análise dos dados começa com
a estatística descritiva na qual a principal função é o resumo e a descrição das infor-
mações obtidas. As variáveis qualitativas são resumidas com frequência absoluta e
1 relativa de cada categoria de resposta. As variáveis quantitativas, normalmente, são
resumidas com medidas de tendência central e medidas de dispersão.
frequencia absoluta
100 (1)
tamanho da amostra
EXEMPLO 7
Considere uma amostra de 540 pessoas, das quais 360 são fumantes e 180 não fumam. O cál-
culo da frequência relativa em porcentagem de pessoas que não são fumantes é:
frequencia absoluta
100 substituir a fórmula com os dados.
tamanho da amostra
180
100 fazer a divisão (180 ÷ 540).
540
16
Os dois tipos de frequência podem ser apresentados ao longo do texto, conforme o
exemplo acima. Outra opção é descrever, no texto, usando o número absoluto se-
guido da porcentagem entre parênteses. Por exemplo, quanto ao sexo, 36 (66,67%)
eram do sexo feminino. 1
Além disso, há a possibilidade de realizar uma tabela de distribuição de frequência, em
que ela é organizada com três colunas. A primeira terá as possibilidades de respostas,
FREQUÊNCIA FREQUÊNCIA
SEXO
ABSOLUTA (N) RELATIVA (%)
Feminino 36 66,67%
Masculino 18 33,33%
Total 54 100%
Bioestatística 17
Introdução a Bioestatística
EXEMPLO 8
1 Uma pesquisa entrevistou 8 universitários com os dados descritos na tabela a seguir. Crie
uma tabela de distribuição simples e agrupada de frequência absoluta (N) e relativa (%) da
variedade idade.
Idade 20 21 57 40 23 20 21 21
Distribuição simples
Idade N %
1
2
20 2 100 0 25 100 25%
8
8
1
23 1 100 0 1225 100 12, 25%
8
1
40 1 100 0 1225 100 12, 25%
8
1
57 1 100 0 1225 100 12, 25%
8
Total 8 100%
Distribuição agrupada
Idade N %
20 a 39 anos 6
40 a 59 anos 2
Total 8 100%
18
No cotidiano das secretarias de saúde, os dados do número de casos das doenças
de notificações compulsórias são divulgados. Portanto, é importante que em qualquer
divulgação de dados seja utilizada frequência absoluta e relativa.
1
A frequência absoluta tem como principal função demonstrar o impacto que aquele
agravo, evento ou desfecho tem na sociedade. Outra aplicabilidade é que, a partir dos
números de casos, os serviços de saúde podem planejar atendimentos e possíveis de-
O número de óbitos total por COVID-19 em 9 de fevereiro de 2021 nos Estados Unidos
da América (EUA) foi de 459.993 e no Reino Unido foi 112.798. Somente utilizando o
número absoluto de casos, o EUA parece estar pior na pandemia por causa do maior
número de casos. Agora, ao complementar as informações com a frequência relativa,
a comparação fica melhor. Com esse mesmo exemplo, a proporção de mortes por co-
vid-19 por 1 milhão de habitantes no Reino Unido é de 1.661,58 e nos Estados Unidos
da América é de 1.389,7. Por isso, cabe reforçar que para qualquer comparação é ne-
cessário usar alguma frequência relativa.
CONCLUSÃO
A bioestatística é uma ferramenta necessária para nos ajudar a como realizar a pesqui-
sa e estruturar o método de coleta. Ela nos ajuda a:
` Como selecionar a amostra a fim de impedir erros na seleção e com isso melho-
rar a confiabilidade nos resultados;
Bioestatística 19
Introdução a Bioestatística
REFERÊNCIAS BIBLIOGRÁFICAS
BELL, J. Projeto de Pesquisa: guia para pesquisadores iniciantes em educação, saúde e ciências sociais.
4ed. Porto Alegre: Artmed, 2008.
1
FLETCHER, R. H.; FLETCHER, S. W.; FLETCHER, G. Epidemiologia clínica: elementos essenciais. 5. ed.
Porto Alegre: ArtMed, 2014.
ROUQUAYROL, M. Z.; GURGEL, M. Rouquayrol: epidemiologia e saúde. 8. ed. Rio de Janeiro: Medbook, 2018.
20
Bioestatística
21
1
DESCRIÇÃO DE DADOS E
NORMALIDADE
2
INTRODUÇÃO
O que é “normal”? Estar fora do “normal” Figura 01. Estatística
me faz doente? Se uma pessoa chora
Fonte: 123RF.
todo dia por um mês após perder uma
pessoa querida é considerado normal ou
é depressão? Como se definiu qual é o
limite entre febre e temperatura normal?
Será que toda pessoa com temperatura
de 37,3ºC está sem febre?
1. RESULTADOS
Falar que a média de nota de bioestatística da sala é 6,5 é muito ou pouco? Ao comple-
mentar a informação e dizer que as notas variaram entre 1,2 e 9,8, muda sua avaliação
de como os alunos foram? Se eu falar que 30% dos alunos tiraram entre 6,0 a 6,9, fica
mais fácil de avaliar a sala?
22
IMPORTANTE
Ao realizar qualquer cálculo das medidas de tendência central é importante que todos os 2
dados coletados sejam analisados. Então, mesmo que existam valores repetidos, todas as
observações devem participar dos cálculos.
Fórmula da média:
Em que:
= um dado.
∑ = somatória.
= número de dados.
Idade 20 21 57 40 23 20 21 21
Média:
=x
∑
=
x soma dos dados substituir a fórmula com os dados.
n número de dados
Bioestatística 23
Descrição de dados e normalidade
20 + 20 + 21 + 21 + 21 + 23 + 40 + 57
= somar os valores.
8
2
223
= realizar a divisão.
8
= 27,88
Quando o número de dados for par, a mediana será a média dos dois valores centrais.
Como será sempre uma média de dois valores, a conta será sempre igual, primeiro
deve-se somar os valores centrais e depois dividir a soma por 2.
Conjunto B: {7, 9, 13, 15} tem número quatro observações (número par), portanto, a
mediana é a média dos dois valores centrais. Considerando que ele já está ordenado,
a posição central que consegue dividir o conjunto em dois grupos de dois é um valor
entre 9 e 13. Para calcular a mediana, nesse caso, é preciso fazer a média entre 9 e 13.
Assim, o cálculo da mediana será:
24
EXEMPLO 2: CÁLCULO MEDIANA
Uma pesquisa entrevistou 8 universitários com os dados descritos na tabela a seguir. 2
Idade 20 21 57 40 23 20 21 21
A outra medida de tendência central é a moda. A moda é o dado mais frequente, ou seja,
dentro do conjunto é o valor que mais se repete. É possível que um conjunto tenha mais
do que uma ou não tenha moda. Para facilitar reconhecer qual é a moda, pode-se fazer
uma análise de frequência absoluta antes ou ordenar o conjunto para ficar mais fácil
conseguir reconhecer os valores repetidos.
Idade 20 21 57 40 23 20 21 21
Moda: faça uma contagem (frequência absoluta) dos dados. A idade que mais se repete é
21, com três votos.
Idade 20 21 23 40 57 Total
N 2 3 1 1 1 8
Bioestatística 25
Descrição de dados e normalidade
A média é influenciada pelos valores dos dados. Desse modo, se no conjunto de obser-
vações tiverem valores extremos, ou seja, distante de onde a maioria dos valores está,
a média será afetada. Essa desvantagem da média é a vantagem da mediana, que não
2 é influenciada por valores extremos. Se analisarmos os exemplos de cálculo para essas
duas medidas, podemos observar que a média está mais alta que a mediana por causa
dos valores extremos (40 e 57).
A vantagem da média é que ela pode sofrer manipulações matemáticas e é mais co-
nhecida. Já a mediana não consegue sofrer muitas manipulações matemáticas. Quanto
à moda, a vantagem é a praticidade de conhecer e calcular a medida. No entanto, a
desvantagem é que os resultados não são significativos em grupos pequenos.
Fórmula da amplitude:
Idade 20 21 57 40 23 18
26
Amplitude:
A C
B
Legenda: “A” é o primeiro quartil, “B” é o segundo quartil ou
mediana e “C” é o terceiro quartil.
A terceira etapa é dividir em dois grupos, de modo que o ponto de corte é a mediana.
Quando o número de dados for ímpar, o segundo quartil será um valor do conjunto que
deverá estar presente nos dois grupos. Quando o número de dados for par, todos os
dados serão distribuídos nos grupos, independentemente dos dados centrais serem
utilizados para calcular a mediana.
Bioestatística 27
Descrição de dados e normalidade
A quarta etapa é encontrar o local do ponto de corte para dividir o grupo ao meio: o primei-
ro quartil é o ponto que divide na metade o grupo de dados com as observações de menor
valor; o terceiro quartil é o ponto que divide na metade o grupo de dados com as observa-
2 ções de maior valor. Assim, no grupo, quando o número de dados for ímpar, o quartil será
um valor do conjunto, mas quando for par será a média dos dois valores centrais.
O conjunto B: {7, 9, 13, 15} tem quatro observações (número par), logo, o ponto que
divide esse conjunto na metade é a média dos dois valores centrais. Como ele já está
ordenado, a posição central que consegue dividir o conjunto em dois grupos de dois é
um valor entre 9 e 13. Nesse caso, é preciso fazer a média entre 9 e 13, logo:
Idade 20 21 57 40 23 18
Quartis:
Grupo Y: 23 40 57
28
4) número ímpar de observações em cada grupo (três).
Idade 20 57 40 18 24 26 18
Quartis:
a) Achar o 2º quartil: 24
3) Dividir em grupo (no caso do 2º quartil ser uma observação, essa estará nos dois grupos):
Grupo Z: 18 18 20 24
Grupo Y: 24 26 40 57
18 + 20 38
a) Achar o 1º quartil no grupo Z: = = 19
2 2
26 + 40 66
a) Achar o 3º quartil no grupo Y: = = 33
2 2
Nesses dados, o primeiro quartil é 19 anos, o segundo quartil (mediana) é 24 anos e o ter-
ceiro quartil é 33 anos.
Bioestatística 29
Descrição de dados e normalidade
Outra medida de dispersão é o desvio padrão, que descreve o quanto os dados estão
distribuídos em torno da média. Então, toda vez que usar desvio padrão, deve-se usar
também a média. O desvio padrão é calculado como a raiz quadrada de variância.
2
SAIBA MAIS
Para saber mais sobre o conceito de variância, leia a obra Introdução à Bioestatística (p. 47-
51), de Sonia Vieira, lançado em 2016.
(∑ x)
2
2 ∑ 2
x −
n
3
s=
n −1
Em que:
x é um dado;
∑ representa somatória;
n é o número de dados.
30
EXEMPLO 7: CÁLCULO DE DESVIO PADRÃO
Uma pesquisa entrevistou quatro crianças com idades de 2, 6, 10 e 12 anos. 2
x x2
2 22 = 4
6 62 = 36
10 102 = 100
12 122 = 144
∑ x = 30 ∑x 2
= 284
2) Coloque os valores na fórmula. Atente-se para não confundir onde colocar ∑ x e ∑ x , e para
2
( ∑ x)
2
( 30 )
2
2 ∑n
x − 2
2
284 −
4
=s =
n −1 4 −1
3) Resolver a conta:
( 30 )
2
900
284 − realizar a divisão
900
=
2 4 4
4 −1
Bioestatística 31
Descrição de dados e normalidade
284 − 225
= 2 realizar as duas subtrações.
2 4 −1
59
= 2 realizar a divisão
3
Vantagens e desvantagens
A vantagem da amplitude ou da menção do valor mínimo e máximo é incluir todos os
valores, mas, por outro lado, é uma medida muito afetada por valores extremos. Para
descrever a idade dos óbitos ocorridos em um mês, o pesquisador relata que a idade
variou de horas de vida até 106 anos. Com esse intervalo grande não é possível saber
como de fato está a distribuição de óbitos.
Os quartis conseguem fornecer mais dados da dispersão e não são afetados por valo-
res extremos. A distância interquartílica, que é a distância entre o primeiro e o terceiro
quartil, é um valor que consegue descrever se metade da amostra está afastada ou
próxima da mediana. Uma desvantagem dos quartis é que existem métodos diferentes
de calculá-los, até mesmo entre os softwares, apesar da diferença entre ambos ser pe-
quena. Além disso, não são adequados para manipulações matemáticas.
2. PROBABILIDADE
A teoria clássica de probabilidade é aquela, normalmente, abordada no Ensino Médio,
quando calculávamos qual a probabilidade de se tirar uma carta de baralho específica
ou de tirar um número no dado. As características dos fenômenos probabilísticos se
mantem no campo da saúde.
32
Fórmula de probabilidade (evento único):
Contudo, como podemos calcular a probabilidade de uma criança nascer com uma
anomalia congênita? Nesse caso, podemos considerar que é 50% também, já que só
existem dois eventos esperados (nascer com ou sem anomalia)?
PARA REFLETIR
Pelo ISA-Capital de 2008, a proporção de pessoas com mais de 20 anos que tinham Hiper-
tensão Arterial Sistêmica (HAS) foi de 22%. Uma nutricionista atendeu em um dia 20 con-
Bioestatística 33
Descrição de dados e normalidade
sultas de adultos ou idosos e nenhum deles tinha HAS. De acordo com a probabilidade, ela
deveria ter atendido 4 hipertensos (22% de 20 consultas = 0,22 x 20 = 4,4). Considerando
que a proporção de hipertensos na população está correta, o que será que aconteceu para
2
a probabilidade errar?
` O número de pessoas atendidos é baixo e pode ter ocorrido um viés de seleção e a amos-
tra não representar a população.
` Ao acaso, naquele dia, não houve hipertensos. Mas nos outros dias da semana, ela aten-
deu mais de 5 doentes.
Existem pessoas que não estão diagnosticadas com HAS, mas já tem a doença e, provavel-
mente, alguns dos 20 pacientes estavam nessa situação.
A longo prazo, por sua vez, é possível que a proporção de eventos observados se
aproxime da probabilidade do evento acontecer. Nesse sentido, considere que a média
de sobrevida após um diagnóstico de câncer de pulmão é de 1 ano. Um profissional
começa seu trabalha em uma clínica de oncologia e, com o passar do tempo e de aten-
dimentos, ele observará que a maioria dos casos de fato morrem próximo de 1 ano de
diagnóstico. No entanto, haverá exceções, desde quem morreu dias depois ou de quem
demorou 5 anos para falecer.
Com a experiência, os dados vão cada vez mais se aproximar da distribuição normal.
Contudo, sempre há a chance de alguém ser a exceção, que em estatística pode ser
chamado de ponto fora da curva (outlier). Ao ter um diagnóstico, não é possível saber em
qual parte da curva a pessoa irá ficar, mas é possível saber quais são as probabilidades.
34
3. DISTRIBUIÇÃO NORMAL
Vamos retomar as perguntas da introdução da unidade. Como se define o que é nor-
mal? Se você tem a mesma altura que a média da população você é considerada nor- 2
mal? Mas e se a pessoa medir 5 cm a mais, ela ainda será considerada normal?
Normal é um termo relativo, com base na sociedade e que varia ao longo do tempo, por
Fonte: 123RF.
A distribuição normal tem características bem conhecidas que são iguais para todas as
variáveis que apresentem a distribuição. O comportamento da variável será independen-
temente do valor das medidas de tendência e dispersão e do que se está medindo (peso,
tempo de sobrevida e temperatura corpórea). Dessa forma, variáveis contínuas tendem a
formar curvas mais próximas à teórica por conseguir aferir os valores de forma contínua.
Bioestatística 35
Descrição de dados e normalidade
Figura 05. Frequência relativa dos eventos a partir de distâncias de desvios-padrões ( ) da média ( )
Fonte: 123RF.
36
Para calcular os limites mínimos e máximos que estão na proporção de casos, é só
somar ou subtrair do desvio padrão da média. Considere que, o tempo de duração de
sintomas de uma doença febril tem distribuição normal, em que a média de duração
dos sintomas é de 7 dias com um desvio padrão de 1,4 dia. Essas medidas foram cal- 2
culadas em uma amostra representativa com tamanho amostral adequado. O estudo,
em suma, não apresentou vieses. Pelas características da distribuição normal, temos:
` 95,44% dos casos dessa doença teriam de 4,2 a 9,8 dias de sintomas.
Fórmula limite inferior =µ − 2σ =7 − ( 2 ×1, 4 ) =7 − 2,8 =4, 2
` 99,72% dos casos dessa doença teriam de 2,8 a 11,2 dias de sintomas.
Fórmula limite inferior = µ − 3σ =7 − ( 3 ×1, 4 ) =7 − 4, 2 = 2,8
Com as diversas frequências que a curva de distribuição normal fornece, pode-se pen-
sar em probabilidades de eventos acontecerem e na definição de situações normais.
Uma amostra probabilística das últimas turmas da disciplina selecionou 278 alunos.
Dessa amostra as medidas de tendência central da nota final do componente curricular
foi a média 7,2, a mediana 7,2 e a moda 7,2, Quanto às medidas de dispersão da nota,
a amplitude foi 5,8 (de 4,1 a 9,9), o primeiro quartil foi 6,4, o terceiro quartil foi 8,0 e o
desvio padrão foi de 2,6.
Considerando que os dados apresentam distribuição normal, como se faz para calcular
a probabilidade de algum aluno esse ano tirar nota abaixo de 6,0? Inicialmente conse-
gue-se saber que a probabilidade será menor do que 25% já o primeiro quartil é 6,4 e
Bioestatística 37
Descrição de dados e normalidade
isso significa que 25% dos alunos tiraram até 6,4. Mas não é possível responder preci-
samente a probabilidade. Para tanto iremos usar a Curva z.
Esse cálculo envolve várias etapas. Primeiro, deve-se transformar o número de interes-
2
se (X) em um número “Z”. Para tanto usa-se a fórmula
Fórmula da variável Z:
X− µ
Z= 5
σ
Legenda:
: valor de interesse,
: média,
: desvio padrão.
6, 0 − 7, 2
No exemplo, X é 6,0, µ é 7,2 e σ é 2,6. Colocando na fórmula, Z = . Após fazer
2, 6
a subtração e depois a divisão por 2,6, chega-se no valor de Z de - 0,46 após o arre-
dondamento. O número Z sempre é composto por um dígito que representa o número
inteiro e dois dígitos que representam as casas decimais.
ÚLTIMO DÍGITO
0
0 1 2 3 4 5 6 7...
Parte inteira e 0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 …
primeiro dígito
decimal 0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 …
0,5 … … … … … … … … …
38
Para usar a tabela deve-se considerar o número Z. Nas linhas deve-se encontrar o nú-
mero inteiro e o primeiro digito decimal, no caso de z = 0,46, deve-se encontrar a linha
do 0,4. Depois deve-se encontrar a coluna que é o número do último dígito decimal. No
exemplo, deve-se encontrar a coluna referente ao número 6. Então o valor da tabela en- 2
contrado para o exemplo é o cruzamento da linha e coluna selecionadas. Aqui, o valor
que está na linha 0,4 e na coluna 6 é 0,1772.
Figura 06. Desenho para facilitar a solução do exemplo de utilização da distribuição normal reduzida
50% 50%
Fonte: elaborada pela autora.
Sabendo dessas informações, dá para perceber que o valor do azul mais o valor do
verde será 50%. Portanto, para chegar na resposta final basta subtrair o valor de verde
dos 50%. A resposta é 50 - 17,72 = 32,28%.
Essa última parte da resolução do exercício, depois de obter o valor da tabela, pode
variar. É possível que se some 50% do valor da tabela. Então é sempre importante fazer
o raciocínio de onde está a área da pergunta no gráfico. Só dessa maneira é possível
resolver o problema corretamente.
4. ANORMALIDADES
Há várias estratégias para definir se um comportamento, resultado, sinal ou sintoma
está dentro do padrão ou “normal”. Nesse sentido, a mais comum e mais utilizada é a
Bioestatística 39
Descrição de dados e normalidade
definição de que é normal tudo que acontece com grande frequência. A principal refe-
rência são os padrões da curva de distribuição normal, em que há um consenso de que
tudo que está dentro de 2 desvios padrões da média (95,44%) é normal.
2
Se a pessoa se encontra nos extremos da curva de Gauss, ela pode ser uma pessoa saudá-
vel com padrões de referência fora do comum ou pode ser uma pessoa doente. Desse modo,
cabe julgar outras características, sinais e sintomas do paciente. Por exemplo, ao atender
uma pessoa com temperatura de 37,3ºC que está com calafrios e dor no corpo, pode-se
considerar que ela está com febre apesar de o valor da temperatura estar dentro do normal,
ao mesmo tempo que uma pessoa com 38ºC e sem nenhum sintoma pode estar saudável.
Com isso, outro critério que se pode usar para definir normalidade é apresentar uma for-
ma clínica diferente do que é considerado um bom estado de saúde. O quanto de choro é
considerado fora do normal para alguém de luto ou todo choro é patológico? Se ao tratar a
provável anormalidade e a pessoa melhorar, é possível definir que o quadro era anormal.
PARA REFLETIR
A definição de normalidade ou alteração de peso nas crianças foi feita a partir dos conteúdos
aprendidos na unidade de hoje. A Organização Mundial da Saúde (OMS) disponibiliza as curvas
de crescimento (peso, altura e índice de massa corpórea por peso) com pontos de corte, a partir
de percentis ou de escore z. A Figura 10 é um exemplo de curva de peso por idade, em que as
curvas com escore z usa como base o desvio padrão, em que 1 escore significa 1 desvio padrão.
Figura 07. Gráfico da curva de crescimento de peso por idade de crianças do sexo masculino de 0 a 2
anos com ponto de corte a partir do escore z
Fonte: https://www.who.int/docs/default-source/child-growth/child-growth-standards/indicators/weight-
for-age/cht-wfa-boys-z-6-2.pdf?sfvrsn=ec5b30eb_6. Acesso em: 9 fev. 2021.
40
A caderneta de saúde da criança (Brasil, 2017) é a carteira de vacinação com diversas outras
informações sobre o crescimento e o desenvolvimento dela. Entre as informações disponíveis
nesse impresso temos a Figura 11, que compara pontos de corte em percentis e em desvio pa- 2
drão (escore z).
Pela OMS ([s.d.]), a definição de normalidade do peso é a partir de onde a criança está no
gráfico. Logo, as definições variam conforme a idade e variável (peso, altura ou índice de
massa corpórea).
Bioestatística 41
Descrição de dados e normalidade
Tabela 02. Pontos de corte e classificação do peso para a idade para crianças de 0 a 10 anos
2
PONTO NO GRÁFICO CLASSIFICAÇÃO DO PESO
> +2 escores z Peso elevado para idade.
Uma criança brasileira do sexo masculino que fará 2 anos de idade daqui dois dias pesa
16,5kg. Após colocar esses valores na curva de crescimento (Figura 10), o que tem mais
chance de ser real:
` A criança tem padrões fora do frequente, então, aquele peso é adequado para ela; ou
` A probabilidade desse menino ter uma anormalidade é baixa, então, pode-se considerar
que o peso não é adequado para a idade?
Comentário: O mais provável é que a criança esteja com peso elevado para a idade e, por-
tanto, algum tipo de orientação dietética deve ser realizado. A probabilidade é baixa (menor
de 4,56%) da criança estar com peso adequado e ter características diferentes da maioria da
população e, por isso, estar fora da faixa de normalidade da curva. Nesse sentido, as infor-
mações sobre a altura e o índice de massa corpórea (IMC), que também tem seus gráficos,
podem ajudar na interpretação do dado. Se só no peso a criança está acima da curva de 2
escores z, significa que a criança está acima do peso. Outra estratégia que contribui para
a avaliação é acompanhar o peso da criança ao longo do tempo, a fim de saber se ela está
seguindo as inclinações das curvas de referência ou teve um aumento fora do esperado.
CONCLUSÃO
Os resultados de uma pesquisa podem ser resumidos com medidas de tendência cen-
tral e medida de dispersão. Normalmente isso acontece com as variáveis quantitativas
e com no mínimo uma medida de cada tipo. Classicamente usa-se média e desvio
padrão, mas em algumas áreas é mais comum usar mediana e primeiro e terceiro quar-
til. É importante ressaltar que desvio padrão teoricamente está associado com média,
então não se deve descrever usando mediana e desvio padrão.
42
REFERÊNCIAS BIBLIOGRÁFICAS
BRASIL. Ministério da Saúde. Caderneta de saúde da criança: menino. 11 ed. Brasília: Ministério da Saúde,
2017. Disponível em: http://bvsms.saude.gov.br/bvs/publicacoes/caderneta_saude_crianca_menino_11ed.
2
pdf. Acesso em: 9 fev. 2021.
BRASIL. Ministério da Saúde. Secretaria de Atenção à Saúde. Departamento de Atenção Básica. Orien-
FLETCHER, R. H.; FLETCHER, S. W.; FLETCHER, G. Epidemiologia clínica: elementos essenciais. 5. ed.
Porto Alegre: ArtMed, 2014.
ORGANIZAÇÃO MUNDIAL DA SAÚDE (OMS). Documentos com padrões de crescimento de crianças. Dispo-
nível em: https://www.who.int/tools/child-growth-standards/standards. Acesso em: 9 fev. 2021.
ROUQUAYROL, M. Z.; GURGEL, M. Rouquayrol: epidemiologia e saúde. 8. ed. Rio de Janeiro: Medbook, 2018.
Bioestatística 43
Análise estatística UNIDADE 3
ANÁLISE ESTATÍSTICA
3
INTRODUÇÃO
Considere uma pesquisa que avalia se a acupuntura reduz o tempo de duração de uma
crise de enxaqueca. Como resultado, obteve-se que quem fez acupuntura teve uma
crise de 2,5h, em média, enquanto quem não fez teve uma crise de, em média, 3,5h. É
possível apontar que acupuntura reduz o tempo de duração das crises?
Para um leigo e pessoas que sofrem de enxaqueca essa redução de uma hora pode
ser significativa, mas nem sempre para a estatística esses dados mostram uma asso-
ciação. Como um profissional de saúde que atua baseado nas melhores evidências, é
preciso saber se a diferença entre os tratamentos é de fato real ou se a amostra e a
associação de outras variáveis impedem de assumir que o tratamento é um sucesso.
Como os dados são divulgados podem ajudar no convencimento do leitor quanto à conclu-
são da pesquisa. Ao ler artigos e estudos, é muito comum que as pessoas vejam somente a
seção métodos e a de resultados. A leitura dos métodos é muito importante porque é a partir
dele que se consegue julgar se a pesquisa foi bem-feita ou não. Os resultados precisam
mostrar todas as informações obtidas que embasam a conclusão do pesquisador.
Além disso, nesta unidade, abordaremos quais pesquisas e critérios devem ser utilizados
para confiar nas evidências científicas disponíveis e como definir relações de causalidade.
1. ANÁLISE ESTATÍSTICA
Dentre as funções do conceito de bioestatística está a característica de analisar os da-
dos coletados da amostra da pesquisa. Esse processo acontece comparando variáveis
coletadas para avaliar possíveis associações e comparando os resultados encontrados
com o que é esperado ou o que foi encontrado em outras pesquisas. A principal ava-
liação ao ler os resultados de uma pesquisa é indagar se o que foi encontrado de fato
representa a realidade.
44
EXEMPLO 1
Uma pesquisa, que avaliou a nota dos alunos em uma disciplina, teve como resultado a taxa 3
de reprovação de 50%, e que os alunos do sexo masculino reprovaram muito mais do que
os do sexo feminino. A conclusão dessa pesquisa foi que o sexo influencia na aprovação da
disciplina. Ao ler esses resultados é preciso avaliar a probabilidade de eles serem represen-
SAIBA MAIS
Se quiser se aprofundar sobre o acaso, uma dica de leitura é O andar do bêbado, de Leo-
nard Mlodinow. Esse livro é um best-seller internacional que aborda o quanto os eventos e
acontecimentos da nossa vida podem ser explicados pelo acaso.
Todo resultado de pesquisa, como o caso de uma pessoa que morre após utilizar uma
medicação, deve sempre ser questionado se, de fato, é o que acontece no mundo real
(natureza) ou se o que foi encontrado é justificado pelo acaso. A estatística consegue
ajudar na definição que a morte foi em decorrência do tratamento ou ela pode ser justifi-
cada pelo acaso, ou seja, a pessoa iria morrer independentemente da administração da
medicação. Toda análise estatística tem a incerteza inerente do acaso.
Para decidir se os resultados são confiáveis e que se pode generalizá-los, existem méto-
dos que conseguem avaliar o acaso, os quais estimam os efeitos da variação aleatória.
Os dois métodos mais utilizados são os testes de hipóteses e os intervalos de confiança.
Bioestatística 45
Análise estatística
O Risco Relativo é uma das poucas medidas de associação capaz de medir o risco de
um desfecho acontecer caso a pessoa tenha uma característica. Essa medida só pode
ser calculada quando o estudo é longitudinal e o acompanhamento dos sujeitos de pes-
quisa iniciou antes que a pessoa tivesse o desfecho.
Caso o risco relativo seja 1,0, a exposição não altera o risco de desenvolver o desfecho.
Quando o risco relativo é menor do que 1,0, pode-se dizer que a exposição é um fator
protetor, pois, a presença dela reduz o risco de ter a doença. Quando o risco relativo é
maior do que 1,0, pode-se dizer que a exposição é um fator de risco, pois, a presença
dela aumenta o risco de ter a doença.
Para estudos que não é possível calcular a incidência, o risco relativo não pode ser cal-
culado. Para esses casos, existe a razão de chances ou odds ratio (OR), em inglês, que
significa estimativa de risco. Essa medida pode ser usada em qualquer tipo de estudo.
Chances, no inglês Odds, é uma medida utilizada que avalia a chance de um even-
to acontecer contra a chance de não acontecer. Essa medida é popularmente usada
em eventos esportivos e apostas. Ela se assemelha a probabilidade, com a diferença
de que o denominador na probabilidade é a totalidade de possibilidades, enquanto na
chance é a frequência do evento não acontecer. A razão de chances é a divisão das
chances (odds) do desfecho acontecer nos dois grupos (expostos e não expostos).
46
como H0 (lê-se “agá zero”). No exemplo do teste que compara o tempo da enxaqueca
dependendo do tratamento realizado, a hipótese nula é que não há diferença entre os
tempos de tratamento.
3
A hipótese alternativa refere-se à existência de diferença ou associação do que se
está testando (Vieira, 2016, p. 128). Ela é abreviada como H1 (lê-se “agá um”). No
exemplo do teste que compara o tempo da enxaqueca dependendo do tratamento reali-
Como qualquer teste, é possível que o resultado dele esteja errado. Logo, cada teste
de hipótese tem quatro possibilidades de resultado (Figura 1): a hipótese nula é correta,
a hipótese alternativa é correta, a ocorrência o erro tipo I e ocorrência do erro tipo II.
Presente Ausente
O erro tipo I refere-se aos resultados fal- O erro tipo II refere-se aos resultados fal-
sos-positivos, ou seja, o teste mostra uma sos-negativos, ou seja, o teste não mostra
diferença, só que na realidade ela não exis- uma diferença, quando, na realidade, ela
te (Fletcher, R.; Fletcher, S.; Fletcher, G., existe (Fletcher, R.; Fletcher, S.; Fletcher,
2014, p.189). Assim, é afirmar que existe G., 2014, p. 189). É afirmar que não existe
diferença entre o que se compara quando diferença entre o que se compara quan-
na verdade não existe diferença. Por exem- do, na verdade, existe sim. Por exemplo, é
plo, é concluir seu estudo afirmando que a concluir seu estudo afirmando que a acu-
acupuntura altera o tempo de duração da puntura não altera o tempo de duração da
crise de enxaqueca da pessoa quando, no crise de enxaqueca da pessoa quando, no
mundo real, esse tratamento não altera o mundo real, esse tratamento altera o tem-
tempo de duração da crise. po de duração da crise.
Bioestatística 47
Análise estatística
EXEMPLO 2
Pense que uma pesquisa deseja avaliar se a vacina reduz o número de óbitos de COVID-19.
A análise dos dados foi feita comparando a proporção de óbitos no grupo de pessoas que
tomou a vacina com o grupo de quem tomou placebo.
` A hipótese nula deste teste é que a proporção de óbitos nos vacinados não é diferente
da proporção de óbitos nas pessoas que tomaram placebo. Ou seja, não há diferença da
proporção de óbito entre os grupos.
` A hipótese alternativa deste teste é que a proporção de óbitos nos vacinados é diferente
da proporção de óbitos nas pessoas que tomaram placebo. Ou seja, há diferença nas
proporções de óbitos.
` O erro tipo I é afirmar que as proporções de óbitos são diferentes quando, na verdade,
elas são iguais.
` O erro tipo II é afirmar que as proporções de óbitos são iguais quando, na verdade, elas
são diferentes.
Como um resultado significativo tem mais impacto, porque pode promover alterações
em protocolos e em cuidados, o número de falsos-positivos deve ser baixo. É por isso
que na maioria dos casos utiliza-se α, que é a probabilidade de existir falsos-positivos.
Um teste estatístico tem como principal resultado o p-valor (ou p-value, em inglês). O
p-valor é a probabilidade do erro tipo I acontecer, ou seja, de o resultado positivo ter sido
ao acaso e não pelo fato de que ele acontece na natureza. Probabilidade é expressa,
preferencialmente, em número decimais, mas, para facilitar a compreensão, ela pode
ser transformada em porcentagem.
EXEMPLO 2
Tendo em mente uma pesquisa do tempo de crises de enxaqueca que compara o tratamento
somente com acupuntura com o tratamento padrão, que é exclusivamente medicamentoso.
O resultado do teste estatístico foi um p-valor de 0,123. Isso significa que a probabilidade de
cometer o erro tipo I é de 12,3%, ou seja, existe 12,3% de probabilidade de que a acupuntura
tenha na realidade o mesmo tempo de duração da crise de enxaqueca.
Qual valor de probabilidade de um erro que seria aceitável? Você, profissional da saúde, a
partir desse resultado trocaria o tratamento padrão e a partir desse momento só prescreveria
acupuntura para seus pacientes com enxaqueca em vez de medicamento?
48
Existe um consenso na comunidade científica que considera como aceitável um p-valor
menor ou igual que 0,05. Se a probabilidade de acontecer um erro tipo I for menor do
5%, pode considerar que o resultado do teste é de fato significativo. Chama-se de nível
de significância do teste o valor máximo que se aceita de probabilidade de ocorrer o 3
erro tipo I. Portanto, o nível de significância que a maioria das pesquisas utilizam é de
5% (Vieira, 2016, p. 133).
Rejeitar H0
Aceitar H0
Aceitar H1
Bioestatística 49
Análise estatística
IMPORTANTE
Por exemplo, um teste de hipótese fictício compara o tempo de ventilação mecânica com o
peso do paciente. O p-valor < 0,0001 não significa que o tempo de ventilação mecânica está
muito associado com o peso do paciente. Um p-valor de 0,042 ou < 0,0001 terá a mesma
conclusão, que é a associação das variáveis. A diferença de a chance do resultado ser ao
acaso e não acontecer na realidade é maior no caso de 0,042.
Teste estatístico
O teste estatístico não impede o acaso, ele só calcula qual é a probabilidade de o erro
acontecer. Existem vários testes que devem ser usados em situações específicas. Para
decidir qual realizar, é preciso primeiro saber algumas informações dos grupos e das
variáveis que serão comparados.
A definição se a variável tem distribuição normal pode ser por meio de um teste esta-
tístico ou pressupor, teoricamente, qual é a distribuição dos dados observados se é
próxima da curva de normalidade. Testes não paramétricos são quando uma ou mais
das variáveis quantitativas têm distribuição não normal.
Perceba na Figura 3 a comparação entre duas tabelas que exemplificam que muitas ca-
tegorias reduzem o número de observações em cada célula da tabela, o que influencia
na confiança dos resultados.
50
Tabela 01. Exemplo de distribuição dos dados conforme categorias das variáveis estudadas (peso e profissão)
BAIXO PESO
SOBREPESO OBESIDADE TOTAL
PESO ADEQUADO
3
Técnico(a) de enfermagem 4 10 16 8 38
Farmacêutico(a) 10 6 4 20
Fisioterapeuta 3 1 4
Médico(a) 7 3 1 11
Psicólogo(a) 2 4 6
TOTAL 7 44 35 18 104
Curso superior 20 43 63
Total 44 60 104
A próxima parte é definir se o teste é pareado ou não. Ser pareado significa que os
sujeitos dos grupos que está se comparando são a mesma pessoa em momentos dife-
rentes ou pessoas com características muito similares que estão relacionadas (Vieira,
2016, p. 139).
Por exemplo, um estudo sobre estratégia de redução alimentar pode ter grupos parea-
dos se a análise for comparar o antes e o depois, havendo ou não grupos independen-
tes que comparam o peso eliminado entre o grupo controle e o intervenção. A análise
pode ser pareada se ao selecionar os integrantes do grupo controle, ele tivesse carac-
terísticas específicas iguais a cada caso.
Os testes estatísticos mais comuns e suas características são (Fletcher, R.; Fletcher, S.;
Fletcher, G., 2014, p. 193):
Bioestatística 51
Análise estatística
` Shapiro Wilk: avalia se uma variável quantitativa tem distribuição normal. A hipótese nula
é que a variável tem distribuição normal;
3
` Qui-quadrado de Pearson: avalia a associação de duas variáveis qualitativas. Às vezes
é expresso pelo símbolo Χ2.Pode ser utilizado para: avaliar se o sexo dos alunos influen-
cia na aprovação da disciplina, comparar se a proporção de aprovados em cada grupo
(masculino e feminino) é diferente.
` Fisher: avalia a associação de duas variáveis qualitativas que tenham poucos números
de observações ou muitas tabelas de contingência vazias. É similar ao qui-quadrado;
` Teste t de student: compara duas médias de uma variável quantitativa que tenha distri-
buição normal. É um teste paramétrico, pode ser pareado ou para grupos independentes.
Por exemplo: para avaliar se a idade influencia na aprovação dos alunos é preciso testar
se a média de idade entre os aprovados é igual à idade média dos reprovados. Se a idade
tiver distribuição normal, o teste a ser realizado é um teste t, já que se está comparando
as médias de uma variável normal de dois grupos;
` Mann-Whitney: compara duas médias de uma variável quantitativa que não tenha dis-
tribuição normal. É um teste não-paramétrico para grupos independentes. O exemplo é
similar ao teste t, sendo a diferença a distribuição;
` Wilcoxon: compara duas médias de uma variável quantitativa que não tenha distribuição
normal. É um teste não-paramétrico para grupos pareados. O exemplo é similar ao teste
t, sendo a diferença a distribuição;
` ANOVA: compara três ou mais médias de uma variável quantitativa que tenha distribuição
normal. É um teste paramétrico para grupos independentes. Por exemplo: serve para avaliar
se a idade média dos estudantes é diferente entre os diversos cursos da área da saúde;
` Correlação: compara duas variáveis quantitativas. É possível calcular uma medida de asso-
ciação que mede a intensidade e o quanto do desfecho pode ser explicado pela outra variável.
Antes de realizar o teste estatístico, é necessário definir, primeiro, quais variáveis ana-
lisar para que a pergunta da pesquisa e seus objetivos possam ser respondidos. É
comum pesquisadores testarem todas as variáveis entre si, isso faz com que o número
de testes seja grande e pelo acaso possa ser que encontre um p-valor menor que 0,05,
mas depois não é possível discutir esse resultado, porque ele não faz sentido no as-
pecto teórico.
Após reflexão e decisão de quais análises fazer, existe uma sequência de etapa para
realizar um teste de hipótese:
52
Figura 03. Teste de hipótese
3
Definir hipó- Especificar Escolher e Interpretar
tese nula e o nível de realizar o o resultado
alternativa significância teste do p-valor
Como as estimativas são medidas de ponto, não é possível garantir quão próximo ela
pode estar ao parâmetro, que é o valor observado na população toda ou na natureza. À
vista disso, é comum que essas estimativas estejam sempre expressas com um inter-
valo de confiança. Define-se como intervalo de confiança (IC) uma faixa de valores que
se tem confiança que o valor real está. O valor da estimativa está sempre dentro do IC.
Bioestatística 53
Análise estatística
PARA REFLETIR
Em uma pesquisa de intenção de voto de uma eleição para prefeito, coletou uma amostra
3
de 200 pessoas, 42% votariam no Candidato A. Será que o resultado final oficial da eleição
será essa mesma proporção? Se o IC 95% for de 35,2% a 48,8% espera-se que o valor real
esteja dentro da faixa. Caso isso não aconteça, pode ser que o erro tenha ocorrido por conta
de vieses ou pelo acaso.
Toda a interpretação dos resultados, então, parte de que a pesquisa foi bem conduzida
e que tem baixo risco de vieses. Assim, espera-se que a amostra seja representativa e,
de preferência, com seleção aleatória. Como o intervalo de confiança estima probabili-
dade é importante reforçar que todos os eventos tenham a mesma chance de ocorrer.
EXEMPLO 3
O candidato A ficou 42% de proporção com IC95% de 35,2 a 48,8%, enquanto o candidato
B ficou com 29,5% de intenção de voto com IC95% de 23,2 a 35,8%. Para um leigo, 29,5%
é diferente dos 42% o que deixaria o candidato A eleito. Mas ao interpretar o intervalo de
confiança, é preciso garantir que as faixas não se sobreponham. Nesse caso, pela análise do
intervalo de confiança é possível que o Candidato B tenha vencido. O parâmetro do candida-
to B pode ser bem no limite superior 35,7%, enquanto o candidato A possa estar com 35,3%
perto do seu limite inferior.
54
percebe-se que existe a possibilidade de que o valor real do RR seja 0,99, o que seria
interpretar que esse antecedente pessoal reduz o risco de ir a óbito, pois o RR < 1,0.
Nesses casos em que a abrangência do intervalo de confiança engloba números meno-
res e maiores do que 1,0, não se pode afirmar se a associação é verdadeira e nem qual 3
é o sentido da interação (reduzir ou aumentar o risco).
Para conseguir confiar na conclusão de uma pesquisa é preciso julgar o processo meto-
dológico, amostral e análise de dados. Como estatística é um assunto que as pessoas
da área da saúde não gostam, muitas vezes se confia no processo sem conseguir julgar
se a análise foi correta. Os conceitos abordados nesta unidade devem dar ferramentas
para que você consiga avaliar a análise estatística de outras pesquisas, assim como
analisar os dados de um estudo que você é o pesquisador principal.
Bioestatística 55
Análise estatística
REFERÊNCIAS BIBLIOGRÁFICAS
ALMEIDA FILHO, N.; BARRETO, M. L. Epidemiologia & Saúde: Fundamentos, Métodos e Aplicações. Rio
de Janeiro: Guanabara Koogan, 2011.
3
FLETCHER, R. H.; FLETCHER, S. W.; FLETCHER, G. S. Epidemiologia clínica: elementos essenciais. 5.
ed. Porto Alegre: ArtMed, 2014.
ROUQUAYROL, M. Z.; GURGEL, M. Rouquayrol: epidemiologia & saúde. 8. ed. Rio de Janeiro: Medbook,
2018. 752 p.
56
Bioestatística
57
3
APRESENTAÇÃO DE DADOS
4
INTRODUÇÃO
Uma pesquisa que conclui que acupuntura reduz o tempo de duração de uma crise de
enxaqueca já que quem fez acupuntura teve uma crise de 2,5h, em média, enquanto
quem não fez teve uma crise de, em média, 3,5h.
A partir de somente o texto acima, é possível confiar nesse resultado? Como será que
foi concluído que o tempo de crise entre os dois grupos é diferente?
Como um profissional de saúde que atua baseado nas melhores evidências, é preciso
saber se a diferença entre os tratamentos é de fato real ou se a amostra e a associação
de outras variáveis impedem de assumir que o tratamento é um sucesso.
Na leitura de um artigo é preciso entender as informações presentes para que você seja
capaz de avaliar a pesquisa inteira, incluído o método de análise estatística. Caso os
resultados não sejam claros a confiabilidade da pesquisa reduz.
1. ANÁLISE ESTATÍSTICA
A principal avaliação ao ler os resultados de uma pesquisa é indagar se o que foi encon-
trado de fato representa a realidade. Existe a possibilidade de o resultado encontrado
na pesquisa ser decorrente de um erro sistêmico ou viés. Os vieses podem acontecer
em diversos momentos da pesquisa, desde a amostragem, na aferição ou coleta de
dados, na utilização de informações de eventos que aconteceram há muito tempo e tal-
vez o paciente já não se lembre corretamente. É por isso que, ao definir os métodos de
coleta de dados da pesquisa a partir do desenho de estudo, diversas estratégias podem
ser realizadas a fim de reduzir ou impossibilitar a ocorrência de vieses.
58
É importante deixar claro na comunicação da pesquisa, seja por artigo ou por tese, qual
foi o processo de coleta e análise de dados. Assim o leitor é capaz de tirar as próprias
conclusões.
4
Todo resultado de pesquisa, como o caso de uma pessoa morre após utilizar uma me-
dicação, deve sempre ser questionado se, de fato, é o que acontece no mundo real
(natureza) ou se o que foi encontrado é justificado pelo acaso. A estatística consegue
O teste de hipótese avalia, utilizando testes estatísticos, se uma diferença ou uma as-
sociação está presente. Por exemplo, para avaliar se existe uma diferença no tempo de
duração de uma crise de enxaqueca em pessoas que realizaram tratamentos diferen-
tes, um teste de hipótese pode ser realizado. Para avaliar se existe diferença entre a
proporção de doentes ao comparar pessoas que foram vacinadas ou não, um teste de
hipótese pode ser feito.
Um teste estatístico tem como principal resultado o p-valor (ou p-value, em inglês). O
p-valor é a probabilidade do erro tipo I acontecer, ou seja, de o resultado positivo ter
sido ao acaso e não pelo fato de que ele acontece na natureza. Existe um consenso
na comunidade científica que considera como aceitável um p-valor menor ou igual que
0,05. Quando o p-valor for menor ou igual do que 0,05, considera-se que a probabili-
dade de a significância estatística não existir é, na realidade, baixa. Por isso, aceita-se
uma hipótese alternativa. Já quando o p-valor é maior do que 0,05, a probabilidade da
não associação de fato acontecer é alta, o que leva a aceitar a hipótese nula.
Intervalo de confiança (IC) é uma faixa de valores que se tem confiança que o valor real
está. O valor da estimativa calculado na amostra da pesquisa está sempre dentro do IC.
São exemplos de estimativas: média, frequência relativa ou proporção, risco relativo,
razão de chances. O intervalo de confiança demonstra a certeza que se tem de que os
dados da amostra são representativos da população. Costumeiramente, usa-se IC 95%
ou que significa que há 95% de confiança ou probabilidade de que o parâmetro esteja
dentro do intervalo (Vieira, 2016, p. 116).
GLOSSÁRIO
` Erro tipo I refere-se aos resultados falsos-positivos, ou seja, o teste mostra uma diferença,
só que na realidade ela não existe (Fletcher, R.; Fletcher, S.; Fletcher, G., 2014, p.189).
Bioestatística 59
Apresentação de dados
` Hipótese nula a hipótese que sempre se refere a não existir diferença ou associação
(Vieira, 2016, p. 128).
4 ` Risco relativo (RR) é uma razão das incidências de um evento no grupo com a variável de
interesse presente contra um grupo sem essa variável (Rouquayrol; Gurgel, 2018, p. 701).
Caso o risco relativo seja 1,0, a exposição não altera o risco de desenvolver o desfecho.
Quando o risco relativo é menor do que 1,0, o fator de exposição reduz o risco de ter a
doença e quando maior do que 1,0 a exposição aumenta o risco do desfecho.
` Razão de chances ou Odds ratio (OR) é a divisão das chances de um evento acontecer
entre dois grupos, aqueles com a variável de interesse presente contra aqueles com a
ausência da variável (Fletcher, R.; Fletcher, S.; Fletcher, G., 2014, p. 94).
Tanto a estatística descritiva como a analítica, podem ser apresentadas em forma de texto,
tabelas ou em gráficos. A decisão de qual meio apresentar depende do destaque que se
deseja ter no resultado, a importância de detalhar mais as informações e a aparência visual.
2.1 GRÁFICOS
Os gráficos são representações visuais que transmitem a informação de forma visual.
Muitas pessoas acham que essa é a forma mais agradável de fazer uma comparação
e análise dos dados, uma vez que ajudam a visualizar a distribuição das observações.
Todos os gráficos devem apresentar legenda, título e escala. Deve ser possível com-
preender as informações descritas nele sem precisar realizar a leitura do texto auxiliar
(Vieira, 2016, p. 18).
60
Os gráficos de barras são utilizados para resumir a frequência para categoria da va-
riável. Podem ser de frequência absoluta (contagem de pessoas que deram aquela
resposta) ou frequência relativa (proporção de pessoas que deram a resposta). Eles
podem ter barras horizontais ou verticais, que serão definidas pelas características dos 4
dados e da variável. É possível ser com apenas uma variável ou pode mostrar a distri-
buição entre duas variáveis qualitativas (Figura 1).
Técnico(a) de enfermagem
Psicólogo(a)
Médico(a)
Fisioterapeuta
Farmacêutico(a)
O gráfico de setores (figura 2), conhecido também como de “pizza”, é bem tradicional e
de fácil compreensão. Normalmente, é utilizado em apresentações e pôster. Não é reco-
mendado para artigos científicos, quando há restrição do número de imagens e as infor-
mações podem ser descritas em forma de texto sem prejudicar a compreensão do leitor.
Bioestatística 61
Apresentação de dados
Figura 02. Exemplo de gráfico de pizza com a frequência absoluta para descrever uma variável
13
73
Auxiliar em saúde bucal
118 Farmacêutico(a)
Fisioterapeuta
Médico(a)
Psicólogo(a)
Técnico(a) de enfermagem
Técnico(a) em nutrição e dietética
64
22
39 14
62
Figura 03. Exemplo de gráfico de dispersão dos dados (azul) com regressão linear simples
10
8
Nota
3
35 45 55 65 75 85 95
Tempo
Os gráficos podem ter uma linha estimada a partir dos dados encontrados. Essa linha é o
resultado do teste estatístico de regressão, a qual pode ser linear ou logística. Os pontos
dessa reta ou curva é uma previsão. No exemplo da Figura 3 seria possível, a partir da
regressão, prever qual seria a nota do aluno somente pelo tempo de realização da prova.
Quando a reta da regressão linear está “subindo”, pode-se concluir que existe uma
correlação positiva entre as variáveis, ou seja, quando uma aumenta a outra aumenta
também. Quando a reta está “descendo” a correlação é negativa, ou seja, as variáveis
são inversamente proporcionais – quando uma aumenta a outra diminui. Quanto mais
inclinada a reta, maior a intensidade da correlação. Quando a reta da regressão está
próxima do sentido horizontal, a correlação é nula (Vieira, 2016, p. 57).
Um outro gráfico possível é o diagrama de caixa (em inglês boxplot). Ele é muito bom para
descrever visualmente a dispersão de uma variável quantitativa. A figura 4 detalha o que
significa cada parte do gráfico e nos ajuda a interpretá-lo. Lembrando que quartil são os
pontos de corte que dividem o conjunto de dados em quatro partes iguais, portanto, do
valor mínimo até o primeiro quartil estão 25% das observações e assim por diante.
Bioestatística 63
Apresentação de dados
4 Valor máximo
25%
3º quartil
25%
2º quartil
25%
1º quartil
25%
Valor mínimo
Conforme a distância das linhas dos pontos de corte é possível saber se os valores estão
dispersos ou concentrados. Existem gráficos que apresentam diversos diagramas de caixa,
cada um representando uma categoria. A figura 5 é um exemplo desse tipo de gráfico em que
se consegue visualmente comparar a distribuição dos dados e diversas categorias (anos).
100
80
60
Percentual
40
20
0
1995 1996 1997 1998 1999 2000 2001 2002
64
OBS: O boxplot presenta os valores mínimo, máximo e os percentis 25, 50 (mediana) e 75 do
percentual de casos diagnosticados em estádio inicial por ano.
Figura 06. Exemplo de histograma com a frequência absoluta para descrever uma variável
50
40
30
20
10
0
4,00 4,38 4,75 5,13 5,50 5,88 6,25 6,63 7,00 7,38 7,75 8,13 8,50 8,88 9,25 9,63 10,00
2.2 TABELAS
Uma tabela permite ao leitor uma melhor aplicabilidade já que disponibiliza um maior
número de informação e permite que o leitor faça sua interpretação. A estatística des-
critiva pode ser apresentada em tabela com as frequências absoluta e relativa e com as
medidas de tendência central e as de dispersão. A Tabela 1 exemplifica isso ao compa-
rar os grupos caso e controle.
Bioestatística 65
Apresentação de dados
Tabela 01. Resultado da estatística descritiva dos grupos da pesquisa (caso e controle) por meio de frequ-
ência absoluta e relativa ou média e desvio padrão
Escolaridade
Ocupação
Na tabela 1 é possível ver que as medidas qualitativas foram descritas usando frequ-
ência absoluta e relativa, enquanto a variável quantitativa a descrição foi por média e
desvio padrão. Essas informações estão no título e por isso deve estar claro. Caso não
estivesse no título é possível que a informação [±5,4] pudesse ser o intervalo de con-
fiança e não o desvio padrão da amostra.
Junto com os títulos de cada coluna há a informação no número referente ao “N”. “N”
significa o total amostral, seja total ou em subgrupos. Então se percebe que o grupo
controle tem o dobro de sujeito de pesquisa do que o grupo caso.
66
A tabela abaixo mostra os resultados com o p-valor das análises bivariadas e risco rela-
tivo com intervalo de confiança de 95% (IC95%).
Tabela 02. Exemplo de tabela de resultado com estatística analítica de um estudo coorte que avalia a 4
associação das causas de internação e o risco de desenvolver sepse
Pneumonia
Apendicectomia
Uma estratégia para interpretar uma tabela que tem muita informação com colunas
que têm conteúdos diferentes, é olhar para pequenos setores da tabela. Vamos fazer
essa estratégia com a Tabela 2. No título percebe-se que a tabela irá demonstrar as
possíveis associações entre causas de internação com o risco de sepse, ou seja, nesse
estudo as causas de internação são a exposição investigada e a presença de sepse e
o desfecho investigado. A primeira coluna encontra-se a lista de causas de internação
que tem como possibilidade de resposta presença ou ausência dessa causa. As causas
estão alinhadas a esquerda enquanto as possibilidades de resposta a direita.
Ao montar a tabela com a primeira coluna com várias variáveis, é como estivéssemos
criando subgrupos de comparação dos dados. Então as estatísticas analíticas irão olhar
separadamente para cada grupo de causa de internação. Por isso, vamos focar agora
somente nas linhas de pneumonia presente e ausente. A interpretação que fizemos para
pneumonia depois deve ser repetida com as outras variáveis listadas na primeira coluna.
As duas últimas colunas da tabela 2 falam de análise estatística. A coluna “Risco Relati-
vo (IC 95%)” mostra o risco relativo da comparação em ter pneumonia aumenta, diminui
ou não influência em ter sepse. Além da estimativa do RR na amostra, na coluna há o
seu intervalo de confiança de 95%. O termo “Ref” observado na linha ausente define
Bioestatística 67
Apresentação de dados
que não ter pneumonia é característica de referência na comparação, por isso que
se sabe que a avaliação de risco de desenvolver sepse é entre ter pneumonia contra
não ter. A coluna do “p-valor” mostra com é o resultado do teste de hipótese da análi-
4 se entre as variáveis pneumonia e sepse. Na tabela 2 não está determinado qual foi
o tipo de teste realizado, mas o ideal é que esteja claro no título ou na legenda quais
foram os testes feitos.
Agora que dá para entender todas as informações disponíveis na tabela 2, vamos para
a interpretação do que está posto. Avaliando o Risco relativo, ele é maior do que 1,0 e
todos os valores dentro do intervalo de confiança são maiores do que 1. Então, pode-se
concluir que ter como causa de internação pneumonia aumenta o risco do paciente de-
senvolver sepse. Ao avaliar o p-valor, esse é menor do que 0,05, o que leva à conclusão
de que existe associação entre as duas variáveis.
3. USO DE SOFTWARES
Ao realizar a análise dos dados, utilizam-se softwares de tabulação e de análise esta-
tística que facilitam o processo. É importante sempre mencionar na seção métodos do
trabalho qual software foi utilizado e sua versão.
Tanto o Excel como o Google Planilhas trabalham com células que são as casas da ta-
bela. Elas são nomeadas pela coluna e linha em que estão. Exemplo: a célula que está
na segunda coluna (coluna B) e na terceira linha (linha 3) tem o nome de B3. A Tabela 3
representa uma tabulação de um conjunto de dados de seis pessoas. O valor referente
à célula B3 seria 2,3, que é a nota que a aluna M.C.M tirou na prova.
A B
1 INICIAIS DO NOME NOTA
2 V.L.M 8,1
3 M.C.M 2,3
4 G.F.M.M. 1,6
5 D.C.C.G 7,4
6 J.M.R. 9,0
7 S.E. 10
68
Nesses softwares, é possível inserir comandos que realizam operações matemáticas
ou funções que fazem o cálculo mais facilmente. Para que o software realize qualquer
função ou conta é preciso iniciar digitando o sinal “=”, assim o programa sabe que ou
uma operação matemática ou uma função deve ser realizada. A Tabela 4 mostra alguns 4
comandos e funções que eles podem realizar. Para saber mais informações, busque na
aba fórmulas de cada software.
RESULTADO DA
AÇÃO COMANDO
OPERAÇÃO
SAIBA MAIS
O software R é livre e aberto para download. Ele foi inicialmente desenvolvido na University
of Auckland, e atualmente é mantido por um esforço colaborativo com uma equipe central.
O software SPSS é da IBM. Ele é pago e com uma interface agradável de utilizar.
O software BioStat é uma opção de programa nacional de livre acesso que é mantido pelo
Instituto de Desenvolvimento Sustentável Mamirauá. Ele é simples de utilizar e é em português.
Bioestatística 69
Apresentação de dados
EXEMPLO
Uma pesquisa avalia características de um grupo de 69 alunos que realizaram uma prova.
Uma das análises a ser testada é se o tempo que cada aluno ficou na prova influencia na nota
que ele tirou. Vamos considerar um nível de significância de 95%, a variável tempo de prova
é qualitativa com duas categorias: quem demorou menos ou mais do que uma hora e que a
variável nota é quantitativa com tem distribuição normal.
Na Figura 7, há o teste estatístico para responder essa hipótese em que a análise foi feita no
software R. Em azul há o comando para se realizar um teste t comparando as médias das
notas de dois grupos, os que fizeram a prova em um tempo menor que uma hora e os que
fizeram em um tempo maior. O resultado é o p-valor (na Figura, p-value) de 0,04233, o que
significa que a proporção de se ter errado um erro tipo I é baixa, então, deve-se aceitar a
hipótese alternativa, que é dizer que existe uma diferença entre as médias de notas dos dois
grupos. Nas últimas linhas da Figura 5 está a média (na Figura, mean que significa média em
inglês) de notas nos dois grupos. O grupo x é o primeiro mencionado (quem demorou menos
tempo), e tem média de 8,18. O grupo y que é o que demorou mais tempo, tem média de 9,0.
70
CONCLUSÃO
Como profissionais de saúde, é nosso papel atuar baseado em evidências. Mas não se
deve acreditar em qualquer evidência – precisa ser científica, com métodos definidos 4
e análises estatísticas, além disso, a pesquisa precisa ser transparente e sem conflitos
de interesse. Para tanto é preciso avaliar o quanto se confia nas informações disponi-
bilizadas. Analisar a qualidade da pesquisa vai além de onde a pesquisa foi publicada
Bioestatística 71
Apresentação de dados
REFERÊNCIAS BIBLIOGRÁFICAS
ALMEIDA FILHO, N.; BARRETO, M. L. Epidemiologia & Saúde: Fundamentos, Métodos e Aplicações. Rio
de Janeiro: Guanabara Koogan, 2011.
4
FLETCHER, R. H.; FLETCHER, S. W.; FLETCHER, G. S. Epidemiologia clínica: elementos essenciais. 5.
ed. Porto Alegre: ArtMed, 2014.
ROUQUAYROL, M. Z.; GURGEL, M. Rouquayrol: epidemiologia & saúde. 8. ed. Rio de Janeiro: Medbook,
2018. 752 p.
THULER, L. C. S.; MENDONÇA, G. A. Estadiamento inicial dos casos de câncer de mama e colo do útero em
mulheres brasileiras. Revista Brasileira de Ginecologia e Obstetrícia, [s. l.], v. 27, n. 11, p. 656-660, 2005.
Disponível em: https://doi.org/10.1590/S0100-72032005001100004. Acesso em: 18 fev. 2024.
72
Bioestatística
73
4