Você está na página 1de 74

BIOESTATÍSTICA

RENATA CRISTOFANI MARTINS


BIOESTATÍSTICA
Renata Cristofani Martins

2024
CASA NOSSA SENHORA DA PAZ – AÇÃO SOCIAL FRANCISCANA, PROVÍNCIA
FRANCISCANA DA IMACULADA CONCEIÇÃO DO BRASIL –
ORDEM DOS FRADES MENORES

PRESIDENTE
Frei Thiago Alexandre Hayakawa, OFM
DIRETOR GERAL
Jorge Apóstolos Siarcos
REITOR
Frei Gilberto Gonçalves Garcia, OFM
VICE-REITOR
Frei Thiago Alexandre Hayakawa, OFM
PRÓ-REITOR DE ADMINISTRAÇÃO E PLANEJAMENTO
Adriel de Moura Cabral
PRÓ-REITOR DE ENSINO, PESQUISA E EXTENSÃO
Dilnei Giseli Lorenzi
COORDENADOR DO NÚCLEO DE EDUCAÇÃO A DISTÂNCIA - NEAD
Franklin Portela Correia
CENTRO DE INOVAÇÃO E SOLUÇÕES EDUCACIONAIS - CISE
Franklin Portela Correia

PROJETO GRÁFICO
Centro de Inovação e Soluções Educacionais - CISE
CAPA
Centro de Inovação e Soluções Educacionais - CISE
DIAGRAMADORES
Daniel Landucci

© 2024 Universidade São Francisco


Avenida São Francisco de Assis, 218
CEP 12916-900 – Bragança Paulista/SP
O AUTOR

RENATA CRISTOFANI MARTINS


Possui graduação e Bacharel em Enfermagem pela Escola de Enfermagem da Univer-
sidade de São Paulo (2005), Licenciatura Plena em Enfermagem pela Faculdade de
Educação da Universidade de São Paulo (2010), mestrado e doutorado pelo Programa
de Saúde Pública da Faculdade de Saúde Pública Universidade de São Paulo (2012 e
2017). Atualmente é professora universitária na Universidade São Francisco da disci-
plina de Bioestatística aplicada à saúde em vários cursos. Tem experiência na área de
Saúde Coletiva, Epidemiologia, e dados de mortalidade.
SUMÁRIO

UNIDADE 01: INTRODUÇÃO A BIOESTATÍSTICA................................................6

1. Definição de bioestatística................................................................................... 6

2. Introdução a pesquisa.......................................................................................... 6

3. Método de pesquisa ............................................................................................ 8

4. Coleta de dados................................................................................................... 13

UNIDADE 02: DESCRIÇÃO DE DADOS E NORMALIDADE.................................22

1. Resultados........................................................................................................... 22

2. Probabilidade....................................................................................................... 32

3. Distribuição normal............................................................................................... 35

4. Anormalidades...................................................................................................... 39

UNIDADE 03: ANÁLISE ESTATÍSTICA...................................................................44

1. Análise estatística................................................................................................. 44

UNIDADE 04: APRESENTAÇÃO DE DADOS.........................................................58

1. Análise estatística................................................................................................. 58

2. Apresentação dos resultados............................................................................... 60

3. Uso de softwares.................................................................................................. 68
Introdução a Bioestatística UNIDADE 1

INTRODUÇÃO A BIOESTATÍSTICA
1

INTRODUÇÃO
Muitas pessoas, mesmo sem saber, já usaram fundamentos e partes da estatística em
seu dia a dia. Ao organizar uma festa, por exemplo, usamos o conceito de estatística
para preparar a lista de compras de comida. Se no churrasco teremos 20 convidados
e, conforme as informações encontradas na internet, em média, o consumo de carne
por pessoa é 100g, comprar 2kg de carne será suficiente para o evento? Saber o sexo
e a idade dos convidados influencia na minha compra? Será que posso confiar na in-
formação que eu encontrei na internet? Para responder essas perguntas, utilizaremos
conceitos de estatística.

1. DEFINIÇÃO DE BIOESTATÍSTICA
Contar, medir, comparar e resumir informações são ações que estão presentes no co-
tidiano de todas as pessoas, independentemente da profissão. No entanto, a forma
com que esses processos são realizados influencia na qualidade da informação obtida.
A mídia divulga que um em cada cinco brasileiros terão hipertensão arterial sistêmica,
mas saber que essa informação foi obtida em uma pesquisa com 50 indígenas do Ama-
zonas ou em uma população com 2.500 pessoas de todos os estados do Brasil mudaria
o quanto você confia na informação?

A estatística não se resume a números e cálculos, ela considera todo o processo, des-
de o modo em que os dados são coletados e analisados até a forma com que eles são
interpretados e divulgados. Em outros termos, “estatística é a ciência que fornece os
princípios e os métodos para coleta, organização, resumo, análise e interpretação de
informações” (Vieira, 2016, p. 1).

2. INTRODUÇÃO A PESQUISA
Antes de entrarmos nos conceitos de bioestatística, é preciso primeiro entender o que
é uma pesquisa científica. A pesquisa científica é um processo sistemático de investi-
gação que busca responder a questões específicas por meio da coleta e análise de da-
dos. Ela segue métodos rigorosos e utiliza abordagens científicas para obter resultados
confiáveis e válidos.

Quais são as etapas básicas de uma pesquisa? As informações básicas de como estru-
turar uma pesquisa influencia em como avaliar a qualidade e a confiabilidade dela. As
etapas iniciais do planejamento da pesquisa podem parecer simples, mas na verdade
elas são a base fundamental para o sucesso final da pesquisa.

6
Esse processo se inicia com a escolha de um tema que se pretende estudar. As pesqui-
sas de base, como investigar característica de uma estrutura química de um nutriente,
são tão importantes quanto as de aplicação como avaliar a eficácia de um novo trata-
mento. Conversar com pessoas que atuam com o tema ou escolher um assunto que 1
você observe no cotidiano do seu trabalho pode ajudar a definir quais são assuntos
interessantes de serem pesquisados. Outro fator necessário é buscar na literatura o
que já foi publicado sobre o tema escolhido. A partir disso, deve-se buscar lacunas no

Universidade São Francisco


conhecimento e assim especificar e delimitar o que se pretende estudar sobre o grande
tema. (Bell, 2008, p.31-34)

Essa etapa de refinamento e reflexão, de qual parte estudar, tem como finalidade definir
a questão da pesquisa, a hipótese e os objetivos que espera-se alcançar ao final. Uma
boa pergunta de pesquisa deve ser específica quanto ao tempo, espaço, população e
contexto. Com suas características deve ser possível reproduzir a pesquisa. É reco-
mendado que o assunto tenha algum aspecto novo, mesmo que seja ver se os resulta-
dos encontrados em outros locais também acontecem no Brasil ou no serviço que você
trabalha. Um exemplo de pergunta é “Qual é o impacto do consumo de produtos à base
de soja na eficácia da reposição hormonal em mulheres brasileira na pós-menopausa,
em termos de alívio dos sintomas vasomotores, saúde óssea e perfil lipídico?”.

Durante todo o tempo de realização da pesquisa deve-se lembrar qual é a questão nor-
teadora e refletir se as ações realizadas e os dados coletados irão ajudar a responder à
pergunta e confirmar a hipótese. Como as informações são coletas, será que influencia
na capacidade da pesquisa de atingir seus objetivos?

É importante ter um equilíbrio entre coletar pouca informação e depois não conseguir
fazer algumas análises ou coletar muito dado e acabar só utilizando metade das
informações coletadas. Quanto mais se estuda sobre o tema, mais fácil fica a decisão
de o quê, como, quando e onde coletar. Essas decisões impactam no sucesso da
pesquisa. Usando como referência os acertos, erros e resultados das outras pesquisas,
o pesquisador consegue decidir o que é essencial coletar

EXEMPLO 1
Se o objetivo é avaliar a associação de entre uma exposição com um desfecho, como tomar
vacina e ter um efeito adverso grave, quais variáveis devem ser coletadas?

Inicialmente pode-se pensar em somente coletar duas informações: quem é tomou a vacina
ou placebo e quem foi hospitalizado ou faleceu dentro de 5 dias após a vacina. Mas não deta-
lhar as informações sobre as características das pessoas ou coletar outros dados que podem
contribuir com uma internação ou óbito podem atrapalhar na interpretação dos resultados.

Como fazer a coleta das informações individuais, por questionário com os sujeitos da pes-
quisa ou a partir de revisão de prontuário? Qual método será mais confiável de que os dados
coletados são verdadeiros e os mais fiéis possíveis?

Bioestatística 7
Introdução a Bioestatística

3. MÉTODO DE PESQUISA
Uma pesquisa tem várias etapas, logo, ao desenvolver o método que será utilizado na
1 coleta e análise dos dados devemos realizar diversas escolhas. Essas decisões devem
ser feitas com o objetivo de melhorar a qualidade da pesquisa, mas, como nem sempre
isso é possível, o pesquisador pode ser obrigado a escolher a opção mais viável e não
a mais adequada.

IMPORTANTE
Para ajudar na decisão do pesquisador é importante saber as vantagens e desvantagens de
cada possibilidade. Assim, ter o conhecimento de quais são

os possíveis vieses que podem acontecer são conhecimentos essenciais para desenhar o
estudo de maneira a contornar as dificuldades.

3.1 AMOSTRAGEM
Uma das primeiras etapas ao realizar ou avaliar uma pesquisa é preciso decidir quem
serão os participantes. Por exemplo, considere que você deseja realizar uma pesquisa
sobre a frequência do uso de drogas, lícitas e ilícitas, nos universitários que moram
no Brasil. Pela facilidade de acesso, aplica-se um questionário com os estudantes da
Universidade São Francisco (USF) que estão cursando o componente curricular de Bio-
estatística e Epidemiologia. Nesse contexto, realizar a coleta de dados dessa maneira
trará resultados confiáveis e compatíveis com o objetivo da pesquisa?

Na pesquisa, considera-se população o Figura 01. Amostragem


grupo de pessoas que tem a característi-

Fonte: 123RF.
ca que desejamos estudar, já a amostra é
composta pelos indivíduos que foram se-
lecionados para a pesquisa (Vieira, 2016,
p. 91). No exemplo da pesquisa sobre
drogas, a população é: todos os univer-
sitários que moram no Brasil e a amostra
é: todos os alunos que responderam ao
questionário. Uma amostra pode ser ade-
quada se for capaz de fornecer resultados
similares aos que existem na população.

Na maioria dos casos, usa-se uma amostra principalmente pela economia do tempo
e custo. Não é viável fazer exame laboratorial em todos os moradores da cidade para
saber a proporção de munícipes que tem alguma doença. Segundo Vieira (2016, p.
92-93), as pesquisas que realizam levantamento de dados de toda a população são
chamadas de censo e não precisam de amostragem.

8
Outro motivo para usar amostras é em casos em que não é possível estudar toda a po-
pulação. Por exemplo, você deixou uma embalagem de leite aberta a noite inteira fora
da geladeira e, agora, precisa saber se o leite já estragou. Se a análise da qualidade for
feita com todo o conteúdo do pacote, mesmo que o resultado seja que é possível consu- 1
mir o leite, não seria possível realizar isso já que todo o produto foi totalmente utilizado
no teste. Nesse caso, é obrigatório o uso de uma amostra de pequena quantidade do
produto para que, se possível, utilizar o restante.

Universidade São Francisco


O uso de amostra tem um valor científico impactante, pois ao usar menos sujeitos, é
possível coletar dados mais completos. Se a amostragem foi realizada corretamente, os
valores reais que devemos encontrar na população estarão dentro de uma margem de
erro do valor encontrado na amostra (Vieira, 2016, p. 93-94).

IMPORTANTE
As características das pessoas da amostra impactam na qualidade do resultado. Por isso, as
descrições dos sujeitos da pesquisa e de todas as etapas de seleção desses indivíduos são
essenciais para avaliar a qualidade dos resultados.

Métodos amostrais
É possível obter uma amostra por diversos métodos. Assim, escolher qual método uti-
lizar é uma decisão dos pesquisadores a partir de suas características, vantagens e
desvantagens. Logo, é de extrema importância que o método seja seguido exatamente
como definido e que sua descrição permita que ele seja reproduzido. Nesse sentido,
muitas pessoas comparam os métodos de uma pesquisa com uma receita culinária, em
que é preciso deixar claro todas as etapas para que outros consigam realizar e chegar
no mesmo resultado.

Uma amostra probabilística ou aleatória é quando a seleção dos sujeitos de pesqui-


sa é feita ao acaso. Na prática, isso significa que a seleção foi feita por sorteio. Nessa
técnica, um princípio importante é que todos os indivíduos da população têm a mesma
probabilidade conhecida de participarem da amostra. Para que ela possa ser executada
é necessário conhecer e identificar toda a população.

EXEMPLO 2
Considere uma pesquisa da cidade de Votorantim (SP), com o objetivo de investigar quais
são as medicações que os residentes com diabetes mellitus usam. Nesse caso, a população
se trata dos diabéticos que moram na cidade. Seria possível ter conhecimento de quem são
todos indivíduos da população antes de realizar o sorteio? Ainda não temos um cadastro obri-
gatório e único com informações de saúde da população, independentemente de as pessoas
serem ou não usuárias do Sistema Único de Saúde (SUS). Por não ser possível listar todos
os diabéticos da cidade, não é possível obter uma amostra aleatória para essa pesquisa.

Bioestatística 9
Introdução a Bioestatística

A amostra pode ser aleatória simples quando o sorteio acontece a partir de toda a popula-
ção. Esse método é utilizado quando a população é homogênea e não existem caracterís-
ticas individuais que irão atrapalhar a análise dos dados. Porém, há casos em que alguns
1 subgrupos podem ter características diferentes que influenciam nos dados coletados.

No caso da realização de uma avaliação, de modo específico, sobre a disciplina Estu-


do do Ser Humano Contemporâneo da USF, por exemplo, pode-se considerar que os
estudantes terão avaliações similares independente do curso ou área de conhecimento
que cursam? Nesse contexto, podemos supor que os alunos da área de humanas de-
vem gostar mais da disciplina do que os alunos de exatas, portanto, a população não
é homogênea. Em casos como o descrito anteriormente, a amostra pode ser aleatória
estratificada. Esse método é usado quando a população tem subgrupos (estratos) que
podem ter comportamentos diferentes.

Para selecionar a amostra, deve-se dividir a população nos subgrupos e sortear os


sujeitos em cada estrato, desse modo, podemos garantir a representação de cada sub-
grupo. Em geral, os estratos são sexo, idade e/ou classe social, mas eles podem ser
divididos conforme as características da população. A distribuição do número de partici-
pantes da pesquisa em cada extrato deve ser proporcional a distribuição dos subgrupos
na população. Se a população é distribuída com 30% sexo masculino e 70% feminino,
uma amostra estratificada de 10 indivíduos deve selecionar 7 mulheres e 3 homens.

EXEMPLO 3
Considere uma pesquisa com o objetivo de avaliar a proporção de pessoas com depressão
entre os estudantes matriculados na Universidade São Francisco. Entre 10.350 estudan-
tes, 33% são bolsistas. Para obter resultados significativos será necessária uma amostra
com 75 pessoas.

Uma amostra aleatória simples seria obtida a partir do sorteio de 75 pessoas entre os 10.350
estudantes. Já uma amostra aleatória estratificada seria obtida dividindo a população entre
bolsistas e pagantes, depois sorteando 50 pessoas entre os pagantes e 25 entre os bolsistas
para manter a proporção com a população.

Uma amostra semiprobabilística tem parte do processo de seleção com uma aborda-
gem aleatória. A amostra sistemática tem regras pré-estabelecidas que devem ser
seguidas de forma sistemática. A parte aleatória acontece por meio de um sorteio que
indica o valor que deve ser sorteado e repetido, inclusive, de forma sistemática. Para
utilização desse método, é necessário que a população esteja distribuída em ordem e,
por isso, esse é um método comum para seleção de prontuários.

A primeira etapa é dividir a população em grupos, em que o número de grupos deve


ser igual ao número de indivíduos na amostra. A segunda etapa se trata de sortear um
número dentro de uma faixa de valor que é definida pelo número de pessoas em cada
grupo. Após o sorteio, deve-se selecionar a pessoa que ocupa a posição sorteada em
cada grupo. Se a população é de 250 pessoas e se deseja uma amostra de 10 indiví-

10
duos, a amostra sistemática será a seleção da sétima pessoa de cada um dos vinte e
cinco grupos considerando que o sorteio de 1 a 25 deu 7.

A amostra por conglomerados seleciona grupos de pessoas definidos por algum moti-
1
vo que são encontrados na população, como um município, uma clínica ou uma escola.
Nesse caso, o sorteio não é dos sujeitos e sim dos conglomerados. Para utilização
desse método, o pesquisador deve ter acesso a todos os conglomerados possíveis, ou

Universidade São Francisco


o pesquisador corre o risco de ter uma amostra que não tem acesso. A vantagem desse
método amostral é concentrar a coleta em menos locais. Em vez de sortear entre todas
as internações do município e correr o risco de ter que coletar dados em múltiplos hos-
pitais, com esse método é possível sortear o conglomerado e realizar a pesquisa em um
único local. Uma condição importante para realizar a amostragem por esse método é
que a população deve ser igual em todos os locais ou corre-se o risco de selecionar um
hospital que só interna casos graves e prejudicar a qualidade da amostra.

Em alguns casos, mais de um método amostral é utilizado. Isso acontece frequente-


mente quando o primeiro método é por conglomerado, pois, dentro de um conglome-
rado pode ter uma quantidade maior do que a necessária. Então, utiliza-se de outro
método para uma seleção dos indivíduos dentro do conglomerado selecionado.

A amostra por cotas seleciona com o objetivo de garantir representatividade e propor-


ção igual à população. A lógica desse método é similar a cotas de vagas para acesso
aos processos seletivos. A amostra é dividida garantindo vagas para pessoas com ca-
racterísticas diferentes, em que os grupos de cotas são similares aos estratos, frequen-
temente divididos por sexo, idade e/ou classe social. O preenchimento das vagas é por
acesso, desse modo, não existe sorteio nesse método. É comum que o entrevistador
fique em locais de alto movimento para tentar encontrar pessoas que preencham as
características das cotas. Essa é uma estratégia muito utilizada em razão de sua prati-
cidade e baixo custo.

EXEMPLO 4
Considere uma pesquisa com o objetivo de avaliar a proporção de pessoas com depressão entre
os estudantes matriculados na Universidade São Francisco. Entre 10.350 estudantes, 33% são
bolsistas. Para obter resultados significativos será necessária uma amostra com 75 pessoas.

Uma amostra sistemática seria obtida sorteando um número de 1 a 138 (considere que o resulta-
do foi o número 84). A amostra será a octogésima quarta pessoa de cada grupo de 138 pessoas.

Já uma amostra por conglomerados seria obtida sorteando uma sala de aula e os participan-
tes da pesquisa seriam quem assiste aula nesse local.

Uma amostra por cotas teria 50 vagas para pagantes e 25 vagas para bolsistas. Para realizar
a pesquisa, o pesquisador poderia ficar na entrada principal da universidade e perguntar para
cada aluno se eles eram bolsistas ou pagantes. As primeiras pessoas que preenchessem os
critérios seriam selecionadas.

Bioestatística 11
Introdução a Bioestatística

A amostra de conveniência ou não probabilística é composta por pessoas que o


pesquisador tem fácil acesso. Nesse método, não existe sorteio ou alguma etapa que
garanta aleatoriedade e representatividade da população. Ele é similar ao método
1 amostral por cotas, em que a diferença é que, por conveniência, não há os grupos de
características específicas. Essa é uma das estratégias mais utilizadas por ser muito
prática e barata. Em geral, os profissionais que desenvolvem pesquisa usam esse mé-
todo ao fazerem a pesquisa somente com os seus pacientes.

Pessoas leigas podem explicar esse método descrevendo que a seleção das pessoas
ocorreu ao acaso, conforme encontravam as pessoas na rua. Para estatística, o termo
acaso está relacionado à aleatoriedade de um evento acontecer e não a ausência de
método de coleta.

EXEMPLO 5
Considere uma pesquisa com o objetivo de avaliar a proporção de pessoas com depressão entre
os estudantes matriculados na Universidade São Francisco. Entre 10.350 estudantes, 33% são
bolsistas. Para obter resultados significativos será necessária uma amostra com 75 pessoas.

Uma amostra de conveniência seria obtida distribuindo o questionário on-line para todos os
estudantes por meio de grupos de redes sociais.

Tamanho da amostra
A vantagem da amostra é não precisar avaliar a população inteira. Entretanto, o tama-
nho da amostra tem que ser pequeno para otimizar tempo e recursos, mas grande o su-
ficiente para ter significância estatística. Quanto maior o tamanho da amostra, maiores
as chances dos valores encontrados (estimativas) a serem próximos aos valores reais
encontrados na população (parâmetros). Para saber se um novo tratamento é eficaz,
não se pode avaliar somente 10 pessoas, é preciso de um número suficiente que con-
siga garantir que o que foi observado não é uma exceção.

Desse modo, para saber o tamanho ideal, existem cálculos que definem o número ideal
para a amostra ter significância e qualidade. De acordo com a situação, pode-se utilizar
fórmulas diferentes. Normalmente, os critérios que precisam ser definidos ao fazer o
cálculo são: margem de erro, nível de confiança e proporção na população.

3.2 INFERÊNCIA ESTATÍSTICA


Uma vez que se obtém os resultados é preciso avaliar a qualidade deles e o quanto é
possível usá-los para supor que é assim que eventos acontecem na população. O pri-
meiro ponto, portanto, é avaliar a validade interna, que define a grau que os resultados
representam a amostra. Um bom estudo sem vieses e erros sempre tem alta validade
interna. Por sua vez, a validade externa define o quanto o resultado pode representar
a população. Nesse sentido, chama-se de inferência estatística a ação de generalizar

12
os resultados da sua amostra para a população. Para fazer a inferência é necessário
avaliar as características da amostra e refletir se ela é representativa da população.

Uma amostra é tendenciosa quando suas características não são similares a população. Dessa
1
forma, toda amostra tendenciosa ocorre por viés de seleção. Uma pesquisa sobre uso de dro-
gas entre brasileiros teve uma amostra somente de alunos universitários. Com os dados obtidos
não é possível concluir que todos os brasileiros se comportam como na amostra. Portanto, para

Universidade São Francisco


utilizar os resultados da pesquisa para embasar sua conduta profissional, o estudo tem que ter
alta validade interna e externa. Ela não pode ter vieses e uma amostra tendenciosa.

PARA REFLETIR
Procure nos artigos científicos se os autores deixam claro o método amostral utilizado. Será que
descrever como foi feita a seleção facilita a avaliação de validade da pesquisa e da presença de
erros no método de coleta de dados?

4. COLETA DE DADOS
Uma parte importante para avaliar a qualidade da pesquisa é ter uma adequada coleta
dos dados. Qual informação coletar, como aferir e qual instrumento utilizar são defini-
ções importantes que um pesquisador deve fazer. Desse modo, toda escolha influencia
na qualidade dos resultados.

Ao desenhar uma pesquisa é preciso definir quais variáveis coletar e como conduzir
esse processo. As variáveis são as informações de interesse que a pesquisa pretende
estudar e suas características influenciam nas análises estatísticas que serão realiza-
das que, por sua vez, definem os resultados.

A classificação estatística das variáveis está esquematizada na Figura 3, em que as


variáveis qualitativas ou categóricas são expressadas por categorias mutualmente
excludentes. Por exemplo, sexo é uma variável qualitativa porque a reposta é por cate-
goria (masculino ou feminino) e só é possível ter uma resposta possível.

Figura 02. Tipos de variáveis

Variáveis

Qualitativas Quantitativas
ou Categórica ou Numérica

Nominal Ordinal Discreta Contínua

Fonte: elaborada pela autora.

Bioestatística 13
Introdução a Bioestatística

A variável qualitativa pode ser ordinal quando as categorias possuem uma ordem na-
tural. A ordenação é um consenso e não pode estar associada a juízo de valor pessoal.
Uma pesquisa de satisfação que tem toda pergunta estruturada com as possibilidades
1 de resposta: ruim, satisfatório e bom. Essa é uma variável qualitativa, pois as respostas
são categorias (ruim, satisfatório e bom) e é ordinal porque as respostas têm uma or-
denação de intensidade da satisfação. Um questionário fechado tem as possíveis res-
postas em ordem, mas isso não quer dizer que exista uma ordem natural nas respostas
para classificá-la como ordinal. Nesse contexto, podemos apresentar outros exemplos
como escolaridade (ensino infantil, fundamental, médio e superior) e tamanho do ede-
ma (1+, 2+, 3+, 4+).

A variável qualitativa pode ser nominal quando as categorias não têm uma distribuição
ordinal. Uma grande parte das variáveis são desse tipo. Na declaração de nascido vivo,
por exemplo, a variável tipo de parto é coletada com possibilidades de resposta: cesáreo,
vaginal e ignorado. Apesar das evidências científicas e do juízo de valor que parto vaginal
é melhor, a ordenação não é natural e, portanto, tipo de parto é uma variável qualitativa
nominal. Além desse, são outros exemplos de variável qualidade nominal: município de
residência ou droga ilícita utilizada (maconha, cocaína, crack, LSD, entre outras).

Ademais, algumas variáveis qualitativas nominais podem, também, ser dicotômicas.


Isto é, quando só há duas respostas possíveis e que elas são excludentes, por exemplo:
faz uso de tabaco (sim/não), presença ou ausência de pressão alta. Normalmente, as
respostas desse tipo de variáveis são sim e não.

As variáveis quantitativas ou numéricas são expressas por números com intervalos


entre os valores iguais, por exemplo, peso e altura. Por sua vez, o grau de estadia-
mento, apesar de ter respostas numéricas (estadiamento I, II, III e IV), não é uma va-
riável quantitativa, porque os intervalos entre os graus não são conhecidos. Por outro
lado, a variável peso é quantitativa já que o intervalo entre as possibilidades de res-
postas é conhecido. A diferença entre pesar 74, 75 ou 76 kg é sempre 1kg que pode
ser aferido em uma balança.

As variáveis quantitativas podem ser discretas quando as respostas são valores ou


uma faixa de valores possíveis. Geralmente, essas respostas apresentam números in-
teiros e resultados de uma contagem. Por exemplo, número de partos é uma variável
quantitativa, em que o resultado é numérico, e é discreta, porque a pessoa contou quan-
tos partos teve e não se pode ter metade de um parto.

Por fim, a variável quantitativa contínua pode ter números decimais e resultados são
obtidos por aferição. O peso de cada sujeito da pesquisa é aferido em uma balança
e tem a possibilidade de um resultado decimal, 75,1 kg. Dessa forma, todo exame la-
boratorial de análises clínicas é variável quantitativa contínua, pois os resultados são
sempre uma proporção.

14
EXEMPLO 6
Para classificar uma variável normalmente devemos responder uma sequência de questões que 1
nos ajudam a decidir qual caminho seguir da Figura 3.

1) As respostas da questão de coleta de dados da variável são em formato de texto ou são núme-

Universidade São Francisco


ros? Na grande maioria dos casos as variáveis qualitativas têm respostas em texto enquanto as
quantitativas têm respostas com números.

Caso seja uma variável qualitativa

2) As respostas da questão de coleta de dados têm uma ordem definida de intensidade ou de


grandeza? Se a resposta for sim provavelmente a variável é ordinal e se for não será nominal.

Caso seja uma variável quantitativa

2) As respostas da questão de coleta de dados são resultado de contagens e só podem ter núme-
ros inteiros? Se a resposta for sim provavelmente a variável é discreta. Se a resposta for não, ou
seja, a há uma aferição e pode ter número decimais, a variável será contínua.

Como classificar a variável antecedente familiar que terá seus dados coletados perguntando para
o paciente se algum parente já teve câncer de mama.

1) As respostas da questão de coleta de dados da variável são em formato de texto ou são


números?

Nesse caso as respostas possíveis para a questão de coleta de dado são não, sim (mãe ou irmã),
sim (tia ou avó). Essas respostas são em texto, portanto a variável é qualitativa.

2) As respostas da questão de coleta de dados têm uma ordem definida de intensidade ou de


grandeza?

Nesse caso a resposta é não, portanto é uma variável nominal.

Então a variável antecedente familiar pode ser classificada como qualitativa nominal.

5. RESULTADOS
Falar que houve 10 casos de cárie dentária em crianças menores de 2 anos é muito ou
pouco? Se ao invés de usar o número de casos, o dado for expresso porcentagem, 2%
das crianças nessas faixas têm cárie influencia na sua análise? Há diversas maneiras
que os dados da pesquisa podem ser transmitidos ou resumidos. A escolha de como
divulgar os resultados influencia em como a pesquisa é interpretada.

Bioestatística 15
Introdução a Bioestatística

Os dados são os valores ou as respostas obtidas. A análise dos dados começa com
a estatística descritiva na qual a principal função é o resumo e a descrição das infor-
mações obtidas. As variáveis qualitativas são resumidas com frequência absoluta e
1 relativa de cada categoria de resposta. As variáveis quantitativas, normalmente, são
resumidas com medidas de tendência central e medidas de dispersão.

5.1 FREQUÊNCIA ABSOLUTA E RELATIVA


A frequência absoluta é a contagem dos casos de cada categoria da variável. Por
exemplo, na variável sexo, a frequência absoluta é de 18 pessoas do sexo masculino e
36 para o feminino. A frequência relativa é uma proporção resultante de uma divisão.
A frequência relativa pode ser apresentada por coeficientes, taxas, porcentagens e ín-
dices. Ao resumir os dados das variáveis qualitativas é comum expressar a frequência
relativa em porcentagem após a menção da frequência absoluta.

Fórmula de cálculo de frequência relativa por porcentagem:

frequencia absoluta
100 (1)
tamanho da amostra

EXEMPLO 7
Considere uma amostra de 540 pessoas, das quais 360 são fumantes e 180 não fumam. O cál-
culo da frequência relativa em porcentagem de pessoas que não são fumantes é:

frequencia absoluta
100 substituir a fórmula com os dados.
tamanho da amostra

180
100 fazer a divisão (180 ÷ 540).
540

0 3333 100 fazer a multiplicação =33,33%

Já para os fumantes, temos:

frequencia absoluta 360


100 100 0 6667 100 66 67%
tamanho da amostra 540

16
Os dois tipos de frequência podem ser apresentados ao longo do texto, conforme o
exemplo acima. Outra opção é descrever, no texto, usando o número absoluto se-
guido da porcentagem entre parênteses. Por exemplo, quanto ao sexo, 36 (66,67%)
eram do sexo feminino. 1
Além disso, há a possibilidade de realizar uma tabela de distribuição de frequência, em
que ela é organizada com três colunas. A primeira terá as possibilidades de respostas,

Universidade São Francisco


a segunda terá a frequência absoluta (às vezes abreviada como “N”) e a terceira terá a
frequência relativa (normalmente, abreviada com “%”). A primeira linha da tabela mostra
os títulos de cada coluna e a última linha é o Total, conforme a Tabela 1 a seguir.

Ao descrever variáveis quantitativas, a utilização da frequência para cada possibili-


dade de resposta pode não resumir os dados. A dificuldade em realizar uma frequência
simples é que dados quantitativos frequentemente têm diversas respostas, não agru-
pando os dados e resumindo as informações. Para esses casos, recomenda-se a utili-
zação de frequência agrupada, na qual criam-se agrupamentos de categorias de dados.

Quadro 01. Tabela de distribuição de frequência

FREQUÊNCIA FREQUÊNCIA
SEXO
ABSOLUTA (N) RELATIVA (%)

Feminino 36 66,67%

Masculino 18 33,33%

Total 54 100%

Fonte: elaborada pela autora.

Os agrupamentos de categorias de dados podem ser definidos a partir da distribuição


dos dados da amostra ou de critérios predefinidos. Assim, é comum para idade de
adultos distribuir em faixas de 20 a 29 anos ou de 30 a 39 anos. O intervalo de valo-
res deve ser igual em todas as faixas. Desse modo, é importante que as categorias
criadas tenham uma sequência que garanta que todo número esteja incluso em so-
mente uma única categoria. Por exemplo, se existem as categorias de 20 a 30 anos
e de 30 a 40 anos, um sujeito com 30 anos pode erroneamente ser incluído em duas
categorias. O exemplo a seguir mostra que a distribuição agrupada é mais adequada
para variáveis quantitativas.

Bioestatística 17
Introdução a Bioestatística

EXEMPLO 8

1 Uma pesquisa entrevistou 8 universitários com os dados descritos na tabela a seguir. Crie
uma tabela de distribuição simples e agrupada de frequência absoluta (N) e relativa (%) da
variedade idade.

Idade 20 21 57 40 23 20 21 21

Distribuição simples

Idade N %

1
2
20 2 100 0 25 100 25%
8

100 0 1225 100 12, 25%


3
21 3 100 0 375 100 37, 5%
8

8
1
23 1 100 0 1225 100 12, 25%
8

1
40 1 100 0 1225 100 12, 25%
8

1
57 1 100 0 1225 100 12, 25%
8

Total 8 100%

Distribuição agrupada

Idade N %

20 a 39 anos 6

40 a 59 anos 2

Total 8 100%

Observe o quanto a tabela de distribuição agrupada consegue descrever e resumir o conjunto


de dados de uma maneira melhor do que a distribuição simples.

18
No cotidiano das secretarias de saúde, os dados do número de casos das doenças
de notificações compulsórias são divulgados. Portanto, é importante que em qualquer
divulgação de dados seja utilizada frequência absoluta e relativa.
1
A frequência absoluta tem como principal função demonstrar o impacto que aquele
agravo, evento ou desfecho tem na sociedade. Outra aplicabilidade é que, a partir dos
números de casos, os serviços de saúde podem planejar atendimentos e possíveis de-

Universidade São Francisco


mandas. Sobre a pandemia de COVID-19, por exemplo, divulgar o número de mortes
diárias causou uma comoção entre os brasileiros e, também, fez com que os municípios
se preparassem para o suporte de estrutura e insumos que seriam necessários para os
atendimentos. Já a frequência relativa tem como principal função comparar.

O número de óbitos total por COVID-19 em 9 de fevereiro de 2021 nos Estados Unidos
da América (EUA) foi de 459.993 e no Reino Unido foi 112.798. Somente utilizando o
número absoluto de casos, o EUA parece estar pior na pandemia por causa do maior
número de casos. Agora, ao complementar as informações com a frequência relativa,
a comparação fica melhor. Com esse mesmo exemplo, a proporção de mortes por co-
vid-19 por 1 milhão de habitantes no Reino Unido é de 1.661,58 e nos Estados Unidos
da América é de 1.389,7. Por isso, cabe reforçar que para qualquer comparação é ne-
cessário usar alguma frequência relativa.

CONCLUSÃO
A bioestatística é uma ferramenta necessária para nos ajudar a como realizar a pesqui-
sa e estruturar o método de coleta. Ela nos ajuda a:

` Como selecionar a amostra a fim de impedir erros na seleção e com isso melho-
rar a confiabilidade nos resultados;

` Como resumir os dados coletados da pesquisa por frequência absoluta ou relati-


va, adequado principalmente para variáveis qualitativas.

Mesmo se não formos pesquisadores, a bioestatística nos ajuda a avaliar o método de


pesquisa e facilita a interpretação dos resultados.

Bioestatística 19
Introdução a Bioestatística

REFERÊNCIAS BIBLIOGRÁFICAS
BELL, J. Projeto de Pesquisa: guia para pesquisadores iniciantes em educação, saúde e ciências sociais.
4ed. Porto Alegre: Artmed, 2008.
1
FLETCHER, R. H.; FLETCHER, S. W.; FLETCHER, G. Epidemiologia clínica: elementos essenciais. 5. ed.
Porto Alegre: ArtMed, 2014.

PEREIRA, J. C. R. Análise de dados qualitativos: estratégias metodológicas para as ciências da saúde


humanas e sociais. São Paulo: Edusp, 2004.

ROUQUAYROL, M. Z.; GURGEL, M. Rouquayrol: epidemiologia e saúde. 8. ed. Rio de Janeiro: Medbook, 2018.

VIEIRA, S. Introdução à bioestatística. 5. ed. Rio de Janeiro: Elsevier, 2016.

20
Bioestatística
21
1

Universidade São Francisco


Descrição de dados e normalidade UNIDADE 2

DESCRIÇÃO DE DADOS E
NORMALIDADE
2

INTRODUÇÃO
O que é “normal”? Estar fora do “normal” Figura 01. Estatística
me faz doente? Se uma pessoa chora

Fonte: 123RF.
todo dia por um mês após perder uma
pessoa querida é considerado normal ou
é depressão? Como se definiu qual é o
limite entre febre e temperatura normal?
Será que toda pessoa com temperatura
de 37,3ºC está sem febre?

Normal é um termo relativo, com base na


sociedade e que varia ao longo do tempo.
Por isso a saúde utiliza o termo padrão.
Qual é a frequência cardíaca padrão de
um adulto? Aqui o termo padrão tem o significado de ser o que ocorre com maior frequ-
ência, o evento mais comum de acontecer.

As informações abordadas nessa unidade ajudarão a desvendar esses mistérios e a


interpretar as informações.

1. RESULTADOS
Falar que a média de nota de bioestatística da sala é 6,5 é muito ou pouco? Ao comple-
mentar a informação e dizer que as notas variaram entre 1,2 e 9,8, muda sua avaliação
de como os alunos foram? Se eu falar que 30% dos alunos tiraram entre 6,0 a 6,9, fica
mais fácil de avaliar a sala?

Há diversas maneiras que os dados da pesquisa podem ser transmitidos ou resumidos.


A escolha de como divulgar os resultados influencia em como a pesquisa é interpretada.
Normalmente variáveis qualitativas são descritas com frequência absoluta e relativa
enquanto as variáveis quantitativas são descritas com medida de tendência central e
medida de dispersão.

1.1 MEDIDAS DE TENDÊNCIA CENTRAL


Na descrição e resumo das variáveis quantitativas, frequentemente, utiliza-se no míni-
mo uma medida de tendência central e uma medida de dispersão. As medidas de ten-
dência central definem um ponto dentro do conjunto amostral que resume os dados.

22
IMPORTANTE
Ao realizar qualquer cálculo das medidas de tendência central é importante que todos os 2
dados coletados sejam analisados. Então, mesmo que existam valores repetidos, todas as
observações devem participar dos cálculos.

Universidade São Francisco


Nesse sentido, a medida de tendência mais tradicional é a média aritmética. Por sua
vez, ela é obtida somando todos os valores dos dados e depois dividindo a soma pelo
número de dados observados

Fórmula da média:

Em que:

= um dado.

∑ = somatória.

= somatória de todos os dados.

= número de dados.

EXEMPLO 1: CÁLCULO MÉDIA


Uma pesquisa entrevistou 8 universitários com os dados descritos na tabela a seguir.

Idade 20 21 57 40 23 20 21 21

Média:

=x

=
x soma dos dados substituir a fórmula com os dados.
n número de dados

Bioestatística 23
Descrição de dados e normalidade

20 + 20 + 21 + 21 + 21 + 23 + 40 + 57
= somar os valores.
8
2
223
= realizar a divisão.
8
= 27,88

Portanto, a média desses dados é 27,88 anos.

Nesse exemplo, considere que, na amostra de 8 pessoas, o pesquisador seja incapaz


de coletar a idade de um sujeito. Nesse caso, o número de dados é 7, que são as in-
formações que se devem colocar na parte de baixo na fórmula, já que só tem idade de
sete indivíduos.
Figura 02. Distribuição de dados A mediana é outra medida de tendência
central. O seu valor divide o conjunto de
Fonte: 123RF.

dados ordenados no meio, isso significa


que metade das observações tem valores
abaixo da mediana e metade acima.

Para calcular a mediana, a primeira etapa


é organizar os dados em ordem crescen-
te (do menor para o maior). A segunda
etapa é encontrar em qual local é o ponto
de corte para dividir o conjunto ao meio.
Quando o número de dados for ímpar, a
mediana será um valor do conjunto.

Conjunto A: {2,6,12,17,21} tem cinco ob-


servações (número ímpar), portanto, a
mediana é valor do conjunto. Considerando que ele já está ordenado, o valor que está
na posição central consegue dividir o conjunto em dois grupos de dois. Logo, a mediana
do conjunto A é o 12.

Quando o número de dados for par, a mediana será a média dos dois valores centrais.
Como será sempre uma média de dois valores, a conta será sempre igual, primeiro
deve-se somar os valores centrais e depois dividir a soma por 2.

Conjunto B: {7, 9, 13, 15} tem número quatro observações (número par), portanto, a
mediana é a média dos dois valores centrais. Considerando que ele já está ordenado,
a posição central que consegue dividir o conjunto em dois grupos de dois é um valor
entre 9 e 13. Para calcular a mediana, nesse caso, é preciso fazer a média entre 9 e 13.
Assim, o cálculo da mediana será:

24
EXEMPLO 2: CÁLCULO MEDIANA
Uma pesquisa entrevistou 8 universitários com os dados descritos na tabela a seguir. 2

Idade 20 21 57 40 23 20 21 21

Universidade São Francisco


Mediana

01. Colocar em ordem crescente: 20 20 21 21 21 23 40 57.

02. Número par de observações (oito).

03. Achar os valores centrais: 21 e 21.


21 + 21 42
04. Realizar o cálculo: = = 21
2 2

A mediana desses dados é 21 anos.

Ou seja, a mediana do conjunto B é 11.

A outra medida de tendência central é a moda. A moda é o dado mais frequente, ou seja,
dentro do conjunto é o valor que mais se repete. É possível que um conjunto tenha mais
do que uma ou não tenha moda. Para facilitar reconhecer qual é a moda, pode-se fazer
uma análise de frequência absoluta antes ou ordenar o conjunto para ficar mais fácil
conseguir reconhecer os valores repetidos.

EXEMPLO 3: CÁLCULO MODA


Uma pesquisa entrevistou 8 universitários com os dados descritos na tabela a seguir.

Idade 20 21 57 40 23 20 21 21

Moda: faça uma contagem (frequência absoluta) dos dados. A idade que mais se repete é
21, com três votos.

Idade 20 21 23 40 57 Total

N 2 3 1 1 1 8

Logo, a moda desses dados é 21 anos.

Bioestatística 25
Descrição de dados e normalidade

A média é influenciada pelos valores dos dados. Desse modo, se no conjunto de obser-
vações tiverem valores extremos, ou seja, distante de onde a maioria dos valores está,
a média será afetada. Essa desvantagem da média é a vantagem da mediana, que não
2 é influenciada por valores extremos. Se analisarmos os exemplos de cálculo para essas
duas medidas, podemos observar que a média está mais alta que a mediana por causa
dos valores extremos (40 e 57).

A vantagem da média é que ela pode sofrer manipulações matemáticas e é mais co-
nhecida. Já a mediana não consegue sofrer muitas manipulações matemáticas. Quanto
à moda, a vantagem é a praticidade de conhecer e calcular a medida. No entanto, a
desvantagem é que os resultados não são significativos em grupos pequenos.

A escolha de qual medida usar dependerá dos dados da pesquisa. As características,


vantagens e desvantagens de cada medida influenciará na escolha da medida que
descreverá melhor os dados.

1.2 MEDIDAS DE DISPERSÃO


Para resumir e descrever um conjunto de dados de uma variável numérica, utiliza-se
medidas de tendência central e medidas de dispersão. As medidas de tendência central
informam um ponto que resume os dados, mas só ter um ponto central não descreve o
quanto os dados variam.

Considere o conjunto A {12,13,14,15,16} e o conjunto B {4,10,12,20,24}. Os dois conjun-


tos têm média 14, mas eles não são similares. Os dados do conjunto A variam pouco,
enquanto em B a variação é maior, pois, para descrever é preciso de no mínimo uma
medida central e uma de dispersão.

Uma medida de dispersão é a amplitude que é a diferença entre o valor máximo e o


mínimo. Assim, é possível apenas citar o valor mínimo e máximo. Para facilitar o cálculo
da amplitude, recomenda-se colocar os dados em ordem crescente para ajudar no re-
conhecimento dos valores extremos.

Fórmula da amplitude:

Amplitude Valor máximo − Valor mínimo


= 2

EXEMPLO 4: CÁLCULO DE AMPLITUDE


01. Uma pesquisa entrevistou 6 universitários com os dados descritos na tabela a seguir.

Idade 20 21 57 40 23 18

26
Amplitude:

01. 1) Colocar em ordem crescente: 18 20 21 23 40 57 2

02. 2) Realizar o cálculo: 57-18=39

Universidade São Francisco


A amplitude desses dados é 39 anos.

Outra medida de dispersão é o quartil/percentil. O percentil é um ponto de corte que


divide os dados ordenados, por exemplo, o percentil 85 divide as observações de modo
que 85% dos dados estão entre o valor mínimo e o valor do percentil 85. Quartil são
os pontos de corte que dividem o conjunto em quatro partes igual, portanto, o primeiro
quartil é o percentil 25, o segundo é o percentil 50 e o terceiro é o percentil 75. O segun-
do quartil é sinônimo de mediana já que os dois dividem as observações na metade. A
figura a seguir esquematiza os três pontos de corte no conjunto de dados.

Figura 03. Esquema da localização dos quartis

25% 25% 25% 25%

A C
B
Legenda: “A” é o primeiro quartil, “B” é o segundo quartil ou
mediana e “C” é o terceiro quartil.

Fonte: elaborada pela autora.

Para calcular os quartis, a primeira etapa é organizar os dados em ordem crescente


(do menor para o maior). A segunda etapa, por sua vez, é encontrar o segundo quartil.
Quando o número de dados for ímpar, o segundo quartil será um valor do conjunto, e
quando for par, ele será a média dos dois valores centrais.

A terceira etapa é dividir em dois grupos, de modo que o ponto de corte é a mediana.
Quando o número de dados for ímpar, o segundo quartil será um valor do conjunto que
deverá estar presente nos dois grupos. Quando o número de dados for par, todos os
dados serão distribuídos nos grupos, independentemente dos dados centrais serem
utilizados para calcular a mediana.

Bioestatística 27
Descrição de dados e normalidade

A quarta etapa é encontrar o local do ponto de corte para dividir o grupo ao meio: o primei-
ro quartil é o ponto que divide na metade o grupo de dados com as observações de menor
valor; o terceiro quartil é o ponto que divide na metade o grupo de dados com as observa-
2 ções de maior valor. Assim, no grupo, quando o número de dados for ímpar, o quartil será
um valor do conjunto, mas quando for par será a média dos dois valores centrais.

O conjunto A: {2,6,12,17,21} tem cinco observações (número ímpar), portanto, o ponto


que divide esse conjunto na metade é uma observação. Considerando que ele já está
ordenado, o valor que está na posição central e consegue dividir o conjunto em dois
grupos de dois é o 12.

O conjunto B: {7, 9, 13, 15} tem quatro observações (número par), logo, o ponto que
divide esse conjunto na metade é a média dos dois valores centrais. Como ele já está
ordenado, a posição central que consegue dividir o conjunto em dois grupos de dois é
um valor entre 9 e 13. Nesse caso, é preciso fazer a média entre 9 e 13, logo:

soma dos dados 9 + 13 22


= = = 11.
número de dados 2 2

EXEMPLO 5: CÁLCULO QUARTIL NÚMERO PAR DE OBSERVAÇÕES


Uma pesquisa entrevistou seis universitários com os dados descritos na tabela a seguir:

Idade 20 21 57 40 23 18

Quartis:

1) Colocar em ordem crescente: 18 20 21 23 40 57

2) Número par de observações (seis).

a) Achar os valores centrais: 21 e 23


21 + 23 44
b) Realizar o cálculo do 2º quartil: = = 22
2 2
3) Dividir em grupo: Grupo Z: 18 20 21

Grupo Y: 23 40 57

28
4) número ímpar de observações em cada grupo (três).

a) Achar o 1º quartil no grupo Z: 20


2
a) Achar o 3º quartil no grupo Y: 40

Universidade São Francisco


Desses dados, o primeiro quartil é 20 anos, o segundo quartil (mediana) é 22 anos e o ter-
ceiro quartil é 40 anos.

EXEMPLO 6: CÁLCULO QUARTIL NÚMERO ÍMPAR DE OBSERVAÇÕES


Uma pesquisa entrevistou sete universitários com os dados descritos na tabela a seguir:

Idade 20 57 40 18 24 26 18

Quartis:

1) Colocar em ordem crescente: 18 18 20 24 26 40 57

2) Número ímpar de observações (sete).

a) Achar o 2º quartil: 24

3) Dividir em grupo (no caso do 2º quartil ser uma observação, essa estará nos dois grupos):

Grupo Z: 18 18 20 24

Grupo Y: 24 26 40 57

4) Número par de observações em cada grupo (quatro).

18 + 20 38
a) Achar o 1º quartil no grupo Z: = = 19
2 2
26 + 40 66
a) Achar o 3º quartil no grupo Y: = = 33
2 2

Nesses dados, o primeiro quartil é 19 anos, o segundo quartil (mediana) é 24 anos e o ter-
ceiro quartil é 33 anos.

Bioestatística 29
Descrição de dados e normalidade

Outra medida de dispersão é o desvio padrão, que descreve o quanto os dados estão
distribuídos em torno da média. Então, toda vez que usar desvio padrão, deve-se usar
também a média. O desvio padrão é calculado como a raiz quadrada de variância.
2

SAIBA MAIS
Para saber mais sobre o conceito de variância, leia a obra Introdução à Bioestatística (p. 47-
51), de Sonia Vieira, lançado em 2016.

Fórmula de desvio-padrão de uma amostra:

(∑ x)
2

2 ∑ 2
x −
n
3
s=
n −1

Em que:

x é um dado;

∑ representa somatória;

∑ x é a somatória de todos os dados;

∑ x é a somatória dos quadrados dos dados;


2

n é o número de dados.

Apesar de existir a possibilidade de realizar manualmente os cálculos de medidas


de tendência central e de dispersão, a rotina do pesquisador é que softwares façam
os cálculos. Para utilizar a fórmula de desvio padrão para amostra, primeiramen-
te, é necessário calcular as somatórias para obter todos os valores que devem ser
inseridos na fórmula.

30
EXEMPLO 7: CÁLCULO DE DESVIO PADRÃO
Uma pesquisa entrevistou quatro crianças com idades de 2, 6, 10 e 12 anos. 2

Universidade São Francisco


Desvio Padrão:

1) Calcular os valores da somatória:

x x2
2 22 = 4
6 62 = 36
10 102 = 100
12 122 = 144

∑ x = 30 ∑x 2
= 284

2) Coloque os valores na fórmula. Atente-se para não confundir onde colocar ∑ x e ∑ x , e para
2

não sumir com a potência. Como n é o número de dados, nesse caso, n = 4

( ∑ x)
2

( 30 )
2

2 ∑n
x − 2
2
284 −
4
=s =
n −1 4 −1

3) Resolver a conta:

( 30 )
2

284 − realizar a potência 302


=
2
4
4 −1

900
284 − realizar a divisão
900
=
2 4 4
4 −1

Bioestatística 31
Descrição de dados e normalidade

284 − 225
= 2 realizar as duas subtrações.
2 4 −1

59
= 2 realizar a divisão
3

= 2 19, 67 realizar a raiz quadrada

O desvio padrão é de 4,43 anos.

Vantagens e desvantagens
A vantagem da amplitude ou da menção do valor mínimo e máximo é incluir todos os
valores, mas, por outro lado, é uma medida muito afetada por valores extremos. Para
descrever a idade dos óbitos ocorridos em um mês, o pesquisador relata que a idade
variou de horas de vida até 106 anos. Com esse intervalo grande não é possível saber
como de fato está a distribuição de óbitos.

Os quartis conseguem fornecer mais dados da dispersão e não são afetados por valo-
res extremos. A distância interquartílica, que é a distância entre o primeiro e o terceiro
quartil, é um valor que consegue descrever se metade da amostra está afastada ou
próxima da mediana. Uma desvantagem dos quartis é que existem métodos diferentes
de calculá-los, até mesmo entre os softwares, apesar da diferença entre ambos ser pe-
quena. Além disso, não são adequados para manipulações matemáticas.

O desvio padrão é adequado para manipulações matemática e é utilizado para outras


análises estatísticas. Ele é uma medida extremamente adequada para descrever vari-
áveis com distribuição normal, no entanto, quando a amostra não tem uma distribuição
normal, o desvio padrão não deve ser utilizado.

2. PROBABILIDADE
A teoria clássica de probabilidade é aquela, normalmente, abordada no Ensino Médio,
quando calculávamos qual a probabilidade de se tirar uma carta de baralho específica
ou de tirar um número no dado. As características dos fenômenos probabilísticos se
mantem no campo da saúde.

A probabilidade de um evento único acontecer é calculada pela definição básica, con-


forme a fórmula a seguir. Ela é somente para eventos mutualmente exclusivos, e igual-
mente prováveis, e eventos independentes ou condicionantes. Em geral, a probabili-
dade é expressa por número entre 0 a 1, mas, frequentemente, usa-se a porcentagem
para ficar mais fácil de compreender.

32
Fórmula de probabilidade (evento único):

número de eventos esperados 2


4
número de eventos possíveis

Universidade São Francisco


No ensino médio, aprende-se que a probabilidade de se ter um filho do sexo masculino
é de 50%. Para chegar a esse valor, utilizamos a seguinte Equação 4, logo:

número de eventos esperados


=
1evento esperado ( nascer homem ) 1
= = 0,5 x 100 = 50%
número de eventos possíveis 2 eventos possíveis ( nascer homem ou mulher ) 2

Contudo, como podemos calcular a probabilidade de uma criança nascer com uma
anomalia congênita? Nesse caso, podemos considerar que é 50% também, já que só
existem dois eventos esperados (nascer com ou sem anomalia)?

Na área da saúde, as probabilidades de eventos, como a chance de ficar doente ou de


se curar, são calculadas a partir do que é observado na população. Então, pesquisas
descritivas que contam os eventos são muito importantes para termos as probabilida-
des. Logo, qual a probabilidade de ter uma criança com anomalia congênita?

Pelas informações divulgadas pelo Ministério da Saúde, em 2019, no Brasil nasceram


2.849.146 crianças, em que 24.838 nasceram com anomalias. Preenchendo a fórmula
com esses valores, temos que:

número de eventos esperados 24.838


= = 0,00872 ×100 = 0,87%.
número de eventos possíveis 2.849.146

O cálculo realizado é similar ao de frequência relativa. Portanto, dependendo de qual foi a


amostra e como os dados foram coletados, pode-se considerar que a probabilidade de um
evento acontecer é a frequência relativa da ocorrência que alguma pesquisa demostrou.

PARA REFLETIR
Pelo ISA-Capital de 2008, a proporção de pessoas com mais de 20 anos que tinham Hiper-
tensão Arterial Sistêmica (HAS) foi de 22%. Uma nutricionista atendeu em um dia 20 con-

Bioestatística 33
Descrição de dados e normalidade

sultas de adultos ou idosos e nenhum deles tinha HAS. De acordo com a probabilidade, ela
deveria ter atendido 4 hipertensos (22% de 20 consultas = 0,22 x 20 = 4,4). Considerando
que a proporção de hipertensos na população está correta, o que será que aconteceu para
2
a probabilidade errar?

` O número de pessoas atendidos é baixo e pode ter ocorrido um viés de seleção e a amos-
tra não representar a população.

` Ao acaso, naquele dia, não houve hipertensos. Mas nos outros dias da semana, ela aten-
deu mais de 5 doentes.

` O público-alvo da nutricionista é específico para pessoas jovens e saudáveis e, portanto,


a amostra não representa a população total.

Existem pessoas que não estão diagnosticadas com HAS, mas já tem a doença e, provavel-
mente, alguns dos 20 pacientes estavam nessa situação.

Para profissionais da saúde, a principal característica de probabilidade é que ela não é


capaz de determinar resultados. Então, por mais que o indivíduo tenha o gene marca-
dor de câncer, o que lhe dá 95% de probabilidade de desenvolver a doença, isso não
significa que o indivíduo de fato terá câncer. Além disso, a interpretação da chance é
subjetiva, isto é, alguém pode achar que 95% de chance de ter câncer é muito alta e
querer, portanto, fazer tratamentos precoces e cirurgias para evitar a doença. Outra
pessoa pode achar que uma sobrevida de 5% é alta e que vai com esse resultado apro-
veitar a vida. A reação das pessoas às probabilidades de eventos relacionados a sua
saúde é muito variável. Por isso, toda vez que se for discutir probabilidade de sucesso
do tratamento, de voltar a andar ou de “voltar ao normal”, é importante deixar claro que
probabilidade não garante um futuro.

A longo prazo, por sua vez, é possível que a proporção de eventos observados se
aproxime da probabilidade do evento acontecer. Nesse sentido, considere que a média
de sobrevida após um diagnóstico de câncer de pulmão é de 1 ano. Um profissional
começa seu trabalha em uma clínica de oncologia e, com o passar do tempo e de aten-
dimentos, ele observará que a maioria dos casos de fato morrem próximo de 1 ano de
diagnóstico. No entanto, haverá exceções, desde quem morreu dias depois ou de quem
demorou 5 anos para falecer.

Com a experiência, os dados vão cada vez mais se aproximar da distribuição normal.
Contudo, sempre há a chance de alguém ser a exceção, que em estatística pode ser
chamado de ponto fora da curva (outlier). Ao ter um diagnóstico, não é possível saber em
qual parte da curva a pessoa irá ficar, mas é possível saber quais são as probabilidades.

Portanto, as probabilidades devem ser usadas no cotidiano do profissional de saúde. O


uso da probabilidade ocorre principalmente como referência para decisão de condutas
e possíveis pré-conceitos que ajudam no atendimento. Dessa forma, é preciso ter um
equilíbrio e saber quando usar e como transmitir a informação para pacientes ou usuários.

34
3. DISTRIBUIÇÃO NORMAL
Vamos retomar as perguntas da introdução da unidade. Como se define o que é nor-
mal? Se você tem a mesma altura que a média da população você é considerada nor- 2
mal? Mas e se a pessoa medir 5 cm a mais, ela ainda será considerada normal?

Normal é um termo relativo, com base na sociedade e que varia ao longo do tempo, por

Universidade São Francisco


isso, a saúde utiliza o termo padrão. Qual é a frequência cardíaca padrão de um adul-
to? Aqui o termo padrão tem o significado de ser o que ocorre com maior frequência, o
evento mais comum de acontecer.

Os matemáticos no século XIX observaram que, em grande escala ou na natureza,


os eventos biológicos tendem a seguir uma mesma distribuição de frequência. Desse
modo, pode-se pressupor que as variáveis de uma pesquisa tenham distribuição normal
ou testar estatisticamente se a curva dos dados observados é similar. A Figura 4 ilustra
que os eventos tendem a se repetir próximo a posição central e que poucos casos acon-
tecem longe do esperado. Portanto, a curva do gráfico representa a distribuição normal
e, também, pode ser chamada de curva de Gauss.

Figura 04. Esquema que descreve a distribuição normal

Fonte: 123RF.

A distribuição normal tem características bem conhecidas que são iguais para todas as
variáveis que apresentem a distribuição. O comportamento da variável será independen-
temente do valor das medidas de tendência e dispersão e do que se está medindo (peso,
tempo de sobrevida e temperatura corpórea). Dessa forma, variáveis contínuas tendem a
formar curvas mais próximas à teórica por conseguir aferir os valores de forma contínua.

Bioestatística 35
Descrição de dados e normalidade

A curva da distribuição normal é em formato de sino e é simétrica em torno da média,


fazendo com que a mediana e a moda sejam iguais à média. Toda a população está
sob a curva, em que metade tem valores menores do que a média. A distribuição da
2 frequência de eventos em torno da média é uma constante. Assim, por meio de cálculos
matemáticos, chegou-se às proporções descritas na Figura 5.

Figura 05. Frequência relativa dos eventos a partir de distâncias de desvios-padrões ( ) da média ( )

` 68,26% dos dados estão a um desvio padrão ( ) da média (µ).


 Fórmula limite inferior= µ −σ
 Fórmula limite superior= µ +σ.

` 95,44% dos dados estão a dois desvios padrões (2 ) da média (µ).


 Fórmula limite inferior= µ − 2σ

 Fórmula limite superior= µ + 2σ

` 99,72% dos dados estão a três desvios padrões ( ) da média (µ).


 Fórmula limite inferior= µ − 3σ

 Fórmula limite superior= µ + 3σ

Fonte: 123RF.

36
Para calcular os limites mínimos e máximos que estão na proporção de casos, é só
somar ou subtrair do desvio padrão da média. Considere que, o tempo de duração de
sintomas de uma doença febril tem distribuição normal, em que a média de duração
dos sintomas é de 7 dias com um desvio padrão de 1,4 dia. Essas medidas foram cal- 2
culadas em uma amostra representativa com tamanho amostral adequado. O estudo,
em suma, não apresentou vieses. Pelas características da distribuição normal, temos:

Universidade São Francisco


` 68,26% dos casos dessa doença teriam de 5,6 a 8,4 dias de sintomas.
 Fórmula limite inferior = µ − σ = 7 − 1, 4 =5, 6

 Fórmula limite superior = µ + σ =7 + 1, 4 =8, 4

` 95,44% dos casos dessa doença teriam de 4,2 a 9,8 dias de sintomas.
 Fórmula limite inferior =µ − 2σ =7 − ( 2 ×1, 4 ) =7 − 2,8 =4, 2

 Fórmula limite superior =µ + 2σ =7 + ( 2 ×1, 4 ) =7 + 2,8 =9,8.

` 99,72% dos casos dessa doença teriam de 2,8 a 11,2 dias de sintomas.
 Fórmula limite inferior = µ − 3σ =7 − ( 3 ×1, 4 ) =7 − 4, 2 = 2,8

 Fórmula limite superior = µ + 3σ =7 + ( 3 ×1, 4 ) =7 + 4, 2 =11, 2

Com as diversas frequências que a curva de distribuição normal fornece, pode-se pen-
sar em probabilidades de eventos acontecerem e na definição de situações normais.

3.1 DISTRIBUIÇÃO NORMAL REDUZIDA (CURVA Z)


A Curva Z é uma padronização de uma curva de distribuição normal em que teorica-
mente se define que a média é 0 e que o desvio padrão é 1 (Vieira, 2016, p.130). Ela é
útil para calcular probabilidades de eventos acontecerem considerando que a variável
tenha distribuição normal. Vamos utilizar o exemplo para descrever a importância: qual
é a probabilidade de um aluno tirar menos do que 6,0 na média final de Bioestatística?

Uma amostra probabilística das últimas turmas da disciplina selecionou 278 alunos.
Dessa amostra as medidas de tendência central da nota final do componente curricular
foi a média 7,2, a mediana 7,2 e a moda 7,2, Quanto às medidas de dispersão da nota,
a amplitude foi 5,8 (de 4,1 a 9,9), o primeiro quartil foi 6,4, o terceiro quartil foi 8,0 e o
desvio padrão foi de 2,6.

Considerando que os dados apresentam distribuição normal, como se faz para calcular
a probabilidade de algum aluno esse ano tirar nota abaixo de 6,0? Inicialmente conse-
gue-se saber que a probabilidade será menor do que 25% já o primeiro quartil é 6,4 e

Bioestatística 37
Descrição de dados e normalidade

isso significa que 25% dos alunos tiraram até 6,4. Mas não é possível responder preci-
samente a probabilidade. Para tanto iremos usar a Curva z.

Esse cálculo envolve várias etapas. Primeiro, deve-se transformar o número de interes-
2
se (X) em um número “Z”. Para tanto usa-se a fórmula

Fórmula da variável Z:

X− µ
Z= 5
σ

Legenda:

: valor de interesse,
: média,
: desvio padrão.

6, 0 − 7, 2
No exemplo, X é 6,0, µ é 7,2 e σ é 2,6. Colocando na fórmula, Z = . Após fazer
2, 6

a subtração e depois a divisão por 2,6, chega-se no valor de Z de - 0,46 após o arre-
dondamento. O número Z sempre é composto por um dígito que representa o número
inteiro e dois dígitos que representam as casas decimais.

Para a segunda etapa da solução do problema será necessário o uso da tabela Z. A


maioria dos livros de estatística e bioestatística tem como apêndice as tabelas estatísti-
cas. A tabela foi desenvolvida por matemáticos que calcularam a frequência dos even-
tos acontecerem em cada pequeno intervalo de desvio padrão para a média.

Tabela 01. Parte da tabela de distribuição normal reduzida (Tabela Z)

ÚLTIMO DÍGITO
0
0 1 2 3 4 5 6 7...

0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 …

0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 …

Parte inteira e 0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 …
primeiro dígito
decimal 0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 …

0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 …

0,5 … … … … … … … … …

Fonte: adaptada de Vieira (2016, p. 249).

38
Para usar a tabela deve-se considerar o número Z. Nas linhas deve-se encontrar o nú-
mero inteiro e o primeiro digito decimal, no caso de z = 0,46, deve-se encontrar a linha
do 0,4. Depois deve-se encontrar a coluna que é o número do último dígito decimal. No
exemplo, deve-se encontrar a coluna referente ao número 6. Então o valor da tabela en- 2
contrado para o exemplo é o cruzamento da linha e coluna selecionadas. Aqui, o valor
que está na linha 0,4 e na coluna 6 é 0,1772.

Universidade São Francisco


O valor encontrado na tabela sempre será a probabilidade de eventos acontecerem
dentro intervalo entre o X e a média dos dados. No exemplo, a probabilidade de ter uma
nota entre 6,0 (X) e 7,2 (média) é de 0,1772 ou 17,72%. Mas essa não é a probabilidade
que estava na pergunta. O caso quer saber a probabilidade de tirar menos do que 6,0.

Considere a Figura 5. A área pintada de verde é referente ao valor encontrado na tabela.


Como se sabe que a distribuição normal é uma curva simétrica em torno da média e que
100% das observações estão abaixo da curva, é possível afirmar que do valor mínimo
até a média há 50% das observações. O que é perguntado no exemplo está pintando
como azul na figura 6.

Figura 06. Desenho para facilitar a solução do exemplo de utilização da distribuição normal reduzida

50% 50%
Fonte: elaborada pela autora.

Sabendo dessas informações, dá para perceber que o valor do azul mais o valor do
verde será 50%. Portanto, para chegar na resposta final basta subtrair o valor de verde
dos 50%. A resposta é 50 - 17,72 = 32,28%.

Essa última parte da resolução do exercício, depois de obter o valor da tabela, pode
variar. É possível que se some 50% do valor da tabela. Então é sempre importante fazer
o raciocínio de onde está a área da pergunta no gráfico. Só dessa maneira é possível
resolver o problema corretamente.

4. ANORMALIDADES
Há várias estratégias para definir se um comportamento, resultado, sinal ou sintoma
está dentro do padrão ou “normal”. Nesse sentido, a mais comum e mais utilizada é a

Bioestatística 39
Descrição de dados e normalidade

definição de que é normal tudo que acontece com grande frequência. A principal refe-
rência são os padrões da curva de distribuição normal, em que há um consenso de que
tudo que está dentro de 2 desvios padrões da média (95,44%) é normal.
2
Se a pessoa se encontra nos extremos da curva de Gauss, ela pode ser uma pessoa saudá-
vel com padrões de referência fora do comum ou pode ser uma pessoa doente. Desse modo,
cabe julgar outras características, sinais e sintomas do paciente. Por exemplo, ao atender
uma pessoa com temperatura de 37,3ºC que está com calafrios e dor no corpo, pode-se
considerar que ela está com febre apesar de o valor da temperatura estar dentro do normal,
ao mesmo tempo que uma pessoa com 38ºC e sem nenhum sintoma pode estar saudável.

Com isso, outro critério que se pode usar para definir normalidade é apresentar uma for-
ma clínica diferente do que é considerado um bom estado de saúde. O quanto de choro é
considerado fora do normal para alguém de luto ou todo choro é patológico? Se ao tratar a
provável anormalidade e a pessoa melhorar, é possível definir que o quadro era anormal.

PARA REFLETIR
A definição de normalidade ou alteração de peso nas crianças foi feita a partir dos conteúdos
aprendidos na unidade de hoje. A Organização Mundial da Saúde (OMS) disponibiliza as curvas
de crescimento (peso, altura e índice de massa corpórea por peso) com pontos de corte, a partir
de percentis ou de escore z. A Figura 10 é um exemplo de curva de peso por idade, em que as
curvas com escore z usa como base o desvio padrão, em que 1 escore significa 1 desvio padrão.
Figura 07. Gráfico da curva de crescimento de peso por idade de crianças do sexo masculino de 0 a 2
anos com ponto de corte a partir do escore z

Fonte: https://www.who.int/docs/default-source/child-growth/child-growth-standards/indicators/weight-
for-age/cht-wfa-boys-z-6-2.pdf?sfvrsn=ec5b30eb_6. Acesso em: 9 fev. 2021.

40
A caderneta de saúde da criança (Brasil, 2017) é a carteira de vacinação com diversas outras
informações sobre o crescimento e o desenvolvimento dela. Entre as informações disponíveis
nesse impresso temos a Figura 11, que compara pontos de corte em percentis e em desvio pa- 2
drão (escore z).

Universidade São Francisco


Figura 08. Medidas de dispersão escores z e percentis

Medidas de dispersão escores z e percentis

+3,0 escores z 99,85º percentil

+2,0 escores z 97,72º percentil ( 110% A/I 120% P/I)


+1,881 escore z 97º percentil
+1,645 escore z 95º percentil
+1,282 escore z 90º percentil
+1,0 escores z 84,2º percentil

+0,674 escore z 75º percentil

Média 50º percentil = mediana

+0,674 escore z 25º percentil

-1,0 escores z 15,8º percentil


+1,282 escore z 10º percentil
+1,645 escore z 5º percentil
+1,881 escore z 3º percentil
-2,0 escores z 2,28º percentil ( 90% A/I 80% P/I)

+1,881 escore z 0,4º percentil

-3,0 escores z 0,15º percentil

Fonte: Brasil (2017, p. 52).

Pela OMS ([s.d.]), a definição de normalidade do peso é a partir de onde a criança está no
gráfico. Logo, as definições variam conforme a idade e variável (peso, altura ou índice de
massa corpórea).

Bioestatística 41
Descrição de dados e normalidade

Tabela 02. Pontos de corte e classificação do peso para a idade para crianças de 0 a 10 anos

2
PONTO NO GRÁFICO CLASSIFICAÇÃO DO PESO
> +2 escores z Peso elevado para idade.

≥ -2 e ≤ +2 escores z Peso adequado para idade.

≥ -3 e ≤ -2 escores z Peso baixo para idade.

< -3 escores z Peso muito baixo para idade.


Fonte: Brasil (2011, p. 15).

Uma criança brasileira do sexo masculino que fará 2 anos de idade daqui dois dias pesa
16,5kg. Após colocar esses valores na curva de crescimento (Figura 10), o que tem mais
chance de ser real:

` A criança tem padrões fora do frequente, então, aquele peso é adequado para ela; ou
` A probabilidade desse menino ter uma anormalidade é baixa, então, pode-se considerar
que o peso não é adequado para a idade?

Comentário: O mais provável é que a criança esteja com peso elevado para a idade e, por-
tanto, algum tipo de orientação dietética deve ser realizado. A probabilidade é baixa (menor
de 4,56%) da criança estar com peso adequado e ter características diferentes da maioria da
população e, por isso, estar fora da faixa de normalidade da curva. Nesse sentido, as infor-
mações sobre a altura e o índice de massa corpórea (IMC), que também tem seus gráficos,
podem ajudar na interpretação do dado. Se só no peso a criança está acima da curva de 2
escores z, significa que a criança está acima do peso. Outra estratégia que contribui para
a avaliação é acompanhar o peso da criança ao longo do tempo, a fim de saber se ela está
seguindo as inclinações das curvas de referência ou teve um aumento fora do esperado.

CONCLUSÃO
Os resultados de uma pesquisa podem ser resumidos com medidas de tendência cen-
tral e medida de dispersão. Normalmente isso acontece com as variáveis quantitativas
e com no mínimo uma medida de cada tipo. Classicamente usa-se média e desvio
padrão, mas em algumas áreas é mais comum usar mediana e primeiro e terceiro quar-
til. É importante ressaltar que desvio padrão teoricamente está associado com média,
então não se deve descrever usando mediana e desvio padrão.

A definição de anormalidade é importante sempre estar com vocês quando estiverem


trabalhando. Como a reflexão dos atendimentos de hipertensos, é preciso sempre ter
em mente que pessoas anormais passarão por vocês e isso nem sempre significa que
elas estão com alterações fisiológicas reais. Pode ser que ela só seja uma pessoa fora
do padrão normal.

42
REFERÊNCIAS BIBLIOGRÁFICAS
BRASIL. Ministério da Saúde. Caderneta de saúde da criança: menino. 11 ed. Brasília: Ministério da Saúde,
2017. Disponível em: http://bvsms.saude.gov.br/bvs/publicacoes/caderneta_saude_crianca_menino_11ed.
2
pdf. Acesso em: 9 fev. 2021.

BRASIL. Ministério da Saúde. Secretaria de Atenção à Saúde. Departamento de Atenção Básica. Orien-

Universidade São Francisco


tações para a coleta e análise de dados antropométricos em serviços de saúde: Norma Técnica do
Sistema de Vigilância Alimentar e Nutricional - SISVAN. Brasília: Ministério da Saúde, 2011. Disponível em:
http://189.28.128.100/dab/docs/portaldab/publicacoes/orientacoes_coleta_analise_dados_antropometricos.
pdf. Acesso em: 9 fev. 2021.

FLETCHER, R. H.; FLETCHER, S. W.; FLETCHER, G. Epidemiologia clínica: elementos essenciais. 5. ed.
Porto Alegre: ArtMed, 2014.

ORGANIZAÇÃO MUNDIAL DA SAÚDE (OMS). Documentos com padrões de crescimento de crianças. Dispo-
nível em: https://www.who.int/tools/child-growth-standards/standards. Acesso em: 9 fev. 2021.

PEREIRA, J. C. R. Análise de dados qualitativos: estratégias metodológicas para as ciências da saúde


humanas e sociais. São Paulo: Edusp, 2004.

ROUQUAYROL, M. Z.; GURGEL, M. Rouquayrol: epidemiologia e saúde. 8. ed. Rio de Janeiro: Medbook, 2018.

VIEIRA, S. Introdução à bioestatística. 5. ed. Rio de Janeiro: Elsevier, 2016.

Bioestatística 43
Análise estatística UNIDADE 3

ANÁLISE ESTATÍSTICA
3

INTRODUÇÃO
Considere uma pesquisa que avalia se a acupuntura reduz o tempo de duração de uma
crise de enxaqueca. Como resultado, obteve-se que quem fez acupuntura teve uma
crise de 2,5h, em média, enquanto quem não fez teve uma crise de, em média, 3,5h. É
possível apontar que acupuntura reduz o tempo de duração das crises?

Para um leigo e pessoas que sofrem de enxaqueca essa redução de uma hora pode
ser significativa, mas nem sempre para a estatística esses dados mostram uma asso-
ciação. Como um profissional de saúde que atua baseado nas melhores evidências, é
preciso saber se a diferença entre os tratamentos é de fato real ou se a amostra e a
associação de outras variáveis impedem de assumir que o tratamento é um sucesso.

Há várias estratégias que são utilizadas para avaliar a associação de variáveis


a partir de dados coletados e como os resultados de uma pesquisa podem ser
organizados e demonstrados.

Como os dados são divulgados podem ajudar no convencimento do leitor quanto à conclu-
são da pesquisa. Ao ler artigos e estudos, é muito comum que as pessoas vejam somente a
seção métodos e a de resultados. A leitura dos métodos é muito importante porque é a partir
dele que se consegue julgar se a pesquisa foi bem-feita ou não. Os resultados precisam
mostrar todas as informações obtidas que embasam a conclusão do pesquisador.

Além disso, nesta unidade, abordaremos quais pesquisas e critérios devem ser utilizados
para confiar nas evidências científicas disponíveis e como definir relações de causalidade.

1. ANÁLISE ESTATÍSTICA
Dentre as funções do conceito de bioestatística está a característica de analisar os da-
dos coletados da amostra da pesquisa. Esse processo acontece comparando variáveis
coletadas para avaliar possíveis associações e comparando os resultados encontrados
com o que é esperado ou o que foi encontrado em outras pesquisas. A principal ava-
liação ao ler os resultados de uma pesquisa é indagar se o que foi encontrado de fato
representa a realidade.

44
EXEMPLO 1
Uma pesquisa, que avaliou a nota dos alunos em uma disciplina, teve como resultado a taxa 3
de reprovação de 50%, e que os alunos do sexo masculino reprovaram muito mais do que
os do sexo feminino. A conclusão dessa pesquisa foi que o sexo influencia na aprovação da
disciplina. Ao ler esses resultados é preciso avaliar a probabilidade de eles serem represen-

Universidade São Francisco


tativos ao que acontece na população total e, portanto, generalizar as informações obtidas.

Existe a possibilidade de o resultado encontrado na pesquisa ser decorrente de um erro


sistêmico ou viés. Os vieses podem acontecer em diversos momentos da pesquisa,
desde a amostragem, na aferição ou coleta de dados, na utilização de informações de
eventos que aconteceram há muito tempo e talvez o paciente já não se lembre corre-
tamente. É por isso que, ao definir os métodos de coleta de dados da pesquisa a partir
do desenho de estudo, diversas estratégias podem ser realizadas a fim de reduzir ou
impossibilitar a ocorrência de vieses.

Outra possibilidade é que o erro da pesquisa seja em decorrência ao acaso. Define-se


como acaso um erro aleatório que é inerente a qualquer observação. Não existe estra-
tégia capaz de eliminar a ocorrência do acaso (Fletcher, R.; Fletcher, S.; Fletcher, G.,
2014, p. 189).

SAIBA MAIS
Se quiser se aprofundar sobre o acaso, uma dica de leitura é O andar do bêbado, de Leo-
nard Mlodinow. Esse livro é um best-seller internacional que aborda o quanto os eventos e
acontecimentos da nossa vida podem ser explicados pelo acaso.

MLODINOW, L. O andar do bêbado. Rio de Janeiro: Zahar, 2008, p. 207.

Todo resultado de pesquisa, como o caso de uma pessoa que morre após utilizar uma
medicação, deve sempre ser questionado se, de fato, é o que acontece no mundo real
(natureza) ou se o que foi encontrado é justificado pelo acaso. A estatística consegue
ajudar na definição que a morte foi em decorrência do tratamento ou ela pode ser justifi-
cada pelo acaso, ou seja, a pessoa iria morrer independentemente da administração da
medicação. Toda análise estatística tem a incerteza inerente do acaso.

Para decidir se os resultados são confiáveis e que se pode generalizá-los, existem méto-
dos que conseguem avaliar o acaso, os quais estimam os efeitos da variação aleatória.
Os dois métodos mais utilizados são os testes de hipóteses e os intervalos de confiança.

Bioestatística 45
Análise estatística

1.1 MEDIDAS DE ASSOCIAÇÃO EPIDEMIOLÓGICA: RISCO RELATIVO


E RAZÃO DE CHANCES
Na epidemiologia há medidas de associação que avaliam risco ou chances de uma
3
exposição estar associada a um desfecho. As duas principais medidas são o Risco
Relativo (RR) e Razão de Chances (em inglês Odds Ratio - OR).

O Risco Relativo é uma das poucas medidas de associação capaz de medir o risco de
um desfecho acontecer caso a pessoa tenha uma característica. Essa medida só pode
ser calculada quando o estudo é longitudinal e o acompanhamento dos sujeitos de pes-
quisa iniciou antes que a pessoa tivesse o desfecho.

O risco relativo é calculado dividindo a incidência do desfecho no grupo dos expostos


por a incidência do desfecho no grupo dos não expostos. Incidência é o número de
novos eventos ou casos divididos pela população que poderia ser um caso novo. A
partir desse resultado, é possível saber quantas vezes maior é o risco do desfecho ao
comparar os dois grupos (expostos e não expostos ao fator de risco). Um resultado alto
favorece a causalidade da associação das variáveis.

Caso o risco relativo seja 1,0, a exposição não altera o risco de desenvolver o desfecho.
Quando o risco relativo é menor do que 1,0, pode-se dizer que a exposição é um fator
protetor, pois, a presença dela reduz o risco de ter a doença. Quando o risco relativo é
maior do que 1,0, pode-se dizer que a exposição é um fator de risco, pois, a presença
dela aumenta o risco de ter a doença.

Para estudos que não é possível calcular a incidência, o risco relativo não pode ser cal-
culado. Para esses casos, existe a razão de chances ou odds ratio (OR), em inglês, que
significa estimativa de risco. Essa medida pode ser usada em qualquer tipo de estudo.

Chances, no inglês Odds, é uma medida utilizada que avalia a chance de um even-
to acontecer contra a chance de não acontecer. Essa medida é popularmente usada
em eventos esportivos e apostas. Ela se assemelha a probabilidade, com a diferença
de que o denominador na probabilidade é a totalidade de possibilidades, enquanto na
chance é a frequência do evento não acontecer. A razão de chances é a divisão das
chances (odds) do desfecho acontecer nos dois grupos (expostos e não expostos).

1.2 TESTES DE HIPÓTESES


O teste de hipótese avalia, utilizando testes estatísticos, se uma diferença ou uma as-
sociação está presente. Por exemplo, para avaliar se existe uma diferença no tempo de
duração de uma crise de enxaqueca em pessoas que realizaram tratamentos diferen-
tes, um teste de hipótese pode ser realizado. Para avaliar se existe diferença entre a
proporção de doentes ao comparar pessoas que foram vacinadas ou não, um teste de
hipótese pode ser feito.

Um teste de hipótese tem, inicialmente, duas possibilidades de resposta: o que é testa-


do é diferente ou ele é igual. Isso também acontece ao testar a associação entre as va-
riáveis, ela pode existir ou não. Define-se como hipótese nula a hipótese que sempre
se refere a não existir diferença ou associação (Vieira, 2016, p. 128). Ela é abreviada

46
como H0 (lê-se “agá zero”). No exemplo do teste que compara o tempo da enxaqueca
dependendo do tratamento realizado, a hipótese nula é que não há diferença entre os
tempos de tratamento.
3
A hipótese alternativa refere-se à existência de diferença ou associação do que se
está testando (Vieira, 2016, p. 128). Ela é abreviada como H1 (lê-se “agá um”). No
exemplo do teste que compara o tempo da enxaqueca dependendo do tratamento reali-

Universidade São Francisco


zado, a hipótese alternativa é que há diferença entre os tempos de tratamento.

Ao final do teste, se a conclusão é aceitar a hipótese alternativa, pode-se dizer que o


resultado do teste foi significativo ou que a diferença é estatisticamente significante,
sendo possível associar H1 com um resultado positivo do teste. Mas se a conclusão é
aceitar a hipótese nula, pode-se dizer que o resultado do teste foi não significativo ou
que a diferença não é estatisticamente significante, associando então H0 com um resul-
tado negativo do teste.

Como qualquer teste, é possível que o resultado dele esteja errado. Logo, cada teste
de hipótese tem quatro possibilidades de resultado (Figura 1): a hipótese nula é correta,
a hipótese alternativa é correta, a ocorrência o erro tipo I e ocorrência do erro tipo II.

Figura 01. Possibilidades de resultados em um teste de hipótese

DIFERENÇA NA NATUREZA OU NA POPULAÇÃO

Presente Ausente

Teste estatístico significativo Correto Erro tipo I

Teste estatístico não significativo Erro tipo II Correto

Fonte: adaptada de Fletcher, R.; Fletcher, S.; Fletcher, G. (2014, p. 189).

O erro tipo I refere-se aos resultados fal- O erro tipo II refere-se aos resultados fal-
sos-positivos, ou seja, o teste mostra uma sos-negativos, ou seja, o teste não mostra
diferença, só que na realidade ela não exis- uma diferença, quando, na realidade, ela
te (Fletcher, R.; Fletcher, S.; Fletcher, G., existe (Fletcher, R.; Fletcher, S.; Fletcher,
2014, p.189). Assim, é afirmar que existe G., 2014, p. 189). É afirmar que não existe
diferença entre o que se compara quando diferença entre o que se compara quan-
na verdade não existe diferença. Por exem- do, na verdade, existe sim. Por exemplo, é
plo, é concluir seu estudo afirmando que a concluir seu estudo afirmando que a acu-
acupuntura altera o tempo de duração da puntura não altera o tempo de duração da
crise de enxaqueca da pessoa quando, no crise de enxaqueca da pessoa quando, no
mundo real, esse tratamento não altera o mundo real, esse tratamento altera o tem-
tempo de duração da crise. po de duração da crise.

Bioestatística 47
Análise estatística

EXEMPLO 2

3 Definição de hipóteses e erros

Pense que uma pesquisa deseja avaliar se a vacina reduz o número de óbitos de COVID-19.
A análise dos dados foi feita comparando a proporção de óbitos no grupo de pessoas que
tomou a vacina com o grupo de quem tomou placebo.

` A hipótese nula deste teste é que a proporção de óbitos nos vacinados não é diferente
da proporção de óbitos nas pessoas que tomaram placebo. Ou seja, não há diferença da
proporção de óbito entre os grupos.

` A hipótese alternativa deste teste é que a proporção de óbitos nos vacinados é diferente
da proporção de óbitos nas pessoas que tomaram placebo. Ou seja, há diferença nas
proporções de óbitos.

` O erro tipo I é afirmar que as proporções de óbitos são diferentes quando, na verdade,
elas são iguais.

` O erro tipo II é afirmar que as proporções de óbitos são iguais quando, na verdade, elas
são diferentes.

A conclusão do teste de hipótese é decidir se aceita H0 ou se rejeita H0 e aceita H1.


Para tomar essa decisão, utiliza-se a probabilidade de algum dos erros acontecerem.
Denomina-se α (lê-se alfa) a probabilidade de cometer um erro tipo I e β (lê-se beta) a
probabilidade de cometer o erro tipo II.

Como um resultado significativo tem mais impacto, porque pode promover alterações
em protocolos e em cuidados, o número de falsos-positivos deve ser baixo. É por isso
que na maioria dos casos utiliza-se α, que é a probabilidade de existir falsos-positivos.

Um teste estatístico tem como principal resultado o p-valor (ou p-value, em inglês). O
p-valor é a probabilidade do erro tipo I acontecer, ou seja, de o resultado positivo ter sido
ao acaso e não pelo fato de que ele acontece na natureza. Probabilidade é expressa,
preferencialmente, em número decimais, mas, para facilitar a compreensão, ela pode
ser transformada em porcentagem.

EXEMPLO 2
Tendo em mente uma pesquisa do tempo de crises de enxaqueca que compara o tratamento
somente com acupuntura com o tratamento padrão, que é exclusivamente medicamentoso.
O resultado do teste estatístico foi um p-valor de 0,123. Isso significa que a probabilidade de
cometer o erro tipo I é de 12,3%, ou seja, existe 12,3% de probabilidade de que a acupuntura
tenha na realidade o mesmo tempo de duração da crise de enxaqueca.

Qual valor de probabilidade de um erro que seria aceitável? Você, profissional da saúde, a
partir desse resultado trocaria o tratamento padrão e a partir desse momento só prescreveria
acupuntura para seus pacientes com enxaqueca em vez de medicamento?

48
Existe um consenso na comunidade científica que considera como aceitável um p-valor
menor ou igual que 0,05. Se a probabilidade de acontecer um erro tipo I for menor do
5%, pode considerar que o resultado do teste é de fato significativo. Chama-se de nível
de significância do teste o valor máximo que se aceita de probabilidade de ocorrer o 3
erro tipo I. Portanto, o nível de significância que a maioria das pesquisas utilizam é de
5% (Vieira, 2016, p. 133).

Universidade São Francisco


A Figura 2 resume como interpretar o p-valor considerando um nível de significância de
5%. Quando o p-valor for menor ou igual do que 0,05, considera-se que a probabilidade
de a significância estatística não existir é, na realidade, baixa. Por isso, aceita-se uma
hipótese alternativa. Já quando o p-valor é maior do que 0,05, a probabilidade da não
associação de fato acontecer é alta, o que leva a aceitar a hipótese nula.

Figura 02. Árvore de interpretação do resultado do teste estatístico a partir do p-valor

p-valor ≤ 0,05 p-valor > 0,05

Rejeitar H0
Aceitar H0
Aceitar H1

Há diferença Não há diferença


ou associação ou associação

Teste Teste sem


estatisticamente significância
significante estatística

Fonte: elaborada pela autora.

Considere, novamente, o exemplo da acupuntura na crise de enxaqueca. Se o p-valor


for 0,078, deve-se aceitar a hipótese nula: o tempo das crises não é diferente, inde-
pendentemente do tratamento. Se o p-valor for de 0,032, deve-se rejeitar H0 e aceitar
a hipótese alternativa: dependendo do tratamento, o tempo da crise é diferente. Nesse
segundo caso há uma probabilidade de 3,2% de o resultado ser ao acaso e, na realida-
de, não existir diferença.

Bioestatística 49
Análise estatística

IMPORTANTE

3 O p-valor não mede magnitude ou intensidade da diferença ou associação. O teste de hipó-


tese e o p-valor medem apenas presença ou ausência, diferente ou igual, sendo associação
ou não.

Por exemplo, um teste de hipótese fictício compara o tempo de ventilação mecânica com o
peso do paciente. O p-valor < 0,0001 não significa que o tempo de ventilação mecânica está
muito associado com o peso do paciente. Um p-valor de 0,042 ou < 0,0001 terá a mesma
conclusão, que é a associação das variáveis. A diferença de a chance do resultado ser ao
acaso e não acontecer na realidade é maior no caso de 0,042.

Teste estatístico
O teste estatístico não impede o acaso, ele só calcula qual é a probabilidade de o erro
acontecer. Existem vários testes que devem ser usados em situações específicas. Para
decidir qual realizar, é preciso primeiro saber algumas informações dos grupos e das
variáveis que serão comparados.

A primeira parte é classificar as variáveis. A variável qualitativa ou categórica é expressa


em categorias mutualmente excludentes, enquanto a variável quantitativa ou numérica
é expressa em números com intervalos iguais entre os valores (Vieira, 2016, p. 1).
Para as variáveis quantitativas será também necessário saber se elas têm distribuição
normal ou não.

A definição se a variável tem distribuição normal pode ser por meio de um teste esta-
tístico ou pressupor, teoricamente, qual é a distribuição dos dados observados se é
próxima da curva de normalidade. Testes não paramétricos são quando uma ou mais
das variáveis quantitativas têm distribuição não normal.

Para as variáveis qualitativas também será necessário contar quantas categorias de


resposta existem. A variável peso pode ter somente duas categorias de resposta (nor-
mal ou fora do normal) ou ter quatro (baixo peso, peso adequado, sobrepeso e obesida-
de). Quanto menos categorias tiverem melhor será a análise.

Perceba na Figura 3 a comparação entre duas tabelas que exemplificam que muitas ca-
tegorias reduzem o número de observações em cada célula da tabela, o que influencia
na confiança dos resultados.

50
Tabela 01. Exemplo de distribuição dos dados conforme categorias das variáveis estudadas (peso e profissão)

BAIXO PESO
SOBREPESO OBESIDADE TOTAL
PESO ADEQUADO
3
Técnico(a) de enfermagem 4 10 16 8 38

Auxiliar em saúde bucal 8 9 5 22

Universidade São Francisco


Técnico(a) em nutrição e
1 2 3
dietética

Farmacêutico(a) 10 6 4 20

Fisioterapeuta 3 1 4

Médico(a) 7 3 1 11

Psicólogo(a) 2 4 6

TOTAL 7 44 35 18 104

ADEQUADO NÃO ADEQUADO TOTAL

Curso superior 20 43 63

Curso técnico ou auxiliar 24 17 41

Total 44 60 104

Fonte: elaborada pela autora.

O número de variáveis que serão analisadas influencia na escolha também. Grande


parte das análises de dados acontecem com teste entre duas variáveis. Análises com
mais de duas variáveis são mais complexas e envolvem questões de modelagem.

A próxima parte é definir se o teste é pareado ou não. Ser pareado significa que os
sujeitos dos grupos que está se comparando são a mesma pessoa em momentos dife-
rentes ou pessoas com características muito similares que estão relacionadas (Vieira,
2016, p. 139).

Por exemplo, um estudo sobre estratégia de redução alimentar pode ter grupos parea-
dos se a análise for comparar o antes e o depois, havendo ou não grupos independen-
tes que comparam o peso eliminado entre o grupo controle e o intervenção. A análise
pode ser pareada se ao selecionar os integrantes do grupo controle, ele tivesse carac-
terísticas específicas iguais a cada caso.

Os testes estatísticos mais comuns e suas características são (Fletcher, R.; Fletcher, S.;
Fletcher, G., 2014, p. 193):

Bioestatística 51
Análise estatística

` Shapiro Wilk: avalia se uma variável quantitativa tem distribuição normal. A hipótese nula
é que a variável tem distribuição normal;
3
` Qui-quadrado de Pearson: avalia a associação de duas variáveis qualitativas. Às vezes
é expresso pelo símbolo Χ2.Pode ser utilizado para: avaliar se o sexo dos alunos influen-
cia na aprovação da disciplina, comparar se a proporção de aprovados em cada grupo
(masculino e feminino) é diferente.

` Fisher: avalia a associação de duas variáveis qualitativas que tenham poucos números
de observações ou muitas tabelas de contingência vazias. É similar ao qui-quadrado;

` Teste t de student: compara duas médias de uma variável quantitativa que tenha distri-
buição normal. É um teste paramétrico, pode ser pareado ou para grupos independentes.
Por exemplo: para avaliar se a idade influencia na aprovação dos alunos é preciso testar
se a média de idade entre os aprovados é igual à idade média dos reprovados. Se a idade
tiver distribuição normal, o teste a ser realizado é um teste t, já que se está comparando
as médias de uma variável normal de dois grupos;

` Mann-Whitney: compara duas médias de uma variável quantitativa que não tenha dis-
tribuição normal. É um teste não-paramétrico para grupos independentes. O exemplo é
similar ao teste t, sendo a diferença a distribuição;

` Wilcoxon: compara duas médias de uma variável quantitativa que não tenha distribuição
normal. É um teste não-paramétrico para grupos pareados. O exemplo é similar ao teste
t, sendo a diferença a distribuição;

` ANOVA: compara três ou mais médias de uma variável quantitativa que tenha distribuição
normal. É um teste paramétrico para grupos independentes. Por exemplo: serve para avaliar
se a idade média dos estudantes é diferente entre os diversos cursos da área da saúde;

` Correlação: compara duas variáveis quantitativas. É possível calcular uma medida de asso-
ciação que mede a intensidade e o quanto do desfecho pode ser explicado pela outra variável.

Antes de realizar o teste estatístico, é necessário definir, primeiro, quais variáveis ana-
lisar para que a pergunta da pesquisa e seus objetivos possam ser respondidos. É
comum pesquisadores testarem todas as variáveis entre si, isso faz com que o número
de testes seja grande e pelo acaso possa ser que encontre um p-valor menor que 0,05,
mas depois não é possível discutir esse resultado, porque ele não faz sentido no as-
pecto teórico.

Após reflexão e decisão de quais análises fazer, existe uma sequência de etapa para
realizar um teste de hipótese:

52
Figura 03. Teste de hipótese

3
Definir hipó- Especificar Escolher e Interpretar
tese nula e o nível de realizar o o resultado
alternativa significância teste do p-valor

Universidade São Francisco


Fonte: elaborada pela autora.

É importante definir o nível de significância antes de rodar os testes. Isso é fundamental


para que a escolha do que é “positivo” seja feita independentemente dos resultados
obtidos. Nas últimas décadas, tem-se mudado um paradigma de que uma boa pesquisa
precisa ter resultados estatisticamente significantes. Uma das estratégias utilizadas
é mudar o nível de significância para conseguir resultados positivos. Por isso que é
comum estar escrito no artigo “α de 0,05 definido a priori”.

Atualmente, tem se aceitado mais a teoria de que um resultado negativo ou de não


associação tem importância. Os cursos de pós-graduação também discutem o porquê
da significância de 5%. Raras pesquisas possuem outros valores, como 10% ou 1%.

1.3 INTERVALO DE CONFIANÇA


Uma outra estratégia de aferir o acaso é o intervalo de confiança de alguma estimativa.
Considera-se estimativa uma medida estatística que resume ou descreve característi-
cas dos dados coletados na amostra do estudo. (Fletcher, R.; Fletcher, S.; Fletcher, G.,
2014, p. 197) Elas são capazes de aferir magnitude real do efeito. São exemplos de
estimativas: média, frequência relativa ou proporção, risco relativo, razão de chances.

Como as estimativas são medidas de ponto, não é possível garantir quão próximo ela
pode estar ao parâmetro, que é o valor observado na população toda ou na natureza. À
vista disso, é comum que essas estimativas estejam sempre expressas com um inter-
valo de confiança. Define-se como intervalo de confiança (IC) uma faixa de valores que
se tem confiança que o valor real está. O valor da estimativa está sempre dentro do IC.

O intervalo de confiança demonstra a certeza que se tem de que os dados da amostra


são representativos da população. Costumeiramente, usa-se IC 95% ou que significa
que há 95% de confiança ou probabilidade de que o parâmetro esteja dentro do inter-
valo (Vieira, 2016, p. 116).

Bioestatística 53
Análise estatística

PARA REFLETIR
Em uma pesquisa de intenção de voto de uma eleição para prefeito, coletou uma amostra
3
de 200 pessoas, 42% votariam no Candidato A. Será que o resultado final oficial da eleição
será essa mesma proporção? Se o IC 95% for de 35,2% a 48,8% espera-se que o valor real
esteja dentro da faixa. Caso isso não aconteça, pode ser que o erro tenha ocorrido por conta
de vieses ou pelo acaso.

Toda a interpretação dos resultados, então, parte de que a pesquisa foi bem conduzida
e que tem baixo risco de vieses. Assim, espera-se que a amostra seja representativa e,
de preferência, com seleção aleatória. Como o intervalo de confiança estima probabili-
dade é importante reforçar que todos os eventos tenham a mesma chance de ocorrer.

Chama-se de margem de erro a distância entre a estimativa e o limite superior e infe-


rior do intervalo. Para deixar a margem de erro menor, é necessário aumentar o número
de observações e dados coletados. Ao retomar o caso da pesquisa eleitoral, que agora
avalia 2.000 pessoas, o intervalo de confiança fica em 39,8% a 44,2%. Nesse exemplo,
ao considerar que a média é 42%, a margem de erro é de 2,2%.

A grande vantagem dessa estratégia é que as estimativas de pontos avaliam magnitude


e intensidade. Intervalos de confianças amplos não conseguem deixar claro a magnitude
da associação. Para leigos e profissionais da saúde, a interpretação do IC é mais fácil do
que o p-valor. Quando se quer usar o intervalo de confiança para comparar se os valores
são diferentes, é preciso que nenhum número dos dois intervalos se sobreponha.

As fórmulas para calcular o intervalo de confiança variam de acordo com a estimativa


de ponto. Em todas as fórmulas vai existir um valor que será associado à porcentagem
de confiança que se deseja.

EXEMPLO 3
O candidato A ficou 42% de proporção com IC95% de 35,2 a 48,8%, enquanto o candidato
B ficou com 29,5% de intenção de voto com IC95% de 23,2 a 35,8%. Para um leigo, 29,5%
é diferente dos 42% o que deixaria o candidato A eleito. Mas ao interpretar o intervalo de
confiança, é preciso garantir que as faixas não se sobreponham. Nesse caso, pela análise do
intervalo de confiança é possível que o Candidato B tenha vencido. O parâmetro do candida-
to B pode ser bem no limite superior 35,7%, enquanto o candidato A possa estar com 35,3%
perto do seu limite inferior.

Um teste avaliou se a presença do antecedente pessoal de insuficiência cardíaca in-


fluenciava na incidência de óbitos de pacientes internados na UTI, teve como o risco
relativo 2,22 (IC95% 0,99 – 4,98). Ao analisar somente o valor do risco relativo encon-
trado com os dados da amostra seria possível dizer que esse antecedente aumenta em
2,2 vezes o risco de ir a óbito, já que o RR > 1,0. Mas, ao olhar no intervalo de confiança

54
percebe-se que existe a possibilidade de que o valor real do RR seja 0,99, o que seria
interpretar que esse antecedente pessoal reduz o risco de ir a óbito, pois o RR < 1,0.
Nesses casos em que a abrangência do intervalo de confiança engloba números meno-
res e maiores do que 1,0, não se pode afirmar se a associação é verdadeira e nem qual 3
é o sentido da interação (reduzir ou aumentar o risco).

Universidade São Francisco


CONCLUSÃO
Como profissionais de saúde, é nosso papel questionar se o que está sendo divulgado
e realizado é de fato correto, ou seja, é nossa função procurar as respostas baseadas
em evidências. Mas não se deve acreditar em qualquer evidência – precisa ser cientí-
fica, com métodos definidos e análises estatísticas, além disso, a pesquisa precisa ser
transparente e sem conflitos de interesse.

Para conseguir confiar na conclusão de uma pesquisa é preciso julgar o processo meto-
dológico, amostral e análise de dados. Como estatística é um assunto que as pessoas
da área da saúde não gostam, muitas vezes se confia no processo sem conseguir julgar
se a análise foi correta. Os conceitos abordados nesta unidade devem dar ferramentas
para que você consiga avaliar a análise estatística de outras pesquisas, assim como
analisar os dados de um estudo que você é o pesquisador principal.

Bioestatística 55
Análise estatística

REFERÊNCIAS BIBLIOGRÁFICAS
ALMEIDA FILHO, N.; BARRETO, M. L. Epidemiologia & Saúde: Fundamentos, Métodos e Aplicações. Rio
de Janeiro: Guanabara Koogan, 2011.
3
FLETCHER, R. H.; FLETCHER, S. W.; FLETCHER, G. S. Epidemiologia clínica: elementos essenciais. 5.
ed. Porto Alegre: ArtMed, 2014.

ROUQUAYROL, M. Z.; GURGEL, M. Rouquayrol: epidemiologia & saúde. 8. ed. Rio de Janeiro: Medbook,
2018. 752 p.

VIEIRA, S. Introdução à bioestatística. 5. ed. Rio de Janeiro: Elsevier, 2016.

56
Bioestatística
57
3

Universidade São Francisco


Apresentação de dados UNIDADE 4

APRESENTAÇÃO DE DADOS
4

INTRODUÇÃO
Uma pesquisa que conclui que acupuntura reduz o tempo de duração de uma crise de
enxaqueca já que quem fez acupuntura teve uma crise de 2,5h, em média, enquanto
quem não fez teve uma crise de, em média, 3,5h.

A partir de somente o texto acima, é possível confiar nesse resultado? Como será que
foi concluído que o tempo de crise entre os dois grupos é diferente?

Como um profissional de saúde que atua baseado nas melhores evidências, é preciso
saber se a diferença entre os tratamentos é de fato real ou se a amostra e a associação
de outras variáveis impedem de assumir que o tratamento é um sucesso.

Na leitura de um artigo é preciso entender as informações presentes para que você seja
capaz de avaliar a pesquisa inteira, incluído o método de análise estatística. Caso os
resultados não sejam claros a confiabilidade da pesquisa reduz.

Como os dados são divulgados podem ajudar no convencimento do leitor quanto a


conclusão da pesquisa. Ao ler artigos e estudos, é muito comum que as pessoas vejam
somente a seção métodos e a de resultados. A leitura dos métodos é muito importante
porque é a partir dele que se consegue julgar se a pesquisa foi bem-feita ou não. Os
resultados precisam mostrar todas as informações obtidas que embasam a conclusão
do pesquisador.

1. ANÁLISE ESTATÍSTICA
A principal avaliação ao ler os resultados de uma pesquisa é indagar se o que foi encon-
trado de fato representa a realidade. Existe a possibilidade de o resultado encontrado
na pesquisa ser decorrente de um erro sistêmico ou viés. Os vieses podem acontecer
em diversos momentos da pesquisa, desde a amostragem, na aferição ou coleta de
dados, na utilização de informações de eventos que aconteceram há muito tempo e tal-
vez o paciente já não se lembre corretamente. É por isso que, ao definir os métodos de
coleta de dados da pesquisa a partir do desenho de estudo, diversas estratégias podem
ser realizadas a fim de reduzir ou impossibilitar a ocorrência de vieses.

Outra possibilidade é que o erro da pesquisa seja em decorrência ao acaso. Define-se


como acaso um erro aleatório que é inerente a qualquer observação. Não existe estra-
tégia capaz de eliminar a ocorrência do acaso (Fletcher, R.; Fletcher, S.; Fletcher, G.,
2014, p. 189).

58
É importante deixar claro na comunicação da pesquisa, seja por artigo ou por tese, qual
foi o processo de coleta e análise de dados. Assim o leitor é capaz de tirar as próprias
conclusões.
4
Todo resultado de pesquisa, como o caso de uma pessoa morre após utilizar uma me-
dicação, deve sempre ser questionado se, de fato, é o que acontece no mundo real
(natureza) ou se o que foi encontrado é justificado pelo acaso. A estatística consegue

Universidade São Francisco


ajudar na definição que a morte foi em decorrência do tratamento ou ela pode ser justifi-
cada pelo acaso, ou seja, a pessoa iria morrer independentemente da administração da
medicação. Toda análise estatística tem a incerteza inerente ao acaso.

Para decidir se os resultados são confiáveis e que se pode generalizá-los, existem


métodos que conseguem avaliar o acaso, os quais estimam os efeitos da variação ale-
atória. Os dois métodos mais utilizados são os testes de hipóteses e os intervalos de
confiança.

O teste de hipótese avalia, utilizando testes estatísticos, se uma diferença ou uma as-
sociação está presente. Por exemplo, para avaliar se existe uma diferença no tempo de
duração de uma crise de enxaqueca em pessoas que realizaram tratamentos diferen-
tes, um teste de hipótese pode ser realizado. Para avaliar se existe diferença entre a
proporção de doentes ao comparar pessoas que foram vacinadas ou não, um teste de
hipótese pode ser feito.

Um teste estatístico tem como principal resultado o p-valor (ou p-value, em inglês). O
p-valor é a probabilidade do erro tipo I acontecer, ou seja, de o resultado positivo ter
sido ao acaso e não pelo fato de que ele acontece na natureza. Existe um consenso
na comunidade científica que considera como aceitável um p-valor menor ou igual que
0,05. Quando o p-valor for menor ou igual do que 0,05, considera-se que a probabili-
dade de a significância estatística não existir é, na realidade, baixa. Por isso, aceita-se
uma hipótese alternativa. Já quando o p-valor é maior do que 0,05, a probabilidade da
não associação de fato acontecer é alta, o que leva a aceitar a hipótese nula.

Intervalo de confiança (IC) é uma faixa de valores que se tem confiança que o valor real
está. O valor da estimativa calculado na amostra da pesquisa está sempre dentro do IC.
São exemplos de estimativas: média, frequência relativa ou proporção, risco relativo,
razão de chances. O intervalo de confiança demonstra a certeza que se tem de que os
dados da amostra são representativos da população. Costumeiramente, usa-se IC 95%
ou que significa que há 95% de confiança ou probabilidade de que o parâmetro esteja
dentro do intervalo (Vieira, 2016, p. 116).

GLOSSÁRIO
` Erro tipo I refere-se aos resultados falsos-positivos, ou seja, o teste mostra uma diferença,
só que na realidade ela não existe (Fletcher, R.; Fletcher, S.; Fletcher, G., 2014, p.189).

` Hipótese alternativa refere-se à existência de diferença ou associação do que se está


testando (Vieira, 2016, p. 128).

Bioestatística 59
Apresentação de dados

` Hipótese nula a hipótese que sempre se refere a não existir diferença ou associação
(Vieira, 2016, p. 128).
4 ` Risco relativo (RR) é uma razão das incidências de um evento no grupo com a variável de
interesse presente contra um grupo sem essa variável (Rouquayrol; Gurgel, 2018, p. 701).
Caso o risco relativo seja 1,0, a exposição não altera o risco de desenvolver o desfecho.
Quando o risco relativo é menor do que 1,0, o fator de exposição reduz o risco de ter a
doença e quando maior do que 1,0 a exposição aumenta o risco do desfecho.

` Razão de chances ou Odds ratio (OR) é a divisão das chances de um evento acontecer
entre dois grupos, aqueles com a variável de interesse presente contra aqueles com a
ausência da variável (Fletcher, R.; Fletcher, S.; Fletcher, G., 2014, p. 94).

O que é importante ao avaliar o intervalo de confiança é que se dentro do intervalo es-


tiver valores que representam informações contraditórias, deve considerar que a asso-
ciação avaliada não existe. Por exemplo, um intervalo de confiança de um risco relativo
é de 0,81 a 3,42. Dentro do intervalo eu tenho valores menores do que 1,0 o que signi-
fica que a exposição reduz o risco de desenvolver o desfecho. Mas dentro do intervalo
há também valores maiores do que 1, que significa que a exposição aumenta o risco.
Então dentro do intervalo de confiança é possível encontrar informações contraditórias.
Como não se sabe dizer qual é o valor real encontrado na população e o intervalo de
confiança apresenta-se contraditório, a análise dessas duas variáveis conclui que nada
pode ter certeza entre a associação das duas variáveis.

2. APRESENTAÇÃO DOS RESULTADOS


Estatística descritiva é resumir os dados coletados de cada variável. Para as variáveis
qualitativas são descritas com frequência absoluta e relativa, enquanto as variáveis
quantitativas são descritas com medidas de tendência central (média, moda e mediana)
e medidas de dispersão (amplitude, percentis, desvio padrão). A estatística analítica
faz associações entre duas ou mais variáveis, normalmente com o uso de testes de
hipóteses, mas podendo usar também estimativas de ponto com intervalo de confiança.

Tanto a estatística descritiva como a analítica, podem ser apresentadas em forma de texto,
tabelas ou em gráficos. A decisão de qual meio apresentar depende do destaque que se
deseja ter no resultado, a importância de detalhar mais as informações e a aparência visual.

2.1 GRÁFICOS
Os gráficos são representações visuais que transmitem a informação de forma visual.
Muitas pessoas acham que essa é a forma mais agradável de fazer uma comparação
e análise dos dados, uma vez que ajudam a visualizar a distribuição das observações.
Todos os gráficos devem apresentar legenda, título e escala. Deve ser possível com-
preender as informações descritas nele sem precisar realizar a leitura do texto auxiliar
(Vieira, 2016, p. 18).

60
Os gráficos de barras são utilizados para resumir a frequência para categoria da va-
riável. Podem ser de frequência absoluta (contagem de pessoas que deram aquela
resposta) ou frequência relativa (proporção de pessoas que deram a resposta). Eles
podem ter barras horizontais ou verticais, que serão definidas pelas características dos 4
dados e da variável. É possível ser com apenas uma variável ou pode mostrar a distri-
buição entre duas variáveis qualitativas (Figura 1).

Universidade São Francisco


Figura 01. Exemplo de gráfico de barras horizontais com duas variáveis

FREQUÊNCIA RELATIVA DA AVALIAÇÃO NUTRICIONAL


POR CATEGORIA PROFISSIONAL

Técnico(a) em nutrição e dietética

Técnico(a) de enfermagem

Psicólogo(a)

Médico(a)

Fisioterapeuta

Farmacêutico(a)

Auxiliar em saúde bucal

0% 10% 20% 30% 40% 50% 60% 70% 80%

Baixo Peso Peso Adequado Sobrepeso Obesidade

Fonte: elaborada pela autora.

O gráfico de setores (figura 2), conhecido também como de “pizza”, é bem tradicional e
de fácil compreensão. Normalmente, é utilizado em apresentações e pôster. Não é reco-
mendado para artigos científicos, quando há restrição do número de imagens e as infor-
mações podem ser descritas em forma de texto sem prejudicar a compreensão do leitor.

Bioestatística 61
Apresentação de dados

Figura 02. Exemplo de gráfico de pizza com a frequência absoluta para descrever uma variável

4 CATEGORIA PROFISSIONAL DOS SUJEITOS DA PESQUISA

13

73
Auxiliar em saúde bucal
118 Farmacêutico(a)
Fisioterapeuta
Médico(a)
Psicólogo(a)
Técnico(a) de enfermagem
Técnico(a) em nutrição e dietética
64
22
39 14

Fonte: elaborada pela autora.

Os gráficos de dispersão são muito utilizados quando se faz um teste estatístico de


correlação. Ele acontece quando se cruza duas variáveis numéricas, de preferência
contínuas, que são representadas em cada eixo. Cada ponto do gráfico representa um
indivíduo (Figura 3).

62
Figura 03. Exemplo de gráfico de dispersão dos dados (azul) com regressão linear simples

REGRESSÃO LINEAR DA NOTA DA PROVA COM O TEMPO DE 4


REALIZAÇÃO DA PROVA

Universidade São Francisco


11

10

8
Nota

3
35 45 55 65 75 85 95
Tempo

Nota Previsto(a) nota

Fonte: elaborada pela autora.

Os gráficos podem ter uma linha estimada a partir dos dados encontrados. Essa linha é o
resultado do teste estatístico de regressão, a qual pode ser linear ou logística. Os pontos
dessa reta ou curva é uma previsão. No exemplo da Figura 3 seria possível, a partir da
regressão, prever qual seria a nota do aluno somente pelo tempo de realização da prova.

Quando a reta da regressão linear está “subindo”, pode-se concluir que existe uma
correlação positiva entre as variáveis, ou seja, quando uma aumenta a outra aumenta
também. Quando a reta está “descendo” a correlação é negativa, ou seja, as variáveis
são inversamente proporcionais – quando uma aumenta a outra diminui. Quanto mais
inclinada a reta, maior a intensidade da correlação. Quando a reta da regressão está
próxima do sentido horizontal, a correlação é nula (Vieira, 2016, p. 57).

Um outro gráfico possível é o diagrama de caixa (em inglês boxplot). Ele é muito bom para
descrever visualmente a dispersão de uma variável quantitativa. A figura 4 detalha o que
significa cada parte do gráfico e nos ajuda a interpretá-lo. Lembrando que quartil são os
pontos de corte que dividem o conjunto de dados em quatro partes iguais, portanto, do
valor mínimo até o primeiro quartil estão 25% das observações e assim por diante.

Bioestatística 63
Apresentação de dados

Figura 04. Descrição das estruturas de um diagrama de caixa

4 Valor máximo

25%

3º quartil
25%
2º quartil

25%

1º quartil

25%
Valor mínimo

Fonte: elaborada pela autora.

Conforme a distância das linhas dos pontos de corte é possível saber se os valores estão
dispersos ou concentrados. Existem gráficos que apresentam diversos diagramas de caixa,
cada um representando uma categoria. A figura 5 é um exemplo desse tipo de gráfico em que
se consegue visualmente comparar a distribuição dos dados e diversas categorias (anos).

Figura 05. Exemplo de gráfico de diagrama de caixa

100

80

60
Percentual

40

20

0
1995 1996 1997 1998 1999 2000 2001 2002

64
OBS: O boxplot presenta os valores mínimo, máximo e os percentis 25, 50 (mediana) e 75 do
percentual de casos diagnosticados em estádio inicial por ano.

Figura 1 - Distribuição percentual dos casos de câncer de mama diagnosticados em estádios 4


avançados da doença (III e IV). Brasil, 1995 a 2002.

Fonte: Thuler e Mendonça (2005, p. 658)

Universidade São Francisco


Um outro tipo de gráfico é o histograma (figura 6). Ele é uma representação gráfica de
distribuição de dados que consiste em barras verticais justapostas. No eixo horizon-
tal, são apresentados os intervalos ou classes dos dados, enquanto no eixo vertical, é
representada a frequência ou densidade de frequência. A forma e a altura das barras
fornecem informações sobre a distribuição dos dados, incluindo sua tendência central,
variabilidade e padrões de comportamento. Histogramas são úteis para visualizar e
compreender a forma da distribuição dos dados em um conjunto de observações. São
bons para descrever se a variável tem distribuição normal, tanto que é um gráfico co-
mum em variáveis quantitativas contínuas.

Figura 06. Exemplo de histograma com a frequência absoluta para descrever uma variável

NOTA FINAL DE BIOESTATÍSTICA EM 2023

50

40

30

20

10

0
4,00 4,38 4,75 5,13 5,50 5,88 6,25 6,63 7,00 7,38 7,75 8,13 8,50 8,88 9,25 9,63 10,00

Fonte: elaborada pela autora.

2.2 TABELAS
Uma tabela permite ao leitor uma melhor aplicabilidade já que disponibiliza um maior
número de informação e permite que o leitor faça sua interpretação. A estatística des-
critiva pode ser apresentada em tabela com as frequências absoluta e relativa e com as
medidas de tendência central e as de dispersão. A Tabela 1 exemplifica isso ao compa-
rar os grupos caso e controle.

Bioestatística 65
Apresentação de dados

Tabela 01. Resultado da estatística descritiva dos grupos da pesquisa (caso e controle) por meio de frequ-
ência absoluta e relativa ou média e desvio padrão

GRUPO CASO GRUPO CONTROLE


4 (N = 15) (N = 30)

Sexo feminino 10 (66,7%) 10 (33,3%)

Idade média [Desvio padrão] 45,2 [±5,4] 49,7 [±4,1]

Escolaridade

Analfabeto 2 (13,4%) 8 (26,67%)

Ensino fundamental 8 (53,3%) 10 (33,3%)

Ensino médio 5 (33,3%) 12 (40%)

Ocupação

Desempregado 3 (20%) 4 (13,4%)

Emprego informal 6 (40%) 16 (53,3%)

Emprego formal 6 (40%) 10 (33,3%)

Fonte: elaborada pela autora.

Na tabela 1 é possível ver que as medidas qualitativas foram descritas usando frequ-
ência absoluta e relativa, enquanto a variável quantitativa a descrição foi por média e
desvio padrão. Essas informações estão no título e por isso deve estar claro. Caso não
estivesse no título é possível que a informação [±5,4] pudesse ser o intervalo de con-
fiança e não o desvio padrão da amostra.

Junto com os títulos de cada coluna há a informação no número referente ao “N”. “N”
significa o total amostral, seja total ou em subgrupos. Então se percebe que o grupo
controle tem o dobro de sujeito de pesquisa do que o grupo caso.

Em tabela com frequência relativa, é importante usar o mesmo critério de arredonda-


mento e que a soma dos 100% pode ser entre as linhas ou entre as colunas. Sempre
confirme se a soma das frequências relativas é 100%. Somar os valores de frequências
também pode ajudar a entender qual situação está.

A estatística analítica, preferencialmente, é apresentada em forma de tabela para fornecer


mais detalhamento da distribuição, deixando transparente os valores obtidos. É por isso
que é comum resultados de pesquisa serem descritos em grandes tabelas que contêm
informações de diversas variáveis. Isso acontece, principalmente, quando é um estudo
que investiga diversos fatores que possam estar associados a um mesmo desfecho. Por
exemplo, um estudo de coorte que avaliou as causas de internação e a complicação de
sepse. As análises bivariadas foram feitas utilizando o teste qui-quadrado (Tabela 2).

66
A tabela abaixo mostra os resultados com o p-valor das análises bivariadas e risco rela-
tivo com intervalo de confiança de 95% (IC95%).

Tabela 02. Exemplo de tabela de resultado com estatística analítica de um estudo coorte que avalia a 4
associação das causas de internação e o risco de desenvolver sepse

Universidade São Francisco


SEPSE
CAUSA DE INTERNAÇÃO N (N=100) RISCO RELATIVO (IC 95%) P-VALOR
N (%)

Pneumonia

Presente 23 21 (91,3) 3,35 (2,28 a 4,92) <0,0001

Ausente 77 21 (27,3) Ref

Apendicectomia

Presente 14 7 (50,0) 1,23 (0,69 a 2,20) 0,7173

Ausente 86 35 (40,7) Ref


Fonte: elaborada pela autora.

Uma estratégia para interpretar uma tabela que tem muita informação com colunas
que têm conteúdos diferentes, é olhar para pequenos setores da tabela. Vamos fazer
essa estratégia com a Tabela 2. No título percebe-se que a tabela irá demonstrar as
possíveis associações entre causas de internação com o risco de sepse, ou seja, nesse
estudo as causas de internação são a exposição investigada e a presença de sepse e
o desfecho investigado. A primeira coluna encontra-se a lista de causas de internação
que tem como possibilidade de resposta presença ou ausência dessa causa. As causas
estão alinhadas a esquerda enquanto as possibilidades de resposta a direita.

Ao montar a tabela com a primeira coluna com várias variáveis, é como estivéssemos
criando subgrupos de comparação dos dados. Então as estatísticas analíticas irão olhar
separadamente para cada grupo de causa de internação. Por isso, vamos focar agora
somente nas linhas de pneumonia presente e ausente. A interpretação que fizemos para
pneumonia depois deve ser repetida com as outras variáveis listadas na primeira coluna.

A segunda coluna da tabela “N (n=100)” informa a frequência absoluta das respostas


de quem tem ou não pneumonia. Então, somente 23 pessoas tiveram pneumonia. A
informação “n=100” refere-se que o total da amostra é de 100 pessoas. A coluna “Sepse
n (%)” resume a frequência absoluta e relativa da presença de sepse nos subgrupos
(presença e ausência de pneumonia). Então entre as 23 pessoas que tinham pneumo-
nia, 21 tiveram sepse, o que significa que 91,3% das pessoas com pneumonia tiveram
essa complicação.

As duas últimas colunas da tabela 2 falam de análise estatística. A coluna “Risco Relati-
vo (IC 95%)” mostra o risco relativo da comparação em ter pneumonia aumenta, diminui
ou não influência em ter sepse. Além da estimativa do RR na amostra, na coluna há o
seu intervalo de confiança de 95%. O termo “Ref” observado na linha ausente define

Bioestatística 67
Apresentação de dados

que não ter pneumonia é característica de referência na comparação, por isso que
se sabe que a avaliação de risco de desenvolver sepse é entre ter pneumonia contra
não ter. A coluna do “p-valor” mostra com é o resultado do teste de hipótese da análi-
4 se entre as variáveis pneumonia e sepse. Na tabela 2 não está determinado qual foi
o tipo de teste realizado, mas o ideal é que esteja claro no título ou na legenda quais
foram os testes feitos.

Agora que dá para entender todas as informações disponíveis na tabela 2, vamos para
a interpretação do que está posto. Avaliando o Risco relativo, ele é maior do que 1,0 e
todos os valores dentro do intervalo de confiança são maiores do que 1. Então, pode-se
concluir que ter como causa de internação pneumonia aumenta o risco do paciente de-
senvolver sepse. Ao avaliar o p-valor, esse é menor do que 0,05, o que leva à conclusão
de que existe associação entre as duas variáveis.

Apesar de não aparecer no exemplo da tabela 2, ao avaliar tanto o intervalo de confian-


ça da estimativa quanto o p-valor, pode ocorrer discordância entre as conclusões. Pode
ocorrer que ao interpretar o risco relativo e o IC95% conclua-se uma associação, mas o
resultado do p-valor ser maior do que 0,05.

3. USO DE SOFTWARES
Ao realizar a análise dos dados, utilizam-se softwares de tabulação e de análise esta-
tística que facilitam o processo. É importante sempre mencionar na seção métodos do
trabalho qual software foi utilizado e sua versão.

Para a organização dos dados, normalmente, utiliza-se o Excel ou o Google Planilhas


– eles são muito similares. Neles é possível organizar o banco dos dados coletados,
realizar estatística descritiva, estruturar as tabelas de resultados e gerar gráficos.

Tanto o Excel como o Google Planilhas trabalham com células que são as casas da ta-
bela. Elas são nomeadas pela coluna e linha em que estão. Exemplo: a célula que está
na segunda coluna (coluna B) e na terceira linha (linha 3) tem o nome de B3. A Tabela 3
representa uma tabulação de um conjunto de dados de seis pessoas. O valor referente
à célula B3 seria 2,3, que é a nota que a aluna M.C.M tirou na prova.

Tabela 03. Exemplo de tabulação dos dados

A B
1 INICIAIS DO NOME NOTA

2 V.L.M 8,1

3 M.C.M 2,3

4 G.F.M.M. 1,6

5 D.C.C.G 7,4

6 J.M.R. 9,0

7 S.E. 10

Fonte: elaborada pela autora.

68
Nesses softwares, é possível inserir comandos que realizam operações matemáticas
ou funções que fazem o cálculo mais facilmente. Para que o software realize qualquer
função ou conta é preciso iniciar digitando o sinal “=”, assim o programa sabe que ou
uma operação matemática ou uma função deve ser realizada. A Tabela 4 mostra alguns 4
comandos e funções que eles podem realizar. Para saber mais informações, busque na
aba fórmulas de cada software.

Universidade São Francisco


Figura 07. Exemplo de comandos de análise de dados do conjunto de observações descritos na Tabela anterior

RESULTADO DA
AÇÃO COMANDO
OPERAÇÃO

Soma de dois valores =A1+A2 10,4

Média do conjunto de dados =MÉDIA(A2:A7) 6,4

Contagem de quantas notas foram menores que


=CONT.SE(A2:A7;”<6”) 2
6,0 no conjunto de dados
Fonte: elaborada pela autora.

Os softwares de tabulação são capazes de realizar algumas análises estatísticas, mas


existem vários pacotes e softwares estatísticos tanto nacionais como internacionais que
conseguem realizar a grande maioria das análises estatísticas. Alguns desses pacotes
ou softwares estatísticos são pagos e outros são de livre acesso. Nesta unidade será
apresentado o software R. Outros programas utilizados com frequência na área da saú-
de são o SPSS e o BioStat.

SAIBA MAIS
O software R é livre e aberto para download. Ele foi inicialmente desenvolvido na University
of Auckland, e atualmente é mantido por um esforço colaborativo com uma equipe central.

Para mais informações, visite: https://www.r-project.org/. Acesso em: 23 jul. 2021.

O software SPSS é da IBM. Ele é pago e com uma interface agradável de utilizar.

Para conhecer, clique em: https://www.ibm.com/br-pt/products/spss-statistics. Acesso


em: 23 jul. 2021.

O software BioStat é uma opção de programa nacional de livre acesso que é mantido pelo
Instituto de Desenvolvimento Sustentável Mamirauá. Ele é simples de utilizar e é em português.

Disponível em: https://www.mamiraua.org.br/downloads/programas/. Acesso em: 23 jul. 2021.

Bioestatística 69
Apresentação de dados

O software R é muito utilizado internacionalmente em diversos campos de estudo. Ele


tem uma versão que é o RStudio que apresenta uma interface mais agradável. Uma
dificuldade é que os comandos, algumas funções e alguns resultados são em inglês.
4
Uma vantagem é que existem pacotes que podem ser baixados com comandos específi-
cos para alguns tipos de pesquisa e análises estatísticas. Por exemplo, os dados de dis-
tribuição das residências divididas nos setores censitários é um desses pacotes. Então,
se alguém deseja fazer um levantamento populacional com uma amostra aleatória com
sorteio de endereços por setor será prático com o uso desse software e pacote estatístico.

EXEMPLO
Uma pesquisa avalia características de um grupo de 69 alunos que realizaram uma prova.
Uma das análises a ser testada é se o tempo que cada aluno ficou na prova influencia na nota
que ele tirou. Vamos considerar um nível de significância de 95%, a variável tempo de prova
é qualitativa com duas categorias: quem demorou menos ou mais do que uma hora e que a
variável nota é quantitativa com tem distribuição normal.

Na Figura 7, há o teste estatístico para responder essa hipótese em que a análise foi feita no
software R. Em azul há o comando para se realizar um teste t comparando as médias das
notas de dois grupos, os que fizeram a prova em um tempo menor que uma hora e os que
fizeram em um tempo maior. O resultado é o p-valor (na Figura, p-value) de 0,04233, o que
significa que a proporção de se ter errado um erro tipo I é baixa, então, deve-se aceitar a
hipótese alternativa, que é dizer que existe uma diferença entre as médias de notas dos dois
grupos. Nas últimas linhas da Figura 5 está a média (na Figura, mean que significa média em
inglês) de notas nos dois grupos. O grupo x é o primeiro mencionado (quem demorou menos
tempo), e tem média de 8,18. O grupo y que é o que demorou mais tempo, tem média de 9,0.

Figura 08. Exemplo de comando e resultado de um teste estatístico no software RStudio

Fonte: captura de tela realizada pela autora do software RStudio.

70
CONCLUSÃO
Como profissionais de saúde, é nosso papel atuar baseado em evidências. Mas não se
deve acreditar em qualquer evidência – precisa ser científica, com métodos definidos 4
e análises estatísticas, além disso, a pesquisa precisa ser transparente e sem conflitos
de interesse. Para tanto é preciso avaliar o quanto se confia nas informações disponi-
bilizadas. Analisar a qualidade da pesquisa vai além de onde a pesquisa foi publicada

Universidade São Francisco


e se o autor é famoso. A sua avaliação como leitor deve ser quanto ao método que a
pesquisa foi desenvolvida e os seus resultados. Durante todo o processo deve ser claro
as etapas da coleta de dados e de amostragem para garantir que o leitor consiga julgar
presença de erros e vieses.

Bioestatística 71
Apresentação de dados

REFERÊNCIAS BIBLIOGRÁFICAS
ALMEIDA FILHO, N.; BARRETO, M. L. Epidemiologia & Saúde: Fundamentos, Métodos e Aplicações. Rio
de Janeiro: Guanabara Koogan, 2011.
4
FLETCHER, R. H.; FLETCHER, S. W.; FLETCHER, G. S. Epidemiologia clínica: elementos essenciais. 5.
ed. Porto Alegre: ArtMed, 2014.

ROUQUAYROL, M. Z.; GURGEL, M. Rouquayrol: epidemiologia & saúde. 8. ed. Rio de Janeiro: Medbook,
2018. 752 p.

THULER, L. C. S.; MENDONÇA, G. A. Estadiamento inicial dos casos de câncer de mama e colo do útero em
mulheres brasileiras. Revista Brasileira de Ginecologia e Obstetrícia, [s. l.], v. 27, n. 11, p. 656-660, 2005.
Disponível em: https://doi.org/10.1590/S0100-72032005001100004. Acesso em: 18 fev. 2024.

VIEIRA, S. Introdução à bioestatística. 5. ed. Rio de Janeiro: Elsevier, 2016.

72
Bioestatística
73
4

Universidade São Francisco

Você também pode gostar