Você está na página 1de 47

BIOESTATÍSTICA

Centro de Desenvolvimento de Materiais Didáticos – CEMAD

Nenhuma parte desta obra pode ser reproduzida sem a autorização, por escrito, da Fundação.
Em relação ao material de terceiros utilizado neste livro, o Centro de Desenvolvimento de
Materiais Didáticos e os colaboradores esforçaram-se para consultar e pedir a autorização dos
responsáveis pelos respectivos direitos autorais. Se, entretanto, for constatada qualquer
omissão não intencional, estamos à disposição para solucioná-la.

Araras – SP
2020
BIOESTATÍSTICA
1ª edição

Gislaine Maria Fontanetti Bortolotti


© 2020 Fundação Hermínio Ometto – FHO
Todos os Direitos Reservados

Reitor
Prof. Dr. José Antonio Mendes
Pró-reitores
Prof. Dr. Olavo Raymundo Jr. (Graduação)
Prof. Dr. Marcelo A. M. Esquisatto (Pós-graduação e Pesquisa)
Diretor Administrativo-financeiro
Francisco Elíseo Fernandes Sanches
Coordenadora de Comunidade e Extensão
Profa. Ma. Cristina da Cruz Franchini
Desenvolvimento
Centro de Desenvolvimento de Materiais Didáticos – CEMAD

www.fho.edu.br

FICHA CATALOGRÁFICA
Elaborada pela Biblioteca “DUSE RÜEGGER OMETTO”
- UNIARARAS –

Bortolotti, Gislaine Maria Fontanetti.


B739b Bioestatística. / Gislaine Maria Fontanetti Bortolotti. – 1. ed. – Araras,
SP: Fundação Hermínio Ometto-FHO/CEMAD, 2020.
45p. il. (1.207KB)

ISBN: 978-65-87752-11-2

1. Bioestatística. – Estudo e ensino. I. Fundação Hermínio Ometto –


FHO. II. Centro de Desenvolvimento de Materiais Didáticos – CEMAD.
III. Título.

CDD 570.15195

Fundação Hermínio Ometto – FHO


Av. Dr. Maximiliano Baruto – 500
Jardim Universitário – 13607-339 – Araras – SP
Sumário

Capítulo 1 ................................................................................................................... 7
Introdução e conceitos básicos
1.1 População e amostra ............................................................................................................ 8
1.1.1 Algumas técnicas de amostragem ...................................................................................... 9
1.1.1.1 Amostra casual (aleatória) simples ................................................................................. 9
1.1.1.2 Amostra sistemática .......................................................................................................... 9
1.1.1.3 Amostra estratificada ........................................................................................................ 9
1.1.1.4 Amostra por conveniência ............................................................................................10
1.2 Variável ..................................................................................................................................10
1.3 Arredondamentos ...............................................................................................................11

Capítulo 2 .................................................................................................................. 12
Tabelas
2.1 Estrutura de tabelas ......................................................................................... 12
2.2 Tabelas de frequência para variáveis quantitativas discretas .......................... 14
2.3 Tabelas de frequências para varáveis quantitativas contínuas por classes ..... 15
2.4 Exercícios ........................................................................................................ 18

Capítulo 3 ................................................................................................................. 20
Gráficos
3.1 Tipos de gráficos ................................................................................................................20
3.1.1 De colunas...........................................................................................................................21
3.1.2 De barras .............................................................................................................................21
3.1.3 De linhas..............................................................................................................................22
3.1.4 De setores (pizza)...............................................................................................................23
3.1.5 Pictograma...........................................................................................................................24
3.1.6 Histograma e polígonos de frequências (tabelas de frequências) ...............................25
3.1.7 Gráficos sobrepostos.........................................................................................................27
3.2 Exercícios .............................................................................................................................28
Capítulo 4 ................................................................................................................. 30
Medidas de tendência central
4.1 Média aritmética .................................................................................................................30
4.2 Mediana ................................................................................................................................31
4.3 Moda ......................................................................................................................................32
4.4 Exercícios .............................................................................................................................33

Capítulo 5 ................................................................................................................. 34
Medidas de dispersão (ou variabilidade)
5.1 Variância ...............................................................................................................................35
5.2 Desvio padrão......................................................................................................................37
5.3 Coeficiente de variação ....................................................................................................37
5.4 Exercícios .............................................................................................................................38

Capítulo 6 .................................................................................................................. 41
A distribuição normal e o p-valor
6.1 Distribuição normal ......................................................................................... 41
6.2 Compreendendo o valor de p na análise estatística ....................................... 43
6.2.1 Importância da análise estatística.....................................................................................43
6.2.2 O que é o tal valor de p ou p-valor? ...............................................................................43

REFERÊNCIAS ...................................................................................................... 45
Capítulo 1

Introdução e conceitos básicos

A Bioestatística nada mais é que a Estatística aplicada às Ciências


Biológicas, antigamente chamada de “Estatística Vital”.
A origem do nome “Estatística” é do termo em latim status (estado) e,
antigamente, chamada de negócios do Estado, daí Estatística vem de Estadística,
como consta no dicionário aberto (DICIONÁRIO ABERTO, s/p):
Ciência, que tem por objetivo a extensão, população e
recursos econômicos de um Estado. Estadística: descrição
de um país, sob o ponto de vista da extensão, população,
recursos econômicos, etc. Conjunto de elementos
numéricos, atinentes a certa ordem de fatos sociais.

A palavra estatística pode ser empregada de formas diferentes:


✓ A “Estatística”, com letra maiúscula (nome próprio) é a ciência, o
método científico, segundo Vieira (2004, p. 1). “no sentido
acadêmico, Estatística é a ciência que trata da coleta, apuração,
classificação e análise de dados com o objetivo de tomar melhores
decisões.”.
✓ “estatística”, com letra minúscula, é uma estimativa ou um
parâmetro utilizado no estudo de um conjunto de dados, por
exemplo, a média dos dados é uma estatística.

Será abordada aqui a Estatística descritiva, que é a parte da ciência que


se encarrega de descrever dados por técnicas adequadas para resumir e
apresentá-los. Não há aqui subsídios de para extrapolar as conclusões de
pequenos conjuntos para conjuntos bem maiores.

7
O avanço dessa ciência e, principalmente da informática, estende-se às
Ciências Biológicas como uma forma de aprimorar resultados. Segundo Vieira
e Hossne (2001, p. 5),
O emprego da análise estatística na pesquisa biomédica
constitui, sem dúvida alguma, um dos fenômenos mais
marcantes das últimas décadas. Este aprimoramento da
metodologia científica levou não só à maior objetividade na
análise dos resultados como também ao aprofundamento
do espírito crítico do pesquisador. Desse modo, procurou-
se substituir a impressão na base do “eu acho” pela
observação criteriosa dos achados.

Para melhor emprego dessa ciência, há alguns conceitos básicos.

1.1 População e amostra

O estudo estatístico não é feito tendo como referência uma única


pessoa ou um fato isolado, e sim um conjunto de elementos. Esse conjunto é
chamado de população, a qual pode ser finita ou infinita. Diz-se finita quando
são tão poucos dados ou um número de dados que não se necessita tomar
uma amostra deles. Diz-se infinita quando o número de dados for tão grande
que se torna inviável ou impossível de analisar, então toma-se uma amostra
que possa ser representativa do total. Cada elemento é chamado de indivíduo.
Segundo Vieira (1980, p. 2),
Entende-se por população o conjunto de elementos que
têm, em comum, determinada característica. Todo
subconjunto não vazio e com menor número de elementos
do que a população constitui uma amostra dessa população.
As populações podem ser finitas, como o conjunto de
alunos de uma escola em determinado ano, ou infinitas,
como o número de vezes de se pode jogar um dado.

8
1.1.1 Algumas técnicas de amostragem
Como foi dito anteriormente, muitas vezes é necessário tomar uma
amostra da população, porém é necessário também fazê-lo com critérios e
técnicas bem estabelecidos. Segundo Vieira (1980), as principais técnicas de
amostragem são:

1.1.1.1 Amostra casual (aleatória) simples


É aquela retirada da população ao acaso, por sorteio, por exemplo.
Neste caso, todos os elementos da população têm iguais probabilidades de
serem escolhidos. Por exemplo: a direção de uma instituição de ensino precisa
tomar um grupo de alunos, então faz-se isso por sorteio do número do RA
(registro do aluno) de todos os alunos da escola.

1.1.1.2 Amostra sistemática


Quando os elementos são escolhidos por sistemas, e não ao acaso. Por
exemplo: a direção de uma instituição de ensino precisa tomar um grupo de
alunos, então faz-se isso por escola dos do número do RA (registro do aluno)
de todos os alunos da escola terminados por cinco.

1.1.1.3 Amostra estratificada


Quando os elementos são escolhidos por estratos da população. Por
exemplo: a direção de uma instituição de ensino precisa de um grupo de alunos
para estudar reais diferenças entre períodos que aluno cursa, então opta-se por
escolher alunos por período (estrato) e reunir todos em uma amostra só, final,
que é chamada de estratificada.

9
1.1.1.4 Amostra por conveniência
Quando os elementos são escolhidos simplesmente porque são os
disponíveis. Por exemplo: a direção de uma instituição de ensino precisa tomar
um grupo de alunos, e só os alunos do 1o período ou de uma sala se dispuseram
a participar do grupo.
Os estatísticos têm muitas restrições ao uso de amostras de
conveniência. Mesmo assim, as amostras de conveniência são
comuns na área da saúde, onde se fazem pesquisas com
pacientes de uma só clínica ou de um só hospital. Mas ainda,
as amostras de conveniência constituem, muitas vezes, a
única maneira de estudar determinado problema. De
qualquer forma, o pesquisador que utiliza este tipo de
amostra precisa de muito censo crítico. (VIEIRA, 1980, p. 5).

De toda forma, o pesquisador que trabalha com amostras tem por


objetivo, geralmente, deduzir sobre a população; ou seja, dos resultados
obtidos da amostra, estendê-los para a população de que a amostra proveio,
devendo então ser bem caracterizada para ser devidamente representativa.

1.2 Variável

Chamamos de variável estatística uma característica da população. Ela


pode ser quantitativa (numérica) ou qualitativa (caso seja ou não numérica).
As pesquisas realizadas para estudar nível de instrução, religião ou preferência
musical são exemplos de variáveis qualitativas. Já as pesquisas que envolvem
estatura, número de habitantes e idade são exemplos de variáveis quantitativas.
As variáveis quantitativas ainda podem ser:
Discretas, as quais são contáveis, por exemplo, quando podemos
tomar o número de pessoas.

10
Contínuas, as quais são mensuráveis, por exemplo, quando podemos
tomar altura, peso e idade.
Segundo Vieira (1980, p. 1), “uma variável é qualitativa quando os
dados podem ser distribuídos em categorias mutuamente exclusivas. Uma
variável é quantitativa quando é expressa por números.”

1.3 Arredondamentos

Regras:
✓ Se o dígito a ser suprimido for < 5, o algarismo precedente não é
alterado; por exemplo:
42,74 ⇔ 42,7
951,43 ⇔ 951,4

✓ Se o dígito a ser suprimido for > ou = 5, ao algarismo precedente é


somado 1; por exemplo:
42,76 ⇔ 42,8
951,47 ⇔ 951,5

11
Capítulo 2

Tabelas

2.1 Estrutura de tabelas

Segundo Vieira (1980), alguns itens básicos que uma tabela deve ter são:
Título: deve conter o que, quando, onde e com quem se pesquisa.
Corpo: deve ser disposto em linhas e colunas com cabeçalho.
Fonte: deve estar no rodapé e indicar a origem dos dados (quando os
dados foram coletados por meio de entrevista direta, a fonte é primária e
quando foram “inventados”, são chamados de hipotéticos ou “elaborados
pelo autor”).
Exemplo:

Tabela 1 Produção agrícola de um local em 2030.


Produto Produção (toneladas)
Soja 1500
Milho 1000
Café 800
Arroz 500
Feijão 300
Total 4100

Muitas vezes se faz necessário resumir os dados em tabelas de


frequências para melhor leitura e análise. A Tabela 2 a seguir é um exemplo de
tabela “bruta” (sem qualquer tratamento).

12
Tabela 2 Pesquisa sociocultural realizada com pessoas em determinado setor de
um hospital no período de um dia.
Indivíduo Sexo Religião Cidade
1 Feminino Católica Aguaí
2 Feminino Católica Americana
3 Feminino Católica Americana
4 Feminino Católica Analândia
5 Masculino não tem Araras
6 Feminino Católica Araras
7 Feminino Católica Araras
8 Masculino não tem Araras
9 Feminino Católica Araras
10 Feminino Católica Araras
11 Masculino não tem Araras
12 Feminino Católica Araras
13 Feminino Evangélica Araras
14 Feminino Católica Araras
15 Feminino Espírita Araras
16 Masculino Católica Campinas
17 Feminino Católica E. S. Pinhal
18 Masculino Evangélica E. S. Pinhal
19 Feminino Espírita Itu
20 Masculino Católica Itu
21 Feminino Católica Jacutinga
22 Feminino Católica Jacutinga
23 Feminino não tem Jundiaí
24 Masculino Católica Leme
25 Masculino Católica Leme
26 Masculino Católica Leme
27 Masculino Espírita Limeira
28 Feminino Católica Limeira
29 Feminino Católica Limeira
30 Feminino Católica Limeira
31 Masculino não tem Limeira
32 Feminino Espírita Mogi Guaçu
33 Masculino Evangélica Mogi Guaçu
34 Feminino Católica Mogi Mirim
35 Feminino não tem Mogi Mirim
36 Masculino Ateu Mogi Mirim
37 Feminino Católica Leme
38 Masculino não tem Leme
39 Feminino Católica Limeira
40 Feminino Católica Limeira

13
A Tabela 2 será transformada em tabelas de frequências.
Segue a tabela de frequências da variável sexo:

Tabela 3 Distribuição de pessoas, segundo o sexo, de um determinado


setor de um hospital no período de um dia.
Sexo No de pessoas
Feminino 26
Masculino 14
Total 40

As variáveis religião e cidade de origem ficam como exercício.


Observação: a ordem de citação das variáveis nas tabelas de frequências é feita
a partir de escolha, sendo a variação indeterminada por último, como
“outros”, porém o critério mais utilizado é ordem decrescente de frequência.

2.2 Tabelas de frequência para variáveis quantitativas


discretas

Exemplo:

Tabela 4 Distribuição dos pacientes de uma clínica segundo o no de irmãos.


Número de irmãos No de alunos
Nenhum 18
Um 40
Dois 25
Três 10
Quatro 5
Cinco ou mais 2
Total 100

14
Observação: para construção dessa tabela, a ordem deve ser feita na
ordem abordada.

2.3 Tabelas de frequências para varáveis quantitativas


contínuas por classes

Quando se estudam variáveis contínuas a partir de uma distribuição de


frequências, é necessário agrupar os dados em intervalos.
Exemplo:

Tabela 5 Notas, de 0 a 10, de alunos em uma avaliação (dados brutos e rol).


Tabela bruta: dados Rol: dados na ordem
desordenados crescente ou decrescente
10 4 9 7 4 0 3 5 6 8
8 4 10 5 4 1 3 5 6 8
3 3 8 5 7 2 4 5 6 8
0 6 8 5 7 2 4 5 7 9
1 5 2 6 6 3 4 5 7 10
3 2 3 5 6 3 4 6 7 10

Para melhor representar esses dados, é necessário organizá-los em uma


tabela de “Distribuição de frequências por classes (intervalos)”.

15
Tabela 6 Frequências por classes dos dados da tabela 5.

(repete-se o primeiro valor da frequência relativa


absoluta e soma-se sucessivamente às seguintes)
(onde ocorrer o símbolo|- conta-se esse limite

(contagem dos dados do rol por intervalos)

(repete-se o primeiro valor da frequência

e soma-se sucessivamente às seguintes)


(percentuais da frequência absoluta)

Frequência acumulada relativa


Frequência acumulada
Frequência absoluta

Frequência relativa
Classes – notas

nessa classe)

6,7
0 |---- 2 2 6,7 = (2/30) × 100 2 (=2)
(=6,7)
26,7
2 |---- 4 6 20,0 = (6/30) × 100 8 (= 2+6)
(=6,7+20,0)
56,7
4 |---- 6 9 30,0 = (9/30) × 100 17 (=2+6+9)
(=6,7+20,0+30,0)
80
6 |---- 8 7 23,3 = (7/30) × 100 24 (=2+6+9+7)
(=6,7+20,0+30,0+23,3)
100
8 |---| 10 6 20,0 = (6/30) × 100 30 (=2+6+9+7+6)
(=6,7+20,0+30,0+23,3+20)
Total 30 100 ------- -------

Para determinar o número de linhas que deve conter a tabela de


distribuição de frequências por classes, existem fórmulas matemáticas, mas
geralmente é feita a escolha do que é mais adaptável à pesquisa. Sempre
constará apenas uma das frequências calculadas anteriormente, pois todas
dizem respeito a mesma variável, mas de formas diferentes. Por exemplo: a
Tabela 7 mostra a distribuição das notas em percentuais do número de alunos.

16
Tabela 7 Distribuição em percentuais de notas, de 0 a 10,
de alunos em uma avaliação.
Notas Percentual
0 |------ 2 6,7%
2 |------ 4 20%
4 |------ 6 30%
6 |------ 8 23,3
8 |----|10 20%
Total 100%

Na Tabela 8, tem-se a distribuição da frequência acumulada, que é o


número de alunos que obtiveram notas abaixo do limite superior da classe, por
exemplo, 17 pessoas que obtiveram nota abaixo de 6.

Tabela 8 Distribuição de notas, de 0 a 10, do número acumulado


de alunos em uma avaliação.
Frequência acumulada
Notas
(no acumulado de pessoas)
0 |------ 2 2
2 |------ 4 8
4 |------ 6 17
6 |------ 8 24
8 |----|10 30
Total -------

17
2.4 Exercícios

1) São dados os pesos de 63 pessoas em quilogramas, como mostra a


Tabela 9:

Tabela 9 Pesos de 63 pessoas em quilogramas.


55 72 75 80 82 84 87 90 94
63 72 76 80 82 85 87 90 97
64 73 77 81 82 85 88 91 98
65 73 77 81 83 85 88 92 99
69 73 78 81 84 86 88 92 100
70 74 79 82 84 86 89 93 102
71 74 80 82 84 86 89 94 103

Construa uma tabela de frequências por classes, em que constem as


frequências: absoluta, acumulada, relativa e acumulada relativa, com
amplitude 6 kg.

18
2) São dadas as estaturas de 56 pessoas em metros, como mostra a
Tabela 10:

Tabela 10 Estaturas de um grupo de pessoas, em metros.


1,35 1,51 1,56 1,61 1,66 1,73 1,78 1,88
1,37 1,51 1,56 1,61 1,66 1,75 1,8 1,90
1,45 1,52 1,57 1,62 1,67 1,76 1,82 1,91
1,46 1,52 1,58 1,64 1,69 1,76 1,84 1,91
1,48 1,52 1,58 1,64 1,70 1,77 1,84 1,92
1,49 1,54 1,61 1,65 1,70 1,78 1,86 1,96
1,49 1,56 1,61 1,66 1,72 1,78 1,86 2,06

Construa uma tabela de frequências por classes, em que constem as


frequências: absoluta, acumulada, relativa e acumulada relativa, com amplitude
a escolher.

19
Capítulo 3

Gráficos

Muitas vezes, para melhor armazenar e descrever os dados coletados por


uma pesquisa, as tabelas não são tão chamativas. Quando se quer ter uma visão
generalizada e rápida, os gráficos são mais eficazes por terem apelo visual.

3.1 Tipos de gráficos

São vários os tipos de gráficos estatísticos; escolhemos um exemplo


para apresentar graficamente os dados. Podemos fazê-lo de várias formas. As
mais comuns são: de colunas, de barras, de linhas, de setores e o pictograma
(gráfico decorativo).

Tabela 11 Preferência esportiva de um grupo de pessoas em um local e em um dia.


Modalidade No de pessoas
Futebol 20
Vôlei 13
Basquete 7
Natação 5
Total 45

20
3.1.1 De colunas
O gráfico de colunas é construído no plano cartesiano – em que a
variável é representada no eixo horizontal, as frequências, no eixo vertical –,
composto por retângulos dispostos verticalmente; caracteriza-se por ter todos
os retângulos de mesma largura e cor e os comprimentos proporcionais às
frequências.

Figura 1 Gráfico de colunas da Tabela 11.

Preferência esportiva de um grupo de pessoas


em um local e em um dia.
20

16
nº de pessoas

12

0
Futebol Vôlei Basquete Natação
Esporte

3.1.2 De barras
O gráfico de barras é construído no plano cartesiano – em que a variável
é representada no eixo vertical, e as frequências, no eixo horizontal –, composto
por retângulos dispostos horizontalmente; caracteriza-se por ter todos os
retângulos de mesma largura e cor e os comprimentos proporcionais às
frequências.

21
Figura 2 Gráfico de barras da Tabela 11.

Preferência esportiva de um grupo de pessoas em


um local e em um dia.
Natação 5

Basquete 7
Esporte

Vôlei 13

Futebol 20

nº de pessoas

3.1.3 De linhas
O gráfico de linhas é construído no plano cartesiano – em que a variável
é representada no eixo horizontal, e as frequências, no eixo vertical –,
composto por uma linha poligonal (formada por segmentos de reta) que une
os pontos obtidos pelas marcações. A estrutura desse gráfico é mesma que o
de colunas, diferenciando-se pelo desenho final.

Figura 3 Gráfico de linha da Tabela 11.


Preferência esportiva de um grupo de pessoas
em um local e em um dia.
20
16
nº de pessoas

12
8
4
0
Futebol Vôlei Basquete Natação
Esporte

22
3.1.4 De setores (pizza)
O gráfico de setores, que ilustra variáveis qualitativas, tem formato de
círculo dividido em setores circulares, que representa, cada um, uma variação.
Dividimos os 360 graus do ângulo central do círculo proporcionalmente às
frequências. Como a soma das frequências em nosso exemplo é 45, faremos
corresponder esse número a 360o, então cada frequência corresponderá ao
ângulo central que dá origem ao setor circular.

Tabela 12 Cálculo dos ângulos do gráfico da tabela 10


para construção do gráfico de setores.
Modalidade No pessoas Ângulo (em graus)
Futebol 20 (20/45) x 360 = 160°
Vôlei 13 (13/45) x 360 = 104°
Basquete 7 (7/45) x 360 = 56°
Natação 5 (5/45) x 360 = 40°
Total 45 360°

O resultado desse gráfico está na Figura 4.

Figura 4 Gráfico de setores da Tabela 11.

Preferência esportiva de um grupo de pessoas


em um local e em um dia.
Natação
11%
Futebol
44%
Basquete
16%

Vôlei
29%

23
É importante ressaltar que, quando a quantidade de variações for muito
grande, não é recomendado utilizar o gráfico de setores, pois pode ficar
confuso. Isso acontece também quando é necessário fazê-lo em escala cinza,
já que pode ficar impreciso.

3.1.5 Pictograma
Uma forma interessante de representar dados em gráficos é o
pictograma, que nada mais é que um dos gráficos acima decorado. Na Figura 5
a seguir, por exemplo, o pictograma indica a Tabela 11 sobre a preferência
esportiva de um grupo de pessoas em um local e em um dia. Os pictogramas
não são cientificamente corretos, podem ser usados em publicações não
formalmente científicas.

Figura 5 Gráfico da Tabela 11.


Preferência esportiva de um grupo de
pessoas em um local e em um dia.
Natação
11%
Futebol
44%
Basquete
16%

Vôlei
29%

A Figura 6 foi extraída do site ONU BR (Nações Unidas no Brasil), veja


que é um gráfico de barras, porém decorado, sem rigor científico.

24
Figura 6 Projeção da população mundial até 2100.

Fonte: ONU (2017).

3.1.6 Histograma e polígonos de frequências (tabelas de frequências)


O histograma é o gráfico de colunas para variáveis quantitativas; é
construído no plano cartesiano, em que a variável é representada em intervalos
(classes) no eixo horizontal, e as frequências, no eixo vertical; caracteriza-se
por ter retângulos cujas bases têm a largura da classe e alturas proporcionais
às frequências. Lembrando que, por ser um gráfico de colunas que representa
apenas uma série de dados, deve ter todas as colunas de mesma cor e, pela
base ser a largura da classe, são justapostas.
Veja como fica o gráfico da Tabela 7 (distribuição em percentuais de
notas, de 0 a 10, de alunos em uma avaliação) na Figura 7.

25
Figura 7 Histograma da Tabela 7.
Distribuição de notas, de 0 a 10, do percentual
de alunos em uma avaliação.
30
30
25 23,3
20 20
20
percentual

15
10 6,7
5
0
0 |------ 2 2 |------ 4 4 |------ 6 6 |------ 8 8 |-----| 10
notas

O polígono de frequências é o gráfico de linhas para variáveis


quantitativas; é construído no plano cartesiano, em que a variável é
representada em intervalos (classes) no eixo horizontal, e as frequências, no
eixo vertical; caracteriza-se pela linha poligonal, que une os pontos obtidos
pelas marcações dos pontos médios das classes e as respectivas frequências.
Na Figura 8, tem-se a distribuição da frequência acumulada
representada na Tabela 8 (distribuição de notas, de 0 a 10, do número
acumulado de alunos em uma avaliação).

Figura 8 Polígono de frequência da Tabela 8.


Distribuição de notas, de 0 a 10, do percentual
30 de alunos em em uma avaliação.
nº acumulado de alunos

25
20
15
10
5
0
0 2 4 6 8 10
notas

26
3.1.7 Gráficos sobrepostos
São vários gráficos em apenas um, ou seja, tem mais de uma série de
dados representados. Na Figura 9, tem-se três gráficos em um só ou três séries
(candidatos A, B e C). As linhas devem ser de cor diferentes e/ou ter traçados
diferentes, nesse caso traçados, pois temos escala cinza.

Figura 9 Pesquisa sobre intenção de voto, em percentuais,


para presidente do país Sengente em um ano.
Pesquisa sobre intenção de voto, em percentuais,
para presidente do país Sengente em um ano
50
40
percentual

30
20
10
0
abril maio junho julho mês
candidato A candidato B candidato C

A Tabela 13 contém duas séries de dados.

Tabela 13 Distribuição da população brasileira por domicílio de 1950 a 2010.


População
por
1950 1960 1970 1980 1990 2000 2010
situação do
domicílio
Rural 33161506 38987526 41603839 39137198 36041633 31835143 29830007
Urbana 18782891 32004817 52904744 82013375 110875826 137755550 160925792
Total 51944397 70992343 94508583 121150573 146917459 169590693 190755799
Fonte: IBGE (2020).

27
Construindo seu gráfico, tem-se a figura 10.

Figura 10 Gráfico sobre distribuição da população brasileira


segundo região de moradia, de 1950 a 2010.
População brasileira por situação do domicílio de
1950 a 2010
200
habitantes em milhões

150

100

50

0
1950 1960 1970 1980 1990 2000 2010
ano Rural Urbana

Fonte: elaborada pelo autor com base na Tabela 13 (IBGE, 2020).

3.2 Exercícios

1) Interprete o gráfico da Figura 6, que fala


sobre a projeção da população mundial até 2100, e
transforme-o em texto.

28
2) Transforme o gráfico da Figura 11 em tabela estatisticamente correta
e completa.
Figura 11 Número de casos de doenças epidêmicas
em determinado local em dois anos.
Número de casos de doenças epidêmicas em
determinado local em dois anos ano 2002
700
600 ano 2003
500
nº de casos

400
300
200
100
0
Dengue Tuberculose AIDS Gripe Hanseniase

doenças

29
Capítulo 4

Medidas de tendência central

Tabelas e gráficos fornecem informações básicas sobre as variáveis em


estudo, no entanto, se essas forem quantitativas, são necessárias mais
informações e medidas que mostrem como é a variação da distribuição.
As medidas de tendência central dão o valor do ponto em torno do
qual os dados se distribuem, são elas: média aritmética, mediana e moda.

4.1 Média aritmética

Para obter a média aritmética, basta somar todos os dados e dividir pelo
número de dados.
Ela é representada por X = soma dos dados/no de dados.
Por exemplo: a partir de idades de adolescentes, calcule a média de
idades.

10 11 12 14 15 10 11 12 14 10 11 12 14 10 11 11 14
X = 202 / 17 = 11,9 (aproximando) 12 anos.
Para melhor entendimento:
4 x 10 + 5 x 11 + 3 x 12 + 4 x 14 + 1 x 15 =40 + 55 + 36 + 56 + 15
= 202/17 = 11,9

30
4.2 Mediana

A mediana é o valor central do “rol”. O rol é a sequência de dados em


ordem crescente ou decrescente.
Podemos ter duas situações para obter o valor da mediana:
✓ Cálculo da mediana nas séries que contêm um número ímpar de dados.
Exemplo 1:
As notas dos alunos de uma classe são:
6, 5, 5, 7, 4, 6, 9, 0, 4, 6, 8, 7, 3, 5 e 8
Organizando essas notas em ordem crescente:
0, 3, 4, 4, 5, 5, 5, 6, 6, 6, 7, 7, 8, 8, 9
7 notas mediana 7 notas
Mediana = 6

✓ Cálculo da mediana nas séries que contêm um número par de dados.


As notas dos alunos de uma classe são:
8, 9, 5, 0, 4, 5, 6, 7, 8, 5
Organizando essas notas em ordem crescente:
0, 4, 5, 5, 5, 6, 7, 8, 8, 9
Consideram-se os dois valores centrais, a mediana será o valor médio
desses valores.
(5 + 6)/2 = 11/2 = 5,5
Mediana = 5,5

31
4.3 Moda

A moda é(são) o(s) valor(es) de maior frequência da sequência de


dados.
Em uma série, nem sempre temos apenas uma moda, e sim várias ou
nenhuma. Quando determinamos a moda, devemos também classificar a
sequência de dados quanto ao número de modas. A classificação diz se a
sequência tem:
1 moda - a distribuição é unimodal.
2 modas - a distribuição é bimodal.
3 modas - a distribuição é trimodal.
4 ou mais modas - a distribuição é polimodal.
Nenhuma moda - a distribuição é amodal.

Exemplo 1: na série de valores 0, 2, 5, 3, 3, 1, 2, 3, 0, 7, 3, 5, a moda


é 3, já que o número 3 tem maior frequência, pois aparece 4 vezes.
Exemplo 2: na série 0, 0, 3, 3, 5, 5, 6, 6, 7, 8, 9, a distribuição é
polimodal, pois possui 4 modas: mo1 = 0; mo2 = 3; mo3 = 5; mo4 = 6.
Exemplo 3: na série 0, 3, 6, 10, 11, 5, 4, 8, a distribuição é amodal, pois
não contém moda.

32
4.4 Exercícios

1) Calcule, em miligramas por decilitro de sangue (mg/dL), as três


medidas de tendência central das taxas de glicemia em jejum de um grupo de
pessoas com a mesma idade e as mesmas condições clínicas.
98 90 100 105 80 95 70 110

2) Calcule, em quilogramas (kg), as três medidas de tendência central


dos pesos de adolescentes.
41,5 56,2 60,2 80,5 71,9 56,2 71,9 52,7 55 61,9 52,7 50,8

3) Calcule, em metros (m), as três medidas de tendência central das


estaturas de um grupo de adultos.

1,55 1,65 1,65 1,66 1,70 1,60 1,61 1,75 1,68 1,6 1,57 1,6
1,75 1,73 1,55 1,75

33
Capítulo 5

Medidas de dispersão (ou variabilidade)

A estatística analisa grandes séries de dados e não é possível descrevê-


los com base em um único parâmetro. Já vimos as medidas de tendência
central, precisamos de uma outra medida que avalie a variabilidade desses
dados, ou seja, uma medida de dispersão (ou variabilidade).
Há várias formas de medir a variabilidade de um grupo de dados, desde
simplesmente a amplitude, que nada mais é que o valor máximo menos o valor
mínimo, até as mais sofisticadas sob o ponto de vista matemático. Vamos
apresentar aqui as mais utilizadas na área da saúde.

Exemplo:
Idades dos alunos turma A: 15, 15, 14, 14, 14, 13, 13
Média 14 anos
Idades dos alunos turma B: 18, 16, 15, 14, 13, 12, 10
Média 14 anos

As idades dos grupos A e B são diferentes, porém a média é a mesma.


As diferenças entre as idades do grupo A e a média são:
1, 1, 0, 0, 0, -1, -1
As diferenças entre as idades do grupo B e a média são:
4, 2, 1, 0, -1, -2, -4
Em estatística, essas diferenças dos dados com relação à média são
chamadas de desvios.

34
Como no grupo B, os desvios são maiores, dizemos que o grupo tem
uma maior dispersão (o grupo é mais heterogêneo do que o grupo A). Por
outro lado, as idades dos alunos do grupo A estão mais concentradas nas
proximidades da média, portanto é mais homogêneo.
Observação: quando conhecemos a média de uma distribuição e os
desvios de cada um dos valores em relação a essa média, a soma desses desvios
é 0 (zero).
O cálculo da dispersão é importante, já que nos permite estabelecer
qual grupo é mais ou menos homogêneo.
Como vimos anteriormente, a soma dos desvios de uma série sempre
será igual a zero. Procurando contornar isso, os matemáticos decidiram elevar
ao quadrado cada um desses desvios e determinaram a “média dos mínimos
quadrados”. Esse processo (descrito a seguir) gera as três medidas mais
importantes e utilizadas de dispersão: a variância, o desvio padrão e o
coeficiente de variação.

5.1 Variância

Chamamos de variância populacional o quociente entre o valor dessa


soma dos desvios elevados ao quadrado e o número n de elementos da série.
Portanto, a fórmula é a soma dos (desvios)2/n.

Para a prática em laboratório e outros, na área da saúde, usamos a


variância amostral. Portanto, utilizaremos a amostral.

35
Chamamos de variância amostral o quociente entre o valor dessa soma
dos desvios elevados ao quadrado e o número (n - 1) de elementos da série,
que é indicada pela letra v ou por s2. Portanto, a fórmula é:
v = soma dos (desvios)2/(n-1)

Tabela 14 Esquema dos cálculos para as medidas de dispersão do exemplo das


idades do grupo A (na tabela fica mais organizado).
Idades (em anos) desvios = idade - média desvios2
15 15 – 14 = 1 12 = 1
15 15 – 14 = 1 12 = 1
14 14 – 14 = 0 02 = 0
14 14 – 14 = 0 02 = 0
14 14 – 14 = 0 02 = 0
13 13 – 14 = -1 (-1)2 = 1
13 13 – 14 = -1 (-1)2 = 1
Soma -------------- 4

A variância é dada por 4/6 = 0,667 anos2, que não existe, portanto não
se utiliza a unidade de medidas para variância.
A variância tem um inconveniente: seu valor fica muito grande ou muito
pequeno. Além disso, a dispersão é dada no quadrado da unidade dos dados.
Assim, para obter um dado na mesma unidade de medida, definiu-se
uma outra medida de dispersão: o desvio padrão.

36
5.2 Desvio padrão

O desvio padrão é a raiz quadrada do valor da variância. Aqui também


𝐬𝐨𝐦𝐚(𝐝𝐞𝐬𝐯𝐢𝐨𝐬)𝟐
utilizaremos o desvio padrão amostral. 𝐝𝐩 = √
𝒏−𝟏

Ele é indicado por dp ou por s. O desvio padrão (dp) é sempre um


número positivo ou 0 (zero). Quando o dp = 0, não há dispersão. Todos os
valores estão concentrados no valor médio. Quanto maior for o dp, maior
será a dispersão.
Desvio padrão do grupo A → dp = 0,667 = 0,82.

5.3 Coeficiente de variação

O coeficiente de variação é uma medida relativa de variabilidade. É


independente da unidade de medida utilizada. Mesmo que a unidade dos dados
observados possa ser diferente, seu valor não será alterado.
O coeficiente de variação cv é o desvio padrão expresso como uma
porcentagem.
cv = (desvio padrão/média) x 100 (%)

No exemplo de idades do grupo A, a média é 14, e o desvio padrão é


0,82; o coeficiente de variação é calculado por
cv = (0,82/14) x 100 = 0,059 x 100 = 5,9%.

No exemplo de idades do grupo B.

37
Tabela 15 Esquema dos cálculos para as medidas de dispersão do exemplo das
idades do grupo B (esquematizado na tabela fica mais organizado).
Idades desvios = idade - Variância
desvios2
(anos) média
18 18 – 14 = 4 42 = 16
v = 42/6 = 7
16 16 – 14 = 2 22 = 4
15 15 – 14 = 1 12 = 1 Desvio padrão
2
14 14 – 14 = 0 0 =0 𝐝𝐩 = √𝟕 = 2,65
2
13 15 – 14 = 1 1 =1
Coeficiente de variação
12 12 – 14 = -2 (-2)2 = 4
cv = (2,65/14)x100 = 18,9%
10 10 – 14 = -4 (-4)2 = 16
Soma --------------- 42

Comparando os grupos A e B:
A: média 14 anos; variância 0,667; desvio padrão 0,82 anos; e
coeficiente de variação 5,9%
B: média 14 anos; variância 7; desvio padrão 2,65 anos; e coeficiente de
variação 18,9%
Observamos a mesma média, porém desvios padrões diferentes, sendo
que do grupo B é maior, e podemos afirmar que o grupo B é mais disperso ou
heterogêneo, como havíamos observado e agora comprovado estatisticamente.

5.4 Exercícios

1) Calcule, em miligramas por decilitro de sangue (mg/dL), as três


medidas de dispersão das taxas de glicemia em jejum de um grupo de pessoas
com a mesma idade e as mesmas condições clínicas.

98 90 100 105 80 95 70 110

38
2) Calcule, em quilogramas (kg), as três medidas de dispersão dos pesos
de adolescentes.

41,5 56,2 60,2 80,5 71,9 56,2 71,9 52,7 55,8 61,9 52,7 50,8

3) Calcule, em metros (m), as três medidas de dispersão das estaturas


de um grupo de adultos.

1,55 1,65 1,65 1,66 1,70 1,60 1,61 1,75


1,68 1,60 1,57 1,60 1,75 1,73 1,55 1,75

Com todas as observações e medidas que obtivemos aqui, é possível


construir uma tabela que contenha muitas informações sobre a variável em
estudo, o “resumo estatístico”.

4) Construa o resumo estatístico dos Índices de Massa Corpórea


(IMC), em kg/m2, de pessoas participantes de um grupo de reeducação
alimentar

20, 21, 25, 26, 26, 27, 28, 28, 28, 29,
29, 29, 29, 29, 30, 30, 31, 31, 32, 35

39
Tabela 16 Resumo estatístico do IMC de um grupo de pessoas
de um grupo de reeducação alimentar.
Resumo estatístico
o
N de dados
Valor máximo
Valor mínimo
Amplitude (intervalo)
Média
Mediana
Moda
Variância
Desvio padrão
Coeficiente de variação

5) Com base na tabela a seguir, construa:


✓ O resumo estatístico com as medidas estudadas até aqui.
✓ Uma tabela de distribuição de frequências por classes de amplitude de
cinco anos em que constem as frequências absoluta, relativa,
acumulada e acumulada relativa.

Tabela 17 Distribuição de alcoólatras crônicos segundo a idade que tinham quando


iniciaram o hábito de ingerir bebidas alcoólicas.
10 18 19 23 27 35
15 19 19 24 28 36
12 18 20 25 32 38

40
Capítulo 6

A distribuição normal e o p-valor

6.1 Distribuição normal

Quando trabalhamos com variáveis quantitativas, organizamos os


dados em tabelas de distribuição de frequências por classes e geramos o gráfico
em histograma ou polígono de frequência, de modo a resumir. Podemos
também adicionar a linha de tendência. Existem algumas distribuições teóricas
importantes, pois, com fórmulas, podemos fazer estimativas.
A distribuição normal é a mais importante distribuição de frequências
por classes, considerando a questão prática e teórica; o seu gráfico apresenta-
se em formato de sino, unimodal, simétrico em relação à sua média.

Figura 12 Configuração da Curva Normal.

Considerando a probabilidade de ocorrência, a área sob sua curva soma


100%. Isso quer dizer que a probabilidade de uma observação assumir um
valor entre dois pontos quaisquer é igual à área compreendida entre esses dois
pontos.

A variável aleatória x   tem distribuição normal com parâmetros 


(valor esperado (média) de x) e  (desvio padrão de x).

41
Na Figura 13 a seguir, temos as barras nas verticais representando os
desvios padrões. Quanto mais afastadas do centro da curva normal, mais área
compreendida abaixo da curva haverá.
A um desvio padrão, temos 68,26% das observações contidas.
A dois desvios padrões, possuímos 95,44% dos dados compreendidos.
A três desvios, temos 99,73%.
Podemos concluir que, quanto maior a variabilidade dos dados em
relação à média, maior a probabilidade de encontrarmos o valor que buscamos
embaixo da normal.

Figura 13 Gráfico com barras nas verticais representando os desvios padrões.

Fonte: adaptada de Levin (2004, p. 189).

42
6.2 Compreendendo o valor de p na análise estatística

6.2.1 Importância da análise estatística


A estatística é bastante importante nas ciências empíricas, pois é uma
forma de validar matematicamente, no sentido de “provar por a + b” o
experimento ou estudo. Nesse tipo de pesquisa, em vez de estudar uma
população inteira, o que acarretaria um gasto muito grande de dinheiro e
tempo, o pesquisador seleciona uma parte dessa população, que é chamada de
amostra, e as conclusões do estudo dessa amostra são extrapoladas para a
população inteira.
Praticamos o método da amostragem em nosso cotidiano o tempo
inteiro. Você, por exemplo, não come uma refeição toda para descobrir se o
tempero está bom. Você tira uma colher (amostra) para provar e pressupõe
que o gosto da sopa toda estará igual ao da sopa na colher.
Entretanto, em ciência, ao trabalhar com amostras, você corre alguns
riscos. E se o tamanho da amostra não foi adequado? E se o método de
avaliação apresentar falhas? E se tiver outros fatores influenciando os
resultados encontrados?
Para diminuir esses riscos, os pesquisadores das ciências empíricas
utilizam a estatística com o intuito de ter maior segurança em suas
conclusões. E o valor de p está exatamente relacionado a essa confiança nas
conclusões obtidas.

6.2.2 O que é o tal valor de p ou p-valor?


Não discutiremos o valor de p em função das hipóteses e nem sobre
fórmulas ou testes estatísticos. De um ponto de vista mais prático, podemos
afirmar que o valor de p representa a chance ou a probabilidade do efeito (ou
da diferença) observado entre os tratamentos/as categorias ser em função do

43
acaso, e não dos fatores que estão sendo estudados. Também chamado de
nível de significância, o valor de p representa a probabilidade de observar
diferenças entre grupos.
A definição do valor limite de p é determinada antes de iniciar o estudo,
e, de um modo geral, foi convencionalmente estabelecido entre a comunidade
científica que o valor p < 0,05 é aceitável para avaliar a significância do
resultado obtido. Esse valor (ou valores menores) significa que o estudo
assumiu uma probabilidade de 5% de que diferenças entre os grupos sejam
encontradas. Portanto, quanto menor o valor de p, maior a evidência de que
diferenças ocorreram.
Para exemplificar, vamos supor que um pesquisador testou a aceitação
de dois tipos de adoçante – açúcar normal (sacarose) e aspartame – em um
suco de mesma fruta.
Foram oferecidas doses dos dois sucos para cada uma de dez pessoas.
Foi solicitado que fosse dada uma nota de zero a dez (0 para não gostou e 10
para gostou muito). As pontuações foram tabuladas, um teste estatístico foi
realizado, e foi encontrado um p-valor de 0,12.
O que isso significa? Significa que a chance dessa diferença entre as
médias ser ao acaso (e não um efeito dos tratamentos) é de 12%. Ou seja, se
o pesquisador afirmar que as diferenças entre as médias ocorreram por causa
dos tratamentos, ele tem 12% de chances de estar enganado.
Analisando sobre outro ponto de vista, é a probabilidade de as médias
serem iguais. Se essa probabilidade for menor que 0,05 (5%), não há chance
de elas serem iguais. Nesse caso, como se tem 12%, não há evidências para
dizer que as médias são diferentes. Resumindo, não há diferença significativa
entre as pontuações, portanto o adoçante não influi no sabor do suco.

44
REFERÊNCIAS
DICIONÁRIO ABERTO. Estatística. Disponível em: https://dicionario-
aberto.net/. Acesso em: 5 fev. 2020.

IBGE – INSTITUTO BRASILEIRO DE GEOGRAFIA. Censo


Demográfico: Séries históricas. 2010. Disponível em:
https://www.ibge.gov.br/estatisticas/sociais/populacao/2098-np-censo-
demografico/9662-censo-demografico-2010.html?=&t=series-historicas).
Acesso em: 5 fev. 2020.

LEVIN, J., Estatística para ciências humanas. 9. ed. São Paulo: Prentice
Hall, 2004. 497p.

ONU. Apesar de baixa fertilidade, mundo terá 9,8 bilhões de pessoas


em 2050. 12 jun. de 2017. Disponível em: https://nacoesunidas.org/apesar-
de-baixa-fertilidade-mundo-tera-98-bilhoes-de-pessoas-em-2050/. Acesso
em: 5 fev. 2020.

VIEIRA, S. Introdução à Bioestatística. 3. ed. Rio de Janeiro: Elsevier,


1980. 188p.

VIEIRA, S. Bioestatística: tópicos avançados. 2. Ed. Rio de Janeiro:


Elsevier, 2004. 216p.

VIEIRA, S. HOSSNE W. S. Metodologia científica para a área da saúde.


Rio de Janeiro: Elsevier, 2001. 192p.

45
46

Você também pode gostar