Material Didático - Bioestatística - 2021

UNIVERSIDADE JOSÉ DO ROSÁRIO VELLANO/UNIFENAS
CAMPUS ALFENAS
ESTATÍSTICA MÉDICA
Professora: Roberta Bessa Veloso Silva

Mestre e doutora em Estatística e Experimentação Agropecuária/UFLA
Pós-doutorado em Estatística Aplicada e Biometria/UNIFAL
E-mail de acesso: roberta.veloso@unifenas.br
Currículo lattes: http://lattes.cnpq.br/3751378355325825
Janeiro/2021
Alfenas, MG
1
CAPÍTULO 1 - ESTATÍSTICA DESCRITIVA
DEFINIÇÕES BÁSICAS
1.1. ESTATÍSTICA: É a ciência que se preocupa com a coleta, organização, análise e

interpretação dos dados experimentais.
EXEMPLO: A seguir está apresentado o peso, em quilos, de todas as 500 crianças, de certa
faixa etária, atendidas em um ambulatório da cidade de Alfenas, MG, em um determinado dia.
Coleta: 14, 10, 12, 8, etc. (em quilos)
Organização: Tabelas e Gráficos
Análise: Qual é o peso médio? Média = 10 quilos, por exemplo.
Interpretação: Por que tão baixo (ou alto) esse peso médio?
OBSERVAÇÃO: A ciência estatística é aplicável em qualquer ramo do conhecimento

onde se manipulam dados experimentais. Por exemplo: Epidemiologia, Física, Química,
Biologia, Ciências Sociais, Ciências Administrativas, Ciências Agrárias, etc.
1.2. POPULAÇÃO: É o conjunto de elementos com pelo menos uma característica comum.
Essa (s) característica (s) em comum deve delimitar inequivocamente quais elementos que
pertencem à população e quais os que não pertencem. A população pode ser finita ou
infinita (população grande: não pode ser enumerada completamente).
1.3. AMOSTRA: É um subconjunto de uma população. É necessariamente finita, pois todos os

seus elementos serão examinados para efeito da realização do estudo estatístico desejado.
1.4. VARIÁVEL: Característica pela qual deseja-se que a população seja descrita. Essa
característica pode assumir diferentes valores de elemento para elemento.
1.5. DADO: É o valor que assume a variável para um elemento em particular.
NOTAÇÃO:
Tamanho da população é o número de elementos da população: N
Tamanho da amostra é o número de elementos da amostra: n
Variável: X, Y, Z, etc. (São letras maiúsculas, geralmente as últimas do
alfabeto)
1.6. TIPOS DE VARIÁVEIS
As variáveis podem ser qualitativas ou quantitativas, sendo que as qualitativas se dividem

em nominais e ordinais e as quantitativas em discretas e contínuas.
1.7. VARIÁVEL QUALITATIVA: São aquelas que correspondem a atributos ou categorias.

Podem ser:
1.7.1. VARIÁVEL QUALITATIVA NOMINAL: Quando os atributos não são passíveis de

ordenação. Exemplo: sexo, cor dos olhos, tipo sanguíneo, hábito de fumar, etc.
1.7.2. VARIÁVEL QUALITATIVA ORDINAL: Quando os atributos são passíveis de
ordenação. Exemplo: nível de conhecimento em inglês (básico, médio, avançado),
classe social (baixa, média, alta), estadiamento de uma doença (I, II, III, IV), etc.
1.8. VARIÁVEL QUANTITATIVA: São aquelas que correspondem a números resultantes de

contagens ou medidas. Podem ser:
2
1.8.1. VARIÁVEL QUANTITATIVA DISCRETA: São próprias de dados de contagem,
isto é, estão definidas em conjunto enumerável. Exemplos: número de filhos por família
(0, 1, 2, 3,...), número de bactérias por volume de urina, número de pessoas com
determinada doença, número de cáries por paciente, etc.
1.8.2. VARIÁVEL QUANTITATIVA CONTÍNUA: São aquelas em que as realizações
resultam de uma medida (uma mensuração) que podem assumir qualquer valor real
entre dois extremos. Exemplos: altura dos pacientes, peso, idade, nível de glicose, etc.
1.9. ORGANIZAÇÃO E APRESENTAÇÃO DE DADOS QUALITATIVOS
É feita mediante alguma representação que pode ser tabular ou gráfica. Para dados
qualitativos a enumeração é a forma mais simples de representá-los.
EXEMPLO 1: Em um determinado hospital de Alfenas, de todos os pacientes internados em

um mês qualquer, verificou-se as doenças mais frequentes em 200 pacientes. Os dados estão
apresentados a seguir.
Dados brutos (da forma em que foram coletados)
Pacientes:
1 2 3 4 5 ... 200
diabetes diabetes hipertensão diabetes hipertensão ... diabetes
REPRESENTAÇÃO TABULAR
TABELA DE DISTRIBUIÇÃO DE FREQUÊNCIAS

(T.D.F.)
Tabela 1. Doenças mais frequentes observadas em 200 pacientes.

Doenças Frequência Frequência relativa Frequência
absoluta (Fi) (Fri) percentual (Fpi)
Diabetes 100 0,50 50%
Hipertensão 84 0,42 42%
Ambos 16 0,08 8%
Total 200 1,00 100%
3
REPRESENTAÇÃO GRÁFICA
a) GRÁFICO DE COLUNAS OU DE BARRAS
60%
50%
50%
42%
40%
30%
20%
10% 8%
0%
Diabetes Hipertensão Ambos
Figura 1. Doenças mais frequentes observadas em 200 pacientes.
b) GRÁFICO DE SETORES (PIZZA)
8%
50%
42%
Diabetes Hipertensão Ambos

Figura 2. Doenças mais frequentes observadas em 200 pacientes.
4
LISTA DE EXERCÍCIOS 1 – ORGANIZAÇÃO E APRESENTAÇÃO DE DADOS
QUALITATIVOS
1) Um agente comunitário do Programa da Saúde da Família deseja escrever um pequeno texto

alertando os jovens de sua comunidade sobre os problemas da gravidez indesejada. Com este
propósito ele decide investigar quais métodos que os jovens estão utilizando. Após realizar a
pesquisa com 50 jovens escolhidos de maneira aleatória obteve-se os seguintes dados:
Tabela Preserv Tabela Preserv Tabela Preserv Pilula Tabela Tabela Tabela
Preserv Tabela Outros Pilula Tabela Pilula Outros Tabela Preserv Tabela
Pilula Tabela Tabela Preserv Preserv Outros Tabela Preserv Tabela Tabela
Outros Preserv Preserv Preserv Pilula Preserv Preserv Outros Tabela Preserv
Tabela Pilula Preserv Pilula Tabela Pilula Tabela Tabela Tabela Preserv
a) Qual é a população em estudo? E a amostra?

b) Qual é a variável estudo? Classifique-a.
c) Faça a representação tabular para os dados brutos.
d) Represente os dados através dos gráficos de colunas e de setores.
2) Em 1969 foi realizado um estudo na população de Honolulu. Para 7.683 indivíduos, foram
pesquisadas as seguintes variáveis:
 nível educacional (nenhum, ensino fundamental, ensino médio, ensino superior);
 peso (kg);
 altura;
 idade (anos);
 Tipo sanguíneo (B, A, O, AB)
 Tipos de doenças
 Percentual de gordura corporal
Cada indivíduo foi classificado como:

 hábito de fumar (fumante ou não);
 atividade física (pouca, moderada e muita).
Classifique TODAS as variáveis listadas na população de Honolulu.
3) Em uma amostra de 15 casos de fraturas de face registrados no Pronto Socorro do Hospital

das Clínicas da USP, Almeida et al. (1995) encontraram grande maioria de vítimas do sexo
masculino na faixa etária entre 20 e 40 anos. Os dados referentes aos seguintes agentes
etiológicos: carro (C), espancamento (E), atropelamento (A) e moto (M) estão apresentados a
seguir.
Carro Atropelamento Carro

Carro Espancamento Carro
Carro Moto Moto
Carro Moto Moto
Atropelamento Atropelamento Carro
a) Qual é a variável em estudo? Classifique-a.

b) Organize os dados através de uma tabela computando-se as frequências absoluta e
percentual.
c) Faça a representação gráfica através do gráfico de colunas.
5
2. ORGANIZAÇÃO E APRESENTAÇÃO DE DADOS QUANTITATIVOS
Como nos dados qualitativos, também é feita mediante uma representação. A forma
mais simples é a distribuição de frequências, definida a seguir:
2.1. DISTRIBUIÇÃO DE FREQUENCIAS DE CLASSES (T.D.F.C.): É a distribuição dos

dados em classes ou categorias. O número de elementos associados a cada classe representa
a frequência de classe.
2.1.1. CONSTRUÇÃO DE UMA TABELA DE DISTRIBUIÇÃO DE FREQUENCIAS

DE CLASSES (T.D.F.C)
EXEMPLO 2: A seguir são apresentados os dados referentes aos pesos (em quilos) de 20
crianças, de certa faixa etária atendidas nos ambulatórios da cidade de Alfenas, MG, num
determinado dia.
DADOS BRUTOS OU NÃO AGRUPADOS
14,2 16,2 20,6 21,4 23,4

14,4 18,4 20,6 21,8 25,2
15,8 18,4 20,6 22,0 26,6
16,2 19,2 20,8 22,2 27,0
10) DETERMINAR O NÚMERO DE CLASSES (k): podem-se adotar os seguintes critérios:

a) A familiaridade do pesquisador com os dados.
b) Critério empírico: baseado no número de observações (n):
Número de observações (n) Número de classes (k)

Até 100 n (inteiro superior mais
próximo)
EXEMPLO 2: k  n  20  4, 47  5 classes, aproximadamente.
20) DETERMINAR A AMPLITUDE DE CLASSE (c): Diferença entre os limites superior e

inferior de uma determinada classe.
A maior observação - menor observação

c 
k 1 k 1 ,
sendo,
A = amplitude total = maior observação – menor observação

k = número de classes
27, 0  14, 2
c  3, 2 kg
No exemplo 2: 5 1
6
LI1
30) DETERMINAR O LIMITE INFERIOR DA PRIMEIRA CLASSE ( )
c
LI1  menor observação -
2
3, 2
LI1  14,2 -  12, 6 kg
No exemplo 2: 2 .
40) DETERMINAR OS LIMITES DAS OUTRAS CLASSES
LI1 conhecido  LS1  LI1  c (O limite superior da 1a classe passa a ser o limite inferior
da 2a classe)
LI 2  LS1 (O limite superior da 2a classe passa a ser o limite inferior da 3a classe + c)
LS 2 =LI2  c (O limite superior da 3a classe passa a ser o limite inferior da 4a classe + c)
Continuar com os passos anteriores até completar k classes.
50) DETERMINAR O PONTO MÉDIO DE CLASSE

X i
E AS FREQUÊNCIAS:
ABSOLUTA
 Fi  , RELATIVA  Fri  E PERCENTUAL
F :
pi
LSi  LI i
Xi 
2 (Limite superior da classe “i” + limite inferior da classe “i” dividido por 2).
Fi = número de observações contidas na classe “i”.
F
Fri  i
n (Frequência absoluta da classe “i” dividida pelo tamanho da amostra n).
Fpi  Fri 100
(Frequência relativa da classe “i” multiplicado por 100).
Logo,
A T.D.F. C. PARA O EXEMPLO 2 SERÁ:
DADOS AGRUPADOS
Tabela 2. Pesos (em quilos) de 20 crianças, de certa faixa etária, atendidas nos ambulatórios da
cidade de Alfenas, MG, num determinado dia.
Classes (Pesos) xi Número de Fri Fpi
estudantes
 Fi 
[12,6; 15,8) 14,2 2 0,10 10%
[15,8; 19,0) 17,4 5 0,25 25%
[19,0; 22,2) 20,6 8 0,40 40%
[22,2; 25,4) 23,8 3 0,15 15%
[25,4; 28,6) 27,0 2 0,1 10%
Total 20 1,00 100,0%
7
2.2. REPRESENTAÇÃO GRÁFICA PARA DADOS QUANTITATIVOS
2.2.1. HISTOGRAMA: Gráfico formado por retângulos cujas bases são proporcionais às
amplitudes de classe e as alturas proporcionais às Frequências das classes (as
Fi Fri Fpi
Frequências podem ser , e ).
2.2.2. POLÍGONO DE FREQUÊNCIAS: Gráfico onde os pontos médios das classes, no

topo dos retângulos do histograma, são unidos por linhas. O polígono começa e termina
nos pontos médios das classes anteriores à primeira e posterior à última,
respectivamente.
Peso (kg)
Figura 3. Pesos (em quilos) de 20 crianças, de certa faixa etária, atendidas nos
ambulatórios da cidade de Alfenas, MG, num determinado dia.
8
2.3. CLASSIFICAÇÃO DAS DISTRIBUIÇÕES DE FREQUENCIAS
A forma do polígono de frequência permite classificar a distribuição de frequências em:

simétrica, assimétrica à direita ou assimétrica à esquerda, para isto o polígono deve ser
comparado com as seguintes curvas, chamadas CURVAS DE FREQUENCIA.
Distribuição simétrica Distribuição Assimétrica à direita
Para o Exemplo 2: A distribuição é

aproximadamente simétrica.
Distribuição Assimétrica à esquerda
9
LISTA 2 – ORGANIZAÇÃO E APRESENTAÇÃO DE DADOS QUANTITATIVOS
1) Dez indivíduos foram selecionados ao acaso para receberem a dieta A ou B. Decorrido certo
intervalo de tempo verificou-se que a perda de peso apresentada a seguir:
-1,0 0,0 2,1 3,1 3,3 4,3 5,0 5,2 5,5 6,8

b) Organize os dados numa Tabela de Distribuição de Frequências de Classes (k = 3
classes).
c) Faça a representação gráfica através do Histograma e do Polígono de Frequências.
2) Um exame geral tem 80 questões, sendo 40 de bioquímica e 40 de bioestatística. Para os 20

melhores classificados, apresentaram-se o número de acertos em cada disciplina, em ordem
decrescente do total de pontos.
Aluno 1 2 3 4 5 6 7 8 9 10
Bioquímica 35 35 34 32 31 30 26 26 24 23
Bioestatístic 31 29 27 28 28 26 30 28 25 23
a
Aluno 11 12 13 14 15 16 17 18 19 20
Bioquímica 23 12 11 20 17 12 14 20 8 10
Bioestatística 21 32 31 20 21 25 20 13 23 20
a) Organize os dados em uma Tabela de Distribuição de Frequências de Classes para as

variáveis: notas de bioquímica e notas de bioestatística, separadamente.
b) Faça a representação gráfica para as notas de bioquímica e notas de bioestatística,
separadamente.
c) Construa uma Tabela de Distribuição de Frequências de Classes para a variável total de
pontos. Faça a representação gráfica.
d) Comente sobre a afirmação: os aprovados são melhores em bioquímica do que em
bioestatística.
3) Para estudar o nível de colesterol de uma população de obesos de uma cidade do interior de
Minas Gerais, 10 indivíduos foram selecionados aleatoriamente, cujo nível de colesterol foi
avaliado. Os resultados obtidos, mg/dl, foram os seguintes:
650 850 710 920 780 820 900 780 740 950
a) Organize os dados em uma Tabela de Distribuição de Frequências de Classes para o

nível de colesterol, em mg/dl.
b) Faça o histograma e o polígono de frequências. Classifique a distribuição de
frequências.
10
CAPÍTULO 2
2.4. MEDIDAS DE POSIÇÃO OU DE TENDÊNCIA CENTRAL
São aquelas que procuram sintetizar as informações (os dados ou observações) em um

único e informativo valor. Tais medidas têm a tendência de posicionar-se no centro da
distribuição. Estudaremos a média, a mediana e a moda.
OBSERVAÇÃO: Na distribuição de frequências (T.D.F.C, histograma e polígono)

podemos notar que os dados geralmente são mais frequentes perto de um valor central e
mais raros quando se afastam dele. Daí o nome de MEDIDAS DE TENDÊNCIA
CENTRAL.
2.4.1. MÉDIA
É A SOMA DE TODAS AS OBSERVAÇÕES DIVIDIDAS PELO NÚMERO DELAS

(AMOSTRA OU POPULAÇÃO).
NOTAÇÃO:
Para dados não agrupados Para dados agrupados

No caso de n k
uma x i xF i i
amostra X i 1
X i 1
n n
soma de todos os dados X i é o ponto médio da classe "i";
X
tamanho da amostra Fi é a frequência absoluta da classe "i";
k é o número de classes.
No caso de N k
uma  xi x F i i
população  i 1
 i 1
N (Lê-se: mi) N
EXEMPLO 2: (Para o nosso exemplo: no caso do peso de 20 crianças, trata-se de uma

amostra)
MÉDIA ARITMÉTICA PARA DADOS NÃO AGRUPADOS:

n 20
 xi x i
x1  x2  ...  x20 14, 2  14, 4  ...  27, 0
X i 1
 i 1
   20, 25 kg
n 20 20 20
MÉDIA PARA DADOS AGRUPADOS (EM UMA T.D.F.C.)
xF i i
somatório do produto ponto médio da classe "i" e frequência absoluta da classe "i"
X i 1

n tamanho da amostra
11
k 5
 xi Fi xF i i
14, 2  2  17, 4  5  20, 6  8  ...  27, 0  2
X i 1
 i 1
  20, 28 kg
n 20 20
OBSERVAÇÃO: A média para os dados não agrupados foi obtida usando os verdadeiros
dados. A média para dados agrupados foi obtida usando os valores representados pelo ponto
médio da classe. Isto faz com que a média para dados agrupados seja às vezes, diferente da
média para dados não agrupados. No cálculo com dados agrupados existe um erro devido à
perda de informação, porém, tal erro é mínimo e, portanto, desprezível.
2.4.2. MEDIANA
É o valor central da distribuição dos dados. A mediana divide as observações, ordenadas

ascendente ou descendentemente, partes iguais, isto é, 50% das observações estão acima e 50%
estão abaixo dela.
PARA DADOS BRUTOS DADOS AGRUPADOS

(OS DADOS PRECISAM SER (T.D.F.C.)
ORDENADOS)
n 
  F A 
x n  x n  2  md  LI md 2   Cmd
 F 
    md
md  2  2   
2 ; se n for par LI m
Amostra soma dos 2 valores centrais d : Limite inferior da
md  classe mediana;
2
Fm
d : Frequência absoluta da
md  x n 1  classe mediana;
 
 2  ; se n for ímpar FA
: Frequência acumulada das
m  valor que divide o conjunto de dados ao meio classes anteriores à classe
d
mediana;
Cm
d : Amplitude da classe
mediana.
x N  x N  2  N 
   
M d  x N 1   2  FA 
População Md  2  2 
 
M d  LI M d    CM d
2  2 
s  FM d 
se n for par e n for ímpar  
x n 
 
OBSERVAÇÃO: A classe mediana é a classe que contém a observação  2  na T.D.F.; se n
12
x n 1 
 
for par ou  2  ; se n for ímpar.
PARA O EXEMPLO 2:
n é par (n=20 crianças)
MEDIANA PARA OS DADOS NÃO AGRUPADOS:
x 20 2   x 20 2 2 x 10  x 11

md    20, 6 kg
2 2
x x
 10   11 valor de x na posição 10 + valor de x na posição 11
md  
2 2
20,6 20,6

2
 20, 6 kg
MEDIANA PARA DADOS AGRUPADOS:
x n   x 20   x 10  3a classe
     
2  2 
 
Classe mediana:
A classe mediana é a classe que contém o décimo elemento da amostra (X(10)). Logo,
 20 
 2  7
md  19, 0     3, 2  20, 2 kg
8
 
 
2.4.3. MODA
É o valor que ocorre com maior frequência. Um conjunto de dados pode ter mais de
uma moda ou também, pode não ter moda.
DADOS BRUTOS DADOS AGRUPADOS

(EM UMA T.D.F.C.)
 1 
mo  LI m     Cmo
o
USAR A DEFINIÇÃO  1   2 
LI m
o : Limite inferior da classe modal;
1
Amostra : Diferença entre a Frequência
absoluta da classe modal e a classe
13
anterior;
2
: Diferença entre a Frequência
absoluta da classe modal e a classe
posterior;
Cm
d : Amplitude da classe modal.
Classe modal é a classe com maior
frequência absoluta.
População USAR A DEFINIÇÃO  1 
M o  LI M     CM o
o
 1   2 
PARA O EXEMPLO 2:
MODA PARA DADOS BRUTOS
mo  20, 6 kg (por definição)
MODA PARA DADOS AGRUPADOS

mo  19, 0  
 8  5   3, 2  20, 2 kg

  8  5    8  3 
2.5. PROPRIEDADES COMUNS DA MÉDIA, MEDIANA E MODA
X , md e mo
Sejam , a média, mediana e moda, de n observações, respectivamente, e
seja k uma constante qualquer:
'
1) Se em cada observação é acrescido (ou subtraído) um valor k, as novas média, X ,
m '
mediana, d e moda, mo ' , serão, respectivamente:
X'  X k;
m 'm k
d d ;
mo '  mo  k ;
14
' m '
2) Se em cada observação é multiplicada por k, as novas média, X , mediana, d e moda,
mo ' , serão, respectivamente:
X'  X k ;
m '  m k
d d ;
mo '  mo  k ;
2.5. QUARTIL E PERCENTIL
Os quartis são utilizados na construção do Box Plot, um gráfico que permite a

identificação de valores extremos (outliers) em um conjunto de dados, na elaboração da curva
endêmica (epidemia de dengue), em exames laboratoriais, entre outros.
O quartil divide o conjunto de dados em 4 partes iguais, isto é:
___ 25% ___ | ___ 25% ___ | _____ 25% ___ | ___ 25% ___
0 0 0
1 quartil 2 quartil 3 quartil
ou mediana
10 Quartil ou quartil 25: é o valor que deixa 25% dos dados abaixo dele e 75% estão acima dele.
O percentil divide o conjunto em 100 partes iguais.
2.5.1. COMO CALCULAR UM QUARTIL OU UM PERCENTIL?
OBSERVAÇÃO: OS DADOS DEVEM ESTAR ORDENADOS ASCENDENTEMENTE

OU DESCENDENTEMENTE
n 1
Posição de Q1 
4
n 1
Posição de Q2 
2
3  n  1
Posição de Q3 
4
PARA O EXEMPLO 2: (peso de uma amostra de n = 20 crianças).
DADOS BRUTOS
15
14,2 16,2 20,6 21,4 23,4
14,4 18,4 20,6 21,8 25,2
15,8 18,4 20,6 22,0 26,6
16,2 19,2 20,8 22,2 27,0
20  1
Posição de Q1   5, 25  5
4
20  1
Posição de Q2   10
2
3  20  1
Posição de Q3   15, 75  16
4
LISTA DE EXERCÍCIOS 3 – MEDIDAS DE POSIÇÃO (DADOS BRUTOS E

AGRUPADOS) - QUARTIL
1) Um teste de esforço foi realizado em 200 pacientes no estágio III de um mesmo tipo de
câncer. O tempo, em segundos, está apresentado na tabela abaixo.
Classes Ponto médio de classe Frequência

[7 ; 8) 7,5 27
[8 ; 9) 8,5 29
[9 ; 10) 9,5 46
[10 ; 11) 10,5 43
[11 ; 12) 11,5 55
Determine o tempo médio, mediano e modal para a realização do teste de esforço.
2) Uma certa região apresentou altos índices de suicídios, conforme pode ser constatado em
uma amostra dos últimos 12 meses: 5, 4, 7, 8, 5, 6, 4, 7, 9, 7, 6 e 8. Encontre o 3 0 quartil e
interprete.
3) Como parte de uma avaliação médica em uma certa universidade, foi medida a frequência
cardíaca dos alunos do primeiro ano. Os dados são apresentados em seguida.
Frequência Cardíaca Frequência absoluta

[60 ; 65) 11
[65 ; 70) 35
[70 ; 75) 68
[75 ; 80) 20
[80 ; 85) 12
[85; 90) 10
[90 ; 95) 1
[95 ; 100) 3

b) Construa o Histograma e o Polígono de frequências. Classifique a distribuição quanto à
simetria.
c) Uma frequência ao redor de 72 batidas por minuto é considerada padrão. Você acha que de
modo geral esses alunos se encaixam nesse caso?
16
d) Frequências cardíacas que estejam acima de 90 requerem acompanhamento médico. Qual é a
porcentagem de alunos nessas condições?
4) Considere os conjuntos de dados a seguir referentes ao número de dias para a completa

recuperação de pacientes submetidos a três diferentes tipos de técnicas cirúrgicas.
TIPO I 48 46 47 50 52 130
TIPO II 72 75 74 73 76 72 77
TIPO III 48 45 46 45 45 47 47 45 45 46
Calcule a medida de posição mais apropriada para cada conjunto de dados.
17
2.6. MEDIDAS DE VARIABILIDADE OU DISPERSÃO
Para que as observações de uma amostra ou de uma população sejam bem

representadas, deve-se calcular para elas uma medida de posição de uma medida de
variabilidade.
As medidas de variabilidade são medidas que informam sobre a dispersão dos dados e
são necessárias para, junto com a média, representar bem um conjunto de observações.
Estudaremos a variância, o desvio padrão e o coeficiente de variação.
NOTAÇÃO:
AMOSTRA (n) POPULAÇÃO
Variância (S2) 2
Medidas de Desvio Padrão (S) 
Variabilidad Coeficiente de variação (cv) CV
e
2.7. VARIÂNCIA E DESVIO PADRÃO: Medem a variabilidade absoluta de um conjunto

de observações. A variância e o desvio padrão permitem comparar a variabilidade entre
conjuntos numéricos que possuam a mesma média e/ou a mesma unidade.
PARA DADOS BRUTOS
NO CASO DE UMA AMOSTRA
 (Variância
 n  
2
n
 ( xi  x ) 2
  xi 
1  n 2  ì 1  
amostral)
S 
2 i 1
n 1
  xi  n 
n  1  ì 1
 
 
 2 
2 2
S   soma de cada valor  
  total 

 tamanho da amostra 
 
(Desvio Padrão
S  S2
amostral)
S  variância
NO CASO DE UMA POPULAÇÃO
N 2
 x  
i (Variância
 
2 i 1 Populacional)
N
  2
18
(Desvio Padrão
Populacional)
PARA O EXEMPLO 2:
VARIÂNCIA PARA DADOS BRUTOS
1  (14, 2  14, 4  ...  27, 0) 2 

S2   (14, 2) 2
 (14, 4) 2
 ...  (27, 0) 2
   13,84 kg 2
20  1  20 
S  S 2  3, 72 kg
VARIÂNCIA PARA DADOS AGRUPADOS
  k  
2

1  k 2   xi Fi   (Variância
S 
2
 xi Fi   ì1 n  
n  1  ì 1
amostral)
 
 
(Desvio Padrão
S  S2
amostral)
NO CASO DE UMA POPULAÇÃO:

  k  
2

1  k 2   xi Fi    (Variância
    xi Fi   i 1
2   Populacional)
N i 1 N 
 
 

  2 (Desvio Padrão
populacional)
Para o nosso exemplo: (É uma amostra de pesos de 20 crianças)
1  (2 14, 2  5 17, 4  ...  2  27, 0) 2 

S2   2  (14, 2) 2
 5  (17, 4) 2
 ...  2  (27, 0) 2
   12,83 kg
2
20  1  20 
S  12,83=3,58 kg
OBSERVAÇÃO: A unidade da variância refere-se ao quadrado da unidade dos

dados originais. O desvio padrão é expresso na mesma unidade dos dados
originais.
Para o nosso exemplo: Dados originais quilos

Variância quilos2
Desvio Padrão quilos
b) COEFICIENTE DE VARIAÇÃO: É uma medida de variabilidade relativa. Refere-se à

variabilidade dos dados em relação à média. Permite comparar a variabilidade de dois ou mais
conjuntos de dados que possuam diferentes unidades e/ou diferentes médias.
19
20
S
cv  100
X
NO CASO DE UMA POPULAÇÃO

CV  100

PARA O EXEMPLO 2:
COEFICIENTE DE VARIAÇÃO PARA DADOS BRUTOS
3, 72 PARA DADOS
cv   100  18,37% BRUTOS
20, 25
COEFICIENTE DE VARIAÇÃO PARA DADOS AGRUPADOS
3,58 PARA DADOS

cv   100  17,65% AGRUPADOS
20, 28
2.8. PROPRIEDADES DA VARIÂNCIA E DO DESVIO PADRÃO
1) Somando ou subtraindo uma constante “k” em cada observação, a variância e o desvio

padrão não se alteram.
2
2) Multiplicando todos os dados por “ k ”, a variância ficará multiplicada por k e o desvio
padrão por k .
No SISVAR (SOFTWARE DE ANÁLISE ESTATÍSTICA)
 Ir em Análise, Estatísticas Descritivas, digitar os dados, acrescentar valor por valor e

finalizar. Se os dados estiverem digitados em arquivo pronto, clicar em arquivo
pronto e marcar as opções desejadas e, por último, analisar.
21
LISTA 4 –QUESTÕES GERAIS
1) O nível de albumina no sangue, um indicador do estado nutricional, foi medido em um grupo

de 60 pacientes, obtendo-se os resultados (g/dl) apresentados em forma ordenada na Tabela 1.
Tabela 1. Nível de albumina no sangue (g/dl).

4,44 4,47 4,48 4,51 4,54 4,61 4,64 4,66 4,68 4,68
4,68 4,69 4,71 4,73 4,76 4,76 4,76 4,81 4,86 4,86
4,87 4,88 4,90 4,90 4,95 4,95 4,96 4,97 4,98 4,98
4,99 5,00 5,01 5,01 5,01 5,02 5,04 5,05 5,08 5,09
5,09 5,10 5,11 5,11 5,16 5,17 5,18 5,19 5,24 5,24
5,24 5,26 5,27 5,27 5,29 5,32 5,35 5,46 5,50 5,85
0 0
Obtenha o 1 e o 3 quartil. Interprete-os.
2) Uma das formas que um pediatra usa para avaliar o grau de controle do diabetes é a dosagem
de glicohemoglobina, que é medida em % da hemoglobina total. Valores acima de 12 indicam
que o paciente não está sob controle. Em um grupo de 15 crianças obtiveram-se os seguintes
resultados para 13 delas:
10,5 11,2 11,7 12,1 12,3 12,3 12,3
12,4 12,5 13,1 13,1 13,5 13,5
Por motivos associados à limitação do aparelho de análise, sabe-se que os valores observados de
dois pacientes são maiores que 14. Para mostrar que este grupo tem um alto valor de
glicohemoglobina, ele igualou a 15,5 os dois valores maiores que 14 e tirou a média dos 15
valores. Comente o procedimento usado, proponha e obtenha uma forma alternativa de síntese
dos dados.
3) A Tabela 2 mostra a distribuição de tentativas de suicídio segundo a faixa etária. A faixa

etária mais prevalente é de 20 a 29 anos tanto no geral (37,42%) como para cada sexo
separadamente: 36,12% e 38,06% para o sexo masculino e feminino, respectivamente. Observe
que as idades foram agrupadas em 7 classes, quase todas, exceto a última, de mesma amplitude
(10 anos).
Tabela 2. Distribuição de idade dos pacientes potencialmente suicidas.

Idade (anos) Frequência
Absoluta Relativa
[10 ; 20) 57 0,1887
[20 ; 30) 113 0,3742
[30 ; 40) 59 0,1954
[40 ; 50) 32 0,1060
[50 ; 60) 19 0,0629
[60 ; 70) 7 0,0232
Acima de 70 2 0,0062
Indeterminada 13 0,0430
Total 302 1,0000
Determine a idade média, mediana e modal de pacientes potencialmente suicidas, considerando
até a sexta classe.
4) As perdas de peso, em quilos, de 16 indivíduos com obesidade mórbida, na faixa etária de 19

a 48 anos submetidos a uma dieta e avaliados por um nutricionista, mensalmente, em uma
cidade do interior do sul de Minas Gerais, foram:
36 45 60 39 57 32 39 40
53 37 42 42 44 30 47 39
a) Determine a MEDIANA com os dados NÃO AGRUPADOS e com os dados AGRUPADOS
(TABELA DE DISTRIBUIÇÃO DE FREQUÊNCIAS).
22
b) Por que os 2 resultados obtidos em (a) são diferentes?
CAPÍTULO 3 – NOÇÕES DE INFERÊNCIA ESTATÍSTICA
Antes de se iniciar as principais considerações sobre Amostragem será necessário a

compreensão de alguns conceitos importantes em Estatística.
3. CONCEITOS IMPORTANTES
3.1. PARÂMETRO: É uma constante (um número) que caracteriza uma população.
Exemplo: média populacional

   , variância populacional   2  , etc. Em geral, os
parâmetros são desconhecidos.
3.2. ESTIMADOR: É uma expressão algébrica utilizada para obter um valor

aproximado de um parâmetro.
3.3. ESTIMATIVA: É o valor numérico de um estimador. É determinada usando os

dados amostrais.
EXEMPLO 3: Deseja-se conhecer o nível médio de colesterol, em mg/dl, da população de

Alfenas, MG, mas o pesquisador somente tem recursos para realizar 300 análises (n=300).
População: Todas os habitantes da cidade de Alfenas

 N .
Parâmetro: Nível de colesterol médio

  .
Amostra: 300 pessoas

 n .
n
x i
X i 1
Estimador: n .
Estimativa: por exemplo, X  210 mg/dl (valor aproximado para  ).
23
CAPÍTULO 4. AMOSTRAGEM
4.1. AMOSTRAGEM PROBABILÍSTICA: Se todos os elementos da população

tiverem probabilidade conhecida e não nula de pertencer à amostra o processo de
amostragem é denominado probabilístico. Os mais importantes são:
(i) Amostragem Simples ao Acaso (A.S.A)

(ii) Amostragem Sistemática
(iii) Amostragem Estratificada
Um desses processos de amostragem probabilístico é aplicável quando é possível enumerar

todos os elementos da população.
4.2. AMOSTRAGEM NÃO-PROBABILÍSTICA: Quando a escolha dos elementos

da população é não aleatória, isto é, nem todos os elementos podem pertencer à
amostra. Neste caso, não é possível enumerar todos os elementos da população. A
escolha é justificada ou racional. Entre as diversas causas temos:
(i) INACESSIBILIDADE A TODA POPULAÇÃO: A amostragem é realizada na

parte da população que é acessível. Exemplo: De todos os pacientes com câncer
atendidos em 4 hospitais de uma cidade, apenas um deles autorizou a coleta de
dados.
(ii) AMOSTRAGEM SEM NORMA (A ESMO): Embora o pesquisador procure ser

aleatório, não se usa nenhum procedimento probabilístico. Exemplo: Escolher os 5
primeiros alunos de uma turma de 80.
(iii) POPULAÇÃO FORMADA POR MATERIAL CONTÍNUO: Aquela população

cujos elementos não podem ser enumerados e identificados. Exemplo: Qualidade
do .ar, qualidade da água. É impossível identificar cada elemento da população.
(iv) PESQUISA INTENCIONAL: O pesquisador escolhe deliberadamente certos
elementos para formar a amostra baseado num pré-julgamento. Exemplo: Ao
experimentar os efeitos de uma nova droga para o tratamento da AIDS o
pesquisador escolhe n=20 pacientes terminais entre todos os pacientes com a
doença.
IMPORTANTE: Como a finalidade de uma amostra é a de descrever,

indiretamente, a população, é necessário que as amostras sejam representativas da
população, isto é, que guardem características mais próximas possíveis da
população. As amostras devem reproduzir as mesmas propriedades da população.
4.3. PROCESSOS DE AMOSTRAGEM PROBABILÍSTICOS
4.3.1. AMOSTRAGEM ALEATÓRIA SIMPLES (A.S.A.)
OBJETIVO: Obter uma amostra representativa quando os elementos da população são todos
homogêneos. Neste processo de amostragem todos os elementos da população têm a mesma
probabilidade de seres coletados.
24
PROCEDIMENTO: Aqui enumera-se todos os elementos da população e sorteia-se n
elementos através de um dispositivo aleatório, por exemplo as “tabelas de números aleatórios”.
EXEMPLO: Deseja-se conhecer o nível de colesterol, em mg/dl na população de Alfenas, MG,
mas o pesquisador tem recursos para realizar somente 300 análises (n=300).
INFORMAÇÃO: tamanho da população de Alfenas (N=79.000 habitantes).
Execução da A.S.A.: Com o auxílio da tecla RAN# da calculadora científica, vamos gerar 300
números aleatórios. Lembrando que a população está enumerada. A sequência poderia ser:
RAN# X 79000 = 1.075; 102; 10; 70.020; 65.000; ...(até completar 300 pessoas)
4.3.2. AMOSTRAGEM SISTEMÁTICA
OBJETIVO: Aumentar a representatividade da amostra dando maior cobertura à população. É

usada quando todos os elementos são homogêneos.
PROCEDIMENTO: Os elementos da população são enumerados (1, 2, ..., N), e o primeiro

elemento da amostra é sorteado, por exemplo, “i”. Os demais são retirados em uma progressão
aritmética, saltando r elementos, até completar o total da amostra

 n , isto é,
i  r , i  2r , i  3r ,..., i  r (n  1) . O valor r é determinado pela seguinte razão:
N
r
n (r é chamado de passos de amostragem ou intervalo a ser seguido)
EXEMPLO: Deseja-se conhecer o nível de colesterol, em mg/dl na população de Alfenas, MG,

mas o pesquisador tem recursos para realizar somente 300 análises (n=300).
INFORMAÇÃO: tamanho da população de Alfenas (N=79.000 habitantes).
79.000
r  263,33  263
300
Em seguida, sorteia-se o primeiro entre 1 e r, que no exemplo é igual a 263. Por exemplo,
RAN# X 263 = 30. Então, a sequência será:
 
 
30,
 293,
 556
 , 819 ,..., 78.667
   
 i ir i 2r i 3r ir  n1 
 ; n = 300 indivíduos
4.3.3. AMOSTRAGEM ESTRATIFICADA
OBJETIVO: Melhorar a representatividade da amostra quando os elementos da população são

heterogêneos, porém, podem ser agrupados em subpopulações (ESTRATOS) contendo
elementos homogêneos.
PROCEDIMENTO: A população é dividida em grupos ou estratos contendo elementos

homogêneos e as amostras são retiradas separadamente de cada um desses grupos.
25
EXEMPLO: Deseja-se conhecer o nível de colesterol, em mg/dl, na população de Alfenas,
MG, nas faixas etárias pré-estabelecidas, mas o pesquisador tem recursos para realizar somente
300 análises (n=300).
INFORMAÇÃO: tamanho da população de Alfenas (N=79.000 habitantes), porém

considerando as faixas de idades pré-estabelecidas, a população alvo será de 65.000 habitantes.
Estratos Idade (em anos) Número de
indivíduos
 Ni 
1 18 a 25 anos 17.500
2 25 a 50 anos 35.000
3 Acima de 50 anos 12.500
Total 65.000
PROBLEMA: Qual é o tamanho de amostra em cada estrato? A amostra de 300 indivíduos

deverá ser retirada de maneira tal que os 3 estratos sejam considerados. Pode-se utilizar o
critério proporcional para retirar as amostras dos estratos.
ni
CRITÉRIO PROPORCIONAL: O estrato “i” fornece uma quantidade de elementos
proporcional ao tamanho do estrato

 Ni  . Isto é:
N
ni  i  n
N
No exemplo 2:
17500
n1   300  81
Estrato 1: 65000 pessoas
35000
n2   300  161
12500
n3   300  58
A soma dos tamanhos de amostras dos estratos é igual a 300.
26
LISTA DE EXERCÍCIOS 5 - AMOSTRAGEM
1) Critique os seguintes planos amostrais:

a) Para levantar a opinião das brasileiras sobre a importância e necessidade da
prevenção do câncer de colo de útero, decidiu-se entrevistar somente as
mulheres atendidas no município de Alfenas, MG.
b) Para comparar a eficiência dos atendimentos prestados à família e a
comunidade pretende-se acompanhar 2 PSF’s na zona sul de uma capital
(região com moradores de maior poder aquisitivo) e 2 PSF’s da zona norte. No
fim do mês foram comparados o desempenho dos 4 PSF’s, os zona sul com os
da zona norte.
c) Para estimar a proporção de pessoas de uma determinada cidade que tem por
hábito fazer uso de plantas medicinais, resolveu-se entrevistar 150 jovens (com
idade entre 18 e 25 anos) deste município.
2) Uma clínica médica dispõe de um arquivo com 200 fichas (enumeradas de 1 a 200) que
contém informações sobre cada paciente atendido durante o mês de abril do ano 2005.
Desejando fazer uma pesquisa com estes pacientes, a administração da clínica resolveu coletar
uma amostra de 20 pacientes atendidos nesse mês. Execute uma amostragem sistemática com n
= 20 e identifique os números das fichas dos cinco primeiros pacientes coletados para a amostra.
2) Identifique o tipo de Amostragem
Um psicólogo da Universidade de São Paulo seleciona 15 homens e 12 mulheres de uma turma

com baixo desempenho acadêmico.
(a) A. A. Estratificada
(b) A. A. Sistemática
(c) A. A. Simples
(d) A. não probabilística
Um cabo eleitoral escreve o nome de cada senador em cartões separados, mistura-os e extrai 10
nomes.
(c) A. A. Simples
O programa de Planejamento Familiar pesquisa 500 homens e 600 mulheres sobre seus pontos
de vista sobre o uso de anticoncepcionais.
(c) A. A. Simples
Um pesquisador seleciona um a cada 25 registros para coletar informações sobre o tipo de

incisão e o método cirúrgico utilizado em cirurgias de apendicite.
(c) A. A. Simples
27
CAPÍTULO 5
DISTRIBUIÇÃO DE PROBABILIDADE CONTÍNUA
5.1 DISTRIBUIÇÃO NORMAL
É uma importante distribuição de variáveis aleatórias contínuas devido à sua enorme

aplicação nos mais variados campos do conhecimento, incluindo as ciências agrárias.
A suposição de que um conjunto de dados vem de uma distribuição normal é central em
muitas técnicas estatísticas. Se essa suposição não é satisfeita, os resultados das análises
estatísticas podem não ser confiáveis. Diante disso, ao selecionar uma amostra de uma
população são aplicados testes de normalidade dos dados ou dos resíduos com o intuito de
verificar se a amostra tem distribuição normal.
5.2 PROPRIEDADES DA CURVA NORMAL
1) É simétrica em relação à média  .

2) Tem forma de sino.
3) Fica completamente definida conhecendo a média

 
e a variância
 
2
da variável
aleatória X.
4) É assintótica em relação à abscissa (ela nunca corta o eixo X).
5) A área total abaixo da curva é igual a 1.

 
f ( x) dx  1
Figura 1. Função de densidade de probabilidade Normal (curva Normal).
Seja X uma variável aleatória contínua, diz-se que X tem uma distribuição normal (ou
está distribuída normalmente) se ela tem uma função de densidade de probabilidade da forma:
 2
1   x  
f ( x)  exp   ;    x  
2  2 2 
 
28
CAPÍTULO 6 – TEORIA DA DECISÃO
DISTRIBUIÇÃO DE QUI-QUADRADO
7.1. MÉTODO CIENTÍFICO
Hipóteses

Coleta de dados

Testar as hipóteses

Conclusões
7.2. UTILIZAÇÃO DO TESTE QUI-QUADRADO
Sim x Não

Doença x Não doença
Fator de risco x Doença
 DADOS DICOTÔMICOS -  `
 Teste de Hipóteses: Dependência entre as variáveis
7.3. TABELA DE CONTINGÊNCIA
OBJETIVO: Mostra se existe dependência entre duas variáveis pertencentes à mesma

população.
COMPONENTES
 Linhas (L)
 Colunas (C)
 Células
Desfecho
Presente Ausente Total
Fator de risco Presente a b a+b
Ausente c d c+d
Total a+c b+d a+b+c+d
a = indivíduos com o fator de risco e com a doença;

b = indivíduos com o fator de risco, mas sem a doença;
c = indivíduos sem o fator de risco, mas com a doença;
d = indivíduos sem o fator de risco e sem a doença;
a+b = todos os indivíduos com o fator de risco;
c+d = todos os indivíduos sem o fator de risco;
a+c = todos os indivíduos com a doença;
b+d = todos os indivíduos sem a doença.
29
EXEMPLO 1. Dois grupos de 100 pacientes foram acompanhados quanto a incidência de
câncer de pulmão associado ao tabagismo. No grupo de fumantes a incidência de câncer foi
igual a 28 pacientes, no grupo controle (não fumantes) foi igual a 8 pacientes. A incidência de
câncer está associada ao tabagismo?
Fator de Doença Total
exposição Câncer sim Câncer não
Tabagismo sim 28 72 100
Tabagismo não 8 92 100
Total 36 164 200
EXEMPLO 2. Em um estudo experimental, com 300 pacientes, para testar uma nova droga
contra AIDS, 240 receberam o medicamento A, ao passo que, 60 receberam um placebo. A taxa
de mortalidade em 2 anos foi de 88 e 12 pacientes, respectivamente. A mortalidade de pacientes
com Aids está associada ao uso da droga A?
Fator de Desfecho Total

exposição Morte sim Morte não
Droga A 88 152 240
Placebo 12 48 60
Total 100 200 300
7.4. TESTE DE QUI-QUADRADO
OBJETIVO: Prediz o comportamento de uma variável dependente com base no

conhecimento de uma ou mais variáveis independentes.
COMPONENTES: Compara contagens observadas (O) com contagens esperadas (E).
CÁLCULO DAS CONTAGENS ESPERADAS
Total da linha i  Total da coluna j

Ei , j 
Total estudado
PARA O EXEMPLO 2, TEM-SE:
240 100
E1,1   80
300
240  200
E1,2   160
300
60 100
E2,1   20
300
60  200
E2,2   40
300
Fator de Desfecho Total

exposição Morte sim Morte não
Droga A 88 (80) 152 (160) 240
Placebo 12 (20) 48 (40) 60
Total 100 200 300
30
7.5. CÁLCULO DO VALOR DE QUIQUADRADO
ESTATÍSTICA DO TESTE DE QUI-QUADRADO
 O  e  2 
   
2 i, j i, j
c
 ei , j 
 
PARA O EXEMPLO 2, TEM-SE:
 88  80   152  160   12  20   48  40 
2 2 2 2
 2
c     
80 160 20 40
 0,8  0, 4  3, 2  1, 6  6, 0
EXEMPLO 3: Em um estudo experimental, com 300 pacientes, para testar uma nova droga
contra AIDS, 240 receberam o medicamento A, ao passo que, 60 receberam um placebo. A taxa
de mortalidade em 2 anos foi de 88 e 12 pacientes, respectivamente. No presente estudo a
mortalidade está associada ao uso da droga?
1) Estabelecer as hipóteses
H 0 : a mortalidade de pacientes com AIDS INDEPENDE do uso da droga
H1 : a mortalidade de pacientes com AIDS DEPENDE do uso da droga
2) Estabelecer o nível de significância “  ”.

Por exemplo,   0, 05 ou 5% .
3) Calcular o valor da estatística do teste e comparar com o valor de

qui-quadrado tabelado (obtido por meio de uma tabela).
 c2  5, 7
 tabelado
2
  2g .l ;     21; 0,05  3,84
g .l.   número de linhas -1   número de colunas -1
4) Critério para tomada de decisão:

c2  
 Se o valor de tabelado rejeita-se H 0 ao nível de significância “  ”.
H 0 ao nível de significância “  ”.
 Caso contrário, não se rejeita
 2   tabelado H
5) Conclusão: Como c rejeita-se 0 ao nível de significância de 5%, ou seja, a
mortalidade de pacientes com AIDS depende do uso da droga.
EXEMPLO 4. Dois grupos de 100 pacientes foram acompanhados quanto a incidência de

câncer de pulmão associado ao tabagismo. No grupo de fumantes a incidência de câncer foi
igual a 28 pacientes, no grupo controle (não fumantes) foi igual a 8 pacientes. No presente
estudo a incidência de câncer de pulmão está associada ao tabagismo?
H 0 : a incidência de pacientes com câncer INDEPENDE do tabagismo
H1 : a incidência de pacientes com câncer DEPENDE do tabagismo
31

Fator de Doença Total

exposição Câncer sim Câncer não
Tabagismo sim 28 (18) 72 (82) 100
Tabagismo não 8 (18) 92 (82) 100
Total 36 164 200
100  36
e1,1   18
200
100  164
e1,2   82
200
100  36
e2,1   18
200
100 164
e2,2   82
200
 28  18  72  82   8  18  92  82 
2 2 2 2
 c2     
18 82 18 82
 5,5  1, 2  5,5  1, 2  13, 4
 tabelado
2
  2g .l ;     21; 0,05  3,84

 Se o valor de c rejeita-se 0 ao nível de significância “  ”.
H 0 ao nível de significância “  ”.
 Caso contrário, não se rejeita
5) Conclusão: Como c rejeita-se 0 ao nível de significância de 5%, ou seja, a
incidência de pacientes com câncer depende do tabagismo.
EXEMPLO 5: Uma pesquisa com 531 pessoas sobre a incidência de ferimentos faciais em
acidentes com motocicleta, com ou sem uso de capacetes, revelou os seguintes dados: Em 113
pacientes com capacete apenas 30 apresentaram ferimentos na face e em 418 pacientes sem
capacete 182 apresentaram ferimentos na face. No presente estudo, os ferimentos faciais estão
associados ao uso de capacete?
H 0 : a incidência de ferimentos na face NÃO está associada ao uso de capacete
H1 : a incidência de ferimentos na face está associada ao uso de capacete
32

Ferimento sim Ferimento não Total

Capacete sim 30 (45,1) 83 (67,9) 113
Capacete não 182 (166,9) 236 (251,1) 418
Total 212 319 531
113  212
e1,1   45,1
531
113  319
e1,2   67,9
531
418  212
e2,1   166,9
531
418  319
e2,2   251,1
531
 30  45,1  83  67,9   182  166,9   236  251,1
2 2 2 2
 2
c     
45,1 67,9 166,9 251,1
 5, 0  3,3  1, 4  0,9  10,6
 tabelado
2
  2g .l ;     21; 0,05  3,84

c2   tabelado H 0 ao nível de significância “  ”.
 Se o valor de rejeita-se

H
Caso contrário, não se rejeita 0 ao nível de significância “  ”.
c2   tabelado H
5) Conclusão: Como rejeita-se 0 ao nível de significância de 5%, ou seja, a
incidência de ferimentos na face está associada ao uso de capacetes.
5.4. EXERCÍCIOS PROPOSTOS
1) Um estudo para determinar a taxa de mortalidade infantil no primeiro ano de vida, em

crianças com e sem aleitamento materno durante os seis primeiros meses após o nascimento,
mostrou os dados abaixo. O aleitamento materno está associado a taxa de mortalidade infantil?
Desfecho
Mortalidade sim Mortalidade não Total
Com aleitamento 12 (20) 88 (80) 100
Sem aleitamento 48 (40) 152 (160) 200
Total 60 240 300

H0: a taxa de mortalidade não está associada ao aleitamento materno
33
H1: a taxa de mortalidade está associada ao aleitamento materno
20)   0, 05
30)
 12  20   88  80   48  40   152  160 
2 2 2 2
c 
2
  
20 80 40 160
 3, 2  0,8  1, 6  0, 4  6
2  3,84
40) tabelado
0
c2   tabelado
2
5 ) Conclusão: Como , rejeita-se H0 ao nível de 5% de significância, ou seja, a
taxa de mortalidade está associada ao aleitamento materno.
3) 20 pacientes, divididos aleatoriamente em dois grupos iguais, foram submetidos a tratamento
para obstipação intestinal com dieta à base de frutas ou soja. No grupo Frutas, 9 pacientes
evoluíram satisfatoriamente e no grupo Soja apenas 2 pacientes apresentaram melhora do
quadro. Houve diferença entre as dietas?
Desfecho Total
Obstipação sim Obstipação não
Frutas 9 (5,5) 1 (4,5) 10
Soja 2 (5,5) 8 (4,5) 10
Total 11 9 20
10) Estabelecer as hipóteses:

H0: as dietas não são diferentes em relação à obstipação intestinal
H1: as dietas são diferentes em relação à obstipação intestinal
20)   0, 05
30)
 9  5,5   1  4,5   2  5,5   8  4,5 
2 2 2 2
c 
2
  
5,5 4,5 5,5 4,5
 2, 23  2, 72  2, 23  2, 72  9,88
2  3,84
4 ) tabelado
0
0
c2   tabelado
2
5 ) Conclusão: Como , rejeita-se H0 ao nível de 5% de significância, ou seja,
as dietas são diferentes.
34
CAPÍTULO 7
TESTE T DE STUDENT
Objetivo: Avaliar se as médias calculadas em dois grupos formados de maneira independente

são iguais ou não.
Um teste de hipótese como esse se fundamenta na ideia de que as estimativas da média

tendem a se aproximar do valor de  da população. Se 0 é verdadeira, ou seja,
H   0 ,

então, o valor de t aproxima-se de zero. Se 0 afasta-se de  , o valor de t afasta-se de zero.
Valores grandes de |t| são atípicos dentre a maioria dos valores da distribuição t de Student.

Assim, se 0 não corresponde ao valor de  , o valor de |t| tende ser um valor atípico, e a
decisão será tomada no sentido de rejeitar a hipótese nula. É evidente que erros podem
acontecer, ou seja, quando o valor de
0 for distante do valor de  , o valor de t pode estar
próximo de zero ou com


0 , o valor de t pode ser atípico. Valores atípicos são aqueles que
ocorrem com probabilidade muito pequenas. Essas probabilidades são os valores de  fixados
em 10%, 5% e 1%, os quais se referem às probabilidades de se incorrer em um erro tipo I.
t 2 t , são obtidos facilmente consultando uma tabela.
Os valores críticos de t, ou
Esses valores críticos são funções dos graus de liberdade    n1  n2  2  e da probabilidade  ,
valor nominal de significância.
O teste t pressupõe que a amostra é advinda de uma população normal. Felizmente, o
teste t é robusto, o que significa que sua validade não é seriamente afetada por desvios
moderados dessa distribuição. Neste teste assume-se, como se faz na maioria dos demais testes,
que os dados representam uma amostra aleatória da população.
6.1. HIPÓTESES ESTATÍSTICAS, ERROS ENVOLVIDOS NO PROCESSO DE

DECISÃO
Uma afirmação feita, a priori sobre um parâmetro em estudo é chamada de HIPÓTESE

ESTATÍSTICA. Um TESTE DE HIPÓTESE é o critério do qual se lança mão para tomar a
decisão de aceitar ou rejeitar a hipótese estatística.
A hipótese estatística divide-se em duas partes complementares:
OBSERVAÇÃO: 1) Estabelecer
H 0 e H1 depende exclusivamente da natureza do problema
em estudo.
2) Por convenção os símbolos ,  e  estão associados com 0 e os
H
símbolos ,  e  com 1 .
H
3) A rejeição de
H 0 implicará na aceitação de H1 e vice-versa, isto é,
H 0 e H1 são complementares.
Como na tomada de decisão sobre a aceitação ou rejeição de uma hipótese está baseado
apenas na informação dos dados amostrais, dois tipos de erros podem ser cometidos:
Erro tipo I: Rejeitar

H 0 quando ela é verdadeira.
H
Erro tipo II: Aceitar 0 quando ela é falsa.
35
A probabilidade de se cometer o ERRO TIPO I é denotada por " " e é chamada de
NÍVEL DE SIGNIFICÂNCIA do teste. A probabilidade de ocorrência do erro tipo II é denotada
por  . O complemento da probabilidade da ocorrência do erro tipo II, 1   é denominado de
PODER do teste.
H
O poder de um teste é a probabilidade de rejeitar uma hipótese 0 que é falsa e que
deveria ser de fato, rejeitada. Se, por um lado, a probabilidade de incorrer no erro tipo I é
conhecida e fixada pelo pesquisador, por outro, a probabilidade do erro tipo II não é conhecida e
nem pode ser especificada. O que se sabe é que, para um valor conhecido e fixado de n,
tamanho da amostra, o valor de  é relacionado inversamente ao valor de  . Assim, baixa
probabilidade de se incorrer no erro tipo I está associada à alta probabilidade de se cometer o
erro tipo II e o único modo de se causar restrição simultânea de ambos é aumentar o tamanho da
amostra (n).
O quadro abaixo resume a natureza dos erros envolvidos no processo de decisão através
dos testes de hipóteses:
TABELA 3. Erros tipo I e tipo II e as decisões tomadas corretamente para os testes de hipóteses
com suas respectivas probabilidades associadas entre parênteses.
DECISÃO
H
Rejeitar 0 Não rejeitar
H0
H 0 verdadeira Erro tipo I (  ) Decisão correta ( 1   )
Erro tipo II (  )
H1 falsa Decisão correta
(Poder: 1   )
Neste capítulo serão realizados testes de hipóteses em que apenas o ERRO TIPO I é
controlado (chamados TESTES DE SIGNIFICÂNCIA), isto devido a que o controle do outro
tipo de erro precisa de técnicas mais avançadas.
6.2. TESTE T PARA UMA AMOSTRA
Objetivo: Avaliar se a média obtida em uma amostra é considerada igual a um valor teórico e
pré-determinado.
EXEMPLO 1.: As seguintes informações se referem à duração do ciclo menstrual em uma

amostra aleatória de 15 mulheres. É desejado avaliar se a duração média do ciclo menstrual
humano corresponde ao mês lunar (29,5 dias).
Dados: 26, 24, 29, 33, 25, 26, 23, 30, 31, 30, 28, 27, 29, 26 e 28
Valor médio: 27,7 desvio padrão: 2,74
IDÉIA CENTRAL DO TESTE T
Leva em conta 3 informações:
(1) Média(s) obtida(s) na(s) amostra(s)

(2) Desvio(s) padrão obtido(s) na(s) amostra(s)
(3) Tamanho(s) da(s) amostra(s)
Conclusões são baseadas na tabela da distribuição t de Student
(1) Número de graus de liberdade e,

(2) Nível de significância
36
REGRA DE DECISÃO
Tcalc  T  ; n1
Hipótese unilateral
(A) Se H0 deve ser rejeitada
Tcalc  T  ; n1
Hipótese bilateral
(B) Se H0 não deve ser rejeitada
HIPÓTESES
H0:  =
μ0 (no exemplo: H :  = 29,5 Ciclo menstrual = ciclo lunar)
0
μ
H1:   0 (no exemplo: H1:   29,5 Ciclo menstrual ≠ ciclo lunar)
ESTATÍSTICA t:
Necessário obter três quantidades:

(1) Média amostral, (2) Desvio padrão e (3) Tamanho da amostra
X̄ - μ0 ( X− X̄ )2
T=
s/ √ n , onde
s=
√ n−1
27,7 - 29,5 −1,8
= desvio padrão
T calc= = =2,546
no exemplo: 2,74/ √ 15 0,707
Tabela t
(1) Graus de liberdade = Num. observações – 1
No exemplo: gl = 15 – 1 = 14 ttab, 5%, 14 = 2,145
Regra de decisão
Como |tcalc| > ttab (3,546 > 2,145) Rejeita-se H0
Conclusão: Com base na amostra obtida, conclui-se que o ciclo menstrual das mulheres
apresenta uma duração média inferior à duração do ciclo lunar. O nível de significância dotado
foi de 5% e o p-valor associado a esta amostra é igual a 0,023 ou 2,3%.
6.3. TESTE T PARA DUAS AMOSTRAS INDEPENDENTES
10) Formular as hipóteses
37
 H 0 : 1  2 ou H 0 : 1  2 ou H 0 : 1  2

 H1 : 1  2 ou H 0 : 1   2 ou H 0 : 1  2
  
(Hipótese bilateral) (Hipótese unilateral) (Hipótese unilateral)
20) Estabelecer o nível de significância " " .
30) Estatística do teste:
tc 
X 1  X 2    1  2 
1 1
S p2   
 n1 n2 
sendo,
S 2

 n1  1 S12   n2  1 S 22
p
n1  n2  2
EXEMPLO 2: Um estudo foi realizado para avaliar o nível de frutosamina no sangue de

pacientes dos sexos masculino e feminino
Feminino Masculino
Média 2,70 2,99
Desvio Padrão 0,26 0,32
Nº de Observações 21 21
O nível médio de frutosamina pode ser considerado igual para ambos os sexos?
10)
H 0 : 1  2
H1 : 1   2
20) α = 0,05
30)
( 21−1 )*0,0676+( 21−1 )*0,1024
S 2p = =0,0850
21+21−2
2,70  2,99
tc   3,22
 1 1 
0,0850*   
 21 21 
tc  3, 22
É necessário comparar este valor com o valor da tabela t apropriado
TABELA t
(1) Graus de liberdade = n1 + n2 – 2
t 0,025; 40  2, 021
No exemplo: g.l = 40
38
Regra de decisão:
tc  ttabelado
Como (3,22 > 2,021) Rejeita-se H0
Conclusão: Com base nos valores obtidos no estudo, a hipótese nula de que o nível médio de
frutosamina é igual para os dois sexos deve ser rejeitada a um nível inferior a 5%, ou seja, com
mais de 95% de confiança pode-se afirmar que o nível médio de frutosamina nos homens é
superior ao nível médio de frutosamina das mulheres.
EXEMPLO 3: Para verificar se duas dietas para emagrecer são igualmente eficientes, um
médico separou, ao acaso, um conjunto de pacientes em dois grupos. Cada paciente seguiu a
dieta designada para seu grupo. Decorrido certo tempo, o médico obteve a perda de peso, em
quilograma, de cada paciente de cada grupo. Os dados estão apresentados na tabela abaixo. Use
 = 5%
Dieta 1 2 3 4 5 6 7 8 9 10
1 12 8 15 13 10 12 14 11 12 13
2 15 19 12 13 16 15
Informações das amostras

X 1  12 X 2  15
S 4
1
2
S22  5
n1  10 n2  6
S2p = (9x4 + 5x5)/14 = 4,3571

12 - 15 -3 -3
= = =−2,7832
1 1 √ 4,3571 x 0,2667 1,0779
tc = √ 4,3571
t 0,025; 14  2,145

( +
10 6 )
Conclusão: Ao nível de 5%, conclui-se que a dieta 2 proporciona uma maior redução de peso
quando comparada com a dieta 1.
REGRA DE DECISÃO GERAL

PROBABILIDADE DE SIGNIFICÂNCIA (P-VALOR OU VALOR – P)
A partir do valor calculado da estatística qui-quadrado e do p-valor pode-se concluir

que: (a) Se o p-valor < 0,05 (nível de significância “alfa”) rejeita-se a hipótese nula ao nível
de 5% de significância, ou seja, existe associação entre o fator de exposição e o desfecho; (b)
Caso contrário, não se deve rejeitar a hipótese nula ao nível de 5% de significância, ou seja,
possivelmente esta não associação pode ter ocorrido por mero acaso.
39
6.4. TESTE T PARA DUAS AMOSTRAS DEPENDENTES (PAREADAS)
Objetivo: Avaliar se as médias calculadas em dois grupos formados de maneira dependente são
iguais ou não.
EXEMPLO: Avaliar a efetividade de uma dieta combinada com um programa de exercícios

físicos na redução do nível de colesterol
Programa 1 2 3 4 5 6 7 8 9 10 11 12
Antes 201 230 221 260 228 237 326 235 240 267 284 201
Depois 200 236 216 233 224 216 296 195 207 247 210 209
O nível médio de colesterol foi reduzido após o programa de dieta combinada com
exercícios físicos? (O programa tem efeito?)
HIPÓTESES
H0: Nível médio de colesterol antes = nível médio de colesterol depois
H1: Nível médio de colesterol antes ≠ nível médio de colesterol depois
IDÉIA DO TESTE T PAREADO

Calcula-se a diferença entre as observações antes e depois
Programa 1 2 3 4 5 6 7 8 9 10 11 12
Antes 201 230 221 260 228 237 326 235 240 267 284 201
Depois 200 236 216 233 224 216 296 195 207 247 210 209
Diferença 1 -6 5 27 4 21 30 40 33 20 74 -8
A partir desta nova variável criada – diferença (D) – realiza-se um teste t para uma
amostra (Situação 1) considerando esta nova variável D.
As hipóteses são:
H0: D̄ =0 Valores obtidos antes = valores obtidos depois

H1: D̄ ≠0 Valores obtidos antes ≠ valores obtidos depois
D̄ ( d− d̄ )2
ESTATÍSTICA t:
D̄ = 20,12
T p=
sd / √ n
Sd = 23,13
, onde
sd=
√ n−1
20,12
T p= =3,02
23,13/ √ 12
TABELA t:
(1) Graus de liberdade = n – 1
No exemplo: gl = 11 ttab, 5%, 11 = 2,201
Regra de decisão:
Como |tcalc| > ttab (3,02 > 2,201) Rejeita-se H0
Conclusão: Ao nível de 5%, a hipótese nula deve ser rejeitada, o que indica que o programa de
dieta combinada com exercícios físicos é eficiente na redução do nível de colesterol.
40
41
GABARITOS

QUALITATIVOS
1)
a) População: todos os jovens de uma comunidade. Amostra: 50 jovens de uma comunidade
escolhidos aleatoriamente.
b) Variável: métodos contraceptivos. Classificação: Qualitativa nominal.
Tabela 1. Métodos contraceptivos utilizados por 50 jovens de uma determinada

comunidade.
Métodos Fi Fri Fpi
Tabela 21 0,42 42%
Pílula 8 0,16 16%
Preservativo 16 0,32 32%
Outros 5 0,10 10%
Total 50 1,00 100%
c) Representação gráfica.
Gráfico de colunas Gráfico de setores
Chart Title Chart Title

45% 42%
40%
35% 32%
26%
30%
25% 47%
7%
20%
16%
20%
15%
10%
10%
5%
0% Carro Atropelamento
Tabela Pílula Preservativo Outros Espancamento Moto
Figura 1. Frequência percentual de jovens de uma determinada Figura 2. Frequência percentual de jovens de uma
comunidade que utilizam métodos contraceptivos. determinada comunidade que utilizam métodos
contraceptivos.
2) nível educacional (nenhum, ensino fundamental, ensino médio, ensino superior) = variável
qualitativa ordinal; peso (kg) = variável quantitativa contínua; altura = variável quantitativa
contínua; idade = variável quantitativa contínua; tipo sanguíneo (B, A, O, AB) = variável
qualitativa nominal; tipos de doenças = variável qualitativa nominal; percentual de gordura
corporal = variável quantitativa contínua; hábito de fumar (fumante ou não) = variável
qualitativa nominal; atividade física (pouca, moderada e muita) = variável qualitativa ordinal.
3) a) Variável: Agentes etiológicos de fratura na face.

Classificação: Qualitativa nominal.
42
b) Tabela 2. Agentes etiológicos de fraturas na face registrados no Pronto Socorro do
Hospital das Clínicas da USP.
Agentes Fi Fri Fpi
etiológicos
Carro 7 0,4667 46,67%
Atropelamento 3 0,2000 20,00%
Espancamento 1 0,0667 6,67%
Moto 4 0,2667 26,67%
Total 15 1,0000 100,00%
b)
Chart Title
50% 47%
45%
40%
35%
30% 26%
25%
20%
20%
15%
10% 7%
5%
0%
Carro Atropelamento Espancamento Moto
Gráfico 1. Porcentagem agentes etiológicos de fraturas na face registrados no
Pronto Socorro do Hospital das Clínicas da USP.
43
QUANTITATIVOS
1) a) Variável: Peso. Classificação: Quantitativa contínua.

b)
Tabela1. Distribuição de frequências da perda de peso de 10 indivíduos que
receberam a dieta A ou B.
Classes Xi Fi Fri Fpi
(Pesos)
[-2,95 ; 0,95) -1,0 2 0,20 20,0%
[0,95 ; 4,85) 2,9 4 0,40 40,0%
[4,85 ; 8,75) 6,8 4 0,40 40,0%
TOTAL 10 1,00 100,0%
REPRESENTAÇÃO GRÁFICA: HISTOGRAMA E POLÍGONO DE FREQUÊNCIAS.
Gráfico 1. Perda de pesos de 10 indíviduos que receberam a dieta A ou B.
Classificação da distribuição de frequências: Distribuição aproximadamente assimétrica à

esquerda.
2) a) Variável: Notas. Classificação: Quantitativa contínua.

b)
NOTAS DE BIOQUÍMICA
 1  k  20  5 classes
0
 2  c  k A 1  355 18  274  6, 75 pontos

0
c 6, 75
3 
0
LI1  menor valor -
2
8
2
 4, 62 pontos
TABELA DE DISTRIBUIÇÃO DE FREQUÊNCIAS DE CLASSES PARA AS NOTAS DE

BIOQUÍMICA
Tabela 2. Notas de bioquímica dos 20 melhores classificados em um exame geral.

Classes (Notas Xi Fi Fri Fpi
de Português)
[4,62 ; 11,37) 8 3 0,15 15%
[11,37 ; 18,12) 14,75 4 0,20 20%
[18,12 ; 24,87) 21,5 5 0,25 25%
[24,87 ; 31,62) 28,25 4 0,20 20%
[31,62 ; 38,37) 35 4 0,20 20%
Total 20 1,00 100%
44
NOTAS DE BIOESTATÍSTICA
 1  k  20  5 classes
0
 2  c  k A 1  325  13
0
1

19
4
 4, 75 pontos
c 4, 75
3 
0
2
 13 
2
 10, 62 pontos
TABELA DE DISTRIBUIÇÃO DE FREQUÊNCIAS DE CLASSES PARA AS NOTAS DE

BIOESTATÍSTICA
Tabela 3. Notas de bioestatística dos 20 melhores classificados em um exame de

vestibular para uma faculdade.
Classes (Notas) Xi Fi Fri Fpi
[10,62 ; 15,37) 13 1 0,05 5%
[15,37 ; 20,12) 17,75 3 0,15 15%
[20,12 ; 24,87) 22,50 4 0,20 20%
[24,87 ; 29,62) 27,25 8 0,40 40%
[29,62 ; 34,37) 32 4 0,20 20%
Total 20 1,00 100%
c) REPRESENTAÇÃO GRÁFICA PARA AS NOTAS DE BIOQUÍMICA
Gráfico 2. Notas de bioquímica dos 20 melhores classificados em um exame geral.
OBSERVAÇÃO: O HISTOGRAMA E O POLÍGONO DE FREQUÊNCIAS PARA AS

NOTAS DE BIOQUÍMICA FORAM CONSTRUÍDOS CONSIDERANDO APENAS 4
CLASSES NO SOFTWARE ESTATÍSTICO SISVAR. VOCÊS DEVEM CONSTRUIR
CONSIDERANDO AS 5 CLASSES.
Classificação da distribuição de frequências das notas de bioquímica: aproximadamente

simétrica.
45
REPRESENTAÇÃO GRÁFICA PARA AS NOTAS DE BIOESTATÍSTICA
Gráfico 3. Notas de bioestatística dos 20 melhores classificados em um exame geral.
OBSERVAÇÃO: O HISTOGRAMA E O POLÍGONO DE FREQUÊNCIAS PARA AS

NOTAS DE BIOESTATÍSTICA FORAM CONSTRUÍDOS CONSIDERANDO
APENAS 4 CLASSES NO SOFTWARE ESTATÍSTICO SISVAR. VOCÊS DEVEM
CONSTRUIR CONSIDERANDO AS 5 CLASSES.
Classificação da distribuição de frequências para as notas de bioestatística aproximadamente

assimétrica à esquerda.
c) Variável: Total de pontos
T.D.F.C
k  20  5 classes
66  30
c 9
5 1
9
LI1  30   25,5
2
Classes Xi Fi Fri Fpi  % 

(Notas)
[25,5 ; 34,5) 30 4 0,20 20%
[34,5 ; 43,5) 39 5 0,25 25%
[43,5 ; 52,5) 48 3 0,15 15%
[52,5 ; 61,5) 57 6 0,30 30%
[61,5 ; 70,5) 66 2 0,10 10%
Total 20 1,00 100%
d) Observando o Histograma e o Polígono de frequências para as notas de bioquímica e de

bioestatística verifica-se uma maior frequência de alunos com maiores notas em bioestatística
do em bioquímica.
46
3) CONSTRUÇÃO DA T.D.F. C. PARA O NÍVEL DE COLESTEROL DE 10 INDIVÍDUOS.
 1  k  10  4 classes
0
 2  c  k A 1  9504  650
0
1

300
3
 100 mg/dl
c 100
3 
0
2
 650 
2
 600 mg/dl
TABELA DE DISTRIBUIÇÃO DE FREQUÊNCIAS DE CLASSES PARA O NÍVEL DE

COLESTEROL.
Tabela 4. Nível de colesterol avaliado em uma amostra de 10 indivíduos obesos de

uma cidade do interior de Minas Gerais.
Classes (Nível Xi Fi Fri Fpi
de colesterol)
[600 ; 700) 650 1 0,10 10%
[700 ; 800) 750 4 0,40 40%
[800 ; 900) 850 2 0,20 20%
[900 ; 1000) 950 3 0,30 30%
Total 10 1,00 100%
47
LISTA DE EXERCÍCIOS 3 – MEDIDAS DE POSIÇÃO PARA DADOS BRUTOS E
AGRUPADOS/QUARTIL
1)
MÉDIA PARA DADOS AGRUPADOS
xF i i
X i 1
X
  27  8,5  29  9,5  46  ...  11,5  55 
7,5
200
1934
  9, 67 segundos
200
MEDIANA PARA DADOS AGRUPADOS
Classe mediana: n é par (n = 200)
Classe mediana = X(n/2) = X(200/2) = X(100) = 102 = 3ª classe

 n  FA  100  56 
Md  LI md   2   Cmd  9   1
 Fmd  
 46 
 
44
 9  9  0,95
46
 9,95segundos
MODA PARA DADOS AGRUPADOS
Classe modal: 5ª classe

 1 
Mo  LI mo  
  55  43 
  Cmo  11    1
 1   2    55  43    55  0  
 12 
 11   
 12  55 
12
 11  
67
 11  0,18  11,18segundos
2) a) PARA O CÁLCULO DE UM QUARTIL OU PERCENTIL OS DADOS DEVEM ESTAR

ORDENADOS.
4 4 5 5 6 6
7 7 7 8 8 9
3  12  1
Posição de Q3   8, 25  8
4
Interpretação: 75% dos suicídios têm um índice abaixo de 7,5 e 25% acima de 7,5.
48
3) a) VARIÁVEL: Nível de potássio
CLASSIFICAÇÃO: Quantitativa contínua.
b) Será feito em aula.
52,38%  T.D.F.C.
c) Qual a porcentagem dos valores que são superiores ao nível 3,15?
3) a) VARIÁVEL: Frequência cardíaca (número de batimentos cardíacos por minuto).

CLASSIFICAÇÃO: Quantitativa discreta.
b) Será feito em aula.
c) Sim, pois houve uma maior frequência de alunos com batimentos cardíacos contidos na 3ª
classe (classe modal).
d)
2,5%  T.D.F.C.
4) TIPO I: Existe um valor extremo (fora do padrão), portanto a mediana é a medida mais
apropriada para representar esse conjunto de dados. Ela não é influenciada por um ou mais
valores atípicos.
DADOS ORDENADOS
46 47 48 50 52 130
n é par (n = 6).
X  n   X  n2  X  6   X  6 2 
        X  3  X  4 
md  2  2 
  2  2 

2 2 2
48  50
md   49 dias
2
TIPO II: Não existem valores extremos. A média é a medida de posição que melhor representa
esse conjunto de dados.
n
X i
72  75  ...  77 519
X i 1
   74,14 dias
n 7 7
TIPO III: O valor “45” se repete 5 vezes entre os 10 valores. Neste caso, a moda é a medida
preferida.
Moda = 45 dias
49
LISTA 4 – QUESTÕES GERAIS - GABARITO
1)
Tabela 1. Nível de albumina no sangue (g/dl).

4,44 4,47 4,48 4,51 4,54 4,61 4,64 4,66 4,68 4,68
4,68 4,69 4,71 4,73 4,76 4,76 4,76 4,81 4,86 4,86
4,87 4,88 4,90 4,90 4,95 4,95 4,96 4,97 4,98 4,98
4,99 5,00 5,01 5,01 5,01 5,02 5,04 5,05 5,08 5,09
5,09 5,10 5,11 5,11 5,16 5,17 5,18 5,19 5,24 5,24
5,24 5,26 5,27 5,27 5,29 5,32 5,35 5,46 5,50 5,85
10 Quartil ou Quartil 25 = 60  25  X    4,76
100 15 
   
abaixo
 60  75  X    4,76
100  45 
   
acima
 4,76  4,76
2
 4,76 g/dl
30 Quartil ou Quartil 75 = 60  75  X    5,16

100  45 
   
abaixo
 60  25  X    5,17
100 15 
   
acima
 5,16  5,17
2
 5,165 g/dl
2) O procedimento utilizado foi inadequado porque subestima o valor da média. Nesse caso, a
forma mais apropriada de síntese dos dados é a mediana, pois seu cálculo independe de valores
extremos.
3)
Tabela 2. Distribuição de idade dos pacientes potencialmente suicidas.
Idade (anos)
Xi Fi
[10 ; 20) 15 57
[20 ; 30) 25 113
[30 ; 40) 35 59
[40 ; 50) 45 32
[50 ; 60) 55 19
[60 ; 70) 65 7
Total 287
50
MÉDIA
k
 xi Fi
X  i 1  15 57  25 113  ...  65  7
n 287
 8685
287
 30,26 anos
MEDIANA
2 F 
n
md  LI  A  C
md  F  md
 md 
Classe mediana = X   X  X  2a classe
 n1   2871  144 
  
     
 2  2   

  
md  20   287 2  57  10
 
 113 
 20  86,5 10
113
 20  7,65
 27,65 anos
MODA
  
mo  LImo   1 C
   mo
 1 2
Classe modal = 2a classe (classe com maior Fi )

md  20  
 113  57  
 10
  113  57    113  59  
 
 20  56 10
56  54
 20  56 10
110
 20  5,09
 25,09 anos
4)
DADOS ORDENADOS
30 32 36 37 39 39 39 40
42 42 44 45 47 53 57 60
51
x  x
 n   n2 

2  
 2 
md 
 
2
x  x
16  




162 
 2 2 
  
 
2
x  x
 8  
 9 
    
2
 40  42
2
 41 kg
PARA CALCULAR A MEDIANA COM BASE NOS DADOS AGRUPADOS É
NECESSÁRIO CONSTRUIR A T.D.F.
1) k  n
k  16  4 classes
2) c  maior valor - menor valor
k 1
 60 - 30  10 kg
3
3) LI  menor valor - c
1 2
 30  10
2
 30  5  25 kg
Classes (Pesos) Xi Fi
[25 ; 35) 30 2
[35 ; 45) 40 9
[45 ; 55) 50 3
[55 ; 65) 60 2
Total 16
MEDIANA PARA DADOS AGRUPADOS

2 F  n
md  LI A  C

md  F  md
 md 
Classe mediana = x   x   x   2a classe
n  16  8 
 
 2  
 2 
  
   
md  35  16 2  2  10
 
 9 
 35  6 10
9
 35  6,67
 41,67 kg
c) Porque quando os dados estão organizados em uma T.D.F. existe uma perda de informação
que pode ser considerada desprezível, pois os dados são representados pelos pontos médios de
classe.
52
LISTA DE EXERCÍCIOS 5 - AMOSTRAGEM
1)
a) Amostragem não-probabilística, pois não é possível generalizar opinião das brasileiras sobre
a importância e necessidade da prevenção do câncer de colo de útero com base apenas no
município de Alfenas, MG.
b) Amostragem probabilística estratificada. É possível comparar o desempenho dos PSF’s da

zona sul com os da zona norte de acordo com o poder aquisitivo dos pacientes cadastrados em
cada um deles.
c) Amostragem não-probabilística. Não é possível generalizar para toda a população sobre o

hábito de fazer uso de plantas medicinais, tendo como base apenas os jovens dessa cidade.
2) PROCEDIMENTO:
1) Determinar o intervalo a ser seguido.
N 200
r   10
n 20
2) O primeiro elemento a ser sorteado tem que estar entre 1 e r, ou seja, entre 1 e 10.
Por exemplo, o número 5 (gerado aleatoriamente através da tecla RAN# da calculadora

científica).
Logo, os números das cinco primeiras fichas são: (5, 15, 25, 35, 45).
3)
a)
c)
a)
b)
53
REFERÊNCIAS BIBLIOGRÁFICAS
Bussab, W. O. & Morettin, P. A. (2017). Estatística Básica. 9a Edição. Atual Editora: São
Paulo.
FERREIRA, D. F. Estatística básica. 2 ed. revisada; 668 p. Editora Ufla. Lavras, 2009.
MAGALHÃES, Marcos Nascimento; LIMA, Antonio Carlos Pedroso de. Noções de

probabilidade e estatística. [S.l: s.n.], 2015.
SOARES, J. F.; SIQUEIRA, A. L. Introdução à Estatística Médica. 2 .ed. Belo Horizonte;

COOPMED, 2002.
VIEIRA, S. Elementos de Estatística. Editora Atlas, 2009.
SOFTWARES ESTATÍSTICOS
FERREIRA, D. F. SISVAR: Sistema de Análise de Variância, versão 5.1. Lavras: DEX/UFLA,

2005. Software estatístico.
R Development Core Team (2015). R: A language and environment for statistical computing. R
Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL
http://www.R-project.org.
CONTATO
Roberta Bessa Veloso Silva

Professora da Universidade José do Rosário Vellano/UNIFENAS
Mestrado em Estatística e Experimentação Agropecuária/UFLA/2003 - 2005
Doutorado em Estatística e Experimentação Agropecuária/UFLA/2005 - 2009
Pós-doutorado em Estatística Aplicada e Biometria/UNIFAL/2015 - 2017
Linha de pesquisa: Análise Multivariada
e-mail: bessaveloso@yahoo.com.br
54

Material Didático - Bioestatística - 2021

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Material Didático - Bioestatística - 2021

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE JOSÉ DO ROSÁRIO VELLANO/UNIFENAS

Professora: Roberta Bessa Veloso Silva

1.1. ESTATÍSTICA: É a ciência que se preocupa com a coleta, organização, análise e

OBSERVAÇÃO: A ciência estatística é aplicável em qualquer ramo do conhecimento

1.3. AMOSTRA: É um subconjunto de uma população. É necessariamente finita, pois todos os

1.5. DADO: É o valor que assume a variável para um elemento em particular.

1.6. TIPOS DE VARIÁVEIS

As variáveis podem ser qualitativas ou quantitativas, sendo que as qualitativas se dividem

1.7. VARIÁVEL QUALITATIVA: São aquelas que correspondem a atributos ou categorias.

1.7.1. VARIÁVEL QUALITATIVA NOMINAL: Quando os atributos não são passíveis de

1.8. VARIÁVEL QUANTITATIVA: São aquelas que correspondem a números resultantes de

1.9. ORGANIZAÇÃO E APRESENTAÇÃO DE DADOS QUALITATIVOS

EXEMPLO 1: Em um determinado hospital de Alfenas, de todos os pacientes internados em

Dados brutos (da forma em que foram coletados)

TABELA DE DISTRIBUIÇÃO DE FREQUÊNCIAS

Tabela 1. Doenças mais frequentes observadas em 200 pacientes.

a) GRÁFICO DE COLUNAS OU DE BARRAS

b) GRÁFICO DE SETORES (PIZZA)

Diabetes Hipertensão Ambos

1) Um agente comunitário do Programa da Saúde da Família deseja escrever um pequeno texto

a) Qual é a população em estudo? E a amostra?

Cada indivíduo foi classificado como:

3) Em uma amostra de 15 casos de fraturas de face registrados no Pronto Socorro do Hospital

Carro Atropelamento Carro

a) Qual é a variável em estudo? Classifique-a.

2.1. DISTRIBUIÇÃO DE FREQUENCIAS DE CLASSES (T.D.F.C.): É a distribuição dos

2.1.1. CONSTRUÇÃO DE UMA TABELA DE DISTRIBUIÇÃO DE FREQUENCIAS

DADOS BRUTOS OU NÃO AGRUPADOS

14,2 16,2 20,6 21,4 23,4

10) DETERMINAR O NÚMERO DE CLASSES (k): podem-se adotar os seguintes critérios:

Número de observações (n) Número de classes (k)

EXEMPLO 2: k  n  20  4, 47  5 classes, aproximadamente.

20) DETERMINAR A AMPLITUDE DE CLASSE (c): Diferença entre os limites superior e

A maior observação - menor observação

A = amplitude total = maior observação – menor observação

40) DETERMINAR OS LIMITES DAS OUTRAS CLASSES

50) DETERMINAR O PONTO MÉDIO DE CLASSE

2.2.2. POLÍGONO DE FREQUÊNCIAS: Gráfico onde os pontos médios das classes, no

A forma do polígono de frequência permite classificar a distribuição de frequências em:

Distribuição simétrica Distribuição Assimétrica à direita

Para o Exemplo 2: A distribuição é

Distribuição Assimétrica à esquerda

a) Qual é a variável em estudo? Classifique-a.

2) Um exame geral tem 80 questões, sendo 40 de bioquímica e 40 de bioestatística. Para os 20

a) Organize os dados em uma Tabela de Distribuição de Frequências de Classes para as

a) Organize os dados em uma Tabela de Distribuição de Frequências de Classes para o

2.4. MEDIDAS DE POSIÇÃO OU DE TENDÊNCIA CENTRAL

São aquelas que procuram sintetizar as informações (os dados ou observações) em um

OBSERVAÇÃO: Na distribuição de frequências (T.D.F.C, histograma e polígono)

É A SOMA DE TODAS AS OBSERVAÇÕES DIVIDIDAS PELO NÚMERO DELAS

Para dados não agrupados Para dados agrupados

EXEMPLO 2: (Para o nosso exemplo: no caso do peso de 20 crianças, trata-se de uma

MÉDIA ARITMÉTICA PARA DADOS NÃO AGRUPADOS:

MÉDIA PARA DADOS AGRUPADOS (EM UMA T.D.F.C.)

É o valor central da distribuição dos dados. A mediana divide as observações, ordenadas

PARA DADOS BRUTOS DADOS AGRUPADOS

n é par (n=20 crianças)

MEDIANA PARA OS DADOS NÃO AGRUPADOS:

x 20 2   x 20 2 2 x 10  x 11

MEDIANA PARA DADOS AGRUPADOS:

DADOS BRUTOS DADOS AGRUPADOS

MODA PARA DADOS BRUTOS