MATERIAL DIDÁTICO
ESTATÍSTICA MÉDICA
(PARTE I)
ALFENAS, MG
2018
1
ESTATÍSTICA DESCRITIVA
CAPÍTULO 1
1. DEFINIÇÕES BÁSICAS:
EXEMPLO: Foram observados os pesos, em quilos, de todas as 500 crianças numa certa faixa
etária, atendidas nos ambulatórios da cidade de Alfenas, MG, em um determinado dia.
Coleta: 14, 10, 12, 8, etc. (em quilos)
Organização: Tabelas e Gráficos
Análise: Qual é o peso médio? Média = 6 quilos, por exemplo.
Interpretação: Por que tão baixo (ou alto) esse peso médio?
1.2. POPULAÇÃO: É o conjunto de elementos com pelo menos uma característica comum.
Essa (s) característica (s) comum deve delimitar inequivocamente quais elementos que
pertencem à população e quais os que não pertencem. A população pode ser finita ou
infinita (população grande: não pode ser enumerada completamente).
1.4. VARIÁVEL: Característica pela qual deseja-se que a população seja descrita. Essa
característica pode assumir diferentes valores de elemento para elemento.
NOTAÇÃO:
Tamanho da população = número de elementos da população: N
Tamanho da amostra = número de elementos da amostra: n
Variável: X, Y, Z, etc. (São letras maiúsculas, geralmente as últimas do
alfabeto)
2
1.8. VARIÁVEL QUANTITATIVA: São aquelas que correspondem a números resultantes
de contagens ou medidas. Podem ser:
É feita mediante alguma representação que pode ser tabular ou gráfica. Para dados
qualitativos a enumeração é a forma mais simples de representá-los.
b) REPRESENTAÇÃO GRÁFICA
70
60%
60
50
40%
40
30
20
10
0
Diabetes Hipertensão
Gráfico 1. Doenças mais prevalentes observadas em 100 pacientes.
3
b2) GRÁFICO DE SETORES (PIZZA)
40%
60%
Diabetes Hipertensão
4
LISTA DE EXERCÍCIOS 1 – ORGANIZAÇÃO E APRESENTAÇÃO DE DADOS
QUALITATIVOS
Tabela Preserv Tabela Preserv Tabela Preserv Pilula Tabela Tabela Tabela
Preserv Tabela Outros Pilula Tabela Pilula Outros Tabela Preserv Tabela
Pilula Tabela Tabela Preserv Preserv Outros Tabela Preserv Tabela Tabela
Outros Preserv Preserv Preserv Pilula Preserv Preserv Outros Tabela Preserv
Tabela Pilula Preserv Pilula Tabela Pilula Tabela Tabela Tabela Preserv
2) Em 1969 foi realizado um estudo na população de Honolulu. Para 7.683 indivíduos, foram
pesquisadas as seguintes variáveis:
3) Em uma amostra de 15 casos de fraturas de face registrados no Pronto Socorro do Hospital das
Clínicas da USP, Almeida et al. (1995) encontraram grande maioria de vítimas do sexo masculino
na faixa etária entre 20 e 40 anos. Os dados referentes aos seguintes agentes etiológicos: carro
(C), espancamento (E), atropelamento (A) e moto (M) estão apresentados a seguir.
5
2. ORGANIZAÇÃO E APRESENTAÇÃO DE DADOS QUANTITATIVOS
Como nos dados qualitativos, também é feita mediante uma representação. A forma
mais simples é a distribuição de frequências, definida a seguir:
EXEMPLO 2: A seguir são apresentados os dados referentes aos pesos (em quilos) de 20
crianças, de certa faixa etária atendidas nos ambulatórios da cidade de Alfenas, MG, num
determinado dia.
sendo,
27, 0 14, 2
No exemplo 2: c 3, 2 kg
5 1
6
30) DETERMINAR O LIMITE INFERIOR DA PRIMEIRA CLASSE ( LI1 )
c
LI1 menor observação -
2
3, 2
No exemplo 2: LI1 14,2 - 12, 6 kg .
2
LI1 conhecido LS1 LI1 c (O limite superior da 1a classe passa a ser o limite inferior
da 2a classe)
LI 2 LS1 (O limite superior da 2a classe passa a ser o limite inferior da 3a classe + c)
LS2 =LI2 c (O limite superior da 3a classe passa a ser o limite inferior da 4a classe + c)
Continuar com os passos anteriores até completar k classes.
LSi LI i
Xi (Limite superior da classe “i” + limite inferior da classe “i” dividido por 2).
2
Fi = número de observações contidas na classe “i”.
F
Fri i (Frequência absoluta da classe “i” dividida pelo tamanho da amostra n).
n
Fpi Fri 100 (Frequência relativa da classe “i” multiplicado por 100).
Logo,
A T.D.F. C. PARA O EXEMPLO 2 SERÁ:
DADOS AGRUPADOS
Tabela 2. Pesos (em quilos) de 20 crianças, de certa faixa etária, atendidas nos ambulatórios da
cidade de Alfenas, MG, num determinado dia.
Classes (Pesos) xi Número de Fri Fpi
estudantes Fi
[12,6; 15,8) 14,2 2 0,10 10%
[15,8; 19,0) 17,4 5 0,25 25%
[19,0; 22,2) 20,6 8 0,40 40%
[22,2; 25,4) 23,8 3 0,15 15%
[25,4; 28,6) 27,0 2 0,1 10%
Total 20 1,00 100,0%
7
2.2. REPRESENTAÇÃO GRÁFICA PARA DADOS QUANTITATIVOS
2.2.1. HISTOGRAMA: Gráfico formado por retângulos cujas bases são proporcionais às
amplitudes de classe e as alturas proporcionais às Frequências das classes (as
Frequências podem ser Fi , Fri e Fpi ).
Peso (kg)
Figura 3. Pesos (em quilos) de 20 crianças, de certa faixa etária, atendidas nos
ambulatórios da cidade de Alfenas, MG, num determinado dia.
8
2.3. CLASSIFICAÇÃO DAS DISTRIBUIÇÕES DE FREQUENCIAS
9
LISTA 2 – ORGANIZAÇÃO E APRESENTAÇÃO DE DADOS QUANTITATIVOS
1) Dez indivíduos foram selecionados ao acaso para receberem a dieta A ou B. Decorrido certo
intervalo de tempo verificou-se que a perda de peso apresentada a seguir:
-1,0 0,0 2,1 3,1 3,3 4,3 5,0 5,2 5,5 6,8
Aluno 1 2 3 4 5 6 7 8 9 10
Bioquímica 35 35 34 32 31 30 26 26 24 23
Bioestatística 31 29 27 28 28 26 30 28 25 23
Aluno 11 12 13 14 15 16 17 18 19 20
Bioquímica 23 12 11 20 17 12 14 20 8 10
Bioestatística 21 32 31 20 21 25 20 13 23 20
3) Para estudar o nível de colesterol de uma população de obesos de uma cidade do interior de
Minas Gerais, 10 indivíduos foram selecionados aleatoriamente, cujo nível de colesterol foi
avaliado. Os resultados obtidos, mg/dl, foram os seguintes:
650 850 710 920 780 820 900 780 740 950
10
CAPÍTULO 2
2.4.1. MÉDIA
NOTAÇÃO:
uma x i x F i i
amostra X i 1
X i 1
n n
soma de todos os dados X i é o ponto médio da classe "i";
X
tamanho da amostra Fi é a frequência absoluta da classe "i";
k é o número de classes.
No caso de N k
uma xi xF i i
população i 1
(Lê-se: mi) i 1
N N
EXEMPLO 2: (Para o nosso exemplo: no caso do peso de 20 crianças, trata-se de uma amostra)
xi x i
x1 x2 ... x20 14, 2 14, 4 ... 27, 0
X i 1
i 1
20, 25 kg
n 20 20 20
x F i i
somatório do produto ponto médio da classe "i" e frequência absoluta da classe "i"
X i 1
n tamanho da amostra
k 5
x F x F i i i i
14, 2 2 17, 4 5 20, 6 8 ... 27, 0 2
X i 1
i 1
20, 28 kg
n 20 20
11
OBSERVAÇÃO: A média para os dados não agrupados foi obtida usando os verdadeiros
dados. A média para dados agrupados foi obtida usando os valores representados pelo ponto
médio da classe. Isto faz com que a média para dados agrupados seja às vezes, diferente da
média para dados não agrupados. No cálculo com dados agrupados existe um erro devido à
perda de informação, porém, tal erro é mínimo e, portanto, desprezível.
2.4.2. MEDIANA
md 2 2
; se n for par
2 LI m
Amostra soma dos 2 valores centrais d : Limite inferior da
md classe mediana;
2
Fm
d : Frequência absoluta da
md x n 1 ; se n for ímpar classe mediana;
FA : Frequência acumulada das
2
m valor que divide o conjunto de dados ao meio classes anteriores à classe
d mediana;
Cm
d : Amplitude da classe
mediana.
x N x N 2 N
M d x N 1 2 FA
População Md 2 2
M d LI M d CM d
2 2
FM d
se n for par se n for ímpar
for par ou
x n1 ; se n for ímpar.
2
PARA O EXEMPLO 2:
12
MEDIANA PARA OS DADOS NÃO AGRUPADOS:
x n x 20 x 10 3a classe
Classe mediana:
2 2
A classe mediana é a classe que contém o décimo elemento da amostra (X(10)). Logo,
20
2 7
md 19, 0 3, 2 20, 2 kg
8
2.4.3. MODA
É o valor que ocorre com maior frequência. Um conjunto de dados pode ter mais de
uma moda ou também, pode não ter moda.
13
PARA O EXEMPLO 2:
mo 19, 0
8 5 3, 2 20, 2 kg
8 5 8 3
X' X k ;
m 'm k;
d d
mo ' mo k ;
2) Se em cada observação é multiplicada por k, as novas média, X ' , mediana, md ' e moda,
mo ' , serão, respectivamente:
X' X k ;
m ' m k ;
d d
mo ' mo k ;
14
2.5. QUARTIL E PERCENTIL
___ 25% ___ | ___ 25% ___ | _____ 25% ___ | ___ 25% ___
10 quartil 20 quartil 30 quartil
ou mediana
10 Quartil ou quartil 25: é o valor que deixa 25% dos dados abaixo dele e 75% estão acima dele.
20 Quartil ou quartil 50: é o valor que deixa 50% dos dados abaixo dele e 50% estão acima dele.
30 Quartil ou quartil 75: é o valor que deixa 75% dos dados abaixo dele e 25% estão acima dele.
n 1
Posição de Q1
4
n 1
Posição de Q2
2
3 n 1
Posição de Q3
4
DADOS BRUTOS
20 1
Posição de Q1 5, 25 5
4
20 1
Posição de Q2 10
2
3 20 1
Posição de Q3 15, 75 16
4
15
LISTA DE EXERCÍCIOS 3 – MEDIDAS DE POSIÇÃO PARA DADOS BRUTOS E
AGRUPADOS/QUARTIL
1) Um teste de esforço foi realizado em 200 pacientes no estágio III de um mesmo tipo de câncer.
O tempo, em segundos, está apresentado na tabela abaixo.
2) Uma certa região apresentou altos índices de suicídios, conforme pode ser constatado em uma
amostra dos últimos 12 meses: 5, 4, 7, 8, 5, 6, 4, 7, 9, 7, 6 e 8. Encontre o 30 quartil e interprete.
3) Como parte de uma avaliação médica em uma certa universidade, foi medida a frequência
cardíaca dos alunos do primeiro ano. Os dados são apresentados em seguida.
TIPO I 48 46 47 50 52 130
TIPO II 72 75 74 73 76 72 77
TIPO III 48 45 46 45 45 47 47 45 45 46
16
2.6. MEDIDAS DE VARIABILIDADE OU DISPERSÃO
Para que as observações de uma amostra ou de uma população sejam bem representadas,
deve-se calcular para elas uma medida de posição de uma medida de variabilidade.
As medidas de variabilidade são medidas que informam sobre a dispersão dos dados e
são necessárias para, junto com a média, representar bem um conjunto de observações.
Estudaremos a variância, o desvio padrão e o coeficiente de variação.
NOTAÇÃO:
AMOSTRA (n) POPULAÇÃO
Variância (S2) 2
Medidas de Desvio Padrão (S)
Variabilidade Coeficiente de variação (cv) CV
n n
2 (Variância
( xi x )
2
xi
1 n 2 ì 1
amostral)
S
2 i 1
n 1
xi n
n 1 ì 1
2
S soma de cada valor
2 2 total
tamanho da amostra
S S2 (Desvio Padrão
amostral)
S variância
N 2
2
(Desvio Padrão
Populacional)
17
PARA O EXEMPLO 2:
S S 2 3, 72 kg
k
2
i i
x F (Variância
1 k 2 ì 1
S2
n 1 ì 1
xi Fi
n
amostral)
(Desvio Padrão
S S2
amostral)
1 k 2 xi Fi (Variância
xi Fi i 1
2 Populacional)
N i 1 N
2 (Desvio Padrão
populacional)
18
NO CASO DE UMA AMOSTRA
S
cv 100
X
CV 100
PARA O EXEMPLO 2:
3, 72 PARA DADOS
cv 100 18,37% BRUTOS
20, 25
19
CAPÍTULO 3 – NOÇÕES DE INFERÊNCIA ESTATÍSTICA
3. CONCEITOS IMPORTANTES
3.1. PARÂMETRO: É uma constante (um número) que caracteriza uma população.
Exemplo: média populacional , variância populacional 2 , etc. Em geral, os
parâmetros são desconhecidos.
3.2. ESTIMADOR: É uma expressão algébrica utilizada para obter um valor aproximado
de um parâmetro.
x i
Estimador: X i 1
.
n
20
CAPÍTULO 4. AMOSTRAGEM
OBJETIVO: Obter uma amostra representativa quando os elementos da população são todos
homogêneos. Neste processo de amostragem todos os elementos da população têm a mesma
probabilidade de seres coletados.
21
PROCEDIMENTO: Aqui enumera-se todos os elementos da população e sorteia-se n
elementos através de um dispositivo aleatório, por exemplo as “tabelas de números aleatórios”.
Execução da A.S.A.: Com o auxílio da tecla RAN# da calculadora científica, vamos gerar 300
números aleatórios. Lembrando que a população está enumerada. A sequência poderia ser:
RAN# X 79000 = 1.075; 102; 10; 70.020; 65.000; ...(até completar 300 pessoas)
79.000
r 263,33 263
300
Em seguida, sorteia-se o primeiro entre 1 e r, que no exemplo é igual a 263. Por exemplo, RAN#
X 263 = 30. Então, a sequência será:
30, 293, 556 , 819 ,..., 78.667
i ir i2r i 3r ir n1 ; n = 300 indivíduos
22
EXEMPLO: Deseja-se conhecer o nível de colesterol, em mg/dl, na população de Alfenas, MG,
nas faixas etárias pré-estabelecidas, mas o pesquisador tem recursos para realizar somente 300
análises (n=300).
N
ni i n
N
No exemplo 2:
17500
Estrato 1: n1 300 81 pessoas
65000
35000
Estrato 2: n2 300 161 pessoas
65000
12500
Estrato 3: n3 300 58 pessoas
65000
23
LISTA DE EXERCÍCIOS 4 - AMOSTRAGEM
c) Para estimar a proporção de pessoas de uma determinada cidade que tem por
hábito fazer uso de plantas medicinais, resolveu-se entrevistar 150 jovens (com
idade entre 18 e 25 anos) deste município.
2) Uma clínica médica dispõe de um arquivo com 200 fichas (enumeradas de 1 a 200) que contém
informações sobre cada paciente atendido durante o mês de abril do ano 2005. Desejando fazer
uma pesquisa com estes pacientes, a administração da clínica resolveu coletar uma amostra de 20
pacientes atendidos nesse mês. Execute uma amostragem sistemática com n = 20 e identifique os
números das fichas dos cinco primeiros pacientes coletados para a amostra.
(a) A. A. Estratificada
(b) A. A. Sistemática
(c) A. A. Simples
(d) A. não probabilística
Um cabo eleitoral escreve o nome de cada senador em cartões separados, mistura-os e extrai 10
nomes.
(a) A. A. Estratificada
(b) A. A. Sistemática
(c) A. A. Simples
(d) A. não probabilística
O programa de Planejamento Familiar pesquisa 500 homens e 600 mulheres sobre seus pontos de
vista sobre o uso de anticoncepcionais.
(a) A. A. Estratificada
(b) A. A. Sistemática
(c) A. A. Simples
(d) A. não probabilística
Um pesquisador seleciona um a cada 25 registros para coletar informações sobre o tipo de incisão
e o método cirúrgico utilizado em cirurgias de apendicite.
24
(a) A. A. Estratificada
(b) A. A. Sistemática
(c) A. A. Simples
(d) A. não probabilística
25
GABARITOS
c) Representação gráfica.
50% 47%
45%
40%
35% 26%
30% 26%
25%
47%
20% 7%
20%
15% 20%
10% 7%
5%
0%
Carro Atropelamento Espancamento Moto Carro Atropelamento Espancamento Moto
Gráfico 1. Porcentagem de jovens de uma determinada comunidade Gráfico 2. Porcentagem de jovens de uma determinada
que utilizam métodos contraceptivos. comunidade que utilizam métodos contraceptivos.
2) nível educacional (nenhum, ensino fundamental, ensino médio, ensino superior) = variável
qualitativa ordinal; peso (kg) = variável quantitativa contínua; altura = variável quantitativa
contínua; idade = variável quantitativa contínua; tipo sanguíneo (B, A, O, AB) = variável
qualitativa nominal; tipos de doenças = variável qualitativa nominal; percentual de gordura
corporal = variável quantitativa contínua; hábito de fumar (fumante ou não) = variável qualitativa
nominal; atividade física (pouca, moderada e muita) = variável qualitativa ordinal.
26
b) Tabela 2. Agentes etiológicos de fraturas na face registrados no Pronto Socorro do Hospital
das Clínicas da USP.
Agentes Fi Fri Fpi
etiológicos
Carro 7 0,4667 46,67%
Atropelamento 3 0,2000 20,00%
Espancamento 1 0,0667 6,67%
Moto 4 0,2667 26,67%
Total 15 1,0000 100,00%
b)
50% 47%
45%
40%
35%
30% 26%
25% 20%
20%
15%
10% 7%
5%
0%
Carro Atropelamento Espancamento Moto
27
LISTA DE EXERCÍCIOS 2 – ORGANIZAÇÃO E APRESENTAÇÃO DE DADOS
QUANTITATIVOS
NOTAS DE BIOQUÍMICA
1 k 20 5 classes
0
3
0
LI1 menor valor -
c
2
8
6, 75
2
4, 62 pontos
28
NOTAS DE BIOESTATÍSTICA
1 k 20 5 classes
0
2 c k A 1 325 13
0
1
19
4
4, 75 pontos
3
0
LI1 menor valor -
c
2
13
4, 75
2
10, 62 pontos
29
REPRESENTAÇÃO GRÁFICA PARA AS NOTAS DE BIOESTATÍSTICA
T.D.F.C
k 20 5 classes
66 30
c 9
5 1
9
LI1 30 25,5
2
30
3) CONSTRUÇÃO DA T.D.F. C. PARA O NÍVEL DE COLESTEROL DE 10 INDIVÍDUOS.
1 k 10 4 classes
0
2 c k A 1 9504 650
0
1
300
3
100 mg/dl
3
0
LI1 menor valor -
c
2
650
100
2
600 mg/dl
31
LISTA DE EXERCÍCIOS 3 – MEDIDAS DE POSIÇÃO PARA DADOS BRUTOS E
AGRUPADOS/QUARTIL
1)
MÉDIA PARA DADOS AGRUPADOS
x F i i
X i 1
X
27 8,5 29 9,5 46 ... 11,5 55
7,5
200
1934
9, 67 segundos
200
4 4 5 5 6 6
7 7 7 8 8 9
3 12 1
Posição de Q3 8, 25 8
4
Interpretação: 75% dos suicídios têm um índice abaixo de 7,5 e 25% acima de 7,5.
32
3) a) VARIÁVEL: Nível de potássio
CLASSIFICAÇÃO: Quantitativa contínua.
c) Qual a porcentagem dos valores que são superiores ao nível 3,15? 52,38% T.D.F.C.
c) Sim, pois houve uma maior frequência de alunos com batimentos cardíacos contidos na 3ª
classe (classe modal).
d)
2,5% T.D.F.C.
5) TIPO I: Existe um valor extremo (fora do padrão), portanto a mediana é a medida mais
apropriada para representar esse conjunto de dados. Ela não é influenciada por um ou mais valores
atípicos.
DADOS ORDENADOS
46 47 48 50 52 130
n é par (n = 6).
X n X n2 X 6 X 6 2
X 3 X 4
md 2 2
2 2
2 2 2
48 50
md 49 dias
2
TIPO II: Não existem valores extremos. A média é a medida de posição que melhor representa
esse conjunto de dados.
n
X i
72 75 ... 77 519
X i 1
74,14 dias
n 7 7
TIPO III: O valor “45” se repete 5 vezes entre os 10 valores. Neste caso, a moda é a medida
preferida.
Moda = 45 dias
33
LISTA DE EXERCÍCIOS 4 - AMOSTRAGEM
1)
a) Amostragem não-probabilística, pois não é possível generalizar opinião das brasileiras sobre a
importância e necessidade da prevenção do câncer de colo de útero com base apenas no município
de Alfenas, MG.
2) PROCEDIMENTO:
N 200
r 10
n 20
2) O primeiro elemento a ser sorteado tem que estar entre 1 e r, ou seja, entre 1 e 10.
Logo, os números das cinco primeiras fichas são: (5, 15, 25, 35, 45).
3)
a)
c)
a)
b)
34
REFERÊNCIAS BIBLIOGRÁFICAS
Bussab, W. O. & Morettin, P. A. (2013). Estatística Básica. 8a Edição. Atual Editora: São Paulo.
FERREIRA, D. F. Estatística básica. 2 ed. revisada; 668 p. Editora Ufla. Lavras, 2009.
SOFTWARES ESTATÍSTICOS
R Development Core Team (2015). R: A language and environment for statistical computing. R
Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL
http://www.R-project.org.
CONTATO
35