Escolar Documentos
Profissional Documentos
Cultura Documentos
CAMPUS ALFENAS
ESTATÍSTICA MÉDICA
Janeiro/2021
Alfenas, MG
1
CAPÍTULO 1 - ESTATÍSTICA DESCRITIVA
DEFINIÇÕES BÁSICAS
EXEMPLO: A seguir está apresentado o peso, em quilos, de todas as 500 crianças, de certa
faixa etária, atendidas em um ambulatório da cidade de Alfenas, MG, em um determinado dia.
Coleta: 14, 10, 12, 8, etc. (em quilos)
Organização: Tabelas e Gráficos
Análise: Qual é o peso médio? Média = 10 quilos, por exemplo.
Interpretação: Por que tão baixo (ou alto) esse peso médio?
1.2. POPULAÇÃO: É o conjunto de elementos com pelo menos uma característica comum.
Essa (s) característica (s) em comum deve delimitar inequivocamente quais elementos que
pertencem à população e quais os que não pertencem. A população pode ser finita ou
infinita (população grande: não pode ser enumerada completamente).
1.4. VARIÁVEL: Característica pela qual deseja-se que a população seja descrita. Essa
característica pode assumir diferentes valores de elemento para elemento.
NOTAÇÃO:
Tamanho da população é o número de elementos da população: N
Tamanho da amostra é o número de elementos da amostra: n
Variável: X, Y, Z, etc. (São letras maiúsculas, geralmente as últimas do
alfabeto)
2
1.8.1. VARIÁVEL QUANTITATIVA DISCRETA: São próprias de dados de contagem,
isto é, estão definidas em conjunto enumerável. Exemplos: número de filhos por família
(0, 1, 2, 3,...), número de bactérias por volume de urina, número de pessoas com
determinada doença, número de cáries por paciente, etc.
1.8.2. VARIÁVEL QUANTITATIVA CONTÍNUA: São aquelas em que as realizações
resultam de uma medida (uma mensuração) que podem assumir qualquer valor real
entre dois extremos. Exemplos: altura dos pacientes, peso, idade, nível de glicose, etc.
É feita mediante alguma representação que pode ser tabular ou gráfica. Para dados
qualitativos a enumeração é a forma mais simples de representá-los.
Pacientes:
1 2 3 4 5 ... 200
diabetes diabetes hipertensão diabetes hipertensão ... diabetes
REPRESENTAÇÃO TABULAR
3
REPRESENTAÇÃO GRÁFICA
60%
50%
50%
42%
40%
30%
20%
10% 8%
0%
Diabetes Hipertensão Ambos
Figura 1. Doenças mais frequentes observadas em 200 pacientes.
8%
50%
42%
4
LISTA DE EXERCÍCIOS 1 – ORGANIZAÇÃO E APRESENTAÇÃO DE DADOS
QUALITATIVOS
Tabela Preserv Tabela Preserv Tabela Preserv Pilula Tabela Tabela Tabela
Preserv Tabela Outros Pilula Tabela Pilula Outros Tabela Preserv Tabela
Pilula Tabela Tabela Preserv Preserv Outros Tabela Preserv Tabela Tabela
Outros Preserv Preserv Preserv Pilula Preserv Preserv Outros Tabela Preserv
Tabela Pilula Preserv Pilula Tabela Pilula Tabela Tabela Tabela Preserv
2) Em 1969 foi realizado um estudo na população de Honolulu. Para 7.683 indivíduos, foram
pesquisadas as seguintes variáveis:
nível educacional (nenhum, ensino fundamental, ensino médio, ensino superior);
peso (kg);
altura;
idade (anos);
Tipo sanguíneo (B, A, O, AB)
Tipos de doenças
Percentual de gordura corporal
5
2. ORGANIZAÇÃO E APRESENTAÇÃO DE DADOS QUANTITATIVOS
Como nos dados qualitativos, também é feita mediante uma representação. A forma
mais simples é a distribuição de frequências, definida a seguir:
EXEMPLO 2: A seguir são apresentados os dados referentes aos pesos (em quilos) de 20
crianças, de certa faixa etária atendidas nos ambulatórios da cidade de Alfenas, MG, num
determinado dia.
sendo,
27, 0 14, 2
c 3, 2 kg
No exemplo 2: 5 1
6
LI1
30) DETERMINAR O LIMITE INFERIOR DA PRIMEIRA CLASSE ( )
c
LI1 menor observação -
2
3, 2
LI1 14,2 - 12, 6 kg
No exemplo 2: 2 .
LI1 conhecido LS1 LI1 c (O limite superior da 1a classe passa a ser o limite inferior
da 2a classe)
LI 2 LS1 (O limite superior da 2a classe passa a ser o limite inferior da 3a classe + c)
LS 2 =LI2 c (O limite superior da 3a classe passa a ser o limite inferior da 4a classe + c)
Continuar com os passos anteriores até completar k classes.
ABSOLUTA
Fi , RELATIVA Fri E PERCENTUAL
F :
pi
LSi LI i
Xi
2 (Limite superior da classe “i” + limite inferior da classe “i” dividido por 2).
Fi = número de observações contidas na classe “i”.
F
Fri i
n (Frequência absoluta da classe “i” dividida pelo tamanho da amostra n).
Fpi Fri 100
(Frequência relativa da classe “i” multiplicado por 100).
Logo,
A T.D.F. C. PARA O EXEMPLO 2 SERÁ:
DADOS AGRUPADOS
Tabela 2. Pesos (em quilos) de 20 crianças, de certa faixa etária, atendidas nos ambulatórios da
cidade de Alfenas, MG, num determinado dia.
Classes (Pesos) xi Número de Fri Fpi
estudantes
Fi
[12,6; 15,8) 14,2 2 0,10 10%
[15,8; 19,0) 17,4 5 0,25 25%
[19,0; 22,2) 20,6 8 0,40 40%
[22,2; 25,4) 23,8 3 0,15 15%
[25,4; 28,6) 27,0 2 0,1 10%
Total 20 1,00 100,0%
7
2.2. REPRESENTAÇÃO GRÁFICA PARA DADOS QUANTITATIVOS
2.2.1. HISTOGRAMA: Gráfico formado por retângulos cujas bases são proporcionais às
amplitudes de classe e as alturas proporcionais às Frequências das classes (as
Fi Fri Fpi
Frequências podem ser , e ).
Peso (kg)
Figura 3. Pesos (em quilos) de 20 crianças, de certa faixa etária, atendidas nos
ambulatórios da cidade de Alfenas, MG, num determinado dia.
8
2.3. CLASSIFICAÇÃO DAS DISTRIBUIÇÕES DE FREQUENCIAS
9
LISTA 2 – ORGANIZAÇÃO E APRESENTAÇÃO DE DADOS QUANTITATIVOS
1) Dez indivíduos foram selecionados ao acaso para receberem a dieta A ou B. Decorrido certo
intervalo de tempo verificou-se que a perda de peso apresentada a seguir:
-1,0 0,0 2,1 3,1 3,3 4,3 5,0 5,2 5,5 6,8
Aluno 1 2 3 4 5 6 7 8 9 10
Bioquímica 35 35 34 32 31 30 26 26 24 23
Bioestatístic 31 29 27 28 28 26 30 28 25 23
a
Aluno 11 12 13 14 15 16 17 18 19 20
Bioquímica 23 12 11 20 17 12 14 20 8 10
Bioestatística 21 32 31 20 21 25 20 13 23 20
3) Para estudar o nível de colesterol de uma população de obesos de uma cidade do interior de
Minas Gerais, 10 indivíduos foram selecionados aleatoriamente, cujo nível de colesterol foi
avaliado. Os resultados obtidos, mg/dl, foram os seguintes:
650 850 710 920 780 820 900 780 740 950
10
CAPÍTULO 2
2.4.1. MÉDIA
NOTAÇÃO:
uma x i xF i i
amostra X i 1
X i 1
n n
soma de todos os dados X i é o ponto médio da classe "i";
X
tamanho da amostra Fi é a frequência absoluta da classe "i";
k é o número de classes.
No caso de N k
uma xi x F i i
população i 1
i 1
N (Lê-se: mi) N
xi x i
x1 x2 ... x20 14, 2 14, 4 ... 27, 0
X i 1
i 1
20, 25 kg
n 20 20 20
xF i i
somatório do produto ponto médio da classe "i" e frequência absoluta da classe "i"
X i 1
n tamanho da amostra
11
k 5
xi Fi xF i i
14, 2 2 17, 4 5 20, 6 8 ... 27, 0 2
X i 1
i 1
20, 28 kg
n 20 20
OBSERVAÇÃO: A média para os dados não agrupados foi obtida usando os verdadeiros
dados. A média para dados agrupados foi obtida usando os valores representados pelo ponto
médio da classe. Isto faz com que a média para dados agrupados seja às vezes, diferente da
média para dados não agrupados. No cálculo com dados agrupados existe um erro devido à
perda de informação, porém, tal erro é mínimo e, portanto, desprezível.
2.4.2. MEDIANA
md 2 2
2 ; se n for par LI m
Amostra soma dos 2 valores centrais d : Limite inferior da
md classe mediana;
2
Fm
d : Frequência absoluta da
md x n 1 classe mediana;
2 ; se n for ímpar FA
: Frequência acumulada das
m valor que divide o conjunto de dados ao meio classes anteriores à classe
d
mediana;
Cm
d : Amplitude da classe
mediana.
x N x N 2 N
M d x N 1 2 FA
População Md 2 2
M d LI M d CM d
2 2
s FM d
se n for par e n for ímpar
x n
OBSERVAÇÃO: A classe mediana é a classe que contém a observação 2 na T.D.F.; se n
12
x n 1
for par ou 2 ; se n for ímpar.
PARA O EXEMPLO 2:
x n x 20 x 10 3a classe
2 2
Classe mediana:
A classe mediana é a classe que contém o décimo elemento da amostra (X(10)). Logo,
20
2 7
md 19, 0 3, 2 20, 2 kg
8
2.4.3. MODA
É o valor que ocorre com maior frequência. Um conjunto de dados pode ter mais de
uma moda ou também, pode não ter moda.
1
Amostra : Diferença entre a Frequência
absoluta da classe modal e a classe
13
anterior;
2
: Diferença entre a Frequência
absoluta da classe modal e a classe
posterior;
Cm
d : Amplitude da classe modal.
Classe modal é a classe com maior
frequência absoluta.
População USAR A DEFINIÇÃO 1
M o LI M CM o
o
1 2
PARA O EXEMPLO 2:
mo 19, 0
8 5 3, 2 20, 2 kg
8 5 8 3
X , md e mo
Sejam , a média, mediana e moda, de n observações, respectivamente, e
seja k uma constante qualquer:
'
1) Se em cada observação é acrescido (ou subtraído) um valor k, as novas média, X ,
m '
mediana, d e moda, mo ' , serão, respectivamente:
X' X k;
m 'm k
d d ;
mo ' mo k ;
14
' m '
2) Se em cada observação é multiplicada por k, as novas média, X , mediana, d e moda,
mo ' , serão, respectivamente:
X' X k ;
m ' m k
d d ;
mo ' mo k ;
___ 25% ___ | ___ 25% ___ | _____ 25% ___ | ___ 25% ___
0 0 0
1 quartil 2 quartil 3 quartil
ou mediana
10 Quartil ou quartil 25: é o valor que deixa 25% dos dados abaixo dele e 75% estão acima dele.
20 Quartil ou quartil 50: é o valor que deixa 50% dos dados abaixo dele e 50% estão acima dele.
30 Quartil ou quartil 75: é o valor que deixa 75% dos dados abaixo dele e 25% estão acima dele.
n 1
Posição de Q1
4
n 1
Posição de Q2
2
3 n 1
Posição de Q3
4
DADOS BRUTOS
15
14,2 16,2 20,6 21,4 23,4
14,4 18,4 20,6 21,8 25,2
15,8 18,4 20,6 22,0 26,6
16,2 19,2 20,8 22,2 27,0
20 1
Posição de Q1 5, 25 5
4
20 1
Posição de Q2 10
2
3 20 1
Posição de Q3 15, 75 16
4
1) Um teste de esforço foi realizado em 200 pacientes no estágio III de um mesmo tipo de
câncer. O tempo, em segundos, está apresentado na tabela abaixo.
2) Uma certa região apresentou altos índices de suicídios, conforme pode ser constatado em
uma amostra dos últimos 12 meses: 5, 4, 7, 8, 5, 6, 4, 7, 9, 7, 6 e 8. Encontre o 3 0 quartil e
interprete.
3) Como parte de uma avaliação médica em uma certa universidade, foi medida a frequência
cardíaca dos alunos do primeiro ano. Os dados são apresentados em seguida.
16
d) Frequências cardíacas que estejam acima de 90 requerem acompanhamento médico. Qual é a
porcentagem de alunos nessas condições?
TIPO I 48 46 47 50 52 130
TIPO II 72 75 74 73 76 72 77
TIPO III 48 45 46 45 45 47 47 45 45 46
17
2.6. MEDIDAS DE VARIABILIDADE OU DISPERSÃO
NOTAÇÃO:
AMOSTRA (n) POPULAÇÃO
Variância (S2) 2
Medidas de Desvio Padrão (S)
Variabilidad Coeficiente de variação (cv) CV
e
(Variância
n
2
n
( xi x ) 2
xi
1 n 2 ì 1
amostral)
S
2 i 1
n 1
xi n
n 1 ì 1
2
2 2
S soma de cada valor
total
tamanho da amostra
(Desvio Padrão
S S2
amostral)
S variância
N 2
x
i (Variância
2 i 1 Populacional)
N
2
18
(Desvio Padrão
Populacional)
PARA O EXEMPLO 2:
S S 2 3, 72 kg
k
2
1 k 2 xi Fi (Variância
S
2
xi Fi ì1 n
n 1 ì 1
amostral)
(Desvio Padrão
S S2
amostral)
1 k 2 xi Fi (Variância
xi Fi i 1
2 Populacional)
N i 1 N
2 (Desvio Padrão
populacional)
20 1 20
S 12,83=3,58 kg
19
20
NO CASO DE UMA AMOSTRA
S
cv 100
X
CV 100
PARA O EXEMPLO 2:
3, 72 PARA DADOS
cv 100 18,37% BRUTOS
20, 25
2
2) Multiplicando todos os dados por “ k ”, a variância ficará multiplicada por k e o desvio
padrão por k .
21
LISTA 4 –QUESTÕES GERAIS
2) Uma das formas que um pediatra usa para avaliar o grau de controle do diabetes é a dosagem
de glicohemoglobina, que é medida em % da hemoglobina total. Valores acima de 12 indicam
que o paciente não está sob controle. Em um grupo de 15 crianças obtiveram-se os seguintes
resultados para 13 delas:
10,5 11,2 11,7 12,1 12,3 12,3 12,3
12,4 12,5 13,1 13,1 13,5 13,5
Por motivos associados à limitação do aparelho de análise, sabe-se que os valores observados de
dois pacientes são maiores que 14. Para mostrar que este grupo tem um alto valor de
glicohemoglobina, ele igualou a 15,5 os dois valores maiores que 14 e tirou a média dos 15
valores. Comente o procedimento usado, proponha e obtenha uma forma alternativa de síntese
dos dados.
22
b) Por que os 2 resultados obtidos em (a) são diferentes?
3. CONCEITOS IMPORTANTES
3.1. PARÂMETRO: É uma constante (um número) que caracteriza uma população.
x i
X i 1
Estimador: n .
23
CAPÍTULO 4. AMOSTRAGEM
OBJETIVO: Obter uma amostra representativa quando os elementos da população são todos
homogêneos. Neste processo de amostragem todos os elementos da população têm a mesma
probabilidade de seres coletados.
24
PROCEDIMENTO: Aqui enumera-se todos os elementos da população e sorteia-se n
elementos através de um dispositivo aleatório, por exemplo as “tabelas de números aleatórios”.
EXEMPLO: Deseja-se conhecer o nível de colesterol, em mg/dl na população de Alfenas, MG,
mas o pesquisador tem recursos para realizar somente 300 análises (n=300).
Execução da A.S.A.: Com o auxílio da tecla RAN# da calculadora científica, vamos gerar 300
números aleatórios. Lembrando que a população está enumerada. A sequência poderia ser:
RAN# X 79000 = 1.075; 102; 10; 70.020; 65.000; ...(até completar 300 pessoas)
79.000
r 263,33 263
300
Em seguida, sorteia-se o primeiro entre 1 e r, que no exemplo é igual a 263. Por exemplo,
RAN# X 263 = 30. Então, a sequência será:
30,
293,
556
, 819 ,..., 78.667
i ir i 2r i 3r ir n1
; n = 300 indivíduos
25
EXEMPLO: Deseja-se conhecer o nível de colesterol, em mg/dl, na população de Alfenas,
MG, nas faixas etárias pré-estabelecidas, mas o pesquisador tem recursos para realizar somente
300 análises (n=300).
indivíduos
Ni
1 18 a 25 anos 17.500
2 25 a 50 anos 35.000
3 Acima de 50 anos 12.500
Total 65.000
ni
CRITÉRIO PROPORCIONAL: O estrato “i” fornece uma quantidade de elementos
N
ni i n
N
No exemplo 2:
17500
n1 300 81
Estrato 1: 65000 pessoas
35000
n2 300 161
Estrato 2: 65000 pessoas
12500
n3 300 58
Estrato 3: 65000 pessoas
26
LISTA DE EXERCÍCIOS 5 - AMOSTRAGEM
2) Uma clínica médica dispõe de um arquivo com 200 fichas (enumeradas de 1 a 200) que
contém informações sobre cada paciente atendido durante o mês de abril do ano 2005.
Desejando fazer uma pesquisa com estes pacientes, a administração da clínica resolveu coletar
uma amostra de 20 pacientes atendidos nesse mês. Execute uma amostragem sistemática com n
= 20 e identifique os números das fichas dos cinco primeiros pacientes coletados para a amostra.
Um cabo eleitoral escreve o nome de cada senador em cartões separados, mistura-os e extrai 10
nomes.
(a) A. A. Estratificada
(b) A. A. Sistemática
(c) A. A. Simples
(d) A. não probabilística
O programa de Planejamento Familiar pesquisa 500 homens e 600 mulheres sobre seus pontos
de vista sobre o uso de anticoncepcionais.
(a) A. A. Estratificada
(b) A. A. Sistemática
(c) A. A. Simples
(d) A. não probabilística
(a) A. A. Estratificada
(b) A. A. Sistemática
(c) A. A. Simples
(d) A. não probabilística
27
CAPÍTULO 5
f ( x) dx 1
Seja X uma variável aleatória contínua, diz-se que X tem uma distribuição normal (ou
está distribuída normalmente) se ela tem uma função de densidade de probabilidade da forma:
2
1 x
f ( x) exp ; x
2 2 2
28
CAPÍTULO 6 – TEORIA DA DECISÃO
DISTRIBUIÇÃO DE QUI-QUADRADO
Hipóteses
Coleta de dados
Testar as hipóteses
Conclusões
Sim x Não
Doença x Não doença
Fator de risco x Doença
DADOS DICOTÔMICOS - `
Teste de Hipóteses: Dependência entre as variáveis
COMPONENTES
Linhas (L)
Colunas (C)
Células
Desfecho
Presente Ausente Total
Fator de risco Presente a b a+b
Ausente c d c+d
Total a+c b+d a+b+c+d
29
EXEMPLO 1. Dois grupos de 100 pacientes foram acompanhados quanto a incidência de
câncer de pulmão associado ao tabagismo. No grupo de fumantes a incidência de câncer foi
igual a 28 pacientes, no grupo controle (não fumantes) foi igual a 8 pacientes. A incidência de
câncer está associada ao tabagismo?
Fator de Doença Total
exposição Câncer sim Câncer não
Tabagismo sim 28 72 100
Tabagismo não 8 92 100
Total 36 164 200
EXEMPLO 2. Em um estudo experimental, com 300 pacientes, para testar uma nova droga
contra AIDS, 240 receberam o medicamento A, ao passo que, 60 receberam um placebo. A taxa
de mortalidade em 2 anos foi de 88 e 12 pacientes, respectivamente. A mortalidade de pacientes
com Aids está associada ao uso da droga A?
240 100
E1,1 80
300
240 200
E1,2 160
300
60 100
E2,1 20
300
60 200
E2,2 40
300
30
7.5. CÁLCULO DO VALOR DE QUIQUADRADO
O e 2
2 i, j i, j
c
ei , j
88 80 152 160 12 20 48 40
2 2 2 2
2
c
80 160 20 40
0,8 0, 4 3, 2 1, 6 6, 0
EXEMPLO 3: Em um estudo experimental, com 300 pacientes, para testar uma nova droga
contra AIDS, 240 receberam o medicamento A, ao passo que, 60 receberam um placebo. A taxa
de mortalidade em 2 anos foi de 88 e 12 pacientes, respectivamente. No presente estudo a
mortalidade está associada ao uso da droga?
1) Estabelecer as hipóteses
H 0 : a mortalidade de pacientes com AIDS INDEPENDE do uso da droga
H1 : a mortalidade de pacientes com AIDS DEPENDE do uso da droga
2 tabelado H
5) Conclusão: Como c rejeita-se 0 ao nível de significância de 5%, ou seja, a
mortalidade de pacientes com AIDS depende do uso da droga.
1) Estabelecer as hipóteses
H 0 : a incidência de pacientes com câncer INDEPENDE do tabagismo
H1 : a incidência de pacientes com câncer DEPENDE do tabagismo
31
2) Estabelecer o nível de significância “ ”.
Por exemplo, 0, 05 ou 5% .
100 36
e1,1 18
200
100 164
e1,2 82
200
100 36
e2,1 18
200
100 164
e2,2 82
200
28 18 72 82 8 18 92 82
2 2 2 2
c2
18 82 18 82
5,5 1, 2 5,5 1, 2 13, 4
tabelado
2
2g .l ; 21; 0,05 3,84
g .l. número de linhas -1 número de colunas -1
2 tabelado H
5) Conclusão: Como c rejeita-se 0 ao nível de significância de 5%, ou seja, a
incidência de pacientes com câncer depende do tabagismo.
EXEMPLO 5: Uma pesquisa com 531 pessoas sobre a incidência de ferimentos faciais em
acidentes com motocicleta, com ou sem uso de capacetes, revelou os seguintes dados: Em 113
pacientes com capacete apenas 30 apresentaram ferimentos na face e em 418 pacientes sem
capacete 182 apresentaram ferimentos na face. No presente estudo, os ferimentos faciais estão
associados ao uso de capacete?
1) Estabelecer as hipóteses
H 0 : a incidência de ferimentos na face NÃO está associada ao uso de capacete
H1 : a incidência de ferimentos na face está associada ao uso de capacete
32
Por exemplo, 0, 05 ou 5% .
113 212
e1,1 45,1
531
113 319
e1,2 67,9
531
418 212
e2,1 166,9
531
418 319
e2,2 251,1
531
30 45,1 83 67,9 182 166,9 236 251,1
2 2 2 2
2
c
45,1 67,9 166,9 251,1
5, 0 3,3 1, 4 0,9 10,6
tabelado
2
2g .l ; 21; 0,05 3,84
g .l. número de linhas -1 número de colunas -1
c2 tabelado H
5) Conclusão: Como rejeita-se 0 ao nível de significância de 5%, ou seja, a
incidência de ferimentos na face está associada ao uso de capacetes.
Desfecho
Mortalidade sim Mortalidade não Total
Com aleitamento 12 (20) 88 (80) 100
Sem aleitamento 48 (40) 152 (160) 200
Total 60 240 300
33
H1: a taxa de mortalidade está associada ao aleitamento materno
20) 0, 05
30)
12 20 88 80 48 40 152 160
2 2 2 2
c
2
20 80 40 160
3, 2 0,8 1, 6 0, 4 6
2 3,84
40) tabelado
0
c2 tabelado
2
5 ) Conclusão: Como , rejeita-se H0 ao nível de 5% de significância, ou seja, a
taxa de mortalidade está associada ao aleitamento materno.
3) 20 pacientes, divididos aleatoriamente em dois grupos iguais, foram submetidos a tratamento
para obstipação intestinal com dieta à base de frutas ou soja. No grupo Frutas, 9 pacientes
evoluíram satisfatoriamente e no grupo Soja apenas 2 pacientes apresentaram melhora do
quadro. Houve diferença entre as dietas?
Desfecho Total
Obstipação sim Obstipação não
Frutas 9 (5,5) 1 (4,5) 10
Soja 2 (5,5) 8 (4,5) 10
Total 11 9 20
c
2
5,5 4,5 5,5 4,5
2, 23 2, 72 2, 23 2, 72 9,88
2 3,84
4 ) tabelado
0
0
c2 tabelado
2
5 ) Conclusão: Como , rejeita-se H0 ao nível de 5% de significância, ou seja,
as dietas são diferentes.
34
CAPÍTULO 7
TESTE T DE STUDENT
ocorrem com probabilidade muito pequenas. Essas probabilidades são os valores de fixados
em 10%, 5% e 1%, os quais se referem às probabilidades de se incorrer em um erro tipo I.
t 2 t , são obtidos facilmente consultando uma tabela.
Os valores críticos de t, ou
Esses valores críticos são funções dos graus de liberdade n1 n2 2 e da probabilidade ,
valor nominal de significância.
O teste t pressupõe que a amostra é advinda de uma população normal. Felizmente, o
teste t é robusto, o que significa que sua validade não é seriamente afetada por desvios
moderados dessa distribuição. Neste teste assume-se, como se faz na maioria dos demais testes,
que os dados representam uma amostra aleatória da população.
OBSERVAÇÃO: 1) Estabelecer
H 0 e H1 depende exclusivamente da natureza do problema
em estudo.
2) Por convenção os símbolos , e estão associados com 0 e os
H
símbolos , e com 1 .
H
3) A rejeição de
H 0 implicará na aceitação de H1 e vice-versa, isto é,
H 0 e H1 são complementares.
Como na tomada de decisão sobre a aceitação ou rejeição de uma hipótese está baseado
apenas na informação dos dados amostrais, dois tipos de erros podem ser cometidos:
35
A probabilidade de se cometer o ERRO TIPO I é denotada por " " e é chamada de
NÍVEL DE SIGNIFICÂNCIA do teste. A probabilidade de ocorrência do erro tipo II é denotada
por . O complemento da probabilidade da ocorrência do erro tipo II, 1 é denominado de
PODER do teste.
H
O poder de um teste é a probabilidade de rejeitar uma hipótese 0 que é falsa e que
deveria ser de fato, rejeitada. Se, por um lado, a probabilidade de incorrer no erro tipo I é
conhecida e fixada pelo pesquisador, por outro, a probabilidade do erro tipo II não é conhecida e
nem pode ser especificada. O que se sabe é que, para um valor conhecido e fixado de n,
tamanho da amostra, o valor de é relacionado inversamente ao valor de . Assim, baixa
probabilidade de se incorrer no erro tipo I está associada à alta probabilidade de se cometer o
erro tipo II e o único modo de se causar restrição simultânea de ambos é aumentar o tamanho da
amostra (n).
O quadro abaixo resume a natureza dos erros envolvidos no processo de decisão através
dos testes de hipóteses:
TABELA 3. Erros tipo I e tipo II e as decisões tomadas corretamente para os testes de hipóteses
com suas respectivas probabilidades associadas entre parênteses.
DECISÃO
H
Rejeitar 0 Não rejeitar
H0
H 0 verdadeira Erro tipo I ( ) Decisão correta ( 1 )
Erro tipo II ( )
H1 falsa Decisão correta
(Poder: 1 )
Neste capítulo serão realizados testes de hipóteses em que apenas o ERRO TIPO I é
controlado (chamados TESTES DE SIGNIFICÂNCIA), isto devido a que o controle do outro
tipo de erro precisa de técnicas mais avançadas.
Objetivo: Avaliar se a média obtida em uma amostra é considerada igual a um valor teórico e
pré-determinado.
Dados: 26, 24, 29, 33, 25, 26, 23, 30, 31, 30, 28, 27, 29, 26 e 28
Valor médio: 27,7 desvio padrão: 2,74
36
REGRA DE DECISÃO
Tcalc T ; n1
Hipótese unilateral
(A) Se H0 deve ser rejeitada
Tcalc T ; n1
Hipótese bilateral
(B) Se H0 não deve ser rejeitada
HIPÓTESES
H0: =
μ0 (no exemplo: H : = 29,5 Ciclo menstrual = ciclo lunar)
0
μ
H1: 0 (no exemplo: H1: 29,5 Ciclo menstrual ≠ ciclo lunar)
ESTATÍSTICA t:
X̄ - μ0 ( X− X̄ )2
T=
s/ √ n , onde
s=
√ n−1
27,7 - 29,5 −1,8
= desvio padrão
T calc= = =2,546
no exemplo: 2,74/ √ 15 0,707
Tabela t
(1) Graus de liberdade = Num. observações – 1
No exemplo: gl = 15 – 1 = 14 ttab, 5%, 14 = 2,145
Regra de decisão
Conclusão: Com base na amostra obtida, conclui-se que o ciclo menstrual das mulheres
apresenta uma duração média inferior à duração do ciclo lunar. O nível de significância dotado
foi de 5% e o p-valor associado a esta amostra é igual a 0,023 ou 2,3%.
37
H 0 : 1 2 ou H 0 : 1 2 ou H 0 : 1 2
H1 : 1 2 ou H 0 : 1 2 ou H 0 : 1 2
(Hipótese bilateral) (Hipótese unilateral) (Hipótese unilateral)
tc
X 1 X 2 1 2
1 1
S p2
n1 n2
sendo,
S 2
n1 1 S12 n2 1 S 22
p
n1 n2 2
10)
H 0 : 1 2
H1 : 1 2
20) α = 0,05
30)
( 21−1 )*0,0676+( 21−1 )*0,1024
S 2p = =0,0850
21+21−2
2,70 2,99
tc 3,22
1 1
0,0850*
21 21
tc 3, 22
É necessário comparar este valor com o valor da tabela t apropriado
TABELA t
(1) Graus de liberdade = n1 + n2 – 2
t 0,025; 40 2, 021
No exemplo: g.l = 40
38
Regra de decisão:
tc ttabelado
Como (3,22 > 2,021) Rejeita-se H0
Conclusão: Com base nos valores obtidos no estudo, a hipótese nula de que o nível médio de
frutosamina é igual para os dois sexos deve ser rejeitada a um nível inferior a 5%, ou seja, com
mais de 95% de confiança pode-se afirmar que o nível médio de frutosamina nos homens é
superior ao nível médio de frutosamina das mulheres.
EXEMPLO 3: Para verificar se duas dietas para emagrecer são igualmente eficientes, um
médico separou, ao acaso, um conjunto de pacientes em dois grupos. Cada paciente seguiu a
dieta designada para seu grupo. Decorrido certo tempo, o médico obteve a perda de peso, em
quilograma, de cada paciente de cada grupo. Os dados estão apresentados na tabela abaixo. Use
= 5%
Dieta 1 2 3 4 5 6 7 8 9 10
1 12 8 15 13 10 12 14 11 12 13
2 15 19 12 13 16 15
39
6.4. TESTE T PARA DUAS AMOSTRAS DEPENDENTES (PAREADAS)
Objetivo: Avaliar se as médias calculadas em dois grupos formados de maneira dependente são
iguais ou não.
O nível médio de colesterol foi reduzido após o programa de dieta combinada com
exercícios físicos? (O programa tem efeito?)
HIPÓTESES
H0: Nível médio de colesterol antes = nível médio de colesterol depois
H1: Nível médio de colesterol antes ≠ nível médio de colesterol depois
A partir desta nova variável criada – diferença (D) – realiza-se um teste t para uma
amostra (Situação 1) considerando esta nova variável D.
As hipóteses são:
D̄ ( d− d̄ )2
ESTATÍSTICA t:
D̄ = 20,12
T p=
sd / √ n
Sd = 23,13
, onde
sd=
√ n−1
20,12
T p= =3,02
23,13/ √ 12
TABELA t:
(1) Graus de liberdade = n – 1
No exemplo: gl = 11 ttab, 5%, 11 = 2,201
Regra de decisão:
Como |tcalc| > ttab (3,02 > 2,201) Rejeita-se H0
Conclusão: Ao nível de 5%, a hipótese nula deve ser rejeitada, o que indica que o programa de
dieta combinada com exercícios físicos é eficiente na redução do nível de colesterol.
40
41
GABARITOS
c) Representação gráfica.
2) nível educacional (nenhum, ensino fundamental, ensino médio, ensino superior) = variável
qualitativa ordinal; peso (kg) = variável quantitativa contínua; altura = variável quantitativa
contínua; idade = variável quantitativa contínua; tipo sanguíneo (B, A, O, AB) = variável
qualitativa nominal; tipos de doenças = variável qualitativa nominal; percentual de gordura
corporal = variável quantitativa contínua; hábito de fumar (fumante ou não) = variável
qualitativa nominal; atividade física (pouca, moderada e muita) = variável qualitativa ordinal.
42
b) Tabela 2. Agentes etiológicos de fraturas na face registrados no Pronto Socorro do
Hospital das Clínicas da USP.
Agentes Fi Fri Fpi
etiológicos
Carro 7 0,4667 46,67%
Atropelamento 3 0,2000 20,00%
Espancamento 1 0,0667 6,67%
Moto 4 0,2667 26,67%
Total 15 1,0000 100,00%
b)
Chart Title
50% 47%
45%
40%
35%
30% 26%
25%
20%
20%
15%
10% 7%
5%
0%
Carro Atropelamento Espancamento Moto
Gráfico 1. Porcentagem agentes etiológicos de fraturas na face registrados no
Pronto Socorro do Hospital das Clínicas da USP.
43
LISTA DE EXERCÍCIOS 2 – ORGANIZAÇÃO E APRESENTAÇÃO DE DADOS
QUANTITATIVOS
NOTAS DE BIOQUÍMICA
1 k 20 5 classes
0
c 6, 75
3
0
LI1 menor valor -
2
8
2
4, 62 pontos
44
NOTAS DE BIOESTATÍSTICA
1 k 20 5 classes
0
2 c k A 1 325 13
0
1
19
4
4, 75 pontos
c 4, 75
3
0
LI1 menor valor -
2
13
2
10, 62 pontos
45
REPRESENTAÇÃO GRÁFICA PARA AS NOTAS DE BIOESTATÍSTICA
T.D.F.C
k 20 5 classes
66 30
c 9
5 1
9
LI1 30 25,5
2
46
3) CONSTRUÇÃO DA T.D.F. C. PARA O NÍVEL DE COLESTEROL DE 10 INDIVÍDUOS.
1 k 10 4 classes
0
2 c k A 1 9504 650
0
1
300
3
100 mg/dl
c 100
3
0
LI1 menor valor -
2
650
2
600 mg/dl
47
LISTA DE EXERCÍCIOS 3 – MEDIDAS DE POSIÇÃO PARA DADOS BRUTOS E
AGRUPADOS/QUARTIL
1)
MÉDIA PARA DADOS AGRUPADOS
xF i i
X i 1
X
27 8,5 29 9,5 46 ... 11,5 55
7,5
200
1934
9, 67 segundos
200
4 4 5 5 6 6
7 7 7 8 8 9
3 12 1
Posição de Q3 8, 25 8
4
Interpretação: 75% dos suicídios têm um índice abaixo de 7,5 e 25% acima de 7,5.
48
3) a) VARIÁVEL: Nível de potássio
CLASSIFICAÇÃO: Quantitativa contínua.
52,38% T.D.F.C.
c) Qual a porcentagem dos valores que são superiores ao nível 3,15?
c) Sim, pois houve uma maior frequência de alunos com batimentos cardíacos contidos na 3ª
classe (classe modal).
d)
2,5% T.D.F.C.
4) TIPO I: Existe um valor extremo (fora do padrão), portanto a mediana é a medida mais
apropriada para representar esse conjunto de dados. Ela não é influenciada por um ou mais
valores atípicos.
DADOS ORDENADOS
46 47 48 50 52 130
n é par (n = 6).
X n X n2 X 6 X 6 2
X 3 X 4
md 2 2
2 2
2 2 2
48 50
md 49 dias
2
TIPO II: Não existem valores extremos. A média é a medida de posição que melhor representa
esse conjunto de dados.
n
X i
72 75 ... 77 519
X i 1
74,14 dias
n 7 7
TIPO III: O valor “45” se repete 5 vezes entre os 10 valores. Neste caso, a moda é a medida
preferida.
Moda = 45 dias
49
LISTA 4 – QUESTÕES GERAIS - GABARITO
1)
abaixo
60 75 X 4,76
100 45
acima
4,76 4,76
2
4,76 g/dl
abaixo
60 25 X 5,17
100 15
acima
5,16 5,17
2
5,165 g/dl
2) O procedimento utilizado foi inadequado porque subestima o valor da média. Nesse caso, a
forma mais apropriada de síntese dos dados é a mediana, pois seu cálculo independe de valores
extremos.
3)
Tabela 2. Distribuição de idade dos pacientes potencialmente suicidas.
Idade (anos)
Xi Fi
[10 ; 20) 15 57
[20 ; 30) 25 113
[30 ; 40) 35 59
[40 ; 50) 45 32
[50 ; 60) 55 19
[60 ; 70) 65 7
Total 287
50
MÉDIA
k
xi Fi
X i 1 15 57 25 113 ... 65 7
n 287
8685
287
30,26 anos
MEDIANA
2 F
n
md LI A C
md F md
md
Classe mediana = X X X 2a classe
n1 2871 144
2 2
md 20 287 2 57 10
113
20 86,5 10
113
20 7,65
27,65 anos
MODA
mo LImo 1 C
mo
1 2
Classe modal = 2a classe (classe com maior Fi )
md 20
113 57
10
113 57 113 59
20 56 10
56 54
20 56 10
110
20 5,09
25,09 anos
4)
DADOS ORDENADOS
30 32 36 37 39 39 39 40
42 42 44 45 47 53 57 60
51
x x
n n2
2
2
md
2
x x
16
162
2 2
2
x x
8
9
2
40 42
2
41 kg
PARA CALCULAR A MEDIANA COM BASE NOS DADOS AGRUPADOS É
NECESSÁRIO CONSTRUIR A T.D.F.
1) k n
k 16 4 classes
2) c maior valor - menor valor
k 1
60 - 30 10 kg
3
3) LI menor valor - c
1 2
30 10
2
30 5 25 kg
Classes (Pesos) Xi Fi
[25 ; 35) 30 2
[35 ; 45) 40 9
[45 ; 55) 50 3
[55 ; 65) 60 2
Total 16
md 35 16 2 2 10
9
35 6 10
9
35 6,67
41,67 kg
c) Porque quando os dados estão organizados em uma T.D.F. existe uma perda de informação
que pode ser considerada desprezível, pois os dados são representados pelos pontos médios de
classe.
52
LISTA DE EXERCÍCIOS 5 - AMOSTRAGEM
1)
a) Amostragem não-probabilística, pois não é possível generalizar opinião das brasileiras sobre
a importância e necessidade da prevenção do câncer de colo de útero com base apenas no
município de Alfenas, MG.
2) PROCEDIMENTO:
N 200
r 10
n 20
2) O primeiro elemento a ser sorteado tem que estar entre 1 e r, ou seja, entre 1 e 10.
Logo, os números das cinco primeiras fichas são: (5, 15, 25, 35, 45).
3)
a)
c)
a)
b)
53
REFERÊNCIAS BIBLIOGRÁFICAS
Bussab, W. O. & Morettin, P. A. (2017). Estatística Básica. 9a Edição. Atual Editora: São
Paulo.
FERREIRA, D. F. Estatística básica. 2 ed. revisada; 668 p. Editora Ufla. Lavras, 2009.
SOFTWARES ESTATÍSTICOS
R Development Core Team (2015). R: A language and environment for statistical computing. R
Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL
http://www.R-project.org.
CONTATO
54