Você está na página 1de 65

Bioestatística

Revisão para prova D3


MODULAR

Prof. Daniel Negreiros (negreiros.eco@gmail.com)


O QUE É POPULAÇÃO E O QUE É AMOSTRA?

Amostra
Tamanho n

População
Tamanho N

•População ou universo é o conjunto de


unidades sobre o qual desejamos obter
informação.
•Amostra é todo subconjunto de
unidades retiradas de uma população
para obter a informação desejada.
Amostra aleatória ou probabilística

• simples
Uma amostra aleatória pode ser:
• estratificada.

A amostra aleatória simples


é obtida por sorteio de uma
população constituída por
unidades homogêneas para
a variável que você quer
estudar.
Amostra aleatória ou probabilística
A amostra aleatória estratificada é usada quando a
população é constituída por unidades heterogêneas
para a variável que se quer estudar.

População heterogênea Subgrupos (estratos)


Avaliação das técnicas de amostragem
A amostra sistemática não exige que a população seja
conhecida, mas é preciso que esteja organizada em filas, em
arquivos, ou mesmo em ruas, como os domicílios de uma cidade.
População

Amostra
Por exemplo, para tomar
uma amostra dos
domicílios de uma cidade,
parte-se de um ponto
sorteado e toma-se, de
tantos em tantos, um
domicílio para a amostra.
Amostra semiprobabilística: por CONGLOMERADOS
A amostra por conglomerados é constituída por n unidades
tomadas de alguns conglomerados.
O conglomerado é um conjunto de unidades que estão
agrupadas, qualquer que seja a razão.
um asilo é um conglomerado de idosos,
uma universidade é um conglomerado de graduandos
um serviço militar é um conglomerado de jovens saudáveis.
Existem 3 tipos básicos de
medidas de posição
(ou medidas de tendência central):

Média
Mediana
Moda
Exemplo: Ingestão diária de calorias
média aritmética

Pessoa calorias
A 1574

0
0

00

00

00

00

00

00

00
90
70

80
B 1280

10

11

12

13

14

15

16
C 946 Consumo diário (cal)
D 1296 Soma = 11619 cal
E 1201 n = 10 indivíduos
F 1163
G 790 Soma
Média = = 1161,9 cal
H 835 n
I 1189 tamanho
J 1345
amostral
Calcule a média aritmética de cada uma das
variáveis dos casos apresentados a seguir.
Teste realizado por um fisioterapeuta para analisar a capacidade física de
idosos. O teste consiste em colocar o idoso em uma cadeira apoiada na parede,
com os braços apoiados nos ombros, sendo que ele deve levantar e sentar da
cadeira o máximo que puder durante 30 segundos. Os dados a seguir indicam
as quantidades de vezes coletadas para homens e mulheres

HOMENS:
14, 18, 17, 12, 20, 16, 15

MULHERES:
12, 19, 21, 10, 11, 14, 13

Qual é a média das quantidades


observadas para homens?
E para mulheres?
Média Aritmética das tabelas de frequências

Distribuição de frequências das idades dos 50 alunos do


primeiro ano da faculdade de Biomedicina em 2017.
Xi (idade em anos) fi (Quantidade de alunos) Xi . fi
17 3 51
18 20 360
19 15 285
20 8 160
21 4 84

como calcular a média aritmética


nessa tabela de frequências ?
Média Aritmética das tabelas de frequências
Xi (idade em anos) fi (Quantidade de alunos) Xi . fi
17 3 51
18 20 360
19 15 285
20 8 160
21 4 84

precisamos multiplicar os valores de cada linha...


E registrar esses valores em uma nova coluna da
tabela que vamos simbolizar por Xi . fi. X
Por último, somar essa última coluna e
também a coluna das frequências f
A tabela a seguir foi construída por uma enfermeira partindo do
número de crianças vacinadas por dia em uma clínica pública.
xi (crianças) fi (dias) Xi . fi
12 20
15 21
20 32
25 5
30 2

Qual é a quantidade média de


crianças vacinadas por dia?
A tabela a seguir foi construída por uma enfermeira partindo do
número de crianças vacinadas por dia em uma clínica pública.
xi (crianças) fi (dias) Xi . fi
12 20 240
15 21 315
20 32 640
25 5 125
30 2 60
Soma (fi) = 80 Soma (Xi.fi) = 1380

Qual é a quantidade média de


crianças vacinadas por dia? X = 1380 / 80 = 17,25
Os salários mensais dos
fisioterapeutas de uma clínica
particular são apresentados na
tabela a seguir.

1500 3000
1700 10200
1900 19000
2100 10500
2300 4600
Soma (fi) = 25 Soma (Xi.fi) = 47300
Quanto recebe por mês em
média um fisioterapeuta
dessa clínica? X = 47300 / 25 = 1892
É importante notar que às vezes, essa tabela de frequência
pode ser mostrada de uma forma completamente diferente
na questão.
Nesse caso, a coluna fi (frequência) é chamada de “PESO”.
Mas o jeito de resolver é idêntico, tem que multiplicar os
valores da primeira coluna pelo tal “PESO”, e etc... do jeito
que mostrei nos slides anteriores

xi (crianças) fi (dias)
12 20 Às vezes é
chamada
15 21 de “PESO”
20 32
25 5
30 2
MEDIANA: valor central de um conjunto de
números ordenados do menor para o maior
Para um número ímpar de observações, a
mediana é o valor central
42 48 61 69 76
MEDIANA: valor central de um conjunto de
números ordenados do menor para o maior
Para um número ímpar de observações, a
mediana é o valor central
42 48 61 69 76

Para um número par de observações ordenadas, a


mediana é o valor médio dos dois valores centrais
42 48 61 69 76 99

(61+69)/2 = 65
Exemplo: Ingestão diária de calorias
mediana

em ordem
crescente
Pessoa calorias
G 790

0
0

00

00

00

00

00

00

00
90
70

80
H 835

10

11

12

13

14

15

16
C 946 Consumo diário (cal)
F 1163
5º I 1189
6º E 1201 Mediana = valor central de um
B 1280
conjunto de números
D 1296
J 1345 ordenados do menor
A 1574 para o maior
Calcule a MEDIANA de cada uma das
variáveis dos casos apresentados a seguir.
Teste realizado por um fisioterapeuta para analisar a capacidade física de
idosos. O teste consiste em colocar o idoso em uma cadeira apoiada na parede,
com os braços apoiados nos ombros, sendo que ele deve levantar e sentar da
cadeira o máximo que puder durante 30 segundos. Os dados a seguir indicam
as quantidades de vezes coletadas para homens e mulheres

HOMENS:
14, 18, 17, 12, 20, 16, 15

MULHERES:
12, 19, 21, 10, 11, 14, 13

Qual é a MEDIANA das


quantidades observadas para
homens? E para mulheres?
Calcule a MEDIANA de cada uma das
variáveis dos casos apresentados a seguir.
Teste realizado por um fisioterapeuta para analisar a capacidade física de
idosos. O teste consiste em colocar o idoso em uma cadeira apoiada na parede,
com os braços apoiados nos ombros, sendo que ele deve levantar e sentar da
cadeira o máximo que puder durante 30 segundos. Os dados a seguir indicam
as quantidades de vezes coletadas para homens e mulheres

HOMENS:
12 14 15 16 17 18 20
MULHERES:
10 11 12 13 14 19 21

Qual é a MEDIANA das


quantidades observadas para
homens? E para mulheres?
Pessoa calorias
#1
#2
1224
1240
Consumo diário de
#3
#4
1272
1304
calorias (30 pessoas)
#5 1400
#6 1408 12 Moda: valor que ocorre
#7 1440
#8
#9
1512
1528
com maior frequência
#10 1560
#11 1568
Frequência
#12 1584 8
#13
#14
1672
1760
média = 2091
#15
#16
1848
1910
mediana = 1879
#17
#18
1912
1912 4
moda = ~1600
#19 1976
#20 2064
#21 2256
#22 2288
#23 2360
#24 2464 0
#25 2640
#26 2848 1000 2000 3000 4000 5000
#27 3216
#28 3960 Consumo diário (cal)
#29 4128
#30 4464
Moda deve ser usada apenas para grandes conjuntos de dados (> 30)
Um conjunto de dados pode não ter moda
porque nenhum valor se repete:
Ex: 0 2 4 6 8 10

ou ter duas ou mais modas.


Ex: 1 2 2 3 4 4 5 6 7 tem duas
modas: 2 e 4.
Exemplo de um conjunto de dados
com distribuição normal

Frequência

Variável exemplo
Exemplo de dados com
distribuição normal

Frequência

Variável exemplo
Quanto mais próxima da distribuição normal,
normal
maior a semelhança entre a mediana e a média
8

6 mediana
= 5,18 média = 5,17
frequência

0
3 4 5 6 7
Altura (log;
Variável mm)
exemplo
Exemplo: Ingestão diária de calorias

média mediana
em ordem
crescente

Pessoa calorias

0
00

00

00
00

00

00
comum 790
70

80

90
10

12

14
11

13

15
Consumo diário (cal)
comum 1163
comum 1201
soma = 5979
comum 1345 média = 1196
mediana = 1201
comum 1480
Exemplo: Ingestão diária de calorias

mediana
média
em ordem
crescente

Pessoa calorias

0
0

0
comum 790

0
0

0
10

20

50

60
30

40
Consumo diário (cal)
comum 1163
comum 1201
soma = 9499
comum 1345 média = 1900
mediana = 1201
atleta 5000

A mediana NÃO é afetada pela presença de valores extremos


Quando usar média ou mediana?
Distribuição Distribuição
15 8
assimétrica simétrica
6
10
frequência

frequência
4

5
2

0 0
0 200 400 600 800 1000 1200 3 4 5 6 7
Alturaexemplo
Variável (mm) Altura (log;
Variável mm)
exemplo

Mediana é melhor Média é muito sensível


descritora da posição central a observações extremas
em dados com distribuição (outliers), mas é
assimétrica ou com adequada em dados com
observações extremas. distribuição normal.
Medidas de dispersão

Não basta declarar a média (ou outra medida de posição).


Como há variação na natureza, também é preciso
quantificar a dispersão (ou variabilidade) de nossas
observações.

1000 2000 3000 4000 5000


Consumo diário (cal)
Os dois locais possuem a mesma média,
mas dispersão do local 2 é muito maior:
Ruído (em decibéis) em dois locais:
Segunda Terça Quarta Quinta Sexta Sábado MÉDIA
Local 1 49 52 51 48 51 52 50.5
Local 2 39 32 35 37 72 88 50.5

Local 1
30 50 70 90
ruído (dB)
Local 2
30 50 70 90
ruído (dB)
Medidas de dispersão

A maneira mais simples de se quantificar a dispersão


é reportar o mínimo, máximo e amplitude

1000 2000 3000 4000 5000


Consumo diário (cal)
Mínimo = 1224
Máximo = 4464
Amplitude = (MÁX. – MÍN.) = 3240
Medidas de dispersão
A ‘variância’ é uma medida que indica
o quanto as observações diferem da média.
Erro-padrão:
divisão do desvio-padrão
pela raiz quadrada do n
Erro padrão (tamanho amostral)

Desvio-padrão:
Desvio padrão raiz quadrada da
variância

3 4 5 6 7
Altura (log;
Consumo diáriomm)
(kcal)
Medidas de dispersão

Erro padrão

Desvio-padrão descreve
Desvio padrão com mais precisão a
variabilidade dos dados

3 4 5 6 7
Altura (log; mm)

3 4 5 6 7
Altura (log;
Consumo diário mm)
(kcal)
Consumo diário (kcal)
Altura (log; mm)

44
66
77

3
D
es
vi
o
pa
dr
ão

Er
ro
pa
dr
ão
Medidas de dispersão
Quando usar o Desvio Padrão ou Erro Padrão?

Use o Desvio Padrão Use o Erro Padrão


quando os grupos quando os grupos
tiverem N (tamanho amostral) tiverem N (tamanho amostral)
DESIGUAL, IDÊNTICO
taxa de glicose

taxa de glicose
Para calcular a variância (s2), é necessário saber o
desvio de cada amostra:
Para calcular a variância:
• calcule os desvios, de cada observação em relação à média;
• eleve cada desvio ao quadrado;
• some os quadrados;
• divida o resultado por n-1 (n é o número de observações).

Note que a unidade da variância é sempre ao quadrado,


por exemplo, minutos2; dB2; cal2; hora2, reais2...
Desvio padrão (s) é a raiz quadrada da variância
O Desvio Padrão é uma
medida de variabilidade
muito usada, porque mede s n
bem a dispersão dos dados.

decibéis

Erro Padrão (EP) é o Desvio Padrão dividido


pela raiz de N
Desvio Padrão

EP
Tamanho amostral
Ruído (em decibéis) em 3 locais:
locais:

Jardim tranquilo 30
Sala de aula 80
Rock in Rio 130

Nota: estes valores de ruído (db) estão relativamente precisos


http://guiadoscuriosos.uol.com.br/categorias/1855/1/os-niveis-de-ruidos.html
Ruído (em decibéis) em 3 locais:
locais:

Desvio amostral
Desvio Amostral elevado ao quadrado
(observ
observ.. – média) (Desvios)2

Jardim tranquilo 30 30-80 = -50 -502 = 2500


Sala de aula 80 80-80 = 0 02 = 0
Rock in Rio 130 130-80 = 50 502 = 2500
Média = 80 Soma = 5000

Variância = somatória dos (Desvios)2 /(N-1)


Variância = 5000/(3-1) = 2500 decibéis2
Desvio Padrão = √variância = √2500 = 50 decibéis
Praticando
um pouco...

Alimentos Proteína (g / 100 g) Desvio amostral (Desvio amostral)2


Carne de frango 32,8 7,16 51.27
Carne de vaca 26,4 0,76 0.58
Queijo 26,0 0,36 0.13
Salmão grelhado 23,8 -1,84 3.39
Pescada 19,2 -6,44 41.47
Média = 25,64

Variância = soma quad. Desv/(N-1) = 96,83/4 = 24,208

Desvio padrão = raiz quadrada da variância = √ 24,208 = 4,92

Erro padrão = desvio padrão/(raiz quadrada de N) = 4,92/√5 = 2,20


Ruído (em decibéis) em 3 locais:
locais:

Passarinho 12
Bar do João 90
Vuvuzela 135
Ruído (em decibéis) em 3 locais:
locais:

Desvio amostral
Desvio Amostral elevado ao quadrado
(observ
observ.. – média) (Desvios)2

Passarinho 12 12-79 = -67 -672 = 4489


Bar do João 90 90-79 = 11 112 = 121
Vuvuzela 135 135-79 = 56 562 = 3136
Média = 79 Soma = 7746

Variância = somatória dos (Desvios)2 /(N-1)


Variância = 7746/(3-1) = 3873 decibéis2
Desvio Padrão = √variância = √3873 = 62,2 decibéis
Distribuição dos casos de Dengue
em uma cidade, entre 1994 e 2003

Ano Casos
1994 4
1995 205
1996 251
1997 133
1998 101
1999 319 Qual é a VARIÂNCIA
2000 208 dos casos de dengue
2001 3186 neste período?
2002 347
2003 799
Qual é a VARIÂNCIA
Distribuição dos casos de Dengue dos casos de dengue
em uma cidade, entre 1994 e 2003 neste período?

Ano Casos Desvio amostral Quadrado do desvio


1994 4 -551,3 303932
1995 205 -350,3 122710
1996 251 -304,3 92598
1997 133 -422,3 178337
1998 101 -454,3 206388
1999 319 -236,3 55838
2000 208 -347,3 120617
2001 3186 2630,7 6920582
2002 347 -208,3 43389
2003 799 243,7 59390
Média = 555,3 Soma = 8103782,1
Variância = soma dos quadrados dos desvios / (N-1) = 8103782,1 / 9 = 900420,2
A variância é de 900420,2 (casos de dengue)2 por ano
Qual é o Desvio
Distribuição dos casos de Dengue padrão dos casos de
em uma cidade, entre 1994 e 2003 dengue neste período?

Ano Casos Desvio amostral Quadrado do desvio


1994 4 -551,3 303932
1995 205 -350,3 122710
1996 251 -304,3 92598
1997 133 -422,3 178337
1998 101 -454,3 206388
1999 319 -236,3 55838
2000 208 -347,3 120617
2001 3186 2630,7 6920582
2002 347 -208,3 43389
2003 799 243,7 59390
Média = 555,3 Soma = 8103782,1
Variância = 900420,2
Desvio Padrão = raiz quadrada da variância = 948,9 casos de dengue por ano
O coeficiente de variação (CV) é a razão
entre o desvio padrão e a média.
O resultado é multiplicado por 100, para que o
coeficiente de variação seja dado em porcentagem.

o coeficiente de variação mede a


dispersão dos dados em relação à média
Para entender como se interpreta o coeficiente de variação,
imagine dois grupos de pessoas:
Grupo 1: pessoas com idades de 1, 3 e 5 anos (média = 3 anos)
Grupo 2: pessoas com idades de 53, 55 e 57 anos (média = 55)
Em ambos os grupos a dispersão dos dados
é a mesma: desvio padrão (s) = 2 anos
Mas as diferenças de 2 anos são muito mais importantes
no primeiro grupo do que no segundo grupo

No primeiro grupo, o No segundo grupo, o


coeficiente de variação é: coeficiente de variação é:
Vamos considerar que avaliamos esses 7 pacientes:

111

A variável IDADE tem A variável TEOR DE TRIGLIC. tem


média = 41.4; e média = 121.9; e
desvio padrão = 2,8 desvio padrão = 7,4
? Qual variável possui MAIOR VARIABILIDADE ???
RESPOSTA: não podemos olhar diretamente o desvio padrão, porque
essas duas variáveis possuem unidades diferentes (anos
anos e mg/dL
mg/dL)
Vamos considerar que avaliamos esses 7 pacientes:

111

A variável IDADE tem A variável TEOR DE TRIGLIC. tem


média = 41.4; e média = 121.9; e
desvio padrão = 2,8 desvio padrão = 7,4
? Qual variável possui MAIOR VARIABILIDADE ???

É preciso calcular o CV
(coeficiente de variação)
Vamos considerar que avaliamos esses 7 pacientes:

111

A variável IDADE tem A variável TEOR DE TRIGLIC. tem


média = 41.4; e média = 121.9; e
desvio padrão = 2,8 desvio padrão = 7,4
? Qual variável possui MAIOR VARIABILIDADE ???
CV (idade) = (2,8 / 41.4) *100 CV (teor) = (7,4 / 121.9) *100
CV (idade) = 6,8% CV (teor) = 6,1%
Resposta: Idade possui MAIOR variabilidade
Importante:

Quando o CV (coeficiente de variação) é:

MENOR que 30%, a variável é considerada


HOMOGÊNEA, OU POUCO DISPERSO

Se for MAIOR que 30%, é considerada


HETEROGÊNEA, OU MUITO DISPERSO

Note que às vezes o CV pode ser dado em proporção, então:


Homogêneo (pouco disperso): CV < 0,30
Heterogêneo (muito disperso): CV > 0,30
As variáveis podem ser quantitativas ou categóricas:

Exemplos:
• qualitativo (categóricas ): cor, forma,
habitat, dieta.

• quantitativas: altura, largura, pressão


sanguínea, temperatura, duração (tempo).
QUALITATIVO QUANTITATIVO
Classifique o tipo de variável:

Idade (anos): Quantitativo Contínuo (ex: 18,5 anos)


Escolaridade (Analfabeto /
Fundamental / Médio / Superior ): Categórico Ordinal
Peso (kg): Quantitativo Contínuo (ex: 74,9 kg)
Número de filhos (unidade): Quantitativo Discreto (ex: 3 filhos)
Sexo (M/F): Categórico Nominal
Estatura (m): Quantitativo Contínuo (ex: 1,78m)
Pratica exercícios físicos (Sim / Não): Categórico Nominal
Uso de bebida alcoólica (Nunca /
Raramente / Sempre): Categórico Ordinal
Número de lesões pré-existentes
(unidade): Quantitativo Discreto (ex: 3 lesões)
Comparação Teste-t
de grupos t = 14,57
150 p < 0,001

Pressão Diastólica (mm Hg)


(significativo)

140

130

120
Em uma tabela ou
gráfico de barras, os
110
asteriscos podem ser
usados para indicar te

te
an

an
m
m

diferenças significativas
Fu

-fu
ão
entre os grupos
N
Ortodontia
Comparação de grupos (Tratamento e Controle)

Fonte: http://www.scielo.br/pdf/dpress/v9n6/a14v9n6.pdf
Quando fazemos um teste de regressão, obtemos
dois valores (além dos termos da equação da reta, detalhes adiante):
2
r (coeficiente de determinação);
p (significância da regressão).
• O coeficiente de determinação ( r2 ) é um valor
que descreve a porcentagem dos dados (da variável
resposta) explicadas pela variável preditora.

Ex: se r2 = 0,50 significa que 50% da variação dos


dados (de Y: variável resposta) foi explicada pela
variável preditora (X)
r2 = 0,648
6 p = 0,001

invasoras (log)
de Obesidade
5

Índice spp
Riqueza
3

2
0 1 2 3 4 5
População
Quantidade humana (log)por dia
de refrigerantes

r2 = 0,648 significa que a quantidade de refrigerantes


explica 64,8% da variação no índice de obesidade
A regressão linear é usada para fazermos uma PREVISÃO do valor de Y
Podemos estimar o valor de Y usando a reta da regressão (equação da reta)

(Lembrete: Y é o efeito; X é a causa)


A regressão linear é usada para fazermos uma PREVISÃO do valor de Y
Podemos estimar o valor de Y usando a reta da regressão (equação da reta)

X = 170
(Lembrete: Y é o efeito; X é a causa)
A regressão linear é usada para fazermos uma PREVISÃO do valor de Y
Podemos estimar o valor de Y usando a reta da regressão (equação da reta)

Y = 186,6

X = 170
(Lembrete: Y é o efeito; X é a causa)