Escolar Documentos
Profissional Documentos
Cultura Documentos
sentação tabular.
A palavra estatística vem do latim status e significa estado. Inicialmente, era utilizada para compilar
dados que descreviam características de países (Estados). Em 1662, John Graunt publicou estatísticas
de nascimentos e mortes. A partir de então, o estudo dos eventos vitais e da ocorrência de doenças e
óbitos impulsionou o desenvolvimento da Estatística nos campos teórico e aplicado (Triola, 1999).
Atualmente, índices e indicadores estatísticos fazem parte do dia a dia, tais como taxa de inflação,
índice de desemprego, taxa de natalidade, taxa de crescimento populacional, índice de poluição at-
mosférica, índice de massa corporal, entre outros.
Estatística: é uma coleção de métodos para planejar experimentos, obter e organizar dados, resumi-
los, analisá-los, interpretá-los e deles extrair conclusões (Triola, 1999).
Níveis de mensuração
Escala nominal
Os indivíduos são classificados em categorias segundo uma característica.
Ex: sexo (masculino, feminino), hábito de fumar (fumante, não fumante), sobrepeso (sim, não).
Não existe ordem entre as categorias e suas representações, se numéricas, são destituídas de signifi-
cado numérico.
Ex: sexo masculino=1, sexo feminino = 2.
Os valores 1 e 2 são apenas rótulos.
Escala ordinal
Os indivíduos são classificados em categorias que possuem algum tipo inerente de ordem. Neste caso,
uma categoria pode ser "maior" ou "menor" do que outra.
Embora exista ordem entre as categorias, a diferença entre categorias adjacentes não tem o mesmo
significado em toda a escala.
Escala numérica de razões – possui zero inerente á natureza da característica sendo aferida.
Escala de razões contínua: o resultado numérico é um valor pertencente ao conjunto dos números
reais R ={-∞; ...; 0; 0,2; 0,73; 1; 2,48;...; +∞}.
Ex: idade (anos), peso (g), altura (cm),nível de retinol sérico (µg/dl), circunferência da cintura
(cm).
De acordo com os níveis de mensuração, pode-se classificar a natureza das variáveis segundo a
escala de mensuração em:
nominal
qualitativa
ordinal
VARIÁVEL:
quantitativa discreta
contínua
O tipo da variável irá indicar a melhor forma para o dado ser apresentado em tabelas e
gráficos, em medidas de resumo e, a análise estatística mais adequada.
População: totalidade de elementos sob estudo. Apresentam uma ou mais características em comum.
Supor o estudo sobre a ocorrência de sobrepeso em crianças de 7 a 12 anos no Município de São
Paulo.
População alvo – todas as crianças nesta faixa etária deste município.
População de estudo – crianças matriculadas em escolas.
Elementos: são unidades de análise; podem ser pessoas, domicílios, escolas, creches, células ou qual-
quer outra unidade.
Amostragem: processo para obtenção de uma amostra. Tem como objetivo estimar parâmetros popu-
lacionais.
Estimador: é uma fórmula matemática que permite calcular um valor (estimador por ponto) ou com
um conjunto de valores (estimador por intervalo) para um parâmetro.
N
∑X
i =1
i
Ex: Média aritmética: X = ,
N
N
onde ∑X
i =1
i = X 1 + X 2 + ... + X N e N = número de observações.
Ex: Peso médio ao nascer, calculado em uma amostra de 120.000 crianças nascidas no Município de
São Paulo no ano de 2000: média amostral = x = 3000 g .
Desvantagens
Resultados sujeitos à variabilidade
Probabilística: cada unidade amostral tem probabilidade conhecida e diferente de zero de pertencer à
amostra. É usada alguma forma de sorteio para a obtenção da amostra.
Não probabilística: não se conhece a probabilidade de cada unidade amostral pertencer à amostra.
Algumas unidades terão probabilidade zero de pertencer à amostra.
Ex: amostragem intencional; por voluntários; acesso mais fácil; por quotas.
Exemplo 2 -Os dados a seguir são de peso (kg) de 80 mulheres identificadas pela variável id (identi-
ficação).
Id Peso Id peso Id Peso Id Peso Id Peso Id Peso
1 65 16 71 31 70 46 75 61 68 76 75
2 65 17 84 32 72 47 79 62 69 77 79
3 58 18 63 33 75 48 79 63 76 78 73
4 59 19 64 34 76 49 82 64 77 79 82
5 67 20 65 35 77 50 83 65 80 80 76
6 68 21 74 36 78 51 65 66 81
7 74 22 81 37 80 52 68 67 59
8 81 23 66 38 82 53 75 68 64
9 66 24 69 39 63 54 76 69 70
10 61 25 71 40 66 55 78 70 80
11 64 26 71 41 72 56 78 71 85
12 65 27 72 42 72 57 81 72 70
13 67 28 73 43 72 58 85 73 71
14 68 29 75 44 73 59 66 74 72
15 70 30 77 45 73 60 68 75 72
Fonte: Osborn JF. Statistical Exercises in Medical Research. John Wiley & Sons Inc., 1979. (adaptado).
a) Sorteie uma amostra aleatória de tamanho 20 utilizando a tabela dos números equiprováveis.
b) Apresente os valores do peso dos indivíduos sorteados.
c) Some os valores e divida pelo tamanho da amostra (número de valores).
d) Este valor é o parâmetro, o estimador ou a estimativa do peso médio?
OBS: É necessário ter cuidado com a periodicidade dos dados, por exemplo se for feito sorteio de dia
no mês, pode cair sempre em um domingo onde o padrão de ocorrência do evento pode ser diferen-
te.
N 80
Exemplo: N=80; n=10; k= = = 8 ; início casual: 1 ≤ i ≤ 8
n 10
Começo casual sorteado: i=4
Amostra composta dos elementos:
i .............. 4
i+k ……….. 12
i+2k ………. 20
i+3k ………. 28
i+4k ………. 36
i+5k ………. 44
i+6k ………. 52
i+7k ………. 60
i+8k .…….. 68
i+(n-1)k …. 76
A amostra deve conter os elementos da população nas mesmas proporções dos estratos. Tem-se que
os tamanhos dos estratos amostrais são n1, n2 e n3 tal que ∑n i =n
Aplicando-se a proporção:
ni N i N
= ⇒ ni = n i
n N N
Exemplo:
N=500; N1=50; N2=150; N3=300 e n=40
Tamanho do estrato ni N i
Estrato i na população na amostra =
Ni ni
n N
1 50 4 0,1
2 150 12 0,3
3 300 24 0,6
Total 500 40
50 150 300
n1 = 40 = 4 ; n2 = 40 = 12 ; n3 = 40 = 24
500 500 500
Exemplo 4
Cite dois exemplos de amostragens por conglomerado.
Apuração de dados
Processo no qual conta-se o número de vezes que a variável assumiu um determinado valor (frequên-
cia de ocorrência). Pode ser manual, mecânica ou eletrônica (programas estatísticos: Epi info, Stata,
Excel, SPSS, SAS, R, S-Plus).
Notação:
X : variável
xi : valor observado para o indivíduo i
Altura em metros
X: 1,63; 1,60; 1,59; 1,60; 1,45; 1,73; 2,05; 1,85
altura frequência
1,45 1
1,59 1
1,60 2
1,63 1
1,73 1
1,85 1
2,05 1
Apresentação tabular
Total
Fonte
notas, chamadas
A tabela deve ser uniforme quanto ao número de casas decimais e conter os símbolos – ou 0 quando
o valor numérico é nulo e ... quando não se dispõe do dado.
Exemplo:
Distribuição de crianças(1) segundo níveis séricos de retinol. Cansação – Bahia, 1992
Nível de retinol sérico(2) n %
Aceitável 89 55,3
Baixo 65 40,4
Deficiente 7 4,3
Total 161 100
(1)
24 –72 meses
(2)
aceitável: 20,0 – 49,9 µg/dl; baixo: 10,0 – 19,9 µg/dl; deficiente: <10,0 µg/dl
Fonte: Prado MS et al., 1995.
Como idade é variável quantitativa contínua, a melhor forma de apresentá-la em tabelas é utilizando
intervalos de valores denominados intervalos de classe.
Ex:
x: 5, 5, 15, 20, 20, 20, 21, 21, 22, 22
idade frequência %
5 |-- 10 2 20
10 |-- 15 0 -
15 |-- 20 1 10
20 |-- 25 7 70
Total 10 100
Intervalos de classe: conjunto de observações contidas entre dois valores limite (limite inferior e limite
superior).
Representação:
5 | -- 10 intervalo fechado no limite inferior e aberto no limite superior (con-
tém o valor 5 mas não contém o valor 10)
5 -- 10 intervalo aberto nos limites inferior e superior
(não contém os valores 5 e 10)
5 |-- | 10 intervalo fechado nos limites inferior e superior
(contém os valores 5 e 10)
OBS: Representar o intervalo 0 |-- | 11 meses é equivalente a representá-lo como 0 |-- 12 meses.
X: peso (g)
X: 2250, 3025, 1600, 2725, 3750, 3950, 2400, 2180, 2520, 2530
Altura (cm) n %
1,45|--1,55 1 12,5
1,55|--1,65 4 50,0
1,65|--1,75 1 12,5
1,75|--1,85 0 -
1,85|--1,95 1 12,5
1,95|--2,05 0 -
2,05|--2,15 1 12,5
Total 8 100
Os intervalos de classe devem ser mutuamente exclusivos (um indivíduo não pode ser classificado
em dois intervalos ao mesmo tempo) e exaustivos (nenhum indivíduo pode ficar sem classificação).
A amplitude do intervalo é o tamanho do intervalo de classe. A amplitude do intervalo e o número
de intervalos dependem basicamente do problema específico e da literatura existente sobre o assunto.
O ponto médio do intervalo é calculado somando-se o limite inferior e limite superior, dividindo-se
o resultado por dois.
Exemplo 5 – Os dados a seguir são de altura de uma amostra de 351 mulheres idosas selecionadas
aleatoriamente de uma comunidade para um estudo de osteoporose.
142 152 154 156 157 158 160 161 163 164 165 169
145 152 154 156 157 158 160 161 163 164 165 169
145 152 154 156 157 158 160 161 163 164 165 169
145 152 154 156 157 158 160 161 163 164 165 169
146 152 155 156 157 158 160 161 163 164 166 169
147 152 155 156 157 158 160 161 163 164 166 169
147 153 155 156 158 158 160 161 163 164 166 169
147 153 155 156 158 158 160 161 163 164 166 170
147 153 155 156 158 159 160 162 163 164 166 170
148 153 155 156 158 159 160 162 163 164 166 170
148 153 155 156 158 159 160 162 163 164 166 170
149 153 155 156 158 159 160 162 163 164 166 170
150 153 155 156 158 159 160 162 163 164 166 170
150 153 155 156 158 159 160 162 163 164 166 170
150 153 155 156 158 159 160 162 163 164 166 170
150 153 155 157 158 159 160 162 163 165 167 170
150 153 155 157 158 159 160 162 163 165 167 170
150 153 155 157 158 159 161 162 163 165 167 170
151 153 155 157 158 159 161 162 163 165 167 171
151 153 155 157 158 159 161 162 163 165 167 171
151 153 155 157 158 159 161 162 163 165 167 171
151 153 155 157 158 159 161 162 163 165 167 173
151 153 155 157 158 159 161 162 163 165 168 173
151 154 155 157 158 159 161 162 163 165 168 173
152 154 155 157 158 159 161 162 163 165 168 174
152 154 156 157 158 160 161 162 163 165 168 176
152 154 156 157 158 160 161 163 163 165 168 177
152 154 156 157 158 160 161 163 164 165 168 178
152 154 156 157 158 160 161 163 164 165 169 178
152 154 156
Fonte: Hand DJ et alli. A handbook of small data sets. Chapman&Hall, 1994.
Distribuição de crianças(1) segundo níveis séricos de retinol e idade. Cansação – Bahia, 1992.
Faixa etária (meses) Aceitável Inadequado Total
n % n % n %
<12 5 45,5 6 54,5 11 100
12|--24 10 43,5 13 56,5 23 100
24|--36 19 54,3 16 45,7 35 100
36|--48 21 65,6 11 34,5 32 100
48|--60 16 43,2 21 56,8 37 100
60|--73 18 78,3 5 21,7 23 100
Total 89 55,3 72 44,7 161 100
(1)
24 –72 meses.
(2)
aceitável: 20,0 – 49,9 µg/dl; baixo: 10,0 – 19,9 µg/dl; deficiente: <10,0 µg/dl.
Fonte: Prado MS et al., 1995.
Exemplo 6
Os dados a seguir são de um estudo que investiga a relação entre níveis de β-caroteno (mg/L) e hábi-
to de fumar em gestantes.
a) Calcule as frequências relativas. Fixando o 100% no total de fumantes e não fumantes.
b) Calcule as frequências relativas. Fixando o 100% no total do nível de B-caroteno (MG/L).
c) Interprete os resultados. Existe alguma indicação de existência de associação entre as variá-
veis? Justifique.
a)
Distribuição de gestantes segundo níveis de β -caroteno (mg/L) e hábito de fumar.
β-caroteno (mg/L) Fumante Não Fumante Total
n % n % n %
Baixo (0 – 0,213) 46 74 120
Normal (0,214 – 1,00) 12 58 70
Total 58 132 190
Fonte: Silmara Silva. Tese de Mestrado/FSP/USP.
b)
Distribuição de gestantes segundo níveis de β -caroteno (mg/L) e hábito de fumar.
β-caroteno (mg/L) Fumante Não Fumante Total
n % n % n %
Baixo (0 – 0,213) 46 74 120
Normal (0,214 – 1,00) 12 58 70
Total 58 132 190
Fonte: Silmara Silva. Tese de Mestrado/FSP/USP.
Exercício S1
Os dados a seguir são relativos ao número de refeições diária de 50 indivíduos.
2 3 2 1 2 6 5 4 3
1 2 2 1 2 5 6 4 3
2 2 3 2 3 4 2 3 2
3 2 3 3 3 4 3 4 5
3 1 4 3 4 4 3
3 1 6 4 4 2 4
Fonte X.
a) Apresente os dados em uma tabela.
b) Interprete a dispersão dos dados.
Exercício S2
Os dados a seguir são provenientes do grupo Western Collaborative Group Study, criado na Califórnia
em 1960-61. Foram estudados 3154 homens de meia idade para investigar a relação entre padrões de
comportamento e risco de doença coronariana. Os dados apresentados são de 40 homens para os
quais foram medidos os níveis de colesterol (mg/100ml) e realizada uma categorização segundo com-
portamento. O comportamento de tipo A é caracterizado pela urgência, agressividade e ambição. O de
tipo B é relaxado, não competitivo e menos preocupado.
Tipo A: nível de colesterol
233 291 312 250 246 197 268 224 239 239
254 276 234 181 248 252 202 218 212 325
a) Quais variáveis que estão sendo estudadas? Identifique a natureza de cada variável.
b) Apure os dados e apresente a variável nível de colesterol em uma tabela bidimensional, con-
siderando os níveis A e B.
c) Classifique a variável nível de colesterol em duas categorias: nível normal (abaixo de 160
mg/100ml) e nível elevado (160 mg/100ml e mais) e faça uma tabela bidimensional cruzando
as variáveis: nível de colesterol (normal e alto) e tipo de comportamento (A e B). Interprete
os resultados.
Exercício S3
Os dados a seguir são provenientes de um estudo realizado com escolares de 7 a 10 anos que partici-
param de um treinamento para melhorar a habilidade dos mesmos em especificar os alimentos con-
sumidos através de um preenchimento de um Diário Alimentar. Foram atribuídos escores antes e após
o treinamento para cada criança participante da pesquisa. Apresente os dados dos escores em três
tabelas separadas e compare os dados da tabela antes e após o treinamento.
Exercício S4
Os dados a seguir são relativos ao peso ao nascer (g) de recém nascidos com síndrome de desconfor-
to idiopático grave. Algumas crianças foram a óbito (*) e outras sobrevieram.
1050* 2500* 1890* 1760 2830
1175* 1030* 1940* 1930 1410
1230* 1100* 2200* 2015 1715
1310* 1185* 2270* 2090 1720
1500* 1225* 2440* 2600 2040
1600* 1262* 2560* 2700 2200
1720* 1295* 2730* 2950 2400
1750* 1300* 1130 2550 3160
1770* 1550* 1575 2570 3400
2275* 1820* 1680 3005 3640
Fonte: Hand DJ et al., 1994.
Exercício S5
A tabela abaixo foi extraída do artigo Tendência secular do peso ao nascer na cidade de São Paulo
(1976-1998) de MONTEIRO CA et al. (Rev. Saúde Pública; 2000:34 (6, supl): 26-40).
Comente os resultados apresentados.
Diagrama de barras
Características: figuras geométricas (barras) separadas e bases de mesmo tamanho. A altura das
barras é proporcional às frequências.
Variável qualitativa
O Inquérito Brasileiro de Nutrição (IBRANUTRI) foi um estudo de pacientes maiores de 18 anos, inter-
nados em hospitais da rede pública, conveniados, filantrópicos e universitários de 12 estados do Brasil
e do Distrito Federal, realizado de maio a novembro de 1996 (in Soares JF, Siqueira AL. Introdução à
Estatística Médica, COOPMED,Belo Horizonte, MG 2002). Os dados da tabela são retirados deste estu-
do.
2000
Número
1500
1000
500
0
Nutrido Desnutrido Sem
diagnóstico
Estado nutricional
2100
2050
2000
Número
1950
1900
1850
1800
Nutrido Desnutrido
Estado nutricional
2500
2000
Número
1500
1000
500
0
Nutrido Desnutrido
Estado nutricional
País
Iugoslávia
Hungria
Rom ênia
País
Portugal
Irlanda
Polônia
Hungria
Iugoslávia Espanha
União Soviética Bulgária
Reino Unido Alem anha Ocidental
Suíça
Áustria
Suécia
Itália
Espanha
Romênia União Soviética
Portugal Noruega
Polônia Holanda
Noruega
Finlândia
Holanda
Checoslováquia
Itália
Grécia Suécia
França Albânia
Finlândia Grécia
Alemanha Ocidental
Dinam arca
Dinamarca
Alem anha Oriental
Checoslováquia
Bulgária
Suíça
Bélgica Bélgica
Áustria Irlanda
Alemanha Oriental Reino Unido
Albânia
França
0 2 4 6 8 10 12 14 16 18 20
Consum o médio per capita (Kg/ano) 0 5 10 15 20
Consum o m édio per capita (kg/ano)
%
60
50
40
30
20
10
0
Nutrido Des nutrido Des nutrido grave
m oderado
Estado nutriciona l
a
excluindo-se 34 (0,9%) de pacientes sem diagnóstico.
Fonte: adaptado de Soares JF, Siqueira AL, 2002.
Distribuição de pacientes segundo estado nutricional. IBRANUTRI, maio a novembro, 1996.
Foi realizada, no período de outubro de 1998 a outubro 1999, a pesquisa “Alimentação no primeiro
ano de vida”, onde se estudou uma coorte de recém-nascidos da maternidade do Hospital Universitá-
rio (HU). Os dados a seguir são parte da caracterização sócio-econômica da amostra estudada.
Distribuição de famílias segundo número de bens* que possuem. Hospital Universitário/USP, São Pau-
lo 1999.
Número de bens n %
0 146 40,6
1 97 26,9
2 87 24,2
3 26 7,2
4 4 1,1
Total 360 100
* automóvel, telefone, TV a cabo e computador
50 %
40
30
20
10
0
0 1 2 3 4
Número de bens
*automóvel, telefone, TV a cabo e computador
Distribuição de famílias segundo número de bens*. Hospital Universitário/USP, São Paulo 1999.
2 3 2 1 2 6 5 4 3
1 2 2 1 2 5 6 4 3
2 2 3 2 3 4 2 3 2
3 2 3 3 3 4 3 4 5
3 1 4 3 4 4 3
3 1 6 4 4 2 4
c) Apresente os dados em um gráfico.
d) Interprete o gráfico.
12,6%
52,0%
35,4%
Diagrama linear
Produção de leite (milhões de toneladas).
Índia e Estados Unidos, 1966 – 2000
Produção de leite (milhões de toneladas). 90
Índia
Índia e Estados Unidos, 1966 – 2000. 80 Estados Unidos
Ano Índia Estados Unidos 70
Milhoes de toneladas
1966 20 58 60
50
1970 23 56
40
1980 29 60
30
1990 50 70 20
2000 80 75 10
0
1960 1965 1970 1975 1980 1985 1990 1995 2000 2005
Fonte: State of the World, 2001.
Ano
Os dados são referentes a produção (kg) de carne de peixes e de carne vermelha e de carneiro por
pessoa, no mundo, no período de 1950 a 2000.
Ano Pesca oceânica Carne vermelha e
(kg) de carneiro (kg)
1950 7,9 9,0
1960 12,0 10,0
1970 16,1 12,0
1980 15,5 11,9
1990 16,3 12,0
2000 15,0 11,7
Fonte: State of the World, 2001. The Worldwatch Institute.
Histograma
35 %
30
25
20
15
10
5
0
1000 1500 2000 2500 3000 3500 4000
Peso ao nascer (g)
0,030
0,025
número/g
0,020
0,015
0,010
0,005
0
1000 1500 2000 2500 3000 3500 4000
OBS: notar que com intervalos iguais, não é necessário fazer ajuste na altura dos retângulos dado
que as bases são de mesmo tamanho (mesma amplitude) e, portanto, com proporcionalidade asse-
gurada.
Exemplo 9
Os dados são referentes à distribuição de pacientes segundo taxa de albumina no sangue (g/dL).
Taxa de albumina (g/dL) No %
4,40|-4,60 6 10,0
4,60|-4,80 11 18,3
4,80|-5,00 14 23,3
5,00|-5,20 18 30,0
5,20|-5,40 8 13,3
5,40|-5,60 2 3,3
5,60|-5,80 0 -
5,80|-6,00 1 1,7
Total 60 100
Fonte: Soares JF, Siqueira AL. COOPMED, 2002.
Cuidado: Sem fazer o ajuste, o gráfico fica errado e pode levar a conclusões incorretas.
%
50
45
40
35
30
25
20
15
10
5
0
140 150 160 170 180
Altura (cm)
Gráfico correto, com o ajuste para intervalos de classe com amplitudes diferentes.
Mulheres/cm
25
20
15
10
0
140 145 150 155 160 165 170 175 180
altura (cm)
16 Número
14
12
10
8
6
4
2
0
0 500 1000 1500 2000 2500 3000 3500 4000 4500
peso (g)
Os dados a seguir são referentes à distribuição de usuárias do Serviço de Saúde X segundo idade
(anos). Município de São Paulo, 2009.
Idade (anos) n %
15|-- 20 14 19,5
20|-- 25 24 33,3
25|-- 30 16 22,2
30|-- 35 9 12,5
35|-- 40 8 11,1
40|--45 1 1,4
Total 72 100
Fonte: Dados hipotéticos.
a) Apresente a variável em um polígono de frequências simples.
b) Interprete os resultados.
25
20
núm er o de p ess oa s/cm
15
10
0
1 30 1 35 140 14 5 1 50 1 55 160 16 5 1 70 175 180 18 5 1 90
Altu ra (c m)
100 % acumulado
80
60
40
20
0
140 145 150 155 160 165 170 175 180
altura (cm)
Os dados a seguir são medidas de circunferência do tórax (polegadas) de 5732 soldados escoceses
apresentados pelo matemático belga Adolphe Quetelet (1796–1874).
Medida (polegada) número % % acumulada
33,0 |– 34,0 3
34,0 |– 35,0 19
35,0 |– 36,0 81
36,0 |– 37,0 189
37,0 |– 38,0 409
38,0 |– 39,0 753
39,0 |– 40,0 1062
40,0 |– 41,0 1082
41,0 |– 42,0 935
42,0 |– 43,0 646
43,0 |– 44,0 313
44,0 |– 45,0 168
45,0 |– 46,0 50
46,0 |– 47,0 18
47,0 |– 48,0 3
48,0 |– 49,0 1
Total 5732
Fonte: Daly F et al. Elements of Statistics, 1999.
200 12 e +
150
100
50
0
Pequena Intermediária Grande
medida do tríceps
Fonte: Hand DJ et al. A handbook of small data sets. Chapman&Hall, 1994.
Distribuição de mulheres segundo idade da menarca e medida do tríceps. Trinidade e Toba-
go,1985.
% <12
100
80
12 e +
60
40
20
0
Pequena Intermediária Grande
Medida do tríceps
200
Pequena
150 Intermediária
Grande
100
50
0
<12 12 e +
idade
Idade da menarca
Exemplo 14
A tabela apresenta dados de classificação de pessoas segundo doença coronariana (CHD) segundo
hábito de consumo de café para uma coorte de 1718 homens com idade 40-55 anos.
Histograma
Polígono de frequências
45 %
40 Sobrevivente
35 Não sobrev.
30
25
20
15
10
5
0
0 500 1000 1500 2000 2500 3000 3500 4000 4500
peso ao nascer (g)
Diagrama de barras
Distribuição de recém-nascidos acometidos de síndrome de desconforto idiopático grave segundo
peso ao nascer (g) e condição do recém-nascido.
Peso(g) Sobrevivente Não sobrevivente Total
no % no % no %
1000 |-- 1500 2 15 11 85 13 100
1500 |-- 2000 6 40 9 60 15 100
2000 |-- 2500 5 56 4 44 9 100
2500 |-- 3000 6 67 3 33 9 100
3000 |-- 3500 3 100 0 - 3 100
3500 |-- 4000 1 100 0 - 1 100
Total 23 46 27 54 50 100
Fonte: Hand DJ et al. A handbook of small data sets. Chapman&Hall, 1994.
100
Não sobrevivente
80
60
40
20
0
1000 |--1500 1500 |--2000 2000 |--2500 2500 |--3000 3000 |--3500 3500 |--4000
peso (g)
60
40
20
0
1000 1500 2000 2500 3000 3500 4000
peso (g)
Fonte: Hand DJ et al. A handbook of small data sets. Chapman&Hall, 1994.
Distribuição de recém-nascidos acometidos de síndrome de desconforto idiopático grave segundo
peso ao nascer (g) e condição do recém-nascido.
Exemplo 15
Utilize os dados da tabela e apresente-os graficamente.
Distribuição de escolares de 7 a 10 anos segundo peso e sexo. Duas escolas do Município de São Pau-
lo, 2005.
Peso (kg) Sexo
Masculino Feminino
15,0 |-- 25,0 52 68
25,0 |-- 35,0 146 132
35,0 |-- 45,0 59 53
45,0 |-- 55,0 11 18
55,0 |-- 65,0 10 2
65,0 |-- 75,0 3 1
75,0 |-- 85,0 0 0
85,0 |-- 95,0 0 1
Total 281 275
Fonte: Koga CR. Estado nutricional de escolares de 7 a 10 anos de idade: diagnóstico e comparação
de métodos. São Paulo; 2005. [Dissertação de Mestrado-Faculdade de Saúde Pública da Universidade
de São Paulo/USP].
350
Sobrepeso
300
Obeso
250
Número
200
150
100
50
0
2000 2002
Ano
Sobrepeso
1000
Obeso
100
Número
10
1
2000 2002
Ano
150 Doença X
Doença Y
100
Coeficiente
50
0
1990 1991 1992 1993 1994 1995
Ano
1000 Doença X
Doença Y
Coeficiente
100
10
1
1990 1991 1992 1993 1994 1995
Ano
Fonte: dados hipotéticos.
Coeficiente de mortalidade pela doença X e Y (100.000 hab.). Determinada localidade, 1990 - 1995.
Exemplo 17
Os dados a seguir são referentes à mortalidade por câncer de esôfago, segundo sexo, no município de
São Paulo no período de 1968-1998.
Coeficientes de mortalidade por câncer de esôfago (por 100.000 hab.).
Município de São Paulo, 1968-1998.
Ano Masculino Feminino
1968 8,81 2,00
1973 12,38 2,61
1978 10,93 1,98
1983 9,41 2,00
1988 8,60 1,67
1993 8,33 1,27
1998 8,37 1,12
Fonte: Incidência de câncer no Município de São Paulo, 1997-1998. Registro de Câncer de São Paulo.
FSP/USP.
a) Represente os coeficientes de mortalidade por câncer de esôfago para o sexo masculino e feminino
em um único gráfico, utilizando escala aritmética.
b) Represente os coeficientes de mortalidade por câncer de esôfago para o sexo masculino e feminino
em um único gráfico utilizando escala logarítmica.
c) Comente os gráficos dos itens a e b. Qual a melhor representação para os dados?
Exercícios suplementares
Exercício S6
Apresente a variável peso ao nascer graficamente utilizando a variável definida em duas categorias,
conforme tabela abaixo.
Distribuição de recém-nascidos acometidos de síndrome de desconforto idiopático grave segundo
peso ao nascer (g). Austrália, 1993.
Peso(g) No %
Baixo peso (<2500 g) 37 74,0
Não baixo peso (2500 g e mais) 13 26,0
Total 50 100
Fonte: Hand DJ et al. A handbook of small data sets. Chapman&Hall, 1994.
Exercício S8
Média aritmética
Notação:
X → variável
N → tamanho da população
n → tamanho da amostra
X → Estatística (fórmula)
Média aritmética é o valor que indica o centro de equilíbrio de uma distribuição de frequências de uma
variável quantitativa.
Definição: é a soma dos valores de uma variável, dividida pelo número de valores.
Em uma amostra aleatória simples de tamanho n, composta das observações x1, x2, ..., xn, a média
aritmética ( x ) é igual a:
n
x + x 2 + ... + x n ∑x i
x= 1 = i =1
n n
OBS:
• só existe para variáveis quantitativas e seu valor é único;
Colesterol médio:
xB =
O nível médio de colesterol dos homens do grupo A é 245,1 mg/100ml e do tipo B _____________.
Exemplo 18
Os dados a seguir são provenientes de um estudo que avaliou o consumo alimentar de crianças de 7
a 10 anos de uma escola pública do município de São Paulo no ano de 2008. Os dados apresentados
são de 15 meninos e 10 meninas para os quais foram investigados o consumo em energia (Kcal) de
um dia alimentar. Calcule a média aritmética do consumo de energia para cada sexo:
Meninos
1976 3234 1405 1410 1782 2167 1917 2622 1824 3912
1412 1635 2230 1241 1866
x Meninos =
Meninas
2002 2964 2203 1478 1151 1083 1362 1392 1637 1628
x Meninas =
Mediana
É o valor que ocupa a posição central de uma série de n observações, quando estas estão ordenadas
de forma crescente ou decrescente.
Ex:
Ordenando-se os valores:
Tipo A: nível de colesterol
181 202 218 233 239 246 250 254 276 312
197 212 224 234 239 248 252 268 291 325
Ordenando-se os valores:
Mediana:
Exemplo 19
Com os dados do exemplo 18, calcule a quantidade mediana de energia para os meninos e para as
meninas:
Meninos
Mediana=
Meninas
Medidas de dispersão
Variância: indica o quanto, em média, os quadrados dos desvios de cada observação em relação à
média aritmética estão afastados desta média.
∑(X i − X )2
S (2N ) = i =1
ou
2 N
Populacional Parâmetro σ estimador : N
∑(X i − X )2
S (2N −1) = i =1
N −1
σ = σ2
Desvio padrão: é a raiz quadrada da variância , ou seja
S = S2
Coeficiente de Variação de Pearson (CV):
S
é o quociente entre o desvio padrão e a média, ou seja CV = x100
X
Ex e m pl o :
36,64
Coeficiente de Variação de Pearson CV = x100 = 15%
245,05
Exemplo 20
Meninos
Meninas
¼ ½ ¾
25% 25% 25% 25%
Os dados abaixo são referentes ao peso ao nascer de 50 recém-nascidos que tiveram síndrome de
desconforto respiratório idiopático grave.
23 crianças sobreviveram e 27 foram a óbito (*).
1.050* 2.500* 1.890* 1.760 2.830
1.175* 1.030* 1.940* 1.930 1.410
1.230* 1.100* 2.200* 2.015 1.715
1.310* 1.185* 2.270* 2.090 1.720
1.500* 1.225* 2.440* 2.600 2.040
1.600* 1.262* 2.560* 2.700 2.200
1.720* 1.295* 2.730* 2.950 2.400
1.750* 1.300* 1.130 2.550 3.160
1.770* 1.550* 1.575 2.570 3.400
2.275* 1.820* 1.680 3.005 3.640
Fonte: van Vliet PK; Gupta JM. Sodium bicabornate in idiopatic respiratory distress syndrome. Arch.
Diseases in Childhood,1973:48, 249-255.
Q2 = x 1 = x12 = 2200g
( ( 23+1))
2
Entre os recém-nascidos que foram a óbito
Q1 = x 1 = x7 = 1230g ; Q3 = x 3 = x21 = 2200g
( ( 27+1)) ( ( 27 +1))
4 4
Q2 = x 1 = x14 = 1600 g
( ( 27 +1))
2
Percentil
Valores da variável que dividem a distribuição em cem partes iguais.
Percentil 5:
P5 = x 5 = x 120 = x 1
( ( 23+1)) ( ) (1 )
100 100 5
O Box plot representa graficamente dados de forma resumida em um retângulo onde as linhas da
base e do topo são o primeiro e o terceiro quartis, respectivamente. A linha entre estas é a mediana.
Linhas verticais que iniciam no meio da base e do topo do retângulo, terminam em valores
denominados adjacentes inferior e superior (Chambers et al., 1983, pag 60).
O valor adjacente superior é o maior valor das observações que é menor ou igual a Q3+1,5(Q3-Q1).
O valor adjacente inferior é definido como o menor valor que é maior ou igual a Q1-1,5(Q3-Q1),
sendo a diferença Q3-Q1 denominada intervalo inter-quartil (IIQ).
Valores outliers (discrepantes ou aberrantes) são valores que “fogem” da distribuição dos dados. O
box plot além de apresentar a dispersão dos dados torna-se útil também para identificar a ocorrência
destes valores como sendo os que caem fora dos limites estabelecidos pelos valores adjacentes supe-
rior e inferior.
Exemplo:
Tipo A: nível de colesterol
181 202 218 233 239 246 250 254 276 312
197 212 224 234 239 248 252 268 291 325
Tipo A:
n=20;
1
Q1 = x 1 = x 21 = x 1 = 218 + (224 − 218) = 218 + 1,5 = 219,5
4
( n +1)
4
5
4
4
3
Q3 = x 3 = x3 =x 3 = 254 + (268 − 254) = 254 + 10,5 = 264,5
4
( n +1)
4
( 21) 15
4
4
325 é o valor adjacente superior. Este é o maior valor da distribuição, igual ou abaixo de 332, onde
332 é dado por: 264,5 + 1,5 x 45 = 332 .
181 é o valor adjacente inferior. É o menor valor da distribuição, igual ou acima de 152, onde 152 é
dado por: 219,5 − 1,5 x 45 = 152 .
Tipo B
n=20
1
Q1 = x 1 = x 21 = x 1 = 175 + (183 − 175) = 175 + 2 = 177
4
( n +1)
4
5
4
4
3
Q3 = x 3 = x3 =x 3 = 242 + (246 − 242) = 242 + 3 = 245
4
( n +1)
4
( 21) 15
4
4
344 é o valor adjacente superior. Este é o maior valor da distribuição, igual ou abaixo de 347, onde
347 é dado por: 245 + 1,5 x 68 = 347 .
137 é o valor adjacente inferior. É o menor valor da distribuição, igual ou acima de 75, onde 75 é
dado por: 177 − 1,5 x68 = 75 .
380
360
340
320
300
280
260
240
220
200
180
160
140
120
A B
Fonte: Fonte: Hand DJ et alli. A handbook of small data sets. Chapman&Hall, 1994.
Gráfico - Box plot da variável nível de colesterol segundo tipo de personalidade.
Exemplo 21
Os dados a seguir são de uma pesquisa que investigou as concentrações de minerais no leite mater-
no, no período de 1984 a 1985. Foram coletadas amostras de leite materno de 55 mulheres que tive-
ram seus filhos no Hospital Maternidade Odete Valadares, em Belo Horizonte. As mães foram divididas
em período de lactação: colostro e leite maduro.
cálcio (µg/mL de leite) – grupo colostro
113 181 254 311 334 145 221 256 312 344
163 225 275 313 372 163 231 296 323 375
167 241 303 325 375 437
cálcio (µg/mL de leite) – grupo maduro
159 175 181 188 200 206 213 214 217 231
238 238 242 244 256 259 260 263 264 275
277 279 281 293 302 303 314 344 394
Exercícios suplementares
Exercício S11
Os dados a seguir são provenientes de um estudo que avalia o crescimento de crianças de 7 a 10
anos de uma escola pública do município de São Paulo no ano de 2008. Os dados apresentados são
de 16 meninos e 16 meninas para os quais foram aferidos a circunferência do braço (CB) (cm):
Meninos
18,3 19,3 20,9 19,0 20,5 16,3 21,0 17,8 21,6 22,6
27,3 26,7 29,0 22,0 25,2 19,5
Meninas
21,5 16,1 18,6 19,9 17,9 23,7 20,0 19,4 23,5 18,0
23,0 17,9 20,3 23,1 17,8 18,2
Exercício S12
Os dados a seguir são provenientes de um estudo que avaliou o nível de colesterol sanguíneo (mg/dl)
de 100 homens.
id colesterol id colesterol id colesterol id colesterol
1 134 26 189 51 216 76 239
2 147 27 189 52 217 77 239
3 157 28 190 53 217 78 240
4 161 29 190 54 218 79 240
5 162 30 192 55 218 80 240
6 164 31 194 56 219 81 243
7 165 32 195 57 219 82 246
8 166 33 196 58 219 83 248
9 171 34 198 59 221 84 251
10 173 35 199 60 221 85 255
11 176 36 199 61 223 86 255
12 176 37 199 62 223 87 256
13 178 38 201 63 224 88 259
14 179 39 203 64 225 89 261
15 179 40 204 65 228 90 267
16 180 41 205 66 230 91 268
17 181 42 206 67 230 92 272
18 181 43 209 68 231 93 279
19 183 44 210 69 231 94 286
20 184 45 211 70 231 95 287
21 185 46 211 71 232 96 289
22 186 47 212 72 234 97 290
23 186 48 213 73 234 98 296
24 186 49 215 74 238 99 298
25 187 50 216 75 238 100 382
Análise simultânea entre duas variáveis quantitativas (associação entre duas variáveis quantitativas).
Gráfico de dispersão: deve ser feito antes da análise numérica dos dados.
É construído com conjuntos de pontos formados por pares de valores (x,y). Pode indicar correlação
linear positiva, negativa ou inexistência de correlação. Também é útil para identificar existência de
valores aberrantes.
correlação positiva
correlação negativa
45
40
35
CMI (por 1000 nv)
30
25
20
15
10
5
0
66 68 70 72 74 76
Esperança de vida ao nascer
correlação inexistente
Distinção entre associação e causação: duas variáveis podem estar associadas mas uma não será
necessariamente a causa da outra.
σ XY
ρ=
Definição:
σ X σY , onde
Covariância: É o valor médio do produto dos desvios de X e Y, em relação às suas respectivas médias.
_
_
∑ X i − X Yi − Y
σ XY =
N
_
_
∑ i i
x − x y − y
estimador (r) r=
_ 2
_ 2
∑ x i − x ∑ y i − y
Propriedades
a) − 1 ≤ ρ ≤ +1 ;
b) ρ não possui dimensão, isto é, não depende da unidade de medida das variáveis X e Y ;
c) ρ XY = ρYX .
Exemplo:
Os dados a seguir são provenientes de um estudo que investiga a composição corporal e fornece o
percentual de gordura corporal (%), idade e sexo para 18 adultos com idades entre 23 e 61 anos.
a) Qual a relação entre a idade e o % de gordura? Existe alguma evidência de que a relação é
diferente entre pessoas do sexo masculino e feminino? Explore os dados graficamente.
b) Calcule o coeficiente de correlação de Pearson entre a idade e o % de gordura para homens e
mulheres. Interprete os resultados.
M=masculino ; F= feminino
Fonte: Hand DJ et al. A handbook of small data sets. Chapman&Hall, 1994.
Dispersão entre % de gordura e idade
70
f f
f ff f
60
f f f
50 f f
m
idade
f
40 f
30
m m
m f
20
5 10 15 20 25 30 35 40 45
gordura
236,45
Coeficiente de correlação (idade,%gordura) masculino:
r= = 0,89
291x 242,13
333,64
Coeficiente de correlação (idade,%gordura) feminino:
r= = 0,51 ;
1389,71x312,12
Idade % gordura
(X) (Y) (x − x) ( y − y) ( x − x )( y − y ) (x − x)2 ( y − y)2
23 9,5 -23,33 -19,11 445,93 544,44 365,23
27 7,8 -19,33 -20,81 402,35 373,78 433,10
27 17,8 -19,33 -10,81 209,01 373,78 116,88
45 27,4 -1,33 -1,21 1,61 1,78 1,47
23 27,9 -23,33 -0,71 16,59 544,44 0,51
39 31,4 -7,33 2,79 -20,45 53,78 7,78
41 25,9 -5,33 -2,71 14,46 28,44 7,35
49 25,2 2,67 -3,41 -9,10 7,11 11,64
50 31,1 3,67 2,49 9,13 13,44 6,19
53 34,7 6,67 6,09 40,59 44,44 37,07
53 42 6,67 13,39 89,26 44,44 179,26
54 29,1 7,67 0,49 3,75 58,78 0,24
56 32,5 9,67 3,89 37,59 93,44 15,12
57 30,3 10,67 1,69 18,01 113,78 2,85
58 33 11,67 4,39 51,20 136,11 19,26
58 33,8 11,67 5,19 60,54 136,11 26,92
60 41,1 13,67 12,49 170,68 186,78 155,97
61 34,5 14,67 5,89 86,37 215,11 34,68
Soma 1627,53 2970,00 1421,54
x = 46,33 ; y = 28,61 ; Sy =
∑ ( y − y) 2
=
1421,54
= 9,14% ; S X =
∑(x − x) 2
=
2970,0
= 13,22anos
n −1 17 n −1 17
REGRESSÃO LINEAR
x = valor escolhido de X.
a = 28,61 – b 46,33 ;
9,14
b = 0,79 x = 0,548
13,22
Com base nesta equação é possível traçar a reta que passa pelos pontos.
30
20
10
0
0 20 40 60
idade (anos)
- Predição - utilizar X para predizer Y; quando a correlação for forte, melhor é a predição;
- Correlação – mede o grau de relacionamento linear entre X e Y;
- Resumir os dados – cada valor de X tem um valor médio de Y.
Exemplo:
Em um estudo sobre o efeito dos componentes de uma dieta (X) sobre a composição lipídica (Y) fo-
ram obtidos os seguintes dados em uma amostra de 15 animais.
Componente da dieta (X) Composição lipídica (Y)
18 30
21 35
28 43
35 60
47 50
33 28
40 40
41 60
28 43
21 30
30 33
46 65
44 68
38 62
19 25
Fonte:X.
a) Apresente os dados em um diagrama de dispersão.
b) Calcule o coeficiente de correlação de Pearson entre X e Y.
c) Calcule a reta de regressão da composição lipídica como função do componente da dieta.
d) Desenhe a reta de regressão.
e) Interprete os coeficientes da reta de regressão.
Medidas de Associação
ESTUDO DE PREVALÊNCIA
São apresentados dados sobre o estado nutricional de 1226 crianças brasileiras de 2 anos de idade,
segundo sexo. Local X, Ano Y.
Estado nutricional Masculino Feminino Total
Desnutridas 29 20 49
Normais 574 603 1177
Total 603 623 1226
Fonte: dados hipotéticos.
49
Prevalência de desnutrição: = 0,040 ou 4%.
1226
Prevalência de desnutrição segundo sexo:
29 20
Masculino: = 0,05 ou 5,0%; Feminino: = 0,032 ou 3,2%.
603 623
29
Razão de prevalências: 603 = 1,5
20
623
Diferença de prevalências: 0,05-0,032=0,018 ou 1,8%.
A prevalência de desnutrição entre meninos é 1,5 vezes (uma vez e meia) a prevalência de desnutri-
ção entre meninas.
Também é possível dizer que a prevalência de desnutrição entre meninos é 50% maior que a preva-
lência entre meninas, calculado como (1,5-1)x100.
Para a diferença de prevalências diz que a prevalência entre meninos excede a de meninas em 1,8%
ou que a diferença entre as prevalências é de 1,8%.
Se a razão de prevalências for igual a 1 ou a diferenças de prevalências for igual a 0 então diz-se que
as variáveis não estão associadas.
De forma geral
Y: variável resposta (Ex: desnutrição)
X: variável explicativa ou de confusão (Ex: sexo)
Variável Y
Variável X Y1 Y0 Total (%)
X1 a B n1 (100
X0 c D n0 (100
Total m1 m2 n (100)
Exemplo 22
a) Calcule a prevalência de obesidade entre pessoas que consomem chocolate até 1 vez por
mês.
b) Calcule a prevalência de obesidade entre pessoas que consomem chocolate mais de uma vez
por semana.
c) Calcule a razão de prevalências.
d) Interprete a razão de prevalências. Você diria que a obesidade está associada ao consumo de
chocolate? Justifique.
Distribuição de pessoas segundo hábito de fumar e morte em 5 anos por DIC. Local X. Ano Y
Morte em 5 anos por DIC
Fumar Sim Não Total
Sim 208 850 1058
Não 264 1467 1731
Total 472 2317 2789
Fonte: dados hipotéticos.
r0=264/1731= 0,15=15%
rr=0,20/0,15= 1,33
A incidência de mortes parece ser maior entre as pessoas que fumam. Os fumantes apresentam uma
incidência 33% maior do que os não fumantes.
Os óbitos são 1,33 vezes mais incidentes entre fumantes do que entre não fumantes.
Também é possível dizer que os óbitos são 33% maiores entre fumantes.
Pela diferença diz-se que 5% dos óbitos excedentes são devidos ao fumo.
De forma geral
Y: variável resposta
X: variável explicativa ou de confusão
Variável Y
Variável X Y1 Y0 Total (%)
X1 A B n1 (100
X0 C D n0 (100
Total M1 m2 n (100)
incidência risco
r1 r0 r1/r0 r1-r0
ri=rr=razão de riscos=risco relativo=r1/r0
di= ra= risco atribuível= r1-r0
Exemplo
Investigação de toxinfecção alimentar
Toxiinfecção
Tomou sorvete de baunilha Sim Não Total (%)
Sim 43 11 54 (100)
Não 3 18 21 (100)
Total 46 29 75 (100)
Fonte:Epi Info, 2000.
r1= incidência entre quem tomou sorvete= taxa de ataque1= 43/54= 0,80
r0= incidência entre quem não tomou sorvete= taxa de ataque0= 3/21= 0,14
43 3 43x 21
rr= risco relativo= : = = 5,6
54 21 3x54
Odds ratio
Odds e probabilidade
Supor que durante um jogo de basquete um jogador acerta a cesta 2 vezes em 5 tentativas.
2
Chamando p̂ ( p chapéu) de probabilidade de acerto tem-se que pˆ = = 0,4 ou 40% e a probabili-
5
3
dade de erro, qˆ = = 0,6 ou 60%.
5
Odds ratio
Os dados a seguir são de um estudo sobre câncer de esôfago e consumo de álcool. Local X. Ano Y.
Condição Consumo médio de álcool (g/dia) Total
80 e + 0-79
Casos 96 104 200
Controles 109 666 775
Total 205 770 975
Fonte: Tuyns et al.,1977.
96 109 96
(entre expostos) odds a favor de casos entre consumidores de 80 e + g/dia: : = = 0,88
205 205 109
(entre não expostos) odds a favor de casos entre consumidores de 0-79g/dia: 104 : 666 = 104 = 0,16
770 770 666
96 104 96 x 666
odds ratio: : = = 5,6
109 666 109 x104
Em casos especiais, o odds ratio pode ser um bom estimador do risco (quando a doença de estudo é
rara).
De forma geral
Y: variável resposta
X: variável explicativa ou de confusão
Variável Y
Variável X Y1 Y0 Total (%)
X1 a B n1 (100
X0 c D n0 (100
Total m1 m2 n (100)
odds a favor de Y1:
na categoria X1= (a/n1)÷(b/n1)
na categoria X0= (c/n0)÷(d/n0)
a
ad
odds ratio: [(a/n1)÷(b/n1)]÷[(c/n0)÷(d/n0)]= b =
c bc
d
QUI-QUADRADO DE PEARSON
Os exemplos são retirados de BUSSAB, Wilson de O; MORETTIN, Pedro A. Estatística básica. 5ª Ed.
São Paulo: Saraiva, 2004.
X - curso universitário e
Y – sexo do aluno
Situação 1
Curso Masculino Feminino Total
n n n
Economia 24 36 60
Administração 16 24 40
Total 40 60 100
Definição de independência:
A – Ser do sexo masculino;
B – Estar cursando economia.
24
P(A e B) = = 0,24
100
24 40 60
Como = x , então A e B são independentes e portanto não existe associação.
100 100 100
Situação 2
A distribuição de alunos em cada curso, segundo sexo não é a mesma, sexo e curso podem estar
associados.
Se a variável sexo não fosse associada à escolha do curso, quantos indivíduos espera-se em Física,
entre os homens?
Aplicar a proporção marginal utilizando o raciocínio da regra de três: 120 está para 200 assim como x
120 x 120 x140
estará para 140; ou seja: = e x=
200 140 200
(O − E ) 2
χ =∑
2
E
Se o Qui-quadrado for igual a zero, então não existe associação entre as variáveis.
Exemplo:
Distribuição de recém-nascidos acometidos de síndrome de desconforto idiopático grave segundo
condição de sobrevivência e peso ao nascer (g).
Exemplo 25
A tabela abaixo apresenta dados de classificação de pessoas segundo doença isquêmica coronariana
(DIC) e hábito de consumo de café, para uma coorte de 1718 homens com idade 40-55 anos.
Distribuição de homens segundo presença de doença isquêmica coronariana (DIC) e consumo de café.
Local X. Ano y.
Condição Consumo médio de café Total
Alto ( ≥ 100 xícaras/mês) Moderado (<100 xícaras/mês)
Com DIC 38 39 77
Sem DIC 752 889 1641
Total 790 928 1718
Fonte: X.
a) calcule a incidência de doença isquêmica coronariana entre as pessoas com alto consumo de
café.
b) calcule a incidência de doença isquêmica coronariana entre as pessoas com consumo mode-
rado de café.
c) calcule a razão de incidências.
d) calcule a diferença de incidências.
e) Interprete os resultados.
f) Calcule o qui-quadrado de Pearson.
EXERCÍCIOS SUPLEMENTARES
Exercício S14
Com base nos dados da tabela calcule:
a) a incidência de toxinfecção, dado que o indivíduo consumiu presunto cozido.
b) a incidência de toiinfecção, dado que o indivíduo não consumiu presunto cozido.
c) a razão de incidências.
d) a diferença de incidências.
e) discuta os resultados.
Distribuição de indivíduos segundo ocorrência de toxiinfecção e consumo de presunto cozido. Local X.
Ano Y
Toxiinfecção
Presunto cozido sim (taxa de ataque %) não Total
Sim 29 (0,63) 17 46
Não 17 (0,59) 12 29
Total 46 (0,61) 29 75
RR 1,1
Fonte: Epi-Info 2000.
Exercício S16
A tabela abaixo apresenta o número de crianças classificados segundo nível de retinol sérico e sexo.
Calcule a prevalência de nível inadequado de retinol para crianças de cada um dos sexos. Calcule a
razão de prevalências. Calcule o qui-quadrado. Interprete os resultados.
Distribuição de crianças segundo sexo e nível de retinol sérico. Cansação, Bahia, 1992
Sexo Nível de retinol
Aceitável Inadequado Total
Masculino 50 40 90
Feminino 39 32 71
Total 89 72 161
Fonte: Prado MS et al. ,Revista de Saúde Pública, 29(4)295 – 300, 1995.
Exercício S17
Os dados a seguir são de pesquisa que estuda a associação entre amamentação ao seio e Diabetes
Mellitus tipo I . Local X. Ano Y.
Amamentação ao Casos Controles Total
seio
Não 35 17 52
Sim 311 329 640
Total 346 346 692
Fonte: Gimeno SGA. Consumo de leite e o Diabetes Mellitus insulino-dependente:um estudo
caso-controle. Tese de doutorado, 1996.
numero de elementos de A 1
P( A) = = = 0,5
numero de elementos de S 2
13 1
Exemplo: probabilidade de (ouros) = =
52 4
Exemplo:
A = {cara} ; B= {coroa}, no lançamento de uma moeda;
A = {carta com naipe vermelho}; B={carta com naipe preto}, na retirada de uma carta de baralho.
Exemplo: P(naipe vermelho ou ás) = P(naipe vermelho) + P(ás) – P(naipe vermelho e ás) = (26/52)
+ (4/52) – (2/52) = 28/52 = 0,538.
Exemplo:
P(Face 2 ou Face 3) no lançamento de um dado
P(2 ou 3)= P(2)+P(3)= 1/6 + 1/6 = 2/6 = 1/3.
Exemplo: no lançamento simultâneo de duas moedas, o resultado de uma não interfere no resultado
da outra.
• P(face 2 no primeiro dado e face 3 no segundo dado), no lançamento sequencial de dois dados =
P(2 e 3) = P(2)xP(3)= 1/6 x 1/6= 1/36= 0,0278= 2,78%.
Probabilidade condicional
Exemplo:
Probabilidade de rei dado que ocorreu figura:
P(r|figura)= P(r e figura)/P(figura)= 4/52 ÷ 12/52= 4/12= 1/3
Regra da multiplicação
P( A ∩ B) = P( A | B) xP( B)
se A e B forem independentes, P(A|B) = P(A) e como consequência, P( A ∩ B) = P( A) xP( B)
Exemplo
Considerar uma população de homens que foram classificados segundo o hábito de fumar e doença
respiratória crônica. Nesta população sabe-se que 5% dos homens têm doença respiratória e são não
fumantes, 15% têm doença e são fumantes, 50% não têm doença e são não fumantes e 30% não
têm a doença e são fumantes.
Escolhe-se um homem ao acaso, qual a probabilidade dele ter doença respiratória dado que era fu-
mante?
P( R ∩ S )
P( R | S ) = = 0,15/0,45 = 0,33
P(S )
Os eventos não são independentes porque P ( S R ) ≠ P ( S ) xP ( R )
Os eventos mutuamente exclusivos A e B satisfazem a condição que P(A e B) = 0, então dois eventos
mutuamente exclusivos A e B são não independentes a menos que P(A)=0 ou P(B)=0. Caso contrário,
eles são claramente dependentes pois P(A)P(B)>0 se ambos P(A)>0 e P(B)>0, portanto
P ( A ∩ B ) ≠ P ( A) P ( B ) porque P ( A ∩ B ) = 0 .
Assim, dois eventos mutuamente exclusivos A e B são dependentes exceto nos casos onde P(A)=0 ou
P(B)=0.
Variável aleatória é qualquer função de número real, definida no espaço amostral e existe associado a
este número uma probabilidade de ocorrência.
Exemplo:
No lançamento de 1 moeda, o número de caras é uma variável aleatória. Se esta variável for denomi-
nada X, tem-se que os valores possíveis para X são 0 e 1. Assim escreve-se X:0,1.
O conjunto de valores da variável aleatória e das probabilidades obtidas define uma distribuição de
probabilidades. Se X assume valores inteiros, a variável é denominada discreta. Se X assume valo-
res no conjunto dos números reais, a variável é denominada contínua.
Distribuição de probabilidades
Exemplo:
Joga-se uma moeda uma vez. A moeda é equilibrada, ou seja, os lados possuem peso igual, não favo-
recendo nenhum dos lados, ao ser lançada.
Define-se a variável aleatória X que assume valor 1 se ocorrer sucesso e 0 se ocorrer fracasso. X: 0,1
Graficamente:
1 p(x)
0,8
0,6
0,4
0,2
0
0 1 x
p=0,5
Exemplo:
Uma droga cura 15% dos pacientes. Administra-se a droga a um paciente. Qual a probabilidade do
paciente ficar curado? Qual a probabilidade do paciente não ficar curado?
X: 0,1 (X será 0 se o paciente não se curar e 1 se houver cura)
1 p(x)
0,8
0,6
0,4
0,2
0
0 1 x
p=0,15
A distribuição de Bernoulli pode ser escrita como P(X=1) = p(1)=p e P(X=0) =p(0) =1-p; ou, de for-
ma mais genérica:
σ 2 = V(X ) = E[(X − µ) 2 ] = ∑ ( x − µ) 2 p( x )
x
(0 − p) 2 .p( x = 0) + (1 − p) 2 .p( x = 1) =
( − p ) 2 .(1 − p ) + (1 − p ) 2 p = p (1 − p )[ p + (1 − p )] = pq
Resumindo,
Modelo de probabilidade Bernoulli
Uma variável aleatória discreta X que pode assumir valores 0 e 1, com função de probabilidade dada
x 1− x
por p ( x ) = p (1 − p ) com x=0,1
segue uma distribuição Bernoulli com parâmetro p , 0<p<1.
p é a probabilidade de obter o resultado X=1. Isto pode ser escrito como X~Bernoulli(p) com média p
População: 2 categorias
Ex: sexo (masculino, feminino),
faces de uma moeda (cara, coroa),
desfecho de um tratamento (cura, não cura)
Realiza-se o experimento n vezes, onde cada ensaio é independente do outro e os resultados são
mutuamente exclusivos.
Resumindo
Modelo de probabilidade Binomial
Exemplo
Lançamento de moedas.
• n= número de ensaios (nº de lançamentos)= 10;
• X= variável aleatória (nº de caras);
• x= resultado particular de X (0, 1, 2, ...,10);
• p= probabilidade de ocorrer cara (sucesso); p=P(cara)= 0,5.
n
P( X = x) = p x (1 − p ) n − x
x
Distribuição de probabilidade B(n=10; p=0,5)
Média = np = 10x0,5 = 5.
npq npq pq
Desvio padrão = = = = 0,158
n n2 n
Exemplo 26
Um programa de incentivo à amamentação exclusiva ao seio nos primeiros 3 meses está sendo execu-
tado em um hospital universitário. Verificou-se que a eficácia do programa era de π= 60%.
Para uma amostra de 20 mães que deram à luz neste hospital, a distribuição de probabilidade da vari-
ável aleatória número de mães amamentando exclusivamente ao seio é a seguinte:
X= nº de mães P(X=x|p=0,6)
amamentando
0 0,000
1 0,000 0,20 p(X=x)
2 0,000 0,18
3 0,000
0,16
4 0,000
0,14
5 0,001
6 0,005 0,12
7 0,015 0,10
8 0,035 0,08
9 0,071 0,06
10 0,117 0,04
11 0,160
0,02
12 0,180
0
13 0,166
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
14 0,124
15 0,075 X
16 0,035
17 0,012
18 0,003
19 0,000
20 0,000
3 0 3 3! 3
P(X=0) = (0,3) (0,7) = (0,7) = 1x0,343 = 0,343 = 34,3%
0 0!(3 − 0)!
3 1 3 −1 3! 3 x 2 x1
P(X=1) = (0,3) (0,7) = (0,3) 1 (0,7) 3−1 = 0,3 x0,49 = 0,441 = 44,1%
1 1! (3 − 1)! 1x 2 x1
3 3! 3 x 2 x1
P(X=2) = (0,3) 2 (0,7) 3− 2 = (0,3) 2 (0,7) 3− 2 = 0,09 x0,7 = 0,189 = 18,9%
2 2! (3 − 2)! 2 x1x1
3 3 3− 3 3! 3 x 2 x1
P(X=3) = (0,3) (0,7) = (0,3) 3 (0,7) 0 = 0,027 x1 = 0,027 = 2,7%
3 3! (3 − 3)! 3 x 2 x1x1
Exemplo 28
Uma indústria de alimentos está realizando testes com um bolo que será comercializado. Durante a
prova do bolo, 20% das pessoas selecionadas para tal tarefa acharam o sabor muito doce. Supondo
que 5 pessoas provarão o bolo novamente, qual a probabilidade de:
a) Nenhuma pessoa achar o bolo muito doce?
b) Todos acharem o bolo muito doce ?
c) Pelo menos 4 pessoas acharem o bolo muito doce?
d) No máximo 2 pessoas acharem o bolo muito doce?
EXERCÍCIOS SUPLEMENTARES
Exercício S18
Supor um teste com questões com 5 respostas de múltipla escolha com somente uma alternativa cor-
reta.
a) Se o aluno escolher uma ao acaso ("chute"), qual a probabilidade dele escolher a resposta certa?
b) Supondo que o teste tenha 20 questões; definindo-se a variável aleatória T: número de questões
certas, qual é a distribuição de probabilidade da variável T?
c) Calcular a probabilidade de um aluno acertar, no chute, 3 questões.
Exercício S19
Certa doença tem letalidade de 70%. Supondo-se que existam 20 pacientes com esta doença, calcu-
lar:
a) a probabilidade de que todos morram da doença.
b) a probabilidade de que nenhum paciente morra da doença.
c) a probabilidade de que 7 pacientes morram da doença.
d) a probabilidade de que, no máximo, 10 pacientes morram da doença.
e) a probabilidade de que, no mínimo, 5 pacientes sobrevivam.
f) o número esperado de óbitos e o respectivo desvio padrão.
Exercício S20
Em uma grande população, 20% das pessoas são canhotas. Assumindo que a variável X: número de
pessoas canhotas segue uma distribuição Binomial, e sorteando-se uma amostra aleatória de 10 pes-
soas, encontre a probabilidade de:
a) encontrar 2 pessoas canhotas .
b) encontrar pelo menos 2 pessoas canhotas.
c) encontrar no máximo 1 pessoa canhota.
d) encontrar de 1 a 4 pessoas canhotas.
Exercício S21
Um caso de esquistossomíase é identificado pela detecção de ovo de xistossoma em amostra de fe-
zes. Em pacientes com infecção baixa, uma técnica de exame de fezes tem probabilidade de 0,4 de
detectar ovo. Se 5 amostras são examinadas para cada paciente, qual a probabilidade de um paciente
com baixa infecção não ser identificado?
Exercício S22
Supor que 20% de certa população tem sangue tipo B. Para uma amostra de tamanho 18, retirada
desta população, calcule a probabilidade de que sejam encontradas:
a) 3 pessoas com sangue tipo B.
b) 3 ou mais pessoas com sangue tipo B.
c) no máximo 3 pessoas com sangue tipo B.
Exercício S23
A probabilidade que uma pessoa que sofre de enxaqueca obter alívio utilizando certo medicamento é
de 0,9. São selecionados 5 pacientes que sofrem de enxaqueca e recebem o medicamento. Quanto ao
número de pessoas que vai ter alívio, encontre a probabilidade de:
a) nenhuma pessoa ter alívio.
b) mais do que uma pessoa tenha alívio.
c) três ou mais pessoas tenha alívio.
d) no máximo duas pessoas tenham alívio.
Os dados abaixo são medidas do tórax (polegadas) de 5732 soldados escoceses, tomadas pelo mate-
mático belga, Adolphe Quetelet (1796-1874).
1000
800
Frequency
600
400
200
0
33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
medidas
Exemplo:
Depois de tomarmos várias amostras, decidiu-se adotar um modelo para as medidas de perímetro do
tórax de uma população de homens adultos com os parâmetros: média ( µ ) = 40 polegadas e des-
vio padrão ( σ ) = 2 polegadas.
40 43 X
Qual a probabilidade de um indivíduo, sorteado desta população, ter um perímetro de tórax entre 40
e 43 polegadas?
43 ( x − 40 ) 2
1 [− ]
P ( 40 ≤ X ≤ 43) = ∫40 2 2π e 2x4
dx
0 1,5 Z
Exemplo 29:
Com base na distribuição de X~N( µ =40, σ =2), calcular:
a) a probabilidade de um indivíduo, sorteado desta população, ter um perímetro de tórax maior ou
igual a 43 polegadas.
40 43 X
X − µ 43 − 40
P ( X ≥ 43 ) = P ( ≥ ) = P (Z ≥ 1 ,5 )
σ 2
0 1,5 Z
d) Qual o valor do perímetro do tórax, que seria ultrapassado por 25% da população?
Exemplo 30
Considerar a altura de 351 mulheres idosas como seguindo uma distribuição normal com média
160cm e desvio padrão 6 cm. Sorteia-se uma mulher; qual a probabilidade de que ela tenha:
a) altura entre 160 cm e 165 cm?
b) altura menor do que 145 cm?
c) Altura maior do que 170 cm?
4 12,5 2
Frequency
5 13 4 4
6 13,5 6
7 14 5 2
8 14,5 2
9 15 5 0
10 10.65 11.3 11.95 12.6 13.25 13.9 14.55 15.2 15.85
medias
10 15,5 4
11 16 4
Total 36
∑x
i =1
i fi
Média das médias (x ) = = 14
n
11
∑ (x i − x)2 fi
Variância das médias σ x2 = i =1
= 1,833 ;
n
Teorema central do limite: X é variável aleatória com média µ e variância σ2, então
σ
X ~ N (µ , )
n
1,915
No exemplo, X ~ N ( µ = 14, σ = 1,915 ) , portanto X ~ N ( µ x = 14, σ x = = 1,354) .
2
Exemplo:
Os valores de ácido úrico em homens adultos sadios seguem distribuição aproximadamente Normal
com média 5,7mg% e desvio padrão 1mg%. Encontre a probabilidade de que uma amostra aleatória
de tamanho 9, sorteada desta população, tenha média
a) maior do que 6 mg%.
b) menor do que 5,2 mg%.
X~N( µ =5,7; σ = 1)
6 − 5,7
a) P( X ≥ 6) = P ( Z X ≥ ) = P( Z X ≥ 0,91) = 0,5 − 0,31859 = 0,18141.
1
9
b) 5,2 − 5,7
P( X ≤ 5,2) = P(Z X ≤ ) = P(Z X ≤ −1,52) = 0,5 − 0,43574 = 0,064 .
1
9
Exemplo 31
Suponha que o peso em gramas do conteúdo de pacotes de salgadinho siga uma distribuição normal
com média 500g e desvio padrão 85g. Sorteia-se uma amostra de 50 pacotes. Calcule:
a) a probabilidade de obter peso médio entre 500 e 530 gramas.
b) a probabilidade de obter peso médio entre 450 e 500 gramas.
0,25
0,20
0,15
0,10
0,05
0
0 1 2 3 4 5 6 7 8 9 10
X
0,25
0,20
0,15
0,10
0,05
0
0 1 2 3 4 5 6 7 8 9 10
X
X X pq
desvio padrão de = V( ) = .
n n n
X
Para n suficientemente grande (np ≥ 5 e nq ≥ 5), a distribuição de pode ser aproximada para a
n
pq
distribuição Normal(média=p, e desvio padrão= ).
n
Exemplo:
Y: número de sucessos;
Y~B(n=10; p=0,5)
2,5 − 5 Y − 5 5,5 − 5
P(3 ≤ Y < 6) =P( ≤ < )=
1,581 npq 1,581
P( −1,581 ≤ Z Y < 0,316) =0,44295+0,12552=0,5685.
Trabalhando-se com a proporção de sucessos:
Y
: proporção de sucessos
n
Exercício S24
Suponha que o peso de açúcar em pacotes seja anunciado como sendo 2Kg (2000g). Suponha que o
peso (X) segue uma distribuição normal com média e desvio padrão em gramas dado por
N( µ = 2003; σ = 1 ). Qual a probabilidade de sortear um pacote com peso abaixo do anunciado?
Exercício S25
Suponha que o tempo médio de permanência em um hospital para pacientes com determinada doen-
ça é de 60 dias com desvio padrão de 15 dias. Supor que o tempo de permanência segue uma distri-
buição aproximadamente normal. Se for sorteado 1 paciente desta população, calcule a probabilidade
de que seu tempo de permanência será
a) maior que 50 dias.
b) menor que 30 dias.
c) entre 40 e 70 dias.
d) maior do que 75 dias.
Exercício S26
Supor que a idade para o aparecimento de certa doença possui distribuição aproximadamente normal
com média 11,5 anos e desvio padrão 3 anos. Uma criança apresentou esta doença. Calcule a proba-
bilidade de que a criança tenha
a) idade entre 8,5 e 14,5 anos.
b) acima de 10 anos.
c) abaixo de 12 anos.
Exercício S27
Supor que a pressão média diastólica de certa população em certo grupo de idade é igual a 78mmHg
com desvio padrão 9mmHg. Calcule a probabilidade de que em uma amostra de tamanho 16, a média
seja maior que 81mmgHg.
Exercício S28
Seja X a variável estatura de homens adultos, assuma que X segue uma distribuição normal com mé-
dia µ = 172 cm e desvio padrão σ = 7,6 cm. Supor que uma amostra de tamanho n= 25 é retirada
desta população.
a) Qual é a distribuição da média amostral X e qual é a média e o desvio padrão desta distribu-
ição?
b) Calcule a probabilidade que a média amostral seja menor que a média populacional em 2,5
cm.
Esta família t não descreve o que acontece na natureza mas sim o que aconteceria se selecionásse-
X é uma característica que na população possui distribuição normal com média µ e variância σ2
(desvio padrão σ ).
Seja X1, X2, X3, ...Xn uma amostra aleatória de tamanho n extraída desta população.
Média aritmética
N
µ estimador : X = ∑
Xi
i =1
Populacional Parâmetro
N
Variância
N
∑(X i − X )2
S (2N ) = i =1
ou
2 N
Populacional Parâmetro σ estimador : N
∑(X i − X )2
S (2N −1) = i =1
N −1
Atenção: Antes dos dados serem coletados, os estimadores são variáveis aleatórias.
Intervalo de confiança: É um conjunto de valores calculados com base na amostra. Pressupõe-se que
cubra o parâmetro de interesse com um certo grau (nível) de confiança.
Seria impossível construir um intervalo de 100% de confiança a menos que se medisse toda a popula-
ção.
Na maioria das aplicações não sabemos se um intervalo de confiança específico cobre o verdadeiro
valor. Só podemos aplicar o conceito frequentista de probabilidade e dizer que se realizarmos a amos-
tragem infinitas vezes e construirmos intervalos de confiança de 95%, em 95% das vezes os interva-
los de confiança estarão corretos (cobrirão o parâmetro) e 5% das vezes estarão errados.
Exemplos de intervalo de confiança:
IMC médio, desvio padrão (dp) e IC de 95% segundo sexo e idade (anos). Duas escolas públicas de
São Paulo, 2004.
Sexo(1) Idade (anos)(2)
7 8 9 10
IMC (kg/m2) médio e desvio padrão (dp) (IC 95%)
Masculino 16,8 (2,5) 17,9 (4,0) 17,3 (3,1) 18,9 (4,0)
(16,2 – 17,4) (17,0 – 18,9) (16,5 – 18,1) (17,9 – 19,8)
Feminino 16,4 (2,30) 16,9 (2,9) 17,4 (3,3) 18,7 (3,1)
(15,9 – 17,0) (16,2 – 17,6) (16,6 – 18,2) (17,9 – 19,5)
“Os dados de composição corporal obtidos pela utilização da BIA, classificados em duas cate-
gorias: sem risco de doença cardiovascular e com risco de DCV, resultaram em prevalência de risco de
DCV igual a 42,3% (IC95%: 38,1 - 46,5%).”
A linha vertical representa o parâmetro populacional. O gráfico foi gerado via programa de computa-
dor. São apresentados 50 intervalos de confiança para amostras de tamanho n=20. As linhas horizon-
tais representam os intervalos de confiança. Se o intervalo de confiança não contiver o parâmetro, a
linha horizontal não cruzará a linha vertical. A linha vertical é o parâmetro. No exemplo, 3 intervalos
não cobrem ("capturam") o parâmetro.
Para amostras menores (n=5), as larguras dos intervalos são maiores a proporção de intervalos que
"capturam" o parâmetro é parecida com a anterior (para n=20). Portanto, o tamanho da amostra não
interfere na proporção de “captura” do parâmetro mas sim na precisão do estimador.
Pode-se também pensar no IC a partir da seleção de milhares de amostras de uma população. Para
cada amostra calcula-se um intervalo de confiança com grau de confiança 100(1- α )%, para um pa-
râmetro da população. A porcentagem de intervalos que contém o verdadeiro valor do parâmetro é
100(1- α ). Para α =0,05, o grau de confiança será igual a 100(1-0,05)% = 100(0,95)% = 95%.
Na prática, tomamos somente uma amostra e obtemos somente um intervalo. Mas sabemos que
100(1- α )% de todas as amostras tem um intervalo de confiança contendo o verdadeiro valor do
parâmetro, portanto depositamos uma confiança 100(1- α )% que o particular intervalo contém o
verdadeiro valor do parâmetro.
Para um grau de confiança especificado (por exemplo, 95%), desejamos o intervalo tão pequeno
quanto possível.
Ex: o intervalo de confiança de 95% para o peso médio ao nascer (gramas) de recém-nascidos no
Município de São Paulo de (2500, 4000) traz pouca informação prática porque sabe-se, da experiên-
cia, que a média populacional está neste intervalo. Deseja-se um intervalo com amplitude de poucas
gramas. É o tamanho da amostra que determina a amplitude do intervalo. Quanto maior a amostra,
menor será o intervalo.
σ σ
P(−1,96 ≤ X − µ ≤ +1,96 ) = 0,95
n n
σ σ
P(− X − 1,96 ≤ − µ ≤ − X + 1,96 ) = 0,95
n n
Multiplicando tudo por -1
σ σ
P( X + 1,96 ≥ µ ≥ X − 1,96 ) = 0,95
n n
O parâmetro será estimado por um conjunto de valores provenientes de uma amostra. Quando isto é
feito, a média é estimada por um determinado valor ( Xˆ = x ), e o intervalo
σ σ
x − 1,96 ≤ µ ≤ x + 1,96 deixa de ser uma variável aleatória.
n n
Este intervalo cobre (contém) ou não cobre (não contém) a verdadeira média (parâmetro). Diz-se
então que a confiança que se deposita neste intervalo é de 95% porque antes de coletar a amostra de
tamanho n, existia, associada a ele, uma probabilidade de 95% de que contivesse a média populacio-
nal. Por isso chama-se intervalo de confiança para a média populacional.
σ σ
IC(95%) : ( x − 1,96 ; x + 1,96 )
n n
Exemplo 32
Em uma amostra de 16 gestantes com diagnóstico clínico de pré-eclâmpsia, a taxa média de ácido
úrico no plasma foi de 5,3 mg sabendo que a variabilidade na população é igual a 0,6 mg. Estime,
com 95% de confiança, a taxa média de ácido úrico no plasma da população de gestantes com diag-
nóstico de pré-eclâmpsia.
12 12
85 − 2,03 ;85 + 2,03 , ou seja, (80,94; 89,06 mmHg)
36 36
Exemplo 33
Uma amostra de 25 adolescentes meninos apresenta peso médio de 56 kg e desvio padrão 8 kg.
a) encontre o intervalo de confiança de 95% para o peso médio da população da qual esta a-
mostra foi sorteada.
b) interprete o intervalo de confiança encontrado.
Pressuposições:
1- np e nq≥5
2- a amostra deve ser obtida de forma aleatória
Seja X uma variável aleatória que segue uma distribuição binomial, X~ B(n,p).
X
A proporção de sucessos populacional π é desconhecido. Seu estimador por ponto é p=
n
pq
Para n grande, p ~ N ( µ = p, σ = ).
n
Com intervalo de confiança para π dado por
pˆ qˆ pˆ qˆ
IC(π ) : pˆ − zα / 2 . ; pˆ +zα / 2 . , com p̂ e q̂ estimados na amostra onde pˆ =
x
e
n n n
qˆ = 1 − pˆ e x é o número de sucessos observado na amostra de tamanho n.
Exemplo:
Supor que em uma amostra de 200 casais encontrou-se 10 casais onde a esposa era mais alta que o
marido. Construir o intervalo de confiança de 95% para a proporção de casais na população ( π ) onde
as esposas são mais altas que seus maridos.
10
pˆ = = 0,05 ; qˆ = 1 − pˆ = 0,95
200
Para uma população de 1000 casais, obtém-se: (1000 x 0,02 ; 1000 x 0,08), ou seja, (20 ; 80 casais)
Exemplo 34
Em uma pesquisa sobre saúde bucal na Inglaterra observou-se que de uma amostra de
262 mulheres com idade entre 25 e 34 anos, 7,6% não tinham dentes. Calcule o intervalo de confian-
ça de 95% para a proporção de mulheres inglesas naquela faixa etária, que não possuem dentes.
Média populacional: µ
σ2: σ2 σ2
Com variância conhecida x − Zα / 2 ; x + Zα / 2
n n
pˆ (1 − pˆ ) pˆ (1 − pˆ )
pˆ − Zα / 2 ; pˆ + Zα / 2
n n
onde p̂ é a proporção de sucessos na amostra.
Exercício S29
São apresentadas medidas de pressão arterial sistólica de uma amostra de 20 pacientes.
a) Construa o intervalo de confiança de 90% para a pressão sistólica média populacional.
b) Interprete o intervalo de confiança encontrado.
Exercício S30
Em uma pesquisa sobre propriedades teratogênicas de uma droga, 85 camundongos fêmeas grávidas
que não foram expostas a droga foram observadas. Do total de 85 ninhadas, 12 tiveram pelo menos 1
filhote com malformação.
a) Apresente o intervalo de confiança de 95% para a verdadeira proporção de malformação na
população de camundongos de onde os 85 que participaram do estudo foram provenientes.
b) Interprete o intervalo de confiança encontrado.
Exercício S31
Os dados a seguir são provenientes do grupo Western Collaborative Group Study, criado na Califórnia
em 1960-61.
Tipo A: nível de colesterol
233 291 312 250 246 197 268 224 239 239
254 276 234 181 248 252 202 218 212 325
Exercício S32
São apresentados dados sobre o estado nutricional de 1226 crianças brasileiras de 2 anos de idade,
segundo sexo.
Estado nutricional Masculino Feminino total
Desnutridas 29 20 49
Normais 574 603 1177
Total 603 623 1226
Fonte: retirado de material de aula da Profa M. R. Cardoso
Exercício S33
No artigo “Hipovitaminose A em crianças de áreas rurais do semi-árido baiano” a idade média das
crianças com nível aceitável e inadequado de retinol e seus respectivos desvios-padrão são apresen-
tados a seguir. Encontre o intervalo de confiança de 90% para as verdadeiras idades médias. Compa-
re os resultados. Pode-se dizer que as crianças provêm de uma mesma população?
Exercício S34
O nível médio de protrombina em populações normais é 20 mg/100ml de sangue. Uma amostra de
40 pacientes que tinham deficiência de vitamina K tiveram nível médio observado de protrombina de
18,5mg/100ml e desvio padrão 4mg/100ml. Seria razoável concluir que a verdadeira média de paci-
entes com deficiência de vitamina K é a mesma que a da população normal?
Exercício S35
Uma companhia de produtos alimentícios solicitou pela mídia que os consumidores entrassem em
contato dizendo se tinham aprovado o sabor de um novo produto. Quem telefonasse receberia um
exemplar de um livro de receitas. 320 consumidores telefonaram sendo que 75% destes aprovaram o
produto.
a) Poderia ser construído o intervalo de confiança de 95% para a proporção de consumidores
que aprovaram o produto na população?
b) Se sim, calcule o intervalo; se não, explique porque não.
Conceitos gerais
Hipótese científica Hipótese estatística em termos operacionais relativos a po-
pulação
(inferência dedutiva)
Estimador (Populacional)
Inferência estatística: É qualquer procedimento que se utiliza para se generalizar afirmações sobre
determinada população, baseadas em dados retirados de uma amostra.
Hipótese: É uma forma de especulação relativa a um fenômeno estudado (qualquer que seja). É
qualquer afirmação sobre a distribuição de probabilidade de uma variável aleatória (afirmação sobre
um parâmetro).
Hipótese estatística: É uma especulação feita em relação a uma proposição, porém relativa a uma
população definida.
Teste de Hipóteses
Neyman e Pearson propuseram uma abordagem, para a tomada de decisão, que envolve a fixação,
antes da realização do experimento, das hipóteses nula e alternativa, e fixação de valores de probabi-
lidade de ocorrência de erros de decisão.
Considerar a situação na qual se deseja comparar a eficácia de uma nova droga (DN) com a eficácia
de uma droga padrão (DA), que vem sendo atualmente utilizada.
Para a tomada de decisão sobre a eficácia de DN, torna-se necessário seguir os seguintes passos:
• Formular as hipóteses;
• Identificar a distribuição de probabilidade da estatística do teste;
• Fixar o nível de significância do teste (α );
• Calcular o tamanho da amostra;
• Determinar a região de rejeição/aceitação de H0;
• Realizar o estudo, observar os resultados, calcular a estatística do teste;
• Confrontar o valor observado da estatística do teste com a região de rejeição/aceitação de H0;
• Tomar a decisão;
• Apresentar a conclusão.
H0 : DN = DA
Teste monocaudal à direita
Ha : DN > DA
Se o estudo envolvesse a comparação de duas drogas, uma nova e outra que é atualmente utilizada,
e a nova droga se propõe a reduzir os efeitos colaterais, as hipóteses seriam:
Se ambas os lados forem possíveis, deve-se optar pela hipótese alternativa que explicita a diferença
como na situação onde uma nova droga para depressão está em teste e deseja-se investigar se a
droga inibe ou provoca o apetite, como efeito colateral. Assim, antes do estudo não se conhece o
efeito da droga sobre o apetite dos pacientes.
H0 : DN = DA
Teste bicaudal
Ha : DN ≠ DA
Supor que a nova droga será utilizada em 10 pacientes (n=10) e, considerando-se a eficácia conheci-
da da droga antiga (DA), de 50%, tem-se que a probabilidade de cura (p) é igual a 0,5.
H 0 : D N = 0,5 H 0 : E N = 0,5
Hipóteses: ou
H a : D N > 0,5 H a : E N > 0,5
X: 0, 1, 2, 3,...,10
Utiliza-se o teste de hipóteses para testar H0. O teste de hipóteses fornece elementos para a tomada
de decisão com base em H0
É possível tomar somente uma decisão – Rejeita-se H0 ou Não rejeita-se H0 (Aceita-se H0)
Exemplo 35
Em um julgamento jurídico o júri tem que decidir sobre a culpa ou inocência de um réu. Considere
dois fatos: 1) o sistema jurídico admite que toda pessoa é inocente até que se prove o contrário. 2) só
vai a julgamento pessoas sobre as quais existe dúvida de sua inocência. Fazendo uma analogia com
teste de hipóteses, responda:
b) O júri pode errar se decidir que o réu é culpado quando na verdade ele é inocente. Qual é o outro
erro de decisão que o júri pode cometer?
d) Na terminologia de teste de hipótese, qual tipo de erro (I ou II) pode-se vincular a cada uma das
decisões do item b?
Exemplo 36
Supor duas situações: 1- a pessoa está fazendo parte de um levantamento para diagnóstico de para
câncer de mama (screening); 2- a pessoa realiza o teste para detectar anticorpos anti-HIV.
É fornecido um diagnóstico com base no resultado do teste.
a) Qual dos erros é geralmente mais sério: um resultado falso positivo que diz que a pessoa tem a
doença quando na verdade ela não tem ou um resultado falso negativo, que diz que a pessoa não
tem a doença quando na verdade ela tem?
b) Apresente as hipóteses nula e alternativa sobre a situação de saúde do paciente; fazendo uma
analogia com teste de hipóteses, que tipo de erro (I ou II) seria cometido se o resultado do teste
fosse falso positivo? Que tipo de erro (I ou II) seria cometido se o resultado do teste fosse falso nega-
tivo?
Se tivessem sido observadas 6 curas ou qualquer valor da área de aceitação de H0, a decisão seria
não rejeitar H0 ou seja, aceitar H0.
Onde está β ?
H 0 : D N = 0,5
Lembrar que as hipóteses de teste são: e que a probabilidade do erro tipo II é a pro-
H a : D N > 0,5
babilidade de aceitar H0 quando H0 é falsa e que (1 − β) é o poder do teste, ou seja, a probabilidade
Valores de β e de 1 − β para o teste de H0: EN =EP=50% contra H1: EN >50%, quando n=10,
α ≅ 1% (a rigor, 1,08%) segundo diferentes valores de EN.
EN β (%) 1 − β (%)
60% 95,36 4,64
70% 85,07 14,93
80% 62,42 37,58
90% 26,39 73,61
Se na amostra de 10 pacientes, 9 evoluíssem para a cura (90%), Fisher recomendava que se calculas-
se a probabilidade de 9 ou mais pacientes se curarem (P(X≥9)), tendo como base, a distribuição de
probabilidade conhecida, especificada na proposição inicial, onde a probabilidade de cura é igual a
50%.
Pelo exemplo, esta probabilidade seria igual a P(X≥9) = P(X=9) + P(X=10) = 0,011 = 1,1%
Se na amostra de 10 pacientes, fossem observadas 6 curas (60%), P(X≥6) = P(X=6) + P(X=7) +
P(X=8) + P(X=9) + P(X=10) = 0,205 + 0,117 + 0,044 + 0,010 + 0,001 = 0,377 = 37,7%
A probabilidade calculada é conhecida como valor de p (p-value) e a decisão estatística será tomada
com base no valor desta probabilidade.
Se o valor de p for considerado pequeno, conclui-se que os dados não mostram evidência de perten-
cer a uma população com proporção de cura igual a 50% e, portanto, a droga cura mais do que 50%.
Se o valor de p for considerado grande, então se pode dizer que os dados provavelmente vêm de uma
população que possui como parâmetro 50% de curas.
Definição:
Fisher dizia que antes de dar uma forma matemática a um problema, propondo hipóteses a serem
testadas, era necessário um amplo conhecimento dos dados, o que poderia ser realizado com base no
valor de p.
Segundo dados de rotina dos serviços de saúde tem-se que, em determinada comunidade, a propor-
ção de mães que amamentam até o 3° mês de idade da criança é de 60%. Desejando-se aumentar
esta proporção, realizou-se o estudo que consistiu em desenvolver um programa educativo. Deseja-
se, portanto, avaliar a eficácia do programa.
Após o programa observou-se que, em uma amostra de 10 mães que foram submetidas ao programa
e acompanhadas durante quatro meses, 9 mães amamentaram pelo menos até o 30 mês.
X: 0,1,2,...,10
4) Decisão: Como 9 mães amamentaram pelo menos três meses, e 9 cai na área de re-
jeição de H0, decide-se por rejeitar H0.
Ab o rd a g e m de Fi s h e r
Proposição: mães que são submetidas ao programa provêm de uma população onde 60% delas a-
mamentam pelo menos até o 3º mês.
Calculando-se a probabilidade de observar 9 ou mais mães amamentando pelo menos até o 3º mês,
utilizando uma curva onde 60% de mães amamentam até o 3º mês: considerando-se a distribuição de
Para decidir com base no valor de p é necessário perguntar-se se os resultados observados são com-
patíveis com a proposição de que as mães vêm de população na qual 60% das mães amamentam
pelo menos até o até o 3º mês. Em outras palavras, com base nos resultados, você diria que existe
evidência favorável ou contrária à proposição inicial?
Se p for considerado, pelo investigador, grande, então se conclui que os dados não mostram evidên-
cia contrária à proposição e, portanto, as mães, após a intervenção, devem ser de uma população na
qual 60% amamentam pelo menos até o 3º mês. Neste caso, a intervenção não surtiu efeito.
Considerações finais
• O valor de p é a força de evidência contrária à proposição inicial. Para existir forte evidência contrária
à proposição inicial, o valor de p deve ser bem pequeno;
• O julgamento sobre o valor de p, se é grande ou pequeno, é arbitrário e quem decide é o investiga-
dor.
Exemplo
Considerar a situação, comum na área de análise sensorial, denominada “comparação de par, direcio-
nada”: A situação envolve um fabricante que quer lançar um bolo mais doce do que o produto que
está no mercado (código 15). Para tanto é desenvolvido um novo produto (código 23).
O experimento consiste em oferecer uma fatia de cada produto a 20 degustadores, de modo indepen-
dente, e registrar (contar) quantos acham o produto novo mais doce.
H 0 : π = 0,5
Hipóteses:
H A : π > 0,5
Distribuição de probabilidade:
Cada degustador escolhe o produto independente do outro degustador e se for feita a escolha por
um produto (eventos independentes), o outro produto fica eliminado (mutuamente exclusivos).
X ~B( n = 2 0 ; p = 0 , 5)
X P(X = x) R e giã o d o te s te
0
.
Ace ita çã o de H 0
.
.
13
14 0, 0 3 6 9 6
15 0, 0 1 4 7 9
16 0, 0 0 4 6 2 R e je iç ã o de H 0
17 0, 0 0 1 0 9 α = 0,058
18 0, 0 0 0 1 8
19 0, 0 0 0 0 2
20 0, 0 0 0 0 0
Conclusão: Não foi encontrada diferença estatisticamente significante entre a proporção de escolha
dos produtos, podendo-se dizer que os produtos não diferem quanto ao sabor adocicado, para um
nível de significância de 5%.
n=20
K~B(n=20; p=0,5)
Valor de p=probabilidade de ocorrer 8 ou mais, se os dados vierem de uma população que escolhe os
produtos em proporções iguais.
Conclui-se que os dados não mostram evidência contrária à proposição inicial (p=0,868). Os dados
são compatíveis com uma população que escolhe igualmente os produtos com códigos 15 e 23. O
novo produto não foi considerado mais doce que o antigo.
OBS: Como np=10 e nq=10, para o cálculo de p poderia ter sido utilizada a distribuição normal.
Exemplo 37
Supor o experimento onde existe interesse em investigar se o odor de determinado alimento atrai
camundongos. O experimento consiste em colocar um animal em um corredor que no final é dividido
para a direita e para a esquerda. Um alimento é colocado no final do corredor da esquerda, fora da
visão do animal. Entretanto, antes da realização do experimento, decide-se eliminar a possibilidade de
incluir no estudo camundongos que têm predileção por um lado, independentemente do odor do ali-
mento. Neste caso, decide-se investigar inicialmente se os camundongos escolhem os lados em pro-
porções iguais. Para tanto, realiza-se o experimento com 12 camundongos sem a colocação do ali-
mento e verifica-se que 7 viram para a esquerda.
Realize um teste de hipóteses seguindo as propostas de Neyman e Pearson, com nível de significância
de 5%, e a de Fisher, para verificar se os camundongos vêm de uma população que escolhe mais um
lado do que o outro.
EXERCÍCIOS SUPLEMENTARES
Exercício S36
Um estudo foi desenvolvido para investigar se aleitamento materno é um fator que protege a criança
contra diabetes, em idades maiores. Considerando H0: aleitamento materno não protege contra
diabetes e Ha: aleitamento materno protege contra diabetes, responda:
a) Tomando qual decisão (aceitar ou rejeitar) sobre H0 você poderia estar cometendo o erro tipo I?
b) Tomando qual decisão (aceitar ou rejeitar) sobre H0 você poderia estar cometendo o erro tipo II?
c) Como é denominada a probabilidade de ocorrer o erro tipo I?
d) Como é denominada a probabilidade de ocorrer o erro tipo II?
e) O que é o poder do teste?
f) Se você fosse fixar valores de probabilidades associadas à ocorrência dos erros tipo I e II para
este estudo, qual deles seria menor? Justifique.
Exercício S37
Será realizado um estudo para investigar a relação entre consumo de produtos derivados de soja e
presença de osteoporose em mulheres com mais de 50 anos. Para a tomada de decisão, será utilizado
teste de hipóteses, no modelo clássico, proposto por Neyman e Pearson. Apresente os passos
necessários para a realização do teste de hipóteses, listados a seguir, em uma sequência correta:
tomada de decisão, cálculo do tamanho da amostra, elaboração das hipóteses, determinação da
região de rejeição do teste, coleta dos dados e cálculo da estatística do teste, fixação do nível de
significância, conclusão, verificação se o valor observado da estatística cai na região de aceitação ou
rejeição, identificação da distribuição de probabilidade da estatística do teste.
Exercício S38
Considere a seguinte situação hipotética: A incidência de resfriados durante o inverno, em uma creche
é 60%. Durante o ano de 2001, a direção da creche resolveu servir suco de acerola durante todo o
inverno com o objetivo de prevenir resfriados. Após o inverno observou-se que de 20 crianças que
Exercício S39
Considere a situação onde 40% de mulheres idosas apresentam condição esquelética do tipo A. Sus-
peita-se que mulheres magras apresentam menor predisposição a esta condição. Realizou-se um es-
tudo e observou-se que entre 28 mulheres idosas magras, 6 apresentaram a condição.
a) Realize um teste de hipóteses para investigar se os resultados do estudo são compatíveis com
uma população onde 40% apresentam a condição. Utilize a abordagem clássica de Neyman e Pe-
arson, com nível de significância de 10%.
b) Realize um teste de hipóteses para investigar se os resultados do estudo são compatíveis com
uma população onde 40% apresentam a condição, utilizando a abordagem de Fisher.
Exercício S40
A prevalência de infecção por hepatite B na população geral é de 30%. A literatura sugere que a in-
fecção por hepatite B é maior entre pessoas com infectadas pelo vírus HIV. Em uma amostra de 20
pessoas que apresentaram teste HIV +, 8 apresentaram positividade para hepatite B. Teste a hipóte-
se de que as pessoas HIV + possuem mesma prevalência de Hepatite B que a população geral. Utilize
a estratégia clássica de Neyman e Pearson, com nível de significância de 5% e a abordagem de Fi-
sher, com tomada de decisão a partir do valor descritivo do teste (valor de p).
Exercício S41
Suponha que uma pesquisa de grande abrangência encontrou que 60% de crianças entre 7 e 10 anos
consomem determinada marca de cereal. Com o objetivo de verificar possível queda no consumo, a
indústria sorteou 15 crianças nesta faixa etária e observou 6 crianças consomem o produto. Teste a
hipótese de que o consumo do produto não foi alterado. Utilize a estratégia clássica de Neyman e
Com base em conhecimento prévio (da literatura) sabe-se que a distribuição do peso ao
nascer em crianças sadias segue uma distribuição normal com média 3000 gramas e desvio padrão
500 gramas, ou seja X ~ N (µ X = 3000; σ X = 500) .
Distribuição de probabilidade
Como as hipóteses envolvem a média populacional, é necessário utilizar a distribuição de probabilida-
de da média.
µ X = 3000
σ X = 70,71
X
H0
Rejeição de H0
Aceitação de H0
α=0,05
-4 -3 -2 -1 0 1 2 3 4
z
Zcrítico=-1,64
Como Zobs está à esquerda de Zcrítico (região de rejeição), decide-se por rejeitar H0.
Decisão:
Rejeita-se H0.
Conclusão
Foi encontrada diferença estatisticamente significante entre os pesos ao nascer de crianças sadias e
com SDIG para nível de significância α = 0,05. Crianças com SDIG nascem com peso menor do que
crianças sadias.
É possível realizar o teste comparando a média observada na amostra ( x obs = 2800) e o valor de peso
médio ao nascer que deixa, no caso deste exemplo, uma área α=0,05 à sua esquerda. O valor de
peso médio que limita esta área é denominado x critico .
Cálculo de x critico
xcritico − µ x x critico = Z criticoσ X + µ X
De Z critico = tem-se
σX
Rejeita-se H0
Aceita-se H0
Como xobs = 2800 é menor que x critico (fica à esquerda), opta-se por rejeitar H0.
Regra geral:
Rejeita-se H0 se
Rejeita-se H0 se
Exemplo 39
O nível médio de protrombina em populações normais é 20 mg/100ml de sangue. Uma amostra de 40
pacientes que tinham deficiência de vitamina K tiveram nível médio observado de protrombina de
18,5mg/100ml e desvio padrão 4mg/100ml. Seria razoável concluir que a verdadeira média de pacien-
tes com deficiência de vitamina K é a mesma que a da população normal? Realize um teste de hipóte-
ses.
Supor a situação anterior, só que a variância (desvio padrão) populacional do peso ao nascer de cri-
anças sadias é desconhecida sendo conhecido somente o peso médio populacional de crianças sadias
Cálculo do tamanho da amostra: supor um tamanho de amostra n=50 recém-nascidos com SDIG
Distribuição de probabilidade:
Admitindo-se que H0 é verdade, resta um problema que é o fato de não se conhecer o valor da dis-
persão do peso ao nascer das crianças sadias. Neste caso não é possível utilizar a estatística Z.
T segue uma distribuição t de Student, com (n-1) graus de liberdade. Quando o tamanho da amostra
é grande, a estatística T tende para uma distribuição normal com média 0 e desvio padrão 1
(n → ∞ ⇒ T ~ N (0 ;1) ). H0
Região de rejeição
e aceitação
da hipótese H0. Rejeição de H0
Aceitação de H0
α=0,05
Como tobs está à esquerda de tcrítico (região de rejeição), decide-se por rejeitar H0.
Decisão
Rejeita-se H0.
Exemplo 40
Uma companhia de produtos alimentícios utiliza uma máquina para embalar salgadinhos cujas emba-
lagens especificam 454 gramas. Com o propósito de verificar se a máquina está trabalhando correta-
mente, selecionou-se 50 pacotes de salgadinhos, obtendo-se os seguintes valores de peso:
464 450 450 456 452 433 446 446 450 447
442 438 452 447 460 450 453 456 446 433
448 450 439 452 459 454 456 454 452 449
463 449 447 466 446 447 450 449 457 464
468 447 433 464 469 457 454 451 453 443
média da amostra, x =451,22 gramas e desvio padrão amostral (s) =8,40 gramas
Distribuição Normal
Medindo-se a altura de muitas mulheres (população), obtém-se o gráfico a seguir.
proporção
.35
.3
.25
.2
.15
.1
.05
0
140 145 150 155 160 165 170 175 180
Altura(cm)
.3
.25
.2
.15
.1
.05
0
140 145 150 155 160 165 170 175 180
Altura (cm)
Sorteia-se uma mulher ao acaso; P(desta mulher ter mais de 160) = 50%;
P(esta mulher tenha mais de 180)= P( X > 180) = P( Z > 180 − 160 ) = P ( Z > 2) =0,5-0,47725=0,02275
10
ou 2,3%
Sortear uma mulher com altura 180 ou mais desta população é uma coisa comum?
P(esta mulher tenha mais de 170)= P( X > 170) = P( Z > 170 − 160 ) = P (Z > 1) = 0,5-0,34134=0,15866 ou
10
15,9%
Sortear uma mulher com altura 170 ou mais desta população é uma coisa comum?
O limite para decidir o que é comum é arbitrário. O investigador é que decide, com base no problema
que está sendo estudado.
proporção
.35
.3
.25
.2
.15
.1
.05
0
160 165 170 175 180 185 190 195 200
Altura (cm)
Supor que as pessoas da primeira curva tenham uma marca vermelha e as pessoas da segunda curva
tenham uma marca azul. Misturam-se todas as pessoas e sorteia-se uma pessoa ao acaso e ela tem
altura 180. De qual população seria este indivíduo?
µ=160 170
X
µ=0 2,74
ZX
P(Z ≥ 2,74) = 0,5- 0,49693 = 0,0031 ou 0,31%
Sortear uma amostra que apresenta altura média igual a 170 cm ou mais da população que tem altura
média 160 cm é uma coisa comum?
Para decidir se a amostra representa uma população com altura média maior e que o resultado não é
devido ao acaso, realiza-se o teste de hipóteses.
Situação:
Estudos mostram que crianças sadias possuem peso médio (m) ao nascer igual a 3100 gramas e des-
vio padrão σ = 610 gramas .
Suspeita-se que crianças que nascem com síndrome de desconforto idiopático grave possuem peso ao
nascer abaixo do peso ao nascer da população de crianças sadias.
Proposição (equivalente à H0): Crianças com síndrome vêm de uma população com peso médio =3100
gramas.
Realiza-se um estudo em uma amostra de n=50 crianças que nasceram com esta síndrome, onde
observou-se peso médio ( x ) igual a 2800 gramas.
Supondo-se que as crianças da amostra (com síndrome) vêm de uma população com mesma disper-
são do peso ao nascer de crianças sadias, teste a hipótese de que crianças com síndrome idiopática
grave possuem peso médio ao nascer igual ao peso médio ao nascer de crianças sadias.
Distribuição de probabilidade:
Distribuição do peso médio: segue uma distribuição normal com média m=3100 gramas e desvio pa-
σ 610
drão = = 86,27 gramas
n 50
2800 µ=3100
X
Cálculo da probabilidade de observar um peso médio ao nascer igual ou menor que 2800 se H0 for
verdade.
Pela distribuição Normal reduzida tem-se que P ( Z ≤ 3,48) = 0,5 − 0,49975 = 0,00025 ou 0,025%
Os resultados não são compatíveis com uma distribuição que tem peso médio igual a 3100. Possivel-
mente a amostra vem de uma população com média menor que 3100. Pode-se dizer que crianças
com síndrome de desconforto idiopático grave possivelmente possuem peso ao nascer menor do que
o peso médio de crianças sadias.
Exemplo 41
O nível médio de protrombina em populações normais é 20 mg/100ml de sangue. Uma amostra de 40
pacientes que tinham deficiência de vitamina K tiveram nível médio observado de protrombina de
18,5mg/100ml e desvio padrão 4mg/100ml. Seria razoável concluir que a verdadeira média de pacien-
tes com deficiência de vitamina K é a mesma que a da população normal? Realize um teste de hipóte-
ses pela abordagem de Fisher.
Teste de hipóteses para uma média populacional com variância desconhecida - Aborda-
gem de Fisher
Supor a mesma situação anterior, só que neste caso somente a média populacional é conhecida. O
peso médio de crianças sadias (µ) é igual a 3100 gramas.
H0: Crianças com síndrome de desconforto idiopático grave vêm de uma população com peso médio =
3100 gramas
Seleciona-se uma amostra de 50 crianças com a síndrome e calcula-se o peso médio e o desvio pa-
Distribuição de probabilidade:
Distribuição do peso médio ao nascer de crianças sadias: como não se sabe o desvio padrão popula-
cional, este é estimado utilizando-se os dados da amostra.
-4,16 µ=0 t
Pela distribuição t de Student com 49 graus de liberdade, tem-se P(t X ≤ −4,159) < 0,05%
Os resultados não são compatíveis com uma distribuição que tem peso médio igual a 3100. Pode-se
dizer que crianças com desconforto idiopático grave provavelmente vêm de uma população com peso
médio ao nascer menor do que o peso médio ao nascer de crianças sadias.
Exemplo 42
Uma companhia de produtos alimentícios utiliza uma máquina para embalar salgadinhos cujas emba-
lagens especificam 454 gramas. Com o propósito de verificar se a máquina está trabalhando correta-
mente, selecionou-se 50 pacotes de salgadinhos, obtendo-se os seguintes valores de peso:
464 450 450 456 452 433 446 446 450 447
442 438 452 447 460 450 453 456 446 433
448 450 439 452 459 454 456 454 452 449
463 449 447 466 446 447 450 449 457 464
468 447 433 464 469 457 454 451 453 443
média da amostra, x =451,22 gramas e s=8,40 gramas
Testar a hipótese, pela abordagem de Fisher, de que a máquina está trabalhando corretamente.
EXERCÍCIOS SUPLEMENTARES
Exercício S42
Deseja-se saber se o consumo calórico médio de determinada população adulta de zona rural é menor
que 2000 kcal. Uma amostra de 500 pessoas apresentou consumo médio igual a 1985 kcal e desvio
padrão igual a 210. Faça um teste de hipóteses pela abordagem de Neyman e Pearson e de Fisher
para tomar a decisão; considere o nível de significância igual a 5%.
Exercício S43
O conteúdo de iodo em pacotes de sal é recomendado que seja igual a 590 µg . Determinada indús-
tria, tendo recebido reclamações de que estava vendendo seu produto com teor de iodo abaixo do
Exercício S44
Vacas da raça Jersey (J) produzem porcentagem média de gordura para manteiga igual a 5,25%.
Suspeita-se que vacas Holstein-Fresian (HF), se não forem criadas de um modo especial, produzem
quantidades menores deste tipo de gordura. É fornecida a porcentagem média de gordura de mantei-
ga de uma amostra de 10 vacas da raça Holstein-Fresian. Os dados sugerem que as que as vacas
Holstein-Fresian produzem a mesma quantidade de gordura do que as vacas Jersey? Conduza um
teste de hipóteses pela abordagem de Neyman e Pearson e de Fisher. Utilize nível de significância de
5%.
Exercício S45
Em uma pesquisa realizada entre os cadetes da Força Aérea sobre a relação entre saúde em geral e
patologias orais, o escore médio de CPO (número de superfícies de dentes cariados, obturados ou
extraídos em um indivíduo) foi 27,2. Em 121 cadetes que procuraram os serviços médicos 5 ou mais
vezes durante um ano, o CPO médio foi 31,1 com desvio padrão 15,5. Se for assumido que estes 121
cadetes representam a população de cadetes com pior saúde, existe evidência que pior nível de saúde
está associado a escore de CPO mais elevado? Tome a decisão utilizando as duas estratégias: a clás-
sica de Neyman e Pearson, com nível de significância de 5% e a abordagem de Fisher, com tomada
de decisão a partir do valor descritivo do teste (valor de p).
Exercício S46
O nível médio de ganho de peso entre 42 homens submetidos a exercícios físicos durante 3 meses foi
igual a 0,5 kg com desvio padrão de 2,2 kg. Entre homens que não fazem exercícios físicos mas que
possuem uma dieta balanceada, o ganho médio de peso é de 1,3 kg. Seria razoável concluir que a
verdadeira média de ganho de peso entre homens que praticam exercícios é a mesma que a de ho-
mens que não praticam exercícios mas que possuem dieta balanceada? Tome a decisão utilizando as
duas estratégias: a clássica de Neyman e Pearson, com nível de significância de 5% e a abordagem
de Fisher, com tomada de decisão a partir do valor descritivo do teste (valor de p).
O qui-quadrado é obtido somando-se razões dadas pelos quadrados das diferenças entre frequências
observadas e as esperadas, divididos pelas frequências esperadas.
(O − E ) 2
χ =∑
2
E
Quando as variáveis são independentes, é equivalente a dizer que não existe associação, e neste
caso, o valor do qui-quadrado será zero. O qui-quadrado não mede força de associação e não é sufi-
ciente para estabelecer relação de causa e efeito.
.4
H0: Não existe associação
Ha: Existe associação .3
.2
Área de rejeição de H0
Fixando-se a probabilidade de erro tipo I: α=0,05
Nível de significância (α) = 0,05 .1
0
Área de rejeição do teste: 0 5 10 15 20
Para a tomada de decisão, utiliza-se a regra: rejeita-se H0 se o valor calculado do qui-quadrado for
maior do que o valor crítico para um nível de significância pré definido.
Qui − quadrado =
∑ (O − E ) 2
E
~ χ (2r −1)( c−1)
Exemplo: na tabela abaixo, número de linhas =2 (masculino, feminino) e número de colunas = 2 (a-
ceitável, não aceitável). Assim, o número de graus de liberdade (gl) seria (2-1)x(2-1) = 1
Distribuição de crianças segundo sexo e nível de retinol sérico. Cansação, Bahia, 1992
Na tabela abaixo, gl = 2
Distribuição de recém-nascidos segundo condição caso - com defeitos do tubo neural; controle – re-
cém-nascidos que não tinham defeitos do tubo neural e dieta materna.
Dieta Casos Controles Total
n % n % n %
Boa 34 13,9 43 35,0 77 21,0
Razoável 110 45,1 48 39,0 158 43,0
Pobre 100 41,0 32 26,0 132 36,0
Total 244 100 123 100 367 100
Fonte: Hand DJ et al. A handbook of small data sets. Chapman&Hall, 1994.
Correção de continuidade:
L im i ta ç õ es :
Para n<20, utilizar o teste exato de Fisher
Para 20 ≤ n ≤ 40 , utilizar o qui-quadrado somente se os valores esperados forem maiores ou iguais
a 5.
Decisão:
O valor do qui-quadrado calculado é maior do que o valor do qui-quadrado crítico para 1 grau de li-
berdade e nível de significância de 5%, portanto, rejeita-se H0.
Conclusão: Pode-se dizer que na população existe associação entre bronquite na infância e tosse na
adolescência.
Abordagem de Fisher
Pela tabela da distribuição qui-quadrado, com 1 gl, p<0,001 (na tabela, menor que 0,1%)
Calculando-se o valor de p pelo Excel, para 1 gl, o valor de p não corrigido = 0,0004829
No Excel utilizar a função DIST.QUI tendo como argumentos o valor calculado do qui-quadrado e o
número de graus de liberdade: = DIST.QUI(12,181;1))
Conclusão: Existe forte evidência contrária à independência portanto a associação observada ocorre
não devido ao acaso. Pode-se dizer que os dados são compatíveis com existência de associação entre
bronquite na infância e tosse na adolescência, na população.
Exercício
Considere os dados apresentados a seguir. Investigue a existência de associação entre níveis de β -
caroteno (mg/L) e hábito de fumar, em puérperas. Utilize as abordagens de Neyman e Pearson (nível
de significância de 5%) e de Fisher.
São apresentadas duas situações nas quais as amostras são coletadas de modo independente.
Situação 1
São coletados os pesos ao nascer de 50 recém nascidos (RN) com síndrome de desconforto respirató-
rio idiopático grave (SDIG) sendo que 54% dos RN vão a óbito. Pode existir uma diferença entre o
peso ao nascer de crianças que sobrevivem e as que morrem. É possível realizar um teste de hipóte-
se para confirmar a aparente diferença.
1.050* 2.500* 1.890* 1.760 2.830
1.175* 1.030* 1.940* 1.930 1.410
1.230* 1.100* 2.200* 2.015 1.715
1.310* 1.185* 2.270* 2.090 1.720
1.500* 1.225* 2.440* 2.600 2.040
1.600* 1.262* 2.560* 2.700 2.200
1.720* 1.295* 2.730* 2.950 2.400
1.750* 1.300* 1.130 2.550 3.160
1.770* 1.550* 1.575 2.570 3.400
2.275* 1.820* 1.680 3.005 3.640
Fonte: Hand DJ et alli. A handbook of small data sets. Chapman&Hall, 1994.
(*)
crianças que foram a óbito.
Situação 2
Quantifica-se uma enzima (ornithine carbonyl transferase) do fígado de dois grupos de
pessoas que sofrem de hepatite. Um grupo tem a forma viral, aguda e o outro, a crônica. Existe inte-
resse em verificar se existe diferença entre pessoas com cada tipo de doença, com base na medida da
enzima.
1.5
Estatísticas Hepatite viral Hepatite
aguda crônica
1
(log medidas) (log medi-
Density
das)
n 57 40
.5
Média 2,587 2,651
Variância 0,107 0,194
0
(n-1) 1.5 2 2.5 3 3.5 4 1.5 2 2.5 3 3.5 4
enzima
Density
Razão entre variâncias =1,8 normal enzima
Graphs by grupo
Pressuposições:
A variável sob estudo segue as seguintes distribuições nas populações de origem:
na população 1 ~ N ( µ1 , σ )
na população 2 ~ N (µ 2 , σ )
Observe que prossupõem-se amostras provenientes de populações normais, com médias distintas e
mesma dispersão.
Estatística do teste:
Para duas amostras n1 e n2, como consequência da distribuição amostral da média e Teorema Central
σ
do Limite, tem-se X 1 ~ N (media = µ1 , d . p = ) e
n1
σ
X 2 ~ N (media = µ 2 , d . p. = )
n2
σ pode ser estimado tanto por S1 como por S2. Existe uma combinação de S1 e S2 que fornece um
estimador melhor:
(n1 − 1)S12 + (n 2 − 1) S 22
Estimador ponderado (agregado): S p =
(n1 + n 2 − 2)
onde (n1+n2-2) é o número de graus de liberdade necessário para o cálculo de T, utilizando-se a dis-
tribuição t de “Student” .
Esta estatística pode ser utilizada para a realização do teste de hipótese e para o intervalo de confi-
ança da diferença de duas médias para amostras independentes.
Se o teste for segundo Neyman e Pearson, deve-se confrontar o valor observado (tobs) de T, com a
área de rejeição de H0, para um nível de significância pré-fixado. Se tobs cair na área de rejeição de H0,
opta-se pela rejeição da hipótese nula.
Se o teste for segundo Fisher, deve-se calcular a probabilidade de observar o valor observado (tobs) de
T ou um valor mais extremo, na curva especificada em H0. Decide-se com base no valor de p. Se a
probabilidade for pequena, concluí-se que os dados mostram evidência contrária à proposição de i-
gualdade de médias.
.001
Peso ao nascer segue distribuição normal?
Density
5.0e-04
Variâncias são iguais?
0
1000 1500 2000 2500 3000 3500 1000 1500 2000 2500 3000 3500
peso
Density
normal peso
Graphs by condicao
H0
Graus de liberdade = 27+23 – 2 = 48
Abordagem de Fisher
Pelo valor de p pode-se concluir que os dados mostram evidência contrária à proposição inicial. Os RN
sobreviventes apresentam maior peso médio ao nascer.
Existem situações onde os dados da primeira amostra estão, de alguma forma, relacionados aos da-
dos da segunda amostra. São apresentadas duas situações com amostras dependentes.
Situação 1
Uma certa droga está sendo testada quanto a seu efeito na pressão sanguínea. 12 pacientes tiveram
sua pressão arterial diastólica (PAD) medida antes e após o tratamento. Os resultados são mostrados
a seguir. Os resultados são compatíveis com uma droga que produz efeito na pressão sanguínea dias-
tólica?
Paciente PAD antes PAD após paciente PAD antes PAD após
1 120 125 7 140 146
2 124 126 8 135 133
3 130 138 9 126 127
4 118 117 10 130 135
5 140 143 11 126 126
6 128 128 12 127 131
H 0 : µ1 = µ2
Hipóteses
H a : µ1 ≠ µ2
Pressuposição:
d segue uma distribuição normal; d ~ N (µ d , σ d )
Estatística do teste:
(d ) − ( µ d ) (d ) − ( µ d ) d
T= = , que sob H0 torna-se T = ~ t ( n−1)
Sd Sd Sd
n n
Onde n é o número de pares de valores.
Se o teste for segundo Neyman e Pearson, deve-se comparar o valor observado (tobs) de T, com a
área de rejeição de H0, para um nível de significância pré-fixado. Se tobs cair na área de rejeição de H0,
opta-se por esta decisão.
Aplicação:
− 31
d= = −2,58 ;
12
sd = 9,501 = 3,082 ,
d 2,58
tobs = = = −2,90
sd 3,082
n 12
Área de aceitação de H0
Área de rejeição Área de rejeição de
Como o valor calculado caiu na área de rejeição, decide-se por rejeitar H0.
Conclui-se que foi encontrada diferença estatisticamente significante entre os níveis médios de pres-
são arterial diastólica antes e após o tratamento, para nível de significância de 5%. O tratamento
provoca aumento da pressão arterial diastólica.
Abordagem de Fisher
Cálculo do valor de p: pela tabela da Distribuição t de “Student”, e 11 graus de liberdade (12-1), ob-
tém-se 1%<p<2% ou p ≅ 1,5% (p ≅ 0,015). Os dados mostram evidência contrária à proposição
inicial. O tratamento produz efeito, os valores médios antes e após o tratamento são diferentes, sendo
que após o tratamento o nível médio é maior.