Escolar Documentos
Profissional Documentos
Cultura Documentos
A palavra estatstica vem do latim status e significa estado. Inicialmente, era utilizada para compilar
dados que descreviam caractersticas de pases (Estados). Em 1662, John Graunt publicou estatsticas
de nascimentos e mortes. A partir de ento, o estudo dos eventos vitais e da ocorrncia de doenas e
bitos impulsionou o desenvolvimento da Estatstica nos campos terico e aplicado (Triola, 1999).
Atualmente, ndices e indicadores estatsticos fazem parte do dia a dia, tais como taxa de inflao,
ndice de desemprego, taxa de natalidade, taxa de crescimento populacional, ndice de poluio atmosfrica, ndice de massa corporal, entre outros.
Estatstica: uma coleo de mtodos para planejar experimentos, obter e organizar dados, resumilos, analis-los, interpret-los e deles extrair concluses (Triola, 1999).
Bioestatstica Estatstica aplicada s cincias da vida.
Nveis de mensurao
Escala nominal
Os indivduos so classificados em categorias segundo uma caracterstica.
Ex: sexo (masculino, feminino), hbito de fumar (fumante, no fumante), sobrepeso (sim, no).
No existe ordem entre as categorias e suas representaes, se numricas, so destitudas de significado numrico.
Ex:
Escala ordinal
Os indivduos so classificados em categorias que possuem algum tipo inerente de ordem. Neste caso,
uma categoria pode ser "maior" ou "menor" do que outra.
Ex:
Embora exista ordem entre as categorias, a diferena entre categorias adjacentes no tem o mesmo
significado em toda a escala.
Escala numrica intervalar
Este nvel de mensurao possui um valor zero arbitrrio.
Ex: temperatura em graus Celsius.
Escala numrica de razes possui zero inerente natureza da caracterstica sendo aferida.
0
C
20
40
60
comprimento
A
B
C
0
F
68
104
140
cm
20
35
40
|dif0C|
|A-B|=20
|B-C|=20
|A-C|=40
polegada
50,8
88,9
101,6
|dif 0F|
|A-B|=36
|B-C|=36
|A-C|=72
|difcm|
|A-B|=15
|B-C|=5
|A-C|=20
dif0C/dif0F
0,56
0,56
0,56
|dif pol|
|A-B|=38,1
|B-C|=12,7
|A-C|=50,8
razo0C
A/B=0,50
B/C=0,67
A/C=0,33
Difcm/difpol
0,394
0,394
0,394
razo0F
A/B=0,65
B/C=0,74
A/C=0,49
Razocm
A/B=0,571
B/C=0,875
A/C=0,5
Razo0C/razo0F
0,77
0,91
0,67
Razopol
A/B=0,571
B/C=0,875
A/C=0,5
Razocm/razopol
1
1
1
De acordo com os nveis de mensurao, pode-se classificar a natureza das variveis segundo a
escala de mensurao em:
VARIVEL:
qualitativa
quantitativa
nominal
ordinal
discreta
contnua
O tipo da varivel ir indicar a melhor forma para o dado ser apresentado em tabelas e
grficos, em medidas de resumo e, a anlise estatstica mais adequada.
Tipo (natureza)
Coleta de dados
a observao e registro da categoria ou medida de variveis relacionadas ao objeto de estudo que
ocorrem em unidades (indivduos) de uma amostra ou populao.
X
Ex: Mdia aritmtica: X =
N
onde
i =1
= X 1 + X 2 + ... + X N
e N = nmero de observaes.
i =1
Tipos de Amostragem
Probabilstica: cada unidade amostral tem probabilidade conhecida e diferente de zero de pertencer
amostra. usada alguma forma de sorteio para a obteno da amostra.
No probabilstica: no se conhece a probabilidade de cada unidade amostral pertencer amostra.
Algumas unidades tero probabilidade zero de pertencer amostra.
Ex: amostragem intencional; por voluntrios; acesso mais fcil; por quotas.
Tipos de amostragem probabilstica:
- aleatria simples (com e sem reposio);
- sistemtica;
- com partilha proporcional ao tamanho do estrato;
- por conglomerado.
Amostragem aleatria simples (AAS)
o processo de amostragem onde qualquer subconjunto de n elementos diferentes de uma populao de N elementos tem mesma probabilidade de ser sorteado (NN, 1998). Tamanho da populao:
N; tamanho da amostra: n; frao global de amostragem ou probabilidade de sortear um indivduo =
n
.
N
Exemplo 2 -Os dados a seguir so de peso (kg) de 80 mulheres identificadas pela varivel id (identificao).
Id Peso Id peso Id Peso
Id
Peso Id Peso Id Peso
1
65
16
71
31
70
46
75
61
68
76
75
2
65
17
84
32
72
47
79
62
69
77
79
3
58
18
63
33
75
48
79
63
76
78
73
4
59
19
64
34
76
49
82
64
77
79
82
5
67
20
65
35
77
50
83
65
80
80
76
6
68
21
74
36
78
51
65
66
81
7
74
22
81
37
80
52
68
67
59
8
81
23
66
38
82
53
75
68
64
9
66
24
69
39
63
54
76
69
70
10
61
25
71
40
66
55
78
70
80
11
64
26
71
41
72
56
78
71
85
12
65
27
72
42
72
57
81
72
70
13
67
28
73
43
72
58
85
73
71
14
68
29
75
44
73
59
66
74
72
15
70
30
77
45
73
60
68
75
72
Fonte: Osborn JF. Statistical Exercises in Medical Research. John Wiley & Sons Inc., 1979. (adaptado).
a)
b)
c)
d)
Sorteie uma amostra aleatria de tamanho 20 utilizando a tabela dos nmeros equiprovveis.
Apresente os valores do peso dos indivduos sorteados.
Some os valores e divida pelo tamanho da amostra (nmero de valores).
Este valor o parmetro, o estimador ou a estimativa do peso mdio?
Amostragem sistemtica
Utiliza-se a ordenao natural dos elementos da populao (pronturios, casa, ordem de nascimento).
Intervalo de amostragem
k=
N
n
tra
Incio casual i, sorteado entre 1 e k, inclusive
Amostra sorteada composta pelos elementos: i, i+k, i+2k, ...., i+(n-1)k
OBS: necessrio ter cuidado com a periodicidade dos dados, por exemplo se for feito sorteio de dia
no ms, pode cair sempre em um domingo onde o padro de ocorrncia do evento pode ser diferente.
Exemplo: N=80; n=10;
k=
N 80
=
= 8 ; incio casual: 1 i 8
n 10
4
12
20
28
36
44
52
60
68
76
N 321
=
= 2,084
n 154
1,941
1,941+2,084 = 4,025
1,941+4,1680 = 6,109
1,941+6,252 = 8,193
.
.
.
1,941+318,852 = 320,793
elemento
1
4
6
8
.
.
.
320
=N
A amostra deve conter os elementos da populao nas mesmas propores dos estratos. Tem-se que
os tamanhos dos estratos amostrais so n1, n2 e n3 tal que
=n
Aplicando-se a proporo:
ni N i
N
=
ni = n i
n
N
N
Exemplo:
N=500; N1=50; N2=150; N3=300 e n=40
Estrato i
1
2
3
Total
n1 = 40
Tamanho do estrato
na populao
na amostra
Ni
ni
50
4
150
12
300
24
500
40
ni N i
=
n
N
0,1
0,3
0,6
50
150
300
= 4 ; n2 = 40
= 12 ; n3 = 40
= 24
500
500
500
Apresentao pontual
Ex: 9 indivduos
X: nmero de refeies dirias
x: 2, 3, 3, 1, 5, 2, 3, 2, 3
Apurao:
nmero de refeies
1
2
3
5
frequncia absoluta
1
3
4
1
Apresentao tabular
Elementos essenciais: ttulo, corpo, cabealho e coluna indicadora.
Tabela 1 - Ttulo: o que (natureza do fato estudado)?como (variveis)?onde? quando?
Varivel
%
n
Total
Fonte
notas, chamadas
OBS: nenhuma casela (interseco entre linha e coluna) deve ficar em branco.
A tabela deve ser uniforme quanto ao nmero de casas decimais e conter os smbolos ou 0 quando
o valor numrico nulo e ... quando no se dispe do dado.
Exemplo:
Distribuio de crianas(1) segundo nveis sricos de retinol. Cansao Bahia, 1992
Nvel de retinol srico(2)
n
%
Aceitvel
89
55,3
Baixo
65
40,4
Deficiente
7
4,3
Total
161
100
(1)
24 72 meses
(2)
aceitvel: 20,0 49,9 g/dl; baixo: 10,0 19,9 g/dl; deficiente: <10,0 g/dl
Fonte: Prado MS et al., 1995.
Apresentao tabular de varivel quantitativa contnua
Como idade varivel quantitativa contnua, a melhor forma
intervalos de valores denominados intervalos de classe.
Ex:
x: 5, 5, 15, 20, 20, 20, 21, 21, 22, 22
idade
frequncia
5 |-- 10
2
10 |-- 15
0
15 |-- 20
1
20 |-- 25
7
Total
10
%
20
10
70
100
Intervalos de classe: conjunto de observaes contidas entre dois valores limite (limite inferior e limite
superior).
Representao:
5 | -- 10
5 -- 10
5 |-- | 10
intervalo fechado no limite inferior e aberto no limite superior (contm o valor 5 mas no contm o valor 10)
intervalo aberto nos limites inferior e superior
(no contm os valores 5 e 10)
intervalo fechado nos limites inferior e superior
(contm os valores 5 e 10)
OBS: Representar o intervalo 0 |-- | 11 meses equivalente a represent-lo como 0 |-- 12 meses.
X: peso (g)
X: 2250, 3025, 1600, 2725, 3750, 3950, 2400, 2180, 2520, 2530
Peso (g)
1500|--2000
2000|--2500
2500|--3000
3000|--3500
3500|--4000
Total
frequncia
1
3
3
1
2
10
%
10
30
30
10
20
100
X: Altura (cm)
X: 1,63; 1,60; 1,59; 1,60; 1,45; 1,73; 2,05; 1,85
Altura (cm)
1,45|--1,55
1,55|--1,65
1,65|--1,75
1,75|--1,85
1,85|--1,95
1,95|--2,05
2,05|--2,15
Total
n
1
4
1
0
1
0
1
8
%
12,5
50,0
12,5
12,5
12,5
100
Os intervalos de classe devem ser mutuamente exclusivos (um indivduo no pode ser classificado
em dois intervalos ao mesmo tempo) e exaustivos (nenhum indivduo pode ficar sem classificao).
A amplitude do intervalo o tamanho do intervalo de classe. A amplitude do intervalo e o nmero
de intervalos dependem basicamente do problema especfico e da literatura existente sobre o assunto.
O ponto mdio do intervalo calculado somando-se o limite inferior e limite superior, dividindo-se
o resultado por dois.
Exemplo 5 Os dados a seguir so de altura de uma amostra de 351 mulheres idosas selecionadas
aleatoriamente de uma comunidade para um estudo de osteoporose.
142
152
154
145
152
154
145
152
154
145
152
154
146
152
155
147
152
155
147
153
155
147
153
155
147
153
155
148
153
155
148
153
155
149
153
155
150
153
155
150
153
155
150
153
155
150
153
155
150
153
155
150
153
155
151
153
155
151
153
155
151
153
155
151
153
155
151
153
155
151
154
155
152
154
155
152
154
156
152
154
156
152
154
156
152
154
156
152
154
156
Fonte: Hand DJ et alli. A
156
156
156
156
156
156
156
156
156
156
156
156
156
156
156
157
157
157
157
157
157
157
157
157
157
157
157
157
157
157
157
157
157
157
157
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
159
159
159
159
159
159
159
159
159
159
159
159
159
159
159
159
159
160
160
160
160
160
160
160
160
160
160
160
160
160
160
160
160
160
160
160
160
160
161
161
161
161
161
161
161
161
161
161
161
161
161
161
161
161
161
161
161
161
162
162
162
162
162
162
162
162
162
162
162
162
162
162
162
162
162
162
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
164
164
164
164
164
164
164
164
164
164
164
164
164
164
164
164
164
165
165
165
165
165
165
165
165
165
165
165
165
165
165
165
165
165
165
166
166
166
166
166
166
166
166
166
166
166
167
167
167
167
167
167
167
168
168
168
168
168
168
169
169
169
169
169
169
169
169
170
170
170
170
170
170
170
170
170
170
170
171
171
171
173
173
173
174
176
177
178
178
10
Exerccios suplementares
Exerccio S1
Os dados a seguir so relativos ao nmero de refeies diria de 50 indivduos.
2
3
2
1
2
6
5
1
2
2
1
2
5
6
2
2
3
2
3
4
2
3
2
3
3
3
4
3
3
1
4
3
4
4
3
3
1
6
4
4
2
4
Fonte X.
a) Apresente os dados em uma tabela.
b) Interprete a disperso dos dados.
4
4
3
4
3
3
2
5
Exerccio S2
Os dados a seguir so provenientes do grupo Western Collaborative Group Study, criado na Califrnia
em 1960-61. Foram estudados 3154 homens de meia idade para investigar a relao entre padres de
comportamento e risco de doena coronariana. Os dados apresentados so de 40 homens para os
quais foram medidos os nveis de colesterol (mg/100ml) e realizada uma categorizao segundo comportamento. O comportamento de tipo A caracterizado pela urgncia, agressividade e ambio. O de
tipo B relaxado, no competitivo e menos preocupado.
Tipo A: nvel de colesterol
233
254
291
276
312
234
250
181
246
248
246
252
224
153
197
252
212
183
268
202
224
218
188
137
250
202
239
212
148
194
239
325
169
213
a) Quais variveis que esto sendo estudadas? Identifique a natureza de cada varivel.
b) Apure os dados e apresente a varivel nvel de colesterol em uma tabela bidimensional, considerando os nveis A e B.
c) Classifique a varivel nvel de colesterol em duas categorias: nvel normal (abaixo de 160
mg/100ml) e nvel elevado (160 mg/100ml e mais) e faa uma tabela bidimensional cruzando
as variveis: nvel de colesterol (normal e alto) e tipo de comportamento (A e B). Interprete
os resultados.
Exerccio S3
Os dados a seguir so provenientes de um estudo realizado com escolares de 7 a 10 anos que participaram de um treinamento para melhorar a habilidade dos mesmos em especificar os alimentos consumidos atravs de um preenchimento de um Dirio Alimentar. Foram atribudos escores antes e aps
o treinamento para cada criana participante da pesquisa. Apresente os dados dos escores em trs
tabelas separadas e compare os dados da tabela antes e aps o treinamento.
11
Tabela 1. Valores das mdias do escore obtido por aluno antes e aps o treinamento, segundo as
categorias identificao do alimento, detalhamento e quantificao. So Paulo, SP, 2007.
Escolar
Identificao de aliDetalhamento do
Quantificao
mento
alimento
Antes
Depois
Antes
Depois
Antes
Depois
1
4,67
5,00
2,50
1,88
3,17
2
4,89
5,00
3,33
2,50
4,33
3
5,00
5,00
1,25
2,67
5,00
4
4,44
5,00
0,83
1,25
4,50
5
5,00
4,92
2,50
0,63
5,00
6
3,11
5,00
3,33
3,00
4,87
7
3,83
5,00
2,50
3,33
5,00
8
4,17
5,00
2,50
3,75
2,33
4,58
9
3,33
4,58
2,50
3,13
1,00
4,58
10
5,00
5,00
5,00
5,00
11
2,50
4,67
2,50
4,33
12
4,17
4,44
1,25
2,67
0,50
4,89
13
4,50
5,00
1,25
2,50
3,22
14
3,33
5,00
2,50
1,67
3,17
5,00
15
5,00
5,00
3,13
0,67
4,50
16
3,33
5,00
2,50
0,42
3,39
17
3,33
5,00
2,50
4,17
18
3,83
5,00
3,67
19
1,67
5,00
0,63
0,83
20
3,17
5,00
1,25
2,50
4,42
21
3,89
5,00
2,50
2,33
22
3,89
5,00
2,50
4,28
1,33
23
5,00
5,00
5,00
24
5,00
5,00
2,50
4,17
3,78
25
4,50
5,00
0,63
0,83
3,00
26
1,67
5,00
0,83
27
5,00
5,00
0,50
2,17
5,00
28
3,33
5,00
0,50
0,67
1,00
29
4,53
4,53
1,50
2,50
30
3,33
5,00
0,63
1,88
3,58
31
3,75
5,00
1,67
4,50
32
1,67
5,00
1,00
1,17
33
4,17
3,75
0,21
0,25
- escore = zero.
Fonte: Consolmagno DC, 2009.
Exerccio S4
Os dados a seguir so relativos ao peso ao nascer (g) de recm nascidos com sndrome de desconforto idioptico grave. Algumas crianas foram a bito (*) e outras sobrevieram.
1050*
2500*
1890*
1760
2830
1175*
1030*
1940*
1930
1410
1230*
1100*
2200*
2015
1715
1310*
1185*
2270*
2090
1720
1500*
1225*
2440*
2600
2040
1600*
1262*
2560*
2700
2200
1720*
1295*
2730*
2950
2400
1750*
1300*
1130
2550
3160
1770*
1550*
1575
2570
3400
2275*
1820*
1680
3005
3640
Fonte: Hand DJ et al., 1994.
12
a) Classifique a varivel peso ao nascer em duas categorias: baixo peso (abaixo de 2500 g) e
no baixo peso (2500 g e mais) e faa uma tabela bidimensional cruzando as variveis: condio do recm-nascido (sobrevivente ou no sobrevivente) e peso ao nascer (baixo peso e no
baixo peso).
b) Interprete os resultados.
Exerccio S5
A tabela abaixo foi extrada do artigo Tendncia secular do peso ao nascer na cidade de So Paulo
(1976-1998) de MONTEIRO CA et al. (Rev. Sade Pblica; 2000:34 (6, supl): 26-40).
Comente os resultados apresentados.
Apresentao grfica: diagrama de barras, diagramas de setores circulares, diagrama linear, histograma, polgono de frequncia, ogiva de frequncias acumuladas.
Diagrama de barras
Utilizado para representar as variveis qualitativa nominal, ordinal e quantitativa discreta.
Caractersticas: figuras geomtricas (barras) separadas e bases de mesmo tamanho. A altura das
barras proporcional s frequncias.
Varivel qualitativa
O Inqurito Brasileiro de Nutrio (IBRANUTRI) foi um estudo de pacientes maiores de 18 anos, internados em hospitais da rede pblica, conveniados, filantrpicos e universitrios de 12 estados do Brasil
e do Distrito Federal, realizado de maio a novembro de 1996 (in Soares JF, Siqueira AL. Introduo
Estatstica Mdica, COOPMED,Belo Horizonte, MG 2002). Os dados da tabela so retirados deste estudo.
Distribuio de pacientes segundo estado nutricional. IBRANUTRI, maio a novembro, 1996.
Estado nutricional
n
%
Nutrido
2061
51,5
Desnutrido
1905
47,6
Sem diagnstico
34
0,9
Total
4000
100,0
Fonte: adaptado de Soares JF, Siqueira AL, 2002.
13
2500
Nmero
2000
1500
1000
500
0
Nutrido
Desnutrido
Sem
diagnstico
Estado nutricional
Nmero
2050
2000
1950
1900
1850
1800
Nutrido
Desnutrido
Estado nutricional
2000
1500
1000
500
0
Nutrido
Desnutrido
Estado nutricional
14
Pas
Noruega
Polnia
Portugal
Romnia
Espanha
Sucia
Sua
Reino Unido
Unio Sovitica
Iugoslvia
Hungria
Irlanda
Consumo anual
9,4
6,9
6,2
6,2
7,1
9,9
13,1
17,4
9,3
4,4
5,3
13,9
Pas
Iugoslvia
Hungria
Rom nia
Pas
Portugal
Irlanda
Polnia
Hungria
Espanha
Iugoslvia
Unio Sovitica
Bulgria
Reino Unido
Sua
ustria
Sucia
Itlia
Espanha
Romnia
Unio Sovitica
Portugal
Noruega
Polnia
Holanda
Noruega
Finlndia
Holanda
Checoslovquia
Itlia
Grcia
Sucia
Frana
Albnia
Finlndia
Grcia
Alemanha Ocidental
Dinam arca
Dinamarca
Checoslovquia
Sua
Bulgria
Blgica
Blgica
ustria
Irlanda
Alemanha Oriental
Reino Unido
Albnia
Frana
0
10
12
14
16
18
20
10
15
15
20
60
50
40
30
20
10
0
Nutrido
Des nutrido
m oderado
Estado nutriciona l
50
40
30
20
10
0
0
2
3
Nmero de bens
16
Exemplo 7
Os dados a seguir so relativos ao nmero de refeies dirias de 50 indivduos, utilizados no exerccio S1.
2
3
2
1
1
2
2
1
2
2
3
2
3
2
3
3
3
1
4
3
3
1
6
4
c) Apresente os dados em um grfico.
d) Interprete o grfico.
2
2
3
3
4
4
6
5
4
4
4
2
5
6
2
3
3
4
4
4
3
4
3
3
2
5
12,6%
52,0%
35,4%
Nutrido
Desnutrido moderado
Desnutrido grave
Milhoes de toneladas
ndia
80
Estados Unidos
70
60
50
40
30
20
10
0
1960
1965
1970
1975
1980
1985
1990
1995
2000
2005
Ano
17
Exemplo 8
Os dados so referentes a produo (kg) de carne de peixes e de carne vermelha e de carneiro por
pessoa, no mundo, no perodo de 1950 a 2000.
Ano
Pesca ocenica
Carne vermelha e
(kg)
de carneiro (kg)
1950
7,9
9,0
1960
12,0
10,0
1970
16,1
12,0
1980
15,5
11,9
1990
16,3
12,0
2000
15,0
11,7
Fonte: State of the World, 2001. The Worldwatch Institute.
a) Apresente os dados em um grfico.
b) Interprete os resultados.
Histograma
Adequado para representar varivel quantitativa contnua
Intervalos de classe com mesma amplitude
Distribuio de recm-nascidos acometidos de sndrome de desconforto idioptico grave segundo
peso ao nascer (g)
Peso(g)
No
%
1000 |-- 1500
13
26
1500 |-- 2000
15
30
2000 |-- 2500
9
18
2500 |-- 3000
9
18
3000 |-- 3500
3
6
3500 |-- 4000
1
2
Total
50
100
Fonte: van Vliet PKJ, Gupta JM. (1973).
35
30
25
20
15
10
5
0
1000
1500
2000
2500
3000
3500
4000
18
Notar que o grfico pode ser construdo considerando-se pessoas por unidade de medida
(densidade)
1500
2000
2500
3000
3500
4000
No
13
15
9
9
3
1
50
nmero/g
Peso(g)
1000 |-1500 |-2000 |-2500 |-3000 |-3500 |-Total
Amplitude
500
500
500
500
500
500
No/amplitude
0,026
0,030
0,018
0,018
0,006
0,002
(No/amplitude)x10000
26
30
18
18
6
2
0,030
0,025
0,020
0,015
0,010
0,005
0
1000
1500
2000
2500
3000
3500
4000
19
50
45
40
35
30
25
20
15
10
5
0
140
150
160
170
180
Altura (cm)
Grfico correto, com o ajuste para intervalos de classe com amplitudes diferentes.
25
Mulheres/cm
20
15
10
5
0
140
145
150
155
160
165
170
175
180
altura (cm)
20
Exemplo 10
Os dados a seguir so da altura (cm) de uma amostra de mulheres de Bangladesh.
Altura (cm)
nmero
137,0 |--140,0
71
140,0 |--143,0
137
143,0 |--145,0
154
145,0 |--147,0
199
147,0 |--150,0
279
150,0 |--153,0
221
153,0 |--155,0
94
155,0 |--157,0
51
157,0 |--160,0
37
Total
1243
Fonte: Hand DJ et al, 1994 (adaptado).
a) Represente os dados acima, graficamente em um histograma.
b) Interprete os resultados.
16
Nmero
14
12
10
8
6
4
2
0
0
21
Exemplo 11
Os dados a seguir so referentes distribuio de usurias do Servio de Sade X segundo idade
(anos). Municpio de So Paulo, 2009.
Idade (anos)
n
%
15|-- 20
14
19,5
20|-- 25
24
33,3
25|-- 30
16
22,2
30|-- 35
9
12,5
35|-- 40
8
11,1
40|--45
1
1,4
Total
72
100
Fonte: Dados hipotticos.
a) Apresente a varivel em um polgono de frequncias simples.
b) Interprete os resultados.
Intervalos de classe com amplitudes diferentes
Distribuio de mulheres
Altura (cm)
140|--150
150|--155
155|--160
160|--170
170|--180
Total
Fonte: Hand DJ et al., 1994.
Ajuste
No
12
52
109
156
22
351
Altura (cm)
140|--150
150|--155
155|--160
160|--170
170|--180
Total
No/amplitude
1,2
10,4
21,8
15,6
2,2
Amplitude
10
5
5
10
10
nm er o de p ess oa s/cm
25
20
15
10
5
0
1 30
1 35
140
14 5
1 50
1 55
160
16 5
1 70
175
180
18 5
1 90
Altu ra (c m)
22
Exemplo 12
Distribuio de homens segundo nvel de glicose no sangue (mg%).
Nvel de glicose no sangue
n
(mg%)
50|-- 100
13
100|-- 150
45
150|-- 200
28
200|-- 250
10
250|-- 300
3
300|-- 450
1
Fonte: X.
a) Apresente os dados acima graficamente utilizando o polgono de frequncias simples.
b) Interprete os resultados.
Polgono (ogiva) de frequncias acumuladas
Distribuio de mulheres idosas segundo a altura.
%
Altura (cm)
No
140|-145
1
0,29
145|-150
11
3,13
150|-155
52
14,81
155|-160
109
31,05
160|-165
106
30,20
165|-170
50
14,25
170|-175
18
5,13
175|-180
4
1,14
Total
351
100
Fonte: Hand DJ et al., 1994.
100
% acumulado
0,29
3,42
18,23
49,28
79,48
93,73
98,86
100
% acumulado
80
60
40
20
0
140
145
150
155
160 165
altura (cm)
Percentil
25%
50%
75%
Valor da varivel
156 cm
160 cm
164 cm
Medidas estatsticas
Q1 primeiro quartil
Q2 - segundo quartil ou mediana
Q3 terceiro quartil
23
Exemplo 13
Os dados a seguir so medidas de circunferncia do trax (polegadas) de 5732 soldados escoceses
apresentados pelo matemtico belga Adolphe Quetelet (17961874).
Medida (polegada)
nmero
%
% acumulada
33,0 | 34,0
3
34,0 | 35,0
19
35,0 | 36,0
81
36,0 | 37,0
189
37,0 | 38,0
409
38,0 | 39,0
753
39,0 | 40,0
1062
40,0 | 41,0
1082
41,0 | 42,0
935
42,0 | 43,0
646
43,0 | 44,0
313
44,0 | 45,0
168
45,0 | 46,0
50
46,0 | 47,0
18
47,0 | 48,0
3
48,0 | 49,0
1
Total
5732
Fonte: Daly F et al. Elements of Statistics, 1999.
a) Represente os dados em um polgono de frequncias acumuladas.
b) Utilizando o grfico, identifique o valor da circunferncia de trax que deixa 25% dos indivduos abaixo.
c) Qual o valor de circunferncia do trax que divide a distribuio em 2 partes iguais, isto ,
qual o valor da varivel que deixa 50% das observaes abaixo dele?
d) Qual a proporo de soldados com circunferncia do trax entre 40 a 42 polegadas?
e) Qual o valor de circunferncia do trax que deixa 95% dos soldados abaixo dele?
Representao grfica de duas variveis qualitativas
Os dados so de um estudo de obesidade em mulheres da zona urbana de Trinidade e Tobago,
realizado em 1985, que estuda a relao entre idade da menarca e a medida do trceps.
Distribuio de mulheres segundo idade da menarca e medida do trceps. Trinidade e Tobago,1985.
Idade da menarca
Medida do trceps
Intermediria
Grande
< 12 anos
29
36
12 anos e mais
197
150
Fonte: Hand DJ et al. A handbook of small data sets. Chapman&Hall, 1994.
Pequena
15
156
24
<12
nmero
200
12 e +
150
100
50
0
Pequena
Intermediria
Grande
medida do trceps
<12
12 e +
Total
Fonte:
Medida do trceps
Pequena
Intermediria
Grande
Total
n
%
n
%
n
%
n
%
15
8,8
29
12,8
36
19,4
80
13,7
156
91,2
197
87,2
150
80,6
503
86,3
171
100
226
100
186
100
583
100
Hand DJ et al. A handbook of small data sets. Chapman&Hall, 1994.
%
100
<12
80
12 e +
60
40
20
0
Pequena
Intermediria
Grande
Medida do trceps
nmero
Pequena
Intermediria
Grande
100
50
0
<12
12 e +
idade
25
Medida do trceps
Intermediria
n
%
29
36,2
197
39,2
226
38,8
Pequena
N
%
15
18,8
156
31,0
171
29,3
50
n
36
150
186
Grande
%
45,0
29,8
31,9
Total
n
80
503
583
%
100
100
100
%
Pequena
45
Intermediria
Grande
40
35
30
25
20
15
10
5
0
<12
12 e +
Idade da menarca
Exemplo 14
A tabela apresenta dados de classificao de pessoas segundo doena coronariana (CHD) segundo
hbito de consumo de caf para uma coorte de 1718 homens com idade 40-55 anos.
Distribuio de homens segundo presena de doena coronariana (CHD) e consumo de caf.
Moderado consumo de
Total
condio
Alto consumo de caf
caf (<100 xcaras/ms)
( 100xcaras/ms)
n
%
n
%
n
%
Com CHD
38
4,8
39
4,2
77
4,5
Sem CHD
752
95,2
889
95,8
1641
95,5
Total
790
100
928
100
1718
100
a) Apresente os dados graficamente.
b) Interprete os resultados.
Representao grfica de duas variveis quantitativas
Histograma
Fixando-se os percentuais na condio do recm-nascido:
Distribuio de recm-nascidos acometidos de sndrome de desconforto idioptico grave segundo
peso ao nascer (g) e condio do recm-nascido.
Peso(g)
Sobrevivente
No sobrevivente
Total
no
%
no
%
no
%
1000 |-- 1500
2
9
11
41
13
26
1500 |-- 2000
6
26
9
33
15
30
2000 |-- 2500
5
22
4
15
9
18
2500 |-- 3000
6
26
3
11
9
18
3000 |-- 3500
3
13
0
3
6
3500 |-- 4000
1
4
0
1
2
Total
23
100
27
100
50
100
Fonte: Hand DJ et al., 1994.
26
45
40
35
30
25
20
15
10
5
0
Sobrevivente
No sobrevivente
40
Sobrevivente
35
No sobrev.
30
25
20
15
10
5
0
0
500
1000
3500
4000
4500
27
120
Sobrevivente
100
No sobrevivente
80
60
40
20
0
1000 |--1500
1500 |--2000
2000 |--2500
2500 |--3000
3000 |--3500
3500 |--4000
peso (g)
no sobreviviente
sobrevivente
80
60
40
20
0
1000 1500 2000 2500 3000 3500 4000
peso (g)
Fonte: Hand DJ et al. A handbook of small data sets. Chapman&Hall, 1994.
Distribuio de recm-nascidos acometidos de sndrome de desconforto idioptico grave segundo
peso ao nascer (g) e condio do recm-nascido.
Exemplo 15
Utilize os dados da tabela e apresente-os graficamente.
Distribuio de escolares de 7 a 10 anos segundo peso e sexo. Duas escolas do Municpio de So Paulo, 2005.
Peso (kg)
Sexo
Masculino
Feminino
15,0 |-- 25,0
52
68
25,0 |-- 35,0
146
132
35,0 |-- 45,0
59
53
45,0 |-- 55,0
11
18
55,0 |-- 65,0
10
2
65,0 |-- 75,0
3
1
75,0 |-- 85,0
0
0
85,0 |-- 95,0
0
1
Total
281
275
Fonte: Koga CR. Estado nutricional de escolares de 7 a 10 anos de idade: diagnstico e comparao
de mtodos. So Paulo; 2005. [Dissertao de Mestrado-Faculdade de Sade Pblica da Universidade
de So Paulo/USP].
28
Exemplo 16
Utilize os dados da tabela e apresente-os graficamente.
Distribuio de percentual (%) de escolares segundo estatura (cm), sexo e idade.
Estatura (cm)
Sexo
Masculino
Feminino
105,0 119,9
3
16
120,0 124,9
36
31
125,0 129,9
61
74
130,0 134,9
57
41
135,0 139,9
52
43
140,0 144,9
38
30
145,0 149,9
22
26
150,0 159,9
12
14
Total
281
275
Fonte: Koga CR. Estado nutricional de escolares de 7 a 10 anos de idade: diagnstico e comparao
de mtodos. So Paulo; 2005. [Dissertao de Mestrado-Faculdade de Sade Pblica da Universidade
de So Paulo/USP].
350
Sobrepeso
300
Obeso
Nmero
250
200
150
100
50
0
2000
2002
Ano
29
Nmero
1000
Obeso
100
10
1
2000
2002
Ano
150
Doena X
Coeficiente
Doena Y
100
50
0
1990 1991 1992 1993 1994 1995
Ano
30
Doena X
Coeficiente
Doena Y
100
10
1
1990
1991
1992
1993
1994
1995
Ano
31
Exerccio S7
Apresentar a varivel comprimento ao nascer em um histograma.
Distribuio de recm-nascidos segundo comprimento ao nascer (cm). Hospital X, 2009.
Comprimento (cm)
n
%
40|--43
1
1,2
43|--46
45
55,6
46|--49
25
30,9
49|--52
4
5
52|--55
3
3,7
55|--58
1
1,2
58|--61
2
2,5
Total
81
100
Fonte: dados hipotticos.
Exerccio S8
Apresentar a varivel idade da me em um polgono de frequncias.
Distribuio de mes segundo idade (anos). Centro de Sade X, 2009.
Idade (anos)
n
%
15|-- 20
14
19,5
20|-- 25
24
33,3
25|-- 30
16
22,2
30|-- 35
9
12,5
35|-- 40
8
11,1
40|--45
1
1,4
Total
72
100
Fonte: dados hipotticos.
Exerccio S9
Defeitos do tubo neural so m formaes congnitas que surgem durante o desenvolvimento fetal.
conhecida como spina bfida. Estes dados so de um estudo realizado no pas de Gales Reino Unido,
para investigar possvel associao entre defeito do tubo neural e dieta materna. O estudo do tipo
caso-controle: mes que tinham tido bebs com spina bfida (casos) e suas irms que no tinham tido
(controles) foram avaliadas segundo suas dietas e classificadas em boa, razovel e ruim.
Distribuio de recm-nascidos casos (acometidos de spina bfida) e controles segundo dieta da
me.
Dieta
Casos
Controles
Total
n
%
n
%
n
%
Boa
34
43
77
Razovel
110
48
158
Pobre
100
32
132
Total
244
123
367
Fonte: Hand DJ ET al., 1994.
a) Calcular percentuais tomando-se como 100% o grupo (caso, controle) e interprete os resultados.
b) Apresentar os dados em um grfico.
32
Exerccio S10
Represente os dados da tabela em um polgono de frequncias e interprete os resultados. Trata-se de
condenados por embriaguez em Londres, 1970.
Idade
Homens
Mulheres
Nmero
%
Nmero
%
0 |--30
185
20,5
4
9,1
30 |-- 40
207
22,9
13
29,5
40 |-- 50
260
28,8
10
22,7
50 |--60
180
19,9
7
15,9
60 |--80
71
7,9
10
22,7
total
903
100
44
100
Fonte: Hand DJ et alli. A handbook of small data sets. Chapman&Hall, 1994.
Estatstica (frmula)
Mdia aritmtica o valor que indica o centro de equilbrio de uma distribuio de frequncias de uma
varivel quantitativa.
Definio: a soma dos valores de uma varivel, dividida pelo nmero de valores.
Em uma amostra aleatria simples de tamanho n, composta das observaes x1, x2, ..., xn, a mdia
aritmtica ( x ) igual a:
n
x + x 2 + ... + x n
x= 1
=
n
i =1
OBS:
s existe para variveis quantitativas e seu valor nico;
33
Exemplo:
Os dados a seguir so provenientes do grupo Western Collaborative Group Study. Grupo tipo A: pessoas caracterizadas pela urgncia, agressividade e ambio. Os participantes de tipo B so mais relaxados, no competitivos e menos preocupados.
Tipo A: nvel de colesterol
233
291
312
254
276
234
250
181
246
248
197
252
268
202
224
218
239
212
239
325
188
137
250
202
148
194
169
213
Colesterol mdio:
xA =
246
252
224
153
212
183
xB =
O nvel mdio de colesterol dos homens do grupo A 245,1 mg/100ml e do tipo B _____________.
Exemplo 18
Os dados a seguir so provenientes de um estudo que avaliou o consumo alimentar de crianas de 7
a 10 anos de uma escola pblica do municpio de So Paulo no ano de 2008. Os dados apresentados
so de 15 meninos e 10 meninas para os quais foram investigados o consumo em energia (Kcal) de
um dia alimentar. Calcule a mdia aritmtica do consumo de energia para cada sexo:
Meninos
1976
1412
3234
1635
1405
2230
1410
1241
1782
1866
2167
1917
2622
1824
3912
2964
2203
1478
1151
1083
1362
1392
1637
1628
x Meninos =
Meninas
2002
x Meninas =
Mediana
o valor que ocupa a posio central de uma srie de n observaes, quando estas esto ordenadas
de forma crescente ou decrescente.
Quando nmero de observaes (n) for mpar:
a mediana o valor da varivel que ocupa o posto
n+1
2
34
n
2
n+2
2
OBS:
existe para varivel quantitativa e qualitativa ordinal;
Ex:
Tipo A: nvel de colesterol
233
291
312
254
276
234
250
181
246
248
197
252
268
202
224
218
239
212
239
325
Ordenando-se os valores:
Tipo A: nvel de colesterol
181
202
218
197
212
224
233
234
239
239
246
248
250
252
254
268
276
291
312
325
224
153
212
183
188
137
250
202
148
194
169
213
246
252
Ordenando-se os valores:
Mediana:
Exemplo 19
Com os dados do exemplo 18, calcule a quantidade mediana de energia para os meninos e para as
meninas:
Meninos
Mediana=
Meninas
35
Mediana=
Medidas de disperso
Valores mnimo e mximo: valores extremos da distribuio.
Amplitude de variao: a diferena entre os 2 valores extremos da distribuio.
Varincia: indica o quanto, em mdia, os quadrados dos desvios de cada observao em relao
mdia aritmtica esto afastados desta mdia.
N
(X
Populacional
Parmetro
S (2N ) =
X )2
i =1
estimador :
(X
S (2N 1) =
ou
N
i
X )2
i =1
N 1
= 2
S = S2
CV =
S
x100
X
Ex e m pl o :
Tipo A: nvel de colesterol
233
291
312
254
276
234
Varincia:
s2 =
Desvio padro
250
181
246
248
197
252
268
202
224
218
239
212
239
325
148
194
169
213
CV =
246
252
36,64
x100 = 15%
245,05
224
153
212
183
188
137
250
202
36
Varincia:
s2 =
Desvio padro
s=
Meninas
37
Quartil
Valores da varivel que dividem a distribuio em quatro partes iguais.
25%
25%
25%
25%
50%
75%
Q1 = x 1
( ( n +1))
4
Q3 = x
1
( (n + 1))
4
3
( ( n +1))
4
3
( ( n + 1)) so ndices que representam as posies
4
ocupadas por x.
Os dados abaixo so referentes ao peso ao nascer
desconforto respiratrio idioptico grave.
23 crianas sobreviveram e 27 foram a bito (*).
1.050*
2.500*
1.175*
1.030*
1.230*
1.100*
1.310*
1.185*
1.500*
1.225*
1.600*
1.262*
1.720*
1.295*
1.750*
1.300*
1.770*
1.550*
2.275*
1.820*
1.890*
1.940*
2.200*
2.270*
2.440*
2.560*
2.730*
1.130
1.575
1.680
1.760
1.930
2.015
2.090
2.600
2.700
2.950
2.550
2.570
3.005
1.680
1.715
1.720
1.760
1.930
2.015
2.040
2.090
2.200
2.400
2.830
1.410
1.715
1.720
2.040
2.200
2.400
3.160
3.400
3.640
2.550
2.570
2.600
2.700
2.830
2.950
3.005
3.160
3.400
3.640
Fonte: van Vliet PK; Gupta JM. Sodium bicabornate in idiopatic respiratory distress syndrome. Arch.
38
Q1 = x
= x 6 = 1720 g ; Q3 = x
1
( ( 23+1))
4
Q2 = x 1
( ( 23+1))
2
3
( ( 23+1))
4
= x18 = 2830 g
= x12 = 2200g
Q1 = x 1
= x7 = 1230g ; Q3 = x 3
Q2 = x 1
= x14 = 1600 g
( ( 27+1))
4
( ( 27 +1))
2
( ( 27 +1))
4
= x21 = 2200g
Q1 = x 1
( ( 22+1))
4
= x 23 = x
(
3
(5 )
4
Q1 = 1715 +
Q3 = x 3
3
(1720 1715) = 1718,8 g
4
( ( 22+1))
4
=x
1
(17 )
4
1
Q3 = 2700 + ( 2830 2700) = 2732,5 g
4
Decil
Valores da varivel que dividem a distribuio em dez partes iguais.
Percentil
Valores da varivel que dividem a distribuio em cem partes iguais.
P5 = x
5
( 23+1))
100
= x 120 = x
(
100
1
(1 )
5
1
P5 = 1130 + (1410 1130) = 1186 g
5
39
Percentil 10:
P10 = x
10
(
( 23+1))
100
= x 240 = x
(
100
2 ;
(2 )
5
P10 = 1410 +
2
(1575 1410 ) = 1476 g
5
Percentil 50:
P50 = x
50
( 23+1))
100
100
Percentil 75:
P75 = x
75
( 23+1))
100
Percentil 90:
P90 = x
= x 2160 = x
90
( 23+1))
100
100
3 ;
( 21 )
5
P90 = 3160 +
3
(3400 3160) = 3304 g
5
Percentil 95:
P95 = x
= x 2280 = x
95
( 23+1))
100
100
4 ;
( 22 )
5
P95 = 3400 +
4
(3640 3400 ) = 3592 g
5
233
234
239
239
246
248
250
252
254
268
276
291
312
325
185
188
194
202
212
213
224
226
242
246
250
252
263
344
Tipo A:
n=20;
Q1 = x 1
4
Q3 = x 3
4
( n +1)
( n +1)
= x 21 = x
= x3
4
( 21)
=x
1
4
3
15
4
= 218 +
1
(224 218) = 218 + 1,5 = 219,5
4
= 254 +
3
(268 254) = 254 + 10,5 = 264,5
4
40
Q1 = x 1
4
( n +1)
Q3 = x 3
4
( n +1)
= x 21 = x
4
= x3
4
( 21)
1
= 175 + (183 175) = 175 + 2 = 177
4
1
4
=x
15
3
4
3
= 242 + (246 242) = 242 + 3 = 245
4
Fonte: Fonte: Hand DJ et alli. A handbook of small data sets. Chapman&Hall, 1994.
Grfico - Box plot da varivel nvel de colesterol segundo tipo de personalidade.
Exemplo 21
Os dados a seguir so de uma pesquisa que investigou as concentraes de minerais no leite materno, no perodo de 1984 a 1985. Foram coletadas amostras de leite materno de 55 mulheres que tiveram seus filhos no Hospital Maternidade Odete Valadares, em Belo Horizonte. As mes foram divididas
em perodo de lactao: colostro e leite maduro.
clcio (g/mL de leite) grupo colostro
113
181
254
311
334
145
221
256
312
344
163
225
275
313
372
163
231
296
323
375
167
241
303
325
375
437
clcio (g/mL de leite) grupo maduro
159
175
181
188
200
206
213
214
217
231
238
238
242
244
256
259
260
263
264
275
277
279
281
293
302
303
314
344
394
41
d) Comente o grfico box plot quanto a disperso dos dados, existncia de valores aberrantes e
igualdade de medianas.
Exerccios suplementares
Exerccio S11
Os dados a seguir so provenientes de um estudo que avalia o crescimento de crianas de 7 a 10
anos de uma escola pblica do municpio de So Paulo no ano de 2008. Os dados apresentados so
de 16 meninos e 16 meninas para os quais foram aferidos a circunferncia do brao (CB) (cm):
Meninos
18,3
19,3
20,9
19,0
20,5
16,3
21,0
17,8
21,6
22,6
27,3
26,7
29,0
22,0
25,2
19,5
Meninas
21,5
16,1
18,6
19,9
17,9
23,7
20,0
19,4
23,5
18,0
23,0
17,9
20,3
23,1
17,8
18,2
a) Calcule a circunferncia braquial (cm) mdia e mediana para cada sexo.
b) Calcule a varincia, o desvio-padro e o coeficiente de variao de Pearson da circunferncia
braquial (cm) para cada sexo.
c) Meninos e meninas so parecidos quanto a circunferncia braquial (cm)?
d) E quanto variabilidade?
Exerccio S12
Os dados a seguir so provenientes de um estudo que avaliou o nvel de colesterol sanguneo (mg/dl)
de 100 homens.
id
colesterol
id
colesterol
id
colesterol
id
colesterol
1
134
26
189
51
216
76
239
2
147
27
189
52
217
77
239
3
157
28
190
53
217
78
240
4
161
29
190
54
218
79
240
5
162
30
192
55
218
80
240
6
164
31
194
56
219
81
243
7
165
32
195
57
219
82
246
8
166
33
196
58
219
83
248
9
171
34
198
59
221
84
251
10
173
35
199
60
221
85
255
11
176
36
199
61
223
86
255
12
176
37
199
62
223
87
256
13
178
38
201
63
224
88
259
14
179
39
203
64
225
89
261
15
179
40
204
65
228
90
267
16
180
41
205
66
230
91
268
17
181
42
206
67
230
92
272
18
181
43
209
68
231
93
279
19
183
44
210
69
231
94
286
20
184
45
211
70
231
95
287
21
185
46
211
71
232
96
289
22
186
47
212
72
234
97
290
23
186
48
213
73
234
98
296
24
186
49
215
74
238
99
298
25
187
50
216
75
238
100
382
42
Y
correlao positiva
43
Ex:
Y
correlao negativa
45
40
35
30
25
20
15
10
5
0
66
68
70
72
74
76
correlao inexistente
X
Distino entre associao e causao: duas variveis podem estar associadas mas uma no ser
necessariamente a causa da outra.
Na correlao comum investigar se mudanas na magnitude de uma varivel so acompanhadas de
mudanas na magnitude da outra sem significar que uma varivel causa a outra.
44
), l-se rh
=
Definio:
XY
X Y
, onde
XY
Covarincia: o valor mdio do produto dos desvios de X e Y, em relao s suas respectivas mdias.
XY =
estimador (r)
Propriedades
a) 1
r=
_
_
X Yi Y
_
_
x
x
y
y
i i
_ 2
_ 2
x i x y i y
+1 ;
XY = YX .
45
Exemplo:
Os dados a seguir so provenientes de um estudo que investiga a composio corporal e fornece o
percentual de gordura corporal (%), idade e sexo para 18 adultos com idades entre 23 e 61 anos.
a) Qual a relao entre a idade e o % de gordura? Existe alguma evidncia de que a relao
diferente entre pessoas do sexo masculino e feminino? Explore os dados graficamente.
b) Calcule o coeficiente de correlao de Pearson entre a idade e o % de gordura para homens e
mulheres. Interprete os resultados.
46
Idade
23
23
27
27
39
41
45
49
50
% Gordura
9,5
27,9
7,8
17,8
31,4
25,9
27,4
25,2
31,1
Sexo
M
F
M
M
F
F
M
F
F
Idade
53
53
54
56
57
58
58
60
61
% Gordura
34,7
42,0
29,1
32,5
30,3
33,0
33,8
41,1
34,5
Sexo
F
F
F
F
F
F
F
F
F
M=masculino ; F= feminino
Fonte: Hand DJ et al. A handbook of small data sets. Chapman&Hall, 1994.
Disperso entre % de gordura e idade
70
f ff f
60
f
f
idade
50
40
30
20
5
10
15
20
25
gordura
30
35
40
45
Coeficiente de correlao
(idade,%gordura) masculino:
r=
( x x )( y y )
(x x)2
( y y)2
45,94
27,39
-7,61
170,74
236,45
56,25
12,25
12,25
210,25
291,00
37,52
61,23
4,73
138,65
242,13
236,45
291x 242,13
= 0,89
47
Sexo: feminino
Idade
(X)
23
39
41
49
50
53
53
54
56
57
58
58
60
61
50,86
% gordura
(Y)
27,9
31,4
25,9
25,2
31,1
34,7
42
29,1
32,5
30,3
33
33,8
41,1
34,5
32,32
Coeficiente de correlao
( x x ) ( y y ) ( x x )( y y )
(x x)2
( y y)2
-27,86
-11,86
-9,86
-1,86
-0,86
2,14
2,14
3,14
5,14
6,14
7,14
7,14
9,14
10,14
776,02
140,59
97,16
3,45
0,73
4,59
4,59
9,88
26,45
37,73
51,02
51,02
83,59
102,88
1389,71
19,55
0,85
41,23
50,71
1,49
5,66
93,67
10,38
0,03
4,09
0,46
2,19
77,06
4,75
312,12
-4,42
-0,92
-6,42
-7,12
-1,22
2,38
9,68
-3,22
0,18
-2,02
0,68
1,48
8,78
2,18
(idade,%gordura) feminino:
r=
123,17
10,93
63,30
13,23
1,05
5,10
20,74
-10,12
0,92
-12,42
4,85
10,56
80,26
22,10
333,64
333,64
1389,71x312,12
= 0,51 ;
% gordura
(Y)
9,5
7,8
17,8
27,4
27,9
31,4
25,9
25,2
31,1
34,7
42
29,1
32,5
30,3
33
33,8
41,1
34,5
x = 46,33 ; y = 28,61 ;
(x x)
( y y)
( x x )( y y )
(x x)2
( y y)2
-23,33
-19,33
-19,33
-1,33
-23,33
-7,33
-5,33
2,67
3,67
6,67
6,67
7,67
9,67
10,67
11,67
11,67
13,67
14,67
-19,11
-20,81
-10,81
-1,21
-0,71
2,79
-2,71
-3,41
2,49
6,09
13,39
0,49
3,89
1,69
4,39
5,19
12,49
5,89
Soma
445,93
402,35
209,01
1,61
16,59
-20,45
14,46
-9,10
9,13
40,59
89,26
3,75
37,59
18,01
51,20
60,54
170,68
86,37
1627,53
544,44
373,78
373,78
1,78
544,44
53,78
28,44
7,11
13,44
44,44
44,44
58,78
93,44
113,78
136,11
136,11
186,78
215,11
2970,00
365,23
433,10
116,88
1,47
0,51
7,78
7,35
11,64
6,19
37,07
179,26
0,24
15,12
2,85
19,26
26,92
155,97
34,68
1421,54
Sy =
( y y)
n 1
1421,54
= 9,14% ; S X =
17
(x x)
n 1
2970,0
= 13,22anos
17
48
r=
1627,53
= 0,79
2970,0 x1421,54
EQUAO DE RETA:
y = a + bx
, onde
sy
sx
9,14
= 0,548
13,22
Com base nesta equao possvel traar a reta que passa pelos pontos.
Para x = 30; y = 19,7; para x = 50, y = 30,7
50
y = 0,55x + 3,22
% gordura
40
30
20
10
0
0
20
40
60
idade (anos)
49
OBS: o coeficiente angular depende das unidades de medida de X e Y. Isto deve ser considerado
na deciso da importncia do coeficiente angular.
O coeficiente angular da equao de Y=f(X) diferente do coeficiente angular de X=f(Y), a menos
que os desvios padro de X e Y sejam iguais.
Usos da reta de regresso:
-
Predio - utilizar X para predizer Y; quando a correlao for forte, melhor a predio;
Correlao mede o grau de relacionamento linear entre X e Y;
Resumir os dados cada valor de X tem um valor mdio de Y.
Exemplo:
Em um estudo sobre o efeito dos componentes de uma dieta (X) sobre a composio lipdica (Y) foram obtidos os seguintes dados em uma amostra de 15 animais.
Componente da dieta (X) Composio lipdica (Y)
18
30
21
35
28
43
35
60
47
50
33
28
40
40
41
60
28
43
21
30
30
33
46
65
44
68
38
62
19
25
Fonte:X.
a) Apresente os dados em um diagrama de disperso.
b) Calcule o coeficiente de correlao de Pearson entre X e Y.
c) Calcule a reta de regresso da composio lipdica como funo do componente da dieta.
d) Desenhe a reta de regresso.
e) Interprete os coeficientes da reta de regresso.
50
Exerccio suplementar
Exerccio S13
So apresentados valores da massa do corpo sem gordura (kg) e da taxa de metabolismo (calorias)
de 10 pessoas de ambos os sexos
Pessoa
Sexo
Massa
1
M
62,0
2
M
62,9
3
F
36,1
4
F
54,6
5
F
48,5
6
F
42,0
7
M
47,4
8
F
50,6
9
F
42,0
10
M
48,7
Fonte: Moore et al., 2004 (adaptado)
Taxa
1792
1666
995
1425
1396
1418
1362
1502
1256
1614
a) Apresente os dados em um diagrama de disperso com pontos identificando os sexos. Apresente a varivel Y, taxa de metabolismo, como varivel resposta (dependente) e a varivel X,
massa do corpo sem gordura, como explicativa (independente).
b) Calcule o coeficiente de correlao entre as variveis taxa e massa.
c) Calcule os coeficientes da reta de regresso e desenhe a reta.
d) Interprete os coeficientes da reta.
e) Com base no grfico de disperso, voc diria que o coeficiente de correlao de Pearson para
o sexo feminino maior, menor ou igual ao do sexo masculino? Justifique.
Medidas de Associao
ANLISE DA DISTRIBUIO DE DUAS VARIVEIS QUALITATIVAS
ESTUDO DE PREVALNCIA
So apresentados dados sobre o estado nutricional de 1226 crianas brasileiras de 2 anos de idade,
segundo sexo. Local X, Ano Y.
Estado nutricional
Masculino
Feminino
Total
Desnutridas
29
20
49
Normais
574
603
1177
Total
603
623
1226
Fonte: dados hipotticos.
Prevalncia de desnutrio:
49
= 0,040
1226
ou 4%.
29
= 0,05
603
ou 5,0%; Feminino:
20
= 0,032 ou 3,2%.
623
29
Razo de prevalncias: 603 = 1,5
20
623
Diferena de prevalncias: 0,05-0,032=0,018 ou 1,8%.
51
A prevalncia de desnutrio parece ser maior entre as crianas do sexo masculino. Os meninos apresentam uma prevalncia 50% maior do que as meninas.
A prevalncia de desnutrio entre meninos 1,5 vezes (uma vez e meia) a prevalncia de desnutrio entre meninas.
Tambm possvel dizer que a prevalncia de desnutrio entre meninos 50% maior que a prevalncia entre meninas, calculado como (1,5-1)x100.
Para a diferena de prevalncias diz que a prevalncia entre meninos excede a de meninas em 1,8%
ou que a diferena entre as prevalncias de 1,8%.
Se a razo de prevalncias for igual a 1 ou a diferenas de prevalncias for igual a 0 ento diz-se que
as variveis no esto associadas.
De forma geral
Y: varivel resposta (Ex: desnutrio)
X: varivel explicativa ou de confuso (Ex: sexo)
Varivel Y
Varivel X
Y1
X1
a
X0
c
Total
m1
p= prevalncia de Y1= m1/n
p1= prevalncia de Y1|x1= a/n1
p0= prevalncia de Y1|x0= c/n0
rp= razo de prevalncias= p1/p0;
Y0
B
D
m2
Total (%)
n1 (100
n0 (100
n (100)
Exemplo 22
Distribuio de indivduos segundo presena de obesidade e consumo de chocolate.
colmo, Sucia. Ano 2009.
Consumo de chocolate
Obesidade (> 30Kg/m2)
Esto-
Sim
No
Total
Mais de 1 vez por semana
128
625
753
At 1 vez por ms
68
353
421
Total
196
978
1174
Fonte: dados adaptados de Janszky I, Mukamal KJ, Ljung R, et al. Chocolate consuption and
mortality following a first acute myocardial infarction: The Stockholm Heart Epidemiology
Program. Journal of Internal Medicine 2009; 266: 248-257.
a) Calcule a prevalncia de obesidade entre pessoas que consomem chocolate at 1 vez por
ms.
b) Calcule a prevalncia de obesidade entre pessoas que consomem chocolate mais de uma vez
por semana.
c) Calcule a razo de prevalncias.
d) Interprete a razo de prevalncias. Voc diria que a obesidade est associada ao consumo de
chocolate? Justifique.
52
ESTUDO DE INCIDNCIA
Distribuio de pessoas segundo hbito de fumar e morte em
Morte em 5 anos por DIC
Fumar
Sim
Sim
208
No
264
Total
472
Fonte: dados hipotticos.
Total
1058
1731
2789
Y1
A
C
M1
Y0
B
D
m2
Total (%)
n1 (100
n0 (100
n (100)
r0
risco
r1/r0
r1-r0
53
Exemplo 23
Padro de amamentao de crianas segundo episdios de doenas respiratrias.
Padro
Um ou mais episdios
Nenhum episdio
Total
Mamadeira e peito
207
238
445
Somente peito
34
72
106
Total
241
310
551
Fonte: Abramson JH e Abramson ZH.
a) Calcule a incidncia de um ou mais episdios de doenas respiratrias, dado que a criana se
alimenta de mamadeira e peito.
b) Calcule a incidncia de um ou mais episdios de doenas respiratrias, dado que a criana se
alimenta somente ao seio.
c) Calcule a razo de incidncias.
d) Calcule a diferena de incidncias.
e) Discuta os resultados.
Exemplo
Investigao de toxinfeco alimentar
Tomou sorvete de baunilha
Sim
No
Total
Toxiinfeco
Sim
43
3
46
No
11
18
29
Total (%)
54 (100)
21 (100)
75 (100)
r1= incidncia entre quem tomou sorvete= taxa de ataque1= 43/54= 0,80
r0= incidncia entre quem no tomou sorvete= taxa de ataque0= 3/21= 0,14
rr= risco relativo=
43 3 43x 21
: =
= 5,6
54 21 3x54
Odds ratio
Odds e probabilidade
Supor que durante um jogo de basquete um jogador acerta a cesta 2 vezes em 5 tentativas.
Chamando p ( p chapu) de probabilidade de acerto tem-se que p =
dade de erro, q =
2
= 0,4 ou 40% e a probabili5
3
= 0,6 ou 60%.
5
q = 1 p .
Odds ratio
54
Define-se odds como a razo entre a probabilidade de acerto e a probabilidade de erro, ou seja,
p
.
1 p
2
p
2 x5 2
= 5 =
= = 0,67 ou 0,67:1 (0,67 acertos
No exemplo acima, o odds a favor de acerto
1 p 3 3 x5 3
5
para 1 erro).
96 109 96
:
=
= 0,88
205 205 109
(entre no expostos) odds a favor de casos entre consumidores de 0-79g/dia: 104 : 666 = 104 = 0,16
770 770 666
odds ratio:
96 104 96 x 666
:
=
= 5,6
109 666 109 x104
Y1
a
c
m1
Y0
B
D
m2
Total (%)
n1 (100
n0 (100
n (100)
(a/n1)(b/n1)
(c/n0)(d/n0)
ad
odds ratio: [(a/n1)(b/n1)][(c/n0)(d/n0)]= b =
c
bc
55
Exemplo 24
Distribuio de recm-nascidos segundo condio caso - com defeitos do tubo neural; controle recm-nascidos que no tinham defeitos do tubo neural e dieta materna. Local X. Ano Y.
Dieta
Casos
Controles
Total
N
%
n
%
n
%
Boa
34
13,9
43
35,0
77
21,0
Razovel
110
45,1
48
39,0
158
43,0
Pobre
100
41,0
32
26,0
132
36,0
Total
244
100
123
100
367
100
Fonte: X
Considere a dieta boa como categoria de referncia (basal) e calcule:
a) O odds ratio de dieta razovel em relao a dieta boa.
b) O odds ratio de dieta pobre em relao a boa.
c) Interprete os resultados.
QUI-QUADRADO DE PEARSON
DUAS VARIVEIS QUALITATIVAS
Os exemplos so retirados de BUSSAB, Wilson de O; MORETTIN, Pedro A. Estatstica bsica. 5 Ed.
So Paulo: Saraiva, 2004.
X - curso universitrio e
Y sexo do aluno
Questo: sexo do indivduo influi na escolha do curso?
Situao 1
Curso
Masculino
n
24
16
40
Economia
Administrao
Total
Curso
Economia
Administrao
Total
N
24
16
40
Masculino
proporo
0,6
0,4
1
n
36
24
60
Feminino
n
36
24
60
Feminino
proporo
0,6
0,4
1
Total
n
60
40
100
n
60
40
100
Total
proporo
0,6
0,4
1
Definio de independncia:
A Ser do sexo masculino;
B Estar cursando economia.
A e B so independentes se P(A e B) = P(A) x P(B).
P(A e B) = Probabilidade (ser homem e estar cursando Economia)
P(A e B) =
24
= 0,24
100
56
P(A) =
Como
40
= 0,4
100
P(B) =
60
= 0,6
100
24
40 60
=
x
, ento A e B so independentes e portanto no existe associao.
100 100 100
Situao 2
Curso
Masculino
n
100 (a)
40 (c)
140
Fsica
Cincias Sociais
Total
Curso
Fsica
Cincias Sociais
Total
n
100
40
140
Masculino
proporo
0,7
0,3
1
n
20
40
60
Feminino
n
20 (b)
40 (d)
60
Feminino
proporo
0,3
0,7
1
Total
n
120
80
200
n
120
80
200
Total
proporo
0,6
0,4
1
A distribuio de alunos em cada curso, segundo sexo no a mesma, sexo e curso podem estar
associados.
Se a varivel sexo no fosse associada escolha do curso, quantos indivduos espera-se em Fsica,
entre os homens?
Aplicar a proporo marginal utilizando o raciocnio da regra de trs: 120 est para 200 assim como x
estar para 140; ou seja:
120
x
120 x140
=
e x=
200 140
200
Sexo
Fsica
Masculino (a)
Fsica
Feminino (b)
Cincias Sociais
Masculino (c)
Cincias Sociais
Feminino (d)
120
x140 = 84
200
120
x60 = 36
200
80
x140 = 56
200
80
x60 = 24
200
57
Masculino
n
84
56
140
Fsica
Cincias Sociais
Total
Valores observados
O
Valores esperados
E
(O-E)
100
40
20
40
84
56
36
24
16
-16
-16
16
=
Feminino
n
36
24
60
(O-E)2
Total
n
120
80
200
(O E ) 2
E
256
3,048
256
4,571
256
7,11
256
10,667
Qui-quadrado=25,397
(O E ) 2
=
E
2
19,98
7,02
17,02
5,98
bito
24
3
27
data sets.
Sobrevida
Total
13
37
10
13
23
50
Chapman&Hall, 1994.
(O-E)
(O-E)2
4,02
-4,02
-4,02
4,02
16,16
16,16
16,16
16,16
(O E ) 2
E
0,809
2,302
0,949
2,702
Qui-quadrado=6,762
58
24
3 x37
Portanto pode-se dizer que a incidncia de bitos parece maior entre as crianas que tiveram baixo
peso ao nascer. O risco de bito entre as crianas com baixo peso ao nascer 2,8 o risco das crianas
com peso ao nascer maior ou igual a 2.500g. O qui-quadrado diferente de zero. Pode-se suspeitar
da existncia de associao entre as variveis.
Exemplo 25
A tabela abaixo apresenta dados de classificao de pessoas segundo doena isqumica coronariana
(DIC) e hbito de consumo de caf, para uma coorte de 1718 homens com idade 40-55 anos.
Distribuio de homens segundo presena de doena isqumica coronariana (DIC) e consumo de caf.
Local X. Ano y.
Condio
Consumo mdio de caf
Total
Alto ( 100 xcaras/ms)
Moderado (<100 xcaras/ms)
Com DIC
38
39
77
Sem DIC
752
889
1641
Total
790
928
1718
Fonte: X.
a) calcule a incidncia de doena isqumica coronariana entre as pessoas com alto consumo de
caf.
b) calcule a incidncia de doena isqumica coronariana entre as pessoas com consumo moderado de caf.
c) calcule a razo de incidncias.
d) calcule a diferena de incidncias.
e) Interprete os resultados.
f) Calcule o qui-quadrado de Pearson.
EXERCCIOS SUPLEMENTARES
Exerccio S14
Com base nos dados da tabela calcule:
a) a incidncia de toxinfeco, dado que o indivduo consumiu presunto cozido.
b) a incidncia de toiinfeco, dado que o indivduo no consumiu presunto cozido.
c) a razo de incidncias.
d) a diferena de incidncias.
e) discuta os resultados.
Distribuio de indivduos segundo ocorrncia de toxiinfeco e consumo de presunto cozido. Local X.
Ano Y
Toxiinfeco
Presunto cozido
sim (taxa de ataque %)
no
Total
Sim
29 (0,63)
17
46
No
17 (0,59)
12
29
Total
46 (0,61)
29
75
RR
1,1
Fonte: Epi-Info 2000.
59
Exerccio S15
Os dados so de um estudo sobre consumo de pimenta e cncer gstrico, realizado
Consumo de pimenta
Casos
Controles
Sim
211
607
No
9
145
Total
220
752
Fonte: X.
a) calcule o odds a favor de casos entre pessoas que consomem pimenta.
b) calcule o odds a favor de casos entre pessoas que no consomem pimenta.
c) calcule a razo dos odds (odds ratio).
d) calcule o qui-quadrado de Pearson.
e) Discuta os resultados sobre possvel associao entre as variveis.
no Mxico. Ano Y.
Total
818
154
972
Exerccio S16
A tabela abaixo apresenta o nmero de crianas classificados segundo nvel de retinol srico e sexo.
Calcule a prevalncia de nvel inadequado de retinol para crianas de cada um dos sexos. Calcule a
razo de prevalncias. Calcule o qui-quadrado. Interprete os resultados.
Distribuio de crianas segundo sexo e nvel de retinol srico. Cansao, Bahia, 1992
Sexo
Nvel de retinol
Aceitvel
Inadequado
Total
Masculino
50
40
90
Feminino
39
32
71
Total
89
72
161
Fonte: Prado MS et al. ,Revista de Sade Pblica, 29(4)295 300, 1995.
Exerccio S17
Os dados a seguir so de pesquisa que estuda a associao entre amamentao ao seio e Diabetes
Mellitus tipo I . Local X. Ano Y.
Amamentao ao
Casos
Controles
Total
seio
No
35
17
52
Sim
311
329
640
Total
346
346
692
Fonte: Gimeno SGA. Consumo de leite e o Diabetes Mellitus insulino-dependente:um estudo
caso-controle. Tese de doutorado, 1996.
Com base nos dados apresentados
a) Calcule o odds ratio de casos entre expostos e no expostos.
b) Calcule e apresente o qui-quadrado de Pearson.
c) Os dados sugerem existncia de associao entre as variveis? Justifique.
60
Dizer que a eficcia de uma vacina de 70% corresponde a dizer que cada indivduo vacinado tem
probabilidade 0,7 de ficar imune.
P( A) =
numero de elementos de A 1
= = 0,5
numero de elementos de S
2
13 1
=
52 4
Exemplo:
P(Face 2 ou Face 3) no lanamento de um dado
P(2 ou 3)= P(2)+P(3)= 1/6 + 1/6 = 2/6 = 1/3.
P(Resultado mpar)= P(1 ou 3 ou 5)= P(1)+P(3)+P(5)= 3/6 = 1/2.
Regra da adio: P(A ou B) = P(A B) = P(A) + P(B) P(A B)
Probabilidade de eventos independentes
61
P(face 2 no primeiro dado e face 3 no segundo dado), no lanamento sequencial de dois dados =
P(2 e 3) = P(2)xP(3)= 1/6 x 1/6= 1/36= 0,0278= 2,78%.
Probabilidade condicional
A probabilidade condicional do evento A dado que ocorreu o evento B
P( A | B ) =
P ( A B)
, para P( B) 0
P( B)
Regra da multiplicao
P( A B) = P( A | B) xP( B)
se A e B forem independentes, P(A|B) = P(A) e como consequncia,
P( A B) = P( A) xP( B)
Exemplo
Considerar uma populao de homens que foram classificados segundo o hbito de fumar e doena
respiratria crnica. Nesta populao sabe-se que 5% dos homens tm doena respiratria e so no
fumantes, 15% tm doena e so fumantes, 50% no tm doena e so no fumantes e 30% no
tm a doena e so fumantes.
Problema respiratrio
No fumante
S
No ( R )
Sim (R)
Fumante
S
0,5 = P( S R )
0,05 = P( S R )
0,30 = P( R S )
0,15 = P(SR)
0,55 = P( S )
0,45 = P(S)
0,80 = P( R )
0,20 = P(R)
Escolhe-se um homem ao acaso, qual a probabilidade dele ter doena respiratria dado que era fumante?
P( R | S ) =
P( R S )
= 0,15/0,45 = 0,33
P(S )
P ( S R ) P ( S ) xP ( R )
62
A=
m
n
m
m
P ( A) ou seja, lim n = P( A)
n
n
m
tende a se estabilizar em torno de uma constante, P(A)
n
63
ou p.
p(x)
0,8
0,6
0,4
0,2
0
0
p=0,5
Exemplo:
Uma droga cura 15% dos pacientes. Administra-se a droga a um paciente. Qual a probabilidade do
paciente ficar curado? Qual a probabilidade do paciente no ficar curado?
X: 0,1 (X ser 0 se o paciente no se curar e 1 se houver cura)
P(X=1) =p(1)=p= 0,15 ; P(X=0) =p(0)= q=0,85
p(x)
0,8
0,6
0,4
0,2
0
0
p=0,15
A distribuio de Bernoulli pode ser escrita como P(X=1) = p(1)=p e P(X=0) =p(0) =1-p; ou, de forma mais genrica:
64
p( x ) = p x (1 p) 1 x , x=0,1
para x=0,
para x=1,
= E (X) = xp( x )
x
Na distribuio de Bernoulli:
2 = V(X ) = E[(X ) 2 ] = ( x ) 2 p( x )
x
Desvio padro:
SD(X) = V (X) =
(0 p) 2 .p( x = 0) + (1 p) 2 .p( x = 1) =
( p ) 2 .(1 p ) + (1 p ) 2 p =
p (1 p )[ p + (1 p )] =
pq
Resumindo,
Modelo de probabilidade Bernoulli
Uma varivel aleatria discreta X que pode assumir valores 0 e 1, com funo de probabilidade dada
x
1 x
p
(
x
)
=
p
(
1
p
)
por
com x=0,1
p(1 p) .
65
p + q = 1 q = 1 - p
X~Bernoulli(p)
X~B(n=2, p)
K,C,C ou
C,K,C ou
C,C,K
K,K,C ou
K,C,K ou
C,K,K
K,K,K
P(X=3) = p.p.p =
q2
2.p.q
p2
X~B(n=3, p)
q3
3 p.q2
3 p2.q
p3
66
n
n!
P( X = x) = p x q n x =
p x q n x
x! (n x)!
x
Resumindo
Modelo de probabilidade Binomial
P( X = x ) =
n!
p x q n x
x !(n x )!
npq
Exemplo
Lanamento de moedas.
n= nmero de ensaios (n de lanamentos)= 10;
X= varivel aleatria (n de caras);
x= resultado particular de X (0, 1, 2, ...,10);
p= probabilidade de ocorrer cara (sucesso); p=P(cara)= 0,5.
n
P( X = x) = p x (1 p ) n x
x
Distribuio de probabilidade B(n=10; p=0,5)
X= n de caras
0
1
2
3
4
5
6
7
8
9
10
P(X=x)
0,0010
0,0098
0,0439
0,1172
0,2051
0,2461
0,2051
0,1172
0,0439
0,0098
0,0010
1
0,30
p(X=x)
0,25
0,20
0,15
0,10
0,05
0,00
0
5
4
Mdia = np = 10x0,5 = 5.
Varincia = npq = 2,5.
Desvio padro =
67
10
Mdia =
Varincia =
X
n
p
= p = 0,5
n
n
p q pq
x =
n n
n
npq
Desvio padro =
= 0,025
npq
=
n2
pq
n
= 0,158
Exemplo 26
Um programa de incentivo amamentao exclusiva ao seio nos primeiros 3 meses est sendo executado em um hospital universitrio. Verificou-se que a eficcia do programa era de = 60%.
Para uma amostra de 20 mes que deram luz neste hospital, a distribuio de probabilidade da varivel aleatria nmero de mes amamentando exclusivamente ao seio a seguinte:
X= n de mes
amamentando
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
P(X=x|p=0,6)
0,000
0,000
0,000
0,000
0,000
0,001
0,005
0,015
0,035
0,071
0,117
0,160
0,180
0,166
0,124
0,075
0,035
0,012
0,003
0,000
0,000
0,20
p(X=x)
0,18
0,16
0,14
0,12
0,10
0,08
0,06
0,04
0,02
0
0
10 11 12 13 14 15 16 17 18 19 20
X
68
Exemplo 27
Uma suspenso contendo organismos de Leishmania preparada e quando uma determinada quantidade inoculada em ratos, 30% deles se tornam infectados. Se 3 ratos forem inoculados independentemente, qual a probabilidade de:
a) Nenhum rato ficar infectado?
3!
3 1
3!
3 x 2 x1
(0,3) 1 (0,7) 31 =
0,3 x0,49 = 0,441 = 44,1%
1! (3 1)!
1x 2 x1
3!
3 x 2 x1
2
)!
2 x1x1
d) Todos os ratos ficarem infectados?
3 3
3!
3 x 2 x1
(0,3) 3 (0,7) 0 =
0,027 x1 = 0,027 = 2,7%
3! (3 3)!
3 x 2 x1x1
f)
Exemplo 28
Uma indstria de alimentos est realizando testes com um bolo que ser comercializado. Durante a
prova do bolo, 20% das pessoas selecionadas para tal tarefa acharam o sabor muito doce. Supondo
que 5 pessoas provaro o bolo novamente, qual a probabilidade de:
a) Nenhuma pessoa achar o bolo muito doce?
b) Todos acharem o bolo muito doce ?
c) Pelo menos 4 pessoas acharem o bolo muito doce?
d) No mximo 2 pessoas acharem o bolo muito doce?
EXERCCIOS SUPLEMENTARES
Exerccio S18
Supor um teste com questes com 5 respostas de mltipla escolha com somente uma alternativa correta.
a) Se o aluno escolher uma ao acaso ("chute"), qual a probabilidade dele escolher a resposta certa?
b) Supondo que o teste tenha 20 questes; definindo-se a varivel aleatria T: nmero de questes
certas, qual a distribuio de probabilidade da varivel T?
c) Calcular a probabilidade de um aluno acertar, no chute, 3 questes.
69
d) Se o escore mnimo para passar 10, qual a probabilidade de um aluno passar no teste, somente
chutando?
e) Qual o nmero mdio de acertos esperado se o aluno somente chutar as respostas?
Exerccio S19
Certa doena tem letalidade de 70%. Supondo-se que existam 20 pacientes com esta doena, calcular:
a) a probabilidade de que todos morram da doena.
b) a probabilidade de que nenhum paciente morra da doena.
c) a probabilidade de que 7 pacientes morram da doena.
d) a probabilidade de que, no mximo, 10 pacientes morram da doena.
e) a probabilidade de que, no mnimo, 5 pacientes sobrevivam.
f) o nmero esperado de bitos e o respectivo desvio padro.
Exerccio S20
Em uma grande populao, 20% das pessoas so canhotas. Assumindo que a varivel X: nmero de
pessoas canhotas segue uma distribuio Binomial, e sorteando-se uma amostra aleatria de 10 pessoas, encontre a probabilidade de:
a)
b)
c)
d)
encontrar
encontrar
encontrar
encontrar
2 pessoas canhotas .
pelo menos 2 pessoas canhotas.
no mximo 1 pessoa canhota.
de 1 a 4 pessoas canhotas.
Exerccio S21
Um caso de esquistossomase identificado pela deteco de ovo de xistossoma em amostra de fezes. Em pacientes com infeco baixa, uma tcnica de exame de fezes tem probabilidade de 0,4 de
detectar ovo. Se 5 amostras so examinadas para cada paciente, qual a probabilidade de um paciente
com baixa infeco no ser identificado?
Exerccio S22
Supor que 20% de certa populao tem sangue tipo B. Para uma amostra de tamanho 18, retirada
desta populao, calcule a probabilidade de que sejam encontradas:
a) 3 pessoas com sangue tipo B.
b) 3 ou mais pessoas com sangue tipo B.
c) no mximo 3 pessoas com sangue tipo B.
Exerccio S23
A probabilidade que uma pessoa que sofre de enxaqueca obter alvio utilizando certo medicamento
de 0,9. So selecionados 5 pacientes que sofrem de enxaqueca e recebem o medicamento. Quanto ao
nmero de pessoas que vai ter alvio, encontre a probabilidade de:
a) nenhuma pessoa ter alvio.
b) mais do que uma pessoa tenha alvio.
c) trs ou mais pessoas tenha alvio.
d) no mximo duas pessoas tenham alvio.
70
medidas |
Freq,
Percent
Cum,
------------+----------------------------------33 |
3
0,05
0,05
34 |
19
0,33
0,38
35 |
81
1,41
1,80
36 |
189
3,30
5,09
37 |
409
7,14
12,23
38 |
753
13,14
25,37
39 |
1062
18,53
43,89
40 |
1082
18,88
62,77
41 |
935
16,31
79,08
42 |
646
11,27
90,35
43 |
313
5,46
95,81
44 |
168
2,93
98,74
45 |
50
0,87
99,62
46 |
18
0,31
99,93
47 |
3
0,05
99,98
48 |
1
0,02
100,00
------------+----------------------------------Total |
5732
100,00
1000
Frequency
800
600
400
200
0
33
34
35
36
37
38
39
40 41
medidas
42
43
44
45
46
47
48
e desvio padro
(varincia
71
f ( x) =
X dada por
( x )2
2 2
2,718
< X < + ;
simtrica em torno da mdia m (ou );
campo de variao :
Exemplo:
Depois de tomarmos vrias amostras, decidiu-se adotar um modelo para as medidas de permetro do
trax de uma populao de homens adultos com os parmetros: mdia (
vio padro (
) = 40 polegadas e des-
) = 2 polegadas.
40 43
Qual a probabilidade de um indivduo, sorteado desta populao, ter um permetro de trax entre 40
e 43 polegadas?
43
P ( 40 X 43) =
1
40 2 2 e
( x 40 ) 2
]
2x4
dx
72
Normal reduzida:
Z ~ N (0;1) onde Z =
P ( 40 X 43) = P (
x-
40 40 X 43 40
) = P (0 Z 1,5)
2
1,5
40 43
P ( X
43 ) = P (
43
1,5
X
40
) = P (Z
2
1 ,5 )
73
c) a probabilidade de um indivduo, sorteado desta populao, ter um permetro de trax menor que
35.
d) Qual o valor do permetro do trax, que seria ultrapassado por 25% da populao?
Exemplo 30
Considerar a altura de 351 mulheres idosas como seguindo uma distribuio normal com mdia
160cm e desvio padro 6 cm. Sorteia-se uma mulher; qual a probabilidade de que ela tenha:
a) altura entre 160 cm e 165 cm?
b) altura menor do que 145 cm?
c) Altura maior do que 170 cm?
Distribuio amostral da mdia
Supor a situao onde uma populao composta por 6 elementos, para os quais observou-se a caracterstica X, cujos valores esto apresentados abaixo.
elementos
A
B
C
D
E
F
Fonte: Dixon WJ e Massey FJ. Introduction to Statistical Analysis.
York, 1957.
Xi
11
16
12
15
16
14
2nd edit. The Maple Press Company,
2 ) = 3,667;
) = 1,9149.
valor
Estimador
amostra
14
Valor (estimativa)
Par(A,D)=(11,15)
13
3,67
S2
1,91
2,828
valores
Mdia(
1
2
3
4
5
6
A,A
A,B
A,C
A,D
A,E
A,F
(11,11)
(11,16)
(11,12)
(11,15)
(11,16)
(11,14)
xi )
11
13,5
11,5
13
13,5
12,5
74
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
B,A
B,B
B,C
B,D
B,E
B,F
C,A
CB
CC
C,D
C,E
C,F
D,A
D,B
D,C
D,D
D,E
D,F
E,A
E,B
E,C
E,D
E,E
E,F
F,A
F,B
F,C
F,D
F,E
F,F
(16,11)
(16,16)
(16,12)
(16,15)
(16,16)
(16,14)
(12,11)
(12,16)
(12,12)
(12,15)
(12,16)
(12,14)
(15,11)
(15,16)
(15,12)
(15,15)
(15,16)
(15,14)
(16,11)
(16,16)
(16,12)
(16,15)
(16,16)
(16,14)
(14,11)
(14,16)
(14,12)
(14,15)
(14,16)
(14,14)
13,5
16
14
15,5
16
15
11,5
14
12
13,5
14
13
13
15,5
13,5
15
15,5
14,5
13,5
16
14
15,5
16
15
12,5
15
13
14,5
15
14
xi
frequncia
1
2
3
4
5
6
7
8
9
10
11
Total
11
11,5
12
12,5
13
13,5
14
14,5
15
15,5
16
1
2
1
2
4
6
5
2
5
4
4
36
Frequency
0
10
10.65
11.3
11.95
12.6
13.25
medias
13.9
14.55
15.2
15.85
75
11
x
Mdia das mdias
(x ) =
fi
i =1
= 14
n
11
(x
Varincia das mdias
x2 =
x)2 fi
i =1
= 1,833 ;
x = x2
1,833 = 1,354 .
X ~ N ( ,
e varincia
2,
ento
X ~ N ( x = 14, x =
1,915
2
= 1,354) .
Exemplo:
Os valores de cido rico em homens adultos sadios seguem distribuio aproximadamente Normal
com mdia 5,7mg% e desvio padro 1mg%. Encontre a probabilidade de que uma amostra aleatria
de tamanho 9, sorteada desta populao, tenha mdia
a) maior do que 6 mg%.
b) menor do que 5,2 mg%.
X~N( =5,7;
= 1)
a)
P( X 6) = P ( Z X
b)
P( X 5,2) = P(Z X
6 5,7
) = P( Z X 0,91) = 0,5 0,31859 = 0,18141.
1
9
5,2 5,7
) = P(Z X 1,52) = 0,5 0,43574 = 0,064 .
1
9
Exemplo 31
Suponha que o peso em gramas do contedo de pacotes de salgadinho siga uma distribuio normal
com mdia 500g e desvio padro 85g. Sorteia-se uma amostra de 50 pacotes. Calcule:
a) a probabilidade de obter peso mdio entre 500 e 530 gramas.
b) a probabilidade de obter peso mdio entre 450 e 500 gramas.
76
P(X=x)
0,25
0,20
0,15
0,10
0,05
0
0
10
P(x1 <X<x2)
0,25
0,20
0,15
0,10
0,05
0
0
10
npq .
Para n suficientemente grande (np 5 e nq 5), a varivel X pode ser aproximada para uma distribui-
npq )
Mdia de
X
n
X
=p
n
e desvio padro de
X
pq
=
n
n
porque:
mdia de
X
X
1
1
= E( ) = E(X) = np = p ;
n
n
n
n
77
varincia de
X
X
1
1
pq
= V( ) = 2 V(X) = 2 npq =
n
n
n
n
n
desvio padro de
X
X
pq
= V( ) =
n
n
n
pq
n
X
n
).
Exemplo:
Y: nmero de sucessos;
Y~B(n=10; p=0,5)
2,5 5 Y 5 5,5 5
<
)=
1,581
npq 1,581
Y
: proporo de sucessos
n
Pela distribuio Binomial:
P(0,3
Y
< 0,6) = P(3 Y < 6) = 0,11719 + 0,20508 + 0,24609 = 0,5684
n
pq
0,5x 0,5
Y
~N(p=0,5; dp=
=
= 0,1581 )
n
10
n
Y
0,5
0,55 0,5 )=
n
<
0,1581
pq
n
78
EXERCCIOS SUPLEMENTARES
Exerccio S24
Suponha que o peso de acar em pacotes seja anunciado como sendo 2Kg (2000g). Suponha que o
peso (X) segue uma distribuio normal com mdia e desvio padro em gramas dado por
N( = 2003; = 1 ). Qual a probabilidade de sortear um pacote com peso abaixo do anunciado?
Exerccio S25
Suponha que o tempo mdio de permanncia em um hospital para pacientes com determinada doena de 60 dias com desvio padro de 15 dias. Supor que o tempo de permanncia segue uma distribuio aproximadamente normal. Se for sorteado 1 paciente desta populao, calcule a probabilidade
de que seu tempo de permanncia ser
a) maior que 50 dias.
b) menor que 30 dias.
c) entre 40 e 70 dias.
d) maior do que 75 dias.
Exerccio S26
Supor que a idade para o aparecimento de certa doena possui distribuio aproximadamente normal
com mdia 11,5 anos e desvio padro 3 anos. Uma criana apresentou esta doena. Calcule a probabilidade de que a criana tenha
idade entre 8,5 e 14,5 anos.
a)
b)
acima de 10 anos.
c)
abaixo de 12 anos.
Exerccio S27
Supor que a presso mdia diastlica de certa populao em certo grupo de idade igual a 78mmHg
com desvio padro 9mmHg. Calcule a probabilidade de que em uma amostra de tamanho 16, a mdia
seja maior que 81mmgHg.
Exerccio S28
Seja X a varivel estatura de homens adultos, assuma que X segue uma distribuio normal com mdia = 172 cm e desvio padro = 7,6 cm. Supor que uma amostra de tamanho n= 25 retirada
desta populao.
a) Qual a distribuio da mdia amostral X e qual a mdia e o desvio padro desta distribuio?
b) Calcule a probabilidade que a mdia amostral seja menor que a mdia populacional em 2,5
cm.
79
Esta famlia t no descreve o que acontece na natureza mas sim o que aconteceria se selecionssemos milhares de amostras aleatrias de uma populao normal com mdia
t=
X
s
e fosse calculado
n
Calculando o valor de t para 500 amostras de tamanho 6 de uma populao com distribuio normal,
obtm-se o grfico a seguir:
80
e varincia
).
Seja X1, X2, X3, ...Xn uma amostra aleatria de tamanho n extrada desta populao.
Os parmetros
e2
Populacional
Parmetro
estimador : X =
Xi
i =1
Varincia
N
(X
Populacional
Parmetro
S (2N ) =
X )2
i =1
estimador :
(X
S (2N 1) =
ou
N
i
X )2
i =1
N 1
81
16,6 (2,4)
17,4 (3,5)
18,7 (3,2)
(16,2 17,0)
(16,8 18,0)
(17,9 19,5)
(1) Masculino (n=281), Feminino (n=275);
(2) 7 anos (n=151); 8 anos (n=138); 9 anos (n=126); 10 anos (n=141)
Fonte: Claudia Regina Koga. Dissertao de Mestrado (dados preliminares)
18,8 (3,7)
(18,2 19,4)
82
R ep r es en t a o g r f i ca
A linha vertical representa o parmetro populacional. O grfico foi gerado via programa de computador. So apresentados 50 intervalos de confiana para amostras de tamanho n=20. As linhas horizontais representam os intervalos de confiana. Se o intervalo de confiana no contiver o parmetro, a
linha horizontal no cruzar a linha vertical. A linha vertical o parmetro. No exemplo, 3 intervalos
no cobrem ("capturam") o parmetro.
Apresentao grfica do efeito do tamanho da amostra:
Para amostras menores (n=5), as larguras dos intervalos so maiores a proporo de intervalos que
"capturam" o parmetro parecida com a anterior (para n=20). Portanto, o tamanho da amostra no
interfere na proporo de captura do parmetro mas sim na preciso do estimador.
83
So Paulo, ento podemos estar 95% confiantes que o conjunto de valores 3220 3500 gramas cobre (contm) o verdadeiro peso mdio ao nascer da populao.
Pode-se tambm pensar no IC a partir da seleo de milhares de amostras de uma populao. Para
cada amostra calcula-se um intervalo de confiana com grau de confiana 100(1- )%, para um parmetro da populao. A porcentagem de intervalos que contm o verdadeiro valor do parmetro
100(1- ). Para
Na prtica, tomamos somente uma amostra e obtemos somente um intervalo. Mas sabemos que
100(1- )% de todas as amostras tem um intervalo de confiana contendo o verdadeiro valor do
parmetro, portanto depositamos uma confiana 100(1- )% que o particular intervalo contm o
verdadeiro valor do parmetro.
84
Amplitude do intervalo
Para um grau de confiana especificado (por exemplo, 95%), desejamos o intervalo to pequeno
quanto possvel.
Ex: o intervalo de confiana de 95% para o peso mdio ao nascer (gramas) de recm-nascidos no
Municpio de So Paulo de (2500, 4000) traz pouca informao prtica porque sabe-se, da experincia, que a mdia populacional est neste intervalo. Deseja-se um intervalo com amplitude de poucas
gramas. o tamanho da amostra que determina a amplitude do intervalo. Quanto maior a amostra,
menor ser o intervalo.
X ~ N (, ) ; X ~ N ( ,
Padronizando-se a mdia
P( z
z) = 1 .
n
Para
= 5% ,
P(1,96
+1,96) = 0,95
P(1,96
P( X 1,96
X +1,96
X + 1,96
) = 0,95
) = 0,95
P( X + 1,96
X 1,96
) = 0,95
85
P( X 1,96
X + 1,96
) = 0,95
Obtm-se um intervalo aleatrio centrado na mdia amostral o qual possui 95% de probabilidade
de conter a verdadeira mdia populacional.
O parmetro ser estimado por um conjunto de valores provenientes de uma amostra. Quando isto
feito,
x 1,96
mdia
estimada
x + 1,96
por
um
determinado
valor
X = x ),
intervalo
Este intervalo cobre (contm) ou no cobre (no contm) a verdadeira mdia (parmetro). Diz-se
ento que a confiana que se deposita neste intervalo de 95% porque antes de coletar a amostra de
tamanho n, existia, associada a ele, uma probabilidade de 95% de que contivesse a mdia populacional. Por isso chama-se intervalo de confiana para a mdia populacional.
IC(95%) : ( x 1,96
; x + 1,96
)
n
n
IC() = x z / 2.
x
n
; x +z / 2.
x
n
Exemplo:
Construa um intervalo de 95% de confiana para estimar a presso diastlica mdia populacional
( ), sabendo que em uma amostra de 36 adultos a presso mdia amostral ( x ) foi igual a
85mmHg e o desvio padro populacional ( ) foi 9 mm de Hg. Interprete o significado desse intervalo
Soluo:
85 1,96
9
9
;85 + 1,96
, ou seja, (82,06; 87,94mmHg)
36
36
Exemplo 32
Em uma amostra de 16 gestantes com diagnstico clnico de pr-eclmpsia, a taxa mdia de cido
rico no plasma foi de 5,3 mg sabendo que a variabilidade na populao igual a 0,6 mg. Estime,
com 95% de confiana, a taxa mdia de cido rico no plasma da populao de gestantes com diagnstico de pr-eclmpsia.
86
IC() : x tn1, 2.
Sx
S
; x +tn1, 2. x
n
n
Exemplo:
Construa um intervalo de 95% de confiana para estimar a presso diastlica mdia populacional
( ), sabendo que em uma amostra de 36 adultos a presso mdia amostral ( x ) foi igual a
85mmHg e o desvio padro amostral (s) foi 12 mm Hg. Interprete o significado desse intervalo.
85 2,03
12
36
;85 + 2,03
12
36
Exemplo 33
Uma amostra de 25 adolescentes meninos apresenta peso mdio de 56 kg e desvio padro 8 kg.
a) encontre o intervalo de confiana de 95% para o peso mdio da populao da qual esta amostra foi sorteada.
b) interprete o intervalo de confiana encontrado.
Para n grande,
p ~ N ( = p, =
IC( ) : p z / 2 .
p=
X
n
pq
).
n
dado por
p q
p q
; p +z / 2 .
n
n
, com
p =
x
e
n
p =
10
= 0,05 ; q = 1 p = 0,95
200
87
IC(95%, ) : 0,051,96
0,05x0,95
0,05x0,95
;0,05+1,96
200
200
= p N
onde N tamanho da populao) pode-se utilizar os valores obtidos no IC para a proporo populacional.
IC95% para o nmero esperado de sucessos na populao: (N x
p i ; N x p s ) onde p i a proporo
Para uma populao de 1000 casais, obtm-se: (1000 x 0,02 ; 1000 x 0,08), ou seja, (20 ; 80 casais)
Exemplo 34
Em uma pesquisa sobre sade bucal na Inglaterra observou-se que de uma amostra de
262 mulheres com idade entre 25 e 34 anos, 7,6% no tinham dentes. Calcule o intervalo de confiana de 95% para a proporo de mulheres inglesas naquela faixa etria, que no possuem dentes.
Resumo: Intervalo de Confiana
Mdia populacional:
Com varincia
2:
x Z / 2
; x + Z / 2
2 desconhecida: x t
/ 2 ,
2
n
s
s
, x + t / 2,
; = n 1
n
n
p Z / 2
onde
np , np (1 p ) 5
p (1 p )
n
p + Z / 2
p (1 p )
n
88
EXERCCIOS SUPLEMENTARES
Exerccio S29
So apresentadas medidas de presso arterial sistlica de uma amostra de 20 pacientes.
a) Construa o intervalo de confiana de 90% para a presso sistlica mdia populacional.
b) Interprete o intervalo de confiana encontrado.
98
160
136
125
128
129
130
132
114
154
123
115
134
126
128
132
107
136
123
130
Exerccio S30
Em uma pesquisa sobre propriedades teratognicas de uma droga, 85 camundongos fmeas grvidas
que no foram expostas a droga foram observadas. Do total de 85 ninhadas, 12 tiveram pelo menos 1
filhote com malformao.
a) Apresente o intervalo de confiana de 95% para a verdadeira proporo de malformao na
populao de camundongos de onde os 85 que participaram do estudo foram provenientes.
b) Interprete o intervalo de confiana encontrado.
Exerccio S31
Os dados a seguir so provenientes do grupo Western Collaborative Group Study, criado na Califrnia
em 1960-61.
Tipo A: nvel de colesterol
233
291
312
254
276
234
Tipo B: nvel de colesterol
344
185
263
226
175
242
Medidas(mg/100ml)
Mdia
Varincia (n-1)
Desvio padro (n-1)
250
181
246
252
246
248
224
153
Tipo A
245,05
1342,37
36,64
197
252
212
183
268
202
188
137
224
218
250
202
239
212
148
194
239
325
169
213
Tipo B
210,3
2336,747
48,33991
89
Com base nos dados calcule a proporo de crianas desnutridas e respectivos intervalos de confiana
de 90% segundo sexo. Discuta os resultados.
Exerccio S33
No artigo Hipovitaminose A em crianas de reas rurais do semi-rido baiano a idade mdia das
crianas com nvel aceitvel e inadequado de retinol e seus respectivos desvios-padro so apresentados a seguir. Encontre o intervalo de confiana de 90% para as verdadeiras idades mdias. Compare os resultados. Pode-se dizer que as crianas provm de uma mesma populao?
Estatsticas
Nmero de observaes (n)
Mdia ( x )
Desvio padro (Sn-1)
Nvel aceitvel
89
41,9
17,4
Nvel inadequado
72
37,4
17,1
Exerccio S34
O nvel mdio de protrombina em populaes normais 20 mg/100ml de sangue. Uma amostra de
40 pacientes que tinham deficincia de vitamina K tiveram nvel mdio observado de protrombina de
18,5mg/100ml e desvio padro 4mg/100ml. Seria razovel concluir que a verdadeira mdia de pacientes com deficincia de vitamina K a mesma que a da populao normal?
Exerccio S35
Uma companhia de produtos alimentcios solicitou pela mdia que os consumidores entrassem em
contato dizendo se tinham aprovado o sabor de um novo produto. Quem telefonasse receberia um
exemplar de um livro de receitas. 320 consumidores telefonaram sendo que 75% destes aprovaram o
produto.
a) Poderia ser construdo o intervalo de confiana de 95% para a proporo de consumidores
que aprovaram o produto na populao?
b) Se sim, calcule o intervalo; se no, explique porque no.
Teste de hipteses, teste de hipteses de uma proporo populacional
Estatstica descritiva
Descreve eventos por meio de:
tabelas
grficos
razes e ndices
parmetros tpicos (medidas de posio e disperso)
90
Estatstica analtica
Nvel I - Terico (conceitos, hipteses cientficas)
Nvel II - operacional (hiptese estatstica)
Situao
Quanto mais bem educada uma pessoa, menor o seu preconceito em aceitar certa campanha sanitria
Nvel I
Conceitos
Nvel II
Definies
Definies
Cientficas/
operacionais
Hiptese operacional
tericas
educao
Viso global
Anos de escolaridade
do mundo
Pr-julgamento
Conceitos gerais
Hiptese cientfica
Preconceito (escore
em uma escala)
Veracidade/
falsidade cientfica
- nvel de significncia
Inferncia estatstica: qualquer procedimento que se utiliza para se generalizar afirmaes sobre
determinada populao, baseadas em dados retirados de uma amostra.
Parmetro: a medida usada para se descrever uma caracterstica de uma populao.
Estatstica: uma funo dos valores amostrais.
91
Estimao: o processo atravs do qual estima-se o valor de um parmetro de uma populao com
base no valor obtido em uma amostra.
Hiptese: uma forma de especulao relativa a um fenmeno estudado (qualquer que seja).
qualquer afirmao sobre a distribuio de probabilidade de uma varivel aleatria (afirmao sobre
um parmetro).
Hiptese estatstica: uma especulao feita em relao a uma proposio, porm relativa a uma
populao definida.
Teste de Hipteses
Abordagem de Neyman e Pearson
Neyman e Pearson propuseram uma abordagem, para a tomada de deciso, que envolve a fixao,
antes da realizao do experimento, das hipteses nula e alternativa, e fixao de valores de probabilidade de ocorrncia de erros de deciso.
Considerar a situao na qual se deseja comparar a eficcia de uma nova droga (DN) com a eficcia
de uma droga padro (DA), que vem sendo atualmente utilizada.
Para a
tomada de deciso sobre a eficcia de DN, torna-se necessrio seguir os seguintes passos:
Formular as hipteses;
Identificar a distribuio de probabilidade da estatstica do teste;
Fixar o nvel de significncia do teste ( );
Calcular o tamanho da amostra;
Determinar a regio de rejeio/aceitao de H0;
Realizar o estudo, observar os resultados, calcular a estatstica do teste;
Confrontar o valor observado da estatstica do teste com a regio de rejeio/aceitao de H0;
Tomar a deciso;
Apresentar a concluso.
H0 : DN = DA
Ha : DN > DA
Se o estudo envolvesse a comparao de duas drogas, uma nova e outra que atualmente utilizada,
e a nova droga se prope a reduzir os efeitos colaterais, as hipteses seriam:
92
H0 : DN = DA
Ha : DN < DA
Se ambas os lados forem possveis, deve-se optar pela hiptese alternativa que explicita a diferena
como na situao onde uma nova droga para depresso est em teste e deseja-se investigar se a
droga inibe ou provoca o apetite, como efeito colateral. Assim, antes do estudo no se conhece o
efeito da droga sobre o apetite dos pacientes.
H0 : DN = DA
Ha : DN DA
Teste bicaudal
H 0 : D N = 0,5
Hipteses:
H a : D N > 0,5
H 0 : E N = 0,5
ou
H a : E N > 0,5
X: nmero de curas,
X: 0, 1, 2, 3,...,10
Valor esperado de curas = n.p= 10x0,5 = 5 curas.
93
Distribuio de probabilidade Binomial para n=10 e p=0,5 (sob H0, ou seja, se H0 for verdade)
X (nmero de curas)
0
1
2
3
4
5
6
7
8
9
10
P(X=x)
0,001
0,010
0,044
0,117
0,205
0,246
0,205
0,117
0,044
0,010
0,001
Utiliza-se o teste de hipteses para testar H0. O teste de hipteses fornece elementos para a tomada
de deciso com base em H0
Verdade
H0
H0
no cometeu erro
Ha
erro tipo I
Ha
erro tipo II
no cometeu erro
= Pr obabilidade(erro tipoI )
e H0 falsa)
possvel.
Exemplo 35
Em um julgamento jurdico o jri tem que decidir sobre a culpa ou inocncia de um ru. Considere
dois fatos: 1) o sistema jurdico admite que toda pessoa inocente at que se prove o contrrio. 2) s
vai a julgamento pessoas sobre as quais existe dvida de sua inocncia. Fazendo uma analogia com
teste de hipteses, responda:
94
b) O jri pode errar se decidir que o ru culpado quando na verdade ele inocente. Qual o outro
erro de deciso que o jri pode cometer?
d) Na terminologia de teste de hiptese, qual tipo de erro (I ou II) pode-se vincular a cada uma das
decises do item b?
Exemplo 36
Supor duas situaes: 1- a pessoa est fazendo parte de um levantamento para diagnstico de para
cncer de mama (screening); 2- a pessoa realiza o teste para detectar anticorpos anti-HIV.
fornecido um diagnstico com base no resultado do teste.
a) Qual dos erros geralmente mais srio: um resultado falso positivo que diz que a pessoa tem a
doena quando na verdade ela no tem ou um resultado falso negativo, que diz que a pessoa no
tem a doena quando na verdade ela tem?
b) Apresente as hipteses nula e alternativa sobre a situao de sade do paciente; fazendo uma
analogia com teste de hipteses, que tipo de erro (I ou II) seria cometido se o resultado do teste
fosse falso positivo? Que tipo de erro (I ou II) seria cometido se o resultado do teste fosse falso negativo?
95
Definio de critrios de aceitao ou rejeio de H0: estabelecimento das regies de rejeio e de aceitao de H0.
Distribuio de probabilidade do nmero de curas sob H0: B(n=10, p=0,5)
X (nmero de curas)
0
1
2
3
4
5
6
7
8
9
10
Aps a definio da rea de rejeio de H0,
P(X=x)
Regio
0,001
0,010
0,044
Regio de aceitao de H0
0,117
1-
0,205
0,246
0,205
0,117
0,044
Regio de rejeio de H0
0,010
= 5,5%
0,001
pode-se realizar o experimento.
Por exemplo, supor que entre 10 pessoas que tomaram a nova droga, 9 se curaram. Como 9 cai na
regio de rejeio de H0, decide-se por rejeitar H0.
Se tivessem sido observadas 6 curas ou qualquer valor da rea de aceitao de H0, a deciso seria
no rejeitar H0 ou seja, aceitar H0.
Onde est ?
Lembrar que as hipteses de teste so:
H 0 : D N = 0,5
H a : D N > 0,5
p=0,5
P(X=x)
0,001
0,010
0,044
0,117
0,205
0,246
0,205
0,117
0,044
0,010
0,001
Regio
1
aceitao de H0
rejeio de H0
= 0,055
p=0,6
0,000
0,002
0,011
0,042
0,111
0,201
0,251
0,215
0,121
0,040
0,006
Regio
aceitao de H0
= 0,833
rejeio de H0
(1- ) = 0,167
96
Notar que para n fixo, uma alterao no nvel de significncia, altera o poder do teste.
So apresentadas a seguir as relaes entre o tamanho da amostra, o nvel de significncia,
1
Valores de
e de
1 (%)
60%
70%
80%
90%
16,73
38,28
67,78
92,98
Valores de
e de
83,27
61,72
32,22
7,02
e de
1 (%)
95,36
85,07
62,42
26,39
4,64
14,93
37,58
73,61
Valor de mais
prximo de 5%
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
100
150
160
175
200
5,5
5,9
5,7
5,4
4,9
4,5
4,0
6,8
5,9
5,2
4,6
4,1
6,0
5,3
4,6
4,4
4,3
4,8
4,8
5,2
Valor de
(%)
83,3
78,3
75,0
72,6
70,9
69,4
68,3
67,3
55,4
54,1
54,9
54,7
48,8
45,0
45,2
37,7
22,6
18,7
15,8
11,0
Valor de
1 (%)
16,7
21,7
25,0
27,4
29,1
30,6
31,7
32,7
44,6
44,9
45,1
45,3
51,2
55,0
54,8
62,3
77,4
81,3
84,2
89,0
97
Valores de
e de
Valor de mais
prximo de 5%
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
100
150
160
175
200
300
400
600
5,5
5,9
5,7
5,4
4,9
4,5
4,0
6,8
5,9
5,2
4,6
4,1
3,6
5,3
4,6
4,4
4,3
4,8
4,8
5,2
5,9
4,9
5,6
Valor de
Valor de
(%)
90,0
87,0
87,0
86,6
86,5
86,6
86,7
87,0
80,3
81,0
81,8
82,5
83,2
77,4
78,4
75,9
68,8
65,4
63,3
58,3
43,0
36,2
19,4
(%)
10,0
12,0
13,0
13,4
13,5
13,4
13,3
13,0
19,7
19,0
18,2
17,5
16,8
22,6
21,6
24,1
31,2
34,6
36,7
41,7
57,0
63,8
80,6
e de
Valor de
mais
prximo
de 5%
2,1
3,5
4,1
4,3
4,3
4,1
3,8
7,2
6,5
5,8
5,2
4,6
4,1
6,4
5,7
5,7
6,0
6,9
6,9
7,7
Valor de
Valor de
(%)
(%)
95,2
90,8
87,3
84,5
82,3
80,4
78,8
67,2
66,4
65,7
65,1
64,5
64,0
54,4
54,2
45,7
27,9
23,3
19,8
14,0
4,8
9,2
12,7
15,5
17,7
19,6
21,1
32,8
33,6
34,3
34,9
35,5
36,0
45,6
45,8
54,3
72,1
76,7
80,2
86,0
Poder do teste para tamanhos de amostra fixos em testes mono e bicaudal, com distribuies de probabilidade
B(n, p=0,5) para H0 e B(n, p=0,6) para Ha
1,000
bicaudal
monocaudal
0,900
0,800
0,700
0,600
0,500
0,400
0,300
0,200
0,100
0,000
0
50
100
150
200
250
T a m a nho da a m o s t ra
98
Se na amostra de 10 pacientes, 9 evolussem para a cura (90%), Fisher recomendava que se calculasse a probabilidade de 9 ou mais pacientes se curarem (P(X9)), tendo como base, a distribuio de
probabilidade conhecida, especificada na proposio inicial, onde a probabilidade de cura igual a
50%.
Pelo exemplo, esta probabilidade seria igual a P(X9) = P(X=9) + P(X=10) = 0,011 = 1,1%
Se na amostra de 10 pacientes, fossem observadas 6 curas (60%), P(X6) = P(X=6) + P(X=7) +
P(X=8) + P(X=9) + P(X=10) = 0,205 + 0,117 + 0,044 + 0,010 + 0,001 = 0,377 = 37,7%
A probabilidade calculada conhecida como valor de p (p-value) e a deciso estatstica ser tomada
com base no valor desta probabilidade.
Se o valor de p for considerado pequeno, conclui-se que os dados no mostram evidncia de pertencer a uma populao com proporo de cura igual a 50% e, portanto, a droga cura mais do que 50%.
Se o valor de p for considerado grande, ento se pode dizer que os dados provavelmente vm de uma
populao que possui como parmetro 50% de curas.
Definio:
Valor de p a probabilidade de ocorrncia do valor observado ou de um valor mais extremo de uma
estatstica, em uma curva de probabilidade especificada (conhecida, verdadeira).
Fisher dizia que antes de dar uma forma matemtica a um problema, propondo hipteses a serem
testadas, era necessrio um amplo conhecimento dos dados, o que poderia ser realizado com base no
valor de p.
99
Apresentar as concluses.
Aps o programa observou-se que, em uma amostra de 10 mes que foram submetidas ao programa
e acompanhadas durante quatro meses, 9 mes amamentaram pelo menos at o 30 ms.
Utilizando-se teste de hipteses para decidir sobre a eficcia da interveno:
Pela abordagem de Neyman e Pearson
1) Elaborao das hipteses :
H 0 : E P = 0,6
H a : E p > 0,6
100
R e gi o
1
Ace ita o de H 0
R e je i o de H 0 ;
= 0,04636 0,05
4) Deciso: Como 9 mes amamentaram pelo menos trs meses, e 9 cai na rea de rejeio de H0, decide-se por rejeitar H0.
Ab o rd a g e m de Fi s h e r
Proposio: mes que so submetidas ao programa provm de uma populao onde 60% delas amamentam pelo menos at o 3 ms.
Calculando-se a probabilidade de observar 9 ou mais mes amamentando pelo menos at o 3 ms,
utilizando uma curva onde 60% de mes amamentam at o 3 ms: considerando-se a distribuio de
probabilidade: B(n=10; p=0,6), tem-se p= P ( X 9) = P ( X = 9) + P ( X = 10) = 0,040 + 0,006 = 0,046 ou
4,6%.
Para decidir com base no valor de p necessrio perguntar-se se os resultados observados so compatveis com a proposio de que as mes vm de populao na qual 60% das mes amamentam
pelo menos at o at o 3 ms. Em outras palavras, com base nos resultados, voc diria que existe
evidncia favorvel ou contrria proposio inicial?
101
Se p for considerado, pelo investigador, pequeno ento se conclui que os dados observados mostram
evidncia contrria proposio inicial sendo que a proporo de mes que amamentaram, depois da
campanha mais compatvel com uma populao de mes na qual mais de 60% amamentam pelo
menos at o 3 ms. Neste caso, o programa foi eficaz.
Se p for considerado, pelo investigador, grande, ento se conclui que os dados no mostram evidncia contrria proposio e, portanto, as mes, aps a interveno, devem ser de uma populao na
qual 60% amamentam pelo menos at o 3 ms. Neste caso, a interveno no surtiu efeito.
Consideraes finais
O valor de p a fora de evidncia contrria proposio inicial. Para existir forte evidncia contrria
proposio inicial, o valor de p deve ser bem pequeno;
O experimento consiste em oferecer uma fatia de cada produto a 20 degustadores, de modo independente, e registrar (contar) quantos acham o produto novo mais doce.
102
H 0 : = 0,5
H A : > 0,5
Hipteses:
P(X = x)
R e gi o d o te s te
Ace ita o de H 0
0, 0 3 6 9 6
0, 0 1 4 7 9
0, 0 0 4 6 2
0, 0 0 1 0 9
0, 0 0 0 1 8
0, 0 0 0 0 2
0, 0 0 0 0 0
R e je i o de H 0
= 0,058
103
Abordagem de Fisher
Proposio: Proporo de degustadores que escolhem cdigo 23 = 0,5
n=20
K: nmero de degustadores que escolhem cdigo 23; K: 0, 1, 2, ..., 20
K~B(n=20; p=0,5)
Observou-se que 8 degustadores escolheram o produto de cdigo 23 (k=8).
Valor de p=probabilidade de ocorrer 8 ou mais, se os dados vierem de uma populao que escolhe os
produtos em propores iguais.
Valor de p= P(K8) = P(k=8)+P(k=9)+...+P(k=20)= 0,868 ou 86,8%.
Conclui-se que os dados no mostram evidncia contrria proposio inicial (p=0,868). Os dados
so compatveis com uma populao que escolhe igualmente os produtos com cdigos 15 e 23. O
novo produto no foi considerado mais doce que o antigo.
OBS: Como np=10 e nq=10, para o clculo de p poderia ter sido utilizada a distribuio normal.
7,5 10
) = P( Z 1,12) =
2,24
0,5+0,36864=0,86764 ou 86,8%
Exemplo 37
Supor o experimento onde existe interesse em investigar se o odor de determinado alimento atrai
camundongos. O experimento consiste em colocar um animal em um corredor que no final dividido
para a direita e para a esquerda. Um alimento colocado no final do corredor da esquerda, fora da
viso do animal. Entretanto, antes da realizao do experimento, decide-se eliminar a possibilidade de
incluir no estudo camundongos que tm predileo por um lado, independentemente do odor do alimento. Neste caso, decide-se investigar inicialmente se os camundongos escolhem os lados em propores iguais. Para tanto, realiza-se o experimento com 12 camundongos sem a colocao do alimento e verifica-se que 7 viram para a esquerda.
Realize um teste de hipteses seguindo as propostas de Neyman e Pearson, com nvel de significncia
de 5%, e a de Fisher, para verificar se os camundongos vm de uma populao que escolhe mais um
lado do que o outro.
104
Exemplo 38
Supor agora, o experimento para investigar se o odor de determinado alimento atrai camundongos.
Realiza-se o experimento colocando-se o alimento no final do corredor do lado esquerdo, fora da viso dos camundongos. Observa-se que de 12 camundongos, 10 viram para a esquerda.
Realize um teste de hipteses seguindo as propostas de Neyman e Pearson e de Fisher, com clculo
do valor descritivo do teste, para verificar se os camundongos vm de uma populao que escolhe
mais o lado onde est o alimento. Utilize nvel de significncia de 5%.
EXERCCIOS SUPLEMENTARES
Exerccio S36
Um estudo foi desenvolvido para investigar se aleitamento materno um fator que protege a criana
contra diabetes, em idades maiores. Considerando H0: aleitamento materno no protege contra
diabetes e Ha: aleitamento materno protege contra diabetes, responda:
a) Tomando qual deciso (aceitar ou rejeitar) sobre H0 voc poderia estar cometendo o erro tipo I?
b) Tomando qual deciso (aceitar ou rejeitar) sobre H0 voc poderia estar cometendo o erro tipo II?
c) Como denominada a probabilidade de ocorrer o erro tipo I?
d) Como denominada a probabilidade de ocorrer o erro tipo II?
e) O que o poder do teste?
f)
Se voc fosse fixar valores de probabilidades associadas ocorrncia dos erros tipo I e II para
este estudo, qual deles seria menor? Justifique.
Exerccio S37
Ser realizado um estudo para investigar a relao entre consumo de produtos derivados de soja e
presena de osteoporose em mulheres com mais de 50 anos. Para a tomada de deciso, ser utilizado
teste de hipteses, no modelo clssico, proposto por Neyman e Pearson. Apresente os passos
necessrios para a realizao do teste de hipteses, listados a seguir, em uma sequncia correta:
tomada de deciso, clculo do tamanho da amostra, elaborao das hipteses, determinao da
regio de rejeio do teste, coleta dos dados e clculo da estatstica do teste, fixao do nvel de
significncia, concluso, verificao se o valor observado da estatstica cai na regio de aceitao ou
rejeio, identificao da distribuio de probabilidade da estatstica do teste.
Exerccio S38
Considere a seguinte situao hipottica: A incidncia de resfriados durante o inverno, em uma creche
60%. Durante o ano de 2001, a direo da creche resolveu servir suco de acerola durante todo o
inverno com o objetivo de prevenir resfriados. Aps o inverno observou-se que de 20 crianas que
105
foram acompanhadas, 13 ficaram resfriadas e deseja-se saber se o suco de acerola teve efeito sobre
a ocorrncia de resfriados. Segundo a abordagem de Fisher, responda:
Exerccio S39
Considere a situao onde 40% de mulheres idosas apresentam condio esqueltica do tipo A. Suspeita-se que mulheres magras apresentam menor predisposio a esta condio. Realizou-se um estudo e observou-se que entre 28 mulheres idosas magras, 6 apresentaram a condio.
a) Realize um teste de hipteses para investigar se os resultados do estudo so compatveis com
uma populao onde 40% apresentam a condio. Utilize a abordagem clssica de Neyman e Pearson, com nvel de significncia de 10%.
b) Realize um teste de hipteses para investigar se os resultados do estudo so compatveis com
uma populao onde 40% apresentam a condio, utilizando a abordagem de Fisher.
Exerccio S40
A prevalncia de infeco por hepatite B na populao geral de 30%. A literatura sugere que a infeco por hepatite B maior entre pessoas com infectadas pelo vrus HIV. Em uma amostra de 20
pessoas que apresentaram teste HIV +, 8 apresentaram positividade para hepatite B. Teste a hiptese de que as pessoas HIV + possuem mesma prevalncia de Hepatite B que a populao geral. Utilize
a estratgia clssica de Neyman e Pearson, com nvel de significncia de 5% e a abordagem de Fisher, com tomada de deciso a partir do valor descritivo do teste (valor de p).
Exerccio S41
Suponha que uma pesquisa de grande abrangncia encontrou que 60% de crianas entre 7 e 10 anos
consomem determinada marca de cereal. Com o objetivo de verificar possvel queda no consumo, a
indstria sorteou 15 crianas nesta faixa etria e observou 6 crianas consomem o produto. Teste a
hiptese de que o consumo do produto no foi alterado. Utilize a estratgia clssica de Neyman e
106
Pearson, com nvel de significncia de 5% e a abordagem de Fisher, com tomada de deciso a partir
do valor descritivo do teste (valor de p).
H 0 : SDIG = 3000
H 0 : SDIG = Sadia
H a : SDIG < Sadia
ou
107
ZX
ou
x obs
X = 3000
X = 70,71
H0
Rejeio de H0
Aceitao de H0
=0,05
-4
-3
-2
-1
0
Zcrtico=-1,64
( x obs = 2800) .
Clculo
Z Xobs
do
peso
mdio
observado
xobs X 2800 3000
=
=
= 2,83
X
70,71
em
nmero
de
desvios
padro:
108
Como Zobs est esquerda de Zcrtico (regio de rejeio), decide-se por rejeitar H0.
Deciso:
Rejeita-se H0.
Concluso
Foi encontrada diferena estatisticamente significante entre os pesos ao nascer de crianas sadias e
com SDIG para nvel de significncia = 0,05. Crianas com SDIG nascem com peso menor do que
crianas sadias.
possvel realizar o teste comparando a mdia observada na amostra ( x obs = 2800) e o valor de peso
mdio ao nascer que deixa, no caso deste exemplo, uma rea =0,05 sua esquerda. O valor de
peso mdio que limita esta rea denominado
Clculo de
De
x critico .
x critico
Z critico =
xcritico x
tem-se
X
x critico = Z critico X + X
Rejeita-se H0
Aceita-se H0
xcritico = 2884,04 g
X = 3000
X = 70,71
Regra geral:
Rejeita-se H0 se
Zobs>Zcrtico
para
Zobs<-Zcrtico
para
Zobs>Zcrtico ou Zobs<-Zcrtico
para
H a : SDIG Sadias
109
ou
Rejeita-se H0 se
ou
para
para
para
H a : SDIG Sadias
Exemplo 39
O nvel mdio de protrombina em populaes normais 20 mg/100ml de sangue. Uma amostra de 40
pacientes que tinham deficincia de vitamina K tiveram nvel mdio observado de protrombina de
18,5mg/100ml e desvio padro 4mg/100ml. Seria razovel concluir que a verdadeira mdia de pacientes com deficincia de vitamina K a mesma que a da populao normal? Realize um teste de hipteses.
Teste de hipteses para uma mdia populacional com varincia desconhecida
Supor a situao anterior, s que a varincia (desvio padro) populacional do peso ao nascer de crianas sadias desconhecida sendo conhecido somente o peso mdio populacional de crianas sadias
(
H 0 : SDIG = 3000
H a : SDIG < 3000
Fixando-se o nvel de significncia:
= 0,05
Clculo do tamanho da amostra: supor um tamanho de amostra n=50 recm-nascidos com SDIG
Distribuio de probabilidade:
Como as hipteses envolvem a mdia populacional, necessrio utilizar a distribuio de probabilidade da mdia.
Pelo Teorema Central do Limite tem-se que X ~ N ( X = X ; X =
X
n
).
Admitindo-se que H0 verdade, resta um problema que o fato de no se conhecer o valor da disperso do peso ao nascer das crianas sadias. Neste caso no possvel utilizar a estatstica Z.
110
n
de estudo, estimado com os dados da amostra de crianas com SDIG.
T segue uma distribuio t de Student, com (n-1) graus de liberdade. Quando o tamanho da amostra
grande, a estatstica T tende para uma distribuio normal com mdia 0 e desvio padro 1
(n
T ~ N (0 ;1) ).
H0
Regio de rejeio
e aceitao
da hiptese H0.
Rejeio de H0
Aceitao de H0
=0,05
X = 3000
tcrtico= -1,676
tobs =
Como tobs est esquerda de tcrtico (regio de rejeio), decide-se por rejeitar H0.
Deciso
Rejeita-se H0.
111
Concluso
Foi encontrada diferena estatisticamente significante entre os pesos ao nascer de crianas sadias e
com SDIG para nvel de significncia = 0,05. Crianas com SDIG nascem com peso menor do que
crianas sadias.
Exemplo 40
Uma companhia de produtos alimentcios utiliza uma mquina para embalar salgadinhos cujas embalagens especificam 454 gramas. Com o propsito de verificar se a mquina est trabalhando corretamente, selecionou-se 50 pacotes de salgadinhos, obtendo-se os seguintes valores de peso:
464
442
448
463
468
450
438
450
449
447
mdia da
450
456
452
433
446
446
450
452
447
460
450
453
456
446
439
452
459
454
456
454
452
447
466
446
447
450
449
457
433
464
469
457
454
451
453
amostra, x =451,22 gramas e desvio padro amostral (s)
447
433
449
464
443
=8,40 gramas
Teste de hipteses de uma mdia populacional ( ) (com varincia conhecida e desconhecida) Abordagem de Fisher
Reviso de conceitos bsicos
Distribuio Normal
Medindo-se a altura de muitas mulheres (populao), obtm-se o grfico a seguir.
proporo
.35
.3
.25
.2
.15
.1
.05
0
140
145
150
155
160
Altura(cm)
165
170
175
180
.35
.3
.25
.2
.15
.1
.05
0
140
145
150
155
160
Altura (cm)
165
170
175
180
112
A curva ajustada aos dados uma curva terica (curva de Gauss) que representa a altura de mulheres idosas. Notao: X: altura,
X ~ N ( = 160, = 10) .
P(esta mulher tenha mais de 170)= P( X > 170) = P( Z > 170 160 ) = P (Z > 1) = 0,5-0,34134=0,15866 ou
10
15,9%
Sortear uma mulher com altura 170 ou mais desta populao uma coisa comum?
O limite para decidir o que comum arbitrrio. O investigador que decide, com base no problema
que est sendo estudado.
S up or a go ra um a o ut ra d ist rib u i o de a lt ura , por e xe m p lo , e n tre ho m e n s.
proporo
.35
.3
.25
.2
.15
.1
.05
0
160
X: altura,
165
170
175
180
Altura (cm)
185
190
195
200
X ~ N (m = 180, = 10)
P(homem tenha mais de 180)= P(X>180)=0,5 ou 50%
Supor que as pessoas da primeira curva tenham uma marca vermelha e as pessoas da segunda curva
tenham uma marca azul. Misturam-se todas as pessoas e sorteia-se uma pessoa ao acaso e ela tem
altura 180. De qual populao seria este indivduo?
113
Agora no estamos mais interessados em um indivduo e sim em vrios indivduos portanto, vamos
trabalhar com a altura mdia.
Supor X: altura,
X ~ N (m = 160, = 20) .
Toma-se uma amostra de tamanho n=30 desta populao e calcula-se a altura mdia ( x = 170 ).
Deseja-se saber a probabilidade desta amostra vir de populao com altura mdia maior ou igual a
170.
=160 170
X m
170 160
170 160
) = P( Z X
) = P( Z 2,74)
20
3,6515
30
=0
2,74
ZX
Para decidir se a amostra representa uma populao com altura mdia maior e que o resultado no
devido ao acaso, realiza-se o teste de hipteses.
114
Teste de hipteses para uma mdia populacional com varincia conhecida - Abordagem
de Fisher
Situao:
Estudos mostram que crianas sadias possuem peso mdio (m) ao nascer igual a 3100 gramas e desvio padro = 610 gramas .
Suspeita-se que crianas que nascem com sndrome de desconforto idioptico grave possuem peso ao
nascer abaixo do peso ao nascer da populao de crianas sadias.
Proposio (equivalente H0): Crianas com sndrome vm de uma populao com peso mdio =3100
gramas.
Realiza-se um estudo em uma amostra de n=50 crianas que nasceram com esta sndrome, onde
observou-se peso mdio ( x ) igual a 2800 gramas.
Supondo-se que as crianas da amostra (com sndrome) vm de uma populao com mesma disperso do peso ao nascer de crianas sadias, teste a hiptese de que crianas com sndrome idioptica
grave possuem peso mdio ao nascer igual ao peso mdio ao nascer de crianas sadias.
Distribuio de probabilidade:
Distribuio do peso mdio: segue uma distribuio normal com mdia m=3100 gramas e desvio padro
610
= 86,27 gramas
50
2800
=3100
X
Clculo da probabilidade de observar um peso mdio ao nascer igual ou menor que 2800 se H0 for
verdade.
P( X 2800) = P(
X m
2800 3100
300
) = P( Z X
) = P( Z X 3,48)
610
86,27
50
115
-3,48
=0
ZX
Pela distribuio Normal reduzida tem-se que P ( Z 3,48) = 0,5 0,49975 = 0,00025 ou 0,025%
Os resultados no so compatveis com uma distribuio que tem peso mdio igual a 3100. Possivelmente a amostra vem de uma populao com mdia menor que 3100. Pode-se dizer que crianas
com sndrome de desconforto idioptico grave possivelmente possuem peso ao nascer menor do que
o peso mdio de crianas sadias.
Exemplo 41
O nvel mdio de protrombina em populaes normais 20 mg/100ml de sangue. Uma amostra de 40
pacientes que tinham deficincia de vitamina K tiveram nvel mdio observado de protrombina de
18,5mg/100ml e desvio padro 4mg/100ml. Seria razovel concluir que a verdadeira mdia de pacientes com deficincia de vitamina K a mesma que a da populao normal? Realize um teste de hipteses pela abordagem de Fisher.
Teste de hipteses para uma mdia populacional com varincia desconhecida - Abordagem de Fisher
Supor a mesma situao anterior, s que neste caso somente a mdia populacional conhecida. O
peso mdio de crianas sadias () igual a 3100 gramas.
H0: Crianas com sndrome de desconforto idioptico grave vm de uma populao com peso mdio =
3100 gramas
Seleciona-se uma amostra de 50 crianas com a sndrome e calcula-se o peso mdio e o desvio padro do peso, obtendo-se n=50;
x = 2800
e s=510
Distribuio de probabilidade:
Distribuio do peso mdio ao nascer de crianas sadias: como no se sabe o desvio padro populacional, este estimado utilizando-se os dados da amostra.
116
Neste caso a varivel a varivel segue uma distribuio t de Student com n-1=50-1=49 graus de liberdade.
P( X 2800) = P(
X m 2800 3100
300
) = P (t X
) = P (t X 4,159)
510
SX
72,12
50
-4,16
=0
Os resultados no so compatveis com uma distribuio que tem peso mdio igual a 3100. Pode-se
dizer que crianas com desconforto idioptico grave provavelmente vm de uma populao com peso
mdio ao nascer menor do que o peso mdio ao nascer de crianas sadias.
Exemplo 42
Uma companhia de produtos alimentcios utiliza uma mquina para embalar salgadinhos cujas embalagens especificam 454 gramas. Com o propsito de verificar se a mquina est trabalhando corretamente, selecionou-se 50 pacotes de salgadinhos, obtendo-se os seguintes valores de peso:
464
442
448
463
468
450
438
450
449
447
mdia da
450
456
452
433
446
446
452
447
460
450
453
456
439
452
459
454
456
454
447
466
446
447
450
449
433
464
469
457
454
451
amostra, x =451,22 gramas e s=8,40 gramas
450
446
452
457
453
447
433
449
464
443
Testar a hiptese, pela abordagem de Fisher, de que a mquina est trabalhando corretamente.
EXERCCIOS SUPLEMENTARES
Exerccio S42
Deseja-se saber se o consumo calrico mdio de determinada populao adulta de zona rural menor
que 2000 kcal. Uma amostra de 500 pessoas apresentou consumo mdio igual a 1985 kcal e desvio
padro igual a 210. Faa um teste de hipteses pela abordagem de Neyman e Pearson e de Fisher
para tomar a deciso; considere o nvel de significncia igual a 5%.
Exerccio S43
O contedo de iodo em pacotes de sal recomendado que seja igual a 590
g . Determinada inds-
tria, tendo recebido reclamaes de que estava vendendo seu produto com teor de iodo abaixo do
117
recomendado, realizou um estudo com dosagem de iodo em 15 amostras de sal. Os resultados das
quantidades de iodo so apresentados a seguir. Realize um teste de hipteses pela abordagem de
Neyman e Pearson e de Fisher para verificar se a reclamao procedia. Utilize nvel de significncia de
5%.
555
570
610
590
610
600
500
530
580
550
530
533
620
600
575
Exerccio S44
Vacas da raa Jersey (J) produzem porcentagem mdia de gordura para manteiga igual a 5,25%.
Suspeita-se que vacas Holstein-Fresian (HF), se no forem criadas de um modo especial, produzem
quantidades menores deste tipo de gordura. fornecida a porcentagem mdia de gordura de manteiga de uma amostra de 10 vacas da raa Holstein-Fresian. Os dados sugerem que as que as vacas
Holstein-Fresian produzem a mesma quantidade de gordura do que as vacas Jersey? Conduza um
teste de hipteses pela abordagem de Neyman e Pearson e de Fisher. Utilize nvel de significncia de
5%.
Percentuais de gordura de uma amostra de 10 vacas Holstein-Fresian:
3,4
3,55 3,83 3,95 4,43 3,7
3,3
3,93 3,58 3,54
Exerccio S45
Em uma pesquisa realizada entre os cadetes da Fora Area sobre a relao entre sade em geral e
patologias orais, o escore mdio de CPO (nmero de superfcies de dentes cariados, obturados ou
extrados em um indivduo) foi 27,2. Em 121 cadetes que procuraram os servios mdicos 5 ou mais
vezes durante um ano, o CPO mdio foi 31,1 com desvio padro 15,5. Se for assumido que estes 121
cadetes representam a populao de cadetes com pior sade, existe evidncia que pior nvel de sade
est associado a escore de CPO mais elevado? Tome a deciso utilizando as duas estratgias: a clssica de Neyman e Pearson, com nvel de significncia de 5% e a abordagem de Fisher, com tomada
de deciso a partir do valor descritivo do teste (valor de p).
Exerccio S46
O nvel mdio de ganho de peso entre 42 homens submetidos a exerccios fsicos durante 3 meses foi
igual a 0,5 kg com desvio padro de 2,2 kg. Entre homens que no fazem exerccios fsicos mas que
possuem uma dieta balanceada, o ganho mdio de peso de 1,3 kg. Seria razovel concluir que a
verdadeira mdia de ganho de peso entre homens que praticam exerccios a mesma que a de homens que no praticam exerccios mas que possuem dieta balanceada? Tome a deciso utilizando as
duas estratgias: a clssica de Neyman e Pearson, com nvel de significncia de 5% e a abordagem
de Fisher, com tomada de deciso a partir do valor descritivo do teste (valor de p).
118
(O E ) 2
=
E
2
(2n 1)
Seja uma populao com distribuio normal N ( , ) . Se desta populao se obtiver um nmero
(1981).
A distribuio qui-quadrado assimtrica e se torna menos assimtrica a medida que os graus de
liberdade aumentam. Os valores da distribuio so sempre positivos (maior ou igual a zero). Existe
uma famlia de distribuies qui-quadrado, dependendo do nmero de graus de liberdade. Para grandes amostras, a distribuio qui-quadrado tende para uma distribuio normal.
densidade
.6
.5
.4
.3
rea de rejeio de H0
=0,05
.2
.1
0
0
10
X2
15
20
Para a tomada de deciso, utiliza-se a regra: rejeita-se H0 se o valor calculado do qui-quadrado for
maior do que o valor crtico para um nvel de significncia pr definido.
119
Estatstica do teste:
Qui quadrado =
(O E ) 2
~ (2r 1)( c1)
E
Nvel de retinol
Aceitvel
Inadequado
Masculino
50
40
Feminino
39
32
Total
89
72
Prado MS et al. ,Revista de Sade Pblica, 29(4)295 300, 1995.
Total
90
71
161
Na tabela abaixo, gl = 2
Distribuio de recm-nascidos segundo condio caso - com defeitos do tubo neural; controle recm-nascidos que no tinham defeitos do tubo neural e dieta materna.
Dieta
Casos
Controles
Total
n
%
n
%
n
%
Boa
34
13,9
43
35,0
77
21,0
Razovel
110
45,1
48
39,0
158
43,0
Pobre
100
41,0
32
26,0
132
36,0
Total
244
100
123
100
367
100
Fonte: Hand DJ et al. A handbook of small data sets. Chapman&Hall, 1994.
Correo de continuidade:
(| O E | 0,5) 2
~ (2r 1)( c1)
E
L im i ta es :
Para n<20, utilizar o teste exato de Fisher
Para 20 n 40 , utilizar o qui-quadrado somente se os valores esperados forem maiores ou iguais
a 5.
120
Exemplo:
Com o objetivo de investigar a associao entre histria de bronquite na infncia e presena de tosse
diurna ou noturna em idades mais velhas, foram estudados 1319 adolescentes com 14 anos. Destes,
273 apresentaram histria de bronquite at os 5 anos de idade sendo que 26 apresentaram tosse
diurna ou noturna aos 14 anos.
Nmero de adolescentes segundo histria de bronquite aos 5 anos e tosse diurna
ou noturna aos 14 anos de idade. Local X, ano Y.
Tosse
Bronquite
Total
Sim
No
Sim
26
44
70
No
247
1002
1249
Total
273
1046
1319
Fonte: Holland, WW et al.. Long-term consequences of respiratory disease in infancy. Journal of Epidemiology and Community Health 1978; 32: 256-9.
Valores observados
(O)
(O-E)
(O-E)2
(O E ) 2
E
26
247
44
1002
14,488
258,512
55,512
990,488
11,512
-11,512
-11,512
11,512
132,526
132,526
132,526
132,526
9,147
0,513
2,387
0,134
12,181
Qui-quadrado ( )=
(| O E | 0,5) 2
E
2
corrigido
=
Deciso:
O valor do qui-quadrado calculado maior do que o valor do qui-quadrado crtico para 1 grau de liberdade e nvel de significncia de 5%, portanto, rejeita-se H0.
Concluso: Pode-se dizer que na populao existe associao entre bronquite na infncia e tosse na
adolescncia.
Abordagem de Fisher
Pela tabela da distribuio qui-quadrado, com 1 gl, p<0,001 (na tabela, menor que 0,1%)
Calculando-se o valor de p pelo Excel, para 1 gl, o valor de p no corrigido = 0,0004829
No Excel utilizar a funo DIST.QUI tendo como argumentos o valor calculado do qui-quadrado e o
nmero de graus de liberdade: = DIST.QUI(12,181;1))
Concluso: Existe forte evidncia contrria independncia portanto a associao observada ocorre
no devido ao acaso. Pode-se dizer que os dados so compatveis com existncia de associao entre
bronquite na infncia e tosse na adolescncia, na populao.
Exerccio
Considere os dados apresentados a seguir. Investigue a existncia de associao entre nveis de caroteno (mg/L) e hbito de fumar, em purperas. Utilize as abordagens de Neyman e Pearson (nvel
de significncia de 5%) e de Fisher.
121
Distribuio de mulheres no perodo ps parto, segundo hbito de fumar e nvel de -caroteno srico
Fumante
No Fumante
-caroteno (mg/L)
Baixo (0 0,213)
56
84
Normal (0,214 1,00)
22
68
Total
78
152
Fonte: Silmara Salete de Barros Silva, tese de Doutorado [2003].
Total
140
90
230
2,85
3,00
2,53
2,46
3,21
2,68
2,50
2,78
2,83
2,86
1,76
2,36
2,07
3,61
2,51
2,36
2,48
2,35
2,99
2,56
2,60
2,98
2,78
2,09
2,42
2,31
3,02
2,17
2,64
2,72
2,33
2,52
3,71
2,07
2,21
2,73
2,30
2,58
3,69
2,56
2,40
3,40
2,11
2,45
2,77
University, 1995.
122
forma crnica
1.5
forma aguda
57
2,587
0,107
Density
Hepatite
crnica
(log medidas)
40
2,651
0,194
n
Mdia
Varincia
Hepatite viral
aguda
(log medidas)
.5
Estatsticas
1.5
(n-1)
2.5
3.5
1.5
2.5
3.5
enzima
Density
normal enzima
H 0 : 1 = 2
H 0 : 1 2 = 0 , onde
1 e 2
so mdias de populaes
distintas.
Pressuposies:
A varivel sob estudo segue as seguintes distribuies nas populaes de origem:
na populao 1
na populao 2
~ N ( 1 , )
~ N ( 2 , )
Observe que prossupem-se amostras provenientes de populaes normais, com mdias distintas e
mesma disperso.
Verificando-se as pressuposies (de modo informal):
1- Normalidade histograma
2- Igualdade de varincias (de desvios padro) uma varincia no pode ser 3 ou mais vezes a
outra.
Estatstica do teste:
Os estimadores das mdias populacionais
Utilizando-se a estatstica
X1 X 2
1 e 2
so
X1
X2.
123
Esta estatstica tem uma propriedade importante: a melhor estatstica quando as pressuposies de
normalidade e de igualdade de varincias esto satisfeitas.
Para duas amostras n1 e n2, como consequncia da distribuio amostral da mdia e Teorema Central
X 1 ~ N (media = 1 , d . p =
do Limite, tem-se
X 2 ~ N (media = 2 , d . p. =
n1
n2
X 1 X 2 ~ N ( 1 2 ,
2
n1
2
n2
ou
X1 X 2 :
X 1 X 2 ~ N (1 2 , (
1
1
+ ))
n1 n 2
pode ser estimado tanto por S1 como por S2. Existe uma combinao de S1 e S2 que fornece um
estimador melhor:
S12
S 22
(n1 1)S12 + (n 2 1) S 22
(n1 + n 2 2)
so as varincias amostrais,
1
1
+
n1 n 2
Sp
1
1
+
n1 n 2
onde (n1+n2-2) o nmero de graus de liberdade necessrio para o clculo de T, utilizando-se a distribuio t de Student .
Esta estatstica pode ser utilizada para a realizao do teste de hiptese e para o intervalo de confiana da diferena de duas mdias para amostras independentes.
Se o teste for segundo Neyman e Pearson, deve-se confrontar o valor observado (tobs) de T, com a
rea de rejeio de H0, para um nvel de significncia pr-fixado. Se tobs cair na rea de rejeio de H0,
opta-se pela rejeio da hiptese nula.
Se o teste for segundo Fisher, deve-se calcular a probabilidade de observar o valor observado (tobs) de
T ou um valor mais extremo, na curva especificada em H0. Decide-se com base no valor de p. Se a
probabilidade for pequena, conclu-se que os dados mostram evidncia contrria proposio de igualdade de mdias.
124
Aplicao:
Situao 1: Pesos ao nascer proveem de mesma populao?
Abordagem de Neyman e Pearson
H 0 : sobrev = no sobrevivente
H a : sobrev no sobreviviente
Considerar nvel de significncia pr-fixado em 5%
Olhando-se os dados e investigando-se as pressuposies do teste:
1,6
0
Density
nao sobrev
5.0e-04
.001
sobrev
1000
1500
2000
2500
3000
3500
1000
1500
2000
2500
3000
3500
peso
Density
normal peso
Graphs by condicao
n2=23,
Sp =
tobs =
(X1 X 2 )
(1692 2307)
=
= 3,68
1 1
1
1
Sp
+
589,63
+
n1 n2
27 23
H0
rea de rejeio
rea de rejeio de
de H0; = 0,025
2
H0; = 0,025
2
-3,68
-2,009
=0
2,009
125
sobrev = no sobrevivente
Pelo valor de p pode-se concluir que os dados mostram evidncia contrria proposio inicial. Os RN
sobreviventes apresentam maior peso mdio ao nascer.
Paciente
1
2
3
4
5
6
PAD antes
120
124
130
118
140
128
PAD aps
125
126
138
117
143
128
paciente
7
8
9
10
11
12
PAD antes
140
135
126
130
126
127
PAD aps
146
133
127
135
126
131
126
Situao 2
So apresentados dados de um estudo biomdico do peso de rins em uma srie de autpsias realizadas no departamento de patologia de um hospital na frica. A diferena das mdias amostrais pode
ser razoavelmente explicada como sendo devida ao acaso?
Peso do rim esquerdo (gramas)
170
155
140
115
235
125
130
145
105
145
155
110
140
145
120
130
105
95
100
125
Hipteses
H 0 : 1 = 2
H a : 1 2
escrever H 0 : d = 0 , onde d vem de uma populao composta pela diferena entre as observaes
X1 e X2, para cada indivduo.
Pressuposio:
N ( d , d )
Estatstica do teste:
T=
(d ) ( d ) (d ) ( d )
d
=
, que sob H0 torna-se T =
~ t ( n1)
Sd
Sd
Sd
n
n
127
Se o teste for segundo Fisher, deve-se calcular a probabilidade de observar o valor observado (tobs) de
T ou um valor mais extremo, na curva especificada em H0. Decide-se com base no valor de p. Se a
probabilidade for pequena, conclu-se que os dados mostram evidncia contrria proposio de igualdade de mdias.
Aplicao:
Considerando-se os dados de presso arterial diastlica antes e aps um tratamento
Paciente
Presso arterial diast- Presso arterial diasDiferena
lica antes
tlica aps
(d)
1
120
125
-5
2
124
126
-2
3
130
138
-8
4
118
117
1
5
140
143
-3
6
128
128
0
7
140
146
-6
8
135
133
2
9
126
127
-1
10
130
135
-5
11
126
126
0
12
127
131
-4
Abordagem de neyman e Pearson
Hipteses:
H 0 : d = 0
H a : d 0
d=
sd2 =
31
= 2,58 ;
12
sd = 9,501 = 3,082 ,
tobs =
d
2,58
=
= 2,90
sd
3,082
n
12
128
rea de aceitao de H0
rea de rejeio
rea de rejeio de
de H0; = 0,025
2
H0; = 0,025
2
-2,9
-2,201
=0
2,201
Como o valor calculado caiu na rea de rejeio, decide-se por rejeitar H0.
Conclui-se que foi encontrada diferena estatisticamente significante entre os nveis mdios de presso arterial diastlica antes e aps o tratamento, para nvel de significncia de 5%. O tratamento
provoca aumento da presso arterial diastlica.
Abordagem de Fisher
Proposio inicial:
antes = aps
129