Você está na página 1de 139

Estatstica

Heyder Diniz Silva


Sumario
1 Introducao 7
2 Estatstica descritiva 9
2.1 Organiza c ao e apresenta c ao de dados. . . . . . . . . . . . . . . . . . . . . . 9
2.1.1 Apresenta c ao tabular . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.1.1 Distribui c oes de freq uencias . . . . . . . . . . . . . . . . . 11
2.1.1.2 Distribui c oes de freq uencias acumuladas . . . . . . . . . . 16
2.1.2 Apresenta c ao gr aca . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.2.1 Histogramas . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.2.2 Polgonos de freq uencia . . . . . . . . . . . . . . . . . . . 20
2.1.2.3 Gr aco de setores (pizza) . . . . . . . . . . . . . . . . . . 21
2.1.2.4 Ogivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2 Medidas de Posi c ao e dispers ao . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.1 Medidas de Posi c ao . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.1.1 Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.1.2 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.2.1.3 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.2.1.4 Separatrizes (Quantis) . . . . . . . . . . . . . . . . . . . . 38
2.2.2 Medidas de disperss ao . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.2.2.1 Amplitude Total (A) . . . . . . . . . . . . . . . . . . . . . 41
2.2.2.2 Vari ancia e desvio padr ao . . . . . . . . . . . . . . . . . . 42
2.2.2.3 Coeciente de varia c ao . . . . . . . . . . . . . . . . . . . . 47
2
3
2.2.2.4 Erro padr ao da media . . . . . . . . . . . . . . . . . . . . 48
2.2.2.5 Momentos, Assimetria e Curtose . . . . . . . . . . . . . . 48
3 Probabilidades 54
3.1 Processo aleat orio: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2 Espa co amostral e Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.3 Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.4 Probabilidade Condicionada . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.5 Independencia de eventos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.6 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4 Variaveis aleat orias 63
4.1 Vari aveis Aleat orias Unidimensionais. . . . . . . . . . . . . . . . . . . . . . 63
4.1.1 Distribui c oes de Probabilidades . . . . . . . . . . . . . . . . . . . . 63
4.1.2 Fun c ao Reparti c ao ou Distribui c ao Acumulada F(x) . . . . . . . . . 64
4.2 Vari aveis Aleat orias Bidimensionais . . . . . . . . . . . . . . . . . . . . . . 65
4.2.1 Distribui c ao Conjunta de duas vari aveis aleat orias . . . . . . . . . . 66
4.2.2 Distribui c ao Marginal . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.2.3 Vari aveis Aleat orias Independentes . . . . . . . . . . . . . . . . . . 68
4.2.4 Esperan ca Matem atica . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.2.4.1 Propriedades da Esperan ca Matem atica . . . . . . . . . . 69
4.2.5 Vari ancia de uma vari avel aleat oria. . . . . . . . . . . . . . . . . . . 70
4.2.5.1 Propriedades da vari ancia . . . . . . . . . . . . . . . . . . 71
4.2.6 Covari ancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.3 Distribui c oes de vari aveis aleat orias discretas . . . . . . . . . . . . . . . . . 72
4.3.1 Distribui c ao Uniforme Discreta . . . . . . . . . . . . . . . . . . . . 72
4.3.2 Distribui c ao de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . 73
4.3.3 Distribui c ao Binomial. . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.3.4 Distribui c ao de Poison . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.3.4.1 Aproxima c ao da distribui c ao Binomial a Poisson. . . . . . 80
4
4.3.5 Distribui c ao Geometrica . . . . . . . . . . . . . . . . . . . . . . . . 81
4.3.6 Distribui c ao Pascal (Binomial Negativa) . . . . . . . . . . . . . . . 83
4.3.7 Distribui c ao Hipergeometrica . . . . . . . . . . . . . . . . . . . . . 85
4.3.8 Distribui c ao Multinomial . . . . . . . . . . . . . . . . . . . . . . . . 86
4.4 Distribui c oes de vari aveis aleat orias contnuas . . . . . . . . . . . . . . . . 87
4.4.1 Distribui c ao Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.4.2 Distribui c ao Normal . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.4.2.1 Distribui c ao Normal Reduzida ou Padronizada. . . . . . . 90
4.4.3 Distribui c ao Exponencial . . . . . . . . . . . . . . . . . . . . . . . . 93
4.4.4 Distribui c ao Qui-Quadrado . . . . . . . . . . . . . . . . . . . . . . 95
4.4.5 Distribui c ao t de Student . . . . . . . . . . . . . . . . . . . . . . . . 96
4.4.6 Distribui c ao F de Snedcor . . . . . . . . . . . . . . . . . . . . . . . 97
4.4.7 Aproxima c ao da Distribui c ao Binomial ` a Normal . . . . . . . . . . 97
5 Amostragem 100
5.1 Introdu c ao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.1.1 Deni c oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.1.2 Import ancia do uso de amostras. . . . . . . . . . . . . . . . . . . . 101
5.1.3 Vantagens do processo de amostragem em rela c ao ao censo. . . . . 102
5.2 Tecnicas de amostragem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.2.1 Principais tecnicas de amostragem probabilsticas. . . . . . . . . . . 104
5.2.1.1 Amostragem Simples ao Acaso . . . . . . . . . . . . . . . 104
5.2.1.2 Amostragem Sistem atica . . . . . . . . . . . . . . . . . . . 104
5.2.1.3 Amostragem por Conglomerados . . . . . . . . . . . . . . 104
5.2.1.4 Amostragem Estraticada . . . . . . . . . . . . . . . . . . 104
5.2.2 Principais tecnicas de amostragem n ao probabilsticas. . . . . . . . 106
5.2.2.1 Inacessibilidade a toda popula c ao . . . . . . . . . . . . . . 106
5.2.2.2 Amostragem sem norma (a esmo) . . . . . . . . . . . . . . 106
5.2.2.3 Popula c ao formada por material contnuo. . . . . . . . . . 106
5.2.2.4 Intencional . . . . . . . . . . . . . . . . . . . . . . . . . . 106
5
5.3 Distribui c oes Amostrais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
5.3.1 Distribui c ao amostral da media . . . . . . . . . . . . . . . . . . . . 107
5.3.1.1 Amostragem com reposi c ao . . . . . . . . . . . . . . . . . 107
5.3.1.2 Amostragem sem reposi c ao . . . . . . . . . . . . . . . . . 110
6 Inferencia 112
6.1 Teoria da estima c ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.1.1 Deni c oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.1.2 Propriedades dos Estimadores . . . . . . . . . . . . . . . . . . . . . 113
6.1.2.1 N ao tendenciosidade . . . . . . . . . . . . . . . . . . . . . 113
6.1.2.2 Consistencia. . . . . . . . . . . . . . . . . . . . . . . . . . 115
6.1.2.3 Eciencia . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
6.1.3 Intervalos de conan ca . . . . . . . . . . . . . . . . . . . . . . . . . 116
6.1.3.1 Intervalo de conan ca para a media . . . . . . . . . . . 116
6.1.3.1.1 Vari ancia conhecida . . . . . . . . . . . . . . . . 116
6.1.3.1.2 Vari ancia desconhecida . . . . . . . . . . . . . . . 118
6.1.3.2 Diferen ca entre duas media (
a

b
) . . . . . . . . . . . . 119
6.1.3.2.1 Variancias Conhecidas: . . . . . . . . . . . . . . . 119
6.1.3.2.2 Variancias Desconhecidas: . . . . . . . . . . . . . 120
6.1.3.3 Intervalo de conan ca para propor c ao . . . . . . . . . . . 121
6.1.3.3.1 Amostras grandes (n > 30) . . . . . . . . . . . . 121
6.1.3.3.2 Amostras pequenas (n 30) . . . . . . . . . . . . 122
6.1.3.4 Intervalo de conan ca para a diferen ca entre propor c oes . 122
6.1.3.4.1 Amostras grandes (n > 30) . . . . . . . . . . . . 122
6.1.3.4.2 Amostras pequenas (n 30) . . . . . . . . . . . . 123
6.1.3.5 Intervalo de conan ca para a vari ancia (
2
) . . . . . . . . 123
6.2 Teoria da decis ao (Testes de Hip oteses) . . . . . . . . . . . . . . . . . . . . 123
6.2.1 Metodologia de um teste de hip otese . . . . . . . . . . . . . . . . . 124
6.2.2 Tipos de erros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
6.2.3 Tipos de testes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
6
6.2.4 Algoritmo para realiza c ao de um teste de hip otese . . . . . . . . . . 128
6.2.5 Estatstica apropriadas para os testes de hip oteses . . . . . . . . . . 130
6.2.6 Teste de Qui-Quadrado (
2
) . . . . . . . . . . . . . . . . . . . . . . 131
6.2.6.1 Teste de aderencia . . . . . . . . . . . . . . . . . . . . . . 131
6.2.6.2 Teste de independencia . . . . . . . . . . . . . . . . . . . . 133
7 Regressao e Correlacao linear 136
Captulo 1
Introducao
O cidad ao comum pensa que a estatstica se resume apenas a apresentar
tabelas de n umeros em colunas esportivas e ou econ omicas de jornais e revistas, ilustradas
com gr acos, pilhas de moedas, etc. ou quando muito associam a estatstica ` a previs ao de
resultados eleitorais. Mas estatstico de hoje n ao se limita a compilar tabelas de dados e
os ilustrar gracamente. Pois ` a partir de 1925, com os trabalhos de Fisher, a estatstica
iniciou-se como metodo cientco, ent ao, o trabalho do estatstico passou a ser o de ajudar
a planejar experimentos, interpretar e analisar os dados experimentais e apresentar os re-
sultados de maneira a facilitar a tomada de decis oes razo aveis. Deste modo, podemos ent ao
denir estatstica como sendo a ciencia que se preocupa com a coleta, organiza c ao, apre-
senta c ao, an alise e interpreta c ao de dados. Didaticamente podemos dividir a estatstica
em duas partes a estatstica descritiva e a inferencia estatstica. A estatstica descritiva
se refere a maneira de apresentar um conjunto de dados em tabelas e gr acos, e ao modo
de resumir as informa c oes contidas nestes dados a algumas medidas. J a a inferencia es-
tatstica baseia-se na teoria das probabilidades para estabelecer conclus oes sobre todo um
grupo (chamado popula c ao), quando se observou apenas uma parte (amostra) desta pop-
ula c ao.

E necess ario ter em mente que a estatstica e uma ferramenta para o pesquisador,
nas respostas dos por ques de seus problemas. E que para ela ser bem usada e necess ario
conhecer os seus fundamentos e princpios, e acima de tudo que o pesquisador desenvolva
um esprito crtico e jamais deixe de pensar. Pois em ciencia e f acil mentir usando a
7
8
estatstica, o difcil e falar a verdade sem usar a estatstica.
Captulo 2
Estatstica descritiva
2.1 Organizacao e apresentacao de dados.
As observa c oes s ao o material b asico com que o pesquisador trabalha. Es-
tas observa c oes podem ser por exemplo a produtividade de uma planta, a velocidade de
processamento de um computador, a resistencia ` a ruptura de determinado cabo, suscetibil-
idade ou n ao de um indivduo a determinada doen ca, cor de uma or, sexo do primeiro
lho de um casal, opini ao dos alunos quanto a did atica de um professor, etc. Estas ob-
serva c oes apresentam uma caracterstica em comum que e a varia c ao ou variabilidade, ou
seja assumem diferentes valores de indivduo para indivduo.
Uma caracterstica que pode assumir diferentes valores de indivduo para
indivduo e denominada vari avel. Caso contr ario e denominada constante. As vari aveis
s ao classicadas em:
QUALITATIVAS: S ao aquelas para as quais uma medi c ao numerica n ao e possvel.
Ex: Cor de or, sexo, sabor.
QUANTITATIVAS: S ao aquelas para as quais e possvel se realizar-se uma medi c ao
numerica, subdivide-se em:
DISCRETAS: Pr oprias de dados de contagem, ou seja s o assumem valores in-
teiros. Ex: n umero de lhos, n umero de acidentes de tr ansito ocorridos num
9
10
certo perodo, etc.
CONT

INUAS: S ao aquelas origin arias de medi c oes, deste modo, podem assumir
qualquer valor real entre dois extremos. Ex: Peso corporal, altura, resistencia
a ruptura, volume, etc.
Os dados coletados no campo e trazidos para o laborat orio (escrit orio), na
forma em que se encontram, como os apresentados na Tabela 2.1, s ao denominados dados
brutos. Normalmente este tipo de dados tr as pouca ou nenhuma informa c ao ao leitor,
sendo necess ario uma elabora c ao (organiza c ao) destes dados, am de aumentar sua ca-
pacidade de informa c ao.
Tabela 2.1: Di ametro ` a altura do peito (DAP), em mm de 40 pes de Eucalyptus citriodora
aos 6 anos de idade em Lavras - MG
104 122 129 144 183
108 142 138 151 138
138 106 122 146 115
101 201 161 82 179
163 169 167 137 142
141 120 189 132 111
90 210 132 172 140
154 98 127 87 136
A mais simples organiza c ao numerica e ordena c ao dados em ordem crescente
ou decrescente (ROL). Como pode-se observar na Tabela 2, a simples organiza c ao dos
dados em um Rol, aumenta muito a capacidade de informa c ao destes. Pois enquanto a
Tabela 2.1 nos informava apenas que tnhamos 40 pes de Eucalipto, e alguns D.A.P., na
Tabela 2.2, vericamos que o menor di ametro observado foi 82 mm e o maior 210 mm, o
que nos fornece uma amplitude total de varia c ao da ordem de 128 mm.
Amplitude total
11
A = maior valor observado menor valor observado (2.1)
A = 210mm82mm = 128mm
Pode-se observar ainda que alguns di ametros como 122 mm, 132 mm 138
mm e 142 mm s ao mais comuns.
Tabela 2.2: Tabela 2. Di ametro ` a altura do peito (DAP), em mm de 40 pes de Eucalyptus
citriodora aos 6 anos de idade em Lavras - MG
82 111 132 142 167
87 115 136 142 169
90 120 137 144 172
98 122 138 146 179
101 122 138 151 183
104 127 138 154 189
106 129 140 161 201
108 132 141 163 210
2.1.1 Apresentacao tabular
2.1.1.1 Distribuic oes de freq uencias
Ap os esta primeira organiza c ao dos dados, podemos ainda agrupa-los em
classes de menor tamanho, am de aumentar sua a capacidade de informa c ao.
Distribuindo-se os dados observados em classes e contando-se o numero de in-
divduos contidos em cada classe, obtem-se a freq uencia de classe. A disposi c ao tabular dos
dados agrupados em classes, juntamente com as freq uencias correspondentes denomina-se
distribui c ao de freq uencia.
Para identicar uma classe, deve-se conhecer os valores dos limites inferior
e superior da classe, que delimitam o intervalo de classe. Por exemplo, para o caso dos
12
DAP dos eucaliptos, pode-se desejar incluir em uma unica classe todos os indivduos que
possuam DAP entre 120 e 138 mm assim, o intervalo de classe seria de 120 mm a 138 mm.
Neste ponto surge uma d uvida fundamental. Indivduos que apresentem
DAP exatamente iguais a 120 mm ou a 138 mm pertencem ou n ao a esta classe? Deste
modo surge a necessidade de denir a natureza do intervalo de classe, se e aberto ou
fechado. Quando o intervalo de classe e aberto, os limites da classe n ao pertencem a ela, e
quando o intervalo e fechado, os limite de classe pertencem a classe em quest ao. Nota c ao:
Intervalos abertos
]128mm - 138mm[
Intervalos fechados
[128mm - 138mm]
(128mm - 138mm)
Intervalos mistos
S ao fechados em um extremo e abertos no outro, como por exemplo:
[128mm - 138mm[
para este tipo de intervalo pode-se utilizar ainda a seguinte nota c ao:
128mm 138mm
Constru c ao de uma distribui c ao de freq uencia
Para montar uma distribui c ao de freq uencia e necess ario que primeiramente
se determine o n umero de classes (k) em que os dados ser ao agrupados. Por quest oes de
ordem pr atica e estetica sugere-se utilizar de 5 a 20 classes. Uma indica c ao do n umero de
classes a ser utilizado, em fun c ao do n umero de dados (n) e:
1. n 100
k =

n. (2.2)
13
2. n > 100
k = 5log(n). (2.3)
3. Criterio de SCOTT (1979), baseado na normalidade dos dados:
k =
An
1
3
3.49s
(2.4)
em que:
A e a amplitude total;
s e o desvio padr ao;
n e o n umero de observa c oes.
Ap os determinado o n umero de classes (k) em que os dados ser ao agrupados,
deve-se ent ao determinar o intervalo de classe (c ), que e dado pela seguinte express ao:
c =
A
k 1
(2.5)
em que:
c e amplitude de classe;
A e a amplitude total;
k e o n umero de classes.
Conhecida a amplitude de classes, determina-se ent ao os intervalos de classe.
Os limites inferior e superior das classes devem ser escolhidos de modo que o menor valor
observado esteja localizado no ponto medio da primeira classe, que e dado por:
PM =
L
inf
Lsup
2
(2.6)
em que:
L
inf
e o limite inferior da classe;
L
sup
e o limite superior da classe;
Assim, o limite inferior da primeira classe ser a:
L
inf1
= menorvalor
c
2
(2.7)
14
E os demais limites s ao obtidos somando-se c ao limite anterior.
A ttulo de ilustra c ao agruparemos os dados referentes ao DAP de eucaliptos
em classes
1
o
Amplitude total (A)
A = maior valor observado - menor valor observado = 210 -82 =128 mm.
2
o
Determinar o n umero de classes (k)
n = 40
K =

40 = 6, 32
, como o n umero de classes e inteiro usaremos 6 classes.
3
o
Determinar a amplitude de classe (c)
c =
128
6 1
= 25, 6mm
4
o
Determinar o limite inferior da primeira classe (Li)
L
inf1
= menorvalor
c
2
L
inf1
= 82
25.6
2
= 69, 2
5
o
Determinar os intervalos de classe
69, 2 94, 8
94, 8 120, 4
120, 4 146, 0
146, 0 171, 6
171, 6 197, 2
197, 2 222, 8
6
o
Montar a distribui c ao de freq uencia.
Para montar a distribui c ao de freq uencia, basta apresentar as classes obtidas
na forma tabular e contar quantos indivduos existem em classe.
Apresentando os dados na forma de distribui c ao de freq uencia, sintetiza-se a
informa c ao contida nos mesmos, alem de facilitar sua visualiza c ao. Pois pode-se vericar
claramente na Tabela 2.3 que os DAP dos 40 pes de Eucalyptus citriodora em quest ao est ao
concentrados entorno dos valores centrais, decrescendo em dire c ao aos valores extremos.
A apresenta c ao dos dados em forma de distribui c ao de freq uencia facilita ainda o c alculo
15
Tabela 2.3: Distribui c ao de freq uencias dos DAP de 40 pes de Eucalyptus citriodora aos 6
anos de idade em Lavras - MG.
Classes (mm) Tabula c ao Freq uencia
69, 2 94, 8 [[[ 3
94, 8 120, 4 [[[[[[[[ 8
120, 4 146, 0 [[[[[[[[[[[[[[[[ 16
146, 0 171, 6 [[[[[[[ 7
171, 6 197, 2 [[[[ 4
197, 2 222, 8 [[ 2
Total 40
de v arias medidas estatsticas de interesse, alem de permitir a apresenta c ao gr aca dos
mesmos.
Freq uencia Absoluta e Freq uencia Relativa.
As freq uencias apresentadas na Tabela 2.3 s ao denominadas freq uencias ab-
solutas, pois indicam o n umero de observa c oes pertencentes a cada classe, este tipo de
freq uencia apresenta a limita c ao de sua interpreta c ao ser dependente do n umero total de
observa c oes. Para solucionar este problema utiliza-se a freq uencia relativa, que expressa
a quantidade de observa c oes pertencentes a uma classe, em rela c ao ao n umero total de
observa c oes, e e dada por:
Fr
i
=
F
i

k
i=1
F
i
(2.8)
e que,
Fr
i
e a freq uencia relativa da i-essima classe;
F
i
e a freq uencia absoluta da i-essima classe;
Assim a Tabela 2.3 pode ser apresentada do seguinte modo:
16
Tabela 2.4: Distribui c ao de freq uencias dos DAP de 40 pes de Eucalyptus citriodora aos 6
anos de idade em Lavras - MG.
Classes (mm) Freq uencia Absoluta Freq uencia Relativa Freq uencia Relativa (%)
69, 2 94, 8 3 0,075 7,5
94, 8 120, 4 8 0,200 20,0
120, 4 146, 0 16 0,400 40,0
146, 0 171, 6 7 0,175 17,5
171, 6 197, 2 4 0,100 10,0
197, 2 222, 8 2 0,050 5,0
Total 40 1,000 100,0
2.1.1.2 Distribuic oes de freq uencias acumuladas
Muitas vezes pode-se estar interessado n ao em saber a quantidade de ob-
serva c oes que existe numa determinada classe, mas sim a quantidade de observa c oes acima
ou abaixo de um determinado ponto na distribui c ao.
Deste modo, a soma das freq uencias de todos os valores abaixo do limite
superior de uma determinada classe e denida como freq uencia acumulada para baixo
deste ponto, assim como a soma das freq uencias de todos os valores acima do limite
inferior de uma classe e denominada freq uencia acumulada para cima.
A ttulo de ilustra c ao, est ao apresentadas nas Tabelas 2.5 e 2.6, respec-
tivamente, as freq uencias acumuladas para cima e para baixo dos DAP dos 40 pes de
Eucalyptus citriodra o em quest ao.
Aplica c oes das distribui c oes de freq uencias acumuladas
Para vericar qual a porcentagem de pes de Eucalyptus citriodra que pos-
suem DAP inferior a 146 mm basta consultar diretamente a Tabela 2.5 e vericar a
freq uencia acumulada abaixo deste valor (6,75%), pois o valor 146 mm e um dos lim-
ites de classe apresentados nesta tabela. Mas como proceder para obter as freq uencias
acumuladas para valores intermedi arios aos apresentados na tabela? Como por exemplo a
17
Tabela 2.5: Distribui c ao de freq uencia acumulada para baixo dos DAP de 40 pes de
Eucalyptus citriodra aos 6 anos de idade em Lavras - MG.
Freq uencia Acumulada
Di ametro (mm) Absoluta Relativa
Abaixo de 69,2 0 0,000
Abaixo de 94,8 3 0,075
Abaixo de 120,4 11 0,275
Abaixo de 146,0 27 0,675
Abaixo de 171,6 34 0,850
Abaixo de 197,2 38 0,950
Abaixo de 222,8 40 1,000
freq uencia acumulada abaixo de 150 mm?
Para este tipo de c alculo, pressup oe-se que os di ametros estejam uniforme-
mente distribudos dentro das classes, e procede-se do seguinte modo:
Freq. acumulada abaixo, da classe imediatamente inferior a 150 (abaixo de
146)= 0,675;
Freq. acumulada abaixo, da classe imediatamente superior a 150 (abaixo de
171,6) = 0,850;
Freq. abaixo de 146,0 mm = 0,675
Freq. abaixo de 171,6 mm = 0,850
Assim,
Freq. entre 146,0 e 171,6 mm =0, 850 0, 675 = 0, 175
de 146,0 a 171,6 mm s ao 25,6 mm de 146,0 a 150,0 mm s ao 4,0 mm
ent ao,
para uma diferen ca de 25,6 mm existem 0,175 dos DAP;
para uma diferen ca de 4,0 mm existir ao x dos DAP;
ou seja
18
Tabela 2.6: Distribui c ao de freq uencia acumulada para cima dos DAP de 40 pes de Euca-
lyptus citriodra aos 6 anos de idade em Lavras - MG.
Freq uencia Acumulada
Di ametro (mm) Absoluta Relativa
Acima de 69,2 40 1,000
Acima de 94,8 37 0,925
Acima de 120,4 29 0,725
Acima de 146,0 13 0,325
Acima de 171,6 6 0,150
Acima de 197,2 2 0,050
Acima de 222,8 0 0,000
25,6 mm 0,175
4,0 x
de onde verica-se que x = 0, 0273.
Como abaixo de 140,0 mm existem 0,675 dos DAP, e entre 140,0 e 150 mm
existem 0,0273, conclui-se que abaixo de 150 mm existam 0,675 + 0,0273 = 0,7023 dos
DAP.
Obs. Para vari aveis qualitativas n ao se faz necess ario a distribui c ao dos
dados em classes pois cada valor da vari avel j a representa uma classe distinta como
pode ser observado na tabela 7, o mesmo ocorrendo com as vari aveis quantitativas discretas
(Exemplo 2).
Exemplo 2.: Realizou-se num grande hospital um estudo referente ao n umero
de vitimas fatais de acidentes de transito, atendidas diariamente, durante um certo mes,
obtendo os seguintes resultados:
0 2 1 5 3 2 1 2 2 3 0 3 0 0 1 2 3 5 1 0 0 2 0 4 0 3 4 0 2 1
Dispondo estes dados em um Rol tem-se:
0 0 0 0 0 0 0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 4 4 5 5
19
Tabela 2.7: Distribui c ao de Freq uencias do N umero de Funcion arios da Empresa Tabajara
Classicado Quanto ao Sexo em 1996.
SEXO Fa Fr
MASCULINO 20 0,40
FEMININO 30 0,60
TOTAL 50 1,00
Tabela 2.8: N umero de vtimas fatais de acidentes de tr ansito atendidas diariamente em
um grande hospital, durante um certo mes
Vitimas fatais (X/dia) N umero de dias
0 9
1 5
2 7
3 5
4 2
5 2
Total 30
2.1.2 Apresentacao graca
As mesmas informa c oes fornecidas pelas distribui c oes de freq uencias podem
ser obtidas, e mais facilmente visualizadas atraves de gr acos, tais como histogramas,
polgonos de freq uencia, ogivas, gr acos de setores, pictogramas e outros.
2.1.2.1 Histogramas
Os histogramas s ao constitudos por um conjunto de ret angulos, com as
bases assentadas sobre um eixo horizontal, tendo o centro da mesma no ponto medio da
classe que representa, e cuja altura e proporcional ` a freq uencia da classe. Se as amplitudes
20
de classe forem todas iguais, as alturas ser ao numericamente iguais as freq uencias das
classes. Porem, se os intervalos de classe n ao tiverem todos a mesma amplitude, as alturas
dos ret angulos dever ao ser convenientemente ajustadas, am de que as areas dos mesmos
sejam proporcionais ` as freq uencias das classes.
Figura 2.1: Di ametro ` a altura do peito de 40 pes de Eucalyptus citriodora aos 6 anos de
idade em Lavras-MG.
2.1.2.2 Polgonos de freq uencia
Polgono de freq uencia e um gr aco de an alise no qual as freq uencias das
classes s ao localizadas sobre perpendiculares levantadas nos ponto medios das classes.
E pode ser obtido pela simples uni ao dos pontos medios dos topos dos ret angulos de um
histograma. Completa-se o polgono unindo-se as extremidades da linha que une os pontos
representativos das freq uencias de classe aos pontos medios das classes imediatamente
anterior e posterior as classes extremas, que tem freq uencia nula.
21
Figura 2.2: Di ametro ` a altura do peito de 40 pes de Eucalyptus citriodora aos 6 anos de
idade em Lavras-MG.
Figura 2.3: Di ametro ` a altura do peito de 40 pes de Eucalyptus citriodora aos 6 anos de
idade em Lavras-MG.
2.1.2.3 Graco de setores (pizza)
O processo de constru c ao de um gr aco de setores e simples pois sabe-se que
setor de circunferencia formado por um angulo de 360
o
equivale a 100% da area da cir-
cunferencia, assim para obter-se o setor cuja area representa uma determinada freq uencia,
basta resolver uma regra de tres simples, como a apresentada a seguir:
22
360
o
100%
x
o
Fr
Figura 2.4: Di ametro ` a altura do peito de 40 pes de Eucalyptus citriodora aos 6 anos de
idade em Lavras-MG.
2.1.2.4 Ogivas
Ogiva e o nome dado a um polgono de freq uencias acumuladas, nas quais
as freq uencias acumuladas s ao localizadas sobre perpendiculares levantadas nos limites
inferiores ou superiores das classes, dependendo se a ogiva representar as freq uencias acu-
muladas abaixo ou acima, respectivamente.
Histogramas com classes de diferentes tamanhos
Como foi comentado, as areas dos ret angulos de um histograma s ao propor-
cionais ` a freq uencia da classe que representam. Deste modo, quando as classes apresentam
diferentes amplitudes , torna-se necess ario fazer um ajuste na altura dos ret angulos, am
de que suas areas permane cam eis a sua freq uencia.
23
Figura 2.5: Di ametro ` a altura do peito de 40 pes de Eucalyptus citriodora aos 6 anos de
idade em Lavras-MG.
Figura 2.6: Di ametro ` a altura do peito de 40 pes de Eucalyptus citriodora aos 6 anos de
idade em Lavras-MG.
Para realizar esta corre c ao utilizamos como altura dos ret angulos a dfr (den-
sidade de freq uencia relativa), dada por
dfr =
Fr
c
(2.9)
em que,
24
Fr = freq uencia relativa da classe
c = amplitude de classe
Para ilustrar o uso da dfr na constru c ao de histogramas utilizaremos os
dados da tabela 2.9.
Tabela 2.9: Distribui c ao de Freq uencias da

Areas em ha de 900 Propriedades Rurais em
uma Regi ao de MG.

Area Fa Fr
0 50 500 0,5000
50 150 250 0,250
150 400 250 0,250
Total 1000 1,0000
Caso construssemos um histograma utilizando as Fr obteramos a gura
2.7. Como pode-se observar,na tabela 2.9 nas classes 50 150 e 150 400 existem o
mesmo n umero de propriedades. Porem ao observar-se a gura 2.7, nota-se que area do
histograma, que deveria representar a % de propriedades com area entre 150 400 ha,
e 2,5 vezes maior que a area referente ` a classe 50 150. Quando deveriam ser iguais.
Construindo o histograma, tendo como coordenadas do eixo Y as dfr, apresentadas na
tabela 2.10, esta distor c ao e corrigida, como pode ser vericado na gura 2.8.
Os histogramas e polgonos de freq uencias podem indicar ainda qual e o tipo
de distribui c ao que os dados seguem, como pode ser visto a seguir:
25
Figura 2.7: Distribui c ao do N umero de Propriedades Rurais Segundo suas

Areas, Num
Certo Municpio de MG.
Figura 2.8: Distribui c ao de Freq uencias do

Areas, em ha de 900 Propriedades Rurais em
uma Regi ao de MG.
2.2 Medidas de Posicao e dispersao
2.2.1 Medidas de Posicao
As medidas de posi c ao ou de tendencia central constituem uma forma mais
sintetica de apresentar os resultados contidos nos dados observados, pois representam um
26
Tabela 2.10: Distribui c ao de Freq uencias do

Areas, em ha de 900 Propriedades Rurais em
uma Regi ao de MG.

Area Fr c dfr
0 50 0,500 50 0,0100
50 150 0,250 100 0,0025
150 400 0,250 250 0,0010
Total 1,000
Figura 2.9: Distribui c ao simetrica.
Figura 2.10: Distribui c ao assimetrica a esquerda.
valor central, em torno do qual os dados se concentram. As medidas de posi c ao mais
empregadas s ao a media, a mediana e a moda.
27
Figura 2.11: Distribui c ao assimetrica a direita.
Figura 2.12: Distribui c ao em jota.
Figura 2.13: Distribui c ao em jota invertido.
Figura 2.14: Distribui c ao distribui c ao bimodal.
28
Figura 2.15: Distribui c ao multimodal.
2.2.1.1 Media

E a mais usada das tres medidas de posi c ao mencionadas, por ser a mais
comum e compreensvel delas, bem como pela relativa simplicidade do seu c alculo, alem
de prestar-se bem ao tratamento algebrico.
- Media Aritmetica:
A media aritmetica ou simplesmente media de um conjunto de n observa c oes,
x
1
, x
2
, . . . , x
n
e denida como:
x =

n
i=1
x
i
n
(2.10)
Ex.: Dados os pesos ao nascer (kg) de cinco leit oes da ra ca Large White;
1,350; 1,500; 1,800; 1,800; 1,900.
Temos que o peso medio ao nascer destes leit oes e
x =
1, 350 + 1, 500 + 1, 800 + 1, 800 + 1, 900
5
= 1, 670kg
Interpreta c ao: O peso medio ao nascer dos cinco leit oes foi de 1, 670kg, isto
quer dizer que alguns leit oes pesaram menos de 1, 670kg, outros pesaram mais, mas em
media, o peso ao nascer dos leit oes foi 1, 670kg. Ou seja 1, 670kg e um valor em torno do
qual os pesos ao nascer destes cinco leit oes se concentra.
Se os dados estiverem agrupados na forma de uma distribui c ao de freq uencia,
lan ca-se m ao da Hip otese tabular b asica, para o c alculo da media.
29
Hip otese Tabular B asica
Todas as observa c oes contidas numa classe s ao consideradas iguais ao ponto
medio da classe.
Que e realizado atraves da seguinte express ao:
x =

k
i=1
x
i
Fa
i

k
i=1
Fa
i
=
k

i=1
x
i
Fr
i
(2.11)
em que,
x
i
= ponto medio da classe i;
Fa
i
= freq uencia absoluta da classe i;
Fr
i
= freq uencia relativa da classe i.
Ex.: Calcular a media dos dados apresentados a seguir:
Tabela 2.11: Durabilidade (horas) de 400 v alvulas ensaiadas na Tabajara Inc.
Dura c ao (horas) Fa Fr
300 400 14 0,035
400 500 46 0,115
500 600 58 0,145
600 700 76 0,190
700 800 68 0,170
800 900 62 0,155
900 1000 48 0,120
1000 1100 22 0,055
1100 1200 6 0,015
TOTAL 400 1,000
x =
(350)(14) + (450)(46) + + (1150)(6)
14 + 46 + + 6
=
286200
400
= 715, 5horas
Propriedades da Media
30
i. A soma dos desvios de um conjunto de dados em rela c ao a sua media e nula
Ex.: Dados ,1,2,3;
x = 2
(1 2) + (2 2) + (3 2) = 0
Prova:
n

i=1
[x
i
x] =
n

i=1
x
i
n x
=
n

i=1
x
i
n

n
i=1
x
i
n
=
n

i=1
x
i

i=1
x
i
= 0
ii. A soma dos quadrados dos desvios de um conjunto de dados em rela c ao a uma con-
stante k e mnima quando k for a media.
Ex.: Dados 1,2,3, x = 2
k Soma dos quadrados dos desvios
1,0 5,00
1,5 2,75
2,0 2,00
2,5 2,75
3,0 5,00
Prova:
Seja
S =
n

i=1
[x
i
]
2
,
Ent ao o valor de que minimiza S e obtido solucionando-se o sistema:
31
dS
d
= 0
Assim
2
n

i=1
[x
i
] = 0
n

i=1
x
i
n = 0
=

n
i=1
x
1
n
= x
iii. A media de um conjunto de dados acrescidos ou subtrados em cada elemento de uma
constante k e igual a media original somada ou subtrada desta constante.
Ex.: Dados 1, 2, 3 x = 2
k=2 novos dados: 3, 4, 5 x = 4 = 2 + 2 = x +k
Prova: x =

n
i=1
x
i
n
fazendo x

i
= (x
i
+k)
tem-se:
x

n
i=1
x

i
n
=

n
i=1
(x
i
k)
n
=

n
i=1
x
i
nk
n
=

n
i=1
x
i
n
k
x

= x k
iv. Multiplicando-se todos os dados por uma constante k, a nova media ca multiplicada
por k.
Ex.: Dados: 1, 2, 3 x = 2
32
k=3 novos dados: 3, 6, 9 x = 6 = (3)(2) = k x
Prova: x =

n
i=1
x
i
n
fazendo x

i
= (kx
i
)
tem-se:
x

n
i=1
x

i
n
=

n
i=1
(kx
i
)
n
=
k

n
i=1
x
i
n
x

= k x
Caractersticas e import ancia:
i.

E muito inuenciada pelos valores extremos da distribui c ao;
ii. Localiza-se, em geral, na classe de maior freq uencia;
iii. Na sua determina c ao s ao considerados todos os dados da distribui c ao;
iv. A sua precis ao est a na raz ao direta do n umero de observa c oes com que e calculada;
v.

E unica para um conjunto de dados.
vi. N ao pode ser calculada para dados agrupados que apresentam classes extremas aber-
tas.
Ex.:
Classe Fa
0 a 500 5
mais de 500 6
- Media Ponderada
`
As vezes associa-se ` as observa c oes x
1
, x
2
, . . . , x
n
determinadas pondera c oes
ou pesos w
1
, w
2
, . . . , w
n
que dependem da import ancia atribuda a cada uma das ob-
serva c oes, neste caso a media e dada por:
33
x
p
=

n
i=1
x
i
w
i

n
i=1
w
i
(2.12)
Ex.: Se o exame nal de um curso tem peso 3, e as provas correntes peso 1.
Qual a nota media de um aluno que obteve 85 no exame nal e 70,90 nas provas correntes?
Aplicando-se a equa c ao2.12 tem-se:
x
p
=
(3)(85) + (1)(70) + (1)(90)
3 + 1 + 1
=
415
5
= 85 pontos
- Media Geometrica
A media geometrica de um conjunto de n observa c oes, x
1
, x
2
, , x
n
, e dada
pela raiz de ordem n do produto dessas observa c oes, ou seja:
x
G
=
n
_
x
1
X
2
x
n
=
n

_
n

i=1
x
i
(2.13)
ou ainda:
ln x
G
=
1
n
n

i=1
ln x
i
(2.14)
A media geometrica e utilizada para representar vari aveis assimetricas a
direita, pois, nestes casos, media aritmetica, por ser muito inuenciada pelos valores ex-
tremos, n ao representa bem a vari avel. Como exemplos de vari aveis, para as quais a media
geometrica e um melhor localizador do que a media aritmetica pode sitar-se a distribui c ao
de renda da popula c ao brasileira, a condutividade hidr aulica de um solo e o di ametro de
torr oes de solo.
- Media Harm onica
A media harm onica de um conjunto de n observa c oes, x
1
, x
2
, . . . , x
n
, e a
recproca da media aritmetica dos recprocos das observa c oes:
x
H
=
1
1
n

n
i=1
1
x
i
=
n

n
i=1
1
x
i
(2.15)
Este tipo de media e utilizado para vari aveis que apresentem periodicidade,
ou seja uma varia c ao harm onica, como por exemplo ondas de r adio, varia c ao de pre cos de
produtos agrcolas no decorrer do ano (safra/entre safra), sinais de TV, etc.
34
2.2.1.2 Mediana
Para um conjunto de dados ordenados (Rol) a mediana e o valor que e
precedido e seguido pelo mesmo n umero de dados (observa c oes). Isto e 50% dos dados s ao
superiores ` a mediana e 50% s ao inferiores.
C alculo da mediana
i. Quando o n umero de dados (n) for mpar, a mediana e dada por:
Md = x
(
n+1
2
)
(2.16)
Ex.: 0, 1, 2, 3, 4 n = 5 (

impar)
Md = x
(
5+1
2
)
= x
(3)
= 2
ii. Quando o n umero de dados for par, a mediana ser a dada por:
Md =
x
(
n
2
)
+x
(
n+2
2
)
2
(2.17)
Ex.: 0, 1, 2, 3 n = 4 (par)
Md =
x
(
4
2
)
+x
(
4+2
2
)
2
=
x
(2)
+x
(3)
2
=
1+2
2
= 1, 5
iii. Dados agrupados:
Md = L
i
+
_
n
2
F
a
F
Md
+
_
c, (2.18)
em que,
L
i
= e o limite inferior da classe mediana;
F
a
= e a freq uencia acumulada das classes anteriores a classe mediana;
F
Md
e a freq uencia da classe mediana; e
c e amplitude da classe mediana.
Ex.: Para os dados da Tabela2.11 (Durabilidade das v alvulas) temos:
35
n = 400 observa c oes. o valor da mediana encontra-se entre a posi c ao 200 e 201 x
n
2
e
xn+2
2
, que pertencem ` a 5
a
classe [700 800[ Aplicando-se a f ormula da mediana vem:
Md = L
i
+
_
n
2
F
a
F
Md
+
_
c
= 700 +
_
400
2
194
68
+
_
100
= 708, 82 horas
Interpreta c ao: A mediana igual a 708,82 horas indica que 50% das v alvulas duram
menos que 708,82 horas e 50% duram mais que 708,82 horas.
Propriedades da Mediana:
i. A soma dos m odulos dos desvios dos dados em rela c ao ` a mediana e mnima.
n

i=1
[x
i
Md[ = m

inimo
ii. Somando-se ou subtraindo-se uma constante (k) a todas as observa c oes, a mediana
ca somada ou subtrada desta constante (k).
x

= X k Md

= Md k
iii. Multiplicando-se todas as observa c oes por uma constante (k), a mediana ca multi-
plicada por esta constante (k).
x

= kx Md

= kMd
Caractersticas e Import ancia:
i. Pode ser obtida em distribui c oes de freq uencias que apresentem classes com limites
indenidos;
ii.

E muito empregada em pesquisas nas quais os valores extremos tem pouca im-
port ancia;
36
iii. N ao e inuenciada por valores extremos e sim pelo n umero de observa c oes;
iv.

E mais realista do que a media para representar certas vari aveis, como o nvel salarial
de uma empresa.
2.2.1.3 Moda
A moda de um conjunto de dados e o valor que ocorre com maior freq uencia,
isto e, o valor mais comum. Para um conjunto de dados a moda pode n ao ser unica, bem
como pode n ao existir.
Ex.:
2, 3, 4, 5, 7, 7, 7, 8, 9 Mo = 7;
1, 2, 3, 4, 7, 9, 10, 13, 20 n ao possui moda;
1, 2, 3, 4, 4, 8, 10, 10 13 Mo = 4 e Mo = 10.
Dados Agrupados
Quando os dados est ao agrupados, na forma de uma distribui c ao de
freq uencias, a moda e o ponto do eixo x, correspondente ` a ordenada m axima da dis-
tribui c ao. O processo para c alculo da moda em dados agrupados e o geometrico, a partir
do histograma de freq uencias (Metodo de Czuber). Este metodo e baseado na inuencia
que as classes adjacentes exercem sobre a moda, deslocando-a no sentido da classe de
maior freq uencia.
No histograma acima, marca-se, na classe modal, os vertices A, B, C e D.
Tra ca-se as retas AC e BD. No ponto de intersec c ao destas retas (E) tra ca-se uma perpen-
dicular ao eixo das classes, localizando o ponto Mo, valor da moda. O ponto Mo divide
o intervalo da classe modal (c) em duas partes, cujos comprimentos s ao proporcionais a

1
e
2
. Sendo
1
a diferen ca entre a freq uencia da classe modal e da classe imediata-
mente anterior,e
2
a diferen ca entre as freq uencias da classe modal e da imediatamente
posterior.
Por E tra ca-se a reta FF

, paralela ao eixo das classes, obtendo assim, os


segmentos EF e EF

, que representam as alturas dos tri angulos ABE e CDE.


37
Figura 2.16: Esquema para obten c ao da moda pelo metodo de Czuber
Sendo Li o limite inferior da classe modal, Ls o limite superior e x a dist ancia
entre Li e a moda (Mo), vericasse na gura 2.16 que:
Mo = Li +x (2.19)
Sendo os tri angulos ABE e CDE semelhantes (pois possuem dois angulos
iguais) tem-se que:
EF
EF

=
AB
CD
x
c x
=

1

2
x
2
= c
1
x
1
x =

1

1
+
2
c (2.20)
Substituindo 2.20 em 2.19 tem-se:
Mo = L
i
+

1

1
+
2
c, (2.21)
em que:
L
i
e o limite inferior da classe modal;
38

1
e a diferen ca entre a freq uencia da classe modal e da imediatamente
anterior;

2
e a diferen ca ente a freq uencia da classe modal e da imediatamente
anterior;
c e a amplitude da classe modal.
Caractersticas e Import ancia
i. N ao e afetada por valores extremos, a n ao ser que estes constituam a classe modal;
ii.

E uma medida bastante utilizada em Estatstica Econ omica;
iii. N ao apresenta boas propriedades algebricas; d) Maximiza o n umero de desvios iguais
a zero.
Propriedades da Moda
i. Somando-se ou subtraindo uma constante a todos os dados, a moda ca somada ou
subtrada da mesma constante.
x

= x k Mo

= Mo k
ii. Multiplicando-se todos os dados por uma constante k, a moda ca multiplicada por
esta constante.
x

= kx Mo

= kMo
2.2.1.4 Separatrizes (Quantis)
Quartis
Os quartis separam um conjunto de dados ordenados (Rol) em quatro partes
iguais. Assim:
Q
1
e o 1
o
quartil, deixa 25% dos elementos abaixo dele;
39
Q
2
= 2
o
quartil, coincide com a mediana, deixa 50% dos elementos abaixo
dele;
Q
3
= 3
o
quartil, deixa 75% dos elementos abaixo dele.
Determina c ao de Q
1
Q
1
= Li
Q
1
+
_
n
4
Fa
Q
1
F
Q
1
_
c (2.22)
em que:
Li
Q
1
e o limite inferior da classe que contem Q
1
;
Fa
Q
1
e a freq uencia acumulada das classes anteriores ` a classe que contem
Q
1
;
F
Q
1
e a freq uencia da classe que contem Q
1
e
c e a amplitude da classe que contem Q
1
.
Determina c ao de Q
3
Q
3
= Li
Q
3
+
_
3n
4
Fa
Q
3
F
Q
3
_
c (2.23)
em que:
Li
Q
3
e o limite inferior da classe que contem Q
3
;
Fa
Q
3
e a freq uencia acumulada das classes anteriores ` a classe que contem
Q
3
;
F
Q
3
e a freq uencia da classe que contem Q
3
e
c e a amplitude da classe que contem Q
3
.
Decis
S ao valores que dividem uma serie de dados ordenados em dez partes iguais.
O i esimo decil, (i = 1, 2, . . . , 10), de um conjunto de observa c oes organizadas na forma
de uma distribui c ao de freq uencias pode ser obtido por:
D
i
= Li
D
i
+
_
in
10
Fa
D
i
F
D
i
_
c (2.24)
em que:
40
Li
D
i
e o limite inferior da classe que contem D
i
;
Fa
D
i
e a freq uencia acumulada das classes anteriores ` a classe que contem
D
i
;
F
D
i
e a freq uencia da classe que contem D
i
e
c e a amplitude da classe que contem D
i
.
Percentis
S ao valores que dividem uma serie de dados ordenados em 100 partes iguais.
Dada uma distribui c ao de freq uencias, o valor do i esimo percentil, (i = 1, 2, . . . , 10) e
obtido por:
P
i
= Li
P
i
+
_
in
100
Fa
P
i
F
P
i
_
c (2.25)
em que:
Li
P
i
e o limite inferior da classe que contem P
i
;
Fa
P
i
e a freq uencia acumulada das classes anteriores ` a classe que contem P
i
;
F
P
i
e a freq uencia da classe que contem P
i
e
c e a amplitude da classe que contem P
i
.
Rela c oes empricas entre media, mediana, moda e as distribui c oes de dados:
Distribui c ao Rela c ao
Simetrica x = Md = Mo
Assimetrica a direita (assimetrica positiva) x > Md > Mo
Assimetrica a esquerda (assimetrica negativa) x < Md < Mo
2.2.2 Medidas de disperssao
A utiliza c ao de uma medida de posi c ao para substituir um conjunto de dados
e insuciente para sintetizar a informa c ao nele contida, como pode ser observado a seguir:
A = 10, 10, 10, 10, 10, 10, 10
B = 1, 8,10, 10, 11, 12, 18
C = 1, 2, 10, 10, 10, 13, 24
41
Calculando a media (eq 2.10), mediana (eq 2.16 e moda desses tres conjuntos
tem-se:
x
A
= x
B
= x
c
= 10 unidades
Md
A
= Md
B
= Md
c
= 10 unidades
Mo
A
= Mo
B
= Mo
c
= 10 unidades
Assim, verica-se que os tres conjuntos (A,B,C) apresentam medias, me-
dianas e modas iguais a 10unidades, porem observando-os, percebe-se que eles s ao bem
diferentes entre si, pois enquanto no conjunto A os dados s ao todos iguais, os demais
apresentam uma certa varia c ao, sendo que esta varia c ao e maior no conjunto C. Deste
modo, para sintetizarmos ecientemente a informa c ao de um conjunto de dados temos que
associar ` a medida de posi c ao utilizada, uma medida de dispers ao, que vai informar como
estes dados se comportam em torno da medida de posi c ao em quest ao.
2.2.2.1 Amplitude Total (A)
A amplitude total e a diferen ca entre o maior e o menor valor observado
A = MV O mvo, (2.26)
em que:
MV O e o maior valor observado, e
mvo e o menor valor observado.
Para os conjuntos A,B e C tem-se:
A
A
= 10 10 = 0 unidades
A
B
= 18 1 = 17 unidades e
A
C
= 24 1 = 23 unidades.
Nota-se, ent ao, que a amplitude do conjunto C e bem maior que nos demais.
A amplitude e uma medida de dispers ao f acil de ser calculada e e certamente a maneira
mais natural e comumente utilizada para descrever a variabilidade de um conjunto de
42
dados. Porem sua interpreta c ao depende do n umero de observa c oes, mas, no seu c alculo
n ao s ao consideradas todas as observa c oes, pois s o utiliza os valores extremos.
2.2.2.2 Variancia e desvio padrao
Uma boa medida de dispers ao deve basear-se em todos os dados, ser facil-
mente calcul avel e compreensvel, alem de prestar-se bem ao tratamento algebrico. Uma
medida com todas estas caractersticas e obtida considerando-se os desvios de cada ob-
serva c ao em rela c ao a media (chamados erros) :
e
i
= x
i
x (2.27)
Para obter um unico n umero que represente a dispers ao dos dados, pensou-se inicialmente
em obter-se a media destes desvios, mas deve-se lembrar que a soma dos desvios de um
conjunto de dados em rela c ao a sua media e nula. Ent ao, optou-se por utilizar a soma
dos quadrados dos desvios, pois elevando-se cada desvio ao quadrado elimina-se o sinal
negativo, que estava trazendo complica c oes, e dividindo-se a soma dos quadrados dos
desvios pelo n umero de observa c oes obtem-se a vari ancia populacional que e uma medida
quantitativa da dispers ao de um conjunto de dados entorno da sua media, alem do fato,
de esta soma de quadrados de desvios ser mnima, como j a foi visto em propriedades da
media.
V (x) =
2
=
SQD
N
=
1
N
n

i=1
(x
i
x)
2
(2.28)
Para os exemplos anteriores tem-se:

2
A
=
(10 10)
2
+ (10 10)
2
+ + (10 10)
2
7
= 0 unidades
2

2
B
=
(1 10)
2
+ (8 10)
2
+ + (18 10)
2
7
= 22 unidades
2

2
A
=
(1 10)
2
+ (2 10)
2
+ + (24 10)
2
7
= 50 unidades
2
Obs. Quando estiver trabalhando com amostras, a vari ancia e dada pela
soma dos quadrados dos desvios dividida por n 1 (n umero de observa c oes menos um)
43
que e denominado graus de liberdade. Assim:
s
2
=
SQD
n 1
=
1
n 1
n

i=1
(x
i
x)
2
(2.29)
Formulas computacionais para o c alculo da vari ancia

2
=
1
N
_
n

i=1
x
2

n
i=1
x)
2
N
_
(2.30)
s
2
=
1
n 1
_
n

i=1
x
2

n
i=1
x)
2
n
_
(2.31)
prova:
SQD =
n

i=1
(x
i
x)
2
=
n

i=1
(x
2
i
2 xx
i
+ x
2
)
=
n

i=1
x
2
i
2 x
n

i=1
x
i
+n x
2
=
n

i=1
x
2
i
2

n
i=1
x
i
n
n

i=1
x
i
+n
_
n
i=1
x
i
n
_
2
=
n

i=1
x
2
i

(

n
i=1
x
i
)
2
n
Para dados tabulados o c alculo da vari ancia e realizado por meio das
seguintes express oes:

2
=
1
N
_
n

i=1
x
2
i
F
i

n
i=1
x
i
F
i
)
2
N
_
(2.32)
s
2
=
1
n 1
_
n

i=1
x
2
i
F
i

n
i=1
x
i
F
i
)
2
n
_
(2.33)
em que:
x
i
e o ponto medio da i-esima classe, e
F
i
e a freq uencia absoluta da i-esima classe.
Propriedades da vari ancia
44
i. A vari ancia de uma constante k e nula
V (k) = 0, k = constante.
prova
Dado que:
x
1
= x
2
= = x
n
= k x = k, portanto:
V (x) =
1
N
n

i=1
(x
i
x)
2
=
1
N
n

i=1
(k k)
2
= 0
ii. A vari ancia de uma soma ou diferen ca entre vari aveis e a soma das vari ancias das
vari aveis se estas forem independentes.
V (X Y ) = V (X) +V (Y ) se X e Y forem independentes
45
Prova: w = x y
V (W) =
1
N
n

i=1
(w
i


W)
2
=
1
N
n

i=1
_
(x
i
y
i
) (

X

Y )

2
=
1
N
n

i=1
_
(x
i
y
i
)
2
2(x
i
y
i
)(

X

Y ) + (

X

Y )
2

2
=
1
N
n

i=1
_
x
2
i
2x
i
y
i
+y
2
i
2(x
i

X x
i

Y y
i

X +y
i

Y ) + (

X
2
2

X

Y +

Y
2

2
=
1
N
n

i=1
_
(x
2
i
2x
i
x + x
2
) + (y
2
i
2y
i

Y +

Y
2
) 2(x
i
y
i
x
i

Y y
i

X +

X

Y )

2
=
1
N
n

i=1
_
(x
i


X)
2
+ (y
2
i


Y )
2
2(x
i


X)(y
i


Y )

2
= V (X) +V (Y ) 2cov(X, Y )
para W = X +Y tem-se:V (W) = V (X) +V (Y ) + 2cov(X, Y )
iii. Somando-se ou subtraindo-se uma constante k a todos os dados a vari ancia n ao se
altera.
X

= X k V (X

) = V (X)
Prova:
V (X

) =
1
N
n

i=1
(x

i


X

)
2
=
1
N
n

i=1
_
(x
i
k)

X k)

2
=
1
N
n

i=1
(x
i


X)
2
= V (X)
iv. Multiplicando-se todos os dados por uma constante k, a vari ancia ca multiplicada
por k
2
46
X

= X.k V (X

) = k
2
V (X)
Prova:
V (X

) =
1
N
n

i=1
(x

i


X

)
2
=
1
N
n

i=1
(kx
i
) k x)
2
=
1
N
n

i=1
(k
2
x
2
i
2k
2
x
i
x +k
2
x)
=
1
N
n

i=1
k
2
(x
2
i
2x
i
x + x)
= k
2
V (X)
Desvio Padr ao
Um inconveniente da vari ancia e que ela e expressa em unidades ao quadrado,
ou seja, caso esteja-se trabalhando com o peso corporal de indivduos, tomados em kg,
a vari ancia destes pesos e expressa em kg2 , o que causa algumas diculdades de inter-
preta c ao. No intuito de resolver este problema trabalha-se com o desvio padr ao que e
denido como a raiz quadrada positiva da vari ancia, o qual e expresso na mesma unidade
em que os dados foram coletados.
=

2
(2.34)
s =

s
2
(2.35)
Para o exemplo em quest ao tem-se:

A
=

0 = 0 unidades

B
=

22 = 4, 6 unidades

A
=

50 = 7, 07 unidades
47
Propriedades do desvio padr ao
i. Somando-se ou subtraindo-se uma constante k a todos os dados o desvio padr ao n ao
se altera.
X

= X k s(X

) = s(X)
ii. Multiplicando-se todos os dados por uma constante k, o desvio padr ao ca multipli-
cada por k
X

= kX

s(X

) = ks(X)
2.2.2.3 Coeciente de variacao
A vari ancia e o desvio padr ao s ao medidas de dispers ao absolutas, deste
modo s o podem ser utilizadas para comparar a variabilidade de dois ou mais conjuntos
de dados quando estes apresentarem a mesma media, mesmo n umero de observa c oes e
estiverem expressos nas mesmas unidades. Ent ao para comparar qualquer conjunto de
dados quanto ` a sua variabilidade deve-se lan car m ao de uma medida de dispers ao relativa
como o coeciente de varia c ao (CV ), que expressa a variabilidade dos dados em rela c ao ` a
sua media.
CV =

X
100 (2.36)
Ex.1:
CV
A
=
0
10
100 = 0%
CV
B
=
4, 69
10
100 = 46, 9%
CV
A
=
7, 07
10
100 = 70, 7%
Ex.2.
48
Estatstica Temperatura (
o
C) Precipita c ao (mm)
Media 22 800
s 5 100
CV % 22,7 12,5
Os dados acima referem-se ` a temperatura ambiental e precipita c ao de uma
certa regi ao. Caso deseje-se saber qual das duas vari aveis possui maior dispers ao, e para
tanto utilizar-se o desvio padr ao (S), concluiria-se erroneamente que a precipita c ao e mais
vari avel que a temperatura, alem de cometer o disparate de comparar numericamente duas
vari aveis que est ao expressas em unidades diferentes.
2.2.2.4 Erro padrao da media

E uma medida que fornece uma ideia da precis ao com que a media foi esti-
mada.
s
X
=
s

n
(2.37)
2.2.2.5 Momentos, Assimetria e Curtose
Momentos
Se x
1
, x
2
, . . . , x
n
s ao os n valores assumidos pela vari avel X, dene-se a
quantidade

X
r
=
x
r
1
+x
r
2
+ +x
r
n
n
=

n
i=1
x
r
i
n
, (2.38)
como o momento de ordem r em rela c ao a origem. Nota-se que o primeiro
momento em rela c ao a origem (

X
1
) e a media de X.
O momento de ordem r em rela c ao a uma origem k, qualquer, e dado por:
M

r
(k) =

n
i=1
(x
i
k)
r
n
, (2.39)
49
O momento de ordem r em rela c ao a media

X e dado por:
M

r
(

X) =

n
i=1
(x
i


X)
r
n
, (2.40)
Nota-se que o segundo momento em rela c ao a media e a vari ancia.
Para o caso dos dados encotrarem-se agrupados, na forma de uma dis-
tribui c ao de freq uencias, as express oes para o c alculo dos momentos ser ao:
M

r
(k) =

n
i=1
(x
i
k)
r
F
i

n
i=1
F
i
, (2.41)
em que:
x
i
e o ponto medio da i-esima classe, e
F
i
= freq uencia absoluta da i-esima.
Coeciente de Assimetria (Cs).
Assimetria e o grau de desvio, ou afastamento da simetria, de uma dis-
tribui c ao. Se a curva de freq uencia (polgono de freq uencia suavizado) de uma distribui c ao
tem uma cauda mais longa ` a direita da ordenada m axima do que ` a esquerda, diz-se que
a distribui c ao e assimetrica ` a direita ou assimetrica positiva. Se o inverso ocorre, diz-se
que ela e assimetrica ` a esquerda ou negativa.
O coeciente de assimetria (Cs) e dado por:
Cs =
M

3
(
2
)
1,5
(2.42)
Classica c ao das distribui c oes quanto a assimetria:
Cs = 0 distribui c ao e simetrica perfeita.
Cs > 0 a distribui c ao e assimetrica ` a direita.
Cs < 0 a distribui c ao e assimetrica ` a esquerda.
Existem ainda o primeiro e segundo coecientes de assimetria de Pearson
dados respectivamente por:
Cs =

X Mo
s
(2.43)
e
Cs =
3(

X Md)
s
(2.44)
50
Tipos de distribui c oes quanto a assimetria
Figura 2.17: Distribui c ao simetrica.
Figura 2.18: Distribui c ao assimetrica a esquerda.
Figura 2.19: Distribui c ao assimetrica a direita.
Coeciente de Curtose.
Curtose e o grau de achatamento de uma distribui c ao, considerado usual-
mente em rela c ao a distribui c ao normal. A distribui c ao que tem um pico relativamente
alto e chamada leptoc urtica, enquanto a distribui c ao que possui o topo achatado e denom-
inada platic urtica e a distribui c ao que n ao e muito pontiaguda, nem muito achatada, como
51
acontece com a distribui c ao normal e denominada mesoc urtica. O coeciente de curtose e
dado por:
Ck =
M

4
(
2
)
2
(2.45)
Tipos de distribui c ao quanto ` a curtose:
Figura 2.20: Distribui c ao leptoc urtica.
Figura 2.21: Distribui c ao mesoc urtica.
Figura 2.22: Distribui c ao platic urtica.
Ex.: Os dados a seguir referem-se ao n umero de partos/dia ocorrido num
determinado hospital durante o mes de mar co de 1997
52
X (partos/dia) F (n umero de dias)
12 1
14 4
16 6
18 10
20 7
22 2
Total 30
a) Obter o primeiro momento em rela c ao a origem
M

1
=

n
i=1
(x
i
)F
i

n
i=1
F
i
=
12.1 + 14.4 + + 22.2
30
= 17, 6
b) segundo, terceiro e quarto momentos em rela c ao a media
M

2
(

X) =

n
i=1
(x
i


X)
2
F
i

n
i=1
F
i
=
(12 17, 6)
2
1 + (14 17, 6)
2
4 + + (22 17, 6)
2
2
30
= 5, 97
M

3
(

X) =

n
i=1
(x
i


X)
3
F
i

n
i=1
F
i
=
(12 17, 6)
3
1 + (14 17, 6)
3
4 + + (22 17, 6)
3
2
30
= 3, 96
M

4
(

X =

n
i=1
(x
i


X)
4
F
i

n
i=1
F
i
=
(12 17, 6)
4
1 + (14 17, 6)
3
4 + + (22 17, 6)
4
2
30
= 89, 22
c) Obter os coecientes de assimetria e curtose
Cs =
M

3
(
2
)
1,5
=
3, 96
5, 97
1,5
= 0, 27
53
Ck =
M

4
(
2
)
2
=
89, 22
5, 97
2
= 2, 50
Captulo 3
Probabilidades
3.1 Processo aleat orio:
Qualquer fen omeno que gere resultado incerto ou casual.
Ex.:
Jogar uma moeda e observar a sua face superior;
Sexo do primeiro lho de um casal;
N umero de chips defeituosos encontrados num lote de 100 chips;
Peso de uma pessoa.
Caractersticas de um processo (experimento) aleat orio
Cada experimento pode ser repetido indenidamente sob as mesmas condi c oes;
N ao se conhece a priori o resultado do experimento, mas pode-se descrever todos os
possveis resultados;
Quando o experimento for repetido um grande n umero de vezes, surgir a uma regular-
idade do resultado, isto e, haver a uma estabilidade da fra c ao
r
n
(freq uencia relativa)
da ocorrencia de um particular resultado.
54
55
Figura 3.1: Freq uencia relativa de sucessos em fun c ao do n umero de repeti c oes (r) para
um experimento com p = 0, 5
3.2 Espaco amostral e Eventos
O conjunto formado por todos os possveis resultados de um processo
aleat orio e denomiado espaco amostral ().
Ex1.: Processo aleat orio: Conforma c ao dos dos lhos de um casal com tres
lhos quanto ao sexo,
= MMM, MMF, MFM, FMM, MFF, FMF, FFM, FFF,
em que , F = sexo feminino e M = sexo masculino.
Ex2.: Processo aleat orio: Vericar a idade de uma pessoa,
= x R : 0 x 120
Ex3.: Processo aleat orio: Vericar a cor das ores de uma planta fe feijoeiro,
= branca, roxa, amarela.
Qualquer sub-conjunto do espa co amostral ( ) e denominado evento.
Como exemplo tem-se:
56
E
1
: Tres lhos do sexo feminino E
1
= FFF.
E
2
: Dois lhos do sexo feminino E
2
= FFM, FMF, MFF.
E
3
: Uma pessoa ter entre 20 e 25 anos E
3
= 20 x 25.
Eventos especiais:
Evento certo E
4
= ;
Evento impossvel ou vazio E
5
= .
Eventos mutuamente exclusivos.
Dois eventos, A e B, s ao mutuamente exclusivos se eles n ao puderem ocorrer
simultaneamente.
Ex.: A = primeiro lho ser do sexo feminino.
B = primeiro lho ser do sexo masculino.
3.3 Probabilidade
A chamada deni c ao cl assica de probabilidade e: Dado um conjunto de N
eventos equiprov aveis, a probabilidade de ocorrencia de um determinado evento A, e dada
pela raz ao:
P(A) =
n
N
,
em que:
n e o n umero de eventos de interesse, e
N o n umero total de eventos.
Exemplos:
P(E
1
) =
1
8
= 0, 125
P(E
1
) =
3
8
= 0, 375
Deste modo, a probabilidade pode ser vista como uma medida da possi-
bilidade de ocorrencia de um particular evento. Um problema da deni c ao cl assica de
probabilidade reside no fato de em sua deni c ao lan car-se m ao do conceito de eventos
equiprov aveis, e portanto da express ao a qual deseja-se denir.
57
Modernamente adota-se uma deni c ao axiom atica, dada pelos seguintes ax-
iomas, atribudos ` a Kolmogorov:
Axiomas de Kolmogorov.
A1 : P(A) 0;
A2 : P() = 1;
A3 : P(A B) = P(A) +P(B) se os eventos A e B forem mutuamente exclusivos.
A partir dos axiomas A1, A2 e A3, pode-se enunciar e demonstrar os
seguintes teoremas, que ser ao muito uteis no c alculo de probabilidades
T1. P() = 0 Prova:
=
P() = P( ) A3
P() = P() +P() A2
1 = 1 +P()
P() = 0
T2. P(A
c
) = 1 P(A), A
c
= Acomplementar. Prova:
= A A
c
P() = P(A A
c
) A3
P() = P(A) +P(A
c
) A2
1 = P(A) +P(A
c
)
P(A
c
) = 1 P(A)
58
T3. P(AB) = P(A) +P(B) P(AB) Prova: Os eventos A e A
c
B s ao mutuamente
exclusivos.
P(A B) = P[A (A
c
B)]
= P(A) +P(A
c
B)
B = (B A) (A
c
B)
P(B) = P(B A) +P(A
c
B)
P(A
c
B) = P(B) P(B A)
Logo, P(A B) = P(A) +P(B) P(A B)
T4. 0 P(A) 1
3.4 Probabilidade Condicionada
Ex: Seja o processo aleat orio de se lan car um dado de seis faces, e observar
o valor numerico da face superior deste.
= 1, 2, 3, 4, 5, 6
Sejam ainda os seguintes eventos:
Evento A : (face superior par) A = 2, 4, 6;
Evento B : (face superior maior ou igual a 4) B = 4, 5, 6;
Tem-se que: P(A) =
1
2
; P(B) =
1
2
e P(A B) =
1
3
.
Qual a probabilidade de que a face superior do dado seja maior ou igual 4,
sabendo-se que ela e par? Neste caso quer saber-se qual a probabilidade do evento B,
sabendo-se que o evento A j a ocorreu, P(B/A). Se j a sabemos que o evento A ocorreu
(que a face superior e par), isto implica numa redu c ao ou restri c ao no espa co amostral ,
59
que passa a ser:

= 2, 4, 6 e evento em quest ao, (face superor maior ou igual a 4)


passa a ser: B

= 4, 6. Ent ao P(B

) =
2
3
.
P(B/A) =
P(AB)
P(A)
=
1
3
1
2
=
2
3
Deni c ao:
P(B/A) =
P(A B)
P(A)
e P(A/B) =
P(A B)
P(B)
(3.1)
3.5 Independencia de eventos.
Dois eventos, A e B s ao considerados independentes (a ocorrencia de um,
n ao altera a probabilidade de ocorrencia do outro) se e somente se:
P(A/B) = P(A) ou P(B/A) = P(B)
Deste modo, se A e B forem independentes tem-se:
P(A/B) =
P(A B)
P(B)
P(A B) = P(A/B)P(B)
P(A B) = P(A)P(B)
Ex. Considere o quadro a seguir, representativo da distribui c ao dos alunos
matriculados num determinado Instituto de matem atica:
sexo
Curso Masculino Feminino total
Mat. pura 70 40 110
Mat. aplicada 15 15 30
Estatstica 10 20 30
Computa c ao 20 10 30
Total 115 85 200
60
Observando-se os dados acima verica-se que a probabilidade de um aluno
aleatoriamente escolhido ser:
a. do sexo masculino e
P(M) =
115
200
= 0, 575
b. do sexo feminino e
P(F) =
85
200
= 0, 425
c. do curso de Mat. Pura e
P(P) =
110
200
= 0, 550
d. do sexo feminino e fazer Mat. Pura e
P(F P) =
40
200
= 0, 200
e. do curso de Mat. Pura, dado que e do sexo feminino e
P(P/F) =
40
85
= 0, 4706 ou
P(P/F) =
P(FP)
P(F)
=
0,200
0,425
= 0, 4706
Como P(P) ,= P(P/F) conclui-se que os eventos sexo e curso no qual o aluno esta
matriculada n ao s ao independentes.
3.6 Teorema de Bayes
Ex. Considere 5 urnas exatamente iguais, cada uma com 6 bolas. Duas
destas urnas, (tipo C
1
) tem 3 bolas brancas, duas outras, (tipo C
2
) tem 2 bolas brancas e
a ultima, (tipo C
3
) tem 6 bolas brancas. Escolhe-se uma urna ao acaso, e retira-se uma
bola desta. Qual a probabilidade de que a urna escolhida seja do tipo C
3
, sabendo-se que
a bola retirada era branca? Esquema:
Quer se obter P(C
3
/B), sabendo-se que:
P(C
1
) =
2
5
; P(B/C
1
) =
1
2
; P(C
2
) =
2
5
; P(B/C
2
) =
1
3
; P(C
3
) =
1
5
;
P(B/C
3
) = 1;
61
Figura 3.2: Representa c ao esquem atica das urnas contendo 6 bolas cada
Da deni c ao de probabilidade condicionada, tem-se:
P(C
3
/B) =
P(C
3
B
P(B)
=
P(C
3
)P(B/C
3
)
P(B)
(1)
Como o numerador e conhecido, necessita-se conhecer P(B). E como C
1
, C
2
e C
3
s ao eventos mutuamente exclusivos, e reunidos formam o espa co amostral completo,
pode-se decompor o evento B em 3 eventos mutuamente exclusivos:
B = (C
1
B) (C
2
B) (C
3
B),
ent ao,
P(B) = P(C
1
B) +P(C
2
B) +P(C
3
B)
= P(C
1
)P(B/C
1
) +P(C
2
)P(B/C
2
) +P(C
3
)P(B/C
3
)
=
_
2
5
__
1
2
_
+
_
2
5
__
1
2
_
+
_
1
5
_
(1)
= 8/15(2)
Substituindo (2) em (1)
P(C
3
/B) =
P(C
3
)P(B/C
3
)
P(B)
=
1
5
(1)
8
5
=
3
8
Generalizando este resultado, tem-se o teorema de Bayes:
P(C
i
/A) =
P(C
i
)P(A/C
i
)

n
i=1
P(C
i
)P(A/C
i
)
(3.2)
62
Ex. Uma companhia produz circuitos integrados em tres f abricas I, II e III.
A f abrica I produz 40% dos circuitos, enquanto que as f abricas II e III produzem 30% cada.
A probabilidade de que um circuito produzido por estas f abricas n ao funcione e de 0, 01,
0, 04 e 0, 03, respectivamente. Pegando-se um circuito, ao acaso, da produ c ao conjunta
desta companhia, e vericando-se que ele n ao funciona, qual a probabilidade dele ter sido
produzido na f abrica I?
P(I/defeito) =
P(I)P(defeito/I)
P(I)P(defeito/I) +P(II)P(defeito/II) +P(III)P(defeito/III)
=
(0, 40)(0, 01)
(0, 40)(0, 01) + (0, 30)(0, 04) + (0, 30)(0, 03)
= 0, 16
Captulo 4
Variaveis aleat orias
4.1 Variaveis Aleat orias Unidimensionais.
Uma fun c ao que associa valores reais aos eventos de um espa co amostral e
denida como uma vari avel aleat oria, que pode ser discreta ou contnua.
Ex1. Se um experimento consiste em vericar o n umero de componentes
defeituosos, num sistema formado por tres componentes, a fun c ao:
X = n umero de componentes defeituosos, dene uma vari avel aleat oria
discreta, que pode assumir os valores 0, 1, 2 ou 3.
Ex2. Se um experimento consiste em vericar as alturas de 30 universit arios,
a fun c ao:
Y = Altura de um universit ario, dene uma vari avel aleat oria contnua,
que pode assumir quaisquer valores entre 130 e 220cm.
4.1.1 Distribui c oes de Probabilidades
Se uma vari avel aleat oria X pode assumir os valores x
1
, x
2
, . . . , x
n
com pro-
babilidades respectivamente iguais a p
1
, p
2
, . . . , p
n
, tais que

n
i=1
= 1 , tem-se denida
uma distribuicao de probabilidade.
Se a vari avel X em quest ao, for discreta, sua distribui c ao e caracterizada
por uma funcao de probabilidade P(X = x), que associa probabilidades n ao nulas aos
63
64
possveis valores da vari avel aleat oria.
Ex. Para o exemplo do n umero de componentes defeituosos em um sistema
composto por tres componentes tem-se:
X 0 1 2 3
P(X = x)
1
8
3
8
3
8
1
8

= 1, 00
Se, a vari avel X for contnua, somente haver a interesse na probabilidade de
que a vari avel assuma valores dentro de determinados intervalos, sendo sua distribui c ao de
probabilidades caracterizada por uma funcao densidade probabilidade (f.d.p.), f(x),
a qual dever a possuir as seguintes propriedades:
i. f(x) 0, x '.
ii.
_

f(x)dx = 1.
Ex. Para o caso as alturas dos universit arios tem-se
f(x) =
1

2
e

1
2
(x)
2

2
,
que e a distribui c ao normal.
4.1.2 Funcao Reparticao ou Distribui cao Acumulada F(x)
F(x) =
x

i=1
P(X = x), (4.1)
para vari aveis aleat orias discretas, e
F(x) =
_
x

f(x)dx, (4.2)
para vari aveis aleat orias contnuas.
Exemplos:
65
Seja a seguinte vari avel aleat oria contnua, denida pela fun c ao densidade
de probabilidade (f.d.p):
_

_
f(x) = 0 para x < 0
f(x) = kx para 0 x 2
f(x) = 0para x > 2
gracamente tem-se:
Figura 4.1: Representa c ao gr aca da fun c ao F(x) anteriormente denida
a) Obter o valor de k.
Como f(x) e uma fdp tem-se que:
_

f(x)dx = 1, portanto:
_
0

0dx +
_
2
0
kxdx +
_

2
0dx = 1,
0 +k
_
2
0
xdx + 0 = 1,
k =
1
2
b) calcular F(1)
F(1) = P(X 1) =
_
1

f(x)dx
=
_
1

x
2
dx =
1
4
4.2 Variaveis Aleat orias Bidimensionais
Para o estudo de vari aveis aleat orias, ate este ponto, considerou-se que o
resultado do experimento em quest ao seria registrado como um unico valor x. Todavia,
66
existem casos em que h a interesse por dois resultados simult aneos, como por exemplo
observar o peso e altura de uma pessoa, o sexo e peso de um recem-nascido, etc. Para
tanto, faz-se necess ario a seguinte deni c ao:
Sejam E um experimento aleat orio, e S o espa co amostral associado a E.
Sejam X e Y duas vari aveis aleat orias. Ent ao (X, Y ) dene uma vari avel aleat oria bidi-
mensional, que pode ser discreta, contnua ou mista.
4.2.1 Distribui cao Conjunta de duas variaveis aleat orias
Se (X, Y ) e uma vari avel aleat oria bidimensional discreta, sua fun c ao de
probabilidade, representada por P(X = x
i
; Y = y
i
) que associa um valor p(x
i
, y
i
) a cada
valor do par (X, Y ) deve satisfazer as seguintes condi c oes:
i. P(x
i
, y
i
) 0(x
i
, y
i
).
ii.

P(x
i
, y
i
) = 1.
Exemplo: Seja o experimento de se lan car simultaneamente um dado e uma
moeda, observando o resultado da face superior de ambos. Teremos ent ao a seguinte
fun c ao de probabilidade, onde :
X= face superior do dado, e Y= face superior da moeda
XY Cara Coroa
1
1
12
1
12
2
1
12
1
12
3
1
12
1
12
4
1
12
1
12
5
1
12
1
12
6
1
12
1
12
1
Se (X, Y ) for uma vari avel aleat oria bidimensional contnua, diz-se que
f(x, y) e uma fun c ao densidade de probabilidade conjunta se:
67
i. f(x, y) 0, (x, y) '.
ii.
_

f(x, y)dxdy = 1.
4.2.2 Distribui cao Marginal
Dada uma vari avel aleat oria bidimensional, e sua distribui c ao de probabili-
dade conjunta, pode-se obter a distribui c ao da vari avel X, sem considerar Y ou vice-versa,
que s ao denominadas distribui c oes marginais de X e Y respectivamente.
Distribui c ao marginal de X
P(X = x
i
) =

j
P(x
i
, y
j
), (4.3)
para vari aveis aleat orias discretas e
g(x) =
_

f(x, y)dy, (4.4)


para vari aveis aleat orias contnuas.
Distribui c ao marginal de Y
P(Y = y
j
) =

i
P(x
i
, y
j
), (4.5)
para vari aveis aleat orias discretas e
h(y) =
_

f(x, y)dx, (4.6)


para vari aveis aleat orias contnuas.
Exemplo no exemplo do lan camento simult aneo de um dado e uma moeda
teremos: X= face superior do dado, e Y= face superior da moeda
X= face superior do dado, e Y= face superior da moeda
68
XY Cara Coroa P(X = x
i
)
1
1
12
1
12
1
6
2
1
12
1
12
1
6
3
1
12
1
12
1
6
4
1
12
1
12
1
6
5
1
12
1
12
1
6
6
1
12
1
12
1
6
P(Y = y
j
)
1
2
1
2
1
4.2.3 Variaveis Aleat orias Independentes
Seja (X, Y ) uma vari avel aleat oria bidimendional, ent ao as vari aveis X e Y
s ao independentes se e somente se
P(x
i
, y
j
) = P(x
i
).P(y
j
) i e j,
para vari aveis aleat orias discretas, ou
f(x, y) = g(x).h(y) i e j,
para vari aveis aleat orias contnuas
4.2.4 Esperanca Matematica
A esperan ca matem atica de uma vari avel aleat oria ou valor esperado, E(X),
e denida por:
E(X) = =

i
x
i
P(X = x
i
), (4.7)
para vari aveis aleat orias discretas, e
E(X) = =
_

xf(x)dx, (4.8)
69
para vari aveis aleat orias contnuas
Ex1: Para a vari avel aleat oria contnua denida por:
_

_
f(x) = 0 para x < 0
f(x) =
x
2
para 0 x 2
f(x) = 0para x > 2
tem-se
E(X) =
_

xf(x)dx
=
_
0

0dx +
_
2
0
x
2
2
dx +
_

2
0dx
=
4
3
unidade
Ex2: Para a vari avel aleat oria discreta n umero de componentes pifados tem-
se:
X 0 1 2 3
P(X = x)
1
8
3
8
3
8
1
8

= 1, 0
E(X) =

i
x
i
P(X = x
i
)
= 0
1
8
+ 1
3
8
+ 2
3
8
+ 3
1
8
= 1, 5 componentes pifados por sistema.
4.2.4.1 Propriedades da Esperanca Matematica
i. E(k) = k, k = constante;
ii. E(kX) = k.E(X);
iii. E(X Y ) = E(X) E(Y );
iv. E(X k) = E(X) k;
v. E(XY ) = E(X)E(Y ) se X e Y forem independentes.
70
4.2.5 Variancia de uma variavel aleat oria.
V (X) = E[X E(X)]
2
= E[X ]
2
. (4.9)
Aplicando-se a deni c ao de esperan ca matem atica (eq 4.7 e 4.8 verica-se
que a vari ancia pode ser ent ao denida como:
V (X) =

i
(x
i
)
2
P(X = x
i
), (4.10)
para vari aveis aleat orias discretas, e
V (X) =
_

(x
i
)
2
f(x)dx, (4.11)
para vari aveis aleat orias contnuas.
Obs.
V (X) = E[X E(X)]
2
= EX
2
2XE(X) + [E(X)]
2

= E(X
2
) 2E(X)E(X) + [E(X)]
2
= E(X
2
) [E(X)]
2
com,
E(X
2
) =

i
x
2
i
P(X = x
i
),
no caso discreto, e
E(X
2
) =
_

x
2
f(x)dx,
no caso contnuo.
Ex1. Para a vari avel aleat oria contnua denida por:
_

_
f(x) = 0 para x < 0
f(x) =
x
2
para 0 x 2
f(x) = 0para x > 2
71
tem-se:
V (X) = E(X
2
) [E(X)]
2
E(X
2
) =
_

x
2
f(x)dx
=
_
0

0dx +
_
2
0
x
3
2
dx +
_

2
0dx
= 2 unidade
V (X) = 2
_
4
3
_
2
=
2
9
unidade
2
Ex2: Para a vari avel aleat oria discreta n umero de componentes pifados tem-
se:
X 0 1 2 3
P(X = x)
1
8
3
8
3
8
1
8

= 1, 0
V (X) = E(X
2
) [E(X)]
2
E(X
2
) =

i
x
2
i
P(X = x
i
)
= (0
2
)
1
8
+ (1
2
)
3
8
+ (2
2
)
3
8
+ (3
2
)
1
8
= 3
V (X) = 3
_
3
2
_
2
=
3
4
(componentes pifados por sistema)
2
4.2.5.1 Propriedades da variancia
i. V (k) = 0, k = constante;
ii. V (k.X) = k
2
V (X);
iii. V (k X) = V (X);
iv. V (X Y ) = V (X) V (Y ) se X e Y forem independentes;
72
4.2.6 Covariancia
A covari ancia mede o grau de dispers ao conjunta de duas vari aveis aleat orias.
Cov(X, Y ) = E [X E(X)][Y E(Y )] = E(XY ) E(X)E(Y ), (4.12)
com,
E(XY ) =

j
x
i
y
j
P(X = x
i
)(Y = y
j
),
para vari aveis aleat orias discretas, e
E(XY ) =
_

xyf(xy)dxdy,
para vari aveis aleat orias continuas.
Obs. Para duas vari aveis aleat orias quaisquer tem-se:
V (X +Y ) = V (X) +V (Y ) + 2Cov(X, Y ).
Se X e Y forem independentes, Cov(X, Y ) = 0, voltando-se a propriedade
iv. das vari ancias. Porem o fato de Cox(X, Y ) = 0 n ao implica que X e Y sejam
independentes.
4.3 Distribuic oes de variaveis aleat orias discretas
4.3.1 Distribui cao Uniforme Discreta
Enquadram-se aqui as distribui c oes em que os possveis valores da vari avel
aleat oria tenham todos a mesma probabilidade de ocorrencia. Logo, se existem n valores
possveis, cada um ter a probabilidade igual a
1
n
.
Ex. Seja o lan camento de um dado e a vari avel aleat oria X = face superior
do dado, tem-se que:
X 1 2 3 4 5 6
P(X = x)
1
6
1
6
1
6
1
6
1
6
1
6

= 1
73
ou P(X = x) = 1/6
4.3.2 Distribui cao de Bernoulli
Seja um experimento onde s o podem ocorrer dois possveis resultados,
sucesso e fracasso, como por exemplo:
Um jogador de basquete converter ou n ao converter um arremesso,
Um indivduo portador de certa doen ca morrer ou n ao,
Uma pe ca produzida por uma Cia. Ser perfeita ou defeituosa,
O sexo do primeiro lho de um casal ser masculino ou feminino,
Um consumidor que entra numa loja comprar ou n ao comprar um produto.
Associando-se uma vari avel aleat oria X aos possveis resultados do experi-
mento, de forma que:
X = 1 se o resultado for sucesso e
X = 0 se o resultado for fracasso.
Ent ao, a vari avel aleat oria X, assim denida tem distribui c ao Bernoulli, com
p sendo a probabilidade de ocorrer sucesso, e q = (1 p) a probabilidade de ocorrer
fracasso.
Fun c ao de probabilidade
A fun c ao de probabilidade da Distribui c ao de Bernoulli e dada por:
P(X = x) =
_

_
q = (1 p) para x = 0
p para x = 1
0 para outros valores de x.
(4.13)
Par ametros caractersticos
E(X) = p
74
Prova:
E(X) =

x
i
P(X = x
i
)
= 1p + 0(1 P)
= p
V (X) = pq
Prova:
V (X) = E(X
2
) [E(X)]
2
E(X
2
) =

x
2
i
P(X = x
i
)
= p

V (X) = p p
2
= P(1 p)
= pq
4.3.3 Distribui cao Binomial.

E a mais importante das distribui c oes de probabilidades discretas. Sendo


que, para um experimento se enquadrar na distribui c ao Binomial, deve-se atender as
seguintes condi c oes:
i. S ao realizadas n provas (tentativas) independente;
ii. Cada tentativa e uma prova de Bernoulli (s o podem ocorrer dois possveis resultados);
iii. A probabilidade p de sucesso em cada prova e constante.
Se um experimento atende a todas as condi c oes acima, ent ao a vari avel aleat oria X =
n umero de sucessos obtidos nas n tentativas ter a uma distribui c ao Binomial, com n ten-
tativas e p (probabilidade de sucesso). Simbolicamente : X B(n, p)
75
Fun c ao de Probabilidade
P(X = x) = C
x
n
p
x
q
nx
, (4.14)
com
C
x
n
=
n!
x!(nx)!
;
p = probabilidade de sucesso;
q = 1 p = probabilidade de fracasso
Par ametros caractersticos
E(X) = np
V (X) = npq
prova:
E(X) =
n

x=0
xP(X = x)
=
n

x=0
xC
x
n
p
x
q
nx
=
n

x=0
x
n!
x!(n x)!
p
x
q
nx
=
n

x=1
n!
(x 1)!(n x)!
p
x
q
nx
fazendo s = x 1
=
n1

s=0
n
(n 1)!
s!(n 1 s)!
p
(s+1)
q
n(s+1)
= n
n1

s=0
C
s
(n1)
p
(s+1)
q
n(s+1)
= np
n1

s=0
C
s
(n1)
p
s
q
(n1)s
= np
Exemplos:
Ex1. Sabendo-se que a probabilidade de um determinado casal gerar um
lho com olhos azuis e de
1
4
, qual a probabilidade de que dentre tres lhos deste casal,
76
a) Nenhum tenha olhos azuis.
b) Um tenha olhos azuis.
c) Dois tenham olhos azuis.
d) Os Tres tenham olhos azuis.
Ser ao considerados dois metodos para resolu c ao deste exemplo:
1
o
Metodo - pela deni c ao de probabilidades:
Espa co amostral:
=
_

_
EEE EAA
EEA AEA
EAE AAE
AEE AAA
_

_
Uma vez que a cor dos olhos de um lho independe da cor dos olhos dos demais (s ao
eventos independentes), a probabilidade de cada um dos eventos do espa co amostral e:
P(EEE) =
27
64
P(EAA) =
3
64
P(EEA) =
9
64
P(AEA) =
3
64
P(EAE) =
9
64
P(AAE) =
3
64
P(AEE) =
9
64
P(AAA) =
1
64
Assim,
a. P(Nenhum com olhos azuis) = PEEE =
27
64
;
b. P(um com olhos azuis) = P(EEA EAE AEE) =
9
64
+
9
64
+
9
64
=
27
64
;
c. P(dois com olhos azuis) = P(EAA AAE AEA) =
3
64
+
3
64
+
3
64
=
9
64
;
d. P(tr es com olhos azuis) = P(AAA) =
1
64
;
2
o
Metodo - utilizando a fun c ao de probabilidade binomial:
X B(3,
1
4
)
77
a. P(Nenhum com olhos azuis) = P(X = 0) = C
0
3
_
1
4
_
0
_
3
4
_
3
=
27
64
;
b. P(um com olhos azuis) = P(X = 1) = C
1
3
_
1
4
_
1
_
3
4
_
2
=
27
64
;
c. P(dois com olhos azuis) = P(X = 2) = C
2
3
_
1
4
_
2
_
3
4
_
1
=
9
64
;
d. P(tr es com olhos azuis) = P(X = 3) = C
3
3
_
1
4
_
3
_
3
4
_
0
=
1
64
;
Deste modo, verica-se que a probabilidade total e dada por: C
0
3
p
0
q
3
+
C
1
3
p
1
q
2
+ C
2
3
p
2
q
1
+ C
3
3
p
3
q
0
que corresponde a expans ao do bin omio (p + q)
3
da o nome
distribui c ao binomial.
Ex2. Num determinado processo de fabrica c ao, 10% das pe cas produzidas
s ao consideradas defeituosas. As pe cas s ao acondicionadas em caixas com 5 unidades cada
uma.
a) Qual a probabilidade de haverem exatamente 3 pe cas defeituosas numa caixa?
X B(5, 0, 1)
P(X = 3) = C
3
5
(0, 1)
3
(0, 9)
2
= 0, 0081
b) Qual a probabilidade de haverem duas ou mais pe cas defeituosas em uma caixa?
P(X 2) = P(X = 2) + P(X = 3) + P(X = 4) + P(X = 5) = 1
[P(X = 0) +P(X = 1)] = 0, 0815
c) Qual a probabilidade de uma caixa n ao apresentar nenhuma pe ca defeituosa?
P(X = 0) = C
0
5
(0, 1)
0
(0, 9)
5
= 0, 5905
d) Supondo que a empresa pague uma multa de R$10,00 por caixa que apresente pe cas
defeituosas, qual o valor esperado desta multa em um lote de 1000 caixas?
P(uma caixa ter pe ca defeituosa) = 1 P(X = 0) = 0, 4095.
O n umero de caixas com pe cas defeituosas em um lote de 1000 caixas segue uma
distribui c ao binomial com n = 1000 e p = 0, 4095. Assim,
E(Y ) = np = 1000.0, 4095 = 409, 5 caixas. e o valor esperado da multa:
E(Multa) = 10E(Y ) = (10)(409, 5) = R$4095, 00
78
4.3.4 Distribui cao de Poison
A distribui c ao de Poison e empregada em experimentos nos quais n ao se
esta interessado no n umero de sucessos obtido em n tentativas, como ocorre no caso da
distribui c ao Binomial, mas sim no n umero de sucessos ocorridos durante um intervalo
contnuo, que pode ser um intervalo de tempo, espa co, etc. Como por exemplo:
O n umero de suicdios ocorridos em uma cidade durante um ano;
O n umero de acidentes automobilsticos ocorridos numa rodovia em um mes;
O n umero de defeitos encontrados em um rolo de arame ovalado, de 500m;
Note que nos exemplos acima, n ao h a como determinar-se a probabilidade
de ocorrencia de um sucesso, mas sim a freq uencia media de sua ocorrencia, como por
exemplo dois suicdios por ano, a qual ser a que denominada . Em um experimento
com estas caractersticas, e assumindo-se que os sucessos sejam independentes, a vari avel
aleat oria
X = n umero de sucessos em um intervalo,
ter a uma distribui c ao Poisson, com par ametro . Simbolicamente : X
P()
Fun c ao de Probabilidade
P(X = x) =
e

x
x!
, (4.15)
com
e = 2, 7182 (base dos logaritimos neperianos).
Par ametros Caractersticos
E(X) = V (X) =
79
Prova:
E(X) =
n

x=0
xP(X = x)
=
n

x=0
x
e

x
x!
=
n

x=0
e

x
(x 1)!
fazendo s=x-1 tem-se:
=
n

x=0
e

s+1
s!
=
n

x=0
e

s
s!
=
E(X
2
) =
n

x=0
x
2
P(X = x)
=
n

x=0
x
2
e

x
x!
=
n

x=0
x
e

x
(x 1)!
fazendo s=x-1 tem-se:
=
n

x=0
(s + 1)
e

s+1
s!
=
n

x=0
(s + 1)
e

s
s!
=
_
n

x=0
s
e

s
s!
+
n

x=0
e

s
s!
_
= [ + 1]
=
2
+
80
V (X) = E(X
2
) [E(X)]
2
=
2
+
2
=
Exemplo: O Corpo de Bombeiros de uma determinada cidade recebe, em
media, 3 chamadas por dia. Qual a probabilidade de receber:
a) 4 chamadas num dia X P(3)
P(X = 4) =
e
3
3
4
4!
= 0, 1680.
b) Nenhuma chamada em um dia
P(X = 0) =
e
3
3
0
0!
= 0, 0498.
c) 20 chamadas em uma semana. X = n umero de chamadas por dia
Y = n umero de chamadas por semana
E(X) = = 3 chamadas por dia E(Y ) =

= 7E(X) = 21 chamadas por semana


P(Y = 20) =
e
21
21
2
0
20!
= 0, 0867.
4.3.4.1 Aproximacao da distribuicao Binomial a Poisson.
Pode-se demonstrar que uma distribui c ao Binomial, cujo evento de interesse
e raro (p muito pequeno e n muito grande), tende para uma distribui c ao de Poisson. Na
pr atica, a aproxima c ao e considerada boa quando n 50 e p 0, 10.
Aproxima c ao: Sabe-se que se X B(n, p), E(X) = np, ent ao = E(X) =
np
Exemplo: A probabilidade de um indivduo sofrer uma rea c ao alergica, re-
sultante da inje c ao de determinado soro e de 0,01. Determinar a probabilidade de entre
200 indivduos, submetidos a este soro, nenhum sofrer esta rea c ao alergica.
X B(200, 0, 01) E(X) = n.p = 200x0, 01 = 2 =
P(X = 2)
e
2
2
0
0!
= 0, 1353.
81
4.3.5 Distribui cao Geometrica
Suponha-se um experimento, no qual esteja-se interessado apenas na
ocorrencia ou n ao de um determinado evento, como por exemplo o sexo do lho de uma
determinada mulher ser feminino. E, assim como na distribui c ao binomial, que esse exper-
imento seja repetido um n umero n de vezes, que em cada repeti c ao seja independente das
demais e que a probabilidade de sucesso p em cada repeti c ao seja constante. Suponha-se
que o experimento seja repetido ate que ocorra o primeiro sucesso (o sexo do lho seja
feminino).
Ent ao a vari avel aleat oria: X = n umero de tentativas ate que se obtenha
o primeiro sucesso, seguir a uma distribui c ao geometrica, com par ametro p (probabilidade
de sucesso) . Simbolicamente X G(p).
Fun c ao de Probabilidade
Como o experimento ser a repetido ate que se obtenha o primeiro sucesso, e
considerando que esse ocorra na k-esima repeti c ao, dever ao ocorrer k 1 fracassos antes
que o experimento seja encerrado. Assim, a a probabilidade de que a vari avel aleat oria
X = n umero de repeti c oes ate se obter o primeiro sucesso e
P(X = x) = pq
x1
, (4.16)
com
p = probabilidade de sucesso;
q = 1 p = probabilidade de fracasso
Par ametros caractersticos
E(X) =
1
p
V (X) =
q
p
2
Prova:
82
E(X) =

x=1
xP(X = x)
=

x=1
xpq
x1
= p

x=1
xq
x1
= p

x=1
d
dq
q
x
= p
d
dq

x=1
q
x
= p
d
dq
(q
1
+q
2
+. . . ) = p
d
dq
_
q
1 q
_
= p
dq(1 q) d(1 q)q
(1 q)
2
= p
1(1 q) (1)q
(1 q)
2
= p
1
(1 q)
2
= p
1
p
2
=
1
p
Obs: a permuta da deriva c ao e do somat orio e v alida aqui, porque a serie
converge quando [q[ < 1.
E(X
2
) =

x=1
x
2
P(X = x)
=

x=1
x
2
pq
x1
= p

x=1
x
2
q
x1
= p

x=1
d
dq
q
x
= p
d
dq

x=1
q
x
= p
d
dq
(q
1
+q
2
+. . . ) = p
d
dq
_
q
1 q
_
= p
dq(1 q) d(1 q)q
(1 q)
2
= p
1(1 q) (1)q
(1 q)
2
= p
1
(1 q)
2
= p
1
p
2
=
1
p
Exemplo:
83
Um casal com problemas para engravidar, recorreu a uma tecnica de insem-
ina c ao articial no intuito de conseguir o primeiro lho. A eciencia da referida tecnica e
de 0, 20 e o custo de cada insemina c ao U$2000, 00.
a) Qual a probabilidade de que o casal obtenha exito na terceira tentativa?
P(X = k) = pq
k1
= (0, 2)(0, 8)
2
= 0, 128
b) Qual o custo esperado deste casal para obter o primeiro lho?
E(X) =
1
p
=
1
0, 2
= 5
Custo esperado = 5 2000, 00 = U$10000, 00
4.3.6 Distribui cao Pascal (Binomial Negativa)
Nas mesmas condi c oes em que foi denida a distribui c ao geometrica, e con-
siderando que o experimento ser a repetido ate que se obtenha o r-esimo sucesso, ent ao a
vari avel X = n umero de tentativas ate se obter o r-esimo sucesso seguir a a distribui c ao
de Pascal.
Fun c ao de Probabilidade:
Para que o r-esimo sucesso ocorra na k-esima tentativa, e necess ario que
ocorra um sucesso nesta tentativa (repeti c ao do experimento) e que tenham ocorrido r 1
sucessos nas k1 repeti c oes anteriores. Dado que a probabilidade de ocorrencia de sucesso,
numa dada repeti c ao do experimento e dada por p e a probabilidade de ocorrerem r 1
sucessos em k 1 repeti c oes, e sendo estes dois eventos independentes, a probabilidade de
que o r-esimo sucesso ocorra na k-esima repeti c ao do experimento e dada por:
84
P(X = k) = pC
(r1)
(k1)
p
r1
q
(k1)(r1)
;
= C
(r1)
(k1)
p
r
q
kr
, k r; (4.17)
em que:
p = probabilidade de sucesso;
q = 1 p = probabilidade de fracasso
Par ametros caractersticos
E(X) =
r
p
V (X) =
rq
p
2
Prova:
De acordo com Meyer (1969) a esperan ca e vari ancia da distribui c ao Pascal
podem ser obtidas do seguinte modo:
Sejam as vari aveis:
Z
1
= n umero de repeti c oes necess arias ate o primeiro sucesso
Z
2
= n umero de repeti c oes necess arias entre o primeiro sucesso
e o segundo, inclusive
.
.
.
.
.
.
Z
r
= n umero de repeti c oes necess arias entre o (r-1) sucesso e o r-esimo sucesso,
inclusive

E imediato vericar que todas as vari aveis Z


i
s ao independentes e possuem
distribui c ao geometrica. Assim,
85
E(Y ) = E(Z
1
+Z
2
+ +Z
r
)
= E(Z
1
) +E(Z
2
) + +E(Z
r
)
=
1
p
+
1
p
+ +
1
p
=
r
p
de modo an alogo:
V (Y ) = V (Z
1
+Z
2
+ +Z
r
)
= V (Z
1
) +V (Z
2
) + +V (Z
r
)
=
q
p
2
+
q
p
2
+ +
q
p
2
=
rq
p
2
4.3.7 Distribui cao Hipergeometrica
Considere um conjunto de N elementos, r dos quais tem uma determinada
caracterstica (r N), e que destes N elementos ser ao extrados n elementos sem reposi c ao
(n N). A vari avel aleat oria X = n umero de elementos com a referida caracterstica,
que estar ao entre os n retirados, segue uma distribui c ao hipergeometrica, cuja fun c ao de
probabilidade e derivada diretamente da deni c ao cl assica de probabilidade.
Fun c ao de probabilidade:
P(X = x) =
C
x
r
C
nx
Nr
C
n
N
(4.18)
Par ametros caractersticos:
Fazendo
r
N
= p e
Nr
N
= q tem-se:
E(X) = np (4.19)
V (X) = npq
N n
N 1
(4.20)
86
Exemplo:
No ch ario de um hospital, est ao arquivados os prontu arios dos de 20 pa-
cientes, que deram entrada no PS apresentando algum problema cardaco. Destes 5 sofr-
eram infarto. Retirando-se uma amostra ao acaso de 3 destes prontu arios, qual a proba-
bilidade de que dois deles sejam de pacientes que sofreram infarto?
P(X = 2) =
C
2
5
C
32
205
C
2
0
3
=
C
2
5
C
1
15
C
2
0
3
=
(10)(15)
1140
= 0, 1315
4.3.8 Distribui cao Multinomial
Considere um experimento com as seguintes caracterticas:
i. S ao realizadas n provas independentes;
ii. Cada prova admite um unico resultado entre r possveis;
iii. As probabilidades p
i
de ocorrer um determinado resultado s ao constantes para todas
as repeti c oes do experimento.
Associando a este experimento r vari aveis aleat orias (X
1
, X
2
, . . . , X
r
) cada
uma indicando o n umero de vezes que ocorreu o resultado nas n repeti c oes. Ent ao, a
distribui c ao da vari avel multi dimensional (X
1
, X
2
, . . . , X
r
) e chamada distribui c ao multi-
nomial.
Fun c ao de probabilidade
P(X
1
= x
1
; X
2
= x
2
; . . . ; X
r
= x
r
) =
n!
x
1
!x
2
! . . . x
n
!
p
x
1
1
p
x
2
2
. . . p
x
n
n
(4.21)
Exemplo:
87
Em um determinado cruzamento entre duas plantas de milho, a probabili-
dade de se obter uma planta com gen otipo MM e igual a 0, 25, com gen otipo Mm, 0, 50
e com gen otipo mm 0, 25. De 10 descendentes deste cruzamento, qual a probabilidade de
que se obtenham respectivamente 2, 5 e 3 indivduos com gen otipos MM, Mm e mm?
P(MM = 2; Mm = 5; mm = 3) =
10!
2!5!3
(0, 25)
2
(0, 50)
5
(0, 25)
3
= 0, 0769
4.4 Distribuic oes de variaveis aleat orias contnuas
4.4.1 Distribui cao Uniforme
A fun c ao densidade probabilidade da distribui c ao uniforme contnua e dada
por:
f(x) =
_
_
_
1
ba
para a x b
0 para outos valores de x (pov)
(4.22)

E f acil vericar que que a equa c ao 4.22 e uma fun c ao densidade probabilidade
pois:
_

f(x)dx =
_
a

0dx +
_
b
a
1
b a
dx +
_

b
0dx
= 0 +
1
b a
x

b
a
+ 0
=
1
b a
(b a) = 1
Par ametros caractersticos
E(X) =
a +b
2
(4.23)
V (X) =
(b a)
2
12
(4.24)
88
Prova:
E(X) =
_

xf(x)dx
=
_
a

x0dx +
_
b
a
x
1
b a
dx +
_

b
x0dx
= 0 +
1
b a
x
2
2

b
a
+ 0
=
b
2
a
2
2(b a)
=
(b a)(b +a)
2(b a)
=
b +a
2
E(X
2
) =
_

x
2
f(x)dx
=
_
a

x
2
0dx +
_
b
a
x
2
1
b a
dx +
_

b
x
2
0dx
= 0 +
1
b a
x
3
3

b
a
+ 0
=
b
3
a
3
3(b a)
V (X) = E(X
2
) [E(X)]
2
=
b
3
a
3
3(b a)

_
b +a
2
_
2
=
b
3
a
3
3(b a)

(b +a)
2
4
=
4(b
3
a
3
) 3(b +a)
2
12(b a)
=
b
3
3ab
2
+ 3a
2
b a
3
12(b a)
=
(b a)
3
12(b a)
=
(b a)
2
12
4.4.2 Distribui cao Normal

E a mais importante das distribui c oes de probabilidades contnuas, tendo


grande aplica c ao em pesquisas cientcas e tecnol ogicas. Pois, a maioria das vari avies
89
contnuas de interesse pratico, seguem esta distribui c ao, aliado ao fato da facilidade e boa
precis ao que e obtida na aproxima c ao de outras distribui c oes, como a Binomial, para esta,
e o Teorema do Limite Central (TLC) que e a base das estimativas e testes de hip oteses,
realizados sobre a media de uma popula c ao qualquer, que garante que a distribui c ao
amostral das medias segue uma distribui c ao normal, independentemente da distribui c ao
da vari avel em estudo, como ser a visto mais adiante.
Fun c ao Densidade Probabilidade
A fun c ao densidade probabilidade normal e dada por:
f(x) =
1

2
e

1
2
(
x

)
2
(4.25)
em que:
e s ao os par ametros media e desvio padr ao respectivamente,
e e s ao as constantes 3,1415 e 2,7182 respectivamente.
Gr aco.
O gr aco da fun c ao normal e dado por:
Figura 4.2: Distribui c ao normal.
Propriedades.
i.

E simetrica em rela c ao ao ponto x = ;
90
ii. Tem forma campanular (sino);
iii. As tres medidas de posi c ao, media, mediana e moda se confundem no ponto de m aximo
da curva (x = );
iv. Fica perfeitamente denida conhecendo-se a media e o desvio padr ao;
v. Tem dois pontos de inex ao em x = ;
vi.

E assint otica em rela c ao ao eixo das abicissas.
Sendo a fun c ao 4.25 uma fun c ao densidade de probabilidade (fdp), area
compreendida entre a curva e eixo x e igual a 1, ou seja
_

f(x)dx = 1.
Portanto, a area sob a curva entre os pontos a e b, em que a b, dada por
_
b
a
f(x)dx = 1 representa a probabilidade da vari avel X assumir um valor entre a e b.
Deste modo, e imediato vericar que probabilidade de um ponto qualquer e
nula, pois
_
a
a
f(x)dx = 0.
Nota c ao
X N(,
2
)
4.4.2.1 Distribuicao Normal Reduzida ou Padronizada.
Como pode-se notar, o c alculo de probabilidades via distribui c ao normal
envolve a solu c ao de integrais que n ao s ao nada triviais. Em virtude da grande aplica c ao
da distribui c ao normal, procurou-se tabelar os valores de probabilidade, que seriam obti-
dos por meio da integra c ao da fun c ao densidade probabilidade normal num determinado
intervalo. A diculdade para se processar esse tabelamento se prendeu na innidade de
valores que e poderiam assumir. Nestas condi c oes teria que se dispor de uma tabela
para cada uma das innitas combina c oes de e . Procurou-se, por isso, obter uma
nova forma para a distribui c ao normal, que n ao sofresse a inuencia destes par ametros (
e ). O problema foi solucionado mediante o emprego de uma nova vari avel,z denida
por:z =
x

, que transforma todas as distribui c oes normais, em uma distribui c ao nor-


mal reduzida, ou padronizada, de media zero e desvio padr ao um, z N(0, 1). Assim,
91
utilizamos apenas uma tabela para o c alculo de probabilidades, para qualquer que seja a
curva correspondente a uma distribui c ao normal. Desta forma, para um valor de x =
numa distribui c ao normal qualquer, corresponde o valor:z = 0, na distribui c ao normal
reduzida. Para x = + tem-se z = 1, e assim por diante.
Exemplo:
1. A dura c ao de um certo tipo de pneu, em quil ometros rodados, e uma vari avel normal
com dura c ao media 60000Km e desvio padr ao 10000Km.
a) Qual a probabilidade de um pneu aleatoriamente escolhido durar mais de
75000Km?
Sabe-se que X N(60000; 10000
2
) e deseja-se obter: P(X 75000) =?
Figura 4.3:
Utilizando-se a transforma c ao:
z =
x

tem-se:
que o valor x = 75000 equivale a z =
7500060000
10000
=
15000
10000
= 1, 5,
portanto,
P(X 75000) = P(z 1, 5) = 0, 5 0, 4332 = 0, 0668
b) Qual a probabilidade de um pneu aleatoriamente escolhido durar entre 50000km
e 70000km? P(50000 X 70000) =?
P(50000 X 70000) = P(1 z 1) = 0, 3413 + 0, 3413 = 0, 6826
92
Figura 4.4:
Figura 4.5:
c) Qual a probabilidade de um pneu aleatoriamente escolhido durar entre 63000km
e 70000km?
P(63000 X 70000) = P(0, 30 z 1) = 0, 3413 + 0, 1179 = 0, 2234
d) Qual a probabilidade de um pneu aleatoriamente escolhido durar exatamente
70000km?
P(X = 70000) = P(z = 0) = 0
e) O fabricante deseja xar prazo de garantia, em quil ometros, de tal modo que,
se a dura c ao do pneu for inferior ` a garantia, o pneu seja trocado. De quantos
quil ometros deve ser este prazo, para que somente 1% dos pneus sejam trocados?
Figura 4.6:
x : P(X x) = 0, 01
z : P(Z z) = 0, 01 = 2, 33
z =
x

2, 33 =
x60000
10000
x = 36700km
93
4.4.3 Distribui cao Exponencial
Em um processo de Poison, com par ametro (isto e, tal que o n umero de
sucessos em um determinado intervalo t segue uma distribui c ao de Poison com media
= t), como por exemplo contar o n umero de carros que passam por um determinado
ponto de uma estrada, num certo perodo de tempo. A distribui c ao da vari avel T, que
representa o intervalo decorrido entre dois sucessos consecutivos, e conhecida como Dis-
tribui c ao Exponencial. Cuja fun c ao densidade probabilidade e dada por:
f(t) = e
t
, t 0 (4.26)
Figura 4.7: Distribui c ao exponencial.
Prova:
Por deni c ao a vari avel T representa o tempo decorrido entre dois sucessos
em um processo de Poison. Ent ao para que T seja maior que um t qualquer e preciso que
o pr oximo sucesso demore mais do que t para ocorrer. Assim,
P(t > t) = P(0 sucessos em t) = e
t
a fun c ao parti c ao no ponto t ser a:
94
F(t) = P(T t) = 1 et
Derivando-se a fun c ao parti c ao em rela c ao a t, obtem-se a fun c ao densidade
probabilidade:
f(t) =
dF(t)
dt
= e
t
para t 0
= 0 para t < 0
Par ametros caractersticos:
Media:
E(t) =
1

(4.27)
Vari ancia
V (t) =
1

2
(4.28)
Prova:
E(t) =
_

tf(t)dt =
_

0
te
t
dt
=
1

Exemplo:
Certo tipo de fusvel tem dura c ao de vida que segue uma distribui c ao expo-
nencial com vida media de 100 horas. Cada fusvel tem um custo de R$10,00, e se durar
menos de 200 horas, existe um custo adicional de R$8,00. a) Qual a probabilidade de um
fusvel, aleatoriamente escolhido, dura mais de 150 horas?
l=? Media :m(t)=
b) Qual o custo esperado dos fusveis custo=
P(T 200) = 1 - E(custo) = 10.0,1353 + 18.0,8647 = R$ 16,92
95
4.4.4 Distribui cao Qui-Quadrado
A distribui c ao de
2
(le-se qui-quadrado) e um caso particular da distribui c ao
gama, sendo muito empregada em estatstica n ao parametrica, uma vez que a estatstica

2
, utilizada para verica c ao od ajuste de modelos probabilsticos te oricos a um conjunto
de dados observados segue tal distribui c ao.
A fun c ao densidade de probabilidade e dada por:
f(x) =
1
2
(
v
2
)
(
v
2
)
x
(
v
2
1)
e
(
x
2
)
(4.29)
em que:
v s ao os graus de liberdade;
(n) e a fun c ao gama. Para n inteiro positivo, (n) = (n 1)!
Figura 4.8: Distribui c oes Qui-Quadrado com 1, 5 e 10 graus de liberdade
Esperan ca:
E(
v
) = v;
Vari ancia:
V (
v
) = 2v
96
4.4.5 Distribui cao t de Student
Viu-se que a vari avel z =
x

N(0, 1). De modo semelhante, pode-se


demonstrar que:
Z =
x

n
N(0, 1) (4.30)
Suponha-se que o par ametro em 4.30 seja substitudo por seu estimador
n ao tendencioso
s
2
=

(x
i
x)
n 1
.
Assim a eq.4.30 car a:
t =
x
s

n
(4.31)
Pode-se demonstrar que que a vari avel t, 4.31 segue uma distribui c ao t de
student com v = n 1 graus de liberdade, cuja fun c ao densidade probabilidade e:
f(x) =

_
v+1
2
_
(
v
2
)

v
_
1 +
x
2
v
_

v+1
2
(4.32)
em que:
v s ao os graus de liberdade;
() e a fun c ao Gama.
Esperan ca:
E(t) = 0;
Vari ancia:
V (t) =
v
v+2
Caractersticas:
i. e simetrica em rela c ao ao ponto x = 0 (media)
ii. se v tende para innito, t tende para z, como pode ser observado na gura 4.9
lim
vinf
f(t) = z
97
Figura 4.9: Distribui c oes t de student com 5 e 30 graus de liberdade e distribui c ao normal
padronizada.
4.4.6 Distribui cao F de Snedcor
f(x) =
(
v1+2
2
)
(
v1
2
)(
v2
2
)
_
v1
v2
_
(
v1
2
)
x
(
v12
2
)
_
1 + (
v1
v2
)y

(
v1+v2
2
)
(4.33)
Esperan ca:
E(F) =
v2
v22
;
Vari ancia:
V (F) =
2v2
2
(v1+v22)
v1(v24)(v2
2
)
4.4.7 Aproximacao da Distribui cao Binomial `a Normal
Os problemas relacionados com a distribui c ao Binomial s ao f aceis de serem
resolvidos desde que o n umero de repeti c oes (n) n ao seja grande, pois, quando n for grande,
tais c alculos tornam-se demorados e tedioso e uma boa aproxima c ao torna-se util. Quando
se utiliza a aproxima c ao da distribui c ao Binomial ` a Normal, o erro cometido ser a tanto
menor quanto maior for n e mais pr oximo de
1
2
for p (probabilidade de sucesso). Alguns
autores armam que a aproxima c ao e considerada boa quando np 5. Como a Distribui c ao
98
Figura 4.10: Distribui c ao F, com 10 graus de liberdade para o numerador e 20 para o
denominador.
Binomial e discreta, e a Normal contnua , ao realizar-se a aproxima c ao deve-se fazer
uma corre c ao, chamada corre c ao para descontinuidade da curva, que consiste em supor
distribuda entre x
i
+ 0, 5 e x
i
0, 5 a probabilidade concentrada em x
i
. Assim,
P(X = x
i
) pela Binomial e aproximada para P(xi 0, 5 X x
i
+0, 5)
na Distribui c ao Normal
Exemplo.
Em um determinado processo de produ c ao de chips para computador, 5%
dos chips produzidos s ao considerados defeituosos. Sabendo-se que a produ c ao di aria
da f abrica em quest ao e de 1000 chips, qual a probabilidade de que em um dia sejam
produzidos:
a) 50 chips defeituosos?
X B(1000, 0, 05)
Media =E(X) = n.p = (1000)(0, 05) = 50 chips
Vari ancia =V (X) = npq = (1000)(0, 05)(0, 95) = 47, 5 chip
2
P(X = 50) P(49, 5 X 50, 5) = P(0, 07 z 0, 07) = 0, 0558
b) menos que 50 chips defeituosos
99
P(X 50) P(X 50, 5) = P(z 0, 07) = 0, 5279
Captulo 5
Amostragem
5.1 Introducao.
5.1.1 Denic oes
i. Populacao: conjunto de indivduos com pelo menos uma caracterstica observ avel
em comum.
ii. Amostra: por c ao ou fra c ao da popula c ao, retirada segundo algumas tecnicas es-
peccas, que matem as mesmas caractersticas de interesse da popula c ao.
iii. Parametro: e uma medida associada ` a uma caracterstica populacional Ex: Media
(), vari ancia (
2
), etc.
iv. Estatstica: e uma medida associada ` a uma caracterstica amostral. Ex: Media ( x),
vari ancia (s
2
).
Um dos principais problemas apresentados na estatstica e o de se fazer
arma c oes sobre os par ametros populacionais (geralmente desconhecidos), como por exem-
plo saber qual o tempo necess ario para o organismo humano degradar certo composto
qumico, qual a produ c ao total de gr aos de um pas num determinado ano, qual a altura
media da popula c ao brasileira, armar se um novo composto e carciniogenico ou n ao. E
para respondermos a estas quest oes, muitas das vezes, temos que lan car m ao do processo
100
101
de amostragem, que consiste em estudar apenas uma fra c ao da popula c ao (a amostra) e a
partir desta fazer inferencias sobre a popula c ao. Esquematicamente tem-se:
Figura 5.1: Representa c ao esquem atica do processo de amostragem e inferencia.
Para que o processo anteriormente descrito seja con avel, e necess ario que
a amostra utilizada seja representativa da popula c ao, e para isso, ela deve ser retirada
segundo determinadas tecnicas de amostragem. De posse de uma amostra, representativa
da popula c ao, para fazermos a inferencia sobre os par ametros populacionais, a partir desta
amostra, e necess ario o conhecimento das rela c oes existentes entre as estimativas obtidas
e os valores dos par ametros populacionais, ou seja, e necess ario conhecer a distribui c ao
amostral do estimador utilizado, para que se possa fazer uma inferencia segura sobre um
par ametro qualquer.
5.1.2 Importancia do uso de amostras.
i. Conveniente no estudo de popula c oes grandes.
ii. Indispens avel no estudo de popula c oes innitas.
iii. Indispens avel em estudos nos quais a coleta de dados implica na destrui c ao do material
utilizado.
102
5.1.3 Vantagens do processo de amostragem em relacao ao
censo.
As principais vantagens do processo de amostragem, em rela c ao a observa c ao
de todos os indivduos da popula c ao (censo) s ao:
i. Custo reduzido: Sendo os dados obtidos apenas de uma fra c ao da popula c ao, as
despesas s ao menores do que as oriundas de um censo. Tratando-se de grandes
popula c oes, pode-se obter resultados sucientemente precisos, para serem uteis,
de amostras que representam apenas uma pequena fra c ao da popula c ao. Se-
gundo COCHRAN (1977), nos Estados Unidos, os mais importantes levantamentos
peri odicos, realizados pelo governo, usavam amostras de cerca de 100.000 pessoas, ou,
aproximadamente uma pessoa em cada 1800.
ii. Maior rapidez: Os dados podem ser apurados e sintetizados mais rapidamente em
uma amostragem do que em uma contagem completa. Este e um fator primordial,
quando se necessita urgentemente das informa c oes. O objetivo de uma investiga c ao,
e o de conhecer a situa c ao de um determinado fen omeno, no momento da coleta da
informa c ao, para que de acordo com a informa c ao obtida, se possa tomar as medidas
possveis para resolver algum problema. Se o resultado dessa pesquisa for conhecida
muito tempo depois, e bem possvel que a situa c ao que se pretendia resolver, seja
nesse momento, completamente diferente da que existia no momento da coleta dos
dados.
iii. Maior amplitude e exibilidade: Em certos tipos de investiga c ao, tem-se que
utilizar pessoal bem treinado e equipamento altamente especializado, cuja disponibil-
idade e limitada para a obten c ao de dados. O censo completo torna-se impratic avel e
resta a escolha entre obter as informa c oes por meio de uma amostra, ou n ao consegui-
las de todo. Dessa forma, os levantamentos que se fundamentam na amostragem tem
maior amplitude e exibilidade, relativamente as informa c oes que podem ser obtidas.
iv. Maior exatidao: Em virtude de se poder empregar pessoal de melhor qualidade
103
e intensivamente treinado, e por se tornar exequvel a supervis ao mais cuidadosa
do campo de trabalho e do processamento de dados, dada a redu c ao no volume de
trabalho, uma amostragem pode, na realidade, proporcionar resultados mais exato
que o censo.
5.2 Tecnicas de amostragem.
Ao coletarmos uma amostra podemos faze-la com reposi c ao ou sem
reposi c ao, caso a amostragem seja realizada com reposi c ao, um mesmo indivduo tem
chance de pertencer mais de uma vez a amostra, o que n ao acontece, no caso da amostragem
ser sem reposi c ao. Independentemente da maneira como a amostra e coletada (com ou
sem reposi c ao) o importante e que os indivduos que compor ao a amostra dever ao ser
selecionados atraves de um processo aleat orio qualquer (sorteio), pois, somente nestas
condi c oes, podemos aplicar os modelos probabilsticos da estatstica a esta amostra, o que
vai garantir a validade dos testes estatsticos que ser ao realizados com base nos resultados
destas amostras. Os principais tipos de amostragem s ao:
Probabilsticas ou aleat oria: Quando todos os indivduos da popula c ao tem proba-
bilidade conhecida e n ao nula de pertencer a amostra, dentre estas se destacam:
Amostragem simples ao acaso (ASA).
Amostragem sistem atica (AS).
Amostragem por comglomerados.
Amostragem estraticada (AE).
N ao probabilstica, n ao aleat oria, escolha racional ou escolha justicada: Quando
alguns indivduos da popula c ao tem probabilidade desconhecida ou nula de pertencer
a amostra, as principais s ao:
Inacessibilidade a toda a popula c ao.
104
Amostragem sem norma (a esmo).
Popula c ao formada por material contnuo.
Intencional
5.2.1 Principais tecnicas de amostragem probabilsticas.
5.2.1.1 Amostragem Simples ao Acaso
Esta tecnica s o pode ser aplicada em popula c oes homogeneas e de tamanho
conhecido. Tecnica: Enumera-se todos indivduos da popula c ao e sorteia-se (por meio de
um dispositivo aleat orio qualquer), os indivduos que compor ao a amostra. Neste tipo de
amostragem podem ser retiradas N
n
amostras diferentes com reposi c ao ou C
n
N
amostras
diferentes sem reposi c ao.
5.2.1.2 Amostragem Sistematica

E uma simplica c ao do processo anterior. Neste caso, apenas o primeiro ele-


mento da amostra ser a sorteado, e os demais ser ao retirados em uma progress ao aritmetica,
com raz ao k, em que:
k =
N
n
,
com N = tamanho da popula c ao e n = tamanho da amostra ate se completar o tamanho
da amostra desejado.
5.2.1.3 Amostragem por Conglomerados
Quando uma popula c ao apresenta uma subdivis ao natural em grupos
menores (denominados conglomerados), sorteia-se um n umero suciente desses grupos
(conglomerados) e todos os elementos destes v ao compor a amostra.
5.2.1.4 Amostragem Estraticada

E uma tecnica utilizada quando a popula c ao a ser estudada e heterogenea,


deste modo, subdivide-se a popula c ao em estratos (sub-popula c oes) que sejam homogeneos
105
dentro de si, e heterogeneos entre si, e aplica-se uma das tecnicas de amostragens ante-
riormente descritas, para retirar-se sub-amostras dentro de cada estrato, de modo que a
amostra nal seja representativa da popula c ao, como um todo ( contenha indivduos de
todos os estratos). Quanto ao tamanho das sub-amostras retiradas (ni), e classicada em:
i. Uniforme
Quando de K estratos, retiram-se amostras de mesmo tamanho n, independentemente
do tamanho do estrato.
ii. Proporcional
Quando o tamanho da amostra retirado em cada estrato (ni) e proporcional ao
tamanho do estrato.
Ex. Para exemplicar os dois tipos de amostragem estraticada descritos,
consideremos um estudo realizados em propriedades rurais de um municpio, composto
por 1000 propriedades rurais, distribudas, quanto a sua area, conforme a Tabela 1 e que
neste municpio sejam amostradas 50 propriedades:
Tabela 5.1: Distribui c ao do n umero de propriedades rurais de um municpio qualquer,
quanto a area e n umero de propriedades a serem amostradas por estrato (classes)

Area (ha) N umero de Propriedades Amostra estraticada (N=50)


Uniforme Proporcional
0 20 500 10 25
20 50 320 10 16
50 100 100 10 5
100200 50 10 3
200 400 30 10 1
Total 1000 50 50
106
5.2.2 Principais tecnicas de amostragem nao probabilsticas.
5.2.2.1 Inacessibilidade a toda populacao
A amostragem e realizada na parte da popula c ao que e acessvel.
Ex. Controle de qualidade numa linha de produ c ao de cigarros. S o tem-se
acesso aos cigarros que j a est ao prontos, embora os que ainda ser ao produzidos fazem parte
da popula c ao de cigarros produzidos por aquela linha produ c ao.
5.2.2.2 Amostragem sem norma (a esmo)
N ao se utiliza nenhum sorteio, para identicar a amostra, muito embora o
amostrador procure ser aleat orio.
Ex. Amostrar 80 frangos num galp ao com 3000 frangos, amostrar peixes em
um lago, pessoas em uma pra ca, etc.
5.2.2.3 Populacao formada por material contnuo.
Processo utilizado para se amostrar lquidos, gases ou s olidos. Homogeniza-
se o material a ser amostrado e em seguida colhe-se a amostra.
5.2.2.4 Intencional
O pesquisador escolhe deliberadamente certos elementos da popula c ao para
formar a amostra, baseado num pre-julgamento.
Ex. Pesquisa de mercado para lan car uma nova marca de leite longa vida
tipo A . O pesquisador selecionar a indivduos com poder aquisitivo medio/alto, que s ao
os principais consumidores deste produto (publico alvo), embora toda a popula c ao inde-
pendentemente do poder aquisitivo possa ser consumidora deste produto.
5.3 Distribuic oes Amostrais
107
Figura 5.2: Representa c ao esquem atica da distribui c ao amostral de um estimador.
5.3.1 Distribui cao amostral da media
Considere-se, a ttulo de exemplo, uma popula c ao hipotetica, formada por
tres indivduos, para os quais a vari avel de interesse (X), seja a nota nal destes indivduos
na disciplina estatstica, a qual segue uma distribui c ao uniforme discreta como apresentado
a seguir:
X 8 9 10
P(X = x)
1
3
1
3
1
3

= 1
Neste caso tem-se:
N = 3;
E(X) = = 9;
V (X) =
2
=
2
3
.
5.3.1.1 Amostragem com reposicao
Retirando-se todas as possveis amostras com reposi c ao, de tamanho n = 2,
tem-se um total de 3
2
= 9 possveis amostras, as quais est ao apresentadas a seguir:
108
Figura 5.3: Distribui c ao das notas de tres alunos.
Amostra Indivduos Notas x
1 1;1 8 e 8 8
2 1;2 8 e 9 8,5
3 1;3 8 e 10 9
4 2;1 9 e 8 8,5
5 2;2 9 e 9 9
6 2;3 9 e 10 9,5
7 3;1 10 e 8 9
8 3;2 10 e 9 9,5
9 3;3 10 e 10 10
A distribui c ao amostral de x ser a:
x 8 8,5 9 9,5 10
P( x = x
i
)
1
9
2
9
3
9
2
9
1
9
Em que:
E( x) =
x
=

n
i=1
x
i
P( x = x
i
) = 9, 0
V ( x) =
2
x
=

n
i=1
[ x
i
E( x)]
2
P( x = x
i
) =
1
3
Assim, verica-se que:
E( x) = 9, 0 = e V ( x) =
1
3
=

2
n
109
Figura 5.4: Distribui c ao amostral de x.
Prova:
x =
1
n

n
i=1
x
i
E( x) = E
_
1
n
n

i=1
x
i
_
=
1
n
E [x
1
+x
2
+ +x
n
]
=
1
n
[E(x
1
) +E(x
2
) + +E(x
n
)]
=
1
n
[ + + +]
=
1
n
n
=
110
V ( x) = V
_
1
n
n

i=1
x
i
_
=
1
n
2
V [x
1
+x
2
+ +x
n
]
=
1
n
2
[V (x
1
) +V (x
2
) + +V (x
n
)]
=
1
n
2
_

2
+
2
+ +

=
1
n
2
n
2
=
2
Ent ao tem-se que: x N
_
,

2
n
_
5.3.1.2 Amostragem sem reposicao
Retirando-se todas as possveis amostras sem reposi c ao, de tamanho n = 2,
tem-se um total de 6 possveis amostras, as quais est ao apresentadas a seguir:
Amostra Indivduos Notas x
1 1;2 8 e 9 8,5
2 1;3 8 e 10 9
3 2;1 9 e 8 8,5
4 2;3 9 e 10 9,5
5 3;1 10 e 8 9
6 3;2 10 e 9 9,5
A distribui c ao amostral de x ser a:
x 8,5 9 9,5
P( x = x
i
)
1
3
1
3
1
3
Em que:
E( x) =
x
=

n
i=1
x
i
P( x = x
i
) = 9, 0
V ( x) =
2
x
=

n
i=1
[ x
i
E( x)]
2
P( x = x
i
) =
1
6
Assim, verica-se que:
E( x) = 9, 0 = e V ( x) =
1
6
=

2
n
Nn
N1
Deste modo, se amostragem for sem reposi c ao, x N
_
,

2
n
Nn
N1
_
.
111
O termo
Nn
N1
e conhecido como fator de corre c ao para amostragem sem
reposi c ao em popula c oes nitas (ASRPF). Uma popula c ao e considerada nita quando
n
N
> 0, 05 ou seja a amostra representar mais de 5% do tamanho da popula c ao. Quando
tal criterio n ao for satisfeito, o fator de corre c ao torna-se desprezvel, podendo, portanto
ser eliminado.
Captulo 6
Inferencia
6.1 Teoria da estimacao
6.1.1 Denic oes
Estimador
Consideremos uma amostra (x
1
, x
2
, x
3
, . . . , x
n
) de uma vari avel aleat oria que
deve descrever uma caracterstica de interesse da popula c ao. Seja um par ametro que
desejamos estimar, como por exemplo a media = E(x) ou a vari ancia
2
= V (x). Um
estimador,

, do par ametro e uma vari avel aleat oria, que e fun c ao das observa c oes
x
1
, x
2
, x
3
, . . . , x
n
.
Assim,
x =

n
i=1
x
i
n
e um estimador da media poupulacional ,
s
2
=

n
i=1
(x
i
x)
2
n1
e um estimador da vari ancia populacional
2
Estimativa
Estimativa e o valor numerico assumido pelo estimador quando os valores
observados x
1
, x
2
, x
3
, . . . , x
n
s ao considerados.
Assim,
x = 70kg e uma estimativa da media poupulacional ,
s
2
= 9kg
2
e uma estimativa da vari ancia populacional
2
Estimacao por ponto e por intervalo.
112
113
Quando a estimativa de um par ametro populacional e dada por um unico
valor, tem-se uma estimativa pontual do par ametro populacional, desconhecido, como por
exemplo ao a altura media de uma amostra de 500 universit arios e x = 1, 68m, e uma
estimativa pontual da verdadeira altura media da popula c ao de universit arios. Porem
sabe-se que x N(;

2
n
), assim sendo, para cada amostra retirada da popula c ao, poder a
se obter uma diferente estimativa para . Deste modo, torna-se mais interessante obter-
se, a partir, de uma determinada amostra, um intervalo que apresente uma probabilidade
conhecida de conter o verdadeiro par ametro populacional, ou seja obter uma estimativa por
intervalo para o par ametro em quest ao, como por exemplo P(1, 60 1, 76) = 0, 95,
ou seja existe 0,95 de probabilidade de que a verdadeira media populacional esteja entre
1,60 e 1,76 metros, ou ainda existe 95% de conan ca em se armar que a verdadeira
media populacional esteja entre 1,60 e 1,76 metros. Apesar disto, o uso de estimativas
pontuais e imprescindvel, haja vistas, serem necess arias para a obten c ao das estimativas
por intervalo. Deste modo desej avel que estas estimativas sejam bastantes con aveis, e
para isso e necess ario que os estimadores que as fornecer ao apresentem boas propriedades,
aliado ao fato de serem obtidas a partir de amostras representativas.
6.1.2 Propriedades dos Estimadores
6.1.2.1 Nao tendenciosidade
Um estimador

e dito um estimador n ao tendencioso do par ametro se
E(

) =
obs. Os termos n ao tendencioso, n ao viciado, n ao viesado e imparcial s ao
sin onimos.
Ex1.: x =

n
i=1
x
i
n
e um estimador n ao tendencioso da media populacional
114
prova:
E( x) = E
_
n
i=1
x
i
n
_
=
1
n
E
_
n

i=1
x
i
_
=
1
n
E [x
1
+x
2
+ +x
n
]
=
1
n
[E(x
1
) +E(x
2
) + +E(x
n
)]
=
1
n
[ + + +]
=
1
n
n
=
Ex2.:s
2
=

n
i=1
(x
i
x)
2
n
e um estimador tendencioso da vari ancia populacional

2
.
prova:
n

i=1
(x
i
x)
2
=
n

i=1
(x
i
+ x)
2
=
n

i=1
[(x
i
) ( x )]
2
=
n

i=1
(x
i
)
2
2
n

i=1
(x
i
)( x ) +
n

i=1
( x )
2
= como ( x ) e uma constante e
n

i=1
(x
i
) = n( x ), tem-se:
n

i=1
(x
i
x)
2
=
n

i=1
(x
i
)
2
n( x )
2
115
Portanto,
E
_
s
2

= E
_
n
i=1
(x
i
)
2
n( x )
2
n
_
=
1
n
_
n

i=1
E
_
(x
i
)
2

nE
_
( x )
2

_
=
1
n
nV (X) nV ( x)
=
1
n
_
n
2
n

2
n
_
=
n 1
n

2
Deste modo, verica-se que s
2
e um estimador tendencioso de
2
. UM
estimador n ao tendencioso e facilmente obtido por:
s
2
=
n
n 1
s
2
=

n
i=1
(x
1
x)
2
n 1
(6.1)
6.1.2.2 Consistencia.
Um estimador

e um estimador consistente do par ametro se:
i. lim
n
E[

] = ;
ii. lim
n
V (

) = 0.
x =

n
i=1
x
i
n
e um estimador consistente da media populacional , pois
i. E( x) =
ii. lim
n
V (

x) = lim
n

2
n
= 0.
6.1.2.3 Eciencia
Se
1
e
2
s ao dois estimadores n ao tendenciosos de , ent ao,
1
e mais
eciente que
2
se:
116
V (
1
) < V (
2
)
Eciencia relativa
A eciencia relativa do estimador
1
, em rela c ao ao estimador
2
e dada por:
Ef

1
,
2
=
V (
2
)
V (
1
)
(6.2)
6.1.3 Intervalos de conan ca
Conhecendo-se a distribui c ao amostral do estimador, de um par ametro ,
pode-se facilmente determinar um intervalo que apresente uma conan ca 1 para ,
como ser a visto a seguir.
6.1.3.1 Intervalo de conanca para a media
6.1.3.1.1 Variancia conhecida Sabe-se que x N(;

2
n
), assim a vari avel z =
x

n
ter a distribui c ao N(0; 1). Fixando-se um nvel de conan ca (1 ) vir a:
P(z

2
z z

2
) = 1
P(z

n
z

2
) = 1
P(z

n
x z

n
) = 1
P( x z

n
x +z

n
) = 1
P( x +z

n
x z

n
) = 1 reorganizando vem
P( x z

n
x +z

n
) = 1
E o intervalo de conan ca para , com uma conan ca 1 pode ser ent ao
escrito como:
IC()
1
= x z

n
(6.3)
em que
n e o tamanho da amostra.
117
Obs. Se ocorrer amostragem sem reposi c ao em popula c ao nita (ASRPF) o
intervalo de conan ca para a media ser a:
IC()
1
= x z

n
_
N n
N 1
(6.4)
onde:
N e o tamanho da popula c ao;
n e o tamanho da amostra.
Ex.: Uma m aquina produz rolamentos que apresentam desvio padr ao de
0, 042 polegadas em seu di ametro. Desejando-se conhecer o di ametro medio dos rolamentos
produzidos por esta m aquina, extraiu-se uma amostra de 100 rolamentos, observando-se
uma media igual a 0, 824 polegadas. Obter o intervalo com 0, 90 de conan ca para o
verdadeiro di ametro medio dos rolamentos.
Solu c ao:
Tem-se x = 0, 824 = 0, 042 n = 100 1 = 0, 90 substituindo esses valores
em 6.3 vem:
IC()
0,90
= 0, 824 z
0,05
0, 042

100
= 0, 824 1, 65
0, 042

100
= 0, 824 0, 007
Interpreta c ao: Como e um par ametro e n ao uma vari avel aleat oria, a
interpreta c ao correta do intervalo de conan ca e: Construdos todos os intervalos do tipo
x 1, 65

n
, 90% deles conter ao o par ametro . Na pr atica, apenas um unico intervalo
e construdo, no presente exemplo tal intervalo foi [0, 817; 0, 831]. Esse intervalo e ent ao
comumente chamado intervalo de conan ca de 90% para . Isto e tem-se 90% de conan ca
de que esse intervalo contenha o valor , no sentido de que 90% dos intervalos assim
construdos conteriam .

E obviamente incorreto, do ponto de vista da estatstica cl assica ou


freq uentista, dizer que a probabilidade do intervalo [0, 817; 0, 831] conter o valor e 0,90.
118
Pois essa probabilidade e 0 ou 1, dependendo de pertencer ou n ao ao intervalo ao inter-
valo xo.
6.1.3.1.2 Variancia desconhecida Quando n ao se conhece
2
e conseq uentemente
, mas sim sua estimativa s, o intervalo de conan ca para a media ser a dado por:
Amostras Pequenas (n 30)
IC()
1
= x t

2
s

n
, (6.5)
t

2
com n 1 graus de liberdade,
em que:
n e o tamanho da amostra.
Obs. Se ocorrer amostragem sem reposi c ao em popula c ao nita (ASRPF) o
intervalo de conan ca para a media ser a:
IC()
1
= x t

2
s

n
_
N n
N 1
, (6.6)
t

2
com n 1 graus de liberdade,
onde:
N e o tamanho da popula c ao;
n e o tamanho da amostra.
Amostras Grandes (n > 30)
Foi visto que ` a medida que aumenta-se o tamanho da amostra, a distribui c ao
t se Student se aproxima da distribui c ao normal, deste modo, quando se estiver trabal-
hando com amostras grandes (n > 30) pode-se utilizar a distribui c ao normal padronizada,
z, em lugar da t na obten c ao dos intervalos de conan ca, mesmo que
2
seja desconhecida.
Ex.: Um Cia adquiriu 500 cabos. Uma amostra de 30 deles selecionados ao
acaso apresentou tens ao de ruptura media igual a 2400 kg com desvio padr ao de 150 kg.
Obter o intervalo com 95% de conan ca para a verdadeira tens ao media de ruptura destes
cabos.
solu c ao:
119
Tem-se:N = 500 n = 30 x = 2400 s = 150 1 = 0, 95
n
N
=
30
500
= 0, 06 > 0, 05 ocorreu ASRPF.
IC()
0,95
= 2400 t
0,025
150

30
_
500 30
500 1
= 2400 (2, 045)(27, 38)(0, 97)
= 2400 54, 31
Interpreta cao: Existe 95% de conan ca em se dizer que a verdadeira tens ao
media de ruptura dos cabos est a entre 2345,69 e 2454,31kg.
6.1.3.2 Diferenca entre duas media (
a

b
)
.
6.1.3.2.1 Variancias Conhecidas:
IC(
a

b
)
1
= x
a
x
b
z

2
a
n
a
+

2
b
n
b
(6.7)
em que:
x
a
e x
b
s ao as estimativas pontuais das medias das popula c oes a e b, respec-
tivamente;

2
a
e
2
b
as vari ancias das popula c oes a e b, respectivamente e
n
a
e n
b
os tamanhos das amostras das popula c oes a e b, respectivamente.
Obs: Se ocorrer ASRPF deve-se multiplicar a vari ancia da popula c ao na
qual ocorreu ASRPF pelo fator de corre c ao
Nn
N1
.
Ex.: As empresas A e B produzem tubos para esgoto com a vari ancias em
seus di ametros iguais a 8mm
2
e 10mm
2
, respectivamente. Uma amostra de 48 tubos da
empresa A apresentou di ametro medio igual a 40mm, e uma amostra de 36 tubos da
empresa B apresentou di ametro medio de 42mm. Verique, por meio de um intervalo de
120
conan ca com 0, 95 de probabilidade, se existe diferen ca entre os di ametros medios dos
tubos das marcas A e B.
Solu c ao:
Pop. A Pop. B

2
A
= 8
2
B
= 10
x
A
= 40 x
B
= 42
n
A
= 48 n
B
= 36
IC(
a

b
)
0,95
= x
a
x
b
z
0,025

2
a
n
a
+

2
b
n
b
= 40 42 1, 96
_
8
40
+
10
42
= 2 1, 2973
Conclus ao: Pode-se armar com 95% de conan ca que a verdadeira diferen ca
entre os di ametros medios dos tubos produzidos pelas empresas A e B est a entre 2
1, 2973mm, isto e entre -3,2973 e -0,7027 mm. Como esse intervalo n ao compreende o
valor 0 (zero) Tem-se 95% de conan ca em armar que os di ametros medios dos tubos
produzidos por estas empresas n ao s ao iguais.
6.1.3.2.2 Variancias Desconhecidas: Quando desconhece-se as vari ancias popula-
cionais (
2
a
e
2
b
) torna-se necess ario a substitui c ao de seus valores parametricos por suas
estimativas amostrais (s
2
a
e s
2
b
). Neste caso, deve-se utilizar a distribui c ao t de Student, em
lugar da normal. Alem desta altera c ao deve-se considerar ainda se as duas popula c oes s ao
homoced asticas ou heteroced asticas, isto e, se as vari ancias populacionais (desconhecidas)
s ao iguais ou diferentes, o que pode ser aferido por meio de um teste de hip otese para
homogeneidade das vari ancias (Cap 7).
Populac oes homocedasticas
Sendo as popula c oes homoced asticas (
2
a
=
2
b
=
2
), assim, s
2
a
e s
2
b
s ao duas
estimativas para um mesmo par ametro (
2
) ent ao o intervalo de conan ca para a diferen ca
entre duas medias e dado por:
121
IC(
a

b
)
1
= x
a
x
b
t

2
s
p
_
1
n
a
+
1
n
b
, (6.8)
t

2
com n
a
+n
b
2 graus de liberdade.
em que:
s
p
=

(n
a
1)s
2
a
+ (n
b
1)s
2
b
n
a
+n
b
2
Populac oes heterocedasticas
Sendo as popula c oes heteroced asticas (
2
a
,=
2
b
), assim, s
2
a
e s
2
b
s ao estima-
tivas de diferentes par ametros, n ao podendo, pois serem combinadas em um unico valor.
Ent ao o intervalo de conan ca para a diferen ca entre duas medias e dado por:
IC(
a

b
)
1
= x
a
x
b
t

s
2
a
n
a
+
s
2
b
n
b
(6.9)
t

2
com v graus de liberdade.
em que:
v =
_
s
2
a
n
a
+
s
2
b
n
b
_
2

s
2
a
n
a

2
n
a
1
+

s
2
b
n
b

2
n
n
1
6.1.3.3 Intervalo de conanca para proporcao
6.1.3.3.1 Amostras grandes (n > 30) O intervalo de conan ca para a propor c ao e
dado por:
IC(P)
1
= p z

2
_
p q
n
(6.10)
em que:
p e a propor c ao estimada na amostra;
q = 1 p e;
n e o tamanho da amostra.
122
Obs: Se ocorrer ASRPF, o intervalo de conan ca para propor c ao e dado
por:
IC(P)
1
= p z

2
_
p q
n
_
N n
N 1
(6.11)
6.1.3.3.2 Amostras pequenas (n 30) Quando a amostra for pequena deve-se
utilizar a distribui c ao t de Student, em lugar da normal e o intervalo de conan ca para a
propor c ao ser a dado ent ao por:
IC(P)
1
= p t

2
_
p q
n
, (6.12)
t

2
com n 1 graus de liberdade
Obs: Se ocorrer ASRPF, o intervalo de conan ca para propor c ao e dado
por:
IC(P)
1
= p t

2
_
p q
n
_
N n
N 1
(6.13)
t

2
com n 1 graus de liberdade
6.1.3.4 Intervalo de conanca para a diferenca entre proporc oes
Dadas duas amostras independentes, de popula c oes diferentes, o intervalo
de conan ca para a diferen ca entre as propor c oes nestas popula c oes e dado por:
6.1.3.4.1 Amostras grandes (n > 30)
IC(P
a
P
b
)
1
= ( p
a
p
b
) z

2
_
p
a
q
a
n
a
+
p
a
q
b
n
b
(6.14)
em que:
p
a
e a propor c ao estimada na amostra;
q
a
= 1 p
a
;
q
a
= 1 p
a
;
n
a
e n
b
s ao os tamanhos das amostras a e b, respectivamente
Obs: Se ocorrer ASRPF, deve-se multiplicar o componente da vari ancia,
referente ` a popula c ao na qual ocorreu ASRPF pelo fator de corre c ao
Nn
N1
.
123
6.1.3.4.2 Amostras pequenas (n 30)
IC(P
a
P
b
)
1
= ( p
a
p
b
) t

2
_
p
a
q
a
n
a
+
p
a
q
b
n
b
(6.15)
t

2
com n
a
+n
b
2 graus de liberdade
Obs: Se ocorrer ASRPF, deve-se multiplicar o componente da vari ancia,
referente ` a popula c ao na qual ocorreu ASRPF pelo fator de corre c ao
Nn
N1
.
6.1.3.5 Intervalo de conanca para a variancia (
2
)
O intervalo de conan ca para a vari ancia populacional e dado por:
Sabe-se que
(n 1)s
2

2
sin
2
n1
Ent ao,
P
_
(n 1)s
2

2
1

2

2

(n 1)s
2

2
_
= 1
E o intervalo de conan ca para a vari ancia ser a:
IC(
2
)
1
=
_
(n 1)s
2

2
1

2
;
(n 1)s
2

2
_
(6.16)
6.2 Teoria da decisao (Testes de Hip oteses)
Uma hip otese cientca e qualquer arma c ao que possa ser refutada, caso
contr ario pertencer a a outro ramo do conhecimento humano, como por exemplo a religi ao.
Assim sendo, a hip otese: Os motores da marca x s ao mais econ omicos que os da marca
y e uma hip otese cientca, pois qualquer pessoa que duvide, ou queira comprova-la,
pode montar um experimento e averiguar sua veracidade. Por outro lado, a hip otese:
Deus existe, n ao pode ser avaliada, n ao sendo, portanto, cientca. Uma determinada
hip otese e tida como verdadeira, se em sua avalia c ao n ao forem encontrados indcios que
a desaprovem, permanecendo assim ate que se prove o contr ario. Para que uma hip otese
cientca seja testada, ela deve ser convertida em uma hip otese estatstica, que e uma
124
arma c ao sobre um par ametro populacional. Um teste de hip otese, fundamenta-se em
um conjunto de regras, que permitem, a partir dos resultados experimentais (amostrais)
rejeitar ou n ao tal hip otese, associando a esta decis ao uma determinada conan ca.
6.2.1 Metodologia de um teste de hip otese
Para a realiza c ao de um teste de hip oteses, deve-se formular duas hip oteses
estatsticas, a saber:
Hip otese de nulidade (H
0
) e a hip otese que ser a testada, sendo geralmente formulada
com o intuito de ser rejeitada.
Hip otese alternativa (H
a
) e qualquer hip otese que contrarie H
0
.
Suponha que esteja-se interessado em vericar se a verdadeira performance
(km/litro de combustvel) dos veculos, de determinada marca, equipados com motores 1.6
c.c. seja de 14km/l, como arma o fabricante, ou se este e inferior a 14km/l. Ent ao
deve-se formular as seguintes hip otese estatsticas:
_
_
_
H
0
: = 14km/l
H
a
: < 14km/l
Para vericar a veracidade da hip otese H
0
, deve-se conduzir um experimento
(coletar uma amostra), no qual ser a medida a performance de v arios carros, que fornecer ao
uma estimativa da performance media, e sua vari ancia, a partir das quais, verica-se a
veracidade da hip otese H
0
. Suponha que no experimento acima tenham sido avaliados 9
carros, e que estes tenham apresentado uma performance media de 13 km/l, com vari ancia
4(Km/l)
2
. Pelo simples fato desta amostra de 9 carros ter apresentado uma performance
media inferior a informada pelo fabricante (14 km/l), n ao se pode concluir que esta ar-
mativa seja falsa, pois como j a e sabido, esta estimativa est a sujeita uma distribui c ao
amostral. Deste modo, para verica a veracidade de H
0
, assume-se que esta hip otese
seja verdadeira, isto e = 14 km/l. e calcula-se a probabilidade de uma amostra, com
tamanho n = 9, retirada desta popula c ao, fornecer uma estimativa inferior a estimativa
125
obtida (13 km/l). Caso esta probabilidade seja alta, n ao haver a nenhuma raz ao para re-
jeitar a hip otese H
0
(isto e duvidar de sua veracidade), sendo esta tida como verdadeira.
Nesta situa c ao disse que a diferen ca observada entre a media amostral (13 km/l) e a pop-
ulacional (14 km/l) n ao e signicativa, da a terminologia usual de que o teste foi n ao
signicativo, usada para dizer que a hip otese H
0
n ao foi rejeitada. Por outro lado, se a
probabilidade de se obter esta estimativa for pequena (p < 0, 05) h a raz oes para acreditar
que a verdadeira media populacional seja menor do que se imaginva, ou seja a verdadeira
performance deve ser menor que 14 km/l. Nesta situa c ao, diz-se que a diferen ca foi sig-
nicativa, portanto a hip otese H
0
deve ser rejeitada (o teste foi signicativo). Obs: N ao
existe nenhum argumento cientco para se xar o nvel de probabilidade limite de um
teste em 0, 05. Este e apenas um valor usual, devido a facilidade de sua obten c ao em
tabelas. No nosso exemplos temos:
_
_
_
H
0
: = 14km/l
H
a
: < 14km/l
na amostra de n = 9 carros obteve-se x = 13 km/l e s
2
= 4 (km/l)
2
;
sabendo-se que x sin N
_
,

2
n
_
, assumido = 14 km/l, e como n ao se conhece
2
, mas
sim s
2
, tem-se:
x sin t
(8)
_
14,
4
9
_
gr aco
t
c
=
x

n
=
13 14
2

9
= 1, 5
Ent ao,
P[
H
0
( x 13) = P(t 1, 5) = 0, 1720
como esta probabilidade e alta, n ao h a raz oes para acreditar que a verdadeira
performance media seja inferior a 14 km/l
126
6.2.2 Tipos de erros
Ao realizar-se um teste de hip otese, pode-se incorrer em dois tipos de er-
ros, que ser ao discutidos a seguir. Suponha que a hip otese H
0
formulada, no exemplo
anterior seja verdadeira, isto e a performance media dos carros realmente e de 14 km/l,
isto e ( = 14 km/l), e por efeito de acaso obtenha-se, na amostra, uma estimativa
de performance, cuja probabilidade de ocorrencia seja muito baixa, o que levaria a re-
jei c ao da hip otese H
0
: = 14 km/l, que e verdadeira. Ent ao ter-se-a cometido um erro
denominado erro Tipo I (rejeitar uma hip otese H
0
) verdadeira. A probabilidade de se
cometer este erro e denominada nvel de signic ancia () sendo esta, determinada (xada)
pelo pesquisador. Por outro lado, a hip otese formulada pode ser falsa, isto e na verdade
,= 14 km/l, e por efeito de acaso obter uma estimativa, que nos leve a n ao rejei c ao da
hip otese H
0
: = 14 km/l. Nesta situa c ao ter-se-a cometido o erro Tipo II (aceitar H
0
falsa). A probabilidade de cometer este erro e (), sendo esta uma fun c ao de , H
0
e do
tamanho amostral. As probabilidades de se cometer os erros Tipo I e Tipo II, ( e ) s ao
inversamente proporcionais, como pode ser observado na g?, sendo que, a unica maneira
de se diminuir simultaneamente e e aumentando o tamanho amostral (n).
Figura 6.1: Erros Tipo I e Tipo II.
Figura tipos de erros
127
Os tipos de erros que podem ser cometidos em um teste de hip oteses, bem
como suas probabilidades est ao resumidos na tabela 6.1
Tabela 6.1: Tipos de erros passveis de serem cometidos ao se testar uma hip otese
Decis ao
Realidade Rejeita H
0
N ao Rejeita H
0
H
0
verdadeira 1
(erro Tipo I) Decis ao correta
H
0
falsa 1
Decis ao correta (erro Tipo II)
6.2.3 Tipos de testes
De acordo com o tipo de hip otese formulada pode-se ter os seguintes tipos
de testes de hip oteses:
i. Teste Bilateral: Apresenta duas regi oes de rejei c ao de da hip otese H
0
, situadas nos
extremos da distribui c ao amostral, e utilizado para testar as hip oteses do tipo:
_
_
_
H
0
: =
H
a
: ,=
ii. Teste Unilateral a Direita: Apresenta uma unica regi ao de rejei c ao da hip otese H
0
,
situada no extremo superior da distribui c ao amostral, e utilizado para testar as
hip oteses do tipo:
_
_
_
H
0
: =
H
a
: >
128
iii. Teste Unilateral a Esquerda Apresenta: uma regi ao de rejei c ao da hip otese H
0
, situada
no extremo inferior da distribui c ao amostral, e utilizado para testar as hip oteses do
tipo:
_
_
_
H
0
: =
H
a
: <
6.2.4 Algoritmo para realizacao de um teste de hip otese
i. Formular as hip otese H
0
e H
a
;
ii. Fixar o valor de ;
iii. Construir a regra de decis ao (regi oes de rejei c ao e n ao rejei c ao de H
0
);
iv. Calcular a estatstica adequada para o teste;
v. Tomar a decis ao;
vi. Conclus ao.
Exemplo. Aplicando-se este algoritmo ao exemplo da performance media
dos carros tem-se:
i.
_
_
_
H
0
: = 14km/l
H
a
: < 14km/l
ii. = 0, 05
iii. t
0,05
(8) = 1, 860 Regra: rejeitar H
0
se t
calc
1, 860
iv.
t
calc
=
x
0
s

n
=
13 14
2

9
= 1, 5
v. Como t
calc
= 1, 5 > t
tab
= 1, 860, n ao rejeita-se a hip otese H
0
, pois o valor da
estatstica teste (t
calc
) encontra-se na regi ao de n ao rejei c ao de H
0
.
129
vi. Conclui-se pelo teste t de Student, ao nvel de 0, 05 de probabilidade que a verdadeira
performance media destes carros n ao e inferior a 14 km/l.
130
6.2.5 Estatstica apropriadas para os testes de hip oteses
Par ametro Presuposi c oes Estatstica Distribui c ao
X N(,
2
) t
calc
=
x
0
s

n
n > 30 N(0, 1)
n 30 t
(n1)

b
X
a
N(
a
,
2
a
)
X
b
N(
b
,
2
b
)

2
a
=
2
b
t
calc
=
x
a
x
b
(
a

b
)
s
p

1
n
a
+
1
n
b
s
p
=
_
(n
a
1)s
2
a
+(n
b
1)s
2
b
n
a
+n
b
2
n > 30 N(0, 1)
n 30 t
(n
a
+n
b
2)
X
a
N(
a
,
2
a
)
X
b
N(
b
,
2
b
)

2
a
,=
2
b
t
calc
=
x
a
x
b
(
a

b
)

s
2
a
n
a
+
s
2
b
n
b
n > 30 N(0, 1)
n 30 t
(v)
v =

s
2
a
n
a
+
s
2
b
n
b

s
2
a
n
a

2
n
a
1
+

s
2
b
n
b

2
n
n
1
dados pareados
t
calc
=

dd
0
s
d

n
d
i
= x
i antes
x
i depois
n > 30 N(0, 1)
n 30 t
(n1)
p t
calc
=
pp
0

p(1 p)
n
n > 30 N(0, 1)
n 30 t
(n1)
p
a
p
b
t
calc
=
p
a
p
b
(p
0
a
p
0
b
)

p
a
(1 p
a
)
n
+
p
b
(1 p
b
)
n
n > 30 N(0, 1)
n 30 t
(n
a
+n
b
2)

2
a

2
b
X
a
N(
a
,
2
a
)
X
b
N(
b
,
2
b
)
F
calc
=
s
2
a
s
2
b

2
b

2
a
F
(n
a
1),(n
b
1)
131
6.2.6 Teste de Qui-Quadrado (
2
)
O teste de Qui-Quadrado e utilizado para compara c ao entre as freq uencias
observadas as esperadas segundo um modelo probabilstico qualquer.
Uma medida da discrep ancia entre as freq uencias observadas e esperadas e
dada por:

2
calc
=
k

i=1
(F
oi
F
ei
)
2
F
ei
; (6.17)
em que:
F
oi
e a freq uencia observada;
F
ei
e a freq uencia esperada.
A express ao 6.17 fornece um valor sempre positivo, e pode-se demonstrar
que
2
calc

2
v
. Em que
2
v
e uma distribui c ao Qui-Quadrado com v graus de liberdade.
Assim, a estatstica 6.17 pode ser utilizada tanto para vericar a aderencia
das freq uencias observadas a um modelo, (teste Qui-Quadrado de aderencia), como para
vericar a independencia entre duas vari aveis.
6.2.6.1 Teste de aderencia

E utilizado para vericar o ajustamento de um modelo de probabilidade


aos dados observados, ou seja, vericar se as diferen cas entre as freq uencias observadas e
esperadas s ao estatisticamente signicativas.
Neste caso o n umero de graus de liberdade (v) ser a:
v = k 1 m,
em que:
k e o n umero de classes, e
m o n umero de par ametros estimados para se obter as freq. esperadas.
Exemplo1. Em seus experimentos com ervilhas, Mendel, ao cruzar plantas
de sementes amarelas lisas com plantas de sementes verdes enrugadas, observou a seguinte
132
descendencia na gera c ao F
2
: 315 plantas com sementes amarelas lisas, 108 com sementes
amarelas enrugadas, 101 com sementes verdes lisas e 32 com sementes verdes enrugadas.
De acordo com os postulados de Mendel a segrega c ao esperada nesta gera c ao deveria seguir
a propor c ao de 9:3:3:1 Vericar se a teoria da segrega c ao independente dos genes explica
a segrega c ao observada.
Solu c ao:
Hip oteses a serem testadas:
_
_
_
propor c ao = 9 : 3 : 3 : 1
propor c ao ,= 9 : 3 : 3 : 1

_
_
_

2
= 0

2
> 0
Obter as freq uencia esperadas
classes F
o
F
e
Amarelas lisas 315 312,75
Amarelas enrugadas 108 104,25
Verdes lisas 101 104,25
Verdes enrugadas 32 34,75
Total 56 556
Obter a estatstica
2
calc

2
calc
=
(315 312, 75)
2
312, 75
+ +
(32 34, 75)
2
34, 75
= 0, 470
como nenhum par ametro foi estimado, o n umero de graus de liberdade ser a:
v = 4 1 0 = 3
Verica-se na tabela de
2
que
2
(0,01)
(3) = 11, 345
Como
2
calc
<
2
tab
o teste foi n ao signicativo.
Exemplo2 A distribui c ao do n umero de gols/partida, realizadas pelo
Cruzeiro, durante o Brasileir ao 2001, foi:
Vericar se o n umero de gols por partida pode ser modelado segundo uma
distribui c ao de Poison
Solu c ao:
133
!h N umero de gols por partida marcados pelo Cruzeiro Esporte Clube durante o campe-
onato brasileiro de 2002.
N umero de gols 0 1 2 3 4
N umero de partidas 8 9 4 2 3
!h Probailidades estimadas via modelo de Poisson do n umero de gols por partida
marcados pelo Cruzeiro Esporte Clube durante o campeonato brasileiro de 2002.
n umero de gols 0 1 2 3 4
Prob. 0,26 0,35 0,23 0,10 0,04
Para obten c ao das freq uencias esperadas pela distribui c ao torna-se
necess ario estimar o n umero medio de gols: x = 1, 35 gols por partida, em em seguida
obter a distribui c ao de probabilidade do n umero de gols/partidas:
Assim a freq uencia esperada pela distribui c ao de Poison ser a dada pelo pro-
duto da probabilidade do cruzeiro realizar um determinado n umero de gols em uma partida
pelo n umero de partidas realizadas:
O valor da estatstica
2
ser a:

2
calc
=
(8 6, 76)
2
6, 76
+
(9 9, 10)
2
9, 10
+ +
(3 1, 04)
2
1, 04
= 4, 98
Comparando esse valor com o de
2
Tabela
= com 3 graus de liberdade (5-1-1)
tem-se que o pvalor=0.1732, portanto n ao rejeita-se H
0
.
6.2.6.2 Teste de independencia
O teste
2
de independencia e aplicado a tabelas de contingencia, as quais
s ao construidas no intuito de estudar a rela c ao entre duas vari aveis categoricas. Considere-
se como exemplo a tabela 6.3 na qual est ao apresentados os n umero de alunos matriculados
!h Frequencias esperadas do n umero de gols por partida marcados pelo Cruzeiro Es-
porte Clube durante o campeonato brasileiro de 2002, estimadas pelo modelo Poisson.
N umero de gols 0 1 2 3 4
N umero de partidas (Fo) 8 9 4 2 3
Fe 6,76 9,10 6,24 2,86 1,04
134
nos coledios A e B, em rela c ao ` a sua classe econ omica (alta, media ou baixa).
Tabela 6.2: N umero de alunos matriculados em dois coledios em rela c ao ` a classe social
dos mesmos
Classe social
colegio Alta Media Baixa Total
A 20 40 40 100
B 50 40 30 120
Total 70 80 70 220
A estatstica utilizada para o teste e

2
calc
=
h

i=1
k

j=1
(Fo
ij
Fe
ij
)
2
Fe
ij
(6.18)
em que:
Fo
ij
e a freq uencia observada na casela ij;
Fe
ij
e a freq uencia esperada na casela ij, a qual e dada por:
Fe
ij
=
(Total da lina i)(total da coluna j)
totalgeral
Sob H
0
, a estatstica 6.18 tem distribui c ao de
2
com
v = (h 1)(k 1) p
graus de liberdade, sendo p o n umero de par ametros estimados.
No exemplo tem-se:
substituindo esses resultados em 6.18

2
calc
=
(20 31, 82)
2
31, 82
+
(40 36, 36)
2
336, 36
+ +
(30 30, 18)
2
30, 18
= 20, 27
Verica-se na tabela de
2
que o valor de
2
0,05
(2) = 5, 99. Como o valor de

2
calc
e maior que o de
2
tab
, este se encontra na regi ao de rejei c ao de H
0
portanto, rejeita-se
135
Tabela 6.3: N umero de alunos matriculados em dois coledios em rela c ao ` a classe social
dos mesmos
Classe social
colegio Alta Media Baixa Total
A 20(31,82) 40(36,36) 40(31,82) 100
B 50(31,18) 40(43,64) 30(38,18) 120
Total 70 80 70 220
( ) Freq uencia esperada
a hip otese de independencia entre os colegios e a classe social dos alunos. Ou seja pode-se
armar, ao nvel de 0,05 que a classe social e o colegio no qual os alunos estudam n ao s ao
independentes.
Captulo 7
Regressao e Correlacao linear
Estima c ao dos par ametros do modelo de regress ao pelo metodo dos mnimos
quadrados:
Seja o modelo:
y
i
=
0
+
1
x
i
+e
i
(7.1)
em que:
y
i
e o valor observado da vari avel resposta (dependente);

0
e o intercepto do modelo;

1
e coeciente angular;
x
i
e o valor da vari avel preditora e
e
i
e o erro aleat orio associado a observa c ao y
i
.
Ajustar um modelo de regress ao, via metodo de mnimos quadrados, implica
procurar os valores (

i
) tais que os valores estimados (preditos) de y
i
, y
i
=

0
+

1
sejam
os mais pr oximos possveis dos valores observados. Isto e os erros sejam mnimos
Partindo-se do modelo 7.1 tem-se que o erro cometido ao se estimar uma
observa c ao e
e
i
= y
i

1
x
i
.
Denindo a fun c ao
136
137
S(
0
,
1
) =
n

i=1
e
2
i
=
n

i=1
(y
i

1
x
i
)
2
(7.2)
Os estimadores de mnimos quadrados de
0
e
1
,

0
e

1
s ao aqueles que
minimizam a fun c ao 7.2. Assim, estes estimadores s ao obtidos solucionando-se o sistema:
_
_
_
S

0
= 0
S

1
= 0
_
_
_
2

n
i=1
(y
i

1
x
i
)(1) = 0
2

n
i=1
(y
i

1
x
1
)(x
i
) = 0
_
_
_

n
i=1
y
i
n

n
i=1
x
1
= 0 (a)

n
i=1
y
i
x
i

n
i=1
x
i

n
i=1
x
2
i
= 0 (b)
de (a) tem-se:

0
=

n
i=1
y
i
n

n
i=1
x
i
n

0
= y

1
x (7.3)
de (b) tem-se:
138

0
n

i=1
x
i
+

1
n

i=1
x
2
i
=
n

i=1
x
i
y
i
_
n
i=1
y
i
n

i = 1
n
x
i
n
_
n

i=1
x
i
+

1
n

i=1
x
2
i
=
n

i=1
x
i
y
i

n
i=1
y
i

n
i=1
x
i
n

n
i=1
x
2
i
n
+

1
n

i=1
x
2
i
=
n

i=1
x
i
y
i

n
i=1
y
i

n
i=1
x
i
n
+

1
_
n

i=1
x
2
i

n
i=1
x
2
i
n
_
=
n

i=1
x
i
y
i

1
_
n

i=1
x
2
i

n
i=1
x
2
i
n
_
=
n

i=1
x
i
y
i

n
i=1
y
i

n
i=1
x
i
n

1
=

n
i=1
x
i
y
i

n
i=1
y
i

n
i=1
x
i
n

n
i=1
x
2
i

n
i=1
x
2
i
n
(7.4)

1
=
SPXY
SQDX
Uma medida da qualidade do ajuste, do modelo obtido, aos dados e dada
pelo coeciente de determina c ao (R
2
),
r
2
=
SPXY
2
SQDX
SQDY
(7.5)
Exemplo: Os dados a seguir refrem-se ao n umero de CDs vendidos por uma
determinada gravadora, em milhares de unidades, em 10 semanas consecutivas ap os o
lan camento do mesmo. Ajustar um modelo de regress ao linear simples que descreva a
quantidade de CDs vendidos em fun c ao do tempo de lan camento.
Semanas 1 2 3 4 5 6 7 8 9 10
CDs (Milunid) 5,0 6,7 6,0 8,7 6,2 8,6 11,0 11,9 10,6 10,8
Tem-se que: n = 10

10
i=1
X
i
= 55

10
i=1
X
2
i
= 385

10
i=1
Y
i
= 85, 5

10
i=1
X
i
Y
i
= 529, 4
Substituindo esses valores em 7.4 tem-se:

1
=
529,4
(55)(85,5)
10
385
55
2
10
= 0, 72
e em 7.3:

0
= 8, 55 (0, 72)(5, 5) = 4, 59
139
Portanto a equa c ao de regress ao que descreve o n umero de Cds vendidos em
fun c ao do n umero de semanas ap os o lan camento e:
y = 4, 59 + 0, 72x
Cujo coeciente de determina c ao e:
r
2
=
59,15
2
82,5
54,565
= 0, 77

Você também pode gostar