AulasET1012008 2

Notas de Aula do Curso
ET101: Estatstica 1 - rea 2

Leandro Chaves Rgo, Ph.D.
2008.2
Prefcio
Estas notas de aula foram feitas para compilar o contedo de vrias referncias bibliogrcas
tendo em vista o contedo programtico da disciplina ET101-Estatstica 1 ministrada para
os cursos de graduao em Engenharia na rea 2 da Universidade Federal de Pernambuco.
Em particular, elas no contm nenhum material original e no substituem a consulta a
livros textos. Seu principal objetivo dispensar a necessidade dos alunos terem que copiar
as aulas e, deste modo, poderem se concentrar em entender o contedo das mesmas.
Recife, fevereiro de 2008.

Leandro Chaves Rgo, Ph.D.
Contedo
Prefcio
1 Introduo Probabilidade
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
1.10
1.11
1.12
Denio de Conjuntos e Exemplos . . . . . . . . . . .

Operaes com Conjuntos . . . . . . . . . . . . . . . .
Produto Cartesiano . . . . . . . . . . . . . . . . . . . .
Conjunto das Partes . . . . . . . . . . . . . . . . . . .
Partio . . . . . . . . . . . . . . . . . . . . . . . . . .
Funo Indicadora . . . . . . . . . . . . . . . . . . . .
Experimento Aleatrio . . . . . . . . . . . . . . . . . .
Espao Amostral . . . . . . . . . . . . . . . . . . . . .
Eventos e Coleo de Eventos . . . . . . . . . . . . . .
Freqncias Relativas . . . . . . . . . . . . . . . . . . .
Interpretaes de Probabilidade . . . . . . . . . . . . .
Axiomas de Kolmogorov . . . . . . . . . . . . . . . . .
1.12.1 Exemplos de Medidas de Probabilidade . . . . .
1.12.2 Propriedades de uma Medida de Probabilidade .
2 Espaos Amostrais Finitos

2.1
2.2
Introduo . . . . . . . . . . .
Mtodos de Contagem . . . .
2.2.1 Regra da Adio . . .
2.2.2 Regra da Multiplicao
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
2
4
4
5
5
6
7
7
9
10
10
11
12
15
15
15
15
16
3 Probabilidade Condicional
22
4 Variveis Aleatrias
34
3.1
3.2
4.1
4.2
4.3
4.4
4.5
Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Independncia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Introduo . . . . . . . . . . . . . .
Funo de Distribuio Acumulada
Tipos de Varivel Aleatria . . . .
Varivel Aleatria Discreta . . . . .
Varivel Aleatria Contnua . . . .
.
.
.
.
.
ii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
22
30
34
35
37
37
38
4.6
4.7
4.8
4.9
Alguns Exemplos de Distribuies de Probabilidade . .

4.6.1 Aleatria ou Uniforme Discreta. . . . . . . . . .
4.6.2 Bernoulli. . . . . . . . . . . . . . . . . . . . . .
4.6.3 Binomial. . . . . . . . . . . . . . . . . . . . . .
4.6.4 Uniforme. . . . . . . . . . . . . . . . . . . . . .
Variveis Aleatrias Mistas . . . . . . . . . . . . . . . .
Variveis Aleatrias Multidimensionais . . . . . . . . .
4.8.1 Funo de Distribuio Acumulada Conjunta . .
4.8.2 Distribuio condicional de X dada Y discreta .
4.8.3 Distribuio condicional de X dada Y contnua
4.8.4 Independncia entre Variveis Aleatrias. . . . .
Funes de Variveis Aleatrias . . . . . . . . . . . . .
5 Esperana e Momentos
5.1
5.2
5.3
5.4
5.5
5.6
O Conceito de Esperana . . . . . . . . . . . . . . .
5.1.1 Denio da Esperana - Caso Discreto . . .
5.1.2 Denio da Esperana - Caso Contnuo . .
Esperana de Funes de Variveis Aleatrias . . .
5.2.1 Caso Discreto . . . . . . . . . . . . . . . . .
5.2.2 Caso Contnuo . . . . . . . . . . . . . . . .
Propriedades da Esperana . . . . . . . . . . . . . .
Momentos . . . . . . . . . . . . . . . . . . . . . . .
5.4.1 Momentos Centrais . . . . . . . . . . . . . .
Correlao, Covarincia, e Desigualdade de Schwarz
Esperana Condicional . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6.4
6.5
6.6
6.7
7.3
7.4
7.5
7.6
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Geomtrica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Binomial Negativa ou Pascal. . . . . . . . . . . . . . . . . . . . . . .
6.3.1 Relao entre as Distribuies Binomial e Binomial Negativa.
Poisson. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Hipergeomtrica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Poisson como um Limite de Eventos Raros de Binomial . . . . . . . .
A Distribuio Multinomial . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7 Principais Variveis Aleatrias Contnuas

7.1
7.2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6 Principais Variveis Aleatrias Discretas

6.1
6.2
6.3
.
.
.
.
.
.
.
.
.
.
.
.
Introduo . . . . . . . . . . . . . . . . . .
Normal ou Gaussiana . . . . . . . . . . . .
7.2.1 Tabulao da Distribuio Normal
Exponencial . . . . . . . . . . . . . . . . .
Cauchy . . . . . . . . . . . . . . . . . . . .
Qui-quadrado . . . . . . . . . . . . . . . .
t de Student . . . . . . . . . . . . . . . . .
iii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
38
38
39
39
41
41
42
42
45
46
47
48
51
51
51
53
53
53
54
56
57
58
61
62
65
65
65
66
67
67
69
70
71
73
73
73
76
77
78
79
80
7.7
A Distribuio Normal Bivariada . . . . . . . . . . . . . . . . . . . . . . . .
8 Anlise Exploratria de Dados

8.1
Resumo de Dados . . . . . . . . . .
8.1.1 Tipos de Variveis . . . . .
8.1.2 Distribuies de Freqncias
8.1.3 Representao Grca . . .
8.1.4 Medidas de Posio . . . . .
8.1.5 Medidas de Disperso . . . .
8.1.6 Quantis . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9 Distribuies Amostrais
9.1
9.2
9.3
9.4
9.5
9.6
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Introduo . . . . . . . . . . . . . . . . . . . . . .
Populao e Amostra . . . . . . . . . . . . . . . .
Seleo de uma Amostra . . . . . . . . . . . . . .
9.3.1 Amostra Aleatria Simples . . . . . . . . .
Estatsticas e Parmetros . . . . . . . . . . . . . .
Distribuies Amostrais . . . . . . . . . . . . . .
9.5.1 Distribuio Amostral da Mdia Amostral
9.5.2 Distribuio Amostral de uma Proporo .
Determinao do Tamanho de uma Amostra . . .
10 Estimao
10.1 Estimativas e Estimadores . . . . . . . . . . .

10.2 Propriedades de Estimadores . . . . . . . . . .
10.3 Intervalo de Conana . . . . . . . . . . . . .
10.3.1 Intervalo de Conana para Mdia com
10.3.2 Intervalo de Conana para Mdia com
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
Varincia Conhecida . .
Varincia Desconhecida
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
80
82
82
82
83
85
86
87
88
92
92
92
93
93
94
95
96
98
98
100
100
101
104
105
108
11 Testes de Hiptese
109
Referncias Bibliogrcas
119
11.1 Teste de Hiptese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11.2 Procedimento Geral Para Testes de Hipteses . . . . . . . . . . . . . . . . .
11.3 Teste de Hiptese para a Mdia de Uma Populao com Varincia Conhecida
11.3.1 Teste para Proporo . . . . . . . . . . . . . . . . . . . . . . . . . . .
11.3.2 Testes para Amostras Grandes . . . . . . . . . . . . . . . . . . . . . .
11.4 Teste Sobre a Mdia de Uma Populao Normal com Varincia Desconhecida
11.5 Probabilidade de Signicncia . . . . . . . . . . . . . . . . . . . . . . . . . .
11.6 Signicncia Estatstica versus Signicncia Prtica . . . . . . . . . . . . . .
iv
109
112
113
113
115
115
116
117
Captulo 1
Introduo Probabilidade
1.1 Denio de Conjuntos e Exemplos
Denio 1.1.1: Um conjunto uma coleo de elementos distintos onde os elementos no
so ordenados.
Um conjuntos pode ser especicado, listando seus elementos dentro de chaves. Por exemplo,
A = {0, 1, 2, 3, 5, 8, 13}, B = {0, 1, 2, . . . , 1000}.
Alternativamente, um conjunto pode ser especicado por uma regra que determina os membros do conjunto, como em:
C = {x : x inteiro e positivo} ou D = {x : x par}.

Como em um conjunto a ordem dos elementos no importa, temos:
{1, 2, 3} = {2, 3, 1}.

Se um dado elemento faz parte de um conjunto, dizemos que ele pertence ao conjunto
e denotamos isso com o smbolo . Por exemplo, 2 D = {x : x par} ou 3 E = {x :
x primo}.
Por outro lado, se um dado elemento no faz parte de um conjunto, dizemos que ele no
pertence ao conjunto e denotamos isso com o smbolo
/ . Por exemplo, 3
/ D = {x : x par}
ou 4
/ E = {x : x primo}.
Observao 1.1.2: Precisamos ter cuidado ao distinguir entre um elemento como 2 e o

conjunto contendo somente este elemento {2}. Enquanto, temos 2 F = {2, 3, 5}, {2}
/
F = {2, 3, 5}, pois o conjunto contendo somente o elemento 2 no pertence F .
O tamanho de um conjunto ||A|| a quantidade de elementos que ele possui, que
chamado de cardinalidade. Cardinalidades podem ser nita, innita enumervel, ou innita
no-enumervel. Um conjunto nito quando existe uma funo bijetiva cujo domnio igual
a este conjunto e a imagem o conjunto dos inteiros no-negativos menores que um nmero
1
CAPTULO 1. INTRODUO PROBABILIDADE

2
nito; seus elementos podem ser contados. Um conjunto innito enumervel tem exatamente
a mesma quantidade de elementos que os naturais, ou seja, existe uma funo bijetiva cujo
domnio igual a este conjunto e a imagem igual ao conjunto dos naturais. Um conjunto
enumervel se ele for nito ou innito enumervel. Um conjunto no-enumervel se ele
no for enumervel. Por exemplo temos que os seguintes conjuntos so enumerveis:
Nn = {0, 1, 2, . . . , n 1},
Z = {x : x um inteiro},
Z + = {x : x um inteiro positivo},
Q = {x : x racional}.
Por outro lado, os seguintes conjuntos so no-enumerveis:
IR = {x : x um nmero real},
(a, b) = {x : a < x < b}, onde a < b,
[a, b] = {x : a x b}, onde a < b.
Existem dois conjuntos especiais que nos interessaro. Em muitos problemas nos dedicaremos a estudar um conjunto denido de objetos, e no outros. Por exemplo, em alguns
problemas podemos nos interessar pelo conjunto dos nmeros naturais; ou em outros problemas pelo conjuntos dos nmeros reais; ou ainda por todas as peas que saem de uma linha
produo durante um perodo de 24h, etc. O conjunto que contm todos os elementos que
queremos considerar chamado de conjunto universo e denotado por . Por outro lado, o
conjunto especial que no possui elementos chamado de conjunto vazio e denotado por
. Este conjunto tem cardinalidade 0 e portanto nito. Por exemplo,
= {} = {x : x IR e x < x} ou = (a, a).

Dois conjuntos A e B podem ser relacionados atravs da relao de incluso (denotada
por A B , e lida A um subconjunto de B ou B contm A) quando todo elemento de A
tambm elemento de B . Diz-se que A um subconjunto prprio de B quando se tem A B ,
A = , e A = B . Diz-se que A e B so conjuntos iguais se, e somente se, A B e B A.
Se A B , ento ns tambm podemos dizer que B A.
Identidade ou igualdade entre dois conjuntos A, B signica que eles tem precisamente a
mesma coleo de elementos. Um mtodo bsico para provar que A = B primeiro provar
que A B e depois provar que B A.
1.2 Operaes com Conjuntos

Queremos estudar a importante idia de combinar conjuntos dados, a m de formamos
um novo conjunto. Conjuntos podem ser transformados atravs das seguintes operaes
Booleanas:
Autor: Leandro Chaves Rgo

3
c
1. Complementao: A = { :
/ A}. Observe que de acordo com esta denio,
para todo e todo conjunto A, no existe outra opo alm de A ou Ac ,
alm disso no pode ser verdade que A e Ac simultaneamente.
2. Unio: A B = { : A ou B}
3. Interseco: A B = { : A e B}
4. Diferena: A B = A B c = { : A e
/ B}
Se A B = , ento A e B no tem nenhum elemento em comum, e ns dizemos que A
e B so disjuntos.
Exemplo 1.2.1: Seja = {0, 1, 2, 3, 4, 5, 6, 7}, A = {0, 1, 5} e B = {1, 2, 3, 4}. Ento segue
que Ac = {2, 3, 4, 6, 7}, A B = {0, 1, 2, 3, 4, 5}, A B = {1}, A B = {0, 5}.
Exemplo 1.2.2: Sejam A, B, C, eD subconjuntos do conjunto universo tal que AB = ,
C D = , A C e B D. Prove que A = C e B = D.
Soluo: Basta provar que C A e D B . Seja C , ento como C D = , temos
que
/ D. Logo, como B D, segue que
/ B . Mas como A B = , temos que A.
Portanto, C A.
Para provar que D B , seja D, ento como C D = , temos que
/ C . Logo,
como A C , segue que
/ A. Mas como A B = , temos que B . Portanto, D B .
Relaes e propriedades das operaes Booleanas incluem as seguintes:
1. Idempotncia: (Ac )c = A
2. Comutatividade (Simetria): A B = B A e A B = B A
3. Associatividade: A (B C) = (A B) C) e A (B C) = (A B) C)
4. Distributividade: A (B C) = (A B) (A C) e A (B C) = (A B) (A C)
5. Leis de De Morgan: (A B)c = Ac B c e (A B)c = Ac B c .
Prova: Suponha que (A B)c . Ento, / (A B), o que por sua vez implica
que
/ A e
/ B . Logo, Ac e B c , ou seja, (Ac B c ). Ento,
(A B)c (Ac B c ). Agora suponha que (Ac B c ). Ento, Ac e B c , o
que por sua vez implica que
/Ae
/ B . Logo,
/ (A B), ou seja, (A B)c .
c
c
c
c
c
Ento, (A B ) (A b) . Portanto, (A B ) = (A b)c .
A prova da outra Lei de Morgan anloga e deixada como Exerccio.
Observe que as Leis de De Morgan permitem que possamos expressar unies em termos
de interseces e complementos e interseces em termos de unies e complementos.
As noes de unio e interseco se estendem para colees arbitrrias de conjuntos
atravs de dois quanticadores: existe (), e para todo ().

4
Se temos uma coleo {A:I } de subconjuntos de indexados pelo conjunto de ndices
I , ento:
I A = { : ( I, A )} e I A = { : ( I, A )}.
Por exemplo, se = 0, 1, 2, . . ., I o conjunto de inteiros positivos divisveis por 3 e
A = N = {0, 1, 2, . . . , 1}, ento
I N = e I N = N3 .
1.3 Produto Cartesiano

Denio 1.3.1: Produto Cartesiano. O produto Cartesiano A B de dois conjuntos
dados A e B o conjunto de todos os pares ordenados de elementos, onde o primeiro pertence

A e o segundo pertence B :
A B = {(a, b) : a A, b B}.
Por exemplo, se A = {1, 2, 3} e B = {c, d}, ento:
A B = {(1, c), (1, d), (2, c), (2, d), (3, c), (3, d)}, e
B A = {(c, 1), (c, 2), (c, 3), (d, 1), (d, 2), (d, 3)}.
A noo de produto cartesiano pode ser estendida da seguinte maneira: Se A1 , . . . , An
forem conjuntos, ento,
A1 A2 . . . An = {(a1 , a2 , . . . , an ) : ai Ai },
ou seja, o conjunto de todas as nuplas ordenadas.
Um caso especial importante surge quando consideramos o produto cartesiano de um
conjunto por ele prprio, isto , A A. Exemplos disso surgem quando tratamos do plano
euclideano, IR IR, onde IR o conjunto de todos os nmeros reais, e do espao euclideano
tridimensional, representado por IR IR IR.
1.4 Conjunto das Partes

Denio 1.4.1: Dado um conjunto qualquer A, pode-se denir um outro conjunto, conhe-
cido como conjuntos das partes de A, e denotado por 2A , cujos elementos so subconjuntos
de A.
Exemplo 1.4.2: Seja A = {1, 2, 3}, ento temos que

2A = {, A, {1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}}.
Pode-se provar que a cardinalidade do conjunto das partes de qualquer conjunto dado A
maior que a cardinalidade de A.
1.5 Partio
Denio 1.5.1: Dado um conjunto universo , uma partio = {A , I} de uma

coleo de subconjuntos de (neste caso, indexados por que toma valores no conjunto de
ndices I ) e satisfaz:
P1. Para todo = , A A = ;
P2. I A = .
Deste modo os conjuntos de uma partio so disjuntos par a par e cobrem todo o conjunto
universo. Portanto, cada elemento pertence a um, e somente um, dos conjuntos A
de uma partio.
Exemplo 1.5.2: Se = {1, 2, 3, 4}, ento {A1 , A2 }, onde A1 = {1, 2, 3} e A2 = {4}, uma
partio de .
Exemplo 1.5.3: A coleo de intervalos {(n, n + 1] : n Z} uma partio dos nmeros

reais IR.
1.6 Funo Indicadora

sempre conveniente representar um conjunto A por uma funo IA tendo domnio (conjunto
dos argumentos da funo) e contra-domnio (conjunto dos possveis valores da funo)
binrio {0, 1}.
Denio 1.6.1 : Funo Indicadora. A funo indicadora IA : {0, 1} de um

conjunto A dada por
IA () =
1 se A,
0 se
/ A.
fcil observar que I () = 1, e que I () = 0, . Note que existe uma

correspondncia 1-1 entre conjuntos e suas funes indicadoras:
A = B ( )IA () = IB ().
O fato que conjuntos so iguais se, e somente se, suas funes indicadoras forem idnticas
nos permitem explorar a aritmtica de funes indicadoras:
IAc = 1 IA ,
A B IA IB ,
IAB = min(IA , IB ) = IA IB ,

IAB = max(IA , IB ) = IA + IB IAB ,
IAB = max(IA IB , 0) = IA IB c ,
para construir argumentos rigorosos no que se refere a relao entre conjuntos. Ou seja,
ns transformamos proposies sobre conjuntos em proposies sobre funes indicadoras
e podemos ento utilizar nossa familiaridade com lgebra para resolver perguntas menos
familiares sobre conjuntos.
Exemplo 1.6.2: Utilizando funes indicadoras, verique que A B B c Ac .

Soluo: Temos que
A B IA IB 1 IA 1 IB IAc IB c B c Ac .
Exemplo 1.6.3: As seguintes questes no esto relacionadas umas com as outras.

a. Se IA IB for identicamente igual a zero, o que sabemos a respeito da relao entre A e
B?
b. Se A B c = B Ac , o que sabemos a respeito da relao entre A e B ?
c. Se IA2 + IB2 for identicamente igual a 1, o que podemos concluir sobre A e B ?
Soluo: Exerccio.
1.7 Experimento Aleatrio

Um experimento qualquer processo de observao. Em muitos experimentos de interesse,
existe um elemento de incerteza, ou chance, que no importa quanto ns sabemos sobre o
passado de outras performances deste experimento, ns essencialmente no somos capazes de
predizer seu comportamento em futuras realizaes. As razes para nossa falta de habilidade
para predizer so varias: ns podemos no saber de todas as causas envolvidas; ns podemos
no ter dados sucientes sobre as condies iniciais do experimento; as causas podem ser to
complexas que o clculo do seu efeito combinado no possvel; ou na verdade existe alguma
aleatoriedade fundamental no experimento. Estamos interessados em uma classe particular
de experimentos, chamados experimentos aleatrios. Os seguintes traos caracterizam um
experimento aleatrio:
(a) Se for possvel repetir as mesmas condies do experimento, os resultados do experimento em diferentes realizaes podem ser diferentes. Por exemplo, jogar uma moeda
diversas vezes com bastante cuidado para que cada jogada seja realizada da mesma
maneira.
(b) Muito embora no sejamos capazes de armar que resultado particular ocorrer, seremos capazes de descrever o conjunto de todos os possveis resultados do experimento.

7
(c) Quando o experimento for executado repetidamente, os resultados individuais parecero ocorrer de uma forma acidental. Contudo, quando o experimento for repetido
um grande nmero de vezes, uma congurao denida ou regularidade surgir.
esta regularidade que torna possvel construir um modelo probabilstico. Por exemplo,
pense nas repetidas jogadas de uma moeda, muito embora caras e coroas apaream sucessivamente, em uma maneira arbitrria, fato emprico conhecido que, depois de um
grande nmero de jogadas, a proporo de caras e de coroas sero aproximadamente
iguais (assumindo que a moeda simtrica).
Os resultados de um experimento aleatrio so caracterizados pelos seguintes componentes:
1. o conjunto de resultados possveis ;
2. a coleo de conjuntos de resultados de interesse A;
3. um valor numrico P da probabilidade de ocorrncia de cada um dos conjuntos de
resultados de interesse.
1.8 Espao Amostral

O conjunto de possveis resultados de um experimento aleatrio chamado de espao amostral. Em um dado experimento aleatrio a especicao do espao amostral deve ser tal
que este (1) liste todos os possveis resultados do experimento sem duplicao e o faa em
um nvel de detalhamento suciente para os interesses desejados, omitindo resultados que
embora logicamente ou sicamente possveis no tenham nenhuma implicao prtica para
anlise do experimento.
Por exemplo, uma nica jogada de uma moeda pode ter o espao amostral tradicional
= {cara, coroa}, ou podemos considerar que a moeda pode sicamente car equilibrada
na borda = {cara, coroa, borda}. Uma outra possibilidade seria levar em considerao as
coordenadas (x, y) do centro da moeda quando ela para aps ser jogada no ar. Como vemos
muito mais se sabe sobre o resultado de uma jogada de uma moeda que os simples resultados
binrios tradicionais cara e coroa. Ns ignoramos est informao adicional usando uma
hiptese no mencionada que existe uma aposta com pagamentos que dependem apenas de
qual lado da moeda cai para cima e no em outras informaes.
1.9 Eventos e Coleo de Eventos

Um evento um subconjunto do espao amostral, ou seja, um conjunto de resultados
possveis do experimento aleatrio. Se ao realizarmos um experimento aleatrio, o resultado
pertence a um dado evento A, dizemos que A ocorreu. Estaremos interessados no estudo da
ocorrncia de combinaes de eventos. Para tanto, utilizaremos as operaes Booleanas de
conjuntos (complementar, unio, interseco, diferena) para expressar eventos combinados
de interesse.

8
Exemplo 1.9.1: Sejam A, B , e C eventos em um mesmo espao amostral . Expresse os
seguintes eventos em funo de A, B , e C e operaes Booleanas de conjuntos.
(a) Pelo menos um deles ocorre. Resp.: A B C .
(b) Exatamente um deles ocorre. Resp.: (A B c C c ) (Ac B C c ) (Ac B c C).
(c) Apenas A ocorre. Resp.: (A B c C c ).
(d) Pelo menos dois ocorrem. Resp.: (AB C c )(AB c C)(Ac B C)(AB C).
(e) No mximo dois deles ocorrem. Resp. (A B C)c .
(f) Nenhum deles ocorrem. Resp. (Ac B c C c ).
(g) Ambos A e B ocorrem, mas C no ocorre. Resp. (A B C c ).
Embora possa-se pensar que, dado um espao amostral, necessariamente de interesse

analisar todos os seus subconjuntos (e isto eventualmente verdadeiro), temos trs razes
para esperar que estejamos apenas interessados em alguns subconjuntos do espao amostral.
Primeiro, o espao amostral pode conter um grau de detalhamento superior ao que estamos
interessados no momento. Por exemplo, ele pode representar uma nica jogada de um dado
com 6 elementos, mas ns apenas estamos interessados em saber se o resultado par ou
mpar. Segundo, ns vamos querer associar cada evento A com uma probabilidade numrica
P (A). Como essas probabilidades esto baseadas em algum conhecimento sobre a tendncia
de ocorrer do evento ou no grau de nossa crena que determinado evento ocorrer, nosso
conhecimento sobre P pode no estender para todos os subconjuntos de . A terceira (e
tcnica) razo para limitar a coleo de eventos de interesse que condies impostas em
P pelos axiomas de Kolmogorov, que estudaremos adiante, podem no permitir que P seja
denida em todos os subconjuntos de , em particular isto pode ocorrer quando for no
enumervel, mas no iremos demonstrar este fato que est fora do escopo deste curso.
Estaremos interessados em uma coleo especial A de subconjuntos do espao amostral
(note que A um conjunto cujos elementos tambm so conjuntos!) que so eventos de
interesse no que se refere ao experimento aleatrio E e os quais temos conhecimento sobre
a sua probabilidade. A chamado de uma -lgebra de eventos. Como veremos adiante, o
domnio de uma medida de probabilidade uma -lgebra.
Denio 1.9.2:
Uma lgebra de eventos F uma coleo de subconjuntos do espao

amostral que satisfaz:
1. no vazia;
2. fechada com respeito a complementos (se A F , ento Ac F );
3. fechada com respeito a unies nitas (se A, B F , ento A B F ).

9
Uma -lgebra A uma lgebra de eventos que tambm fechada com relao a uma unio
enumervel de eventos,
(i Z)Ai A iZ Ai A.
Pelas Leis de De Morgan, vemos que A fechada com respeito a interseces enumerveis
tambm.
Exemplo 1.9.3:
1. A menor lgebra de eventos A = {, };
2. A maior lgebra de eventos o conjunto das partes de ;
3. Um exemplo intermedirio, temos:
= {1, 2, 3}, A = {, , {2}, {1, 3}}.

Se o espao amostral for nito, toda lgebra uma -lgebra, pois so existem um nmero
nito de eventos diferentes. Se o espao amostral for innito, existem lgebras que no so
-lgebras, como mostra o exemplo seguinte.
Exemplo 1.9.4: A coleo de conjuntos de nmeros reais nitos e co-nitos uma lgebra
que no uma -lgebra.
Exemplo 1.9.5: A -lgebra de Borel B de subconjuntos reais , por denio, a menor lgebra contendo todos os intervalos e a -lgebra usual quando lidamos com quantidades
reais ou vetoriais. Em particular, temos que unies enumerveis de intervalos (por exemplo,
o conjunto dos nmeros racionais), seus complementos (por exemplo, o conjunto dos nmeros
irracionais), e muito mais est em B .
1.10 Freqncias Relativas

Resta-nos discutir o terceiro elemento para modelagem do raciocnio probabilstico, a associao de uma medida numrica a eventos que representam a probabilidade com que eles
ocorrem. As propriedades desta associao so motivadas em grande parte pelas propriedades de freqncia relativas. Considere uma coleo de experimentos aleatrios Ei que
possuem a mesma -lgebra de eventos A e tem resultados individuais no necessariamente
numricos {i }. Fixando uma dada seqncia de resultados {i }, se estamos interessados
na ocorrncia de um dado evento A, a freqncia relativa de A nada mas que uma mdia
aritmtica da funo indicadora de A calculada em cada um dos termos da seqncia {i },
ou seja,
Denio 1.10.1:
A freqncia relativa de um evento A, determinada pelos resultados

{1 , . . . , n } de n experimentos aleatrios,
1
rn (A) =
n
IA (i ) =
i=1
Nn (A)
.
n

Propriedades chaves da freqncia relativa so:
10
FR0. rn : A IR.
FR1. rn (A) 0.
FR2. rn () = 1.
FR3. Se A e B so disjuntos, ento rn (A B) = rn (A) + rn (B).
Ns prosseguiremos como se existisse alguma base emprica ou metafsica que garanta que
rn (A) P (A), embora que o sentido de convergncia quando n cresce s ser explicado pela
Lei dos Grandes Nmeros, que no ser discutida em detalhes neste curso. Esta tendncia da
freqncia relativa de estabilizar em um certo valor conhecida como regularidade estatstica.
Deste modo, P herdar propriedades da freqncia relativa rn .
1.11 Interpretaes de Probabilidade

Parece no ser possvel reduzir probabilidade a outros conceitos; ela uma noo em si
mesma. O melhor que podemos fazer relacionar probabilidade a outros conceitos atravs
de uma interpretao. Os trs mais comuns grupos de interpretao so os seguintes:
1. Clssica: baseada em uma enumerao de casos igualmente provveis.

2. Subjetiva: se refere ao grau de crena pessoal na ocorrncia do evento A e medida
atravs da interpretao comportamental de disposio a apostar ou agir.
3. Freqentista: se refere ao limite da freqncia relativa de ocorrncia do evento A em

repetidas realizaes no relacionadas do experimento aleatrio E . Note que limites de
freqncia relativas so uma idealizao, pois no se pode realizar innitas realizaes
de um experimento.
1.12 Axiomas de Kolmogorov

Primeiro por razes tcnicas, fora do escopo deste curso, temos que o domnio da medida
formal de probabilidade uma lgebra de eventos que tambm fechada com relao a um
nmero enumervel de unies.
Os axiomas que descreveremos a seguir no descrevem um nico modelo probabilstico,
eles apenas determinam uma famlia de modelos probabilsticos, com os quais poderemos
utilizar mtodos matemticos para descobrir propriedades que sero verdadeiras em qualquer
modelo probabilstico. A escolha de um modelo especco satisfazendo os axiomas feito
pelo analista/estatstico familiar com o fenmeno aleatrio sendo modelado.
Motivados pelas propriedades de freqncia relativa, impe-se os primeiros quatro axiomas de Kolmogorov:

11
K0. Inicial. O experimento aleatrio descrito pelo espao de probabilidade (, A, P ) que
consiste do espao amostral , de uma -lgebra A, e de uma funo de valores reais
P : A IR.
K1. No-negatividade. A A, P (A) 0.
K2. Normalizao Unitria. P () = 1.
K3. Aditividade Finita. Se A, B so disjuntos, ento P (A B) = P (A) + P (B).
fcil provar (tente!) utilizando induo matemtica que K3 vlida para qualquer
coleo nita de eventos disjuntos par a par, ou seja, se Ai , i = 1, 2, . . . , n, so eventos
disjuntos par a par, ento P (ni=1 Ai ) = ni=1 P (Ai ).
Um ltimo axioma embora no seja uma propriedade de limites de freqncia relativa nem
tenha signicado em espaos amostrais nitos, foi proposto por Kolmogorov para garantir
um certo grau de continuidade da medida de probabilidade.
K4. -aditividade. Se {Ai } uma coleo enumervel de eventos disjuntos dois a dois,
ento
P (
i=1 Ai ) =
P (Ai ).
i=1
Note que para espaos amostrais nitos, somente existem um nmero nito de subconjuntos diferentes, logo para que tenhamos uma coleo enumervel de eventos disjuntos dois
a dois, um nmero enumervel destes deve ser vazio. Como veremos adiante a probabilidade
de um evento vazio nula, o que implica que para espaos amostrais nitos K3 e K4 so
equivalentes.
Denio 1.12.1: Uma funo que satisfaz K0K4 chamada de uma medida de probabilidade.
1.12.1 Exemplos de Medidas de Probabilidade

Exemplo 1.12.2: Se for um conjunto nito, ento temos que a probabilidade clssica
que assume que todos os resultados so igualmente provveis, um exemplo de uma medida
de probabilidade. Neste caso, temos que
P (A) =
||A||
||||
denido para qualquer subconjunto A de . O fato que 0 ||A|| |||| e que
||A B|| = ||A|| + ||B|| ||A B||,

permitem que veriquemos que P satisfaz os axiomas de Kolmogorov.
Exemplo 1.12.3: Seja = {1 , 2 , . . . , n } um conjunto nito, e seja P ({i }) = pi , onde

pi 0, i 1 e ni=1 pi = 1, e P (A) = i A P ({i }). Neste caso, tambm fcil vericar
que P uma medida de probabilidade vericando os axiomas.
1.12.2 Propriedades de uma Medida de Probabilidade
12
Teorema 1.12.4: Se P uma medida de probabilidade, ento

1. P (Ac ) = 1 P (A).
2. P () = 0.
3. P (A) 1.
Prova: Parte 1, segue do fato que = A Ac , K2, e K3, pois

1 = P () = P (A) + P (Ac ).
Parte 2, segue da Parte 1, do fato que c = , e K2, K3, pois
P () = 1 P () = 0.
Parte 3, segue do fato que 1 = P () = P (A) + P (Ac ) P (A), j que P (Ac ) 0 por K1.
Teorema 1.12.5: Monotonicidade. Se A B , ento P (A) P (B).

Prova: Note que B = A (B A), onde A e B A so disjuntos. Ento K3 implica que
P (B) = P (A) + P (B A). O resultado segue do fato que P (B A) 0.
Corolrio 1.12.6: P (A B) max(P (A), P (B)) min(P (A), P (B)) P (A B).

Teorema 1.12.7: Uma expresso exata para a probabilidade de uma unio no-disjunta
dada por
P (A B) = P (A) + P (B) P (A B).
Prova: Como A B = A (B A), e A e B A so disjuntos, K3 implica que P (A B) =

P (A) + P (B A). E como B = (A B) (B A), A B e B A so disjuntos, K3 implica
que P (B) = P (A B) + P (B A). Logo,
P (A B) = P (A) + P (B) P (A B).
Teorema 1.12.8: Probabilidade de Parties. Se {Ai } uma partio enumervel de

feita de conjuntos em A, ento para todo B A
P (B) =
P (B Ai ).
i

Prova: Como {Ai } uma partio, segue que
13
B = B = B (i Ai ) = i (B Ai ).
O resultado segue ento por K4 .
Teorema 1.12.9: Desigualdade de Boole. Para n eventos arbitrrios {A1 , . . . , An }, a

desigualdade de Boole
P (ni=1 Ai )
P (Ai ).
i=1
Prova: Omitida.
Corolrio 1.12.10: Para n eventos arbitrrios {A1 , . . . , An },
n
P (Ai )
P (Ai ) (n 1).
i=1
Prova: Utilizando a Lei de De Morgan e a desigualdade de Boole para os eventos {Ac1 , . . . , Acn },
temos
P (ni=1 Aci ) = 1 P (Ai )

i=1
Logo,
P (Aci ) =
(1 P (Ai )).
i=1
P (Ai )
P (Ai ) (n 1).
i=1
O prximo teorema permite que possamos calcular de maneira exata a probabilidade

P (ni=1 Ai ) para n eventos arbitrrios.
Teorema 1.12.11: Princpio da Incluso-Excluso. Seja I um conjunto genrico de
ndices que um subconjunto no-vazio qualquer de {1, 2, . . . , n}. Para eventos arbitrrios
{A1 , . . . , An },
P (ni=1 Ai ) =
(1)||I||+1 P (iI Ai ),
=I{1,...,n}
onde o somatrio sobre todos os 2n 1 conjuntos de ndices excluindo apenas o conjunto

vazio.
No caso particular de n = 3, o princpio de incluso-excluso arma que
P (A1 A2 A3 ) = P (A1 )+P (A2 )+P (A3 )P (A1 A2 )P (A1 A3 )P (A2 A3 )+P (A1 A2 A3 ).

14
Exemplo 1.12.12: Professor Lenidas est tentando calcular a probabilidade p = P (A)
do evento A, e determinou que ela uma raiz do seguinte polinmio de grau cinco:
(p 3)(p 3 1)(p + 3 1)(p + 0.3)(p 0.3) = 0.

Baseado nesta fato, qual o valor de p?
Exemplo 1.12.13: Se = {a, b, c}, e a lgebra A o conjunto das partes de , e a medida

de probabilidade P parcialmente denida por
P ({a, b}) = 0.5, P ({b, c}) = 0.8, P ({a, c}) = 0.7,
ento complete a especicao de P para todos os eventos em A.
Exemplo 1.12.14: Se {Ai } for uma partio enumervel de e P (Ai ) = abi , i 1, ento
quais as condies que a e b devem satisfazer para que P seja uma medida de probabilidade?
Captulo 2
Espaos Amostrais Finitos
2.1 Introduo
Vericamos no captulo anterior que se = {1 , 2 , . . . , n } um conjunto nito, ento para
determinar a probabilidade de qualquer evento A suciente especicar a probabilidade de
cada eventos simples {i }, ou seja P ({i }) = pi . fcil ver que os axiomas de Kolmogorov
implicam que pi 0, i 1 e ni=1 pi = 1, e P (A) = i A P ({i }).
Para determinarmos as probabilidades dos eventos simples, precisamos de algumas hipteses adicionais. Por exemplo, se = {w1 , w2 , w3 }, {w1 } for 3 vezes mais provvel, que
{w2 , w3 }, e {w2 } for igualmente provvel a {w3 }, temos que: p1 = 3(p2 + p3 ), p2 = p3 . Logo,
como p1 + p2 + p3 = 1, temos que p3 = p2 = 81 , e p1 = 34 .
Vimos tambm que de acordo com a interpretao clssica de probabilidade, onde o
espao amostral nito e os possveis resultados do experimento so equiprovveis, ento
a probabilidade de qualquer evento A A proporcional a sua cardinalidade, isto , P (A) =
||A||
. Portanto, importante que saibamos contar a quantidade de elementos que um evento.
||||
2.2 Mtodos de Contagem

Nesta seo estudaremos alguns mtodos de contagem, tambm conhecidos como mtodos
de anlise combinatria. Embora conjuntos pequenos possam ser contados exaustivamente
(fora-bruta), mesmo conjuntos com tamanho moderado podem ser difceis de contar sem a
utilizao de tcnicas matemticas.
2.2.1 Regra da Adio

Suponha que um procedimento, designado por 1, possa ser realizado de n1 maneiras. Admitase que um segundo procedimento, designado por 2, possa ser realizado de n2 maneiras. Alm
disso, suponha que no seja possvel que ambos os procedimentos 1 e 2 sejam realizados em
conjunto. Ento, o nmero de maneiras pelas quais poderemos realizar ou 1 ou 2 ser n1 +n2 .
Esta regra tambm pode ser estendida da seguinte maneira: Se existirem k procedimentos
e o i-simo procedimento puder ser realizado de ni maneiras, i = 1, 2, . . . , k , ento, o nmero
15
CAPTULO 2. ESPAOS AMOSTRAIS FINITOS

16
de maneiras pelas quais poderemos realizar ou o procedimento 1, ou o procedimento 2, . . .,
ou o procedimento k , dado por n1 + n2 + . . . + nk , supondo que dois quaisquer deles no
possam ser realizados conjuntamente.
Exemplo 2.2.1: Suponha que estejamos planejando uma viagem e devamos escolher entre
o transporte por nibus ou por trem. Se existirem trs rodovias e duas ferrovias, ento
existiro 3 + 2 = 5 caminhos disponveis para a viagem.
2.2.2 Regra da Multiplicao

Suponha que um procedimento designado por 1 possa ser executado de n1 maneiras. Admitase que um segundo procedimento, designado por 2, possa ser executado de n2 maneiras.
Suponha tambm que cada maneira de executar 1 possa ser seguida por qualquer maneira
para executar 2. Ento o procedimento formado por 1 seguido de 2 poder ser executado de
n1 n2 maneiras.
Obviamente, esta regra pode ser estendida a qualquer nmero nito de procedimentos. Se
existirem k procedimentos e o i-simo procedimento puder ser executado de ni maneiras, i =
1, 2, . . . , k , ento o procedimento formado por 1, seguido por 2,. . . , seguido pelo procedimento
k , poder ser executado de n1 n2 nk maneiras.
Exemplo 2.2.2: Quantos divisores inteiros e positivos possui o nmero 360? Quantos desses
divisores so pares? Quantos so mpares? Quantos so quadrados perfeitos?

Soluo: 360 = 23 32 5. Os divisores inteiros e positivos de 360 so os nmeros
da forma: 2a 3b 5c , onde a {0, 1, 2, 3}, b {0, 1, 2}, e c {0, 1}. Portanto, existem
4 3 2 = 24 maneiras de escolher os expoentes a, b, c. Logo h 24 divisores.
Para o divisor ser par, a no pode ser zero. Ento, existem 3 3 2 = 18 divisores pares.
Por outro lado, para o divisor ser mpar, a tem que ser zero. Logo, existem 1 3 2 = 6
divisores mpares. Por m para o divisor ser quadrado perfeito, os expoentes tem que ser
pares. Logo, existem 2 2 1 = 4 divisores quadrados perfeitos.
Exemplo 2.2.3: De quantos modos o nmero 720 pode ser decomposto em um produto
de dois inteiros positivos? Aqui consideramos, naturalmente, 8 90 como sendo o mesmo

produto que 90 8. E o nmero 144?
Soluo: 720 = 24 32 5. Os divisores inteiros e positivos de 720 so os nmeros da
forma: 2a 3b 5c , onde a {0, 1, 2, 3, 4}, b {0, 1, 2}, e c {0, 1}. Portanto, existem
5 3 2 = 30 maneiras de escolher os expoentes a, b, c. Logo h 30 divisores. Observe que
como 720 no um quadrado perfeito, para cada divisor x de 720 existe um outro divisor
y = x de 720 tal que x y = 720. Portanto, cada produto contm dois divisores diferentes
de 720. Como existem 30 divisores, existem 15 produtos diferentes.
144 = 24 32 . Seguindo o mesmo raciocnio anterior, temos 5 3 = 15 divisores de 144.
Note que 144 = 122 e este constitui um produto de inteiros positivos que igual a 144. Para
os demais produtos sempre temos que eles contm dois inteiros positivos diferentes que so
divisores de 144. Como existem 14 divisores de 144 diferentes de 12, temos que existem 7
produtos envolvendo estes divisores. Logo, temos um total de 8 produtos diferentes.

17
Exemplo 2.2.4: O conjunto A possui 4 elementos e, o conjunto B , 7 elementos. Quantas
funes f : A B existem? Quantas delas so injetoras?
Soluo: Note que para cada elemento de A temos 7 opes de valores diferentes. Como
A contm 4 elementos, existem 7 7 7 7 = 74 funes diferentes. Recorde que uma
funo injetora se f (a) = f (b) sempre que a = b. Portanto, no podemos repetir o mesmo
elemento de B como imagem de dois elementos de A, logo existem 7654 = 840 funes
injetoras.
Exemplo 2.2.5: Em uma banca h 5 exemplares iguais da Veja, 6 exemplares iguais da
poca e 4 exemplares iguais da Isto . Quantas colees no-vazias de revistas dessa

banca podemos formar?
Soluo: Note que cada coleo de revistas vai ser composta por a revistas Veja, b
revistas poca, e c revistas Isto , onde 0 a 5, 0 b 6, 0 c 4, e pelo menos 1 de
a, b, ou c diferente de zero. Ento, temos 6 7 5 1 = 210 1 = 209 diferentes colees
no-vazias destas revistas.
Amostragem com Reposio

Dado um conjunto com n elementos distintos, o nmero n,r de maneiras de selecionar
uma seqncia distinta de comprimento r escolhida desse conjunto com repetidas selees
do mesmo elemento sendo permitida (amostragem com repetio) dada por nr , j que
estamos repetindo o mesmo procedimento r vezes, e cada procedimento tem n maneiras de
ser executado.
Este resultado tambm se aplica ao nmero de resultados possveis em r jogadas de uma
moeda (n = 2), ou de um dado (n = 6), ou o nmero de bytes (r = 8, n = 2) (Um byte
uma seqncia ordenada de comprimento 8 de 0's e 1's).
Exemplo 2.2.6: Nmero de Seqncias Binrias ou Subconjuntos. O nmero de
seqncias binrias de comprimento r igual a 2r pois neste caso temos para cada posio
i da seqncia ni = 2. O nmero de subconjuntos de um dado conjunto ||A|| = r pode ser
determinado enumerando A = {a1 , a2 , a3 , . . . , ar } e descrevendo cada subconjunto B de A
por uma seqncia binria
(b1 , b2 , . . . , br )
, onde bi = 1 se ai B e bi = 0, caso contrrio. Como existem 2r destas seqncias, ento
existem 2r subconjuntos de um conjunto de r elementos. Portanto, se ||A|| = r, o conjunto
das partes de A, possui 2r elementos, o que explica a notao exponencial do conjunto das
partes.
Amostragem sem Reposio

Dado um conjunto com n elementos distintos, o nmero (n)r de maneiras de selecionar uma
seqncia distinta de comprimento r escolhida desse conjunto com repetidas selees do
mesmo elemento no sendo permitida (amostragem sem repetio) dada por
r1
(n i),
(n)r = n(n 1) (n r + 1) =
i=0

18
j que no primeiro procedimento (escolha do primeiro elemento da seqncia) temos n maneiras de execut-lo, no segundo procedimento (escolha do segundo elemento da seqncia)
temos n 1 maneiras de execut-lo, . . ., e no r-simo e ltimo procedimento (escolha do
r-simo elemento da seqncia) temos n r + 1 maneiras de execut-lo. Este nmero de
seqncias tambm chamado na literatura do nmero de arranjos quando temos n elementos distintos e queremos escolher r deles onde a ordem de escolha importante.
Um caso particular de amostragem sem reposio quando queremos saber o nmero de
permutaes de um conjunto de n elementos distintos. Neste caso temos que r = n, ento o
nmero de permutaes dado por
n! = (n)n = n(n 1) 1,
onde n! conhecida como funo fatorial. Em termos, de funo fatorial, ns podemos
escrever:
n!
(n)r =
.
(n r)!
Propriedades da funo fatorial n! incluem as seguintes:
0! = 1! = 1 e n! = n(n 1)!.
Exemplo 2.2.7: Se A um conjunto de n elementos, quantas so as funes f : A A

bijetoras?
Soluo: Temos que garantir que cada elemento de A tem uma imagem diferente. Como
A nito e tem n elementos, garante-se deste modo que f tambm sobrejetora e, portanto,
bijetora. Ento, o primeiro elemento de A tem n opes, o segundo n 1 opes, at que
o ltimo elemento de A tem somente uma opo disponvel. Portanto, existem n! funes
bijetoras f : A A.
Exemplo 2.2.8: De quantos modos possvel colocar r rapazes e m moas em la de modo
que as moas permaneam juntas?
Soluo: Primeiro temos r + 1 opes de escolher o lugar das moas. Em seguida, temos
r! maneiras de escolher a posio dos rapazes entre si, e m! maneiras de escolher a posio
das moas entre si. Portanto, temos (r + 1)r!m! modos diferentes de escolha.
Exemplo 2.2.9: Quantas so as permutaes simples dos nmeros 1, 2, . . . , 10 nas quais
o elemento que ocupa o lugar de ordem k , da esquerda para a direita, sempre maior que
k 3?
Soluo: Comecemos escolhendo os nmeros da direita para esquerda. Observe que
o nmero no lugar de ordem 10, tem que ser maior que 7, portanto existem 3 opes. O
nmero no lugar de ordem 9, tem que ser maior que 6, existem, portanto, 3 opes visto
que um dos nmeros maiores que 6 j foi utilizado na ltima posio. De maneira similar
pode-se ver que existem 3 opes para os nmeros que ocupam do terceiro ao oitavo lugar.
O nmero no lugar de ordem 2, tem somente 2 opes, pois oito nmeros j foram escolhidos
anteriormente. Finalmente, resta apenas um nmero para o lugar de ordem n. Portanto,
existem 2 38 permutaes deste tipo.
19
Enumerao de Conjuntos: Coecientes Binomiais
O nmero de conjuntos, ou colees no ordenadas, de tamanho r escolhidas de um conjunto

universo de tamanho n, onde, como apropriado para conjuntos, no permitido a duplicao
de elementos (amostragem sem repetio), dado pelo coeciente binomial:
n
r
(n)r
n!
=
.
r!
(n r)!r!
Para vericar isto, note que o nmero de colees ordenadas de tamanho r sem repetio
(n)r . Como os elementos de cada seqncia de comprimento r so distintos, o nmero de
permutaes de cada seqncia r!. Porm, utilizando a regra da multiplicao, o procedimento de escolhermos uma coleo ordenada de r termos sem repetio igual a primeiro
escolher uma coleo no-ordenada de r termos sem repetio e depois escolhermos uma
ordem para esta coleo no ordenada, ou seja, temos que
n
r!,
r
(n)r =
de onde segue o resultado.

O coeciente binomial tem as seguintes propriedades:
n
r
n
,
nr
n
0
n
1
= 1,
= n,
n
r
= 0 se n < r.
Note que o coeciente binomial tambm igual ao nmero de subconjuntos de tamanho

r que pode ser formado de um conjunto de n elementos. Como j vimos que, o nmero total
de subconjuntos de um conjunto de tamanho n 2n , temos que
n
n
2 =
r=0
n
.
r
Os nmeros nr so chamados de coecientes binomiais, porque eles aparecem como

coecientes na expresso binomial (a + b)n . Se n for um inteiro positivo, (a + b)n = (a +
b)(a + b) (a + b). Quando a multiplicao tiver sido executada, cada termo ser formado
de k elementos de a e de (n k) elementos de b, para k = 0, 1, 2, . . . , n. Mas quantos termos
da forma ak bnk existiro? Simplesmente contaremos o nmero de maneiras possveis de
escolher k dentre os n elementos a, deixando de lado a ordem (onde o i-simo elemento a
corresponde ao i-simo fator do produto acima). Mas isto justamente dado por nk . Da
obtm-se o que conhecido como o Teorema Binomial:
n
n
(a + b) =
k=0
n k nk
a b .
k
Exemplo 2.2.10: Dentre oito pessoas, quantas comisses de trs membros podem ser escolhidas, desde que duas comisses sejam a mesma comisso se forem constitudas pelas
mesmas pessoas (no se levando em conta a ordem em que sejam escolhidas)? A resposta
dada por 83 = 56 comisses possveis.

20
Exemplo 2.2.11: Com oito bandeiras diferentes, quantos sinais feitos com trs bandeiras
diferentes se podem obter? Este problema parece-se muito com o exemplo anterior, mas
neste caso a ordem acarreta diferena e por isso temos (8)3 = 336 sinais.
Exemplo 2.2.12: Um grupo de oito pessoas formado de cinco homens e trs mulheres.
Quantas comisses de trs pessoas podem ser constitudas, incluindo exatamente dois homens? Aqui deveremos fazer duas coisas, escolher dois homens (dentre cinco) e escolher duas
mulheres (dentre trs). Da obtemos como nmero procurado 52 31 = 30 comisses.
Exemplo 2.2.13: Quantos seqncias binrias de comprimento n contm no mximo trs
nmeros 1? Neste caso, temos quatro casos possveis: todas seqencias que no contm
1, todas seqncias que contm apenas um nmero 1, todas seqncias que contm dois
nmeros 1, e todas as seqncias que contm trs nmeros 1. Para 0 r n, temos que
existem exatamente nr seqncias binrias com r nmeros 1. Portanto, pela regra da adio
temos que existem
n
n
n
n
+
+
+
0
1
2
3
seqncias binrias de comprimento n contendo no mximo trs nmeros 1.
Exemplo 2.2.14: Quantas seqncias de cara e coroa de comprimento n contm pelo menos
1 cara? Neste caso, note que apenas uma seqncia no contm nenhuma cara (a seqncia
que contm apenas coroa). Como o nmero total de seqncias de cara e coroa de comprimento n igual a 2n , temos ento 2n 1 seqncias de comprimento n contendo pelo menos
uma cara.
Exemplo 2.2.15: Determine o coeciente de x3 no desenvolvimento de (x4 x1 )7 .

Soluo: O termo genrico do desenvolvimento
7
7 5k7
1
(x4 )k ( )7k = (1)7k
x
.
k
x
k
Portanto, temos o termo x3 se 5k 7 = 3, o que implica que k = 2. Logo, o coeciente de
x3 (1)5 72 = 21.
Contagem Multinomial
Considere que temos r tipos de elementos e ni cpias indistinguveis do elemento do tipo i.
Por exemplo, a palavra probabilidade tem duas cpias de cada uma das letras a,b,d,i e uma
cpia de cada uma das letras l,p,r,o,e. O nmero de seqncias ordenadas de comprimento
n = ri=1 ni dado por:
n
n1
n n1
n2
n n1 n2
1 =
n3
n!
r
i=1
ni !
Esta quantidade conhecida como coeciente multinomial e denotada por:
n
,
n1 n2 . . . nr

21
r
onde n = i=1 ni .
Para vericar esta contagem, note que das n posies na seqncia de comprimento n,
ns podemos escolher n1 posies para os n1 elementos indistinguveis do tipo 1 de nn1
maneiras. Das n n1 posies restantes na seqncia, podemos escolher n2 posies para
1
os n2 elementos indistinguveis do tipo 2 de nn
maneiras. Finalmente, aps repetir este
n2
processo r 1 vezes, restam-nos nr posies na seqncia para os nr elementos do tipo r,
que s podem ser escolhidas de uma nica maneira. Utilizando o mtodo da multiplicao, o
nmero total de seqncias possveis produto do nmero de maneiras que podemos colocar
os r tipos de elementos.
O coeciente multinomial tambm calcula o nmero de parties de um conjunto n
elementos em r subconjuntos com tamanhos dados n1 , n2 , . . . , nr . Aplicando-se o mesmo
argumento que utilizamos para demonstrar o Teorema Binomial, pode-se provar a seguinte
generalizao conhecida como Teorema Multinomial:
n
(x1 + x2 + . . . + xr ) =
j<r1 ij
i1 =0 i2 =0
onde ir = n
ni1
ir1 =0
n
i1 i2 . . . ir
xikk ,
k=1
j<r ij .
Exemplo 2.2.16: Um monitor tendo resoluo de n = 1.280 854 pixels, com r = 3 cores
possveis (verde, azul, e vermelho) para cada pixel, pode mostrar i1 in2 i3 imagens tendo i1
pixels verdes, i2 pixels azuis, e i3 pixels vermelhos. O nmero total de imagens que pode ser
exibida por este monitor para qualquer composio de cores de ver, azul, e vermelho pode
ser obtido utilizando o Teorema Multinomial fazendo x1 = x2 = . . . = xr = 1, dando o
resultado de rn possveis imagens.
Exemplo 2.2.17: Determine o coeciente de x9 y 4 no desenvolvimento de (x3 + 2y 2 + x52 )5 .

Soluo: O termo genrico do desenvolvimento
5
5
(x3 )i1 (2y 2 )i2 ( 2 )5i1 i2 =
i1 i2 5 i1 i2
x
5
(2)i2 (5)5i1 i2
x3i1 10+2i1 +2i2 y 2i2 .
i1 i2 5 i1 i2
(2.1)
Portanto, temos o termo x9 y 4 se 5i1 + 2i2 10 = 9 e 2i2 = 4, o que implica que i2 = 2 e

i1 = 3. Logo, o coeciente de x9 y 4 (2)2 (5)0 3 52 0 = 40.
Captulo 3
Probabilidade Condicional
3.1 Probabilidade Condicional
Como vimos no captulo anterior, existem vrias possveis interpretaes de probabilidade.
Por exemplo, pode-se interpretar probabilidade de um evento A como um limite das freqncias relativas de ocorrncia do evento A em realizaes independentes de um experimento.
Por outro lado, a interpretao subjetiva de probabilidade associa a probabilidade de um
evento A com o grau de crena pessoal que o evento A ocorrer. Em ambos os casos, probabilidade baseada em informao e conhecimento. Reviso desta base de informao ou
conhecimento pode levar a reviso do valor da probabilidade. Em particular, conhecimento
que determinado evento ocorreu pode inuenciar na probabilidade dos demais eventos.
Considerando-se a interpretao freqentista de probabilidade, suponha que estejamos
interessados em saber qual a probabilidade de um dado evento A, visto que sabe-se que um
dado evento B ocorreu. Suponha que realizasse um experimento n vezes das quais o evento
A (resp., B e A B ) ocorre NA (resp., NB > 0 e NAB ) vezes. Seja rA = NA /n a freqncia
relativa do evento A nestas n realizaes do experimento. A probabilidade condicional de
A dado que sabe-se que B ocorreu segundo esta interpretao freqentista, sugere que ela
deve ser igual ao limite das freqncias relativas condicionais do evento A dado o evento B ,
isto , ela deve ser o limite da razo NAB /NB quando n tende ao innito. fcil provar
que esta razo igual a rAB /rB , que por sua vez segundo a interpretao freqentista de
probabilidade aproximadamente igual a P (A B)/P (B) para valores grandes de n.
Considerando-se uma interpretao mais subjetiva suponha que a incerteza de um agente
descrita por uma probabilidade P em (, A) e que o agente observa ou ca sabendo que
o evento B ocorreu. Como o agente deve atualizar sua probabilidade P (|B) de modo a
incorporar esta nova informao? Claramente, se o agente acredita que B verdadeiro,
ento parece razovel requerer que
P (B c |B) = 0
(3.1)
Em relao aos eventos contidos em B , razovel assumir que sua chance relativa permanea inalterada se tudo que o agente descobriu foi que o evento B ocorreu, ou seja, se
22
CAPTULO 3. PROBABILIDADE CONDICIONAL

A1 , A2 B com P (A2 ) > 0, ento
23
P (A1 )
P (A1 |B)
=
P (A2 )
P (A2 |B)
(3.2)
Segue que (3.1) e (3.2) determinam completamente P (|B) se P (B) > 0.
Teorema 3.1.1: Se P (B > 0) e P (|B) uma medida de probabilidade em que satisfaz
(3.1) e (3.2), ento
P (A|B) =
P (A B)
.
P (B)
Prova: Como P (|B) uma medida de probabilidade e satisfaz P (B c |B) = 0, ns temos
que P (B|B) = 1 P (B c |B) = 1. Considerando A1 = A e A2 = B em (3.2), temos

(A)
ento P (A|B) = PP (B)
para A B . Se A no um subconjunto de B , temos que A =
c
(A B) (A B ). Como (A B) e (A B c ) so eventos disjuntos, temos P (A|B) =
P (A B|B) + P (A B c |B). Como A B c B c e P (B c |B) = 0, temos que P (A B c |B) = 0.
Como A B B , usando o caso anterior
P (A|B) = P (A B|B) =
P (A B)
.
P (B)
Deste modo as interpretaes freqentista e subjetivista de probabilidade justicam a

seguinte denio.
Denio 3.1.2: Seja (, A, P ) um espao de probabilidade. Se A, B A e P (B) > 0 a

probabilidade condicional de A dado B denida por
P (A|B) =
P (A B)
P (B)
Vamos provar que para um evento xo B que satisfaz P (B) > 0, P (|B) satisfaz os
axiomas K1-K4 acima e realmente uma medida de probabilidade. Para provar K1, note
que para todo A A, como P (A B) 0, ns temos
P (A B)
0.
P (B)
Para provar K2, note que B = B , ento
P ( B)
P (B)
P (|B) =
=
= 1.
P (B)
P (B)
P (A|B) =
Finalmente, para provar K4 (que implica K3), note que se A1 , A2 , . . . so mutuamente exclusivos A1 B, A2 B, . . . tambm o so, ento
P ((i Ai ) B)
P (i (Ai B))
=
P (B)
P (B)
i P (Ai B)
=
P (Ai |B).
P (B)
i
P (i Ai |B) =
=
A probabilidade condicional tambm satisfaz as seguintes propriedades:

1. P (B|B) = 1;
24
2. P (A|B) = P (A B|B);
3. se A B , ento P (A|B) = 1;
4. P (A B|C) = P (A|B C)P (B|C).
Fazendo C = na propriedade 4 acima, temos que:
P (A B) = P (A|B)P (B).
Utilizando induo matemtica, pode-se facilmente provar que
P (A1 A2 . . . An ) = P (A1 )P (A2 |A1 ) . . . P (An |A1 . . . An1 ).

Um mtodo de se obter uma probabilidade (incondicional) de uma probabilidade condicional utilizando o Teorema da Probabilidade Total. Antes de enunciar este teorema
precisamos recordar o que uma partio do espao amostral. Uma seqncia de eventos A1 , A2 , A3 , . . . uma partio do espao amostral se estes eventos so mutuamente
exclusivos e contm todos os elementos de (i Ai = ).
Teorema 3.1.3:
todo A A
Seja a seqncia de eventos B1 , B2 , . . . uma partio de , ento para
P (A|Bi )P (Bi )
P (A) =
i:P (Bi )=0
Prova:
Como B1 , B2 , . . . uma partio de , temos que
A = A = A (i Bi ) = i (A Bi ).
Como os eventos Bi 's so mutuamente exclusivos, os eventos (A Bi )'s tambm so
mutuamente exclusivos. Ento axioma K3 implica que
P (A) = P (i (A Bi )) =
P (A Bi )
i
P (A Bi ) =
i:P (Bi )=0
P (A|Bi )P (Bi ).
i:P (Bi )=0
Se ns interpretarmos a partio B1 , B2 , . . . como possveis causas e o evento A corresponda a um efeito particular associado a uma causa, P (A|Bi ) especica a relao estocstica
entre a causa Bi e o efeito A.
Por exemplo, seja {D, Dc } uma partio do espao amostral, onde o evento D signica
que um dado indivduo possui uma certa doena. Seja A o evento que determinado teste para

25
c
o diagnstico da doena deu positivo. Ento, P (A|D ) descreve a probabilidade do exame d
positivo mesmo que o paciente esteja saudvel, a chamada probabilidade de falso positivo.
P (Ac |D) a probabilidade do exame d negativo mesmo que o paciente esteja doente, a
chamada probabilidade de falso negativo. Estas probabilidades determinam a qualidade do
teste, quanto menores as probabilidades de falso negativo e falso positivo melhor a qualidade
do teste. Caso as probabilidades P (D), P (A|D), P (A|Dc ) sejam conhecidas pode-se usando o
Teorema da Probabilidade Total obter a probabilidade incondicional de determinado exame
dar positivo P (A). Porm geralmente, o que se busca saber que dado que o resultado de
um exame deu positivo qual a probabilidade de que o indivduo esteja doente. Pode-se obter
esta probabilidade utilizando a famosa frmula de Bayes:
P (D|A) =
P (A D)
P (A|D)P (D)
=
.
c
P (A D) + P (A D )
P (A|D)P (D) + P (A|Dc )P (Dc )
Mais geralmente, quando temos uma partio B1 , B2 , . . ., temos que a frmula de Bayes
dada por:
P (Bi |A) =
=
P (A Bi )
=
j P (A Bj )
P (A Bi )
j:P (Bj )=0 P (A Bj )
P (A|Bi )P (Bi )
.
j:P (Bj )=0 P (A|Bj )P (Bj )
fcil de provar esta frmula usando o Teorema da Probabilidade Total. As probabilidades P (Bi ) so usualmente chamadas de probabilidades a priori e as probabilidades
condicionais P (Bi |A) so chamadas de probabilidades a posteriori. O seguinte exemplo
ilustra uma aplicao da frmula de Bayes.
Exemplo 3.1.4: Considere uma imagem formada por n m pixels com a k -sima linha
contendo dk ( m) pixels defeituosos. No primeiro estgio do experimento uma linha

escolhida ao acaso e ns no sabemos qual foi a escolha. Ns ento examinamos um pixel
selecionada ao acaso nesta linha e descobrimos que o pixel defectivo (chamamos este evento
de D). Qual a probabilidade de que este pixel defeituoso esteja na linha k ? Seja R = k o
evento que este pixel pertencia a k -sima linha da imagem. A frmula de Bayes nos permite
determinar que dado que
P (R = k) =
1
n
ns temos que
P (R = k|D) =
P (D|R = k) =
1 dk
nm
n
1 di
i=1 n m
dk
n
i=1
dk
,
m
di
Ento, mesmo que a linha tenha inicialmente sido escolhida ao acaso, dado o evento que
encontramos ao acaso um pixel defectivo nesta linha, agora mais provvel que seja uma
linha contendo um nmero grande de pixels defectivos dk .

26
Exemplo 3.1.5: Uma urna contm 4 bolas brancas e 6 bolas pretas. Sacam-se, sucessivamente e sem reposio, duas bolas dessa urna. Determine a probabilidade da primeira bola
ser branca sabendo que a segunda bola branca.
Soluo: Sejam B1 e B2 os eventos a primeira bola branca e a segunda bola branca,
respectivamente. Queremos calcular P (B1 |B2 ). Utilizando a frmula de Bayes, temos
P (B1 |B2 ) =
P (B2 |B1 )P (B1 )

.
P (B2 |B1 )P (B1 ) + P (B2 |B1c )P (B1c )
Mas P (B2 |B1 ) = 93 , P (B2 |B1c ) = 94 , P (B1 ) =
P (B1 |B2 ) =
3
9
3
9
4
10
4
10
e P (B1c ) =
4
10
+ 49
6
10
2
15
2
5
6
.
10
Logo,
1
= .
3
Embora probabilidade condicional seja bastante til, ela sofre de alguns problemas, em
particular quando se quer tratar de eventos de probabilidade zero. Tradicionalmente, se
P (B) = 0, ento P (A|B) no denida. Isto leva a um nmero de diculdades loscas em relao a eventos com probabilidade zero. So eles realmente impossveis? Caso
contrrio, quo improvvel um evento precisa ser antes de ele ser atribudo probabilidade
zero? Deve um evento em algum caso ser atribudo probabilidade zero? Se existem eventos
com probabilidade zero que no so realmente impossveis, ento o que signica condicionar em eventos de probabilidade zero? Por exemplo, considere o espao de probabilidade
([0, 1], B, ) onde B a -lgebra de Borel restrita a eventos contidos em [0, 1] e uma
medida de probabilidade na qual todo intervalo em [0, 1] possui probabilidade igual ao seu
comprimento. Seja B = {1/4, 3/4} e A = {1/4}. Como P (B) = 0, P (A|B) no denida.
Porm parece razovel assumir que neste caso P (A|B) = 1/2 j que intuitivamente implica
que todos os estados so equiprovveis, mas a denio formal de probabilidade condicional
no nos permite obter esta concluso.
Alguns dos problemas mencionados no pargrafo anterior podem ser tratados considerandose probabilidades condicionais (e no probabilidade incondicionais) como a noo fundamental, porm a discusso destes modelos est fora do escopo deste curso.
Exemplo 3.1.6: Se P (C|D) = 0, 4 e P (D|C) = 0, 5, que evento mais provvel C ou D?

Soluo:
Exemplo 3.1.7: Se P (E) = 0, 4 e P (F ) = 0, 7, o que pode-se concluir sobre P (E|F )?
Soluo: Por denio, temos que:
P (E|F ) =
P (E F )
.
P (F )
Porm, sabemos que max(P (E) + P (F ) 1, 0) P (E F ) min(P (E), P (F )). Logo,

0, 1 P (E F ) 0, 4, portanto
0, 4
0, 1
P (E|F )
.
0, 7
0, 7

27
Exemplo 3.1.8: (Paradoxo de Monty Hall) Monty Hall foi um popular apresentador de
programa de jogos em TV cujo jogo comeava mostrando ao participante 3 portas fechadas
d1 , d2 , d3 , e atrs de apenas uma delas havia um prmio valioso. O participante selecionava
uma porta, por exemplo, d1 , mas antes que a porta fosse aberta, Monty Hall, que sabia em
que porta estava o prmio, por exemplo, d2 , abria a porta restante d3 , que no continha
o prmio. O participante tinha ento permisso para car com sua porta original, d1 , ou
escolher a outra porta fechada. A pergunta se melhor car com a porta original ou trocar
de porta. Vamos agora utilizar a frmula de Bayes para analisar este problema. Seja G uma
porta escolhida aleatoriamente para conter o prmio; Y a porta que o participante escolhe
primeiro; e M a porta que Monty Hall abre. O participante no tem nenhum conhecimento
a priori sobre a localizao do prmio, ou seja ele considera todas as portas equiprovveis, e
isto pode ser modelado por:
1
P (G = di |Y = dj ) = ;
3
todas as portas tem a mesma probabilidade de conter o prmio no importa qual porta o
participante escolhe. Se o participante escolher uma porta que no contm o prmio, Monty
Hall necessariamente ter de abrir a porta que no contm o prmio, isto pode ser modelado
por:
P (M = di1 |Y = di2 , G = di3 ) = 1,
onde i1 , i2 , i3 {1, 2, 3} e so distintos. Se o participante escolher corretamente, por exemplo,
Y = G = di2 , ento assumimos que Monty Hall escolhe aleatoriamente entre as outras duas
outras portas:
1
P (M = di1 |Y = G = di2 ) = , para di1 = di2 .1
2
Para determinar se o participante deve trocar de porta, devemos calcular
P (G = d1 , Y = d2 , M = d3 )
P (Y = d2 , M = d3 )
P (M = d3 |G = d1 , Y = d2 )P (G = d1 |Y = d2 )P (Y = d2 )
=
P (M = d3 |Y = d2 )P (Y = d2 )
P (M = d3 |G = d1 , Y = d2 )P (G = d1 |Y = d2 )
=
P (M = d3 |Y = d2 )
1/3
=
P (M = d3 |Y = d2 )
P (G = d1 |Y = d2 , M = d3 ) =
Para determinar o valor de P (M = d3 |Y = d2 ) utilizamos o Teorema da Probabilidade Total

1A
soluo depende como resolvemos este caso.

e a denio de probabilidade condicional:
28
P (Y = d2 , M = d3 )
P (Y = d2 )
P (Y = d2 , M = d3 , G = d1 ) + P (Y = d2 , M = d3 , G = d2 ) + P (Y = d2 , M = d3 , G = d3 )
=
P (Y = d2 )
P (M = d3 |Y = d2 , G = d1 )P (G = d1 |Y = d2 )P (Y = d2 )
=
P (Y = d2 )
+
P (Y = d2 )
+
P (Y = d2 )
= P (M = d3 |Y = d2 , G = d1 )P (G = d1 |Y = d2 )
+P (M = d3 |Y = d2 , G = d2 )P (G = d2 |Y = d2 )
+P (M = d3 |Y = d2 , G = d3 )P (G = d3 |Y = d2 )
1 1 1
1
=1 + +0= .
3 2 3
2
P (M = d3 |Y = d2 ) =
Logo, P (G = d1 |Y = d2 , M = d3 ) = 23 , e o participante deve trocar de porta de sua escolha

original d2 para d1 !
Exemplo 3.1.9: Seja D o evento que um indivduo selecionado ao acaso de uma popu-
lao tem uma doena particular, Dc seu complemento. A probabilidade que um indivduo
selecionado ao acaso nesta populao tenha determinada dena pd . Existe um teste para
diagnstico desta doena que sempre acusa presena da doena quando o indivduo tem a
doena. Contudo, quando o indivduo no tem a doena, o teste reporta falsamente que
o indivduo tem a doena com probabilidade pt . Seja T P o evento que o teste reporta
positivamente que o indivduo tem a doena. Formalmente, temos:
P (D) = pd , P (T P |D) = 1, P (T P |Dc ) = pt .

Um indivduo deve estar interessado em saber a probabilidade P (D|T P ) que ele tenha a
doena dado que o teste deu positivo. Se, por exemplo, a doena for rara e pd = 0, 001, e o
teste reportar falsamente com probabilidade pequena pt = 0, 05, veremos que apesar desta
pequena probabilidade do teste da um resultado errado, a probabilidade do indivduo ter a
doena pequena. Pela frmula de Bayes
P (D|T P ) =
pd
P (T P |D)P (D)
=
= 0, 02.
P (T P |D)P (D) + P (T P |Dc )P (Dc )
pd + pt (1 pd )
Exemplo 3.1.10: Sabemos que os eventos {B1 , B2 , B3 } so disjuntos par a par e que sua
unio igual ao espao amostral. Estes eventos tem as seguintes probabilidades P (B1 ) = 0, 2
e P (B2 ) = 0, 3. Existe um outro evento A que sabemos que P (A|B1 ) = 0, 3; P (A|B2 ) = 0, 4;
e P (A|B3 ) = 0, 1. Calcule:

(a) P (A)
29
(b) P (B2 |A)
Exemplo 3.1.11: Suponha que todos os bytes tenham a mesma probabilidade. Seja W o
nmero de 1's em um byte. Considere os seguintes eventos:
A = {O primeiro e o segundo bit so iguais a 1, e}
B = {W um nmero mpar.}
Calcule:
(a) P (A)
(b) P (B)
(c) P (B|A)
(d) P (A|B)
Soluo:
P (A) =
P (B) =
||B||
=
||||
||A||
26
1
= 8 = .
||||
2
4
8
1
P (B|A) =
onde P (A B) =
||AB||
(61)+(63)+(65)
28
8
3
+
28
8
5
8
7
1
= .
2
P (A B
,
P (A)
= 18 . Portanto,
P (B|A) =
P (A|B) =
1
8
1
4
1
= .
2
P (A B)
=
B
1
8
1
2
1
= .
4
Exemplo 3.1.12:
Se jogarmos dois dados um aps o outro e observamos o evento que

a soma dos dois dados igual a 9, ento qual a probabilidade do primeiro dado ter dado
resultado 4?
Soluo:
P (A B)
=
P (A|B) =
P (B)
1
36
4
36
1
= .
4
Exemplo 3.1.13:
Em um teste de mltipla escolha, a probabilidade do aluno saber a

resposta da questo p. Havendo m escolhas, se ele sabe a resposta ele responde corretamente
1
.
com probabilidade 1; se no sabe ele responde corretamente com probabilidade m

(a) Qual a probabilidade que a pergunta foi respondida corretamente?
30
(b) Qual a probabilidade que o aluno sabia a resposta dado que a pergunta foi respondida
corretamente?
Soluo: Para a parte (a), usamos o Teorema da Probabilidade Total:

P (A) = P (A|B)P (B) + P (A|B c )P (B c ) = 1 p +
1
(1 p).
m
Para a parte (b), usamos a frmula de Bayes
P (B|A) =
P (A|B)P (B)
1p
=
c
c
P (A|B)P (B) + P (A|B )P (B )
1 p + m1 (1 p)
3.2 Independncia
O que exatamente signica que dois eventos so independentes? Intuitivamente, isto signica que eles no tm nada haver um com o outro, eles so totalmente no relacionados; a
ocorrncia de um no tem nenhuma inuncia sobre o outro. Por exemplo, suponha que duas
diferentes moedas so lanadas. A maioria das pessoas viria os resultados desses lanamentos
como independentes. Portanto, a intuio por trs da frase o evento A independente do
evento B que nosso conhecimento sobre a tendncia para A ocorrer dado que sabemos que
B ocorreu no alterada quando camos sabendo que B ocorreu. Ento, usando probabilidades condicionais podemos formalizar esta intuio da seguinte forma, A independente
de B se P (A|B) = P (A). Mas usando a denio de probabilidade condicional, chega-se a
seguinte concluso A independente de B se P (A B) = P (A)P (B). Como esta ltima
expresso denida inclusive para o caso de P (B) = 0, ela a expresso adotada como a
denio de independncia entre eventos.
Denio 3.2.1: O evento A independente do evento B se P (A B) = P (A)P (B).

Note que esta denio de independncia implica que independncia um conceito simtrico em teoria da probabilidade, isto , A independente de B se e somente se B
independente de A. Note que esta denio tambm implica que eventos A e B so independentes se P (A) = 0 ou P (B) = 0, o que pode gerar algumas concluses no intuitivas se
de fato P (A) = 0 ou P (B) = 0. Por exemplo, se P (A) = 0, ento A independente dele
mesmo, porm A certamente no no relacionado consigo mesmo. Similarmente, fcil
provar que se P (A) = 1, A independente dele mesmo. O seguinte teorema prova que estes
so os nicos casos em que um evento independente dele mesmo.
Teorema 3.2.2: A independente dele mesmo se e somente se P (A) = 0 ou P (A) = 1.

Prova:
P (A A) = P (A) = P (A)P (A) P (A) = 0 ou P (A) = 1.

31
Intuitivamente, se A independente de B o fato que B no ocorreu, ou seja que B c
ocorreu, no deve alterar a probabilidade de A. Portanto, de se esperar que se A e B so
independentes, ento A e B c tambm so. O seguinte teorema prova que esta intuio
verdadeira.
Teorema 3.2.3: Se A e B so eventos independentes, A e B c (resp., Ac e B , Ac e B c )

tambm o so.
Prova: Note que

A = A = A (B B c ) = (A B) (A B c ).
Ento, como A B e A B c so mutuamente exclusivos, axioma K3 implica que
P (A) = P (A B) + P (A B c ).
Como A e B so independentes, ns temos
P (A) = P (A)P (B) + P (A B c ).

Rearrajando os termos e utilizando o fato que P (B c ) = 1 P (B), temos P (A B c ) =
P (A)P (B c ), como queramos demonstrar.
O conceito de independncia tambm se aplica a uma coleo arbitrria de eventos
{Ai }iI , onde I um conjunto de ndices. Neste caso, tm-se duas denies.
Denio 3.2.4: Uma coleo de eventos {Ai }iI independente par a par se para todo
i = j I , Ai e Aj so eventos independentes.
Denio 3.2.5: Uma seqncia nita de eventos A1 , A2 , . . . , An , n 1, mutuamente

independente se para todo I {1, . . . , n},
P (iI Ai ) =
P (Ai )
iI
E uma coleo de eventos {Ai }iI mutuamente independente se para todo J I nito,
{Ai }iJ mutuamente independente.
Considere os seguintes exemplos que ilustram o conceito de independncia.
Exemplo 3.2.6:
Se = {1, 2, 3, 4} e P ({w}) = 1/4, ento A = {1, 2}, B = {1, 3}, e

C = {2, 3} so eventos independentes par a par. Pode-se vericar isto pelo fato que
P (A B) = P ({1}) =
1
11
=
= P (A)P (B).
4
22
Similarmente, pode-se provar o mesmo resultado para os outros pares. Contudo, a probabilidade
1
P (A B C) = P () = 0 = P (A)P (B)P (C) = .
8
Ento, A, B , e C no so mutuamente independentes.

32
Exemplo 3.2.7: Se = {1, 2, 3, 4, 5, 6}, A = {1, 2, 4}, e B = {2, 3, 5}, ento construa uma
medida de probabilidade em tal que A e B sejam independentes.
Soluo: Seja pi a probabilidade do elemento i . Ento, para que A e B sejam
indeendentes devemos ter:
P (A B) = p2 = P (A)P (B) = (p1 + p2 + p4 )(p2 + p3 + p5 ).

Por exemplo, podemos escolher p1 = p2 = p3 = p6 =
P (A B) = 14 e P (A) = P (B) = 21 .
1
4
e p4 = p5 = 0. Deste modo temos,
Exemplo 3.2.8: O evento F de um determinado sistema falhar ocorre se os eventos A1
ou A2 ocorrerem, mas o evento A3 no ocorrer. Se A1 , A2 , A3 so mutumente independetes

e P (A1 ) = 0, 4, P (A2 ) = 0, 35, e P (A3 ) = 0, 1, ento calcule P (F ).
Soluo: O evento F igual ao evento (A1 A2 ) Ac3 . Logo sua probabilidade igual
a:
P (F ) = P ((A1 A2 ) Ac3 ) = P (A1 A2 )P (Ac3 )

= (P (A1 ) + P (A2 ) P (A1 )P (A2 ))(1 P (A3 )) = (0, 4 + 0, 35 0, 4 0, 35)(0, 9) = 0, 549.
Exemplo 3.2.9:
Assuma que A1 , . . . , An so eventos mutuamente independentes e que

P (Ai ) = pi . Ns calculamos as probabilidades dos seguintes eventos:
O evento A o evento que todos estes eventos ocorrem, ento

n
P (A) = P (ni=1 Ai ) =
P (Ai ) =
i=1
pi
i=1
O evento B o evento que nenhum desses eventos ocorre, ento

n
P (B) =
P (ni=1 Aci )
P (Aci )
i=1
(1 pi )
i=1
O evento C o evento que pelo menos um desses eventos ocorre, ento C = B c

n
c
(1 pi )
P (C) = P (B ) = 1 P (B) = 1
i=1
Exemplo 3.2.10:
Joo e Jos disputam um jogo com uma moeda equilibrada. Cada

jogador lana a moeda duas vezes e vence o jogo aquele que primeiro obtiver dois resultados
iguais. Joo comea jogando e se no vencer passa a moeda para Jos e continuam alternando
jogadas. Qual a probabilidade de Joo vencer o Jogo?
Soluo: Seja Ak o evento dois resultados iguais so obtidos na k-sima tentativa. Note
que P (Ak ) = 21 . Seja Bk o evento Joo ganha na sua k -sima jogada. Ento,
B1 = A1 ; B2 = Ac1 Ac2 A3 ; B3 = Ac1 Ac2 Ac3 Ac4 A5 ,


em geral,
Bk = Ac1 Ac2 Ac2k2 A2k1 .
33
Portanto,
1
P (Bk ) = P (Ac1 Ac2 Ac2k2 A2k1 ) = P (Ac1 )P (Ac2 ) P (Ac2k2 )P (A2k1 ) = ( )2k1 ,
2
onde a penltima igualdade se deve ao fato dos lanamentos serem independentes. Logo,
P (Joo vencer) =
P (
k=1 Bk )
P (Bk ) =
k=1
2
1
( )2k1 = .
2
3
k=1
Captulo 4
Variveis Aleatrias
4.1 Introduo
Suponha que uma moeda lanada cinco vezes. Qual o nmero de caras? Esta quantidade
o que tradicionalmente tem sido chamada de varivel aleatria. Intuitivamente, uma
varivel porque seus valores variam, dependendo da seqncia de lanamentos da moeda
realizada; o adjetivo aleatria usado para enfatizar que o seu valor de certo modo
incerto. Formalmente, contudo, uma varivel aleatria no nem aleatria nem uma
varivel.
Denio 4.1.1: Seja (, A, P ) um espao de probabilidade. Uma funo X : R

chamada de varivel aleatria se para todo evento Boreliano B , X 1 (B) A.
Por denio, temos que X 1 (B) = { : X() B} o conjunto de elementos

do espao amostral cuja imagem segundo X est em B . Ns recordamos que um evento
Boreliano qualquer evento pertencente -lgebra de Borel, onde a -lgebra de Borel a
menor -lgebra contendo todos os intervalos.
Dada uma varivel aleatria X , pode-se denir uma probabilidade induzida PX no espao
mensurvel (R, B) da seguinte maneira: para todo A B , denimos PX (A) = P (X 1 (A)).
Por denio de varivel aleatria, tem-se que X 1 (A) A, ento PX est bem denida.
Resta provar que PX satisfaz os axiomas K1, K2, e K4 de probabilidade:
K1. PX (A) = P (X 1 (A)) 0.
K2. PX (R) = P (X 1 (R)) = P () = 1.
K4. Suponha que A1 , A2 , . . . so eventos Borelianos disjuntos. Ento,
PX (i Ai ) = P (X 1 (i Ai )) = P (i X 1 (Ai )) =
P (X 1 (Ai )) =
i
PX (Ai ).
i
Vale a pena salientar que em muitos problemas, j teremos a informao sobre a distribuio induzida PX denida em (R, B). Nestes casos, estaremos esquecendo a natureza
34
CAPTULO 4. VARIVEIS ALEATRIAS

35
funcional de X e nos preocupando apenas com os valores assumidos por X . Estes casos podem ser pensados como se o experimento aleatrio fosse descrito por (R, B, PX ) e
X(w) = w, w R, ou seja, os resultados dos experimento aleatrio j so numricos e
descrevem a caracterstica de interesse que queremos analisar.
importante enfatizar que usual se referir a variveis aleatrias por letras maisculas
X, Y, Z, . . . e aos valores que tais variveis podem assumir por letras minsculas x, y, z, . . ..
4.2 Funo de Distribuio Acumulada

Para uma varivel aleatria X , uma maneira simples e bsica de descrever a probabilidade
induzida PX utilizando sua funo de distribuio acumulada.
Denio 4.2.1: A funo de distribuio acumulada de uma varivel aleatria X , representada por FX , denida por
FX (x) = PX ((, x]), x R.

A funo de distribuio acumulada FX satisfaz as seguintes propriedades:
F1. Se x y , ento FX (x) FX (y).
x y (, x] (, y] PX ((, x]) PX ((, y]) FX (x) FX (y).

F2. Se xn x, ento FX (xn ) FX (x).
Se xn x, ento os eventos (, xn ] so decrescentes e n (, xn ] = (, x].
Logo, pela continuidade da medida de probabilidade, tem-se que PX ((, xn ])
P ((, x]), ou seja, FX (xn ) FX (x).
F3. Se xn , ento FX (xn ) 0, e se xn , ento FX (xn ) 1.
Se xn , ento os eventos (, xn ] so decrescentes e n (, xn ] = . Logo,
pela continuidade da medida de probabilidade, tem-se que PX ((, xn ]) P (), ou
seja, FX (xn ) 0. Similarmente, se xn , ento os eventos (, xn ] so crescentes
e n (, xn ] = IR. Logo, pela continuidade da medida de probabilidade, tem-se que
PX ((, xn ]) P (), ou seja, FX (xn ) 1.
Teorema 4.2.2: Uma funo real G satisfaz F1F3 se e somente se G uma distribuio
de probabilidade acumulada.
Prova: A prova de que se G for uma distribuio de probabilidade acumulada, ento G

satisfaz F1-F3 foi dada acima. A prova de que toda funo real que satisfaz F1-F3 uma
funo de probabilidade acumulada complexa envolvendo o Teorema da Extenso de Carathodory, e est fora do escopo deste curso.

36
Condio F2 signica que toda funo distribuio de probabilidade acumulada FX
continua direita. Ainda mais, como FX no-decrescente e possui valores entre 0 e 1,
pode-se provar que ela tem um nmero enumervel de descontinuidades do tipo salto. Pela
continuidade direita , o salto no ponto x igual a
FX (x) FX (x ) = FX (x) lim F (x

n
= PX ((, x]) lim PX ((, x

n
1
= lim PX ((x , x]).
n
n
1
])
n
1
)
n
Como a seqncia de eventos (x n1 , x] decrescente e n (x n1 , x] = {x}. Temos que

{x} Boreliano e
PX (x) = FX (x) FX (x ).
Ou seja, a probabilidade da varivel aleatria X assumir o valor x igual ao salto da
funo de distribuio acumulada FX no ponto x.
Exemplo 4.2.3: Determine quais das seguintes funes so funes de distribuio acumuladas, especicando a propriedade que no for satisfeita caso a funo no seja uma
distribuio acumulada.
(a)
ex
1+ex
(b) I[0,inf ty) (x) + [1 I[0,inf ty) (x)](1 + ex )/2

(c) e|x|
(d) I[0,inf ty) (x)
(e) I(0,inf ty) (x)
Exemplo 4.2.4: Seja K o nmero de ons emitidos por uma fonte em um tempo T . Se
FK (1) FK (1/2) = 0, 1, qual o valor de P (K = 1)?
Exemplo 4.2.5:
Uma seqncia de 10 bytes independentes foi recebida. sbido que

a probabilidade igual a 0,3 que o primeiro smbolo de um byte seja igual a 0. Seja K o
nmero de bytes recebidos tendo 0 como primeiro smbolo.
(a) Calcule P (K = 2)
(b) Calcule FK (1)
37
4.3 Tipos de Varivel Aleatria

Denio 4.3.1: Existem trs tipos de variveis aleatrias:
Discreta. Uma varivel aleatria X discreta se assume um nmero enumervel de

valores, ou seja, se existe um conjunto enumervel {x1 , x2 , . . .} R tal que X(w)
{x1 , x2 , . . .}, w . A funo p(xi ) denida por p(xi ) = PX ({xi }), i = 1, 2, . . . e
p(x) = 0 para x
/ {x1 , x2 , . . .}, chamada de funo probabilidade de X .
Contnua. Uma varivel aleatria X contnua se existe uma funo fX (x) 0 tal
que
x
FX (x) =
fX (t)dt, x R.
Neste caso, a funo fX chamada de funo densidade de probabilidade de X .
Singular. Uma varivel aleatria X singular se FX uma funo contnua cujos

pontos de crescimento formam um conjunto de comprimento (medida de Lebesgue)
nulo.
Pode-se provar que toda funo de distribuio de probabilidade acumulada FX pode ser
decomposta na soma de no mximo trs funes de distribuio de probabilidade acumuladas,
sendo uma discreta, uma contnua e outra singular.
Na grande maioria dos problemas prticos, no se encontram variveis aleatrias singulares. Portanto, iremos nos restringir ao estudo de variveis aleatrias discretas e contnuas.
Na prxima seo analisaremos as variveis aleatrias discretas.
4.4 Varivel Aleatria Discreta

Vamos considerar agora o caso das variveis aleatrias discretas. Ns vimos na seo anterior
que se uma varivel aleatria discreta, ento ns podemos denir uma funo de probabilidade p de modo que p(xi ) = PX ({xi }), i = 1, 2, . . ., onde X {x1 , x2 , . . .} e p(x) = 0
para x
/ {x1 , x2 , . . .}. Note que toda funo de probabilidade uma funo dos reais R e
assume valores entre 0 e 1, sendo positiva para um nmero enumervel de pontos e satisfaz
a seguinte propriedade i p(xi ) = 1.
Por outro lado, dada uma funo p : R [0, 1], onde p positiva para um nmero
enumervel de pontos {x1 , x2 , . . .} e satisfaz i p(xi ) = 1, uma funo P denida nos eventos
Borelianos de modo que P (A) =
xi A p(xi ), A B uma medida de probabilidade
em (R, B) ( fcil vericar que P satisfaz os axiomas de Kolmogorov e portanto uma
medida de probabilidade). Logo, a distribuio de uma varivel aleatria discreta X pode
ser determinada tanto pela funo de distribuio acumulada FX ou pela sua funo de
probabilidade p.
Exemplo 4.4.1: Assuma que X uma varivel aleatria discreta que assume os valores 2,
5, e 7 com probabilidades 1/2, 1/3, e 1/6, ento sua funo de distribuio acumulada :
1/2
FX (x) =
5/6
38
se
se
se
se
x < 2,
2 x < 5,
5 x < 7,
x 7.
A funo de distribuio de uma varivel discreta sempre uma funo degrau que tem
saltos nos pontos que a varivel assume com probabilidade positiva, e o valor do salto em
um ponto xi , como vimos igual a probabilidade da varivel assumir este valor.
4.5 Varivel Aleatria Contnua

Vamos considerar agora o caso das variveis aleatrias contnuas. Ns vimos na seo anterior
que se uma varivel aleatria (absolutamente) contnua, ento existe uma funo fX (x) 0
x
tal que FX (x) = fX (t)dt. Deste modo, FX contnua e fX (x) = FX (x), exceto num
conjunto de medida de Lebesgue nula. Uma funo f (x) 0 densidade de alguma varivel
aleatria se e somente se, f (x)dx = 1, j que neste caso fcil provar que a funo
x
F denida por f (t)dt satisfaz as condies F1, F2, e F3. Portanto, pelo Teorema ??
F uma funo de distribuio acumulada. Logo, a distribuio de uma varivel aleatria
contnua X pode ser determinada tanto pela funo de distribuio acumulada FX ou pela
sua funo de densidade fX .
Formalmente, uma varivel aleatria X tem densidade se FX a integral de sua derivada;
sendo neste caso a derivada de FX uma funo densidade para X . Alm disso, em quase
todos os casos encontrados na prtica, uma varivel aleatria X tem densidade se FX (i)
contnua e (ii) derivvel por partes, ou seja, se FX derivvel no interior de um nmero
nito ou enumervel de intervalos fechados cuja unio a reta R.
Por exemplo, considere
0 se x < 0,
x se 0 x < 1,
FX (x) =
1 se x 1.
Ento X tem densidade pois FX contnua e derivvel em todos os pontos da reta exceto
em {0, 1}.
4.6 Alguns Exemplos de Distribuies de Probabilidade

Vamos agora explorar alguns exemplos importantes de variveis aleatrias.
4.6.1 Aleatria ou Uniforme Discreta.

Dizemos que X tem uma distribuio aleatria com parmetro n, onde n um nmero inteiro
positivo, se X(w) {x1 , x2 , . . . , xn } e p(xi ) = n1 , para i {1, . . . , n}.

39
A funo de probabilidade aleatria pode ser utilizada sempre que os possveis valores da
varivel aleatria forem eqiprovveis, como o caso de modelar mecanismos de jogos (por
exemplo, dados e moedas balanceados, cartas bem embaralhadas). Utilizando a propriedade
de aditividade da probabilidade, fcil ver que para qualquer evento A {x1 , x2 , . . . , xn },
temos que P (X A) = ||A||
.
n
4.6.2 Bernoulli.
Dizemos que X tem uma distribuio Bernoulli com parmetro p, onde 0 p 1, se
X(w) {x0 , x1 } e p(x1 ) = p = 1 p(x0 ).
A funo de probabilidade Bernoulli pode ser utilizada para modelar a probabilidade de
sucesso em uma nica realizao de um experimento. Em geral, qualquer varivel aleatria
dicotmica, ou seja que assume somente dois valores, pode ser modelada por uma distribuio
Bernoulli. Denomina-se de ensaio de Bernoulli, qualquer experimento que tem uma resposta
dicotmica. Um exemplo clssico de um ensaio Bernoulli o lanamento de uma moeda no
necessariamente balanceada.
4.6.3 Binomial.
Dizemos que X tem uma distribuio Binomial com parmetros n e p, onde n um nmero
inteiro e 0 p 1, se X(w) {0, 1, . . . , n} e p(k) = nk pk (1 p)1k , para k {0, 1, . . . , n}.
Note que utilizando o Teorema Binomial, temos que
n
p(k) =
k=0
k=0
n k
p (1 p)nk = (p + 1 p)n = 1.
k
Logo, esta uma legtima funo probabilidade de massa.

Uma distribuio binomial pode ser obtida quando se considera n repeties independentes de ensaios Bernoulli, e estamos interessados no total de vezes que nesses ensaios
obtivemos valor x1 para a varivel. A funo de probabilidade binomial pode ser utilizada
para modelar a quantidade de erros em um texto de n smbolos quando os erros entre smbolos so assumidos independentes e a probabilidade de erro em um smbolo do texto igual
a p. Tambm pode ser utilizada para modelar o nmero de caras em n lanamentos de uma
moeda que possui probabilidade p de cair cara em cada lanamento. Se p = 1/2, temos
um modelo para o nmero de 1's em uma seqncia binria de comprimento n escolhida
aleatoriamente ou o nmero de caras em n lanamentos de uma moeda justa. A Figura 4.6.3
nos mostra a funo probabilidade de massa da Binomial(8; 0,2).
Podemos examinar a funo probabilidade de massa binomial analiticamente para encontrarmos seu valor mais provvel. Note que a razo entre as probabilidades de dois valores
consecutivos da binomial
p(k)
=
p(k 1)
n!
pk (1 p)nk
(k)!(nk)!
n!
pk1 (1 p)nk+1
(k1)!(nk+1)!
nk+1 p
k
1p
40
estritamente decrescente em k . Portanto, se
p(1)
np
=
< 1,
p(0)
1p
ento as probabilidades so sempre decrescentes em k , e o valor mais provvel 0. No outro
extremo, se
p(n)
p
=
> 1,
p(n 1)
n(1 p)
ento as probabilidades so estritamente crescentes em k , e o valor mais provvel n. Se
p
p
1
< 1p
< n, ento a funo comea crescendo em k , enquanto nk+1
> 1, e depois
n
k
1p
p(k)
p
decresce em k . Portanto, se p(k1)
= nk+1
= 1 para algum valor de k , temos que k e
k
1p
k 1 so os valores mais provveis. Caso contrrio, o valor mais provvel ser o maior valor
p(k)
p
de k para o qual p(k1)
= nk+1
> 1, isto , o valor mais provvel ser o maior valor de k
k
1p
tal que k < (n + 1)p. No exemplo da Figura 4.6.3, observe que o valor mais provvel para
k = 1, pois (n + 1)p = 1,8.
Exemplo 4.6.1: Uma moeda com probabilidade 0,4 de cair cara jogada 5 vezes, qual a
probabilidade de se obter exatamente 2 coroas?

Soluo: Seja X o nmero de caras obtidos. Como jogamos a moeda 5 vezes, o evento
obter exatamente 2 coroas igual ao evento obter exatamente 3 caras. Portanto, P (X =
3) = 53 (0, 4)3 (0, 6)2 .
Exemplo 4.6.2: A taxa de sucesso de um bit em uma transmisso digital 90%. Se 20 bits
forem transmitidos, qual a probabilidade de que exatamente 15 deles tenha sido transmitidos
com sucesso? Qual a probabilidade de que no mximo 18 deles tenham sido transmitidos
com sucesso?
Exemplo 4.6.3 :
Suponha que para uma dada moeda viciada a probabilidade de que

ocorram 3 caras seja igual a probabilidade que ocorram 4 caras se esta moeda for jogada
8 vezes de forma independente. Determine a probabilidade de ocorrerem 3 caras em 8
lanamentos independentes desta moeda.
41
4.6.4 Uniforme.
Dizemos que X tem uma distribuio uniforme com parmetros a e b, onde a e b so nmeros
reais e a < b, se a funo densidade de X igual a
fX (x) =
1
U (x a)U (b x).
ba
Este modelo freqentemente usado impropriamente para representar completa ignorncia sobre valores de um parmetro aleatrio sobre o qual apenas sabe-se estar no intervalo
nito [a, b]. Esta distribuio tambm freqentemente utilizada para, modelar a fase de
osciladores e fase de sinais recebidos em comunicaes incoerentes. Ela tambm serve para
modelar a escolha de um nmero aleatrio entre a e b.
Neste caso, a funo de distribuio acumulada dada por:
se x < a,
0
x
1
xa
se
a x < b,
FX (x) =
dt =
ba
a ba
1
se x b.
Exemplo 4.6.4: Sabe-se que igualmente provvel que um dado cliente possa requisitar
um servio no tempo disponvel de servio [t0 , t1 ]. Se o tempo necessrio para executar este
servio igual a < t1 t0 , qual a probabilidade que o servio ser executado antes do
trmino do intervalo de tempo disponvel de servio?
Soluo: Para que o servio seja executado em tempo hbil, necessrio que o cliente
t1
t0
1
o requisite antes do tempo t1 . Logo, P (X t1 ) = t1 t
dt = t1t
.
t0
0
1 t0
4.7 Variveis Aleatrias Mistas

At agora nos restringimos ao estudo de variveis discretas ou contnuas. No entanto, existem
situaes prticas, onde a varivel aleatria pode tanto assumir valores discretos x1 , x2 , . . .
com probabilidade positiva, como tambm assumir todos os valores em um determinado
intervalo. Tais variveis so conhecidas como variveis aleatrias do tipo misto. A funo
de distribuio de uma varivel deste tipo igual a soma de uma funo de distribuio de
uma varivel discreta e de uma funo de distribuio de uma varivel contnua. Isto neste
caso temos:
x
FX (x) =
f (x)dx +
p(xi ),
xi x
onde p(xi ) 0, xi p(xi ) = p < 1, f (x) 0, e f (x)dx = 1 p.

Um exemplo prtico de uma situao onde deve-se usar uma varivel aleatria do tipo
misto o caso do tempo de funcionamento de um determinado equipamento. Podem surgir
situaes em que existe uma probabilidade positiva que o equipamento nunca funcione, isto
, P (X = 0) = p(0) > 0 e P (X > 0) = 1 p(0) e teramos uma funo densidade de
probabilidade para descrever a distribuio para valores estritamente positivos de X . Por
exemplo, se f (x) = 0 quando x 0 e f (x) = (1 p(0))ex , teramos
FX (x) =
0
p(0) + (1 p(0))
42
x t
e dt
0
se x < 0,
se x 0.
Note que esta funo de distribuio no nem contnua nem uma funo degrau.
4.8 Variveis Aleatrias Multidimensionais

Muitas vezes estamos interessados na descrio probabilstica de mais de um caracterstico
numrico de um experimento aleatrio. Por exemplo, podemos estar interessados na distribuio de alturas e pesos de indivduos de uma certa classe. Para tanto precisamos estender
a denio de varivel aleatria para o caso multidimensional.
Denio 4.8.1: Seja (, A, P ) um espao de probabilidade. Uma funo X : Rn

chamada de um vetor aleatrio se para todo evento B Boreliano de IRn , X 1 (B) A.
Onde um evento Boreliano em IRn se pertence a menor -lgebra que contem todas regies
da seguinte forma: Ca = {(X1 , X2 , . . . , Xn ) : Xi ai , 1 i n}.
Dado um vetor aleatrio X , pode-se denir uma probabilidade induzida PX no espao mensurvel (IRn , B n ) da seguinte maneira: para todo A B n , denimos PX (A) =
P (X 1 (A)). Por denio de vetor aleatrio, tem-se que X 1 (A) A, ento PX est bem
denida.
4.8.1 Funo de Distribuio Acumulada Conjunta

Para um vetor aleatrio X , uma maneira simples e bsica de descrever a probabilidade
induzida PX utilizando sua funo de distribuio acumulada conjunta.
Denio 4.8.2: A funo de distribuio acumulada conjunta de um vetor aleatrio X ,

representada por FX ou simplesmente por F , denida por
FX (x) = P (Cx ) = P (X1 x1 , X2 x2 , . . . , Xn xn ), x IRn .

A funo de distribuio acumulada FX satisfaz as seguintes propriedades:
F1. Se xi yi , i n, ento FX (x) FX (y).
xi yi i n Cx Cy P (Cx ) P (Cy ) FX (x) FX (y).

F2. Se para algum i n xi , ento Cx decresce monotonicamente para o conjunto
vazio . Logo, pela continuidade monotnica de probabilidade, temos que
lim FX (x) = 0.
xi

43
F3. Se xi , ento Cx cresce monotonicamente para o conjunto {X1 x1 , . . . Xi1
xi1 , Xi+1 xi+1 , . . . , Xn xn }, ou seja a restrio em Xi removida. Ento, podemos
escrever
lim FX (x) = FX1 ,...,Xi1 ,Xi+1 ,...,Xn (x1 , . . . , xi1 , xi+1 , . . . , xn ).
xi
Portanto, a funo de distribuio acumulada conjunta de X1 , . . . , Xn1 pode ser facilmente determinada da funo de distribuio acumulada conjunta de X1 , . . . , Xn
fazendo xn . Observe que funes de distribuio acumuladas conjuntas de ordem
maiores determinam as de ordem menores, mas o contrrio no verdadeiro. Em
particular, temos que
lim FX (x) = 1.
x
A funo de distribuio acumulada de Xi que se obtm a partir da funo acumulada

conjunta de X1 , . . . , Xn fazendo xj para j = i conhecida como funo de
distribuio marginal de Xi .
O prximo exemplo mostra que para n 2 as propriedades F1, F2, e F3 no so sucientes para que F seja uma funo de distribuio.
Exemplo 4.8.3: Seja F0 : IR2 IR uma funo denida no plano tal que F0 (x, y) = 1
se x 0, y 0, e x + y 1, e F0 (x, y) = 0, caso contrrio. claro que F1, F2, e F3 so
satisfeitas, mas F0 no funo de distribuio de nenhum vetor aleatrio (X, Y ). Se fosse,
teramos uma contradio
0 P (0 < X 1, 0 < Y 1)
= F0 (1, 1) F0 (1, 0) F0 (0, 1) + F0 (0, 0) = 1 1 1 + 0 = 1
Os tipos discretos e contnuos de variveis aleatrias tm os seguintes anlogos no caso
multivariado. (a) Se X for um vetor aleatrio discreto, ou seja assumir um nmero enumervel de valores {x1 , x2 . . . , }, podemos denir uma funo de probabilidade de massa conjunta,
p tal que
p(xi ) 0.
i=1
p(xi ) = 1.
Neste caso, pode-se denir a funo probabilidade de massa marginal de Xi como sendo
pXi (xi ) =
x1
xi1 xi+1
p(x1 , . . . , xi1 , xi+1 , . . . , xn ).

xn
(b) Seja X = (X1 , . . . , Xn ) um vetor aleatrio e F sua funo de distribuio. Se existe

uma funo f (x1 , . . . , xn ) 0 tal que
xn
F (x1 , . . . , xn ) =
x1
f (t1 , . . . , tn )dt1 . . . dtn , (x1 , . . . , xn ) IRn ,

44
ento f chamada de densidade conjunta das variveis aleatrias X1 , . . . , Xn , e neste caso,
dizemos que X (absolutamente) contnuo. Neste caso, dene-se a densidade marginal de
Xi como sendo
fXi (xi ) =
f (x1 , . . . , xn )dx1 . . . dxi1 dxi+1 . . . dxn .
Exemplo 4.8.4: Duas linhas de produo fabricam um certo tipo de pea. Suponha que
a capacidade em qualquer dia seja 4 peas na linha 1 e 3 peas na linha 2. Admita que o
nmero de peas realmente produzida em uma dada linha em um dado dia seja uma varivel
aleatria. Sejam X e Y o nmero de peas produzido pela linha 1 e 2 em um dado dia,
respectivamente. A tabela a seguir d a distribuio conjunta de (X, Y ):
0
1
2
3
4
Y
1
0
0
0,1
0,1
0
0
0
0,2
0
0
0
2
0,1
0
0,1
0
0,1
3
0,2
0,1
0
0
0
(a) Determine a probabilidade que mais peas sejam produzidas pela linha 2.
(b) Determine as funes probabilidade de massa marginais de X e Y .
Exemplo 4.8.5: Suponha que um vetor aleatrio bidimensional (X, Y ) tenha densidade
conjunta dada por:
fX,Y (x, y) =
x2 +
0
xy
3
se 0 x 1 e 0 y 2,
, caso contrrio.
(a) Determine a probabilidade que Y X > 0.

(b) Determine as densidades marginais de X e Y .
Soluo: Para a parte (a), note que

2
P (Y X > 0) =
0
x2 +
x
2
xy
dydx
3
x 2
x2
x2 (2 x) + ( )dx =
3 2
2
0
4
3
2
7x
x
x
17
=(
+ 2 + )|10 = .
24
3
3
24
(4.1)
(
0
7x3
2x
+ 2x2 + )dx
6
3
Para a parte (b), temos que a densidade marginal de X :

2
fX (x) =
0
x2 +
xy
2x
dy = 2x2 + ,
3
3

para 0 x 1, fX (x) = 0, caso contrrio. E a densidade marginal de Y
1
fY (y) =
x2 +
45
xy
1 y
dx = + ,
3
3 6
para 0 y 2, fY (y) = 0, caso contrrio.
4.8.2 Distribuio condicional de X dada Y discreta

Seja X uma varivel aleatria no espao de probabilidade (, A, P ), e seja A um evento
aleatrio tal que P (A) > 0. Usando o conceito de probabilidade condicional, podemos
denir a distribuio condicional de X dado o evento A por
P (X B|A) =
P ([X B] A)
,
P (A)
para B boreliano. Pode-se vericar facilmente que isto dene uma probabilidade nos borelianos vericando-se os axiomas de Kolmogorov. Podemos interpretar a distribuio condicional
de X dado A como a nova distribuio que se atribui a X quando sabe-se da ocorrncia do
evento A. A funo de distribuio associada distribuio condicional chamada funo
distribuio condicional de X dado A:
FX (x|A) = P (X x|A).
Agora suponhamos que os eventos aleatrios A1 , A2 , . . . formem uma partio (nita ou
enumervel) de . Pelo Teorema da Probabilidade Total, temos
P (X B) =
P (An )P (X B|An ), B B,
n
FX (x) = P (X x) =
P (An )P (X x|An )
n
P (An )FX (x|An ), x.

n
Em outras palavras, a distribuio de X (resp., funo de distribuio) uma mdia

ponderada da distribuio condicional (resp., funo de distribuio condicional) de X dado
An , onde os pesos so as probabilidades dos membros An da partio.
Consideremos agora o caso em que a partio do espao amostral gerada por uma
varivel aleatria discreta. Para tanto, seja Y uma varivel aleatria discreta em (, A, P ),
tomando somente os valores y1 , y2 , . . .. Ento, os eventos An = [Y = yn ] formam uma
partio de . Neste caso, a distribuio
P (X B|Y = yn ) = P (X B|An ),

46
para B boreliano, chamada de distribuio condicional de X dado que Y = yn , e valem as
frmulas
P (Y = yn )P (X B|Y = yn ), B boreliano
P (X B) =
n
FX (x) =
P (Y = yn )FX (x|Y = yn ).
n
Exemplo 4.8.6: A tabela abaixo d a distribuio conjunta de X e Y .
0
1
2
0
0,1
0,2
0
Y
1
0,1
0
0,1
2
0,1
0,3
0,1
(a) Determinar as distribuies marginais de X e Y .

(b) Calcule P (X = 0|Y = 1) e P (Y = 3|X = 2).
(c) Calcule P (X 2) e P (X 1, Y = 2).
4.8.3 Distribuio condicional de X dada Y contnua

Quando temos variveis aleatrias contnuas, freqentemente estamos em uma situao onde
queremos condicionar em um evento que tem probabilidade zero. Por exemplo, poderemos
estar interessados em saber qual a probabilidade de que a altura de um dado indivduo
seja menor ou igual a h sabendo que seu peso igual a k , ou seja, queremos determinar
P (H h|P = k). O problema que a probabilidade do evento condicionante [P = k]
nula. A denio formal de como calcular estas probabilidades no caso geral envolve conceitos
complexos de Teoria da Medida. Mas na maioria dos casos prticos, podemos prosseguir com
o seguinte procedimento. Se um evento B tem probabilidade zero, ento aproximamos B
por uma coleo de eventos {B , > 0}, P (B ) > 0, B B , e >0 B = B . Deste modo,
pode-se denir P (A|B) por lim0 P (A|B ), desde que este limite exista e independa da
coleo de eventos {B }.
Por exemplo, suponha que (X, Y ) um vetor aleatrio com densidade conjunta dada
por fX,Y (x, y). Suponha que estejamos interessados em obter o valor de P (X x|Y = y).
Ento, utilizando nosso procedimento descrito acima podemos aproximar esta probabilidade
por lim0 P (X x|y < Y y + ). Mas,
P (X x|y < Y y + ) =
P (X x, y < Y y + )
P (y < Y y + )
x
(4.2)
y+
P (X x, y < Y y + ) =
fX,Y (s, t)dtds.

47
Para pequeno o suciente, assumindo que fX,Y contnua no ponto (x, y), ento
aproximadamente constante no intervalo (y , y + )
x
P (X x, y < Y y + ) 2
fX,Y (s, y)ds.
Similarmente,
P (y < Y y + ) 2fY (y).

Portanto,
P (X x|Y = y) =
fX,Y (s, y)
ds,
fY (y)
desde que fY (y) > 0.

Dene-se a funo de distribuio acumulada condicional de X dado Y , FX|Y (x|y), por
P (X x|Y = y). Deste modo, o resultado acima nos permite armar que neste caso a
f
(x,y)
densidade condicional, fX|Y (x|y), de X dado Y dada por X,Y
, desde que fY (y) > 0
fY (y)
e y no seja ponto de descontinuidade de fY . Nos casos em que y um zero ou um ponto
de descontinuidade de fY (y), adotaremos a conveno que a densidade condicional igual a
zero nestes pontos.
Exemplo 4.8.7:
Considere novamente o vetor aleatrio bidimensional (X, Y ) que tem

densidade conjunta dada por:
fX,Y (x, y) =
x2 +
0
xy
3
se 0 x 1 e 0 y 2,
, caso contrrio.
(a) Determine as densidades condicionais g(x|y) e h(y|x).
Soluo: J vimos que fX (x) =
2
0
x2 + xy
dy = 2x2 + 2x
, para 0 x 1, fX (x) = 0,
3
3
1 2
y
xy
1
caso contrrio; e que fY (y) = 0 x + 3 dx = 3 + 6 , para 0 y 2, fY (y) = 0, caso
contrrio. Portanto, aplicando nosso resultado anterior, temos para 0 y 2:
fX,Y (x, y)
g(x|y) =
=
fY (y)
x2 + xy
3
1
+ y6
3
se 0 x 1,
, caso contrrio.
x2 + xy
3
2x2 + 2x
3
se 0 y 2,
Similarmente, para 0 x 1:
fX,Y (x, y)
h(y|x) =
=
fX (x)
, caso contrrio.
4.8.4 Independncia entre Variveis Aleatrias.

Sejam X1 , X2 , . . . , Xn variveis aleatrias denidas no mesmo espao de probabilidade (, A, P ).
Informalmente, as variveis aleatrias Xi 's so independentes se, e somente se, quaisquer
eventos determinados por qualquer grupo de variveis aleatrias distintas so independentes. Por exemplo, [X1 < 5], [X2 > 9], e 0 < X5 3 so independentes. Formalmente,

48
Denio 4.8.8: Dizemos que um conjunto de variveis aleatrias {X1 , . . . , Xn } mutuamente independente se, e somente se, para quaisquer eventos borelianos A1 , . . . , An ,
n
P (X1 A1 , . . . , Xn An ) =
P (Xi Ai ).
i=1
O prximo teorema estabelece trs critrios para provar que um conjunto de variveis
aleatrias mutuamente independente.
Teorema 4.8.9 : As seguintes condies so necessrias e sucientes para testar se um

conjunto {X1 , . . . , Xn } de variveis aleatrias mutuamente independente:
(a) FX (x) =
n
i=1
FXi (xi ).
(b) Se X for um vetor aleatrio discreto,

n
pX (x) =
pXi (xi ).
i=1
(c) Se X for um vetor aleatrio contnuo,

n
fXi (xi ), (x1 , . . . , xn ) IRn .
fX (x) =
i=1
Prova: Omitida, pois est fora do escopo deste curso.

fcil observar que utilizando, a denio de probabilidade condicional que se X e Y
so independentes, ento para todo A e B boreliano tal que P (Y B) > 0:
P (X A|Y B) = P (X A),
ou seja, se X e Y so independentes o conhecimento do valor de Y no altera a descrio
probabilstica de X .
Exemplo 4.8.10: Verique se as variveis aleatrias X e Y do Exemplo 4.8.6 so independentes.
4.9 Funes de Variveis Aleatrias

Muitas vezes sabemos a distribuio de probabilidade que descreve o comportamento de
uma varivel aleatria X denida no espao mensurvel (, A), mas estamos interessados
na descrio de uma funo Y = H(X). Por exemplo, X pode ser uma mensagem enviada em um canal de telecomunicaes e Y ser a mensagem recebida. Nosso problema
determinar P (Y A), onde A um evento Boreliano, dado PX . Para determinarmos esta

49
probabilidade, estaremos interessados na imagem inversas a funo H , ou seja, a probabilidade do evento {Y A} ser por denio igual a probabilidade do evento {X H 1 (A)},
onde H 1 (A) = {x IR : H(x) A}. Para que esta probabilidade esteja bem denida,
precisamos restringir H tal que H 1 (A) seja um evento boreliano para todo A boreliano,
caso contrrio no poderemos determinar P ({X H 1 (A)}); uma funo que satisfaz esta
condio conhecida como mensurvel com respeito a A e B . Note que Y tambm pode ser
vista como uma funo do espao amostral , Y () = H(X()) para todo . Visto
dessa maneira Y uma varivel aleatria denida em (, A), pois para todo boreliano A
Y 1 (A) = X 1 (H 1 (A)) e como por suposio H 1 (A) boreliano e X uma varivel
aleatria, temos que X 1 (H 1 (A)) A e portanto satisfaz a denio de uma varivel aleatria. Nesses problemas sempre til fazer um esboo do grco da transformao H para
determinarmos quais so as regies inversas H 1 (A).
Vamos primeiro tratar este problema no caso de variveis aleatrias discretas. Neste caso
para qualquer funo H , temos que Y = H(X) uma varivel aleatria discreta.
Suponha que X assuma os valores x1 , x2 , . . . e seja H uma funo real tal que Y = H(X)
assuma os valores y1 , y2 , . . .. Vamos agrupar os valores que X assume de acordo os valores de
suas imagens quando se aplica a funo H , ou seja, denotemos por xi1 , xi2 , xi3 , . . . os valores
de X tal que H(xij ) = yi para todo j . Ento, temos que
P (Y = yi ) = P (X {xi1 , xi2 , xi3 , . . .}) =
P (X = xij ) =
j=1
pX (xij ),
j=1
ou seja, para calcular a probabilidade do evento {Y = yi }, acha-se o evento equivalente

em termos de X , isto , todos os valores xij de X tal que H(xij ) = yi e somam-se as
probabilidades de X assumir cada um desses valores.
Exemplo 4.9.1:
Admita-se que X tenha os valores possveis 1, 2, 3, . . . e suponha que

P (X = n) = (1/2) . Seja Y = 1 se X for par e Y = 1 se X for mpar. Ento, temos que
n
2n
P (Y = 1) =
(1/2)
n=1
(1/4)n =
=
n=1
1/4
= 1/3.
1 1/4
Conseqentemente,
P (Y = 1) = 1 P (Y = 1) = 2/3.
Podemos estender este resultado para uma funo de um vetor aleatrio X de forma
anloga. Neste caso se Y = H(X), denotemos por xi1 , xi2 , xi3 , . . . os valores de X tal que
H(xij ) = yi para todo j . Ento, temos que
P (Y = yi ) = P (X {xi1 , xi2 , xi3 , . . .}) =
P (X = xij ) =
j=1
pX (xij ),
j=1
ou seja, para calcular a probabilidade do evento {Y = yi }, acha-se o evento equivalente

em termos de X , isto , todos os valores xij de X tal que H(xij ) = yi e somam-se as
probabilidades de X assumir cada um desses valores.
Vamos ver agora um exemplo no caso em que X contnuo.

Exemplo 4.9.2: Se X U [0, 1], qual a distribuio de Y = log(X)? Como
50
0<Y <0<X<1
e P (0 < X < 1) = 1, temos FY (y) = 0, y 0. Se y > 0, ento
P (Y y) = P ( log(X) y) = P (X ey ) = 1 ey ,
ou seja, Y Exp(1).
Captulo 5
Esperana e Momentos
5.1 O Conceito de Esperana
O conceito de Esperana ou Valor Esperado de uma varivel aleatria X , ou a mdia
to antigo quanto o prprio conceito de probabilidade. Na verdade, at possvel denir
probabilidade em termos de esperana, mas esta no uma maneira comum de se apresentar
a teoria. Existem quatro tipos de interpretaes da Esperana:
1. Parmetro m de uma medida de probabilidade, funo de distribuio, ou funo
probabilidade de massa, tambm conhecido como mdia.
2. Um operador linear em um conjunto de variveis aleatrias que retorna um valor tpico
da varivel aleatria interpretado como uma medida de localizao da varivel aleatria.
3. mdia do resultado de repetidos experimentos independentes no longo prazo.
4. preo justo de um jogo com pagamentos descritos por X .
5.1.1 Denio da Esperana - Caso Discreto

Vamos motivar a denio de esperana considerando o clculo do resultado mdio de 1000
lanamentos de um dado. Uma maneira de calcular este resultado mdio seria somar todos
os resultados e dividir por 1000. Uma maneira alternativa seria calcular a frao p(k) de
todos os lanamentos que tiveram resultado igual a k e calcular o resultado mdio atravs
da soma ponderada:
1p(1) + 2p(2) + 3p(3) + 4p(4) + 5p(5) + 6p(6).

Quando o nmero de lanamentos se torna grande as fraes de ocorrncia dos resultados
tendem a probabilidade de cada resultado. Portanto, em geral denimos a esperana de
uma varivel discreta como uma soma ponderada onde as probabilidades so os pesos de
ponderao.
51
CAPTULO 5. ESPERANA E MOMENTOS

52
Denio 5.1.1: Se X uma varivel aleatria discreta assumindo valores {x1 , x2 , x3 , . . .}
com probabilidade {p1 , p2 , p3 , . . .}, respectivamente, ento sua esperana dada pela frmula
EX =
xi pi +
i:xi <0
xi p i ,
i:xi 0
desde que pelo menos um dos somatrios seja nito. Em caso os dois somatrios no sejam
nitos, a esperana no existe. Caso EX seja nita, diz-se que X integrvel.
Exemplo 5.1.2: Considere uma varivel aleatria X tal que: P (X = 1) = 0.25, P (X =

0) = 0.5 e P (X = 2) = 0.25. Ento,
EX = 1(0.25) + 0(0.5) + 2(0.25) = 0.25.
Exemplo 5.1.3: Considere uma varivel aleatria X tal que: P (X = a) = P (X = a) =
1/2. Ento,
EX = a(0.5) + a(0.5) = 0.
Note ento que muitas variveis aleatrias diferentes podem ter o mesmo valor esperado
ou esperana. ( s variar o valor de a no exemplo anterior.)
Exemplo 5.1.4: Aleatria. Se X {1, 2, . . . , n} for uma varivel aleatria com distribuio de probabilidade aleatria com parmetro n, temos que sua esperana dada por:
n
kp(k) =
EX =
k=1
1
1
k =
n
n
k=
k
1 n(n + 1)
n+1
=
.
n
2
2
Onde utilizamos a frmula da soma dos primeiros n termos de uma progresso aritmtica. Em
geral, se X for uma varivel aleatria com distribuio de probabilidade aleatria assumindo
os valores {x1 , x2 , . . . , xn }, ento:
n
1
EX =
xi .
n i=1
Exemplo 5.1.5: Bernoulli. Se X {0, 1} for uma varivel aleatria com distribuio de
probabilidade Bernoulli com parmetro p, temos que sua esperana dada por:
EX = 0(1 p) + 1(p) = p.
Exemplo 5.1.6: Binomial. Se X for uma varivel aleatria com distribuio de probabilidade Binomial com parmetros n e p, temos que sua esperana dada por:
n
n k
EX =
k
p (1 p)nk =
k
k=0
k
k=1
n!
pk (1 p)nk
k!(n k)!
n
n
k=1
n 1 k1
(n 1)!
pk (1 p)nk = np
p (1 p)nk = np.
k1
(k 1)!(n k)!
k=1
Onde utilizamos o Teorema Binomial na ltima igualdade.
5.1.2 Denio da Esperana - Caso Contnuo
53
Denio 5.1.7: Se X uma varivel aleatria contnua com funo densidade de probabilidade f , ento sua esperana dada pela frmula
0
EX =
xf (x)dx +
xf (x)dx,
0
desde que pelo menos uma das integrais seja nita. Em caso as duas integrais no sejam
nitas, a esperana no existe. Caso EX seja nita, diz-se que X integrvel.
Deve-se observar a analogia entre o valor esperado de uma varivel aleatria e o conceito
de centro de gravidade em Mecnica. Se um objeto tem massa distribuda sobre a reta, em
pontos discretos, x1 , x2 , . . ., e se p(xi ) for a massa do ponto xi , ento vemos que
i=1 xi p(xi )
representa o centro de gravidade do objeto em relao a origem. Similarmente, se um objeto
tem massa distribuda continuamente sobre uma reta, e se f (x) representar a densidade de
massa em x, ento xf (x)dx determina o centro de gravidade deste objeto. Ento, podemos interpretar a esperana de uma varivel aleatria X como sendo o centro da distribuio
de probabilidade de X .
Considere o seguinte exemplo:
Exemplo 5.1.8: Uniforme. Se X U (a, b), ento X possui densidade igual a f (x) =
se x (a, b), e f (x) = 0, caso contrrio. Logo, temos que sua esperana dada por:
b
EX =
a
1
ba
x
a+b
dx =
.
ba
2
5.2 Esperana de Funes de Variveis Aleatrias

Vamos iniciar considerando o caso discreto.
5.2.1 Caso Discreto

Como vimos anteriormente, se X for uma varivel aleatria discreta e se Y = H(X), ento
Y tambm ser uma varivel aleatria discreta. Conseqentemente, pode-se calcular EY .
Existem duas maneiras de calcular EY que so equivalentes.
Denio 5.2.1: Seja X uma varivel aleatria discreta e seja Y = H(X). Se Y assumir
os seguintes valores y1 , y2 , . . . e se p(yi ) = P (Y = yi ), denimos:
yi p(yi ).
EY =
i=1
Conforme vimos no captulo anterior podemos determinar as probabilidades p(yi ) dado

que sabemos a distribuio de X . No entanto, podemos encontrar EY sem preliminarmente
encontrarmos a distribuio de probabilidade de Y , partindo-se apenas do conhecimento da
distribuio de probabilidade de X , conforme mostra o seguinte teorema.

54
Teorema 5.2.2: Seja X uma varivel aleatria discreta assumindo os valores x1 , x2 , . . . e
seja Y = H(X). Se p(xi ) = P (X = xi ), temos
EY = E(H(X)) =
H(xi )p(xi ).
i=1
Prova: Vamos re-ordenar o somatrio
i=1
H(xi )p(xi ), agrupando os termos onde xi tem

a mesma imagem de acordo com a funo H , ou seja, sejam xi1 , xi2 , . . ., todos os valores xi
tal que H(xij ) = yi para j 1, onde y1 , y2 , . . . so os possveis valores de Y . Desse modo
podemos reescrever
H(xi )p(xi ) =
H(xij )p(xij ) =
i=1
yi
i=1 j=1
i=1
p(xij ) =
yi p(yi ) = EY.
j=1
i=1
Exemplo 5.2.3: Suponha que X uma varivel aleatria tal que P (K = k) = e k! , para
k
k = 0, 1, 2, . . .. (Veremos adiante que esta uma distribuio de Poisson com parmetro .)

Seja Y = X 2 , vamos calcular EY . Utilizando o Teorema 5.2.2, temos
k e
EY =
k=0
k=2
k!
k e
=
k=1
k!
k(k 1)e
=
k=1
k!
ke
+
k=1
k!
k2
+ = 2 + .
(k 2)!
Tambm podemos estender este resultado para o caso de uma funo real de um vetor
aleatrio. Neste caso, se Y = H(X), temos que EY = i H(xi )pX (xi ), onde os xi so os
valores assumidos pelo vetor aleatrio X .
5.2.2 Caso Contnuo

No caso de uma varivel aleatria contnua X tambm podemos calcular a esperana de uma
funo Y = (X) de maneira anloga.
Teorema 5.2.4: Seja X uma varivel aleatria contnua, Y = (X) uma outra varivel
aleatria, ento
EY =
yfY (y)dy =
(x)fX (x)dx,
desde que estas integrais existam.
Prova: Omitida.
Uma frmula anloga tambm vlida quando consideramos funes de vetores aleatrios.

55
Teorema 5.2.5: Seja X = (X1 , X2 , . . . , Xn ) um vetor aleatrio contnuo e Y = (X) uma
varivel aleatria. Ento,
EY =
yfY (y)dy =
(x)fX (x)dx1 dxn .
Exemplo 5.2.6: Suponha que X seja uma varivel aleatria com densidade dada por:
f (x) =
ex
2
ex
2
se x 0,
se x > 0.
Seja Y = |X|, vamos determinar EY . Usando o Teorema 5.2.4, teremos
EY =
(5.1)
|x|f (x)dx
1
= (
xex dx +
xex dx)
2
0
0
1
ex dx xex |
= (xex |0 +
0 +
2
1
= (0 + 1 + 0 + 1) = 1.
2
ex dx)
Exemplo 5.2.7:
Podemos utilizar o valor esperado de uma varivel aleatria a m de

tomar uma deciso tima. Por exemplo, suponha que um fabricante produza certo tipo de
equipamento e seja X o nmero de tais equipamentos que so vendidos por dia. Suponha
que X seja uma varivel aleatria uniformemente distribuda em [3, 6]. Suponha que cada
equipamento vendido d um lucro de R$200,00, enquanto se um dado equipamento no for
vendido no mesmo dia como o fabricante no tem onde armazen-lo ele ser destrudo dando
um prejuzo de R$50,00. Suponha que o fabricante deve decidir no dia anterior quantos
equipamentos dever produzir no dia seguinte. Queremos saber quantos equipamentos o
fabricante dever produzir de forma a maximizar o seu lucro esperado. Suponha que o
fabricante decida produzir k unidades, ento seu lucro ser igual a
Z = L(X) =
200k
se X k ,
200X 50(k X) se X < k .
Podemos ento calcular o lucro esperado EZ da seguinte forma:

6
1
EZ =
L(x)fX (x)dx =
3
L(x)dx.
3
Obviamente, o lucro L(x) depende do valor de k . Se k 3, ento L(x) = 200k , para todo x
6
entre 3 e 6, logo EZ = 13 3 200kdx = 200k . Se k 6, ento L(x) = 250x 50k , para todo
x entre 3 e 6, logo
EZ =
1
3
6
3
1
1
(250x 50k)dx = (125x2 50kx)|63 = (3375 150k).
3
3

Por m, se 3 < k < 6, temos
1 k
EZ = ( (250x 50k)dx +
3 3
1
= (125k 2 + 1350k 1125)
3
6
k
56
1
(200k)dx) = (125(k 2 9) 50k(k 3) + 200k(6 k))
3
Resumindo, temos:
se k 3,
200k
1
2
(125k + 1350k 1125) se 3 < k < 6,
EZ =
31
(3375 150k)
se k 6.
3
Note que para k 3, o lucro esperado crescente em k , e que para k 6 o lucro esperado
decresce com k . Na regio, 3 < k < 6, temos que o lucro esperado uma parbola que atinge
o mximo para k = 5,4. Como o nmero de equipamentos fabricados tem que ser inteiro
ento o mximo deve ocorrer ou em k = 5 ou em k = 6, comparando estes valores temos
que, se k = 5, ento EZ = 833,33; e se k = 6, ento EZ = 825. Portanto, o fabricante deve
produzir 5 equipamentos por dia para maximizar seu lucro esperado.
5.3 Propriedades da Esperana

As seguintes propriedades so aplicaes imediatas da denio de esperana:
1. P (X = c) = 1 EX = c.
2. P (X 0) = 1 EX 0.
3. E(aX) = aEX , onde a um nmero real qualquer. Esta propriedade segue facilmente
da expresso da esperana de uma funo de varivel aleatria.
4. E(X + Y ) = EX + EY . Para provar esta propriedade, note que
E(X + Y ) =
(xi + yj )p(xi , yj ) =
i
xi p(xi ) +
i
yj
j
xi
j
p(xi , yj ) = EX +
i
p(xi , yj ) +
yj p(xi , yj )
i
yj p(yj ) = EX + EY.
j
5. P (X Y ) = 1 EX EY . Propriedade 5 segue das propriedades 2, 3, e 4, pois
P (X Y ) = P (X Y 0),
o que, pela propriedade 2, implica que E(X Y ) 0. Pela propriedade 4, temos que
E(X Y ) = EX + E(Y ). Finalmente, pela propriedade 3, temos que E(X Y ) =
EX EY , ou seja podemos concluir que EX EY 0.

6. Se {X1 , . . . , Xn } so variveis aleatrias mutuamente independentes, ento E(
n
i=1 EXi . Para provar esta propriedade note que
n
i=1
57
Xi ) =
E(
Xi ) =
i=1
i1
xi1 xin p(xi1 , . . . , xin )

in
n
i1
in
j=1
xin p(xin ) =
xi1 p(Xi1 )
p(xij ) =
xi1 xin
i1
in
EXi .
i=1
7. Se X tem uma distribuio simtrica em torno de a, ou seja, P (X a x) = P (X a

x), e se a esperana de X tiver bem denida, ento EX = a. Para provar esta
expresso, primeiro note que se X simtrica em relao a a ento Y = X a
simtrica em relao a zero. Se provarmos que EY = 0, ento segue da linearidade da
esperana que EX = a. No caso discreto, como Y simtrica em torno de 0, temos
que p(xi ) = p(xi ) para todo xi , portanto segue que EY = i xi p(xi ) = 0. No caso
contnuo, como Y simtrica em torno de 0, temos que P (Y y) = P (Y y), o que
implica que 1 FY (y) = FY (y). Finalmente, derivando obtemos fY (y) = fY (y), ou
seja, Y possui densidade par, logo EY = yfY (y)dy = 0, pois a integral de uma
funo mpar yfY (y) em torno de um intervalo simtrico em torno de zero.1
Pode-se denir outras medidas de posio de uma varivel aleatria, tais como: mediana
e moda. A mediana de uma v.a. X qualquer nmero m tal que P (X m) 0,5 e P (X
m) 0,5. Por exemplo, se X assume os valores 1, 0, 1 com probabilidades 1/4, 1/4, 1/2,
respectivamente, ento qualquer nmero no intervalo fechado de 0 a 1. A moda de uma
varivel aleatria discreta o seu valor mais provvel. Como para uma varivel aleatria
contnua todos os valores tem probabilidade zero, dene-se como moda neste caso, o valor
que maximiza a funo densidade de probabilidade. A moda no necessariamente nica,
pois a funo probabilidade de massa (caso discreto) ou a funo densidade de probabilidade
(caso contnuo) pode atingir seu mximo em vrios valores x1 , x2 , . . ..
Quando uma funo densidade de probabilidade tem mltiplos mximos locais, comum
se referir a todos os mximos locais como modas da distribuio (mesmo que a denio
formal implique que apenas o mximo global uma moda da distribuio). Tais distribuies
contnuas so chamadas de multimodais (em oposio a unimodal).
Em distribuies unimodais simtricas, isto , distribuies tal que existe um nmero m
tal que P (X m x) = P (X m x) para todo x IR, a esperana (se bem denida),
mediana, e moda coincidem e so iguais a m.
5.4 Momentos
Momentos do informaes parciais sobre a medida de probabilidade P , a funo de distribuio acumulada, ou a funo probabilidade de massa de uma varivel aleatria discreta
1 Como
assumimos que EX bem denida, segue da linearidade que EY = EX a tambm bem

0
denida, donde conclumos que pelo menos uma das integrais yfY (y)dy ou 0 yfY (y)dy nita, e
como fY (y) par estas integrais tem mesmo mdulo mas sinais contrrios, o que nos permite armar que a
integral sobre toda reta nula.

X . Momentos de X so esperanas de potncias de X .
58
Denio 5.4.1:
Para qualquer inteiro no-negativo n, o n-simo momento da varivel

aleatria X EX n , se esta esperana existe.
Na seo anterior, vimos que o segundo momento de uma varivel aleatria Poisson com
parmetro dado por: 2 + . Vamos agora calcular o segundo momento de uma varivel
aleatria X Binomial com parmetros n e p:
n
2
EX =
k=0
n
n k
p (1 p)nk =
k
k2
k=1
n!
pk (1 p)nk =
k!(n k)!
n!
n!
pk (1 p)nk +
k
pk (1 p)nk
k!(n k)!
k!(n
k)!
k=1
k(k 1)
k=1
n
2
n(n 1)p
k=2
(n 2)!
pk2 (1 p)nk + np
(k 2)!(n k)!
m
= n(n 1)p
j=0
(m)!
pj (1 p)mj + np = n(n 1)p2 + np.
(j)!(m j)!
Pode-se provar que momentos de ordem superiores nitos implicam momentos de ordem
inferiores nitos.
5.4.1 Momentos Centrais

Denio 5.4.2: Se X uma varivel aleatria seu n-simo momento central : E(X
EX)n , se esta esperana existir.
Note que o primeiro momento central zero, pois E(X EX) = EX EEX = EX
EX = 0. O segundo momento central conhecido como varincia e denota-se por V arX .
A varincia pode ser tambm calculada por:
V arX = E(X EX)2 = E(X 2 2XEX + (EX)2 ) = EX 2 2E(XEX) + E((EX)2 )

= EX 2 2(EX)2 + (EX)2 = EX 2 (EX)2 .
(5.2)
Do Teorema Binomial e da linearidade da esperana, temos
n
n
E(X EX) =
k=0
n
(EX)nk EX k
k
n
EX n = E(X EX + EX)n =
k=0
n
(EX)nk E(X EX)k .
k
Como um corolrio, temos que o n-simo momento central existe se, e somente se, o
n-simo momento existe.

Exemplo 5.4.3: Considere uma varivel aleatria X tal que
59
1
1
EX k = [(m a)k + (m + a)k ].
2
2
P (X = m a) = P (X = m + a) =
1
EX = m, EX 2 = [2m2 + 2a2 ] = m2 + a2 , V arX = a2 .
2
Este exemplo, mostra que podemos encontrar uma varivel aleatria bem simples possuindo
qualquer esperana e varincia predeterminadas.
Exemplo 5.4.4 :
(Aleatria ou Uniforme Discreta.) Se X tem uma distribuio

uniforme discreta assumindo os valores {x1 , x2 , . . . , xn } com mesma probabilidade, ento:
1
V arX =
n
x2i
i=1
1
2(
xi )2 .
n i=1
Exemplo 5.4.5: (Binomial.) J demonstramos que se X tem uma distribuio binomial,
ento EX = np e E(X 2 ) = n(n 1)p2 + np. Portanto, V arX = n(n 1)p2 + np n2 p2 =

np(1 p).
Exemplo 5.4.6: (Uniforme Contnua.) Se X tem uma distribuio uniforme em [a,b],

ento
EX 2 =
1
ba
x2 dx =
(EX)2 = (
Portanto, V arX =
b3 a3
3(ba)
( a+b
)2 =
2
b3 a3
3(b a)
a+b 2
).
2
(ba)2
.
12
O desvio-padro de uma varivel aleatria X denido como a raiz quadrada da

varincia, (X) = V arX .
Propriedades da Varincia
As seguintes propriedades da varincia so conseqncias imediatas de sua denio.
1. V arX 0.
2. Se X = c, V ar(X) = 0.
Prova: Temos que EX = c, logo V ar(X) = E(X c)2 = E(0) = 0.

3. V ar(X + a) = V arX , onde a uma constante real.
Prova:
V ar(X + a) = E(X + a)2 (E(X + a))2
= EX 2 + 2aEX + a2 (EX)2 2aEX a2 = EX 2 (EX)2 = V arX.

4. V ar(aX) = a2 V arX
60
Prova:
V ar(aX) = E(aX)2 (E(aX))2 = a2 EX 2 a2 (EX)2 = a2 V arX.
5. Se X e Y forem variveis aleatrias mutuamente independentes, ento V ax(X + Y ) =

V arX + V arY .
Prova:
V ar(X + Y ) = E(X + Y )2 [E(X + Y )]2
= E(X 2 + 2XY + Y 2 ) (EX)2 2EXEY (EY )2
= EX 2 + EY 2 (EX)2 (EY )2 + 2E(XY ) 2EXEY = V arX + V arY
6. Se X1 , . . . , Xn so variveis aleatrias independentes, ento V ar(X1 + Xn ) = V arX1 +

+ V arXn . Esta propriedade segue da propriedade anterior e de uma aplicao de
induo matemtica.
7. Desigualdade de Chebyshev Generalizada. Dado um conjunto A e uma funo
g(x) tal que x g(x) IA (x), tem-se que P (X A) min(1, Eg(X)).
Prova: Pela monotonicidade da Esperana, temos que Eg(X) EIA (X) = P (X
A). Mas, como a cota superior pode exceder 1, temos que min(1, Eg(X)) P (X A).
Corolrio 5.4.7: Seja X uma varivel aleatria, ento para todo > 0, P (|X| )
E|X|
Prova: Escolha A = {x : |x| } e g(x) =

P (|X| )
E|X|
|x|
. Note que g(x) IA (x), ento
Corolrio 5.4.8: Se Z 0 e EZ = 0, ento P (Z = 0) = 1.

Prova: P (Z n1 ) nEZ = 0. Como [Z > 0] = n [Z n1 ], temos que
P (Z > 0) = P (n [Z
1
])
n
P (Z
n
1
) = 0.
n
Portanto, P (Z = 0) = 1 P (Z > 0) = 1.
Note que este ltimo corolrio implica que, quando V ar(X) = 0, ou seja E(XEX)2 =
0, temos que P (X = EX) = 1, ou seja X constante com probabilidade 1.
61
Corolrio 5.4.9: Desigualdade (Original) de Chebyshev. Seja X uma varivel
aleatria, ento P (|X EX| ) V arX
.
2
Prova: Escolha A = {x : |x| } e g(x) =
x2
. Note que g(x) IA (x), ento pelo

2
teorema anterior, P (X A) = P (|X| ) EX2 . Substituindo X por X EX ,
temos P (|X EX| ) V arX
.
2
2
Note que a desigualdade de Chebyshev converte conhecimento sobre um momento de

segunda ordem ou uma varincia numa cota superior para a probabilidade da cauda
de uma varivel aleatria.
8. V arX = E(X )2 = mincIR E(X c)2 .
Prova:
(X c)2 = (X + c)2 = (X )2 + 2( c)(X ) + ( c)2 ,

logo
E(X c)2 = E(X )2 + 2( c)(EX ) + ( c)2

= V arX + ( c)2 .
Portanto, E(X c)2 E(X )2 , c IR.
5.5 Correlao, Covarincia, e Desigualdade de Schwarz

Correlao e covarincia so quantidades parecidas com momentos que so medidas do grau
de dependncia linear entre duas variveis.
Denio 5.5.1: A correlao entre duas variveis aleatrias X e Y dada por EXY se
esta esperana existe. A covarincia entre elas dada por Cov(X, Y ) = E[(X EX)(Y
EY )] = EXY (EX)(EY ).
Note que Cov(X, X) = V arX . Pela prova da propriedade 5 de varincia, vemos que a
seguinte relao vlida:
V ar(X + Y ) = V arX + V arY + 2Cov(X, Y ).

Diz-se que duas varveis so no-correlacionadas se Cov(X, Y ) = 0. Como j provamos
que se X e Y so independentes, ento EXY = EXEY . Temos que se X e Y so independentes, elas necessariamente so no-correlacionadas. O contrrio nem sempre verdadeiro
como o prximo exemplo ilustra.
Exemplo 5.5.2: Se X uma varivel aleatria tal que P (X = a) = P (X = a) = 1/2 e

Y = X 2 , temos que EXY = a3 (1/2) + a3 (1/2) = 0 e EX = a(1/2) + a(1/2) = 0. Logo,
EXY = EXEY = 0, ou seja, Cov(X, Y ) = 0. Porm, X e Y no so independentes, pois
Y uma funo de X .

62
O prximo teorema trata de uma importante desigualdade em teoria da probabilidade:
Teorema 5.5.3: (E(XY ))2 EX 2 EY 2 e (Cov(X, Y ))2 V arXV arY .

Prova: (aX + Y )2 0 E(aX + Y )2 0 a2 EX 2 + 2aEXY + EY 2 0. Observe
que est equao do segundo grau em a no pode ter duas razes reais diferentes, pois caso
contrrio essa expresso seria negativa para os valores entre as razes. Ento, utilizando a
regra do discriminante, temos que
4(EXY )2 4EX 2 EY 2 0,
e temos a primeira desigualdade. A segunda desigualdade segue da primeira trocando X por
X EX e Y por Y EY na expresso da primeira desigualdade.
O coeciente de correlao entre duas variveis aleatrias X e Y dado por
(X, Y ) =
Cov(X, Y )
V ar(X)V ar(Y )
O teorema anterior provou que |(X, Y )| 1.
5.6 Esperana Condicional

Nesta seo nos apresentamos o conceito de esperana condicional E(Y |X) de uma varivel
aleatria Y dado outra varivel aleatria X atravs do uso de funes probabilidade de
massa no caso discreto e funes densidade de massa no caso contnuo. A interpretao
que E(Y |X = x) a mdia da varivel aleatria Y sabendo que a varivel aleatria X
igual a x. Por exemplo, podemos estar interessados na mdia do peso de indivduos que tm
1,70m de altura.
Denio 5.6.1:
(a) Se (X, Y ) for uma vetor aleatrio contnuo bidimensional, dene-se o valor esperado
condicional de Y dado que X = x, como sendo
0
E(Y |X = x) =
yfY |X (y|x)dy +
yfY |X (y|x)dy,
0
desde que pelo menos uma das integrais seja nita.

(b) Se (X, Y ) for uma vetor aleatrio discreto bidimensional, dene-se o valor esperado
condicional de Y dado que X = xi , como sendo
E(Y |X = xi ) =
yj pY |X (yj |xi ) +
j:yj 0
yj pY |X (yj |xi ),
j:yj >0
desde que pelo menos uma das sries seja convergente.

Exemplo 5.6.2: Considere um vetor aleatrio com densidade conjunta dada por
2 |x
fX,Y (x, y) = e2|yx
63
I[0,] (x).
Determine E(Y |X = x).

Soluo: Vamos primeiro obter a densidade marginal de X
fX (x) =
2 |x
e2|yx
I[0,] (x)dy
= e I[0,] (x)(e
x2
2x2
e2y dy + e2x
e2y dy)
x2
1 1
= ex I[0,] (x)( + ) = ex I[0,] (x).
2 2
Logo, a densidade condicional de Y dado X igual a
fY |X (y|x) =
fX,Y (x, y)
2
= e2|yx | .
fX (x)
Portanto,
E(Y |X = x) =
yfY |X (y|x)dy =
x2
ye2(x
2 y)
ye2|yx | dy
dy +
ye2(yx ) dy
x2
y
2
2
= ( e2(x y) |x
2
x2
2 y)
e2(x
2
y
2
dy) + ( e2(yx ) |
x2
2
x2
e2(yx )
dy)
2
x2 1
x2 1
) + ( + ) = x2 .
2
2
2
2
Observe que E(Y |X = x) uma funo de x, chamemos esta funo de h(x). Ento,
temos que E(Y |X) = h(X) uma funo da varivel aleatria X e portanto uma varivel
aleatria. Por outro lado, E(Y |X) uma mdia da varivel Y . A seguir listamos algumas
propriedades da esperana condicional:
=(
1. E(aY1 + bY2 + c|X) = aE(Y1 |X) + bE(Y2 |X) + c.

2. E(g(Y, X)|X = x) = E(g(Y, x)|X = x).
3. Se X e Y so independentes, ento E(Y |X) = E(Y ).
4. EY = E[E(Y |X)].
Prova:
EY =
yfY (y)dy =
fX (x)(
y(
fY |X (y|x)fX (x)dx)dy
yfY |X (y|x)dy)dx =
E(Y |X = x)fX (x)dx
= E[E(Y |X)].
64
Exemplo 5.6.3: Podemos utilizar este ltimo resultado para calcular a esperana (incondicional) de Y no exemplo anterior.
EY = E[E(Y |X)] = E(X ) =

= x2 ex |
0 +2
xex dx
= 0 + 2(xex |
0 +
x2 ex
ex dx)
= 2(0 + 1) = 2.
Captulo 6
Principais Variveis Aleatrias Discretas
6.1 Introduo
Neste captulo descreveremos um pouco sobre os principais modelos de variveis aleatrias
discretas.
6.2 Geomtrica.
Dizemos que X tem uma distribuio Geomtrica com parmetro , onde 0 < 1, se
X(w) {1, 2, 3, . . .} e p(k) = (1 ) k1 , para k {1, 2, 3, . . .}.
Utilizando o resultado de uma soma innita de uma Progresso Geomtrica, temos que
(1 )
p(k) =
k=1
k1
k1 = 1.
= (1 )
k=1
k=1

A funo de probabilidade Geomtrica pode ser utilizada para modelar o nmero de
repeties do lanamento de uma moeda at a primeira ocorrncia de cara, tempo de espera
medido em unidades de tempo inteira at a chegada do prximo consumidor em uma la,
ou at a prxima emisso de um fton.
Exemplo 6.2.1 :
Suponha que joga-se uma moeda com probabilidade de cara igual a

0 < p < 1 independentemente at que uma coroa ocorra. Seja X o nmero de repeties
necessrias at que coroa aparea nesta seqncia, de modo que se o primeiro lanamento
for coroa temos que X = 1. Qual a probabilidade do evento X = k para k {1, 2, 3, . . .}?
Note que para que X = k necessrio que os primeiros k 1 lanamentos sejam caras
e o k -simo lanamento seja coroa, logo pela independncia dos lanamentos, temos que
P (X = k) = pk1 (1 p). Ou seja X uma varivel geomtrica com parmetro p.
Se X for uma varivel aleatria com distribuio de probabilidade Geomtrica com pa-
65
CAPTULO 6. PRINCIPAIS VARIVEIS ALEATRIAS DISCRETAS

rmetro , temos que sua esperana dada por:
k(1 ) k1 =
EX =
k=1
k1 =
= (1 )
j=1 k=j
66
(1 ) k1
k=1 j=1
j1
j=1
1
1
Onde utilizamos a frmula da soma innita de uma progresso geomtrica com razo .
Com um clculo similar, porm mais longo, pode-se provar que V arX = (1)
2.
Exemplo 6.2.2:
Suponha que X tenha uma distribuio geomtrica com parmetro .

Mostre que para quaisquer dois inteiros positivos s e t,
P (X > s + t|X > s) = P (X > t).
Soluo: Note que

P (X > s + t|X > s) =
P (X > s + t, X > s)
P (X > s + t)
=
.
P (X > s)
P (X > s)
Mas
P (X > s + t) =
(1 ) k1 = s+t .
k=s+t+1
Similarmente, temos que P (X > s) = . Portanto,
P (X > s + t|X > s) = t = P (X > t).

Esta propriedade da distribuio geomtrica conhecida como falta de memria.
6.3 Binomial Negativa ou Pascal.

Esta distribuio uma generalizao bvia da distribuio geomtrica. Suponha que ao
invs de estarmos interessados no nmero de repeties de um experimento at a primeira
ocorrncia de um evento, estejamos interessados em calcular o nmero de repeties at a
r-sima ocorrncia de um evento. Seja Y o nmero de repeties necessrio a m de que
um evento A possa ocorrer exatamente r vezes. Temos que Y = k se, e somente se, A
ocorrer na k -sima repetio e A tiver ocorrido r 1 vezes nas (k 1) repeties anteriores.
Assumindo independncia entre os experimentos, esta probabilidade igual p k1
pr1 (1
r1
p)kr . Portanto,
k1 r
P (Y = k) =
p (1 p)kr , onde k r.
r1
Note que se r = 1, temos que Y tem uma distribuio geomtrica com parmetro = 1 p.
No caso geral, dizemos que Y tem uma distribuio Binomial Negativa ou Pascal.

67
Para calcular EY e V arY podemos proceder da seguinte maneira. Seja Z1 , Z2 , . . . uma
seqncia de variveis aleatrias tal que Z1 o nmero de repeties necessrias at a primeira
ocorrncia de um evento A, e Zi o nmero de repeties necessrias entre a (i 1)-sima
e a i-sima ocorrncia de A, para i = 2, 3, . . . , r. Ento, as variveis Zi so independentes
e cada uma delas tem uma distribuio geomtrica com parmetro = 1 p, e temos que
Y = Z1 + Z2 + + Zr . Logo, usando propriedades da esperana e da varincia, temos que
EY = rEZ1 = pr e V arY = rV arZ1 = r(1p)
.
p2
6.3.1 Relao entre as Distribuies Binomial e Binomial Negativa.

Suponhamos que X tenha distribuio binomial com parmetros n e p, ou seja, X igual
ao nmero de sucessos em n ensaios repetidos de Bernoulli com probabilidade de sucesso p.
Suponhamos que Y tenha uma distribuio Binomial Negativa com parmetros r e p, ou seja,
Y o nmero de ensaios de Bernoulli necessrios para se obter r sucessos com probabilidade
de sucesso p. Ento, temos que {X r} = {Y n}, ou seja, o nmero de sucessos em n
ensaios maior ou igual a r se, e somente se, o nmero de ensaios Bernoulli at a ocorrncia
do r-simo sucesso for menor ou igual a n. Portanto,
P (X r) = P (Y n).
Observe que estas duas distribuies tratam de ensaios de Bernoulli repetidos. A distribuio binomial surge quando lidamos com um nmero xo de ensaios e estamos interessados
no nmero de sucessos que venham a ocorrer. A distribuio binomial negativa encontrada
quando xamos o nmero de sucessos e ento registramos o nmero de ensaios necessrio.
6.4 Poisson.
Dizemos que X tem uma distribuio Poisson com parmetro , onde 0, se X(w)
k
{0, 1, . . .} e p(k) = e k! , para k {0, 1, . . .}.
Usando o resultado da expanso em srie de Taylor da funo exponencial, temos que
para todo x real,
xk
x
e =
.
k!
k=0
Utilizando este fato, temos que
p(k) =
k=0
k=0
e k
k
= e
= e e = 1.
k!
k!
k=0

A funo de probabilidade Poisson utilizada para modelar a contagem do nmero de
ocorrncias de eventos aleatrios em um certo tempo T : nmero de ftons emitidos por
uma fonte de luz de intensidade I ftons/seg em T segundos ( = IT ), nmero de clientes
chegando em uma la no tempo T ( = CT ), nmero de ocorrncias de eventos raros no
tempo T ( = CT ).

68
Exemplo 6.4.1: Se a probabilidade de 0 ftons serem emitidos no tempo T igual a 0,1,
ento qual a probabilidade de pelo menos 2 ftons serem emitidos no tempo T ?
Se X for uma varivel aleatria com distribuio de probabilidade Poisson com parmetros , temos que sua esperana dada por:
e k
EX =
k
=
k!
k=0
e k
e k1
k
=
= .
k!
(k 1)!
k=1
k=1
J vimos que o segundo momento de uma varivel aleatria com distribuio Poisson()
igual a 2 + . Portanto, V arX = 2 + ()2 = .
Podemos analisar o valor mais provvel de uma distribuio de Poisson, atravs da razo
de dois valores sucessivos da funo probabilidade de massa:
pk+1
=
.
pk
k+1
Note que esta razo estritamente decrescente em k . Logo, {pk } sempre decrescente se
< 1, decresce aps p0 = p1 se = 1, e cresce inicialmente se > 1 e eventualmente decresce
qualquer que seja o valor de . Formalmente, um valor mais provvel de uma distribuio
de Poisson denido como k se pk +1 pk e pk 1 pk . (Note que podem existir valores
adjacentes que possuam o mesmo valor.) Mas esta condio equivalente a,
k k + 1, ou
1 k .
Note que se tomarmos k como sendo o maior inteiro menor ou igual a esta restrio
satisfeita, e portanto este um valor mais provvel desta distribuio. A Figura 6.4 nos
mostra a funo probabilidade de massa da Poisson para 3 valores de parmetros 1, 4, e 10.
Exemplo 6.4.2: Suponha que o nmero de clientes que chegam em um banco segue uma
distribuio de Poisson. Se a probabilidade de chegarem 3 clientes for o triplo da de chegarem
4 clientes em um dado perodo de 10 minutos. Determine:
(a) Qual o nmero esperado de clientes que chegam em um perodo de 1 hora neste banco?
(b) Qual o nmero mais provvel de clientes que chegam em um perodo de 1 hora neste
banco?
69
6.5 Hipergeomtrica.
A distribuio hipergeomtrica descreve o nmero de sucessos em uma seqncia de n amostras de uma populao nita sem reposio.
Por exemplo, considere que tem-se uma carga com N objetos dos quais D tm defeito. A
distribuio hipergeomtrica descreve a probabilidade de que em uma amostra de n objetos
distintos escolhidos da carga aleatoriamente exatamente k objetos sejam defeituosos.
Em geral, se uma varivel aleatria X segue uma distribuio hipergeomtrica com parmetros N, D, e n, ento a probabilidade de termos exatamente k sucessos dada por
p(k) =
D
k
N D
nk
N
n
Esta probabilidade positiva se: N D n k , ou seja k max(0, D + n N ), e

k min(n, D).
Esta frmula pode ser entendida assim: existem Nn possveis amostras sem reposio.
D
maneiras de preenExistem Dk maneiras de escolher k objetos defeituosos e existem Nnk
cher o resto da amostra com objetos sem defeito.
Quando a populao grande quando comparada ao tamanho da amostra (ou seja, N for
muito maior que n) a distribuio hipergeomtrica aproximada razoavelmente bem por uma
distribuio binomial com parmetros n (tamanho da amostra) e p = D/N (probabilidade
de sucesso em um nico ensaio).
Se X for uma varivel aleatria com distribuio de probabilidade Hipergeomtrica com
parmetro N, D, n, temos que sua esperana dada por:
n
EX =
nD
=
N
k=0
n
k=1
D
k
N D
nk
N
n
=
k=1
D!(N D)!(N n)!n!

k!(D k)!(n k)!(N D n + k)!N !
(D 1)!(N D)!(N n)!(n 1)!

nD
=
(k 1)!(D k)!(n k)!(N D n + k)!(N 1)!
N
k=1
D1 N D
k1
nk
N 1
n1
Substituindo no somatrio D = D 1, k = k 1, n = n 1 e N = N 1, temos

n
nD
EX =
N k =0
D
k
N D
n k
N
n
nD
.
N
Onde utilizamos o fato que o somatrio igual soma da funo probabilidade de massa de
uma varivel aleatria Hipergeomtrica para todos os valores que tem probabilidade positiva,
e portanto, igual a 1. Com um clculo similar, porm mais longo, pode-se provar que
(N D)(N n)
.
V arX = nD
N
N (N 1)
Exemplo 6.5.1: Suponha que uma urna contm 20 bolas brancas e 10 bolas pretas. Se 4
bolas so retiradas da urna. Determine:
(a) A probabilidade de pelo menos uma bola ser branca, se as bolas so retiradas com
reposio.

70
(b) A probabilidade de pelo menos uma bola ser branca, se as bolas so retiradas sem
reposio.
Exemplo 6.5.2: Por engano 3 peas defeituosas foram misturadas com boas formando um
lote com 12 peas no total. Escolhendo ao acaso 4 dessas peas, determine a probabilidade
de encontrar:
(a) Pelo menos 2 defeituosas.
(b) No mximo 1 defeituosa.
(c) No mnimo 1 boa.
6.6 Poisson como um Limite de Eventos Raros de Binomial

Suponhamos que chamadas telefnicas cheguem em uma grande central, e que em um perodo
particular de trs horas (180 minutos), um total de 270 chamadas tenham sido recebidas,
ou seja, 1,5 chamadas por minuto. Suponhamos que queiramos calcular a probabilidade de
serem recebidas k chamadas durante os prximos trs minutos.
Ao considerar o fenmeno da chegada de chamadas, poderemos chegar concluso de que,
a qualquer instante, uma chamada telefnica to provvel de ocorrer como em qualquer
outro instante. Como em qualquer intervalo de tempo, temos um nmero innito de pontos,
vamos fazer uma srie de aproximaes para este clculo.
Para comear, pode-se dividir o intervalo de 3 minutos em nove intervalos de 20 segundos cada um. Poderemos ento tratar cada um desses nove intervalos como um ensaio de
Bernoulli, durante o qual observaremos uma chamada (sucesso) ou nenhuma chamada (fa20
lha), com probabilidade de sucesso igual a p = 1, 5 60
= 0, 5. Desse modo, poderemos
9
. Poser tentados a armar que a probabilidade de 2 chamadas igual a 92 (0, 5)9 = 128
rm, este clculo ignora a possibilidade de que mais de uma chamada possa ocorrer em um
nico intervalo. Ento, queremos aumentar o nmero n de subintervalos de tempo de modo
que cada subintervalo corresponde a 180
segundos e ento a probabilidade de ocorrncia
n
180
de uma chamada em um subintervalo igual a p = 1, 5 60n
. Desta maneira temos que
np = 4, 5 permanece constante ao crescermos o nmero de subintervalos. Utilizando novamente o modelo binomial, temos que a probabilidade de ocorrerem k chamadas dada por:
n 4,5 k
( n ) (1 4,5
)nk . Queremos saber ento o que acontece com esta probabilidade quando
k
n
n . A resposta como veremos a seguir que esta distribuio tende a distribuio de
Poisson e este resultado conhecido como limite de eventos raros.
Consideremos a expresso geral da probabilidade binomial,
p(k) =
n(n 1) (n k + 1) k
n k
n!
pk (1 p)nk =
p (1 p)nk .
p (1 p)nk =
k
k!(n k)!
k!

71
Como queremos estudar o caso em que np constante, faamos np = , ou seja, p = /n
e 1 p = n
. Ento,
n
n(n 1) (n k + 1) k n nk
( ) (
)
k!
n
n
k
1
k1
=
[(1)(1 ) (1
)][1 ]nk
k!
n
n
n
p(k) =
Fazendo n , temos que os termos da forma (1 nj ), para 1 j k 1, tendem para

1 e como existe um nmero xo k 1 deles, o seu produto tambm tende a 1. O mesmo
ocorre com (1 n )k . Finalmente, por denio do nmero e, temos que (1 n )n e
quando n . Portanto,
k
lim p(k) = e ,
n
k!
ou seja obtemos a expresso de Poisson.
Ento, provamos o seguinte teorema:
Teorema 6.6.1: Se limn npn = > 0, ento

lim
n k
k
pn (1 pn )nk = e .
k
k!
Exemplo 6.6.2: Ao formar nmeros binrios com n dgitos, a probabilidade de que um d-
gito incorreto possa aparecer 0,002. Se os erros forem independentes, qual a probabilidade
de encontrar k dgitos incorretos em um nmero binrio de 25 dgitos? Se um computador
forma 106 desses nmeros de 25 dgitos por segundo, qual a probabilidade de que pelo
menos um nmero incorreto seja formado durante qualquer perodo de 1 segundo?
Soluo: A probabilidade de que k dgitos sejam incorretos em um nmero binrios
de 25 dgitos igual a 25
(0,002)k (0,998)25k . Em particular, a probabilidade de que pelo
k
menos um dgito seja incorreto igual a 1 (0,998)25 0,049. Se tivssemos usado a
aproximao pela Poisson ento teramos uma Poisson com parmetro 25 0,002 = 0,05,
logo a probabilidade de pelos menos um dgito incorreto neste nmero de 25 dgitos seria
1 e0,05 0,049.
A probabilidade de que pelo menos um nmero incorreto seja formado durante o perodo
6
de 1 segundo igual a 1 (0,049)10 1 e49000 1.
6.7 A Distribuio Multinomial

Vamos dar o exemplo de uma distribuio conjunta de variveis aleatrias discretas, que pode
ser considerada como uma generalizao da distribuio binomial. Considere um experimento
aleatrio qualquer e suponha que o espao amostral deste experimento particionado em k
eventos {A1 , A2 , . . . , Ak }, onde o evento Ai tem probabilidade pi . Suponha que se repita este
experimento n vezes de maneira independente e seja Xi o nmero de vezes que o evento Ai
ocorreu nestas n repeties. Ento,
P (X1 = n1 , X2 = n2 , . . . , Xk = nk ) =
n!
pn1 1 pn2 2 pnk k ,
n1 !n2 ! nk !

72
k
onde i=1 ni = n. (Relembre que o nmero de maneiras de arranjar n objetos, n1 dos quais
de uma espcie, n2 dos quais de uma segunda espcie, . . ., nk dos quais so de uma
k -sima espcie dado pelo coeciente multinomial n1 !n2n!!nk ! .)
Captulo 7
Principais Variveis Aleatrias
Contnuas
7.1 Introduo
Neste captulo, vamos explorar alguns exemplos importantes de variveis aleatrias contnuas.
7.2 Normal ou Gaussiana

Dizemos que X tem uma distribuio Normal (ou Gaussiana) com parmetros e , onde
e > 0 so nmeros reais, se a funo densidade de X igual a
(x)2
1
fX (x) = e 22 .
2
Vamos vericar que esta realmente uma funo densidade de probabilidade. Fazendo
a substituio de variveis t = x
, obtemos
(x)2
1
e 22 dx =
2
1 t2
e 2 dt = I.
2
Vamos agora utilizar um artifcio de calcular I 2 . Temos
I2 =
1
2
t2
2
dt
s2
2
1
2
ds =
(t2 +s2 )
2
dtds.
Fazendo a seguinte mudana de varivel: t = r cos e s = rsen , temos
I2 =
1
2
1
=
2
1
2
re
0
2
r 2
2
e
0
r 2
2
|
0 d
1d = 1.
0
73
drd
CAPTULO 7. PRINCIPAIS VARIVEIS ALEATRIAS CONTNUAS

74
Portanto, temos que I = 1.
Historicamente, esta distribuio foi chamada de normal porque ela era amplamente
aplicada em fenmenos biolgicos e sociais que era sempre tida como a distribuio antecipada ou normal. Aplicaes da distribuio normal incluem rudo trmico em resistores e em
outros sistemas fsicos que possuem um componente dissipativo; rudos de baixa-freqncia
como os em encontrados em amplicadores de baixa freqncia; e variabilidade em parmetros de componentes manufaturados e de organismos biolgicos (por exemplo, altura, peso,
inteligncia). (Pode parecer estranho, modelar quantidades que s assumem valores positivos
por uma distribuio normal onde valores negativos aparecem. Nestes casos o que ocorre
que os parmetros e 2 devem ser escolhidos de modo que a probabilidade da varivel
assumir um valor negativo seja aproximadamente nula de modo que a representao seja
vlida.)
A Figura 7.2 nos mostra a funo probabilidade de massa da Normal para 4 pares de
parmetros. Observe que a densidade simtrica em torno do parmetro , e quanto menor
o parmetro mais concentrada a densidade em torno deste parmetro . Pode-se provar
que os pontos e + so os pontos de inexo do grco de fX . Veremos adiante
que e 2 so iguais a esperana e a varincia da distribuio normal, respectivamente. Se
= 0 e 2 = 1 chamamos esta densidade de normal padro ou normal reduzida.
Se X N (, ), temos que sua esperana dada por:
EX =
Fazendo a mudana de varivel y =
EX =
y + y2
e 2 dy =
2
(x)2
1
x e 22 dx.
2
x
,
temos
y y2
e 2 dy +
2
y2
e 2 dy = 0 + = .
2
Para o clculo do segundo momento, vamos tambm realizar a mudana de varivel

y = x
, logo
75
z 2
1
E(X ) =
(y + )2 e 2 dz
2
2
z 2
z 2
1
=
z 2 e 2 dz + 2
ze 2
2
2
2
z
1
+2
e 2 dz.
2
2
A segunda parcela, pela resultado da esperana da normal padro igual a zero. A ltima
parcela pelo resultado da integral da densidade da normal, temos que igual a 2 . Para
z 2
calcular a primeira parcela, vamos usar integral por partes onde u = z e dv = ze 2 . Assim
obtemos
z 2
2
E(X 2 ) = (ze 2 |
+
2
= 2 + 2 .
z 2
2
dz) + 2
O seguinte teorema arma que transformaes lineares de variveis aleatrias com distribuio normal tambm so distribudas normalmente.
Teorema 7.2.1: Se X N (, 2 ) e se Y = aX + b, onde a > 0 e b IR, ento Y ter

distribuio N (a + b, a2 2 ).
Prova: Note que

FY (y) = P (Y y) = P (X
yb
yb
) = FX (
).
a
a
Derivando a expresso acima em relao a y , temos

yb
( a )2
(y(b+a))2
1
yb
1
1
fY (y) = fX (
)=
e 22
=
e 2a2 2 ,
a
a
2a
2a
ou seja, Y N (a + b, a2 2 ).
Corolrio 7.2.2: Se X N (, 2 ), ento Y =
tem distribuio normal padro.
Pode-se provar que se Xi N (i , i2 ) so independentes, e ai IR, para i = 1, 2, 3, . . .,

ento Y = c + ni=1 ai Xi tambm tem distribuio normal com mdia EY = c + ni=1 ai i
e varincia V arY = ni=1 (ai i )2 .
7.2.1 Tabulao da Distribuio Normal

Se X N (0, 1), ento
76
1 x2
e 2 dx.
2
a
Esta integral no pode ser resolvida analiticamente, contudo mtodos de integrao numrica
podem ser empregados para calcular integrais da forma acima e de fato valores de P (X s)
existem em vrias tabelas. A funo de distribuio acumulada de uma normal padro usux2
s
almente denotada por . Portanto, temos que (s) = 12 e 2 dx. Ento, consultando
valores de em uma tabela, podemos determinar que P (a < X b) = (b) (a).
Utilizando o resultado do Corolrio 7.2.2 e valores de , podemos obter para qualquer
X N (, 2 ), o valor de P (a < X b):
P (a < X b) =
a
X
b
<
b
a
(
) (
)
P (a < X b) = P (
Em especial podemos estar interessados em calcular P ( k X + k), usando o

resultado acima temos que esta probabilidade igual a (k) (k).
Da simetria em torno de zero da normal padro, temos que (s) = P (X s) = P (X
s) = 1 (s) para qualquer valor de s. Esta relao pode ser til, pois freqentemente
tabelas da distribuio normal s possuem os valores positivos de s.
Exemplo 7.2.3: Suponha que X tenha uma distribuio N (2; 0,16). Empregando a tbua
de distribuio normal, calcule as seguintes probabilidades:
(a) P (X 2,3).
(b) P (1,8 X 2,1).
Soluo: Parte (a),

P (X 2,3) = 1 P ( 2,3) = 1 (
2,3 2
) = 1 (0,75) = 1 0,7734 = 0,2266.
0,4
Parte (b),
P (1,8 X 2,1) = (
2,1 2
1,8 2
)(
) = (0,25)(0,5) = 0,59870,3085 = 0,2902.
0,4
0,4
Exemplo 7.2.4: Um equipamento com dois terminais com uma resistncia equivalente de
1 Megohm opera em uma sala com temperatura de 300K. A voltagem trmica V que ele gera
observada na banda de 1,5GHz at 2,5GHz. Qual a probabilidade que a magnitude da
voltagem exceda 8 milivolts? Assuma que V N (0, 2 ), onde 2 = 4T RB , a constante
de Boltzman que igual a 1,38 1023 , V medido em volts, T medido em graus Kelvin,
R medido em ohms, e B medido em Hertz.

77
2
23
6
9
Soluo: Das informaes podemos calcular que = 4(1,38 10 )(300)(10 )(10 ) =
16,5 106 . Logo, 0,004. Portanto,
P (|V | > 0,008) = P (V > 0,008) + P (V < 0,008) = (1 (
0,008 0
0,008 0
)) + (
)
0,004
0,004
= 1 (2) + (2) = 2(1 (2)) = 2(1 0,9772) = 0,456.
7.3 Exponencial
Dizemos que X tem uma distribuio Exponencial com parmetro , onde > 0 um
nmero real, se a funo densidade de X igual a
fX (x) = ex U (x),
onde U (x) = I[0,) (x) conhecida como funo degrau.
A Figura 7.3 mostra a funo densidade exponencial para = 0,5, = 1, e = 1,5.
A densidade exponencial pode ser utilizada para modelar os seguintes fenmenos: tempo
de vida de componentes que falham sem efeito de idade; tempo de espera entre sucessivas
chegadas de ftons, emisses de eltrons de um ctodo, ou chegadas de consumidores; e
durao de chamadas telefnicas.
Se X Exp(), ento X possui densidade igual a fX (x) = ex U (x). Logo, temos que
sua esperana dada por:
EX =
xe
0
dx =
xex |
0
ex dx =
ex 1
| = .
0
Para o clculo da varincia, vamos calcular o segundo momento:
EX 2 =
0
x2 ex dx = x2 ex |
0 +2
Portanto,
V arX = EX 2 (EX)2 =
xex dx =
2
.
2
1
1
2
2 = 2.
2

78
A distribuio exponencial tambm possui a propriedade de falta de memria, ou seja,
para quaisquer s 0 e t 0, temos
P (X > s + t|X > s) = P (X > t).

Para vericar este fato, note que
P (X > s + t|X > s) =

Mas
P (X > s + t, X > s)
P (X > s + t)
=
.
P (X > s)
P (X > s)
P (X > s + t) =
(s+t)
ex dx = [ex ]
.
s+t = e
s+t
s
Similarmente, temos que P (X > s) = e
. Portanto,
P (X > s + t|X > s) = et = P (X > t).
Exemplo 7.3.1: Observa-se que um tipo particular de chip igualmente provvel durar
menos que 5.000 horas ou mais que 5.000 horas. Determine:
(a) Determine o tempo de durao mdio de um chip deste tipo.

(b) Qual a probabilidade que o chip durar menos de 1.000 horas ou mais de 10.000 horas?
Soluo: Seja X o tempo de durao de um chip deste tipo. Tempos que X tem uma
distribuio exponencial, devemos agora determinar seu parmetro. Sabe-se que P (X <
5000) = P (X > 5000), e como P (X < 5000) + P (X > 5000) = 1, temos que P (X <
log 2
5000) = 0,5. Portanto, 1 e(5000) = 0,5, ou seja, = 5000
. Ento, o tempo de durao
mdio deste tipo de chip 5000
horas.
log 2
Para calcular a probabilidade desejada temos que
P ([X < 1000] [X > 10000]) = P (X < 1000) + P (X > 10000) = 1 e
log 2
5
+ e2 log 2
= 1 (2) 5 + (2)2 = 1 0,8706 + 0,25 = 0,3794.
7.4 Cauchy
Dizemos que X tem uma distribuio Cauchy com parmetro x0 e > 0, se a funo
densidade de X igual a
1
.
fX (x) = 2
+ (x x0 )2
A Figura 7.4 mostra a funo densidade Cauchy para alguns pares de parmetros.
Pode-se provar que a razo entre duas variveis aleatrias com distribuio Normal padro
independentes tem uma distribuio Cauchy com parmetros x0 = 0 e = 1.
Se X Cauchy(x0 , ), ento X no integrvel, ou seja EX no est denida, pois:
0
2
dx = , e
+ (x x0 )2
x
2
dx = .
+ (x x0 )2
79
7.5 Qui-quadrado
Dizemos que X tem uma distribuio Qui-quadrado com parmetro n, onde n nmero
natural, se a funo densidade de X igual a
fX (x) =
xn/21 ex/2
U (x),
2n/2 (n/2)
onde (p) = 0 xp1 ex dx para p > 0 a funo gama. n conhecido como nmero de
graus de liberdade da distribuio Qui-quadrado.
A Figura 7.5 mostra a funo densidade Qui-quadrado para 1, 2, 3, 4, e 5 graus de
liberdade.
Pode-se provar que se X1 , X2 , X3 , . . . , Xn so n variveis aleatrias independentes com

densidade normal padro, ento X = X12 + X22 + + Xn2 tem densidade Qui-quadrado com
n graus de liberdade. A distribuio Qui-quadrado tem inmeras aplicaes em inferncia
estatstica. Por exemplo, na estimao de varincias. Pode-se provar que EX = n e V arX =
2n.
7.6 t de Student
80
Dizemos que X tem uma distribuio t de Student com parmetro n, onde n nmero
natural, se a funo densidade de X igual a
fX (x) =
x2 (n+1)
[(n + 1)/2]
(1 + ) 2 ,
n
[n/2] n
onde n conhecido como nmero de graus de liberdade da distribuio t de Student.

A Figura 7.6 mostra a funo densidade t de Student para 1, 2, 5, 10 e innitos graus de
liberdade.
Note que se n = 1, temos que a distribuio t de Student igual a distribuio Cauchy(0,1). Se n , a distribuio t de Student converge para a distribuio normal padro.
Pode-se provar que se Z uma distribuio normal padro independente de V que tem distribuio Qui-quadrado com n graus de liberdade, ento X = ZV tem uma distribuio t
n
de Student com n graus de liberdade. A distribuio t de Student bastante utilizada em

inferncia estatstica. Por exemplo, pode-se utiliz-la para calcular intervalos de conana
para a mdia de uma amostra quando a varincia da populao no conhecida. Pode-se
n
provar que se n > 1, ento EX = 0; que se n > 2, ento V arX = n2
.
7.7 A Distribuio Normal Bivariada

Vamos agora dar o exemplo de uma distribuio conjunta de variveis aleatrias contnuas.
Dizemos que o vetor aleatrio (X, Y ) possui distribuio normal bivariada quando tem densidade dada por
f (x, y) =
1
21 2
1 2
exp{
1
x 1 2
x 1 y 2
y 2 2
[(
) 2(
)(
)+(
) ]},
2
2(1 )
1
1
2
2
onde 1 > 0, 2 > 0, 1 < < 1, 1 IR, 2 IR.

Se = 0, esta densidade fatora e temos que X e Y so independentes. Se = 0, esta
densidade no fatora e X e Y no so independentes. Alm disso, a distribuio normal
bivariada satisfaz as seguintes propriedades:

81
2
2
1. As distribuies marginais de X e de Y so N (1 , 1 ) e N (2 , 2 ), respectivamente.
2. O parmetro igual ao coeciente de correlao entre X e Y .
3. As distribuies condicionais de X dado que Y = y e de Y dado que X = x so,
respectivamente, N (1 + 12 (y 2 ), 12 (1 2 )) e N (2 + 12 (y 1 ), 22 (1 2 )).
A Figura 7.7 nos mostra a funo densidade da normal bivariada, onde = 1 = 2 = 0
e 1 = 2 = 1.
Captulo 8
Anlise Exploratria de Dados
8.1 Resumo de Dados
8.1.1 Tipos de Variveis
Quando se faz um experimento cientco, em geral queremos observar os resultados referentes alguma caracterstica de interesse. Tais caractersticas de interesse so denominadas
variveis. Por exemplo, podemos estar interessados no tempo de vida til de um dado equipamento eletrnico. As variveis podem ser classicadas como qualitativas quando descrevem
possveis atributos de um dado experimento ou quantitativas quando descrevem possveis nmeros resultantes de um processo de contagem ou mensurao. Por exemplo, a marca e o
modelo de um equipamento eletrnico so variveis qualitativas, porm o temo de vida til
uma varivel quantitativa.
As variveis qualitativas podem ser classicadas como nominais ou ordinais dependendo
se existe ou no uma ordem natural em seus possveis resultados. No exemplo anterior tanto
a marca como o modelo so variveis nominais. Para um exemplo de uma varivel ordinal,
considere o grau de escolaridade de um individuo em uma dada pesquisa.
As variveis quantitativas podem ser classicadas como discretas ou contnuas dependendo se o conjunto de possveis resultados um conjunto enumervel ou no enumervel.
O tempo de vida til de um equipamento pode ser considerado como uma varivel contnua.
J o nmero de ftons emitidos por uma fonte radioativa uma varivel discreta.
Em algumas situaes podem se atribuir valores numricos aos diversos atributos ou
classes de uma varivel qualitativa para que se possa efetuar uma anlise como se esta
fosse quantitativa, desde que haja alguma possvel interpretao desta atribuio. Um caso
bastante til no caso de uma varivel dicotmica, ou seja, que assume apenas dois possveis
valores. Por exemplo, o sexo de um indivduo em uma dada observao. Pode-se neste caso
associar-se o valor zero a um sexo e o valor 1 ao outro.
Um outro possvel critrio para classicar variveis em funo da escala de medida
adotada para se analisar o resultado do experimento. As escalas de medidas podem ser:
nominais, ordinais, intervalares, e de razo.
Uma escala nominal utilizada para classicar os resultados de um experimento, por

exemplo, se dado equipamento falhou ou no durante o perodo de estudo, a marca e
82
CAPTULO 8. ANLISE EXPLORATRIA DE DADOS

o modelo do equipamento em questo.
83
Uma escala ordinal alm de classicar os resultados tambm pode ser utilizada para
estabelecer uma ordem entre as diferentes classes de possveis resultados, por exemplo,
grau de escolaridade de um indivduo, classe socio-econmica de um indivduo, posio
que um dado indivduo conclui uma certa corrida. Transformaes que preservam a
ordem no alteram a estrutura de uma classe ordinal.
Uma escala intervalar pode ser utilizada para alm de classicar e ordenar os resultados
tambm quanticar a diferena entre as classes. Nesta escala necessitamos estabelecer
uma origem arbitrria e uma unidade de medida nesta escala. Por exemplo, a temperatura de um dado equipamento em funcionamento medida em graus centgrados
constitui uma medida numa escala intervalar. Considere o caso em que temos trs
equipamentos E1, E2, e E3, operando em temperaturas de 40, 45 e 80 graus centgrados, respectivamente. vlido armar que a diferena de temperatura entre E3
e E2 7 vezes maior que a diferena de temperatura entre E2 e E1. Contudo, neste
escala no faz sentido armar que E3 tem uma temperatura 2 vezes maior que E1,
pois lembre que a origem e a unidade de graus centgrados escolhidas so arbitrrias,
se estivssemos medindo a temperatura em graus Fahrenheits no se observaria esta
relao.
Uma escala de razo podem ser utilizada para alm de classicar e ordenar os resultados
tambm estabelecer quo maior um resultado que outro. A diferena com a escala
intervalar que agora existe um zero bem denido neste escala. A altura de um
indivduo, o tempo at ocorrncia de um dado evento, o nmero de ocorrncias de um
dado evento em um dado intervalo de tempo so exemplos de medidas que utilizam
uma escala de razo. Observe que se no caso em que temos dois equipamentos E1 e
E2 com tempo de vida til de 100h e 200h, respectivamente. vlido armar que o
tempo de vida til de E2 o dobro do tempo de vida til de E1.
8.1.2 Distribuies de Freqncias

Considere a seguinte tabela que contm informaes sobre alguns empregados de uma companhia.
No. Est. Civil Grau de Instruo No. de Filhos Salrio Idade Sexo
1
S
Mdio
0
3
34
F
2
C
Superior
2
5
25
M
3
C
Fundamental
1
4
46
M
4
C
Fundamental
3
5,5
32
M
5
S
Mdio
1
7,3
23
F
6
C
Mdio
2
3,5
39
M
7
S
Superior
3
10
50
M
8
C
Mdio
4
6
47
M
9
C
Mdio
0
2
21
F
10
S
Mdio
1
3,7
33
M

84
Uma maneira til de se descrever os resultados das variveis atravs das medidas de
freqncia, freqncia relativa (proporo), e porcentagem. Por exemplo, vamos considerar
a varivel Grau de Instruo na tabela anterior anterior. A freqncia de uma dada classe
nada mais do que o nmero de vezes que determinada classe ocorreu nos resultados do
experimento. A freqncia relativa nada mais que a proporo de vezes que dada classe
ocorreu em relao ao nmero total de indivduos que participaram do experimento. A
porcentagem igual a 100 vezes a freqncia relativa. A tabela abaixo conhecida como
tabela de freqncia para a varivel Grau de Instruo.
Grau de Instruo Freqncia (ni ) Freqncia Relativa (fi ) Porcentagem 100fi
Fundamental
2
0,2
20
Mdio
6
0,6
60
Superior
2
0,2
20
Total
10
1
100
Quando desejamos comparar esta varivel grau de instruo entre diferentes empresas,
deve-se usar ou a freqncia relativa ou a porcentagem, pois possuem o mesmo total para
qualquer empresa, enquanto o nmero total de empregados varia de empresa para empresa.
Em geral, quando construmos uma tabela de freqncia estamos interessados em resumir
os resultados no que diz respeito a uma dada classe. No caso de uma varivel quantitativa,
s vezes se faz necessrio que dividamos em intervalos os possveis resultados do experimento
para esta varivel, pois caso contrrio pode ocorrer que cada resultado ocorra somente um
nmero pequeno de vezes e no se possa resumir a informao a respeito da dada varivel.
Esta situao ocorre freqentemente no caso de variveis que assumem valores reais. No
nosso exemplo anterior, suponha que queiramos construir uma tabela de freqncia para a
varivel Salrio. Neste caso, podemos considerar intervalos de tamanho 3 para construir a
seguinte tabela:
Salrio Freqncia (ni ) Freqncia Relativa (fi ) Porcentagem 100fi
[0, 3)
1
0,1
10
[3, 6)
6
0,6
60
[6, 9)
2
0,2
20
[9, 12)
1
0,1
10
Total
10
1
100
A escolha dos intervalos acima em geral arbitrria, dependendo do contexto cada prossional pode escolher um conjunto diferente de intervalos. A nica restrio que tal escolha
deve satisfazer que estes intervalo sejam disjuntos e que cubram todos os valores que foram
obtidos pela varivel no experimento. Se escolhermos poucos intervalos, perdemos informao, pois note que a tabela s arma que 6 pessoas tm salrio entre 3 e 6 salrios mnimos
sem especicar qual o salrio exato deles. Por outro lado, se escolhermos muitos intervalos,
ento nossa inteno de resumir os resultados do experimento no cumprida. Em geral,
recomenda-se o uso de 5 a 15 intervalos de comprimentos iguais.
85
8.1.3 Representao Grca

Variveis Qualitativas
Existem vrios tipos de grcos para representar a distribuio dos dados de uma varivel
qualitativa. Os dois mais utilizados so: o grco de barras e o grco de setores ou pizza.
O grco de barras consiste em construir retngulos ou barras, uma para cada classe, em
que uma das dimenses proporcional freqncia de ocorrncia desta classe, e a outra dimenso arbitrria porm igual para todas as barras. As barras so dispostas paralelamente
umas s outras, horizontal ou verticalmente.
O grco de setores destina-se a representar a composio, usualmente em porcentagem,
de partes de um todo. Consiste de um crculo de raio arbitrrio, representando o todo,
dividido em setores, sendo que cada setor corresponde a uma classe e tem rea proporcional
a freqncia relativa de ocorrncia desta classe.
Variveis Quantitativas
Para uma varivel quantitativa discreta podemos tambm utilizar um grco de barras como
no caso de variveis quantitativas, onde agora temos uma barra para cada possvel valor que a
varivel pode assumir. Tambm podemos considerar um grco de disperso unidimensional
onde desenhamos apenas pontos no plano cartesiano da forma (xi , ni ), isto , onde a abscissa
do ponto um possvel valor da varivel e a ordenada a freqncia de ocorrncia deste
valor.
Uma outra alternativa de grco para varivel quantitativa que muito til no caso de
variveis contnuas conhecida como histograma.
Para a construo de um histograma, o primeiro passo denir os intervalos contguos e
disjuntos que cubram todos os resultados observados. Uma vez denidos os intervalos, um
histograma nada mais do que um grco de barras contguas, onde a base proporcional ao
comprimento do intervalo e a rea da barra proporcional a freqncia relativa de ocorrncia
de intervalos neste dado intervalo. Logo, se o i-simo intervalo tem comprimento i e a
freqncia relativa de ocorrncia de resultados neste intervalo fi , ento a altura da barra
deve ser proporcional a fi /i , que chamada de densidade de freqncia da i-sima classe.
Com essa conveno a rea total do histograma deve ser proporcional a 1.
Exemplo 8.1.1: Duzentas baterias automotivas de uma dada marca foram testadas quanto
a sua vida til. Os resultados do teste em meses so reportados na tabela abaixo:
Durabilidade Freq. Relativa
0 3
0,02
3 6
0,05
6 9
0,15
9 12
0,25
12 15
0,30
15 18
0,23
(a) Construa um histograma referente a tabela acima.

86
(b) Quantas baterias, em 1000 fabricadas, sero repostas pelo fabricante se a garantia for
de 6 meses?
8.1.4 Medidas de Posio

Vimos como um resumo dos resultados (dados) atravs de uma tabela de freqncia pode
ser til para a descrio dos mesmos. Muitas vezes porm estaremos interessados em apenas
um ou alguns valores que possam representar todos os resultados de uma dada varivel. As
medidas de posio mais utilizadas so: mdia (aritmtica), mediana, ou moda.
A moda de uma varivel denida como sendo o seu resultado mais freqente durante o
experimento. Por exemplo, na tabela anterior, considere a varivel nmero de lhos, vemos
que 1 a realizao mais freqente tendo ocorrido 3 vezes. A moda de uma varivel no
necessariamente nica, se houver empate entre a freqncia de ocorrncia de mais de dos
possveis resultados, ento todos estes sero moda da varivel em questo. A moda no
necessariamente numrica, por exemplo, a moda da varivel Grau de Instruo mdio,
pois este o grau de instruo mais freqente entre os funcionrios da companhia.
A mdia (aritmtica) de uma varivel a soma dos seus resultados divididos pelo nmero
total de resultados obtidos. Portanto, a mdia aritmtica da varivel nmero de lhos :
17/10. Note que apenas faz sentido calcular mdia de variveis quantitativas.
A mediana o resultado que ocupa a posio central da srie de observaes, quando estes
esto ordenados em ordem crescente. Quando o nmero de observaes for par e a varivel for
quantitativa, usa-se a mdia aritmtica das duas observaes centrais como sendo a mediana.
Por exemplo, considere a varivel salrio as observaes desta varivel foram: 2, 3, 3,5, 3,7, 4,
5, 5,5, 6, 7,3, 10. As duas observaes centrais so 4 e 5, logo a mediana desta varivel 4,5.
Quando o nmero de observaes for par e a varivel for ordinal, dene-se ambas as classes
das duas observaes centrais e todas as outras classes entre elas como sendo medianas.
Portanto, podemos denir a mediana para qualquer varivel ordinal ou quantitativa.
Note que a presena de valores extremos ou muito pequenos ou muito grandes em comparao com os demais valores de uma varivel, alteram signicativamente sua mdia. Por
outro lado, o valor da mediana no se altera muito com a presena destes valores extremos
e por isso s vezes mais recomendado o uso da mediana para representar a posio de uma
varivel. Por exemplo, se o indivduo que ganha 10 salrios mnimos passasse a ganhar 100,
a mdia dos salrios passaria de 5 para 14, enquanto a mediana permaneceria igual a 4,5.
A determinao de medidas de posio para uma varivel quantitativa contnua, atravs
de sua distribuio de freqncias, exige aproximaes, pois perdemos as informaes dos
valores das observaes. Para o clculo da mdia, uma aproximao razovel supor que
todos os valores dentro de uma classe tenham seus valores iguais ao ponto mdio desta classe,
o que nos deixa na mesma situao para utilizarmos o procedimento anterior. A moda
denida como sendo o ponto mdio da classe de maior freqncia. No caso da mediana,
podemos ainda obter uma estimativa mais aproximada considerando que as ocorrncias em
cada classe so uniformemente distribudas, e deste modo calculando a mediana atravs de
uma proporo, como no exemplo a seguir.
Exemplo 8.1.2: O nmero de divrcios na cidade, de acordo com a durao do casamento,


Anos de Casamento No. de Divrcios
0 6
2.800
6 12
1.400
est representado na tabela abaixo:
12 18
600
18 24
150
24 30
50
87
(a) Construa o histograma da distribuio.

(b) Qual a durao mdia dos casamentos? E a mediana? E a moda?
Soluo: (a) Para a construo do histograma note que a freqncia relativa das 5
classes so, respectivamente: 14/25, 7/25, 3/25, 3/100, e 1/100. Como cada classe tem
comprimento 6, a altura de cada barra no histograma deve ser 1/6 da freqncia relativa da
sua classe correspondente.
(b) Para o clculo da mdia, devemos utilizar a aproximao de cada classe pelo seu
ponto mdio deste modo:
x = (3 (14/25)) + (9 (7/25)) + (15 (3/25)) + (21 (3/100)) + (27 (1/100)) = 6,9.

Para o clculo da mediana observe que a primeira classe j contm mais de 50% das observaes, como a mediana deve ser o valor para o qual 50% dos valores so menores que a
mediana, ento podemos determinar a mediana atravs de uma proporo: o intervalo de 0
a 6 contm 56% das observaes, o intervalo de 0 at a mediana deve conter 50%, ento
md
6
= ,
50
56
portanto, md = 5,36. Como a classe de maior freqncia a primeira, temos que a moda
igual a 3.
8.1.5 Medidas de Disperso

As medidas de posio que vimos na seo anterior, nos do informao sobre a posio
central dos resultados mas no nos fornecem nenhuma informao sobre a variabilidade dos
resultados. Para tanto, precisamos de medidas de disperso. Por exemplo, considere dois
grupos de resultados de uma certa varivel: Grupo 1 - 3,4,5,6,7; e Grupo 2 - 1,3,5,7,9.
Ambos grupos possuem a mesma mdia e mediana que igual a 5, porm os resultados do
Grupo 1 esto mais aglutinados ao redor deste valor. Medidas de disperso so utilizadas
para mensurar esta variabilidade. As duas medidas de disperso mais utilizadas so: desvio
mdio e varincia. Estas medidas analisam quo distante da mdia esto os resultados.
Seja x a mdia dos resultados do experimento. Para cada valor xi do resultado podemos
denir a distncia entre xi e x de diversas maneiras. O desvio mdio calculado considerando
distncia como sendo o valor absoluto da diferena entre xi e x. Formalmente, temos
dm(X) =
n
i=1
|xi x|
.
n

88
2+1+0+1+2
Logo, para o Grupo 1, o desvio mdio
= 1,2. Para o Grupo 2, o desvio mdio
5
4+2+0+2+4
= 2, 4.
5
A varincia, por sua vez, calculada considerando como distncia o quadrado da diferena
entre xi e x. Logo, temos que
var(X) =
=
n
i=1
x2i
n
i=1 (xi
n
2x
x)2
n
i=1
xi
n
2
i=1 (xi
+ x2 =
2xi x + x2 )
n
n
2
i=1 xi
x2 .
n
(8.1)
Logo, para o Grupo 1, a varincia 4+1+0+1+4

= 2. Para o Grupo 2, a varincia
5
16+4+0+4+16
= 8. Como a varincia uma medida de dimenso igual ao quadrado da dimen5
so dos resultados, freqente usar a medida do desvio padro, que igual a raiz quadrada
da varincia, como medida de disperso. Assim como a mdia, as medidas de disperso so
afetadas de forma excessiva por valores extremos.
No caso de variveis contnuas descritas atravs de sua distribuio de freqncias, para
o clculo de medidas de disperso tambm devemos aproximar cada classe pelo seu ponto
mdio e proceder como anteriormente.
Exemplo 8.1.3: Determine a varincia do nmero de divrcios do Exemplo 8.1.2.

Soluo: Devemos aproximar cada classe pelo valor do seu ponto mdio, ento:
varX = (9(14/25))+(81(7/25))+(225(3/25))+(441(3/100))+(729(1/100))(6,92 ) = 27,63.
8.1.6 Quantis
Apenas a informao da medida de posio e de disperso no nos do informao a respeito
da simetria ou assimetria da distribuio dos resultados. Os quantis so medidas que servem
para informar a este respeito. Vimos que a mediana uma medida tal que metade dos
resultados so menores e a outra metade maior que a mediana. Analogamente, podemos
denir um quantil de ordem p ou p-quantil, indicado por q(p), onde p uma proporo
qualquer, 0 < p < 1, tal que 100p% dos resultados sejam menores que q(p). Existem alguns
quantis que so usados mais freqentemente e recebem nomes particulares: q(0,25) o 1o.
quartil ou 25o. percentil; q(0,5) a mediana, 5o. decil, ou 50o. percentil; q(0,75) o terceiro
quartil ou 75o. percentil; e q(0,95) o 95o. percentil.
Por exemplo, se temos uma coleo de n resultados, como deveramos denir q(1/n)? Seja
x(1) x(2) x(n) uma reordenao dos resultados em ordem crescente, conhecida como
estatstica de ordem dos resultados. Ento, em analogia com a denio da mediana, o quantil
q(1/n) denido como sendo a mdia aritmtica entre x(1) e x(2) , de modo que exatamente
100/n% dos resultados so menores que q(1/n). Similarmente, o quantil q(2/n) denido
como sendo a mdia aritmtica entre x(2) e x(3) . Mas neste caso como q(1/n) x(2) q(2/n),
o resultado x(2) deve corresponder a um quantil q(p), onde n1 < p < n2 . Para a denio
formal dos quantis assume-se linearidade entre os quantis da forma q(m/n), para m n.

Ento, como x(2) =
1
+2
n n
q(1/n)+q(2/n)
,
2
89
3
x(2) igual ao quantil q( 2 ) = q( 2n
). Em geral,
i1
i
+
i0,5
2i1
ao quantil q( n 2 n ) = q( 2n ) = q( n ), para i =
seguindo o
mesmo argumento, x(i) igual

1, 2, . . . , n.
Contudo, dependendo do valor de p, precisamos ter cuidado ao denir o quantil. Se
1
1
p < 2n
, como x(1) o menor valor observado dos resultados e igual ao quantil q( 2n
),
dene-se q(p) como sendo igual a x(1) . Similarmente, se p > 2n1
,
como
x
o
maior
valor
(n)
2n
observado dos resultados e igual ao quantil q( n0,5
)
,
dene-se
q(p)
como
sendo igual a x(n) .
n
2(i1)1
2i1
Finalmente, se p = 2n + (1 ) 2n , onde 0 < < 1, ento dene-se q(p) como sendo
igual a x(i1) + (1 )x(i) .
Resumindo, temos que
x(1)
x
(n)
q(p) =
x
(i)
x(i1) + (1 )x(i)
,
,
,
,
se
se
se
se
1
,
p < 2n
2n1
p > 2n ,
p = 2i1
,
2n
2(i1)1
p = 2n + (1 ) 2i1
, onde 0 < < 1.
2n
Exemplo 8.1.4: Considere os resultados de um teste foram: 3,4,5,6, e 7. Vamos determinar

(a) q(0,05), (b) q(0,25), e (c) q(0,75).
Soluo: Para (a), como 0, 05 < 101 , temos que q(0,05) = 3. Para (b), note que 0,25 =
(0,1)+(1)0,3, se = 1/4. Portanto, q(0,25) = (1/4)3+(3/4)4 = 15/4. Finalmente, para
(c), note que 0,75 = (0,7) + (1 )0,9, se = 3/4. Portanto, q(0,75) = (3/4)6 + (1/4)7 =
25/4.
Uma medida de disperso alternativa a distncia interquartil, dq , denida como sendo
a diferena entre o terceiro e o primeiro quartil, isto , dq = q(0,75) q(0,25).
Os cinco valores x(1) , q(0,25), q(0,5), q(0,75), e x(n) so importantes para se ter uma idia
a respeito da assimetria da distribuio dos dados. Para se ter uma distribuio aproximadamente simtrica, precisamos ter:
(a) q(0,5) x(1)
x(n) q(0,5);
(b) q(0,5) q(0,25)

(c) q(0,25) x(1)
q(0,75) q(0,5); e
x(n) q(0,75).
Exemplo 8.1.5: O servio de atendimento ao consumidor de uma concessionria de veculos
recebe as reclamaes dos clientes. Tendo em vista a melhoria na qualidade do atendimento

foram anotados o nmero de reclamaes dirias nos ltimos 30 dias: 4, 5, 3, 4, 2, 6, 4, 1, 6,
5, 3, 4, 4, 5, 2, 3, 6, 5, 4, 2, 2, 3, 4, 3, 3, 2, 1, 1, 5, e 2.
(a) Faa uma tabela de freqncias desses dados.
(b) Determine o valor da mdia, moda, mediana, desvio padro, e do 1o. e 3o. quartis
desta distribuio de dados.
(c) Com base nos valores obtidos na letra (b), voc diria que esta uma distribuio
simtrica de dados?

Soluo: A tabela de freqncia dos dados dada por:
No. de Reclamaes Freq. Relativa
1
3/30
2
6/30
3
6/30
4
7/30
5
5/30
6
3/30
A mdia dos dados dada por:
90
x = (1 3/30) + (2 6/30) + (3 6/30) + (4 7/30) + (5 5/30) + (6 3/30)
3,47.
A moda igual a 4. A mediana dada por 3,5. A varincia dada por:
2 = (13/30)+(46/30)+(96/30)+(167/30)+(255/30)+(363/30)3,472
2,16.
Logo, o desvio padro igual aproximadamente a 1,47. O primeiro quartil dado por
x(8) = 2, e o terceiro quartil dado por x(23) = 5. Com estes resultados podemos observar
que
(a) q(0,5) x(1) = 2,5 = x(n) q(0,5);
(b) q(0,5) q(0,25) = 1,5 = q(0,75) q(0,5); e
(c) q(0,25) x(1) 1 = x(n) q(0,75).
Logo, podemos concluir que estes dados formam uma distribuio simtrica.
No caso de variveis contnuas descritas atravs de sua distribuio de freqncias, para
o clculo dos quantis utilizamos uma metodologia similar a do clculo da mediana, sendo
que agora q(p), 0 < p < 1, calculado atravs de uma proporo de forma que p% da rea
do histograma esteja antes de q(p) e (1 p)% esteja aps q(p), como no seguinte exemplo.
Exemplo 8.1.6: O nmero de divrcios na cidade, de acordo com a durao do casamento,

Anos de Casamento
0 6
6 12
est representado na tabela abaixo:
12 18
18 24
24 30
No. de Divrcios
2.800
1.400
600
150
50
(a) Encontre o 1o. e o 9o. decis.

(b) Qual o intervalo interquartil?

91
Soluo: (a) Podemos encontrar o primeiro decil atravs de uma proporo, pois a
primeira classe contm 56% das observaes, ento
q(0,1)
6
= ,
10
56
logo, q(0,1) = 1,07. Para o nono decil note que as duas primeiras classes contm 84% das
observaes, e as trs primeiras contm 96% das observaes, ento o nono decil deve estar
na terceira classe e podemos determin-lo tambm por uma proporo:
q(0,9) 12
6
= ,
6
12
logo q(0,9) = 15.
Para obtermos o intervalo interquartil, precisamos encontrar o primeiro e o terceiro quartil
que podemos obter de maneira similar a parte (a).
q(0,25)
6
= ,
25
56
logo, q(0,25) = 2,68. O terceiro quartil deve estar na segunda classe, ento como a primeira
claase j contm 56% das observaes:
q(0,75) 6
6
= ,
19
28
logo, q(0,75) = 10,07. Portanto, o intervalo interquartil [2,68; 10,07].
Captulo 9
Distribuies Amostrais
9.1 Introduo
Quando vamos aplicar modelos probabilsticos em algum problema prtico, precisamos ter
uma informao a respeito da distribuio de probabilidade da varivel aleatria de interesse.
Existem dois processos clssicos para a obteno da distribuio de uma varivel aleatria:
eduzir uma distribuio a priori de um especialista da rea, ou inferir a distribuio a partir
de uma anlise de dados. Neste curso, no trataremos de mtodos de eduo, mas nos
concentraremos em mtodos de inferncia.
9.2 Populao e Amostra

Suponha que estivssemos interessados na distribuio do consumo mensal de energia eltrica
de todos os domiclios brasileiros. Caso tivssemos meios de obter os valores para todos os
domiclios, poderamos obter sua distribuio exata e da calcular parmetros de posio
e disperso, por exemplo. Nesse caso, no necessitaramos de inferncia estatstica, pois
teramos acesso a todos os valores de interesse.
Porm, raro a situao em que se consegue obter a distribuio exata de alguma varivel,
ou porque os custos so muito elevados, ou o tempo para a coleta de tais dados muito longo,
ou porque s vezes o experimento aleatrio que se realiza consiste de um processo destrutivo.
Por exemplo, poderamos estar interessados em medir a tenso mxima de entrada que
um determinado tipo de estabilizador suporta. Nosso experimento poderia comear com
tenso de 0 volts e ir aumentado gradativamente e deniramos a tenso mxima como a
tenso a partir da qual o estabilizador queimou. Deste modo se fssemos testar todos os
estabilizadores, no restaria nenhum para ser vendido. Assim a soluo selecionar parte
dos estabilizadores (amostra), analis-la e inferir propriedades para todos os estabilizadores
(populao). Esta questo dentre outras objeto de estudo da rea de inferncia estatstica.
Denio 9.2.1: Populao o conjunto de todos os elementos ou resultados sob investigao. Amostra um subconjunto formado por elementos selecionados da populao.
Freqentemente, usa-se uma distribuio de probabilidades como um modelo para uma

populao. Por exemplo, um engenheiro de estruturas pode considerar como normalmente
92
CAPTULO 9. DISTRIBUIES AMOSTRAIS

93
2
distribuda, com mdia e varincia desconhecidas, a populao de resistncias a trao
de um elemento estrutural de um chassi. Usualmente se refere a isso como uma populao
normal ou uma populao distribuda normalmente.
Para outro exemplo, suponha que estejamos interessados em investigar se uma dada
moeda honesta e para isso ns lanamos a moeda 50 vezes. Neste caso, a populao pode
ser considerada como sendo a distribuio de uma varivel aleatria X que assume o valor
1, se ocorrer cara, e 0 em caso contrrio, e tem distribuio Bernoulli com parmetro p
desconhecido. A amostra ser a seqencia binria de comprimento 50.
Observe que neste dois ltimos caso a populao foi especicada como sendo uma distribuio de uma varivel aleatria X que modela a caracterstica de interesse. Este artifcio
exige a proposta de um modelo para a varivel X . Neste caso, comum usar expresses a
populao f (x) ou a populao das resistncias X N (, 2 ).
9.3 Seleo de uma Amostra

A m de obtermos inferncias realmente informativas a respeito de uma dada populao,
precisa-se de cuidado com os mtodos de seleo de uma amostra; necessrio que a amostra
seja representativa da populao. Por exemplo, ao se fazer uma pesquisa de opinio pblica
a respeito de um dado governo, se escolhssemos s pessoas que vivem em uma dada regio
beneciada por esse governo, a amostra pode no ser representativa de toda a populao, pois
esta contm pessoas que no necessariamente foram diretamente beneciadas pelo governo,
neste caso diz-se que a amostra viesada. Neste curso, iremos apenas analisar o caso de
amostragem aleatria simples.
9.3.1 Amostra Aleatria Simples

Este procedimento o mtodo mais simples de selecionarmos uma amostra aleatria de uma
populao e serve de base para outros mtodos de amostragem mais complexos. No caso
de uma populao nita, poderemos implementar este mtodo numerando os elementos da
populao e em seguida escolher um nmero ou olhando uma tabela de nmeros aleatrios
ou gerando nmeros aleatrios em um computador. Neste caso, todos os elementos da
populao tm a mesma probabilidade de ser selecionados. Repete-se o processo at que n
elementos sejam selecionadas. Teremos uma amostragem com reposio, se for permitido
que uma unidade possa ser sorteada mais de uma vez, e sem reposio, se o elemento for
removido da populao. Do ponto de vista da quantidade de informao contida na amostra,
amostrar sem reposio mais adequado. Contudo, a amostragem com reposio, implica
que tenhamos independncia entre os elementos selecionados e isto facilita o desenvolvimento
de propriedades de estimadores, conforme veremos adiante. Portanto, nos restringiremos ao
caso com reposio. Em geral, temos a seguinte denio de amostra aleatria simples:
Denio 9.3.1: Uma amostra aleatria simples de tamanho n de uma populao mode-
lada por uma varivel aleatria X , com uma dada distribuio, um conjunto de n variveis
aleatrias independentes X1 , X2 , . . . , Xn , cada uma com a mesma distribuio de X .

94
Intuitivamente, Xi representa a observao do i-simo elemento sorteado. Portanto, no
caso de uma populao X contnua, com funo densidade de probabilidade f , a funo
densidade de probabilidade conjunta da amostra (X1 , X2 , . . . , Xn ), ser dada por:
fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) = f (x1 )f (x2 ) f (xn ).

Quando geramos nmeros nmeros aleatrios em um programa, sabemos forma da distribuio da varivel aleatria que estamos simulando, e os parmetros que estamos simulando.
Por exemplo, ao gerarmos 50 nmeros de uma distribuio normal padro, estamos obtendo
uma amostra aleatria simples de tamanho 50 desta populao normal. Se outra pessoa
observa apenas estes 50 nmeros gerados, ela no conhecer nada a respeito da distribuio
que se gerou nem dos parmetros dessa distribuio que foram utilizados. O objetivo da
inferncia estatstica fornecer critrios para que se possa descobrir a forma da distribuio
e/ou os parmetros da populao que gerou a amostra que se observa.
9.4 Estatsticas e Parmetros

Uma vez obtida a amostra de uma dada populao, muitas vezes estaremos interessados em
calcular alguma funo desta amostra. Por exemplo, a mdia da amostra (X1 , X2 , . . . , Xn )
dada por
X1 + X2 + . . . + Xn
X=
.
n
Como X uma funo contnua de variveis aleatrias, ela tambm uma varivel aleatria.
Denio 9.4.1: Uma estatstica T uma funo de uma amostra X1 , X2 , . . . , Xn .

As estatsticas mais comuns so:
1. Mdia da amostra: X = (1/n)
2. Varincia da amostra: S 2 =
1
n1
n
i=1
Xi ;
n
i=1 (Xi
X)2 ;
3. O menor valor da amostra: X(1) = min(X1 , X2 , . . . , Xn );

4. O maior valor da amostra: X(n) = max(X1 , X2 , . . . , Xn );
5. Amplitude amostral: W = X(n) X(1) ;
6. A i-sima maior observao da amostra: X(i) .1
Para diferenciar caractersticas da amostra com caractersticas da populao, chama-se
de parmetro uma medida usada para descrever uma caracterstica da populao. Assim se
uma populao for modelada por uma varivel aleatria X , a esperana e a varincia EX e
V arX , respectivamente, seriam parmetros.
1 Os
elementos da amostra ordenados, isto , X(1) X(2) X(n) , so conhecidos como estatsticas
de ordem da amostra.
95
9.5 Distribuies Amostrais
Suponha que estejamos interessados em algum parmetro da populao. Suponha que

decidimos usar uma estatstica T de uma amostra aleatria simples X1 , X2 , . . . , Xn da populao. Uma vez que a amostragem realizada, pode-se calcular que T = t0 e baseado neste
valor que faremos uma armao sobre . Como vimos T sendo uma funo de variveis
aleatrias tambm uma varivel aleatria e, portanto, possui uma dada distribuio. Esta
distribuio conhecida como distribuio amostral da estatstica T .
Exemplo 9.5.1: Suponha que retiramos com reposio todas as amostras de tamanho
2 da populao {1, 3, 5, 5, 7}. A distribuio conjunta da amostra (X1 , X2 ) dada por:
1
3
5
7
1 1/25 1/25 2/25 1/25
3 1/25 1/25 2/25 1/25 Vamos calcular ento a distribuio da mdia amostral. Por
5 2/25 2/25 4/25 2/25
7 1/25 1/25 2/25 1/25
exemplo, P (X = 3) = P (X1 = 1, X2 = 5) + P (X1 = X2 = 3) + P (X1 = 5, X2 =
1) = 5/25. Similarmente, os demais valores podem ser obtidos conforme tabela a seguir:
x
1
2
3
4
5
6
7
P (X = x) 1/25 2/25 5/25 6/25 6/25 4/25 1/25
Exemplo 9.5.2: No caso do lanamento de uma moeda 50 vezes, usando como estatstica
X o nmero de caras obtidas, a distribuio amostral desta estatstica uma binomial com
parmetros n = 50 e p, onde p a probabilidade de cara em um lanamento qualquer desta
moeda. Se estivermos interessados em saber se esta moeda honesta, ou seja, em checar
se p = 0,5, e soubermos que em 50 lanamentos ocorreram 36 caras podemos calcular que
P0,5 (X 36) = 0, 0013, ou seja, se a moeda for honesta, ento a probabilidade de se obterem
36 ou mais caras igual a 0,0013, ento existe evidncia que p deve ser diferente de 0,5. Por
outro lado, se obtivermos 29 caras, obtemos que P0,5 (X 29) = 0, 1611, ento se a moeda
for honesta aproximadamente 1/6 das vezes observa-se um valor maior ou igual a 29, ento
no temos dados sucientes para descartar a hiptese que a moeda seja honesta neste caso.
Exemplo 9.5.3: Uma populao consiste de quatro nmeros 1, 3, 5, e 7. Considere todas
as possveis amostras de tamanho 2 de elementos que podem ser selecionadas com reposio
desta populao. Determine.
(a) A mdia e varincia populacional.
(b) A distribuio da mdia e varincia amostrais.
Soluo: A mdia populacional dada por: =
1+3+5+7
4
= 4, e a varincia populacional
dada por =
4 = 5. Para determinarmos a mdia a varincia amostrais,
considere a seguinte tabela onde todos as possveis amostras esto enumeradas:
2
12 +32 +52 +72

4

96
2
x1 x2 x s
1 1 1 0
1 3 2 2
1 5 3 8
1 7 4 18
3 1 2 2
3 3 3 0
3 5 4 2
3 7 5 8
5 1 3 8
5 3 4 2
5 5 5 0
5 7 6 2
7 1 4 18
7 3 5 8
7 5 6 2
7 7 7 0
Como cada uma das possveis amostrais tem probabilidade 1/16, temos que a distribuio
da mdia amostral e da varincia amostral so respectivamente descritas pelas tabelas a
seguir:
x
1
2
3
4
5
6
7
P (X = x) 1/16 2/16 3/16 4/16 3/16 2/16 1/16
e
s2
0
2
8
18
2
2
P (S = s ) 4/16 6/16 4/16 2/16
Para algumas estatsticas no conseguiremos obter analiticamente sua distribuio amostral, ento podemos simular um nmero grande de amostras diferentes e calcular a estatsticas
de cada uma dessas amostras para obter uma distribuio amostral emprica da estatstica
de interesse. Por exemplo, para obter a mediana das alturas de amostras de 5 mulheres retiradas da populao X N (167, 25), podemos gerar, via qualquer software, 200 amostras de
tamanho 5 desta populao, determinar a mediana de cada uma dessas amostras e calcular
medidas de posio e disperso dos valores das medianas obtidos com essas amostras, bem
como representao grcas destes valores.
9.5.1 Distribuio Amostral da Mdia Amostral

Vamos agora estudar a distribuio amostral da mdia amostral X . Antes de obtermos
informaes sobre a forma desta distribuio, podemos determinar a esperana e a varincia
da distribuio amostral de X .
Teorema 9.5.4: Seja X uma varivel aleatria com mdia e varincia 2 , e seja (X1 , X2 , . . . , Xn )
uma amostra aleatria simples de X . Ento,
2
E(X) = e V ar(X) = .
n

Prova: Pela linearidade da esperana, temos:
E(X) =
97
1
(EX1 + EX2 + + EXn ) = .
n
Como X1 , X2 , . . . , Xn so independentes, temos
V ar(X) =
1
2
(V
arX
+
V
arX
+
+
V
arX
)
=
.
1
2
n
n2
n
Note que conforme n vai aumentando a distribuio de X tende a car mais concentrada
em torno de sua mdia , pois sua varincia vai diminuindo. Alm disso, o prximo teorema
nos d uma informao mais detalhada para a distribuio amostral da mdia para valores
grandes de n. Este teorema conhecido como Teorema do Limite Central.
Teorema 9.5.5: Para amostras aleatrias simples (X1 , X2 , . . . , Xn ), retiradas de uma po-
pulao com mdia e varincia 2 nita, a distribuio amostral da mdia X aproxima-se,

para n grande, de uma distribuio normal, com mdia e varincia 2 /n., ou seja, se
F X for a funo de distribuio acumulada de X
, temos que x IR
2
/n
2 /n
lim F X (x) = (x).

n
2 /n
Prova: A prova deste teorema est fora do escopo deste curso.

Caso a populao j possua uma distribuio normal, ento como X uma combinao
linear de X1 , X2 , . . . , Xn que so independentes e possuem distribuio normal, ento a
distribuio amostral da mdia amostral ser exatamente uma normal para qualquer valor
de n, e a mdia dessa distribuio ser igual a mdia da populao e varincia ser igual a
varincia da populao dividida por n.
Em geral o TLC arma que para valores grandes de n, X ter uma distribuio aproximadamente normal, a velocidade desta convergncia depende da distribuio da populao.
Se esta for prxima da normal, a convergncia mais rpida; se for muito diferente a convergncia mais lenta. Como regra emprica, para amostras de tamanhos de 30 elementos,
a aproximao j pode ser considerada boa.
A diferena entre a mdia amostral e a mdia da populao conhecida como erro
. A partir do Teorema do Limite Central, podemos
amostral da
mdia, isto , e = X
n(X)
obter que
N (0, 1), ou seja, ne N (0, 1).
Exemplo 9.5.6: Suponha que uma mquina est regulada para produzir lmpadas com
tempo de vida til mdio de 10.000horas. De uma amostra de 50 lmpadas produzidas por
esta mquina, verica-se o tempo de vida til de cada uma delas. Determine a probabilidade
de que o tempo de vida til mdio seja menor ou igual a 8.000horas.
Soluo: Sabe-se que o tempo de vida til de uma lmpada distribudo de acordo com
uma Exponencial. Portanto, como o tempo de vida til mdio de 10.000horas, temos que

98
8
2
a mdia populacional 10.000horas e a varincia populacional igual a 10 horas . Alm
disso, como temos uma amostra maior que 30, podemos utilizar o TCL para armar que a
8
mdia amostral tem uma distribuio N (104 , 10
). Portanto,
50
50(8000 10000)
P (X 8000) = P (Z
) = ( 2) = 0,0793.
10000
9.5.2 Distribuio Amostral de uma Proporo

Vamos supor que a proporo de indivduos de uma populao que so portadores de uma
determinada caracterstica seja igual a p. Logo, pode-se denir uma varivel aleatria X
que assume o valor um se o indivduo possui a caracterstica e o valor 0, em caso contrrio.
Portanto, X tem uma distribuio Bernoulli de parmetro p. Considere agora que escolhemos
uma amostra aleatria simples de tamanho n desta populao e seja Yn o nmero total de
indivduos na amostra que possuem a caracterstica de interesse. Ento, temos que Yn tem
uma distribuio binomial com parmetros n e p. A proporo de indivduos portadores da
caracterstica dada por
Yn
p =
.
n
Portanto, podemos determinar a distribuio de p a partir da distribuio de Yn , utilizando
a seguinte relao: P (
p = nk ) = P (Yn = k).
Pelo Teorema Central do Limite se X1 , X2 , . . . , Xn formam uma amostra aleatria simples
desta populao, a distribuio amostral de X aproximadamente igual a N (p, p(1 p)/n)
para valores grandes de n. Portanto, a distribuio de Yn = nX pode ser aproximada por
uma normal N (np, np(1p)). Como p = X , temos que a distribuio da proporo amostral
tambm pode ser aproximada por N (p, p(1 p)/n) para valores grandes de n.
Exemplo 9.5.7: Suponha que uma mquina est regulada para produzir lmpadas de modo
que 10% delas tenham tempo de vida til menor ou igual a 1.000horas. De uma amostra
de 50 lmpadas produzidas por esta mquina, qual a probabilidades de encontrarmos no
mximo 90% com tempo de vida til maior que 1.000 horas.
Soluo: Como temos uma amostra maior que 30, podemos utilizar o TCL para armar
que a proporo amostral tem uma distribuio N (0,1, (0,1)(0,9)
). Portanto,
50
P (1 p 0,9) = P (
p 0,1) = P (Z 0) = 0,5.
9.6 Determinao do Tamanho de uma Amostra

Em certas situaes estamos interessados em determinar o tamanho de uma amostra que
selecionaremos de uma populao de modo a obter um erro de estimao previamente estipulado, com certo grau de conana. Por exemplo, suponha que iremos estimar a mdia

99
populacional atravs da mdia amostral X de uma amostra de tamanho n. Nosso objetivo
ento determinar o menor valor de n tal que
P (|X | ) ,
onde representa o grau de conana necessrio para que o erro amostral seja no mximo
2
igual a . Como a distribuio amostral de X N (, n ), temos que o tamanho mnimo da
amostra n tem que satisfazer
n
n
P ( X ) = P (
Z
) = ,
onde Z tem uma distribuio normal padro. Da distribuio normal padro, temos que
+1
+1
+1
+1
P (1 (
) Z 1 (
)) = P (Z 1 (
)) P (Z < 1 (
))
2
2
2
2
+1
+1
=
(1
) = .
2
2
Portanto,
n
+1
= 1 (
), ou seja,
2
))2
2 (1 ( +1
2
n=
.
2
Note que o tamanho da amostra depende da varincia da populao. Como era de se
esperar, quanto mais variabilidade tiver a populao, mais amostras sero necessrias para
que se possa fazer armaes conveis a respeito dos erros dos estimadores. Contudo, em
geral o valor da varincia da populao desconhecido. Na prtica, pode-se fazer um projeto
piloto para que se possa estimar o valor desta varincia e, em seguida, us-la para determinar
o tamanho de amostra do estudo principal.
No caso de propores, como neste caso, = p(1 p), temos que
n=
(1 ( +1
))2 p(1 p)
2
2
Como na prtica, na maioria dos casos no se conhece o verdadeiro valor da proporo

populacional p, pode-se usar o fato que p(1 p) 14 , para obtermos que
))2
(1 ( +1
2
.
n=
42
Exemplo 9.6.1: Uma varivel aleatria X tem distribuio amostral N (3, 22 ). Qual deve
ser o tamanho n de uma amostra aleatria de X para que a mdia amostral X tenha 84,13%
dos valores menores que 3,4?
Soluo: Queremos que P (X 3,4) = 0,8413. Portanto, como n(X3)

tem distribuio
2
normal padro, temos que
n(3,4 3)
).
0,8413 = P (X 3,4) = P (Z
2
1 (0,8413)
= 5, ou seja, n = 25.
Logo, n = 2 0,4
Captulo 10
Estimao
10.1 Estimativas e Estimadores
Uma aplicao muito importante de estatsticas a obteno de estimativas dos parmetros
da populao, tais como mdia e varincia da populao. O objetivo da estimao selecionar um nico nmero baseado nos dados da amostra, sendo esse nmero o mais plausvel
para um parmetro . Em geral, se X for uma varivel aleatria com distribuio de probabilidades caracterizada por um parmetro desconhecido , e se X1 , X2 , . . . , Xn for uma
= h(X1 , X2 , . . . , Xn ) chamada
amostra aleatria de tamanho n de X , ento a estatstica
assume um valor
de um estimador de . Note que depois da amostra ter sido selecionada,
E , chamado estimativa de . Portanto, uma estimativa pontual de algum parmetro da
de uma estatstica
.
populao um nico valor numrico E
Problemas de estimao ocorrem freqentemente, os parmetros mais comuns que se
desejam estimar so:
A mdia de uma nica populao.

A varincia 2 (ou desvio-padro ) de uma nica populao.
A proporo p de tens em uma populao que pertencem a uma classe de interesse.
A diferena nas mdias de duas populaes, 1 2 .
A diferena nas propores de duas populaes, p1 p2 .
Estimadores razoveis desses parmetros so, respectivamente:
A mdia amostral X .
A varincia amostral S 2 =
1
n1
n
i=1 (Xi
X)2 .
A proporo amostral p de tens em uma amostra que pertencem a uma classe de

interesse.
A diferena nas mdias amostrais X 1 X 2 de duas amostras aleatrias independentes.
100
CAPTULO 10. ESTIMAO

101
A diferena nas propores amostrais p1
p2 de duas amostras aleatrias independentes.
Existem vrias possibilidades para a escolha de um estimador de um parmetro. Por
2
para estimar a varincia populacional. Neexemplo, poderamos utilizar o estimador (n1)S
n
cessitamos estudar propriedades dos estimadores para podermos desenvolver algum critrio
para determinar qual melhor estimador para determinado parmetro.
Exemplo 10.1.1 :
Suponha que desejassemos comprar um rie e para tanto podemos

testar quatro opes de ries A, B, C, e D. Para tanto, podemos executar 15 tiros a um
alvo com cada um deles. Para chegarmos a concluso de qual a melhor arma, precisamos
de alguns critrios. Quanto a qualidade da arma, poderamos denir trs critrios, o critrio
da acurcia que mede a proximidade de cada observao do valor do alvo que se procura
atingir, o critrio da preciso que mede a proximidade de cada observao da mdia de todas
as observaes, e o critrio do vis que mede a proximidade da mdia de todas as observaes
do valor do alvo que se procura atingir.
10.2 Propriedades de Estimadores

Como vimos o problema da estimao determinar uma funo h(X1 , X2 , . . . , Xn ) que seja
prxima de , segundo algum critrio. O primeiro critrio o seguinte:
Denio 10.2.1: O estimador T no-viesado para se ET = para todo , onde ET

calculada segundo a distribuio amostral de T .
O vis de um estimador T para um parmetro igual a ET . Logo, um estimador

T no-viesado para , se o seu vis for igual a zero para todo .
Exemplo 10.2.2: A mdia amostral X um estimador no-viesado para mdia populacional , pois
1
E(X) =
n
EXi = .
i=1
A proporo amostral p um estimador no-viesado para proporo populacional p que

possui uma certa caracterstica, pois chamando de Yi a varivel aleatria que igual a 1 se
o i-simo indivduo da amostra possui a caracterstica de interesse, e igual a zero, em caso
contrrio, temos que
n
1
E(
p) =
EYi = p.
n i=1
Exemplo 10.2.3: Considere uma populao com N elementos, com mdia populacional
=
1
N
N
i=1
Xi , e varincia populacional
1
=
N
(Xi )2 .
i=1
CAPTULO 10. ESTIMAO

102
2
Um possvel estimador para , baseado numa amostra aleatria simples de tamanho n dessa
populao,
n
1
2 =
(Xi X)2 .
n i=1
Vamos mostrar que esse estimador viesado. Note que
n
(Xi X)2 =
i=1
(Xi + X)2
i=1
n
2
(Xi ) 2
i=1
n
(X )2
(Xi )(X ) +
i=1
i=1
(Xi )2 n(X )2 .
=
i=1
Portanto,
n
1
E(
)= (
E(Xi )2 nE(X )2 )
n i=1
2
1
= (
V ar(Xi ) nV ar(X))
n i=1
=
1
2
n1 2
(n 2 n ) =
.
n
n
n
2
Logo, o vis de
2 igual a n1
2 2 =
. Portanto, o estimador
2 em geral subestima
n
n
2
o verdadeiro parmetro . Por outro lado, o vis diminui com n tendendo a zero quando n
n
2 um estimador no-viesado para 2 . Portanto,

tende a innito. fcil ver que S 2 = n1
a varincia de uma amostra de tamanho n dada por S 2 , onde o denominador igual a
n 1, enquanto que a varincia de uma populao de tamanho N dada por 2 , onde o
denominador igual a N .
O segundo critrio que iremos analisar o critrio da consistncia de um estimador.
Intuitivamente, temos que um estimador consistente se quando aumentamos o tamanho
da amostra n, a probabilidade de que este dira do parmetro por mais que qualquer erro
pre-especicado > 0 tende a zero. Formalmente,
Denio 10.2.4: Uma seqncia {Tn } de estimadores de um parmetro consistente
se, para todo
> 0,
lim P (|Tn | > ) = 0.
Exemplo 10.2.5: A seqncia de estimadores X n consistente, pois como E(X n ) = e

V ar(X n ) =
2
,
n
utilizando a desigualdade de Chebyshev, temos:
P (|X n | > )
quando n , para qualquer
2
0,
n2
> 0.
CAPTULO 10. ESTIMAO

103
Podemos utilizar o seguinte, teorema para determinar se uma dada seqncia de estimadores consistente:
Teorema 10.2.6: Se {Tn } uma seqncia de estimadores de tal que limn E(Tn ) =
e limn V ar(Tn ) = 0, ento {Tn } consistente.
Prova: Note que pela desigualdade triangular, se |Tn | > , ento |ETn | >
|Tn ETn | > 2 . Portanto,
ou
P (|Tn | > ) P (|ETn | > ) + P (|Tn ETn | > ).

2
2
Logo, pela desigualdade de Chebyshevy
P (|Tn | > ) P (|ETn | > ) +

2
4V ar(Tn )
2
Ento tomando os limites quando n , temos que
lim P (|Tn | > ) lim P (|ETn | > ) + lim

n
n
n
2
4V ar(Tn )
2
= 0.
Portanto, {Tn } consistente.

Note que se Tn for um estimador no-viesado, ento obviamente limn E(Tn ) = , e
portanto se a varincia do estimador Tn tender a zero, ele um estimador consistente.
Exemplo 10.2.7:
Vimos que S 2 um estimador no-viesado para 2 . possvel demonstrar no caso em que a populao tem distribuio normal com mdia e varincia 2
que
2 4
2
V ar(S ) =
.
n1
Logo, S 2 consistente para 2 .
Exemplo 10.2.8: Como 2 =

2 4
e V ar(
2 ) = ( n1
)2 n1
n
2
para .
n1 2
S ,
n
temos que E(
2 ) = n1
2 2 quando n ,
n
0 quando n . Logo, pelo teorema
2 tambm consistente
Um outro critrio para comparao de estimadores o seguinte:
Denio 10.2.9: Se T e T so dois estimadores no-viesados de um mesmo parmetro

, e V arT < V arT , ento T mais eciente que T .
Exemplo 10.2.10 :
Consideremos uma populao normal X , com parmetros e 2 .

Queremos estimar a mediana desta populao. Como a distribuio simtrica temos que a
mediana e a mdia coincidem e so iguais a . Denindo X e md como a mdia e a mediana
de uma amostra de tamanho n dessa populao, qual dos dois estimadores mais eciente
para estimar a mediana populacional?
CAPTULO 10. ESTIMAO

104
2
Sabemos que X N (, /n) e pode-se demonstrar que a distribuio da mediana pode
2
ser aproximada por N (M d(X),
). Portanto, os dois estimadores so no-viesados, mas
2n
X mais eciente, pois V ar(md) > V ar(X). Conclui-se que para estimar a mediana dessa
populao, prefervel usar a mdia da amostra como estimador, o que contraria um pouco
a nossa intuio.
Finalmente, podemos considerar o critrio do erro quadrtico mdio para comparar estimadores. Denomina-se de erro amostral de um estimador T para um parmetro a diferena
e = T . Note o erro amostral uma v.a. pois uma funo de T que uma v.a., alm
disso note que o vis de T igual a esperana do erro amostral.
Denio 10.2.11:
O erro quadrtico mdio (EQM) do estimador T para o parmetro

igual ao segundo momento do erro amostral com respeito a distribuio amostral do
estimador T , ou seja, EQM (T, ) = E(e2 ) = E(T )2 .
Podemos desenvolver a expresso do EQM para obter:
EQM (T, ) = E(T E(T ) + E(T ) )2

= E(T E(T ))2 + 2E[(T E(T ))(E(T ) )] + E(E(T ) )2
= V ar(T ) + V 2 .
Vemos ento que o erro quadrtico mdio leva em considerao tanto o vis V do estimador
como sua variabilidade medida atravs de V ar(T ). Segundo este critrio o estimador to
melhor quanto menor for seu erro quadrtico mdio.
Exemplo 10.2.12: Determine o erro quadrtico mdio do estimador X para .

Soluo: Neste caso, temos que
E(X )2 = V ar(X) =
2
.
n
10.3 Intervalo de Conana

At agora os estimadores apresentados foram pontuais, isto , especicam um nico valor
para o estimador. Esse procedimento no permite julgar qual a possvel magnitude do erro
que estamos cometendo. Da surge a idia de construir intervalos de conana que so
baseados na distribuio amostral do estimador.
Um intervalo de conana de um parmetro desconhecido um intervalo da forma
[L, U ], em que os pontos extremos do intervalo L e U dependem da amostra, e portanto so,
na verdade, estatsticas, isto variveis aleatrias. Nosso objetivo ao construir intervalos de
conana determinar funes da amostra L e U tal que a seguinte armao seja verdadeira:
P (L U ) = ,
CAPTULO 10. ESTIMAO

105
onde 0 < < 1. Assim, existe uma probabilidade de selecionarmos uma amostra tal que o
intervalo [L, U ] contenha o valor de . Note que no aleatrio, L e U que so aleatrios.
Se a armao acima for verdadeira o que estamos armando que se forem construdos
vrios intervalos de conana usando as estimativas L e U , em 100% das vezes estar
incluso no intervalo [L, U ]. Tal intervalo chamado de um intervalo de 100% de conana
para , e conhecido como coeciente (ou nvel) de conana do intervalo.
Na prtica, obtemos somente uma amostra aleatria e calculamos um intervalo de conana. Calculado este intervalo de conana, ento duas situaes podem existir: ele contm
ou no o verdadeiro valor de . Neste ponto, no existe mais nenhum valor aleatrio, portanto no faz sentido associar uma probabilidade ao intervalo conter o verdadeiro valor . A
armao apropriada : o intervalo observado [l, u] contm o verdadeiro valor , com 100%
de conana. E esta armao tem uma interpretao freqentista, ou seja, no sabemos
se a armao ou no verdadeira para esta amostra especca, mas o mtodo usado para
obter o intervalo [l, u] resulta em armaes corretas em 100% das vezes.
Note que quanto maior o intervalo de conana, mais conantes estaremos que ele contenha o verdadeiro valor . Por outro lado, quanto maior for o intervalo, menos informao
teremos a respeito do verdadeiro valor de . Em uma situao ideal, obtemos um intervalo
relativamente pequeno com alta conana.
O intervalo de conana descrito acima um intervalo bilateral de conana, pois especicamos tanto o limite inferior como o limite superior do intervalo. Podemos tambm obter
um intervalo unilateral inferior de conana para com nvel de conana , escolhendo um
limite inferior L de tal forma que
P (L ) = .
Analogamente, um intervalo unilateral superior de conana para com nvel de conana
, pode ser obtido escolhendo um limite superior U tal que
P ( U ) = .
10.3.1 Intervalo de Conana para Mdia com Varincia Conhecida

Nesta seo estaremos interessados em construir um intervalo de conana para mdia populacional admitindo-se que a varincia populacional 2 conhecida. Recorde que pelo
Teorema Central do Limite, a distribuio amostral de X aproximadamente normal com
mdia e varincia 2 /n, desde que n seja sucientemente grande ( 30). Neste caso,
n(X )
Z=
tem uma distribuio normal padro. Seja 1 () o valor tal que P (Z 1 ()) = .
Ento, temos que
P (1 (w) Z 1 (w)) = P (Z 1 (w)) P (Z 1 (w)) = w (1 w) = 2w 1.

Deste modo,
P ( (( + 1)/2) Z =
n(X )
1 (( + 1)/2)) = .
CAPTULO 10. ESTIMAO

106
Rearrumando as desigualdades obtemos
P (X 1 (( + 1)/2)/ n X + 1 (( + 1)/2)/ n) = .
Deste modo temos que [X 1 (( +1)/2)/ n, X +1 (( +1)/2)/ n] um intervalo

1
com 100%
de conana para . Note que a amplitude deste intervalo L = 2 (( +
1)/2)/ n, que uma constante que independe de X . Note que com esta frmula, dado uma
amplitude desejada L, podemos determinar o tamanho da amostra necessria para atingir
um nvel de conana desejado em um intervalo com amplitude L.
Para amostras provenientes de uma populao normal ou para amostras de tamanho
n 30, independente da forma da populao, o intervalo fornecer bons resultados. Caso
contrrio, no podemos esperar que o nvel de conana seja exato.
Podemos tambm obter intervalos de conana unilaterais para , neste caso sabemos
que
n(X )
P (Z =
1 ()) = .
Rearrumando a desigualdade, temos:
P ( X + 1 ()/ n) = .
Deste modo, temos que (, X + 1 ()/ n] um intervalo unilateral

superior com
1
100% de conana para . Analogamente, podemos obter que [X ()/ n, ) um
intervalo unilateral inferior com 100% de conana para .
Exemplo 10.3.1: Suponha que temos uma populao com distribuio Bernoulli(p). Por
exemplo, p pode representar a probabilidade de um determinado tipo de capacitor ser produzido com defeito por uma determinada fbrica. Dada uma amostra aleatria X1 , X2 , . . . , Xn
de tamanho n da produo de capacitores desta fbrica, podemos estimar um intervalo de
conana bilateral para p. Note que a varincia da populao dada por p(1 p). Portanto,
sendo p a proporo de capacitores com defeito na amostra, como 2 = p(1 p), o resultado
anterior nos leva a armar que [

p 1 (( + 1)/2) p(1p)
, p + 1 (( + 1)/2) p(1p)
]
n
n
um intervalo com 100% de conana para p. Como no conhecemos p, podemos proceder
de duas maneiras: (1) utilizar o fato que p(1 p) 1/4, obtendo o intervalo [
p 1 (( +
1)/2)
1
, p +
4n
1 (( + 1)/2)
1
],
4n
ou (2) utilizar p como estimativa para p, obtendo o in-
p)
p)
tervalo [
p 1 (( + 1)/2) p(1
, p + 1 (( + 1)/2) p(1
]. O primeiro mtodo sempre
n
n
correto, porm muito conservador pois em geral p(1 p) pode ser bem menor que 1/4, e
ento estamos propondo um intervalo com amplitude maior que a necessria. O segundo
mtodo vlido desde que np e n(1 p) sejam maiores que 5, pois caso contrrio, se for pequeno a distribuio normal no poder mais ser usada e teremos que utilizar a distribuio
binomial.
Exemplo 10.3.2: O comprimento dos eixos produzidos por uma empresa tem aproximadamente uma distribuio normal com desvio padro de 4cm. Uma amostra com 16 eixos
forneceu uma mdia de 4,52cm.
CAPTULO 10. ESTIMAO

107
(a) Determine um intervalo de conana de 90% para o comprimento mdio real dos eixos.
(b) Com que probabilidade podemos armar que o comprimento mdio desta amostra no
difere da mdia por mais de 0,5cm?
Soluo: O intervalo de conana dado por:

4
4
[4,52 1 (0,95) ; 4,52 + 1 (0,95) ] = [2,875; 6,165].
16
16
Para o tem (b), como / n = 1, temos |X | tem distribuio normal padro, logo
P (|X | 0,5) = P (|Z| 0,5) = 0,383.
Exemplo 10.3.3:
Uma amostra de 400 domiclios mostra que 25% deles so de casas

alugadas. Qual o intervalo de conana para o nmero de casas alugadas numa cidade
supondo que ela tem 20.000 casas? Considere um coeciente de conana de 98%.
Soluo: Podemos primeiro determinar o intervalo de conana para a proporo de
casas alugadas. Neste caso, ento temos p = 0,25, n = 400, e = 0,98. Utilizando p(1 p)
como uma estimativa para a varincia p(1 p), temos que o intervalo de conana para a
populao :
[0,25 1 (0,99)
0,25(0,75)
, 0,25 + 1 (0,99)
400
0,25(0,75)
]
400
Ento, o intervalo de conana para o nmero de casas alugadas dado por:
0,25(0,75)
), 20.000(0,25 + 1 (0,99)
400
= [5.000 1.006,75, 5.000 + 1006,75] = [3.993,25, 6006,75].
[20.000(0,25 1 (0,99)
0,25(0,75)
)]
400
Exemplo 10.3.4: Uma pesquisa sobre renda familiar foi realizada entre as famlias que
tem rendimento de at 5 salrios mnimos. Sabe-se que o desvio padro populacional de
1,2. Uma amostra de 200 famlias foram selecionadas e seus resultados aparecem na tabela
Rendimento Freqncia
1
90
2
50
abaixo:
3
30
4
20
5
10
(a) Estime, com 95% de conabilidade, o intervalo de conana para a mdia de renda
familiar desta populao.
(b) Estime a proporo real de famlias que tem rendimento de at 2 salrios mnimos,
com 95% de conabilidade.
CAPTULO 10. ESTIMAO

Soluo: Primeiro vamos determinar o valor de x. Temos que
108
x = 1(90/200) + 2(50/200) + 3(30/200) + 4(20/200) + 5(10/200) = 2,05.

Ento, o intervalo de conana de 95% dado por:
1,2
1,2
[2,05 1 (0,975)
, 2,05 + 1 (0,975)
] = [1,884; 2,216].
200
200
Para o tem (b), temos que p = 140/200 = 0,7. Usando p(1 p) como estimativa
para a varincia populacional, temos que o intervalo de conana de 95% para proporo
populacional :
[0,7 1 (0,975)
0,7(0,3)
, 0,7 + 1 (0,975)
200
0,7(0,3)
] = [0,636; 0,764].
200
10.3.2 Intervalo de Conana para Mdia com Varincia Desconhecida

Quando estamos construindo intervalos de conana para a mdia de uma populao
quando 2 for desconhecida, devido ao Teorema Central do Limite, podemos continuar
usando os procedimentos da seo anterior desde que o tamanho da amostra seja grande
(n 30), usando s2 como estimativa para 2 . Entretanto, quando a amostra for pequena e
2 desconhecida, teremos de fazer uma suposio sobre a forma da distribuio em estudo.
Assumiremos nesta seo que a populao tem uma distribuio normal. Na prtica, muitas
populaes podem ter suas distribuies aproximadas por uma normal, assim esta restrio
no to restritiva e o mtodo apresentado nesta seo tem larga aplicabilidade.
Pode-se provar que se a populao tem uma distribuio normal, ento T = n(X)
tem
S
uma distribuio t de student com n 1 graus de liberdade. Seja (, n 1) o valor tal
que P (T (, n 1)) = . Ento, utilizando o mesmo procedimento da seo anterior,
podemos vericar que
1. [X (( + 1)/2, n 1)s/ n, X + (( + 1)/2, n 1)s/ n] um intervalo bilateral

com 100% de conana para a mdia da populao .
2. (, X + (, n 1)s/ n] um intervalo unilateral superior com 100% de conana

para .
3. [X (, n 1)s/ n, ) um intervalo unilateral inferior com 100% de conana

para .
Captulo 11
Testes de Hiptese
11.1 Teste de Hiptese
Na seo anterior, estudamos o problema de estimar um parmetro de uma populao atravs de uma amostra selecionada desta populao. Em muitas situaes prticas no estamos
interessados em estimar o parmetro, mas ao invs estamos interessados em aceitar ou rejeitar uma armao a respeito do parmetro. Tal armao conhecida como hiptese. E
o mtodo utilizado para decidirmos aceitar ou rejeitar uma dada hiptese a partir de dados amostrais conhecido como Teste de Hiptese. A idia central deste procedimento
assumir que a hiptese verdadeira e vericar se a amostra observada parece razovel ou
consistente, dada esta suposio.
Denio 11.1.1: Uma hiptese estatstica uma armao sobre os parmetros de uma
ou mais populaes.
Como usamos distribuies de probabilidade para representar populaes, uma hiptese

estatstica pode tambm ser pensada como uma armao acerca da distribuio de probabilidades de uma varivel aleatria.
Por exemplo, suponha que estejamos interessados em vericar a tenso em uma dada
tomada. A tenso na tomada uma varivel aleatria que sofre alteraes ao longo do
dia e pode ser descrita por uma varivel aleatria. Suponha que nosso interesse seja no
valor esperado desta distribuio, ou seja, estamos interessados em decidir se a tenso
ou no igual a 220v . Ento, = 220v chamada de hiptese nula, representada por H0 .
Esta hiptese nula pode ser aceita ou rejeitada, no caso dela ser rejeitada, precisamos de
uma outra hiptese que seja aceitvel, conhecida como hiptese alternativa, representada por
H1 . Por exemplo, uma hiptese alternativa seria = 200v . Neste caso, como a hiptese
alternativa especica valores de maiores e menores que o valor especicado por H0 , ela
chamada de hiptese alternativa bilateral. Em algumas situaes podemos desejar formular
uma hiptese alternativa unilateral, como em H0 : = 220v e H1 : < 220v , H0 : = 220v
e H1 : > 220v , ou H0 : = 220v e H1 : = 240v .
Ento, a hiptese nula uma armao a respeito da populao, mais especicamente
uma armao a respeito de um parmetro da populao. Esta armao, pode ter sido
109
CAPTULO 11. TESTES DE HIPTESE

110
originada de conhecimento experincia a priori da populao em estudo, de testes ou experimentos anteriores; pode ter sido determinado de alguma teoria ou modelo da populao
em estudo; ou pode surgir de consideraes exgenas, por exemplo, parmetros que devem
obedecer certos critrios de controle de qualidade.
Estabelecidas as hipteses nulas e alternativas, a informao contida na amostra analisada para vericar se a hiptese nula consistente com esta informao. Caso seja, conclui-se
que a hiptese nula verdadeira, caso contrrio, conclui-se que a hiptese falsa, o que implicar na aceitao da hiptese alternativa. Porm, note que para sabermos com certeza
se a hiptese nula ou no verdadeira, precisaramos analisar toda a populao, o que na
prtica freqentemente impossvel. Portanto, todo procedimento de testes de hipteses
tem alguma probabilidade de erro associada.
Para ilustrar alguns conceitos, considere o exemplo descrito anteriormente, ou seja, H0 :
= 220v e H1 : = 240v . Suponha que n medidas na tenso da tomada sejam feitas e que a
mdia dos valores obtidos nesta amostra x seja observada. Como vimos, x uma estimativa
para o valor de , logo se obtivermos um valor de x prximo a 220v , temos uma evidncia que
a hiptese nula verdadeira. Precisa-se ento estabelecer uma regio de valores, conhecida
como regio de aceitao tal que se x cair nesta regio iremos aceitar a hiptese nula, e se x
cair fora dessa regio, ou seja, na regio conhecida como regio crtica (RC), iremos aceitar a
hiptese alternativa. Por exemplo, poderamos considerar a regio de aceitao como sendo
o intervalo (, 230]. Os limites da regio de aceitao so chamados de valores crticos.
Esse procedimento de deciso pode acarretar um de dois tipos de erros diferentes. O
primeiro, conhecido como erro tipo I ocorre quando a tenso mdia na tomada realmente
220v , mas por chance o conjunto de medidas aleatrios que obtivemos nos levou a obter um
valor de x na regio crtica. Ou seja, um erro do tipo 1 ocorre quando rejeitamos a hiptese
nula quando na verdade ela verdadeira. O segundo, conhecido como erro do tipo II ocorre
quando apesar da hiptese nula ser falsa, a mdia das medidas de tenso obtidas cai na
regio de aceitao. Ou seja, um erro do tipo II ocorre sempre que aceitamos a hiptese nula
apesar dela ser falsa.
A probabilidade de ocorrncia de um erro tipo I chamada de nvel de signicncia,
tamanho do teste, ou ainda, p-valor do teste, e denotada por . O poder de um teste
igual a probabilidade de rejeitarmos a hiptese nula quando ela realmente falsa. Note que
o poder do teste igual a 1 menos a probabilidade de ocorrncia de um erro do tipo II, que
usualmente denotada por .
Quando H0 for verdadeira, isto , a tenso for realmente de 220v , sabemos do TCL que
2
X N (220, n ). Ento, podemos determinar o nvel de signicncia do teste:
2
= P (erro I) = P (X > 230|X N (220, ))
n
n(X 220)
n(230 220)
>
)
= P(
Se soubermos que a varincia da tenso na tomada 64v 2 , e tivermos uma amostra de 4

medidas do valor de tenso, podemos obter:
= P (Z >
2(10)
) = P (Z > 2,5) = 0, 0062.
8

111
De modo anlogo, podemos obter a probabilidade do erro tipo II. Neste caso, se H1 for
verdadeira, temos X N (240, 16), ento:
= P (erro II) = P (X 230|X N (240, 16))

(230 240)
(X 240)
= P(
) = P (Z 2,5) = 0,0062.
4
4
Neste caso, e foram iguais devido a simetria da regio crtica em relao as hipteses nula
e alternativa. Note que se ao invs de termos escolhido o valor crtico 230, aumentssemos
esse valor, ento diminuiria e aumentaria.
Poderamos tambm especicar um valor para a probabilidade de erro do tipo I e vericar
qual seria a regio crtica que satisfaria esta probabilidade de erro pre-especicada. Por
exemplo, suponha que queiramos encontrar a regio crtica cujo o seja igual a 0,01. Temos:
0,01 = = P (Z > 2,325) = P (
2(X 220)
> 2,325) = P (X > 229,3).
8
Para a regio crtica (229,3, ), podemos determinar o valor de para esta regio.
= P (erro II) = P (X 229,3|X N (240, 16))

(X 240)
(229,3 240)
= P(
) = P (Z 2,675) = 0,0038.
4
4
Este segundo tipo de procedimento bastante utilizado, pois em geral a hiptese alternativa no contm apenas um nico valor de parmetro como no exemplo acima. Muitas
vezes, se nossa hiptese nula H0 : = 220v , nossa hiptese alternativa ser H1 : = 220v .
Como os parmetros da hiptese alternativa so muitos, a soluo adotar o ltimo procedimento descrito acima, ou seja, pre-estabelecer um valor , e calcular uma regio crtica
que satisfaa esta restrio. No caso de uma hiptese alternativa bilateral, em geral toma-se
como regio de aceitao um intervalo simtrico ao redor da hiptese nula, deste modo se
xarmos = 0,01, teremos
0,01 = = P (|Z| > 2,575) = P (|
2(X 220)
| > 2,575) = 1 P (209,7 X 230,3).
8
Deste modo, determinamos a regio de aceitao [209,7; 230,3] de modo que o nvel de
signicncia de 0,01 seja satisfeito. Mesmo determinada esta regra de deciso, no poderemos
determinar , pois no existe um nico valor de na hiptese alternativa. Neste caso,
poderemos considerar uma funo (), conhecida como funo caracterstica de operao.
Denio 11.1.2: A funo caracterstica de operao (funo CO) de um teste de hiptese

denida como:
() = P (aceitar H0 |),
ou seja, () a probabilidade de aceitar H0 como funo de . A funo poder do teste,

que a probabilidade de se rejeitar H0 como funo de dad por () = 1 ().
As seguintes propriedades de () so facilmente vericadas:

i. (0 ) = ;
112
ii. No caso de hiptese alternativa bilateral (H1 : = 0 ), () = (+) = 1 e ()

decresce para < 0 e cresce para > 0 ;
iii. No caso de hiptese alternativa unilateral superior (H1 : > 0 ), () = 0,
(+) = 1, e () sempre crescente;
iv. No caso de hiptese alternativa unilateral inferior (H1 : < 0 ), () = 1, (+) =
0, e () sempre decrescente.
Na construo das hipteses, sempre estabeleceremos a hiptese nula como uma igualdade, de modo que o analista pode controlar , ao estabelecer uma regio crtica para o teste.
Ento o analista, pode controlar diretamente a probabilidade de rejeitar erroneamente H0 ,
ento a rejeio da hiptese nula uma concluso forte. Note que quanto menor o valor de
, ao rejeitarmos a hiptese nula, estaremos cada vez mais seguros da hiptese alternativa,
portanto maior ser a signicncia da nossa concluso. Por isso, chamado de nvel de
signicncia do teste. Por outro lado, no constante, mas depende do verdadeiro valor
do parmetro, por este motivo a aceitao de H0 tida como uma concluso fraca, a no
ser que saiba-se que aceitavelmente pequena. Ento, a nomenclatura mais correta seria
ao invs de dizermos aceitamos H0 deveramos dizer a amostra no apresentou evidncia
suciente para rejeitarmos H0 . Neste ltimo caso, no necessariamente arma-se que existe
uma alta probabilidade de que H0 seja verdadeira, isto pode signicar apenas que mais dados
so necessrios para atingirmos uma concluso forte.
Na determinao de quem a hiptese nula, devemos adotar como H0 aquela hiptese,
que se rejeitada erroneamente, conduza a um erro mais importante de se evitar, pois esta
probabilidade de erro controlvel. Ento, por exemplo, se estivermos interessados em
saber se um novo medicamento ecaz no combate a uma doena, a hiptese nula seria
que ele no ecaz, pois os danos causados por usarmos um remdio no ecaz so maiores
que se deixssemos de usar um remdio que seria ecaz. Ou ainda, se desejamos saber se
certa substncia radioativa, ento a hiptese nula seria que ela radioativa, pois os danos
causados pela manipulao radioativa so maiores que se deixssemos de manipular uma
substncia por acharmos falsamente que ela radioativa. Como a rejeio da hiptese nula
que uma concluso forte, escolhe-se como H1 a hiptese que se deseja comprovar. Por
exemplo, no caso do novo medicamento H1 ser a hiptese que o novo medicamento melhor
que os existentes.
11.2 Procedimento Geral Para Testes de Hipteses

A seguir daremos uma seqncia de passos que pode ser seguida em qualquer teste de hipteses:
0. A partir do contexto do problema, identique o parmetro de interesse.
1. Fixe qual a hiptese nula H0 e alternativa H1 .

113
2. Use teoria estatstica e informaes disponveis para decidir que estimador ser usado
para testar H0 .
3. Obtenha a distribuio do estimador proposto.
4. Determine .
5. Construa a regio crtica para o teste de modo que seja satisfeita.
6. Use os dados da amostra para determinar o valor do estimador, ou seja, uma estimativa
para o parmetro.
7. Se o valor do estimador pertencer a regio crtica, ento rejeite H0 . Caso contrrio,
reporte que no existe evidncia suciente para se rejeitar H0 .
11.3 Teste de Hiptese para a Mdia de Uma Populao

com Varincia Conhecida
Suponhamos que desejamos testar as hipteses H0 : = 0 e H1 : = 0 , sendo 0 uma
constante especicada. Para testar a hiptese nula, usaremos o estimador mdia amostral
de uma amostra aleatria simples de tamanho n. Deste modo, sabemos pelo TCL que
X N (0 , 2 /n), se a hiptese nula for verdadeira, e ento poderemos proceder como
anteriormente.
0 tem uma distribuio normal padro, se
Note que a estatstica padronizada Z0 = X
/ n
a hiptese nula for verdadeira. Portanto, temos que para a regio de aceitao [1 (1
/2), 1 (1 /2)], temos que P (Z0 RC| = 0 ) = .
mais fcil entender a regio crtica e o procedimento do teste quando a estatstica de
teste Z0 e no X . Entretanto, a mesma regio crtica pode ser calculada em termos do
valor da estatstica X . Neste caso, a regio de aceitao [0 1 (1/2) n , 0 +1 (1
/2) n ].
De modo similar, podemos obter a regio crtica para o caso de um teste de hiptese
unilateral H0 : = 0 e H1 : > 0 , ou H0 : = 0 e H1 : < 0 . No primeiro caso, temos
que a regio de aceitao para a estatstica Z0 (, 1 (1)], o que implica que a regio
de aceitao para a estatstica X (, 0 + 1 (1 ) n ]. No segundo caso, temos que
a regio para a estatstica Z0 [1 (), ), o que implica que a regio de aceitao para a
estatstica X [0 + 1 () n , ).
11.3.1 Teste para Proporo

O caso do teste para proporo um caso particular do caso do teste para a mdia com
varincia conhecida. Neste caso, temos que cada amostra pode ser considerada como uma
varivel Bernoulli com parmetro p que representa a proporo de indivduos da populao
que possuem uma determinada caracterstica. J vimos que a mdia de uma Bernoulli igual
ao seu parmetro p, e que sua varincia igual a p(1 p). Logo, utilizando a proporo

114
amostral como estatstica e os resultados gerais da seo anterior temos que a regio de
aceitao para a proporo
No caso de hiptese alternativa bilateral: H0 : p = p0 e H1 : p = p0 , a regio de

aceitao
[p0 1 (1 /2)
p0 (1 p0 )
, p0 + 1 (1 /2)
n
p0 (1 p0 )
].
n
No caso de hiptese alternativa unilateral superior: H0 : p = p0 e H1 : p > p0 , a regio

de aceitao
p0 (1 p0 )
(, p0 + 1 (1 )
].
n
No caso de hiptese alternativa unilateral inferior: H0 : p = p0 e H1 : p < p0 , a regio
de aceitao
p0 (1 p0 )
, ).
[p0 + 1 ()
n
Exemplo 11.3.1: Um relatrio arma que 40% de toda gua obtida atravs de poos arte-
sianos salobra. Existem controvrsias sobre esta armao, alguns dizem que a proporo
maior outros que menor. Para acabar com a dvida, sorteou-se 400 poos e observou-se
que em 120 deles a gua era salobra. Qual devia ser a concluso ao nvel de signicncia de
3%?
Soluo: Neste caso, estamos testando H0 : p = 0,4 contra uma hiptese alternativa
bilateral H1 : p = 0,4. Logo, a regio de aceitao dada por:
[0,41 (0,985)
(0,4)(0,6)
, 0,4+1 (0,985)
400
(0,4)(0,6)
] = [0,40,053; 0,4+0,053] = [0,347, ; 0,453].
400
Como p = 120/400 = 0,3, podemos rejeitar a hiptese nula ao nvel de conana de 3%.
Exemplo 11.3.2: O governo arma que a taxa de desemprego de no mximo 15% da
populao economicamente ativa. Uma amostra aleatria de 1500 pessoas revelou que 1300
destas pessoas esto empregadas. Para um nvel de signicncia de 5%, pode-se dizer que a
armao est correta?
Soluo: Neste caso, temos a hiptese nula H0 : p = 0,15 contra a hiptese alternativa
H1 : p < 0,15. Logo, a regio de aceitao dada por:
[0,15 + 1 (0,05)
(0,15)(0,85)
, ] = [0,135; +).
1500
Como p = 200/1500 = 0,133, podemos rejeitar a hiptese nula ao nvel de conana de 5%,
e portanto, concluir que a armao estava correta.
115
11.3.2 Testes para Amostras Grandes
Como se n 30, a varincia da amostra s2 prxima de 2 , temos que s pode ser usado
no lugar de nos procedimentos acima sem grande prejuzo aos clculos. Deste modo o
teste para a mdia de uma populao com varincia conhecida pode ser utilizado, no caso de
n 30, para testar a mdia de uma populao com varincia desconhecida. O tratamento
exato no caso em que 2 desconhecida e a amostra pequena envolve o uso da distribuio
t de student e ser estudado mais adiante.
11.4 Teste Sobre a Mdia de Uma Populao Normal

com Varincia Desconhecida
Assim como no caso de intervalos de conana, quando a amostra for pequena e 2 desconhecida, teremos de fazer uma suposio sobre a forma da distribuio em estudo. Assumiremos
nesta seo que a populao tem uma distribuio normal. J vimos que se a populao tem
tem uma distribuio t de student com n 1
uma distribuio normal, ento T = n(X)
S
graus de liberdade. Seja (, n 1) o valor tal que P (T (, n 1)) = . Ento, utilizando um procedimento similar ao caso de varincia conhecida, podemos vericar que se a
estatstica utilizada for a mdia amostral X , ento
no caso de hiptese alternativa bilateral: H0 : = 0 e H1 : = 0 , a regio de

aceitao
S
S
[0 (1 /2, n 1) , 0 + (1 /2, n 1) ];
n
n
no caso de hiptese alternativa unilateral superior: H0 : = 0 e H1 : > 0 , a regio
de aceitao
S
(, 0 + (1 , n 1) ];
n
no caso de hiptese alternativa unilateral inferior: H0 : = 0 e H1 : < 0 , a regio
de aceitao
S
[0 + (, n 1) , ).
n
Exemplo 11.4.1: O McDonald's pretende instalar uma nova lanchonete se no local tran-
sitarem no mnimo 200 carros por hora durante certos perodos do dia. Para 20 horas
selecionadas aleatoriamente durante tais perodos, o nmero mdio de carros que transitaram pelo lugar foi de 208,5 com desvio padro de 30,0. O gerente assume a hiptese de que
o volume de carro no satisfaz a exigncia de 200 ou mais carros por hora. Para um nvel
de signicncia de 5% esta hiptese pode ser rejeitada?
Soluo: Neste caso, temos que a hiptese nula dada por H0 : = 200 e a hiptese
alternativa H1 : > 200. Como a amostra pequena (<30) e a varincia da populao

116
desconhecida, devemos usar o teste t de student unilateral superior. Neste caso a regio de
aceitao dada por:
30
30
(, 200 + (0,95, 19) ] = (, 200 + 1,729 ] = (, 211,6].
20
20
Portanto, a hiptese no pode ser rejeitada a este nvel de conana.
Exemplo 11.4.2:
Num estudo sobre resistncia de um dado material, com distribuio

normal, foi coletada uma amostra de 25 unidades, resultando num valor mdio de 230,4Kg
e desvio-padro de 100Kg. O estudo est interessado em saber se essa amostra suciente
para garantir ao nvel de signicncia de 5% que a resistncia mdia do material seja superior
a 200Kg. Qual a sua concluso?
Soluo: O estudo quer realizar o seguinte teste: H0 : = 200 contra H1 : > 200.
Como a varincia desconhecida e a amostra menor que 30, devemos utilizar o teste t de
student. Neste caso, a regio de aceitao
100
(, 200 + (0, 95, 24) ] = (, 234,2].
25
Logo, a amostra no grande o suciente para garantirmos que a resistncia mdia maior
que 200 ao nvel de signicncia de 5%.
11.5 Probabilidade de Signicncia

O procedimento do testes de hipteses descrito at agora parte de pr-estabelecimento de
um valor para . Deste modo como a escolha de arbitrria pode acontecer que para um
determinado valor de a hiptese nula seja rejeitada, porm para um valor menor de ela
no seja rejeitada. Alm disso, no procedimento descrito se a estimativa do parmetro caia na
regio crtica a hiptese nula era rejeitada e nenhuma informao a respeito de quo prximo
essa estimativa estava da regio de aceitao. Uma maneira alternativa para evitarmos tais
problemas consiste em apresentar a probabilidade de signicncia, nvel descritivo, ou p-valor
do teste. Os passos so muito parecidos, s que ao invs de construirmos a regio crtica,
apresentamos o valor da probabilidade de ocorrerem valores da estatstica mais extremos
que o observado quando a hiptese nula verdadeira. O p-valor tambm pode ser denido
como o menor nvel de signicncia que conduz a rejeio da hiptese nula com os dados
observados.
Suponha que estejamos no caso de um teste para a mdia de uma populao com varincia
conhecida (ou ento varincia desconhecida, mas amostra grande). Seja x0 a mdia amostral
observada na amostra. Ento, para um teste bilateral H0 : = 0 e H1 : = 0 , temos
n|X 0 |
n|x0 0 |
p = P (|X 0 | > |x0 0 |) = P (
>
)

n|x0 0 |
n|x0 0 |
P (|Z| >
) = 2(1 (
)).

Similarmente, para um teste unilateral superior H0 : = 0 e H1 : > 0 , temos:
n(X 0 )
n(x0 0 )
p = P (X > x0 ) = P (
>
)

n|x0 0 |
n|x0 0 |
P (Z >
) = 1 (
).
117
Finalmente, para um teste unilateral inferior H0 : = 0 e H1 : < 0 , temos:
n(X 0 )
n(x0 0 )
p = P (X < x0 ) = P (
<
)
n|x0 0 |
n|x0 0 |
) = (
).
P (Z <
Exemplo 11.5.1: Suponha novamente a situao anterior onde queremos testar a hiptese
nula H0 : = 220v versus H1 : = 220v , temos uma amostra de tamanho 4 e sabemos que
a varincia igual a 64v 2 . Suponha ainda que a mdia amostral deu igual a 227v , podemos
ento calcular o p-valor:
4|227 220|
7
p = 2(1 (
)) = 2(1 ( )) = 2(1 0,9599) = 0,0802.
4
64
Portanto, a probabilidade de quando a hiptese nula verdadeira uma amostra selecionada
de tamanho 4 tenha mdia amostral mais distante de 220v que 227v igual a 0,0802, ou
ainda, a um nvel de signicncia de 10% a hiptese nula seria rejeitada, mas a um nvel de
signicncia de 5% a hiptese nula no pode ser rejeitada.
Temos ento que rejeitaremos a hiptese H0 se o p-valor for bastante pequeno. A tabela
a seguir ilustra a escala de evidncias de Fisher contra a hiptese H0 :
p-valor
0,1
0,05
0,025
0,001
0,005
0,001
Natureza da
Evidncia
marginal moderada substancial forte muito forte fortssima
11.6 Signicncia Estatstica versus Signicncia Prtica

Quando aplicamos o procedimento de um teste de hiptese na prtica precisamos alm
de considerar a signicncia estatstica medida pelo p-valor, considerar quais diferenas
entre valores dos parmetros tem implicaes prticas. Isto , pode acontecer que o pvalor seja pequeno levando ento a rejeio da hiptese H0 , mas que o desvio real entre o
valor do parmetro na hiptese nula e a estimativa do parmetro obtida na amostra no
tenha signicncia prtica. Isto pode ocorrer por exemplo, para tamanhos de amostras
grandes. Por exemplo, se obtivssemos uma amostra de 1600 medidas o observssemos a
mdia amostral de 220,5v , ento obteramos o p-valor bilateral de
1600(|220,5 220|)
)) = 2(1 (20/8)) = 0,0124.

p = 2(1 (
64

118
Portanto, temos uma evidncia estatstica substancial para rejeitarmos H0 . Contudo, do
ponto de vista prtico, se a mdia for realmente for 220,5v no haver nenhum efeito prtico
observvel no desempenho de qualquer equipamento eltrico. log, esta diferena detectada
pelo teste de hiptese apesar de ter signicncia estatstica no tem signicncia prtica.
Logo devemos ter cuidado ao interpretar os resultados de um teste de hiptese principalmente quando a amostra tiver tamanho grande, pois qualquer desvio pequeno do valor do
parmetro testado na hiptese nula ser detectado como tendo signicncia estatstica pelo
teste, contudo em muitos casos esta diferena poder ter pouca ou nenhuma signicncia
prtica.
Referncias Bibliogrcas
Livros Textos:
1. Meyer, P. (1983), Probabilidade - Aplicaes Estatstica, 2a. edio, Livros Tcnicos e Cientcos Editora, Rio de Janeiro.
2. Bussab, W. & Moretin, P. (2002), Estatstica Bsica, 5a. edio, Saraiva, So Paulo.
Livros Suplementares:
1. Davenport Jr., W. (1987), "Probability and Random Processes - an introduction for
applied scientists and engineers", McGraw-Hill Book Company Inc.
2. Fine, T. (2006), Probability and Probabilistic Reasoning for Electrical Engineering,
Prentice Hall.
3. Montgomery, D. & Runger, G. (2003), Estatstica e Aplicada e Probabilidade para
Engenheiros, 2a. edio, LTC, Rio de Janeiro.
119

AulasET1012008 2

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

AulasET1012008 2

Enviado por

Direitos autorais:

Formatos disponíveis

Notas de Aula do Curso

ET101: Estatstica 1 - rea 2

Recife, fevereiro de 2008.

Denio de Conjuntos e Exemplos . . . . . . . . . . .

2 Espaos Amostrais Finitos

Alguns Exemplos de Distribuies de Probabilidade . .

7 Principais Variveis Aleatrias Contnuas

6 Principais Variveis Aleatrias Discretas

A Distribuio Normal Bivariada . . . . . . . . . . . . . . . . . . . . . . . .

8 Anlise Exploratria de Dados

10.1 Estimativas e Estimadores . . . . . . . . . . .

11.1 Teste de Hiptese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

C = {x : x inteiro e positivo} ou D = {x : x par}.

{1, 2, 3} = {2, 3, 1}.

Observao 1.1.2: Precisamos ter cuidado ao distinguir entre um elemento como 2 e o

CAPTULO 1. INTRODUO PROBABILIDADE

= {} = {x : x IR e x < x} ou = (a, a).

1.2 Operaes com Conjuntos

Autor: Leandro Chaves Rgo

CAPTULO 1. INTRODUO PROBABILIDADE

Exemplo 1.2.2: Sejam A, B, C, eD subconjuntos do conjunto universo tal que AB = ,

Autor: Leandro Chaves Rgo

CAPTULO 1. INTRODUO PROBABILIDADE

1.3 Produto Cartesiano

dados A e B o conjunto de todos os pares ordenados de elementos, onde o primeiro pertence

Por exemplo, se A = {1, 2, 3} e B = {c, d}, ento:

1.4 Conjunto das Partes

Exemplo 1.4.2: Seja A = {1, 2, 3}, ento temos que

Autor: Leandro Chaves Rgo

CAPTULO 1. INTRODUO PROBABILIDADE

Denio 1.5.1: Dado um conjunto universo , uma partio = {A , I} de uma

Exemplo 1.5.3: A coleo de intervalos {(n, n + 1] : n Z} uma partio dos nmeros

1.6 Funo Indicadora

Denio 1.6.1 : Funo Indicadora. A funo indicadora IA : {0, 1} de um

fcil observar que I () = 1, e que I () = 0, . Note que existe uma

CAPTULO 1. INTRODUO PROBABILIDADE

Exemplo 1.6.2: Utilizando funes indicadoras, verique que A B B c Ac .

Exemplo 1.6.3: As seguintes questes no esto relacionadas umas com as outras.

1.7 Experimento Aleatrio

Autor: Leandro Chaves Rgo

CAPTULO 1. INTRODUO PROBABILIDADE

1.8 Espao Amostral

1.9 Eventos e Coleo de Eventos

Autor: Leandro Chaves Rgo

CAPTULO 1. INTRODUO PROBABILIDADE

Embora possa-se pensar que, dado um espao amostral, necessariamente de interesse

Uma lgebra de eventos F uma coleo de subconjuntos do espao

Autor: Leandro Chaves Rgo

CAPTULO 1. INTRODUO PROBABILIDADE

= {1, 2, 3}, A = {, , {2}, {1, 3}}.

1.10 Freqncias Relativas

A freqncia relativa de um evento A, determinada pelos resultados

CAPTULO 1. INTRODUO PROBABILIDADE

1.11 Interpretaes de Probabilidade

1. Clssica: baseada em uma enumerao de casos igualmente provveis.

3. Freqentista: se refere ao limite da freqncia relativa de ocorrncia do evento A em

1.12 Axiomas de Kolmogorov

Autor: Leandro Chaves Rgo

CAPTULO 1. INTRODUO PROBABILIDADE

1.12.1 Exemplos de Medidas de Probabilidade

denido para qualquer subconjunto A de . O fato que 0 ||A|| |||| e que

||A B|| = ||A|| + ||B|| ||A B||,

Exemplo 1.12.3: Seja = {1 , 2 , . . . , n } um conjunto nito, e seja P ({i }) = pi , onde

Denio de Conjuntos e Exemplos . . . . . . . . . . .

Denio 1.5.1: Dado um conjunto universo , uma partio = {A , I} de uma

Denio 1.6.1 : Funo Indicadora. A funo indicadora IA : {0, 1} de um

Exemplo 1.6.2: Utilizando funes indicadoras, verique que A B B c Ac .

denido para qualquer subconjunto A de . O fato que 0 ||A|| |||| e que

Exemplo 1.12.3: Seja = {1 , 2 , . . . , n } um conjunto nito, e seja P ({i }) = pi , onde

Exemplo 2.2.5: Em uma banca h 5 exemplares iguais da Veja, 6 exemplares iguais da

poca e 4 exemplares iguais da Isto . Quantas colees no-vazias de revistas dessa

Enumerao de Conjuntos: Coecientes Binomiais

Note que o coeciente binomial tambm igual ao nmero de subconjuntos de tamanho

Os nmeros nr so chamados de coecientes binomiais, porque eles aparecem como

Exemplo 2.2.15: Determine o coeciente de x3 no desenvolvimento de (x4 x1 )7 .

Esta quantidade conhecida como coeciente multinomial e denotada por:

Exemplo 2.2.17: Determine o coeciente de x9 y 4 no desenvolvimento de (x3 + 2y 2 + x52 )5 .

Deste modo as interpretaes freqentista e subjetivista de probabilidade justicam a

Denio 3.1.2: Seja (, A, P ) um espao de probabilidade. Se A, B A e P (B) > 0 a