Apostila - Introdução A Probabilidade

Introdução à Probabilidade
Notas de Aula
Leonardo T. Rolla
Instituto de Matemática Pura e Aplicada
Rio de Janeiro
14 de fevereiro de 2012
c 2012 Leonardo T. Rolla. Texto publicado sob a Licença “Creative Commons Atribuição

CompartilhaIgual 3.0 Brasil”. http://creativecommons.org/licenses/by-sa/3.0/br/deed.pt
Este material é parcialmente baseado no(s) seguinte(s) trabalho(s):
• Nei Rocha. Apostila “Teoria das Probabilidades II”, 2009.
http://www.lce.esalq.usp.br/arquivos/aulas/2011/LCE5806/apos_RJ_ProbabilidadeII.pdf
Trabalhos derivados devem ser distribuídos junto com o código-fonte, observando os termos desta
Licença. Devem fazer atribuição ao presente material, bem como ao(s) trabalho(s) acima citado(s).
Código fonte: bzr branch http://www.impa.br/~leorolla/apostila-intr-prob/ Versão: Date: Tue 2012-02-14 15:28:12 -0200
Sumário
Apresentação v
1 Definições Básicas 1
1.1 Espaços de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Definição de Probabilidade Condicional . . . . . . . . . . . . . 6
1.2.2 Regra do Produto . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.3 Lei da Probabilidade Total . . . . . . . . . . . . . . . . . . . . 6
1.2.4 Fórmula de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Independência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.1 Eventos Independentes 2 a 2 . . . . . . . . . . . . . . . . . . . 8
1.3.2 Eventos Coletivamente Independentes . . . . . . . . . . . . . . 9
1.4 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 Variáveis Aleatórias 13
2.1 Definição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Função de Distribuição . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3 Tipos de Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . 15
2.4 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3 Vetores Aleatórios 21
3.1 Independência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2 Função de Distribuição Marginal . . . . . . . . . . . . . . . . . . . . 23
3.3 Tipos de Vetores Aleatórios . . . . . . . . . . . . . . . . . . . . . . . 23
3.4 Método do Jacobiano . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.5 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4 Esperança Matemática 29
4.1 Definição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.1.1 Propriedades da Esperança Matemática . . . . . . . . . . . . . 30
4.2 Esperanças de Funções de Variáveis Aleatórias . . . . . . . . . . . . . 31
4.3 Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
iii
iv SUMÁRIO
4.3.1 Propriedades da Variância . . . . . . . . . . . . . . . . . . . . 32

4.4 Esperanças de Funções de Vetores Aleatórios . . . . . . . . . . . . . . 33
4.5 Esperança Condicional dado um Evento de Probabilidade Positiva . . 35
4.6 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5 Convergência de Variáveis Aleatórias 39

5.1 Lema de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2 Tipos de Convergência . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.3 Relação entre os Tipos de Convergência . . . . . . . . . . . . . . . . . 44
5.4 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
6 Função Geradora de Momentos e Função Característica 47

6.1 Função Geradora de Momentos . . . . . . . . . . . . . . . . . . . . . 47
6.2 Função Característica . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6.3 A Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . 52
6.4 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
7 Lei dos Grandes Números e Teorema Central do Limite 57

7.1 Leis dos Grandes Números . . . . . . . . . . . . . . . . . . . . . . . . 57
7.2 Teorema Central do Limite . . . . . . . . . . . . . . . . . . . . . . . . 59
7.3 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
8 Distribuição e Esperança Condicionais 61

8.1 Partições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
8.2 Probabilidade Condicional dada uma Partição . . . . . . . . . . . . . 62
8.3 Esperança Condicional dada uma Partição . . . . . . . . . . . . . . . 63
8.4 Esperança Condicional dada uma σ-Álgebra . . . . . . . . . . . . . . 66
8.5 Distribuição Condicional Regular . . . . . . . . . . . . . . . . . . . . 68
8.6 Esperança Condicional dada uma Variável Aleatória . . . . . . . . . . 73
8.7 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
Apresentação
Esta é uma apostila feita a partir de notas de aula das disciplinas Probabilidade do
mestrado em Ciências Atuariais da PUC-Rio ministrada em 2006 e Introdução à
Probabilidade ministrada no verão de 2012 no IMPA.
Este não é um livro-texto nem um livro para consulta. O texto aqui apresentado é
uma versão expandida do conteúdo que foi passado no quadro-negro, além de listas
de exercícios sugeridos. Durante os cursos ministrados, os principais livros-texto
adotados foram o Barry James1 no IMPA e Magalhães2 na PUC-Rio. Alguns dos
exercícios sugeridos são uma simples listagem de exercícios desses dois excelentes
livros.
O único pré-requisito formal é o Cálculo, e o curso não assume que os alunos
tenham qualquer tipo de conhecimento prévio em Probabilidade. Os alunos terão
que aceitar como verdadeiros certos resultados que só serão justificados rigorosa-
mente utilizando Análise ou Teoria da Medida, o que não impede a compreensão
dos objetos probabilísticos estudados.3 Não obstante, para um curso que tem entre
17 a 20 aulas de 2 horas cada e sem pré-requisito formal, trata-se de uma introdu-
ção bastante ampla à teoria da probabilidade, o que só foi possível porque ambos
os cursos foram dados para um conjunto de alunos extremamente motivados e com
excelente desenvoltura matemática.
Esta apostila está em construção. Para que este texto reflita melhor o conteúdo
e a abordagem dos cursos mencionados, são necessárias diversas mudanças, prin-
cipalmente nos primeiros quatro capítulos. Agradeço ao Prof. Nei Rocha, que me
permitiu desenvolver esta apostila a partir do material que ele já havia compilado.
Comentários, críticas e correções são muito bem-vindos.
Rio de Janeiro, fevereiro de 2012.
1
James, B. R. (2004). Probabilidade: Um curso em nível intermediário. Projeto Euclides.
2
Magalhães, M. N. (2004). Probabilidade e variáveis aleatórias. IME-USP.
3
Da mesma forma, aprende-se Cálculo antes de se fazer a demonstração do seu teorema funda-
mental. Da mesma forma, é comum entre matemáticos usar resultados baseados no Lema de Zorn
sem ter entrado nos detalhes da sua demonstração.
v
Capítulo 1
Definições Básicas
1.1 Espaços de Probabilidade

Suponha que vamos realizar um experimento cujo resultado não pode ser predito
de antemão. Entretanto, suponha que saibamos todos os possíveis resultados de
tal experimento. Este conjunto de todos os resultados possíveis, que denotaremos
por Ω, é chamado de espaço amostral do experimento. Assim, temos a seguinte
definição:
Definição 1.1. O conjunto não-vazio Ω de todos os resultados possíveis de um
determinado experimento é chamado de espaço amostral.
Exemplo 1.2. Se o experimento consiste em lançar uma moeda, então Ω = {Ca, Co},
onde Ca é “cara” e Co é “coroa”.
Exemplo 1.3. Se o experimento consiste em lançar um dado e observar a face
superior, então Ω = {1, 2, 3, 4, 5, 6}.
Exemplo 1.4. Se o experimento consiste em lançar duas moedas, então
Ω = {(Ca, Ca), (Ca, Co), (Co, Ca), (Co, Co)}, onde o resultado (a, b) ocorre se a
face da primeira moeda é a e a face da segunda moeda é b.
Exemplo 1.5. Se o experimento consiste em lançar dois dados e observar as faces
superiores, então
 


 (1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6) 



 





(2, 1) (2, 2) (2, 3) (2, 4) (2, 5) (2, 6) 




 

(3, 1) (3, 2) (3, 3) (3, 4) (3, 5) (3, 6)
Ω=


 (4, 1) (4, 2) (4, 3) (4, 4) (4, 5) (4, 6) 



 





(5, 1) (5, 2) (5, 3) (5, 4) (5, 5) (5, 6) 




 

(6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6)
onde o resultado (i, j) ocorre se a face i aparece no primeiro dado e a face j no
segundo dado.
1
2 CAPÍTULO 1. DEFINIÇÕES BÁSICAS
Exemplo 1.6. Se o experimento consiste em medir a vida útil de um carro, então

um possível espaço amostral consiste de todos os números reais não-negativos, isto
é, Ω = [0, ∞).
Definição 1.7. Qualquer subconjunto A do espaço amostral Ω, isto é A ⊂ Ω, ao

qual atribuímos uma probabilidade, é dito um evento aleatório.
Obviamente, como ∅ ⊂ Ω e Ω ⊂ Ω os conjuntos ∅ e Ω são eventos aleatórios.
O conjunto vazio ∅ é denominado evento impossível e o conjunto Ω é denominado
evento certo. Se ω ∈ Ω o evento {ω} é dito elementar (ou simples).
Definição 1.8. Dois eventos A e B são ditos mutuamente exclusivos ou incompatí-

veis se A ∩ B = ∅.
Observação 1.9. É importante saber traduzir a notação de conjuntos para a lin-

guagem de eventos: A ∪ B é o evento “A ou B”; A ∩ B é o evento “A e B” e Ac é o
evento “não A”.
Definição 1.10. Seja A uma classe de subconjuntos de Ω tendo as seguintes pro-

priedades:
(i) Ω ∈ A;
(ii) Se A ∈ A então Ac ∈ A; (a classe é fechada pela complementariedade)
n
(iii) Se A1 , A2 , . . . , An ∈ A então ∪ Ai ∈ A. (a classe é fechada pela união finita)
i=1
Então a classe A de subconjuntos de Ω é chamada uma álgebra.
Exercício 1.1. Seja A uma álgebra. Mostre que:

(a) ∅ ∈ A;
(b) se A e B ∈ A então A − B ∈ A;
n
(b) se A1 , A2 , . . . , An ∈ A então ∩ Ai ∈ A.
i=1
Definição 1.11. Seja A uma classe de subconjuntos de Ω tendo as seguintes pro-

priedades:
(i) Ω ∈ A;
(ii) Se A ∈ A então Ac ∈ A; (a classe é fechada pela complementariedade)
∞
(iii) Se A1 , A2 , · · · ∈ A então ∪ Ai ∈ A. (a classe é fechada pela união infinita
i=1
enumerável)
Então a classe A de subconjuntos de Ω é chamada uma σ-álgebra.
Proposição 1.12. Seja A uma σ-álgebra de subconjuntos de Ω. Se A1 , A2 , · · · ∈ A

∞
então ∩ Ai ∈ A.
i=1
Demonstração. (Em aula.)

1.1. ESPAÇOS DE PROBABILIDADE 3
Definição 1.13. Os membros de A são chamados (no contexto da teoria de Proba-

bilidade) de eventos, ou subconjuntos de Ω A-mensuráveis, ou apenas subconjuntos
mensuráveis de Ω se não houver confusão quanto à σ-álgebra referente. O par (Ω, A)
é dito ser um espaço mensurável.
Exercício 1.2. Seja Ω = R e A a classe de todas as uniões finitas de intervalos do

tipo (−∞, a], (b, c] e (d, ∞). Mostre que
(a) A é uma álgebra;
(b) A não é uma σ-álgebra.
Exercício 1.3. Mostre que toda σ-álgebra é uma álgebra, mas a recíproca não é
verdadeira.
Exercício 1.4. Mostre, com exemplo, que se A e B são σ-álgebras, A ∪ B não é

necessariamente uma σ-álgebra.
Exercício 1.5. Mostre que se A e B são σ-álgebras, A∩B é também uma σ-álgebra.
Observação 1.14. Dada uma classe B de subconjuntos de Ω, podemos construir a

menor álgebra contendo B, da seguinte forma:
(i) Formamos a classe B1 contendo Ω, ∅, A e Ac para todo A ∈ B;
(ii) Formamos a classe B2 de interseções de elementos de B1 ;
(iii) Formamos a classe B3 de uniões finitas de elementos de B2 .
Claramente, B ⊂ B1 ⊂ B2 ⊂ B3 , e pode-se verificar facilmente que B3 é uma
álgebra.
Observação 1.15. Podemos construir (ainda que de forma abstrata) a menor

σ−álgebra contendo uma classe B de subconjuntos de Ω, da seguinte forma: Con-
sidere todas as σ−álgebras contendo B. Denote-as σλ (B), λ ∈ Λ. O conjunto Λ é
não-vazio, pois o conjunto de todos os subconjuntos de Ω é uma σ−álgebra. Então,
a menor σ−álgebra contendo B é dada por
σ(B) = ∩ σλ (B)
λ∈Λ
Exemplo 1.16. Seja Ω = {1, 2, 3, 4, 5, 6}. (a) Construa a menor σ−álgebra de sub-
conjuntos de Ω; (b) Construa a menor σ−álgebra contendo a classe de subconjuntos
de Ω dada por {{1, 2} , {1, 3, 4} , {3, 5}}; (c) Construa a menor σ−álgebra contendo
todos os subconjuntos de Ω (esta σ−álgebra é chamada de conjunto das partes de
Ω, e é denotada por P(Ω)).
Definição 1.17. A σ−álgebra de Borel é gerada pela coleção de conjuntos abertos

de um espaço topológico. Os membros desta σ−álgebra são chamados Borelianos.
As σ−álgebras em Rd , d > 1, e R são geradas por intervalos nestes espaços e
são denotadas por B(Rd ) = Bd e B = B1 = B(R), respectivamente. Por exemplo, se
Ω = R, B pode ser gerada por quaisquer dos intervalos (a, b), (a, b], [a, b) ou [a, b],
isto é,
B = σ{(a, b); −∞ ≤ a < b ≤ +∞}

= σ{[a, b); −∞ < a < b ≤ +∞}
= σ{[a, b]; −∞ < a < b < +∞}
= σ{(−∞, x]; x ∈ R},
e assim por diante.
Definição 1.18. Seja A uma (σ−)álgebra em Ω. Um membro A de A é dito um

átomo, se A 6= ∅ e se B ⊆ A implica que ou B = ∅ ou B = A. Portanto, átomos são
os membros mais finos de uma (σ−)álgebra.
Exemplo 1.19. Seja Ω = {1, 2, 3, 4, 5, 6} e seja A = {∅, {2}, {1, 3, 4, 5, 6}, {4, 6}, {1, 2, 3, 5},
{1, 3}, {2, 4, 5, 6}, {5}, {1, 2, 3, 4, 6}, {1, 3, 5}, {4, 5, 6}, {1, 3, 4, 6}, {2, 5}, {1, 2, 3}, {2, 4, 6}, Ω}.
Então os átomos associados à A são {2}, {5}, {1, 3} e {4, 6}.
Definição e propriedades das probabilidades Seja Ω um espaço amostral e

A uma σ-álgebra para um dado experimento. Uma medida de probabilidade P é
uma aplicação P : A → [0, 1] satisfazendo os seguintes axiomas:
A1) P (A) ≥ 0.
A2) P (Ω) = 1.
P∞
A3) Se A1 , A2 , · · · ∈ A e Ai ∩ Aj = ∅ ∀i 6= j, então P (∪∞
i=1 Ai ) = i=1 P (Ai ).
Definição 1.20. Um espaço de probabilidade é um trio (Ω, F , P ) onde

1. Ω é um conjunto não-vazio;
2. A é uma σ-álgebra de subconjuntos de Ω;
3. P é uma probabilidade definida em A.
Com base nos axiomas de probabilidade, podem-se demonstrar as seguintes pro-

priedades:
Teorema 1.21. 1. P (∅) = 0.

2. Para todo A ∈ A, temos P (Ac ) = 1 − P (A).
3. Para todo A ∈ A, temos 0 ≤ P (A) ≤ 1.
1.1. ESPAÇOS DE PROBABILIDADE 5
4. Sejam A e B ∈ A. Se A ⊂ B, então
(a) P (B − A) = P (B) − P (A);
(b) P (A) ≤ P (B).
5. Sejam A e B ∈ A. Então P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
∞
∞ P
6. Para qualquer seqüência de eventos A1 , A2 , . . . , An ∈ A, P ∪ Ai ≤ P (Ai)
i=1 i=1
(desigualdade de Boole).
7. Sejam A1 , A2 , . . . , An ∈ A. Então
n
X X X
n
P ∪ Ai = P (Ai) − P (Ai ∩ Aj ) + P (Ai ∩ Aj ∩ Ak )
i=1
i=1 i<j i<j<k
X
− P (Ai ∩ Aj ∩ Ak ∩ Al ) + · · · + (−1)n+1 P (A1 ∩ A2 ∩ · · · ∩ An )
i<j<k<l
Uma propriedade importante da função probabilidade P é que ela é contínua.

Para ver isto, definimos antes o que se entende por uma seqüência crescente (decres-
cente) de eventos.
Definição 1.22. Uma seqüência de eventos {En , n ≥ 1} é dita crescente se En ⊂
En+1 , n ≥ 1 e é dita decrescente se En ⊃ En+1 , n ≥ 1.
Se {En , n ≥ 1} é uma seqüência crescente de eventos, então definimos um novo
evento, denotado por limn→∞ En por
∞
lim En = ∪ Ei .
n→∞ i=1
De forma similar se {En , n ≥ 1} é uma seqüência decrescente de eventos, então

definimos limn→∞ En por
∞
lim En = ∩ Ei .
n→∞ i=1
Com isso, podemos mostrar o seguinte teorema.
Teorema 1.23. Se {En , n ≥ 1} é uma seqüência crescente ou decrescente de even-
tos, então
lim P (En ) = P ( lim En ).
n→∞ n→∞

Exemplo 1.24. Considere uma população de indivíduos capazes de gerar proles do
mesmo tipo. O número de indivíduos inicialmente presentes, denotado por X0 , é o
tamanho da geração zero. Todos as proles da geração zero constituem a primeira
geração e o seu número é denotado por X1 . Em geral, Xn denota o tamanho da
n-ésima geração. Mostre que limn→∞ P (Xn = 0) existe e interprete o seu significado.
1.2 Probabilidade Condicional
1.2.1 Definição de Probabilidade Condicional

Definição 1.25. Seja (Ω, A, P ) um espaço de probabilidade. Se B ∈ A e P (B) > 0,
a probabilidade condicional de A dado B é definida por
P (A ∩ B)
P (A | B) = , A ∈ A. (1.1)
P (B)
Exercício 1.6. Certo experimento consiste em lançar um dado equilibrado duas

vezes, independentemente. Dado que os dois números sejam diferentes, qual é a
probabilidade condicional de
(a) pelo menos um dos números ser 6;
(b) a soma dos números ser 8?
1.2.2 Regra do Produto

Teorema 1.26. Sejam A, B ∈ A com P (A) > 0 e P (B) > 0. Então
P (A ∩ B) = P (B).P (A | B)
= P (A).P (B | A)
Teorema 1.27. (a) P (A ∩ B ∩ C) = P (A).P (B | A).P (C | A ∩ B).

(b) P (A1 ∩ A2 ∩ · · · ∩ An ) = P (A1 ).P (A2 | A1 ).P (A3 | A1 ∩ A2 ) · · · P (An | A1 ∩
A2 ∩ · · · An−1 ), para todo A1 , A2 , . . . , An ∈ A e para todo n = 2, 3, . . . .
1.2.3 Lei da Probabilidade Total

Definição 1.28. Seja (Ω, F ) um espaço mensurável. Uma partição de Ω é uma
família de conjuntos A1 , A2 , . . . , An tais que
(i) Ai ∈ F para todo i,
n
(ii) ∪ Ai = Ω,
i=1
(iii) Ai ∩ Aj = ∅, para todo i 6= j.

Ou seja, os conjuntos A1 , A2 , . . . , An são disjuntos dois a dois e a sua união é o
conjunto Ω. Dizemos também que Ω foi particionado pelos conjuntos A1 , A2 , . . . , An .
1.2. PROBABILIDADE CONDICIONAL 7
Para todo evento B ∈ A temos

n
B = ∪ (Ai ∩ B) .
i=1
Como os Ai são disjuntos, então os Ci = Ai ∩B são disjuntos. Com isto podemos

demonstrar os seguintes teoremas:
Teorema 1.29 (Teorema da Probabilidade Total). Seja (A1 , A2 , . . . ) uma par-

tição de (Ω, F ). Para todo B ∈ F vale
X
P (B) = P (Ai ).P (B | Ai ). (1.2)
i
1.2.4 Fórmula de Bayes
Teorema 1.30 (Fórmula de Bayes). Se a seqüência (finita ou enumerável) de

eventos aleatórios A1 , A2 , . . . formar uma partição de Ω, então
P (Ai )P (B | Ai )
P (Ai | B) = P . (1.3)
P (Aj ).P (B | Aj )
j
Exercício 1.7. Uma caixa contém 10 bolas das quais 6 são brancas e 4 vermelhas.
Removem-se três bolas sem observar suas cores. Determine:
(a) a probabilidade de que uma quarta bola removida da caixa seja vermelha;
(b) a probabilidade de que as três bolas removidas sejam brancas, sabendo-se
que pelo menos uma delas é branca.
Exercício 1.8. Uma moeda é lançada. Se ocorre cara, um dado é lançado e o seu
resultado é registrado. Se ocorre coroa, dois dados são lançados e a soma dos pontos
é registrada. Qual a probabilidade de ser registrado o número 2?
Exercício 1.9. Num certo certo país, todos os membros de comitê legislativo ou são
comunistas ou são republicanos. Há três comitês. O comitê 1 tem 5 comunistas, o
comitê 2 tem 2 comunistas e 4 republicanos, e o comitê 3 consiste de 3 comunistas e
4 republicanos. Um comitê é selecionado aleatoriamente e uma pessoa é selecionada

aleatoriamente deste comitê.
(a) Ache a probabilidade de que a pessoa selecionada seja comunista.
(b) Dado que a pessoa selecionada é comunista, qual a probabilidade de ela ter
vindo do comitê 1?
Exercício 1.10. São dadas duas urnas A e B. A urna A contém 1 bola azul e 1
vermelha. A urna B contém 2 bolas vermelhas e 3 azuis. Uma bola é extraída ao
acaso de A e colocada em B. Uma bola então é extraída ao acaso de B. Pergunta-se:
(a) Qual a probabilidade de se retirar uma bola vermelha de B?
(b) Qual a probabilidade de ambas as bolas retiradas serem da mesma cor?
Exercício 1.11. Suponha que temos 4 cofres, cada um com dois compartimentos.
Os cofres 1 e 2 têm um anel de brilhante num compartimento e um anel de esmeralda
no outro. O cofre 3 têm dois anéis de brilhante em seus compartimentos, e o cofre
4 têm dois anéis de esmeralda. Escolhe-se um cofre ao acaso, abre-se um dos com-
partimentos ao acaso e encontra-se um anel de brilhantes. Calcule a probabilidade
de que o outro compartimento contenha:
(a) um anel de esmeralda;
(b) um anel de brilhantes.
1.3 Independência
1.3.1 Eventos Independentes 2 a 2
Definição 1.31. Seja (Ω, F , P ) um espaço de probabilidade. Os eventos alea-

tórios A, B ∈ F são independentes se
P (A ∩ B) = P (A)P (B).
Observação 1.32. Eventos de probabilidade 0 ou 1 são independentes de qualquer

outro.
Teorema 1.33. A é independente de si mesmo se e somente se P (A) = 0 ou 1.
Teorema 1.34. São equivalentes:

1. A e B são independentes
1.3. INDEPENDÊNCIA 9
2. A e B c são independentes
3. Ac e B são independentes
4. Ac e B c são independentes
Demonstração. Exercício.
Observação 1.35. Dois eventos disjuntos não podem ser independentes, a menos
que um deles tenha probabilidade zero.
Definição 1.36. Dada uma família de eventos aleatórios (Ai )i∈I , dizemos que
os Ai são independentes dois a dois se
P (Ai ∩ Aj ) = P (Ai).P (Aj )
para todo i, j ∈ I, i 6= j.
1.3.2 Eventos Coletivamente Independentes

Definição 1.37. (a) Os eventos aleatórios A1 , . . . , An (n ≥ 2) são chamados (cole-
tiva ou estocasticamente) independentes se
P (Ai1 ∩ Ai2 ∩ · · · ∩ Aim ) = P (Ai1 ).P (Ai2 ) · · · P (Aim )
para todo 1 ≤ i1 < i2 < · · · < im ≤ n, para todo m = 2, 3, . . . , n (isto é, se todas as
combinações satisfazem a regra produto).
(b) Os eventos aleatórios A1 , A2 , . . . independentes se para todo n ≥ 2, A1 , . . . , An
são independentes.
Observação 1.38. Independência a pares não implica independência coletiva. Con-
forme o exercício a seguir.
Exercício 1.12. Seja Ω = {w1 , w2 , w3 , w4 } e suponha P ({w}) = 1/4 para todo
w ∈ Ω. Sejam os eventos A = {w1 , w4 }, B = {w2 , w4 } e C = {w3 , w4 }. Verifique
que A, B e C são independentes dois a dois, mas
P (A ∩ B ∩ C) 6= P (A).P (B).P (C).
Observação 1.39. Toda família de eventos independentes é independente.
Exercício 1.13. Um dado não viciado é lançado uma vez. Se a face que aparece
é ímpar, uma moeda não viciada é lançada repetidas vezes. Se a face é par, uma
moeda com probabilidade p 6= 12 de dar cara é lançada repetidamente. Os sucessivos
lançamentos são independentes. Se os primeiros n lançamentos resultaram em cara,
qual a probabilidade de que a moeda não viciada foi usada?
1.4 Exercícios
Exercício 1.14. Considere o experimento resultante do lançamento de dois dados
onde se observa o mínimo entre suas faces. Construa um modelo probabilístico
associado.
Exercício 1.15. Seja (Ω, F , P ) um espaço de probabilidade. Considere uma seqüên-

cia de eventos aleatórios (An ) em F . Defina o evento Bm : “o primeiro evento a
ocorrer da seqüência (An ) é Am ”.
1. Expresse Bm em função dos An . Bm é aleatório? Por quê?
2. Os eventos B1 , B2 , . . . , Bm , . . . são disjuntos?
S∞
3. Quem é o evento m=1 Bm ?
Exercício 1.16. Considere um espaço amostral Ω e uma σ-álgebra F sobre Ω. Se

(Pn ) é uma seqüência de medidas de probabilidade sobre F , se (an ) é uma seqüência
P
de números reais não-negativos tal que ∞ n=1 an = 1 e se definirmos
∞
X
P (E) = an Pn (E), E ∈ F,
n=1
então P também é uma medida de probabilidade sobre F . Mostre isso.
Exercício 1.17. A σ-álgebra gerada por uma classe de conjuntos C.

Seja C uma classe de subconjuntos de Ω. Prove que:
1. C ⊆ P(Ω).
2. Dadas duas σ-álgebras F e G, temos que F ∩ G é uma σ-álgebra.
3. Dada uma família qualquer de σ-álgebras {Fi}i∈I , onde I é qualquer conjunto
T
de índices não-vazio, temos que i∈I Fi é uma σ-álgebra.
4. Considere a família de σ-álgebras {F ⊆ P(Ω) : F é σ-álgebra e C ⊆ F }. Esta
família não é vazia.
5. Defina σ(C) como sendo a interseção de todas as σ-álgebras do item anterior.
Então:
(a) σ(C) é uma σ-álgebra.

(b) C ⊆ σ(C).
(c) Dada F σ-álgebra, se C ⊆ F então σ(C) ⊆ F .
6. Não existe outra σ-álgebra satisfazendo as três propriedades acima.

Dizemos que σ(C), assim definida, é a σ-álgebra gerada por C, ou a menor σ-álgebra
que contém C.
1.4. EXERCÍCIOS 11
Exercício 1.18. Prove as propriedades de σ(C) abaixo.

1. Se C ⊆ D então σ(C) ⊆ σ(D).
2. Se A é σ-álgebra então σ(A) = A.
3. Seja f : Ω → Ω′ uma função e C ′ uma classe de subconjuntos de Ω′ . Então
σ(f −1 C ′ ) = f −1 (σ(C ′ )).
Exercício 1.19. Prove que a fórmula de Bayes é valida (use a regra do produto e
a lei da probabilidade total).
Exercício 1.20. Prove que cada um dos itens abaixo é equivalente à definição de
‘A e B independentes’:
1. A e B c são independentes;
2. Ac e B são independentes;
3. Ac e B c são independentes;
4. P (A|B) = P (A);
5. P (B|A) = P (B).
Exercício 1.21. Se P (A) = P (A|B) = 1

4
e P (B|A) = 21 :
1. A e B são independentes?
2. A e B são mutuamente exclusivos?
3. Calcule P (Ac |B c ).
Exercício 1.22. B. James. Capítulo 1. Recomendados: 3, 4, 5, 7, 11, 16, 18, 22.

Capítulo 2
Variáveis Aleatórias
2.1 Definição
Na realização de um fenômeno aleatório, muitas vezes estamos interessados em uma
ou mais quantidades, que são dadas em função do resultado do fenômeno. A essas
quantidades damos o nome de variáveis aleatórias. Informalmente, uma variável
aleatória é um característico numérico do experimento.
Exemplo 2.1. Sortear 11 cartas do baralho e contar quantas dessas cartas são de
espadas.
Exemplo 2.2. Sortear dois números entre 0 e 1 e considerar o menor deles.
Exemplo 2.3. Joga-se um dado e observa-se a face superior. Nesse caso temos
Ω = {1, 2, 3, 4, 5, 6} e
X(ω) = ω.
Entretanto, nem toda função de Ω em R traduz uma variável aleatória. Para

que ela seja uma variável aleatória, precisamos garantir que todo evento relacionado
à variável aleatória possa ser mensurado. Daí a definição seguinte:
Definição 2.4. Uma variável aleatória X em um espaço de probabilidade

(Ω, A, P ) é uma função real definida no espaço Ω tal que o conjunto
[ω ∈ Ω : X(ω) ≤ x] (daqui para frente escrito de forma simplificada [X ≤ x])
é evento aleatório para todo x ∈ R; isto é,
X:Ω→R
é uma variável aleatória se [X ≤ x] ∈ A para todo x ∈ R.
13
14 CAPÍTULO 2. VARIÁVEIS ALEATÓRIAS
Exemplo 2.5. Sejam Ω = {1, 2, 3, 4} e A = {∅, {1, 2}, {3, 4}, Ω} e considere os
conjuntos A = {1, 2} e B = {1, 3}. Então 1A é variável aleatória em (Ω, A), mas 1B
não é.
2.2 Função de Distribuição

Definição 2.6. A função de distribuição (acumulada) da variável aleatória X, re-
presentada por FX , ou simplesmente por F quando não houver confusão, é definida
por
FX (x) = P (X ≤ x), x ∈ R. (2.1)
Exercício 2.1. Duas moedas honestas são lançadas. Seja a variável X que conta o
número de caras observadas. Construa a função de distribuição da variável aleatória
X e represente-a graficamente.
Exercício 2.2. Seja um experimento que consiste em selecionar um ponto ao acaso

do intervalo [a, b] com a < b. Seja X a variável aleatória que representa a coordenada
do ponto. Construa a função de distribuição da variável aleatória X e represente-a
graficamente.
Proposição 2.7 (Propriedades da Função de Distribuição). Se X é uma variável

aleatória, sua função de distribuição F satisfaz as seguintes propriedades:
1. Se x1 ≤ x2 então F (x1 ) ≤ F (x2 ); isto é, F é não-decrescente.

2. Se xn ↓ y, então F (xn ) ↓ F (y); isto é, F é contínua à direita.
3. limx→−∞ F (x) = 0 e limx→+∞ F (x) = 1.
Tendo em mente que FX (x) = P (X ≤ x), podemos observar que

1. P (X > a) = 1 − P (X ≤ a) = 1 − FX (a)
2. P (a < X ≤ b) = P (X ≤ b) − P (X ≤ a) = FX (b) − FX (a)
3. P (X = a) = P (X ≤ a) − P (X < a) = FX (a) − FX (a− ). Ou seja, P (X = a)
é o tamanho do salto da função de distribuição em x = a. Se a função for
contínua no ponto x = a então P (X = a) = 0.
4. P (a < X < b) = P (a < X ≤ b) − P (X = b)
= P (X ≤ b) − P (X ≤ a) − P (X = b) = FX (b) − FX (a) − [FX (b) − FX (b− )]
= FX (b− ) − FX (a).
5. P (a ≤ X < b) = P (a < X < b) + P (X = a)
= FX (b− ) − FX (a) + [FX (a) − FX (a− )] = FX (b− ) − FX (a− ).
2.3. TIPOS DE VARIÁVEIS ALEATÓRIAS 15
6. P (a ≤ X ≤ b) = P (a < X ≤ b) + P (X = a)
= FX (b) − FX (a) + [FX (a) − FX (a− )] = FX (b) − FX (a− ).
Exercício 2.3. Um dado tendencioso é tal que a probabilidade de um ponto é
proporcional ao próprio ponto. Seja X a variável aleatória que representa o número
obtido no lançamento do dado. Pede-se:
(a) A função de distribuição da variável aleatória X, esboçando o seu gráfico.
(b) A probabilidade de ocorrer 5, dado que ocorreu um número ímpar?
(c) A probabilidade de ocorrer um número par, dado que ocorreu um número
menor do que 5?
Exercício 2.4. Seja F (x) a função

0, se x < 0



F (x) = x + 21 , se 0 ≤ x ≤ 1
2


 1, se x > 1
2
Mostre que F é de fato uma função de distribuição e calcule:

(a) P (X > 18 )
(b) P ( 81 < X < 52 )
(c) P (X < 25 | X > 81 )
2.3 Tipos de Variáveis Aleatórias
Definição 2.8. Uma variável aleatória X (assim como sua função de distribuição
FX ) é dita discreta se existe um conjunto enumerável {x1 , x2 , x3 , . . . } ⊆ R tal
que
∞
X
P (X = xn ) = 1.
n=1
Neste caso definimos a função de probabilidade de uma variável aleatória contínua

como
pX (x) = P (X = x).
Note que, se X é discreta assumindo valores em {x1 , x2 , x3 , . . . }, temos P (X ∈

{x1 , x2 , . . . }) = 1 e P (X 6∈ {x1 , x2 , . . . }) = 0. No tratamento de variáveis aleatórias
discretas, tudo pode ser feito em termos de somatórios. A função de distribuição de
uma variável aleatória discreta é dada por
X X
FX (x) = P (X = xn ) = PX (xn ).
n:xn ≤x n:xn ≤x
Observação 2.9. Reciprocamente, dada p(·) satisfazendo
p(x) ≥ 0, ∀x∈R (2.2)
e X
p(x) = 1, (2.3)
x∈R
existe uma variável aleatória com função de probabilidade dada por p.
Exercício 2.5. A probabilidade de um indivíduo acertar um alvo é 2/3. Ele deve

atirar até atingir o alvo pela primeira vez. Seja X a variável aleatória que representa
o número de tentativas até que ele acerte o alvo. Pede-se:
(a) A função de probabilidade de X, mostrando que ela atende as propriedades
(2.2) e (2.3).
(b) A probabilidade de serem necessários cinco tiros para que ele acerte o alvo.
Exercício 2.6. Seja X uma variável aleatória com função de probabilidade

P (X = x) = cx2 , onde c é uma constante e k = 1, 2, 3, 4, 5. Calcule F (x) e
P (X ser ímpar).
Exercício 2.7. Seja X o número de caras obtidas em 4 lançamentos de uma mo-

eda honesta. Construa a função de probabilidade e a função de distribuição de X
esboçando os seus gráficos.
Definição 2.10. Uma variável aleatória X e sua função de distribuição FX são ditas
contínuas se P (X = a) = 0 para todo a ∈ R, ou seja, se FX for contínua no sentido
usual.
Definição 2.11. Uma variável aleatória X (assim como sua função de distri-
buição FX ) é dita absolutamente contínua se existe fX (·) ≥ 0 tal que
Z t
FX (t) = fX (s)ds.
−∞
Neste caso, dizemos que fX é a função de densidade de probabilidade de X, ou

simplesmente densidade de X.
Observação 2.12. Pelo Teorema Fundamental do Cálculo, observe que
dFX (x)
fX (x) = .
dx
Observação 2.13. Como FX (x) é contínua, observe que
2.3. TIPOS DE VARIÁVEIS ALEATÓRIAS 17
1. P (X = x) = FX (x) − FX (x− ) = 0 para todo x ∈ R.

2. P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b) =
Rb
a fX (x)dx.
3. dFX (x) = fX (x)dx.
Exercício 2.8. Verifique que




0, z < 0,



z 2 , 0 ≤ z < 12 ,
FZ (z) = 
1 − 3(1 − z) , ≤ z < 1,
 2 1
 2



1, z≥1
é uma função de distribuição e obtenha a função de densidade de Z. Calcule também

P (Z > 14 |Z ≤ 34 ).
Exercício 2.9. Verifique que


0, y < 0



√
FY (y) = y, 0 ≤ y ≤ 1


 1, y > 1
é uma função de distribuição e calcule a função de densidade de Y . Use-a para

calcular P ( 14 < Y < 43 ).
Definição 2.14. Uma variável aleatória X é dita mista se tem partes nas diferentes
classificações (parte discreta e parte contínua).
Exercício 2.10. (Exemplo de Variável Aleatória Mista: Discreta e Contínua ao

mesmo tempo) A função de distribuição de uma variável aleatória X é dada por:

0, x < 0





x
2


, 0≤x<1
FX (x) = 2
3
, 1≤x<2



 11
, 2≤x<3

 12


1, x ≥ 3
Obtenha:
(a) o gráfico de FX (x);
(b) P (X < 3);
(c) P (X = 1);
(d) P (X > 1/2);
(e) P (2 < X < 4).
Exercício 2.11. Seja X uma variável com função de distribuição


0, x < −2



FX (x) = 1
4
+ x+2
8
, −2≤x<0


 3 + 1 (1 − e−x ), x ≥ 0
4 4
(a) Classifique X e faça um gráfico de F.

(b) Calcule P (X > −1) e P (X ≤ 4|X > 0).
(c) Decomponha F nas partes discreta e absolutamente contínua.
Exercício 2.12. Mostre que se X é uma variável aleatória do tipo contínuo com
função de densidade par, ou seja, simétrica em torno de x = 0, isto é, fX (x) =
fX (−x), então:
(a) FX (x) = 1 − FX (−x);
(b) FX (0) = 21 ;
(c) P (−x < X < x) = 2FX (x) − 1, x > 0;
Rx
(d) P (X > x) = 1
2
− 0 fX (t)dt, x > 0.
Exercício 2.13. Suponha que X seja uma variável aleatória com f.d.p. dada por
1
fX (x) = , −∞<x<∞
2(1 + |x|)2
(a) Obtenha a função de distribuição de X.
(b) Ache P (−1 < X < 2).
(c) Ache P (|X| > 1).
Exercício 2.14. Z é uma variável aleatória contínua com função de densidade de

probabilidade (
10e−10z , z > 0
fZ (z) =
0, z ≤ 0
Obtenha a função de distribuição de Z e esboce o seu gráfico.
2.4 Exercícios
Exercício 2.15. Prove as propriedades de uma função de distribuição
Exercício 2.16. Prove que P (X = a) = 0 se e somente se FX é contínua em a.
Exercício 2.17. Prove que (R, B), juntamente com PX , formam um espaço de
probabilidade, i.e., prove que PX é uma medida de probabilidade.
Exercício 2.18. Se p(n) = p(1 − p)n−1 , n = 1, 2, 3, . . . , mostre que p(·) é função de

probabilidade e determine a função de distribuição acumulada.
2.4. EXERCÍCIOS 19
Exercício 2.19. Seja X uma variável aleatória definida em (Ω, F , P ). Considere o

seguinte truncamento de X:


X, |X| ≤ A,


Y = A, X > A,



−A, X < −A,
onde A é um número positivo.

Mostre que Y é uma variável aleatória em (Ω, F , P ).
Exercício 2.20. Mostre que, se duas variáveis aleatórias X e Y são iguais quase
certamente – isto é, P (X = Y ) = 1 – então FX = FY .
Exercício 2.21. Encontre os valores das constantes reais α e β de modo que a

função F abaixo seja função de distribuição acumulada de alguma variável aleatória
definida em algum espaço de probabilidade:

0, x ≤ 0,
F (x) =
α + βe−x2 /2 , x > 0.
Exercício 2.22. Mostre que a função de probabilidade do modelo de Poisson é de

fato uma função de probabilidade.
Exercício 2.23. Perda de memória do modelo geométrico.

1. Mostre que P (X ≥ m + n|X > n) = P (X ≥ m) para inteiros não-negativos,
se X segue o modelo geométrico.
2. Se X segue o modelo geométrico, prove que a distribuição de X dado que
X > n é igual à distribuição de X + n.
Exercício 2.24. Mostre que a densidade do modelo uniforme contínuo é de fato

uma função de densidade.
Exercício 2.25. Mostre que a distribuição do modelo exponencial é de fato uma

distribuição. Calcule a densidade associada.
Exercício 2.26. Perda de memória do modelo exponencial.

1. Mostre que P (X > t + s|X > s) = P (X > t) para t, s ≥ 0 se X tem
distribuição exponencial.
2. Mostre que a distribuição de X dado que X > s é igual à distribuição de X +s.
Exercício 2.27. B. James. Capítulo 2. Recomendados: 1, 5, 6, 7, 9, 10, 13, 14.

Capítulo 3
Vetores Aleatórios
Definição 3.1. Um vetor X = (X1 , . . . , Xn ) com Xi variáveis aleatórias definidas

no mesmo espaço de probabilidade (Ω, A, P ) é chamado vetor aleatório se
X−1 (B) ∈ A para todo B ∈ Bn .
Definição 3.2. A função de distribuição conjunta F = FX de um vetor aleatório

X é definida por
FX (x) = FX (x1 , . . . , xn ) = P (X1 ≤ x1 , . . . , Xn ≤ xn ).

n
T
Observação 3.3. {X1 ≤ x1 , . . . , Xn ≤ xn } = {ω : Xi (ω) ≤ xi } ∈ A.
i=1
Proposição 3.4 (Propriedades da Função de Distribuição Conjunta). Se X é um

vetor aleatório em (Ω, A, P ), então para qualquer x ∈ Rn , sua função de distribuição
F goza das seguintes propriedades:
F1) F (x) é não-decrescente em cada uma de suas coordenadas.
F2) F (x) é contínua à direita em cada uma de suas coordenadas.
F3) Se para algum j, xj → −∞, então F (x) → 0 e, ainda, se para todo j, xj →
+∞, então F (x) → 1.
F4) F (x) é tal que para todo ai , bi ∈ R, ai < bi , 1 ≤ i ≤ n, temos
P {a1 < X1 ≤ b1 , a2 < X2 ≤ b2 , . . . , an < Xn ≤ bn } ≥ 0.

Observação 3.5. A propriedade F4 parece tão óbvia que poderíamos questionar a
necessidade de mencioná-la. No caso unidimensional ela não é necessária, mas no
caso multi-dimensional ela é essencial, pois há funções que atendem as propriedades
F1, F2 e F3 que não são funções de distribuições de nenhum vetor aleatório, conforme
o exemplo abaixo.
21
22 CAPÍTULO 3. VETORES ALEATÓRIOS
Exemplo 3.6. Considere a seguinte função:

(
1, em S = {(x, y) : x ≥ 0, y ≥ 0 e x + y ≥ 1}
F (x, y) =
0, caso contrário
Então F (x, y) satisfaz F1, F2 e F3, mas P {0 < X ≤ 1, 0 < Y ≤ 1} = −1 < 0! Logo
F (x, y) não satisfaz F4 e, portanto, não pode ser função de distribuição conjunta.
Exemplo 3.7. Sejam X e Y duas variáveis aleatórias com função de distribuição

conjunta FX,Y (x, y). Mostre que
P {a < X ≤ b, c < Y ≤ d} = F (b, d) − F (b, c) − F (a, d) + F (a, c).
3.1 Independência
Definição 3.8. Dizemos que as variáveis aleatórias X1 , X2 , . . . , Xn , definidas

em um espaço de probabilidade (Ω, F , P ), são coletivamente independentes, ou
simplesmente independentes, se
n
Y
P {X1 ∈ B1 , X2 ∈ B2 , . . . , Xn ∈ Bn } = P {Xi ∈ Bi }
i=1
para todo Bi ∈ A, i = 1, 2, . . . , n.
Observação 3.9. (i) (Propriedade de Hereditariedade de Variáveis Aleatórias In-

dependentes) Observe que para toda família de variáveis aleatórias independentes
X1 , X2 , . . . , Xn qualquer subfamília é também formada por variáveis aleatórias in-
dependentes, pois, por exemplo
P {X1 ∈ B1 , X2 ∈ B2 } = P {X1 ∈ B1 , X2 ∈ B2 , X3 ∈ R, . . . , Xn ∈ R}
= P {X1 ∈ B1 } P {X2 ∈ B2 } P {X3 ∈ R} . . . P {Xn ∈ R}
= P {X1 ∈ B1 } P {X2 ∈ B2 } .1 . . . 1
= P {X1 ∈ B1 } P {X2 ∈ B2 }
(ii) Se as variáveis aleatórias X1 , X2 , . . . , Xn são independentes, então funções de

famílias disjuntas das variáveis são também independentes. Por exemplo:
(a) X1 + X2 + X3 e e−X4 são independentes.
(b) min(X1 , X2 ) e max(X3 , X4 ) são independentes.
(c) X1 .X2 e X2 + X3 não são necessariamente independentes!
3.2. FUNÇÃO DE DISTRIBUIÇÃO MARGINAL 23
A proposição a seguir nos fornece o critério para independência de variáveis alea-

tórias a partir da função de distribuição conjunta. Trata-se do critério de fatoração.
Proposição 3.10. São equivalentes:

1. X1 , X2 , . . . , Xn são independentes.
2. FX (t) = FX1 (t1 )FX2 (t2 ) · · · FXn (tn ) para todo t ∈ Rn .
3. FX pode ser escrita como FX (t) = F1 (t1 )F2 (t2 ) · · · Fn (tn ) com F1 , . . . , Fn fun-
ções reais.
3.2 Função de Distribuição Marginal

A partir da função de distribuição conjunta, pode-se obter o comportamento de
cada variável isoladamente. A função de distribuição individualizada é denominada
função de distribuição marginal e é obtida da seguinte forma:
FXk (xk ) = xlim

→∞
F (x)
i
i6=k
em que o limite é aplicado em todas as coordenadas, exceto k.
3.3 Tipos de Vetores Aleatórios
Definição 3.11. Um vetor aleatório X (assim como sua função de distribui-

ção FX ) é dito discreto se existem {x1 , x2 , . . . } tais que P (X ∈ {x1 , x2 , . . . }) = 1.
Neste caso, a função de probabilidade conjunta de X é dada por
pX (x) = P (X = x) .
Um vetor aleatório X é discreto se e somente se suas coordenadas X1 , . . . , Xn são

discretas. Qualquer função p(·) satisfazendo
p(x) ≥ 0, ∀ x ∈ Rn
e X
p(x) = 1
x
é função de probabilidade conjunta de algum vetor aleatório X em algum espaço

(Ω, F , P ).
A função de probabilidade marginal de uma variável, digamos Xk , é obtida a
partir da conjunta, somando-se os valores possíveis em todas as coordenadas, exceto
em k, isto é,
n X
X
pXk (xk ) = P (Xk = xk ) = p(x).
i=1 xi
i6=k
Exemplo 3.12. Duas moedas equilibradas são lançadas de forma independente e

definimos as variáveis aleatórias X e Y da seguinte forma: X = número de caras
nos dois lançamentos e Y = função indicadora de faces iguais nos dois lançamentos.
Obtenha a função de probabilidade conjunta de X e Y e as funções de probabilidade
marginais de X e de Y .
Definição 3.13. Um vetor aleatório X (assim como sua função de distribuição

FX ) é dito absolutamente contínuo se existe fX (·) ≥ 0 tal que
Z t1 Z tn
FX (t) = ··· fX (s1 , . . . , sn )dtn · · · dt1 .
−∞ −∞
Neste caso, dizemos que fX é a função de densidade conjunta de X, ou simples-

mente densidade de X.
Se um vetor aleatório X é absolutamente contínuo, então suas coordenadas

X1 , . . . , Xn são absolutamente contínuas (não vale a recíproca!). Qualquer f (·) sa-
tisfazendo
f (x) ≥ 0, ∀ x ∈ Rn
e Z
f (x)dn x = 1
Rn
é densidade de algum vetor aleatório X.
A densidade de uma variável Xi é chamada densidade marginal, e pode ser
calculada por
Z +∞ Z +∞
fXi = ··· f (x1 , . . . , xi , . . . , xn dx1 · · · dxn .
−∞ −∞ | {z }
| {z } exceto xi
n−1 vezes
A função de densidade conjunta fX pode ser calculada por

∂n
fX (x) = FX (x1 , . . . , xn ).
∂x1 · · · ∂xn
3.4. MÉTODO DO JACOBIANO 25
Exemplo 3.14. Seja G ∈ Rn uma região tal que Vol G > 0, onde Vol G é o volume
n-dimensional de G. Dizemos que X = (X1 , X2 , . . . , Xn ) com função de densidade

 1
, (x1 , . . . , xn ) ∈ G
fX (x1 , . . . , xn ) = Vol G
0, (x1 , . . . , xn ) ∈
/G
é uniformemente distribuído em G.
Exercício 3.1. Sejam três variáveis aleatórias X, Y e Z com função de densidade

conjunta dada por
( √
kxy 2 z, se 0 < x ≤ 1, 0 < y ≤ 1 e 0 < z ≤ 2
f (x, y, z) =
0, caso contrário
Encontre o valor de k e ache a função de densidade marginal de X.
Critério de independência Se X é discreta então X1 , . . . , Xn são independentes

se, e somente se,
pX (x1 , . . . , xn ) = p1 (x1 ) · · · pn (xn ) ∀ x1 , . . . , xn ∈ R
para funções reais p1 , . . . , pn . Neste caso, uma outra decomposição possível sempre
é
pX (x1 , . . . , xn ) = pX1 (x1 ) · · · pXn (xn ).
Se X é absolutamente contínua então X1 , . . . , Xn são independentes se, e somente
se,
fX (x1 , . . . , xn ) = f1 (x1 ) · · · fn (xn ) ∀ x1 , . . . , xn ∈ R
para funções reais f1 , . . . , fn . Neste caso, uma outra decomposição possível sempre
é
fX (x1 , . . . , xn ) = fX1 (x1 ) · · · fXn (xn ).
3.4 Método do Jacobiano

Sejam G0 ⊂ Rn e G ⊂ Rn duas regiões abertas e seja g : G0 → G uma função
bijetora onde
g(x1 , . . . , xn ) = (g1 (x1 , x2 , . . . , xn ), . . . , gn (x1 , x2 , . . . , xn )) = (y1 , . . . , yn ).
Então existe a função inversa h = g −1 en G, onde
x1 = h1 (y1 , . . . , yn ), . . . , xn = hn (y1 , . . . , yn ).
Suponha também que existam as derivadas parciais
∂xi ∂hi (y1 , . . . , yn )

= , 1 ≤ i, j ≤ n,
∂yj ∂yj
e que elas sejam contínuas em G. Definimos o jacobiano J(x, y) pelo determinante

 
∂x1 ∂x1
! ∂y1
··· ∂yn
∂xi  
J(x, y) =
= det  .
 .. .. .. 

. . 
∂yj 
∂xn ∂xn

∂y1
··· ∂yn
Pelo cálculo de várias variáveis, sabemos que se o jacobiano for não-nulo para todo
y ∈ G, então
Z Z Z Z
. . . f (x1 . . . , xn )dx1 . . . dxn = . . . f (h1 (y1 , . . . , yn ) . . . , hn (y1 , . . . , yn )) |J(x, y)| dy1 . . . dyn
A g(A)
para qualquer f integrável em A, onde A ⊂ G0 . Com isso, no contexto de probabili-

dade, temos o seguinte teorema:
Teorema 3.15. Sejam Y1 , Y2 , . . . , Yn variáveis aleatórias transformadas, isto é, Yi =

gi (X1 , X2 , . . . , Xn ) para i = 1, 2, . . . , n. Então a densidade conjunta de Y1 , Y2 , . . . , Yn
é
(
fX (h1 (y1 , . . . , yn ) . . . , hn (y1 , . . . , yn )) |J(x, y)| , y ∈ G
fY (y1 . . . , yn ) =
0, y ∈ /G
onde fX é a função de densidade conjunta de X.
Exemplo 3.16. Sejam X e Y variáveis aleatórias independentes, cada uma com

distribuição exponencial com parâmetro 1, mostre que Z = X + Y e W = X
Y
são
também independentes com densidades
(
ze−z , z > 0
fZ (z) =
0, z ≤ 0
e ( 1
(w+1)2
,
w>0
fW (w) = .
0, w ≤ 0
Observação 3.17. Seja a função g : Rn → Rk com k < n. Então g não é bijetora.

Então para obtermos a distribuição de Y = g(X), basta:
(a) Completar a transformação g através de variáveis auxiliares convenientes:
Yk+1 = gk+1 (X), . . . , Yn = gn (X).
3.5. EXERCÍCIOS 27
(b) Obter a conjunta de Y1 , Y2, . . . , Yn usando o método do jacobiano fY (y1 . . . , yn ) =

f (h1 (y1 , . . . , yn ) . . . , hn (y1 , . . . , yn )) |J(x, y)|.
(c) Obter a marginal conjunta de Y1 , Y2 , . . . , Yk como
Z ∞ Z ∞
... fY (y1 . . . , yn )dyk+1 . . . dyn .
−∞ −∞
Exemplo 3.18. A função de densidade conjunta de X e Y é dada por

1
fX,Y (x, y) = (x + y)1(0,2] (x)1(0,1] (y).
3
Mostre que a densidade de Z = X + Y é dada por
 z2


 3
, 0≤z<1

 z
, 1≤z<2
fZ (z) = 3
z(3−z)


 3
, 2≤z≤ 3


0, caso contrário
Exemplo 3.19. (Jacobiano sem bijeção) Seja X uma variável contínua com densi-
dade fX (x) = 12 e−|x| , −∞ < x < ∞. Mostre que a densidade de Y = X 2 é dada
por
1 √
fY (y) = √ e− y 1(0,∞) (y).
2 y
Exemplo 3.20. Seja X uma variável contínua com densidade uniforme em [−2, 5].
Encontre a densidade de Y = X 2 .
Exemplo 3.21. Seja X uma variável contínua com densidade




1
4
x, 0 ≤ x < 2
fX (x) = 1
8
, 2≤x≤6


 0, caso contrário
(a) Determine a função de distribuição de Y = min(3, X).
(b) Faça a decomposição de FY nas suas partes discreta, contínua e singular.
3.5 Exercícios
Exercício 3.2. Sejam X e Y variáveis aleatórias definidas no mesmo espaço de pro-
babilidade, independentes, discretas e com distribuições Poisson(λ1 ) e Poisson(λ2 ),
respectivamente. Mostre que, dada a ocorrência do evento X + Y = n, a probabili-
dade condicional de X = k é
! !k !n−k
n λ1 λ2
P (X = k|X + Y = n) = .
k λ1 + λ2 λ1 + λ2
Como você interpretaria isso com seus conhecimentos prévios do cálculo das proba-
bilidades?
Exercício 3.3. 1. Considere um vetor aleatório (X, Y ) absolutamente contínuo

com distribuição uniforme em
n o
A = (x, y) ∈ R2 : 0 < y < x e x + y < 1 .
Encontre FX,Y .
2. Considere um vetor aleatório (Z, W ) absolutamente contínuo com densidade

c, 0 < z < 1, 0 < w < z,
fZ,W (z, w) =
0, caso contrário.
Encontre FZ,W .
Exercício 3.4. Mostre por indução finita que, se X1 , X2 , . . . , Xn são variáveis ale-
atórias independentes com Xi ∼ b(mi , p), i = 1, 2, . . . , n, então
n n
!
X X
Xi ∼ b mi , p .
i=1 i=1
Pn
a b a+b
Dica: k=0 k n−k
= n
.
Exercício 3.5. Seja X uma variável aleatória em (Ω, F , P ) com distribuição expo-
nencial de parâmetro λ > 0. Considere a transformada N = ⌊X⌋ (o maior inteiro
menor ou igual a X). Mostre que N é uma variável aleatória em (Ω, F , P ) e ache
sua lei.
Exercício 3.6. Sejam Y e U duas variáveis aleatórias em um mesmo espaço de
probabilidade, independentes e com leis Y ∼ N (0, 1) e P (U = −1) = P (U = +1) =
1
2
. Ache a lei de Z = UY . (Dica: ataque a função de distribuição acumulada).
Exercício 3.7. Sejam X e Y i.i.d. contínuas com densidade f . Mostre que
Z
fX+Y (t) = f (t − s)f (s)ds ∀ t ∈ R.
R
Sugestão: faça Z = X + Y e W = Y , calcule a densidade conjunta de Z e W e

depois a marginal.
Exercício 3.8. Sejam X e Y i.i.d discretas com função de probabilidade p. Mostre
que X
pX+Y (t) = p(t − s)p(s).
s
Sugestão: Considere a partição {[Y = s] : s ∈ {x1 , x2 , x3 , . . . }}, onde {x1 , x2 , x3 , . . . }

é o conjunto dos valores que X (ou Y ) assume.
Exercício 3.9. B. James. Capítulo 2. Recomendados: 2, 17, 18, 21, 30, 33, 34, 41,
46.
Capítulo 4
Esperança Matemática
4.1 Definição
Definição 4.1. Seja X uma variável aleatória com função de distribuição FX . A
esperança de X, denotada E(X), é definida como
Z ∞
E(X) = xdFX (x) (4.1)
−∞
quando a integral está bem definida.
Observação 4.2. (a) ϕ(x) = x é contínua. A integral (4.1) é de Riemann-Stieltjes.

R
(b) A esperança está bem definida se pelo menos uma das integrais 0∞ xdFX (x)
R0
ou −∞ xdFX (x) for finita.
R R0
(c) Se ambas as integrais 0∞ xdFX (x) e −∞ xdFX (x) forem finitas, dizemos que
X é integrável, ou seja, X é integrável se
Z ∞
E(|X|) = |x| dFX (x) < ∞.
−∞
(d) Se X é uma variável aleatória discreta tomando valores no conjunto {x1 , x2 , x3 , . . . }

e com função de probabilidade p(xi ) = P (X = xi ), então
∞
X
E(X) = xi p(xi ).
i=1
(e) Se X é uma variável aleatória contínua com função de densidade de probabilidade

fX (x), então Z ∞
E(X) = xfX (x)dx
−∞
(f) Se X é tal que sua função de distribuição se decompõe F = Fd + Fac + Fs ,

então ∞ Z ∞ Z ∞
X
E(X) = xi p(xi ) + xfX (x)dx + xdFs (x).
i=1 −∞ −∞
29
30 CAPÍTULO 4. ESPERANÇA MATEMÁTICA
Exercício 4.1. Um dado é lançado sucessivamente, até que a face 6 ocorra pela
primeira vez. Seja X a variável que conta o número de lançamentos até a ocorrência
do primeiro 6. Calcule a esperança de X.
Exercício 4.2. Suponha que X seja uma variável aleatória com f.d.p. dada por
(
C(9 − x2 ), − 3 ≤ x ≤ 3
f (x) =
0, caso contrário
(a) Obtenha o valor de C.
(b) Obtenha a esperança de X.
(c) Ache P (|X| ≤ 1).
4.1.1 Propriedades da Esperança Matemática

1. E(C) = C, onde C é uma constante.
2. Se a ≤ X ≤ b, então a ≤ E(X) ≤ b.
3. E(aX ± b) = aE(X) ± b.
4. E[X − E(X)] = 0.
5. Se X ≤ Y , então E(X) ≤ E(Y ).
6. Se X é uma variável aleatória tal que 0 ≤ |X| ≤ Y , onde Y é variável aleatória
integrável, então X é integrável.
Exercício 4.3. Seja X uma variável aleatória simétrica em torno de µ, isto é,
P {X ≥ µ + x} = P {X ≤ µ − x} para todo x ∈ R. Mostre que se X é integrável,
então E(X) = µ.
Observe pelo exercício seguinte, que sem a hipótese de integrabilidade, o resul-
tado não se verifica, pois:
Exercício 4.4. Seja X uma variável aleatória Cauchy com parâmetros M e b, isto
é, a densidade de X é dada por
b
f (x) =
π[b2 + (x − M)2 ]
para todo x ∈ R, b > 0 e M ∈ R. Mostre que M é ponto de simetria de X, mas
E(X) não existe.
Exercício 4.5. Sejam X e Y variáveis aleatórias independentes com distribuição
uniforme em [0, 1]. Sejam Z = min(X, Y ) e W = max(X, Y ). Calcule E(Z) e
E(W ).
Proposição 4.3. (Desigualdade de Jensen) Seja ϕ uma função convexa definida na
reta. Se a variável aleatória X é integrável, então
E[ϕ(X)] ≥ ϕ[E(X)].
4.2. ESPERANÇAS DE FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 31
Observação 4.4. Se ϕ é uma função côncava, então E[ϕ(X)] ≤ ϕ[E(X)]. (Mostre

isso!)
Exemplo 4.5. Pela desigualdade de Jensen, temos, por exemplo, que

(a) E [|X|] ≥ |E(X)|.
(b) E(X 2 ) ≥ E 2 (X).
p p p
(c) E |X|
≥ (E |X|) ≥ |EX| . onde p ≥ 1.
(d) E X1 ≥ EX 1
.
4.2 Esperanças de Funções de Variáveis Aleató-

rias
Definição 4.6. Seja X uma variável aleatória e φ(x) uma função real mensurável.
Então a esperança da variável aleatória Y = φ(X) é dada por
Z ∞
E(Y ) = ydFφ(X) (y).
−∞
A fórmula acima nem sempre é muito fácil de ser usada, pois devemos obter
a distribuição de Y a partir da distribuição da variável X e só então obter E(Y ).
No entanto é possível mostrar pela Teoria da Medida que a esperança da variável
aleatória Y = φ(X) é dada por
Z ∞ Z ∞
Eφ(X) = ydFφ(X) (y) = φ(x)dFX (x),
−∞ −∞
sendo que φ(X) será integrável em (Ω, F , P ) se e somente se φ for integrável em

(R, B, dFX ). Assim,
∞
X
E[φ(X)] = φ(xi )p(xi ) (se X é discreta)
i=1
Z ∞
E[φ(X)] = φ(x)fX (x)dx (se X é contínua)
−∞
4.3 Momentos
Definição 4.7. Seja X uma variável aleatória. Define-se o k-ésimo momento ordi-
nário da variável aleatória X, mk , como
Z ∞
mk = E(X k ) = xk dFX (x).
−∞
Assim,
∞
X
mk = xki P (X = xi ) se X é v.a.d.
i=1
Z ∞
mk = xk fX (x)dx se X é v.a.c.
−∞
Definição 4.8. Seja X uma variável aleatória. Define-se o k-ésimo momento central
da variável aleatória X, Mk , como
Mk = E[(X − E(X))k ].
Assim,
∞
X
Mk = [xi − E(X)]k P (X = xi ) se X é v.a.d.
i=1
Z ∞
Mk = [x − E(X)]k fX (x)dx se X é v.a.c.
−∞
Definição 4.9. Seja X uma variável aleatória. Define-se a variância da variável

aleatória X, denotada por V X ou σX
2
, como
V X = E[(X − E(X))2 ].
Observação 4.10. Observe que V X = E[(X − E(X))2 ] = E[X 2 − 2XE(X) +

E 2 (X)] = E[X 2 ] − 2E 2 (X) + E 2 (X) = E(X 2 ) − E 2 (X).
4.3.1 Propriedades da Variância

1. V C = 0, onde C é uma constante.
2. V (aX ± b) = a2 V X.
Definição 4.11. Define-se o desvio-padrão da variável aleatória X, denotado por

DP (X) ou σX , como √
DP (X) = V X.
Observação 4.12. Pelas definições acima, vemos que
m1 = E(X)
M1 = 0
M2 = V X = m2 − m21 .
Proposição 4.13. (Desigualdade básica de Markov) Seja X uma variável aleatória

não-negativa e seja λ > 0 uma constante. Então
E(X)
P (X ≥ λ) ≤ .
λ
4.4. ESPERANÇAS DE FUNÇÕES DE VETORES ALEATÓRIOS 33
Demonstração. Em aula.
Proposição 4.14. (Desigualdade de Markov) Seja X uma variável aleatória qual-
quer e seja λ > 0 uma constante. Então para todo t > 0,
E |X|t
P (|X| ≥ λ) ≤ .
λt
Proposição 4.15. (Desigualdade Clássica de Chebyshev) Seja X uma variável ale-
atória integrável e seja λ > 0 uma constante. Então
VX
P (|X − E(X)| ≥ λ) ≤ .
λ2
Exercício 4.6. Suponha que X seja uma variável aleatória tal que P (X ≥ 0) = 1
e P (X ≥ 10) = 15 . Mostre que E(X) ≥ 2.
Exercício 4.7. Suponha que X seja uma variável aleatória tal que E(X) = 10,
P (X ≤ 7) = 0, 2 e P (X ≥ 13) = 0, 3. Prove que V X ≥ 29 .
Proposição 4.16. Se Z ≥ 0 e EZ = 0, então P {Z = 0} = 1, ou seja, Z = 0 quase
certamente.
Observação 4.17. A proposição acima implica que, quando V X = 0, então X é
constante quase certamente, pois P {X = EX} = 1.
4.4 Esperanças de Funções de Vetores Aleatórios

Teorema 4.18. Seja X = (X1 , X2 , . . . , Xn ) um vetor aleatório em (Ω, A, P ) e φ :
Rn → R mensurável a Borel. Então
Z ∞ Z ∞ Z ∞
Eφ(X) = ydFφ(X) (y) = ... φ(x)dFX (x)
−∞ −∞ −∞
onde a última integral é uma integral n-dimensional de Stieltjes.

Demonstração. (Teoria da Medida)
Observação 4.19. (i) Se X for discreto tomando valores em {x1 , x2 , . . . } temos
∞
X
Eφ(X) = φ(xi )pX (xi ).
i=1
(ii) Se X for contínuo com densidade fX (x) temos

Z ∞ Z ∞
Eφ(X) = ... φ(x)fX (x)dx1 . . . dxn .
−∞ −∞
(iii) E[φ1 (X) + · · · + φn (X)] = E[φ1 (X)] + · · · + E[φn (X)].

Proposição 4.20. Se X1 , X2 , . . . , Xn são variáveis aleatórias independentes e inte-

gráveis, então X1 X2 · · · Xn é integrável e
E [X1 X2 · · · Xn ] = (EX1 )(EX2 ) · · · (EXn ).
O exemplo a seguir nos mostra que a recíproca da proposição anterior não é

sempre verdadeira, isto é, EXY = EX.EY não implica X e Y independentes.
Exemplo 4.21. Sejam X e Y variáveis aleatórias tomando valores −1, 0, 1 com
distribuição conjunta dada por p(−1, −1) = p(−1, 1) = p(1, −1) = p(1, 1) =
p(0, 0) = 51 . Então EXY = EX.EY , mas X e Y não são independentes, pois
P (X = 0, Y = 0) 6= P (X = 0).P (Y = 0).
Definição 4.22. A covariância entre duas variáveis aleatórias X e Y é definida
como
Cov(X, Y ) = E [(X − EX) (Y − EY )]

= E [XY ] − E [X] E [Y ]
Duas variáveis aleatórias X e Y são ditas não-correlacionadas se Cov(X, Y ) = 0.

Segue-se que variáveis aleatórias independentes são não-correlacionadas, mas a re-
cíproca não é necessariamente verdadeira.
Observação 4.23. Há certos casos em que não correlação implica em independên-
cia. O caso mais importante é o da Normal: Se X e Y possuem distribuição conjunta
normal bivariada e são não-correlacionadas, então ρ = 0 e como vimos anteriormente
X e Y são independentes.
n
P
Proposição 4.24. A variância da variável aleatória Y = Xi é dada por
i=1
" n # n
X X X
V Xi = V [Xi ] + 2 Cov(Xi , Xj ).
i=1 i=1 i<j

Corolário 4.25. Se X1 , X2 , . . . , Xn são variáveis aleatórias não-correlacionadas,
então " n # n
X X
V Xi = V [Xi ] .
i=1 i=1

Definição 4.26. Dada uma variável aleatória X, a variável aleatória Z = X−EX
σX
é
uma padronização de X (também chamada de redução ou normalização de X).
Observe que EZ = 0 e V Z = 1.
4.5. CONDICIONANDO A EVENTO DE PROBABILIDADE POSITIVA 35
Definição 4.27. Chama-se coeficiente de correlação entre X e Y , denotado por

ρX,Y ou ρ(X, Y ), a correlação entre as sua variáveis padronizadas, isto é,

Cov(X, Y ) X − EX Y − EY
ρX,Y = =E .
σX .σY σX σY
Exercício 4.8. Mostre que ρ(X, Y ) = ρ(aX + b, cY + d) para a > 0 e c > 0.
A proposição seguinte nos informa que ρX,Y representa a dependência linear entre
X e Y.
Proposição 4.28. Sejam X e Y variáveis aleatórias com variâncias finitas e posi-

tivas. Então:
(i) −1 ≤ ρX,Y ≤ 1.
(ii) ρX,Y = 1 se e somente se P {Y = aX + b} = 1 para algum a > 0 e b ∈ R.
(iii) ρX,Y = −1 se e somente se P {Y = aX + b} = 1 para algum a < 0 e b ∈ R.

√ √
Proposição 4.29 (Desigualdade de Cauchy-Schwarz). E |XY | ≤ EX 2 EY 2 .
4.5 Esperança Condicional dado um Evento de

Probabilidade Positiva
Seja X uma variável aleatória em um espaço de probabilidade (Ω, A, P ), e seja A
um evento aleatório tal que P (A) > 0. Definimos a distribuição condicional de X
dado o evento A por
P ([X ∈ B] ∩ A)
P (X ∈ B | A) =
P (A)
para B ∈ B, a σ-álgebra dos borelianos da reta. Os axiomas abaixo se verificam

Axioma 1) P (X ∈ B | A) ≥ 0.
Axioma 2) P (X ∈ R | A) = 1.
Axioma 3) Se B1 , B2 , . . . são borelianos disjuntos dois a dois, então P (X ∈
∞
S ∞
P
Bi | A) = P (X ∈ Bi | A).
i=1 i=1
A função de distribuição associada à distribuição condicional é chamada função
de distribuição condicional de X dado A:
P ([X ≤ x] ∩ A)
FX (x | A) = P (X ≤ x | A) = , x ∈ R.
P (A)
A esperança condicional de X dado A é a esperança da distribuição condicional

definida por
Z ∞
E(X | A) = xdFX (x | A)
−∞
E [X.1A ]
=
E [1A ]
1
= E [X.1A ] ,
P (A)
se esta esperança existe.

Observe, pelo Teorema da Probabilidade Total, que
X
P (X ∈ B) = P (An )P (X ∈ B | An ), para todo B ∈ B.
n
X
FX (x) = P (An )P (X ≤ x | An )
n
X
= P (An )FX (x | An ), para todo x ∈ R.
n
Z Z " #
∞ ∞ X
E [X] = xdFX (x) = xd P (An )FX (x | An )
−∞ −∞ n
X Z ∞ X
= P (An ) xdFX (x | An ) = P (An )E(X | An ).
n −∞ n
Exemplo 4.30. Seja X ∼ U [−1, 1] e sejam A1 = [X ≥ 0] e A2 = [X < 0]. Pede-se

(a) A distribuição condicional de X dado A1 .
(b) A distribuição condicional de X dado A2 .
(c) E(X | An ) para n = 1, 2.
Exemplo 4.31. Seja X uma variável aleatória exponencial com parâmetro λ. En-
contre E [X | X > 2].
4.6 Exercícios
Exercício 4.9. Calcular EX, onde:
1. X ∼ b(n, p).
2. X ∼ exp(λ).
3. X ∼ Geom(p).
4.6. EXERCÍCIOS 37
Exercício 4.10. 1. Prove que, se X assume valores em {0, 1, 2, 3, . . . }, então

∞
X
EX = P (X ≥ n).
n=1
Sugestão: escreva a fórmula da esperança como um somatório duplo de p(n)

e troque a ordem da soma.
2. Dada X variável aleatória, mostre que
∞
X ∞
X
P (|X| ≥ n) ≤ E|X| ≤ P (|X| ≥ n).
n=1 n=0
Estabeleça um critério para determinar se X é integrável ou não.

Dica: ⌊|X|⌋ ≤ |X| ≤ ⌊|X|⌋ + 1.
Exercício 4.11. Dada X v.a., defina


X, X ≤ a,
Y =
a, caso contrário,
onde a é uma constante positiva. Mostre que EY ≤ EX.
Exercício 4.12. Mostre que X é integrável se, e somente se, E|X| < ∞.
Exercício 4.13. Prove:

1. Se E|X|
h = 0 então
i P (X = 0) = 1.
Dica: |X| ≤ n ↓ [X = 0] quando n → ∞.
1
2. Se X ≥ c e EX = c, então P (X = c) = 1.
Exercício 4.14. Prove as conseqüências da desigualdade de Cauchy-Schwarz para

a covariância e o coeficiente de correlação.
Exercício 4.15. Prove que a covariância e o coeficiente de correlação de duas va-

riáveis independentes são nulos.
√
Exercício 4.16. Prove que E|X| ≤ EX 2 .
Exercício 4.17. Sejam X1 , . . . , Xn variáveis aleatórias satisfazendo EXi2 < ∞ ∀ i.

1. Se Cov(Xi , Xj ) = 0 ∀ i 6= j, mostre que
n
! n
X X
V Xi = V Xi .
i=1 i=1
2. A fórmula acima também vale se as variáveis aleatórias forem independentes?

Exercício 4.18. Calcular V X, onde:

1. X ∼ Poisson(λ).
2. X ∼ exp(λ).
3. X ∼ b(n, p).
Exercício 4.19. Padronização de X.

Dada uma variável aleatória X com EX 2 < ∞, definimos a padronização de X
(ou a normalização de X) como
X − EX
.
σ(X)
A padronização de uma variável aleatória não tem unidade de medida. Mostre que:
1. EZ = 0 e V Z = 1, onde Z é a padronização de X.
2. X e (aX + b) têm a mesma padronização para a > 0 e b ∈ R.
3. Se Z é a padronização de X e W é a padronização de Y , então
ρ(Z, W ) = Cov(Z, W ) = E(ZW ) = ρ(X, Y ).
(Prove uma igualdade de cada vez.)
Exercício 4.20. Considere uma seqüência de variáveis aleatórias X1 , X2 , X3 , . . .

i.i.d. com distribuição Bernoulli(p). Quantas realizações são suficientes para que a
média amostral, dada por
1X n
X̄n (ω) = Xn (ω),
n j=1
não difira de seu valor esperado p por mais de 0,01, com probabilidade mínima de
0,95? (Sugestão: Desigualdade de Chebyshev)
Exercício 4.21. Considere variáveis aleatórias X1 , X2 , . . . e X definidas no espaço

de probabilidade (Ω, F , P ) tais que Xn (ω) → X(ω) ∀ ω ∈ Ω.
1. Mostre que, se as Xn são uniformemente limitadas, então X é integrável e
EXn → EX.
2. Mostre que h i h i
lim E e−|X| sen(Xn ) = E e−|X| sen(X) .
n→∞
Exercício 4.22. B. James. Capítulo 3. Recomendados: 5, 6, 19, 20ab, 21, 23, 26,
28, 30, 36.
Capítulo 5
Convergência de Variáveis
Aleatórias
Considere um experimento devidamente modelado por um espaço de probabilidade

(Ω, F , P ). Neste espaço vamos considerar uma seqüência de variáveis aleatórias
X1 , X2 , X3 , . . . . Em inúmeras situações teóricas e práticas, uma pergunta natural
é qual o comportamento de longo prazo da seqüência (Xn )n . Dito de outra forma:
quais as propriedades estatísticas de XN , sendo N “suficientemente grande”?
Tratando-se de variáveis aleatórias, o conceito de convergência é uma generali-
zação do conceito de convergência para números reais. Entretanto, existem várias
possíveis formas de se fazer essa generalização, e cada forma é a mais natural em de-
terminado contexto. No caso de variáveis aleatórias degeneradas, todas as definições
são equivalentes à convergência de números reais.
Em B. James, as convergências quase certa e em probabilidade são vistas na
Seção 5.1, a convergência em distribuição é vista na Seção 6.2 e a convergência
em média r não é considerada. A referência mais completa sobre convergência é
Magalhães, Seção 6.2. Para o Lema de Borel-Cantelli recomenda-se a Seção 5.2 de
B. James. Para uma revisão sobre convergência de seqüências e séries de números
reais pode-se consultar o Capítulo 1 de Rêgo.1 Recomendam-se os exercícios listados
ao final deste capítulo.
5.1 Lema de Borel-Cantelli

Começamos definindo o lim inf e o lim sup de uma seqüência de eventos.
1
L. C. Rêgo. Notas de Aula do Curso Probabilidade 4. 2010.
http://www.de.ufpe.br/~leandro/AulasET5842010-1.pdf
39
40 CAPÍTULO 5. CONVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS
Definição 5.1 (lim sup e lim inf de eventos). Dada uma seqüência de eventos
aleatórios An , definimos o evento lim sup An , denotado por [An infinitas vezes]
ou [An i.v.], por
∞ [
\ ∞
lim sup An = Ak .
n→∞ n=1 k=n
Definimos o evento lim inf An , denotado por [An eventualmente], por

∞ \
[ ∞
lim inf An =
n→∞
Ak .
n=1 k=n
É importante entender as seguintes interpretações:

– lim sup An é o conjunto dos ω’s tais que ω pertence a infinitos An ’s.
– O evento lim sup An significa “An acontece infinitas vezes”.
– lim inf An é o conjunto dos ω’s tais que ω pertence a todos os An ’s exceto uma
quantidade finita deles.
– O evento lim inf An significa “An acontece para todo n grande”.
De fato, lim sup An ∈ F e lim inf An ∈ F . Vale também que
lim inf An ⊆ lim sup An
e
lim inf(Acn ) = (lim sup An )c .

(−1/n, 1], n ímpar,
Exemplo 5.2. Exemplo: Ω = R, An =
(−1, 1/n], n par.
Temos ∞ [
∞ ∞
\ \
lim sup An = Ak = (−1, 1] = (−1, 1]
n=1 k=n n=1
e ∞ \
∞ ∞
[ [
lim inf An = Ak = {0} = {0}.
n=1 k=n n=1
Exercício 5.1. Sejam um espaço de probabilidade (Ω, F , P ) e uma seqüência de

eventos aleatórios (An ) em F .
Mostre que, se (An ) é crescente, então lim sup An = lim inf An = ∪∞ n=1 An . Por
outro lado, se (An ) é decrescente, então lim sup An = lim inf An = ∩n=1 An .
∞
Exercício 5.2. Considere o espaço de probabilidade (R2 , B2 , P ), no qual P é uma

probabilidade arbitrária. Se An = {(x, y) ∈ R2 : 0 ≤ x ≤ n, 0 ≤ y ≤ n1 }, encontre
lim sup An e lim inf An .
5.1. LEMA DE BOREL-CANTELLI 41
Exercício 5.3. Considere a seqüência de intervalos


(0, 2 + 1
), n par
An =  n
(0, 2 − 1
n
), n ímpar.
Encontre o lim inf An e o lim sup An .
Teorema 5.3 (Lema de Borel-Cantelli). Seja (Ω, F , P ) um espaço de probabili-

dade e (An ) uma seqüência de eventos aleatórios. Então:
P∞
1. Se n=1 P (An ) < ∞ então
P (An infinitas vezes) = 0.
P∞
2. Se n=1 P (An ) = ∞ e os eventos An são independentes, então
P (An infinitas vezes) = 1.
Demonstração. Feita em aula. Referência: B. James, p. 201.
Exemplo 5.4. Considere a seqüência de infinitos sorteios independentes e uniformes

de um número (xn ) entre 0 e 1.
1. P (xn ∈ [0, 1/n] para infinitos n’s) = 1.
2. P (xn ∈ [0, 1/n2] para infinitos n’s) = 0.
Caso os eventos An não sejam independentes, podemos ter P (An i.v.) = 0 sem
P
que necessariamente tenhamos n P (An ) < ∞. Neste caso podemos afirmar pelo
menos que P (An ) → 0.
Teorema 5.5 (Lema de Fatou). Para qualquer seqüência (An )n de eventos vale
P (lim inf n An ) ≤ lim inf n P (An ).
Demonstração. Para qualquer k ∈ N e m ≥ k temos

∞
\
An ⊆ Am ,
n=k
logo !
∞
\
P An ≤ P (Am )
n=k
e portanto !
∞
\
P An ≤ inf P (Am ).
m≥k
n=k
Como (∩∞
n=k An )k é uma seqüência crescente de eventos, temos que
" ∞ ∞
!# ∞
!
[ \ \
P (lim inf n An ) = P An = lim P An ≤ lim inf P (An ).
k→∞ k→∞ n≥k
k=0 n=k n=k
O último termo é igual a lim inf n P (An ), o que termina a prova.

Corolário 5.6. Se P (An i.v.) = 0 então P (An ) → 0.
Demonstração. Aplicando o Teorema 5.5 para a seqüência (Acn )n temos que
lim supn P (An ) = 1 − lim inf n P (Acn ) ≤ 1 − P (lim inf n Acn ) = P (lim supn An ) = 0,
donde segue o resultado.
5.2 Tipos de Convergência

Sejam X e {Xn }n≥1 variáveis aleatórias definidas num mesmo espaço de probabili-
dade (Ω, A, P ).
Definição 5.7. Dizemos que Xn converge em probabilidade para X, denotado

P
por Xn → X, se para todo ε > 0
P {|Xn − X| ≥ ε} → 0, quando n → ∞.
Exemplo 5.8. Sejam X1 , X2 , . . . v.a.’s independentes, tais que P (Xn = 1) = 1

n
e
P
P (Xn = 0) = 1 − 1
n
. Mostre que Xn → 0.
Exemplo 5.9. Sejam X1 , X2 , . . . v.a.’s independentes, identicamente distribuídas
com distribuição exp(1). Defina
Xn
Yn =
ln n
P
para n > 1. Mostre que Yn → 0.
Definição 5.10. Dizemos que Xn converge quase certamente para X, denotado

q.c.
por Xn → X, se
P {Xn → X, quando n → ∞} = 1,
ou seja, o evento A0 = {ω : Xn (ω) → X(ω)} é de probabilidade 1.
5.2. TIPOS DE CONVERGÊNCIA 43
Observação 5.11. Observe que a convergência quase certa é uma convergência

pontual num conjunto de medida 1, ou seja, Xn (ω) → X(ω) para quase todo ω,
exceto aqueles dentro de um conjunto de medida nula. Por outro lado convergência
em probabilidade não diz respeito à convergência pontual, ela apenas afirma que
para valores grandes de n as variáveis Xn e X são aproximadamente iguais com
probabilidade bem alta.
Exemplo 5.12. Seja Ω = [0, 1]. Um ponto é selecionado aleatoriamente do intervalo
[0, 1] e seja a sequência de variáveis aleatórias dada por
Xn (ω) = ω + ω n .
q.c.
Mostre que Xn → X com X ∼ U [0, 1]. Observe também que Xn (1)6→X(1). Mas
P {ω ∈ Ω : Xn (ω) 6→ X(ω), quando n → ∞} = 0.
q.c.
Proposição 5.13. Xn → X se, e somente se,

P |Xn − X| ≥ ε i.v. = 0 ∀ ε > 0.
Exercício 5.4. Prove a proposição acima.
Definição 5.14. Dizemos que Xn converge para X em Lp , que denotamos por

Lp
Xn → X, se
lim E {|Xn − X|p } = 0.
n→∞
Quando p = 2, a convergência é dita em média quadrática.
Exemplo 5.15. Sejam X1 , X2 , . . . v.a.’s independentes, tais que P (Xn = 1) = 1

n
e
Lp
P (Xn = 0) = 1 − n1 . Mostre que Xn → 0, para todo p.
Definição 5.16. Sejam {Xn ; n ≥ 1} e X variáveis aleatórias com funções de

distribuição {Fn ; n ≥ 1} e F , respectivamente. Dizemos que Xn converge em
d
distribuição para X, que denotamos por Xn → X, se para todo ponto x em que
F é contínua, tivermos
lim Fn (x) = F (x).
n→∞
Exemplo 5.17. Seja {Xn ; n ≥ 1} uma seqüência de v.a. independentes com distri-
buição uniforme em (0, b), b > 0. Defina Yn = max(X1 , X2 , . . . , Xn ) e Y = b. Então
d
verifique que Yn → Y .
d
Exemplo 5.18. Seja Xn = n1 para n ≥ 1 e X = 0. Mostre que Xn → X, embora
limn→∞ Fn (0) = 0 6= 1 = F (0). Mas como 0 não é ponto de continuidade de F , isto
não é problema.
5.3 Relação entre os Tipos de Convergência

q.c. P
Proposição 5.19. Se Xn → X então Xn → X.
Demonstração. Para qualquer ε > 0, pela Proposição 5.13 temos que
P (|Xn − X| ≥ ε i.v.) = 0,
P
logo segue do Corolário 5.6 que P (|Xn − X| ≥ ε) → 0, ou seja, Xn → X.
P
Proposição 5.20. Se Xn → X então existe uma subseqüência nk → ∞ tal que
q.c.
Xnk → X.
Idéia da prova. Como P (|Xn −X| ≥ ε) → 0 pode-se tomar uma subseqüência nk tal
P
que k P (|Xnk −X| ≥ ε) < ∞, e usar um argumento análogo ao do Exercício 5.9.
P P
Corolário 5.21. O limite em probabilidade é “único”: se Xn → X e Xn → Y então
P (X = Y ) = 1.
q.c.
Demonstração. Tome uma subseqüência nk tal que Xnk → X e uma subseqüência
q.c.
nkj tal que Xnkj → Y . Para todo ω na interseção desses dois eventos quase certos
A = [Xnk → X] e B = [Xnkj → Y ] temos que [X = Y ]. Como P (A) = P (B) = 1
implica P (A ∩ B) = 1, temos que P (X = Y ) ≥ P (A ∩ B) = 1.
P d
Proposição 5.22. Se Xn → X então Xn → X.
d P
Proposição 5.23. Se Xn → c para c ∈ R constante, então Xn → c.
Lp+s Lp
Proposição 5.24. Sejam p ≥ 1 e s ≥ 0. Se Xn → X então Xn → X.
Demonstração. Fazendo q = p + s, pela Desigualdade de Jensen temos
p 1 q 1
p q
E Xn − X ≤ E Xn − X → 0.
Lp P
Proposição 5.25. Seja p ≥ 1. Se Xn → X então Xn → X.
Idéia da prova. Pela desigualdade de Markov
P (|Xn − X| ≥ ε) ≤ ε−p E(|Xn − X|p ) → 0.
P
Proposição 5.26. Seja p ≥ 1. Se Xn → X e existe Y tal que EY p < ∞ e |Xn | ≤ Y
Lp
para todo n, então Xn → X.
Idéia da prova. Para qualquer subseqüência nk , tome uma subseqüência nkj tal que
q.c.
Xnkj − X → 0. Como |Xnkj − X|p ≤ (|Xnkj | + |X|)p ≤ (2Y )p que é integrável, pelo
Teorema da Convergência Dominada temos que E(|Xnkj − X|p ) → 0. Como isso
sempre vale para alguma subseqüência de uma seqüência arbitrária nk , temos que
E(|Xn − X|p ) → 0.
Observação 5.27. Não há qualquer relação de implicação entre convergência quase
certa e convergência em Lp , a não ser no caso dominado ou por subseqüências.
Completamos assim o diagrama de implicações da Figura 5.1.
5.4. EXERCÍCIOS 45
q.c.Y
constante
subseqüência |
P +3 d
caso dominado
AI
y
Lp+s +3 Lp
Figura 5.1: Diagrama de implicações entre os tipos de convergência.
5.4 Exercícios
Exercício 5.5. B. James. Capítulo 5. Recomendados: 5, 6, 7, 9, 10.
Exercício 5.6. Seja (An )n uma seqüência de eventos em (IAn )n a seqüência de va-
riáveis aleatórias indicadoras das ocorrências dos eventos correspondentes. Encontre
P
uma condição sobre as probabilidades P (An ) para que IAn −→ 0.
Exercício 5.7. Considere o espaço de probabilidade ([0, 1], B, P ) com P dado pela
medida de comprimento, e a seqüência de variáveis aleatórias (Xn )n dadas por

n, w < n1 ,
Xn (ω) =
0, w ≥ n1 .
d P q.c. L L
Verifique respectivamente se Xn → X, Xn → X, Xn → X, Xn →2 X, Xn →1 X,
para alguma variável aleatória X.
Exercício 5.8. Seja (Xn )n uma seqüência de variáveis aleatórias independentes

com distribuição uniforme em [0, 1], e Yn = max{X1 , . . . , Xn }. Encontre a função
de distribuição de Yn e o limite em distribuição desta seqüência.
Exercício 5.9. Sejam (Xn )n variáveis aleatórias tais que

∞
X
P |Xn | > ε < ∞
n=1
para qualquer ε > 0. Mostre que

q.c.
Xn → 0.
Mostre que também vale a recíproca no caso de as Xn serem independentes.
Exercício 5.10. Sejam Xn , n ∈ N, variáveis aleatórias independentes tais que

Xn ∼ Bernoulli(pn ). Estude as condições sobre (pn ) para que:
P
1. Xn → 0.
q.c.
2. Xn → 0.
Exercício 5.11. Seja (Xn )n uma seqüência i.i.d. Mostre que
Xn q.c.
→0
n
se e somente se E|X1 | < ∞.
Exercício 5.12. Seja (Xn )n uma seqüência i.i.d. Mostre que
X q.c.
√n → 0
n
se e somente se E|X1 |2 < ∞.
Exercício 5.13. Seja (Xn )n uma seqüência i.i.d. com distribuição exp(1). Mostre
que
P (Xn ≥ 2 log n i.v.) = 0.
Exercício 5.14. Seja (Xn )n uma seqüência i.i.d. com distribuição Poisson(λ). Mos-
tre que
Xn q.c.
→ 0.
log n
Sugestão: mostre antes que EeX1 /ε < ∞.
Exercício 5.15. Seja (Xn )n uma seqüência i.i.d. de variáveis aleatórias não-negativas
com EX12 < ∞. Mostre que
( ∞
)
X
Xn
P 2
<∞ =1
n=1 n
Exercício 5.16. B. James. Capítulo 6. Recomendados: 15, 19.

Capítulo 6
Função Geradora de Momentos e

Função Característica
A função geradora de momentos e a função característica estão entre os exemplos

mais importantes de transformadas. A idéia geral de transformada é mapear certos
objetos em objetos de outro tipo e outras propriedades, onde certas análises são
possivelmente mais fáceis, o que ficará claro nos exemplos seguintes. A função
geradora de momentos é a instância da Transformada de Laplace de uma distribuição
em R, e a função característica é a Transformada de Fourier.
A função característica e o Teorema da Continuidade são vistos nas Seções 6.1
e 6.2 de B. James. A função geradora de momentos é vista nesta apostila, e o
leitor mais interessado pode consultar a Seção 5.4 de Magalhães. Recomendam-se
os exercícios listados ao final deste capítulo.
6.1 Função Geradora de Momentos
Definição 6.1. Seja X uma variável aleatória. Define-se a função geradora de

momentos MX (t) de X, como
MX (t) = E[etX ],
desde que a esperança seja finita para todo t em algum intervalo [−b, b]. Caso
contrário dizemos que X não possui função geradora de momentos.
47
48 CAPÍTULO 6. TRANSFORMADAS
Assim,
∞
X
MX (t) = etxi P (X = xi ) se X é v.a.d.
i=1
Z ∞
MX (t) = etx fX (x)dx se X é v.a.c.
−∞
Exercício 6.1. Seja X a variável aleatória que conta o número de lançamentos de

uma moeda honesta até que ocorra a primeira cara. Ache a função geradora de
momentos de X.
Exercício 6.2. Se X tem função geradora de momentos MX (t) e se Y = aX + b,

então MY (t) = ebt MX (at).
Proposição 6.2. Se X tem função geradora de momentos MX (t), então

dk

MX (t) = E[X k ].
dtk
t=0
Exercício 6.3. No Exercício 6.1, use a função geradora de momentos para calcular
EX e V X.
Proposição 6.3 (Unicidade). A função geradora de momentos define de forma

unívoca a distribuição da variável aleatória, ou seja, dada M(t) existe apenas uma
função de distribuição F (x) que a gera.
Teorema 6.4 (Variáveis Aleatórias Independentes). Sejam X1 , X2 , . . . , Xn v.a.’s

independentes e para i = 1, 2, . . . , n, seja MXi (t) a função geradora de momentos de
Xi . Seja Y = X1 + X2 + · · · + Xn , então para todo valor de t tal que MXi (t) existe
para i = 1, 2, . . . , n, temos
n
Y
MY (t) = MXi (t).
i=1
Exemplo 6.5. Suponha um experimento realizado uma única vez tendo probabi-
lidade p de sucesso e q = 1 − p de fracasso. Denote a variável aleatória X = 0 se
fracasso ocorre e X = 1 se sucesso ocorre. Então a variável aleatória X é dita ter
distribuição de Bernoulli com parâmetro p, representado por X ∼ Bernoulli(p), e
sua função de probabilidade é dada por
P (X = x) = px (1 − p)1−x , x = 0, 1.
6.1. FUNÇÃO GERADORA DE MOMENTOS 49
Assim se X ∼ Bernoulli(p), então
MX (t) = pet + q,
EX = p,
V X = pq.
Exemplo 6.6. Sejam n ensaios independentes de Bernoulli, cada um tendo a mesma

probabilidade p de sucesso e q = 1 − p de fracasso. Seja X a variável aleatória que
conta o número de sucessos nas n realizações. A variável aleatória X é dita ter
distribuição Binomial com parâmetros n e p, denotado por X ∼ b(n, p), e sua
função de probabilidade é dada por
!
n
P (X = x) = px q n−x , x = 0, 1, 2, 3, . . . , n.
x
(a) Se X ∼ b(n, p), então
MX (t) = (pet + q)n ,

EX = np,
V X = npq.
(b) Se Xi ∼ Bernoulli(p), para i = 1, 2, . . . , n, independentes, então X = X1 +

X2 + · · · + Xn ∼ b(n, p).
(c) Se Xi ∼ b(ni , p), para i = 1, 2, . . . , k, independentes, então X = X1 + X2 +
P
· · · + Xk ∼ b( ki=1 ni , p).
Exemplo 6.7. Sejam ensaios sucessivos e independentes de Bernoulli, cada um

tendo a mesma probabilidade p de sucesso e q = 1 − p de fracasso. Seja X a variável
aleatória que conta o número de realizações até que o primeiro sucesso ocorra. A
variável aleatória X é dita ter distribuição Geométrica com parâmetro p, denotado
por X ∼ Geo(p), e sua função de probabilidade é dada por
P (X = x) = q x−1 p, x = 1, 2, 3, 4, . . .
Assim, se X ∼ Geo(p), então
pet
MX (t) = , para t < − ln q
1 − qet
1
EX = ,
p
q
V X = 2.
p
Exemplo 6.8. Denotemos por Poisson(λ) a distribuição de Poisson com parâmetro

λ.
(a) Se X ∼ Poisson(λ), então
t
MX (t) = eλ(e −1) ,
EX = λ,
V X = λ.
(b) Se Xi ∼ Poisson(λi ), para i = 1, 2, . . . , n, independentes, então X = X1 +

P
X2 + · · · + Xn ∼ Poisson( ni=1 λi ).
6.2 Função Característica

Do ponto de vista teórico, a função característica é bem mais robusta e funcional que
a função geradora de momentos: está definida para qualquer distribuição; sempre
determina a distribuição; determina também a convergência em distribuição; não
bastasse, ainda gera momentos.
Entretanto, uma desvantagem faz com que, na prática, muitos prefiram trabalhar
com a função geradora de momentos: a função característica envolve a manipulação
de números complexos.1
Definição 6.9. Uma variável aleatória complexa X é uma função X : Ω → C

tal que X = X1 + iX2 , onde (X1 , X2 ) é um vetor aleatório real. Se X1 e X2 são
integráveis, definimos EX = EX1 + iEX2 ∈ C.
A integração de funções complexas em domínios reais pode ser feita, para todos
os fins práticos, como no caso real. Por exemplo, X = g(Y ) = g1 (Y ) + ig2 (Y ), Y
v.a., define uma variável aleatória complexa, cuja esperança pode ser calculada por
R +∞ R +∞
EX = −∞ g1 (y)dF (y) + i −∞ g2 (y)dF (y).
Lembramos ainda a fórmula de Euler:
eix = cos(x) + i sen(x)
1
Registro aqui um comentário. A compreensão e manipulação de funções características não
requer conhecimentos de cálculo em uma variável complexa. Isso porque as integrais são calculadas
Rb
em dx para x ∈ R e não em dz para caminhos γ ⊆ C. Mais precisamente, a F ′ (x)dx = F (b)−F (a)
mesmo que F e F ′ sejam funções complexas. As únicas situações em que teríamos que sair de R e
R
usar argumentos típicos de variáveis complexas, em particular γ f dz = 0, seriam na obtenção da
função característica da Normal e da distribuição de Cauchy. Cumpre porém ressaltar que usamos
P n
abundantemente n zn! = ez , (eg )′ = g ′ eg , e (1 + znn )n → ez se zn → z, mas para fins práticos
manipulamos o i como um número qualquer.
6.2. FUNÇÃO CARACTERÍSTICA 51
Definição 6.10. A função característica de uma variável aleatória X, denotada

por ϕX , é a função ϕX : R → C definida como
ϕX (t) = EeitX = E cos(tX) + iE sen(tX), t ∈ R.
Exemplo 6.11. Se X ∼ U[a, b], então

ϕX (t) = E[eitX ] = E[cos(tX)] + iE[sen(tX)]
Z b Z b
1 1
= cos(tx) dx + i sen(tx) dx
a b−a a b−a
b b
1 i
= sen(tx) − cos(tx)
t(b − a) a t(b − a) a
1
= [sen(tb) − sen(ta) − i cos(tb) + i cos(ta)]
t(b − a)
−ieitb + ieita eitb − eita
= = .
t(b − a) it(b − a)
Ou, mas rápido:
Z " #
b
itx 1 1 1 itx b eitb − eita
ϕX (t) = e dx = e = .
a b−a b − a it a it(b − a)
Exemplo 6.12. Se X ∼ Poisson(λ), então:
∞ ∞
X
itn e
−λ n
λ −λ
X (eit λ)n it it
ϕX (t) = E[e itX
]= e =e = e−λ ee λ = eλ(e −1) .
n=0 n! n=0 n!
Proposição 6.13. Propriedades da função característica:
1. |ϕ(t)| ≤ ϕ(0) = 1.
2. ϕ é uniformemente contínua em R.
3. Se a, b ∈ R, então ϕaX+b (t) = eitb ϕX (at).
4. Se X e Y são independentes, então ϕX+Y (t) = ϕX (t)ϕY (t).
5. ϕX também gera momentos:

dn
ϕ X (t)
= in E(X n ), se E|X|n < ∞.
dtn t=0
6. Se E|X|n < ∞, então

t2 t3 tn
ϕX (t) = ϕ(0) + ϕ′ (0)t + ϕ′′ (0)+ ϕ′′′ (0) + · · · + ϕ(n) + rn (t)
2 6 n!
EX 2 2 EX 3 3 EX n
= 1 + i(EX)t − t −i t + · · · + in tn + rn (t),
2 6 n!
rn (t)
onde o resto rn (t) é pequeno: tn
−→ 0.
t→0
Exemplo 6.14. Poisson (Feito em aula.)

Proposição 6.15 (Unicidade). Se ϕX (t) = ϕY (t) ∀ t ∈ R, então X ∼ Y .
Exemplo 6.16. Soma de Poissons independentes é Poisson. (Feito em aula.)
Convergência em distribuição O Teorema de Continuidade relaciona conver-

gência de funções características com convergência em distribuição.
Teorema 6.17 (Teorema da Continuidade (Paul Lévy)). Seja (Xn )n uma

seqüência de variáveis aleatórias e (ϕn )n a seqüência das funções característi-
cas correspondentes. Se
ϕn (t) → ϕ(t) ∀ t ∈ R,
e ϕ é contínua em t = 0, então
d
Xn −→ X,
onde X é uma variável aleatória tal que ϕX = ϕ.
Exemplo 6.18. Binomial converge a Poisson. (Feito em aula.)
6.3 A Distribuição Normal

Denotamos por Φ a função de distribuição acumulada de uma normal padrão
Z 2
t e−x /2
Φ(t) = FN (t) = P (N ≤ t) = √ dx.
−∞ 2π
Em geral, a solução de problemas numéricos envolvendo a distribuição normal inclui
a consulta de uma tabela de valores de (Φ(t); t ≥ 0) com os valores de t apropriados
– veja a Tabela 6.1. Para t < 0 usa-se a identidade Φ(−t) = 1 − Φ(t).
6.4 Exercícios
Exercício 6.4. Se X ∼ N (0, 1), calcule MX (t). Mostre que EX = 0. Mostre que
V X = 1. (Sugestão: verifique que −(z 2 − 2tz) = t2 − (z − t)2 e faça z − t = u.)
Exercício 6.5. Mostre que a soma de n variáveis aleatórias independentes normal-
mente distribuídas é, por sua vez, normalmente distribuída com média dada pela
soma das n médias e variância dada pela soma das n variâncias.
6.4. EXERCÍCIOS 53
Exercício 6.6. Sejam X1 , X2 , X2 , . . . independentes, Sn = X1 + X2 + · · · + Xn e

S̄n = X1 +X2n+···+Xn Mostre as seguintes propriedades:
(a) Se X ∼ N (µ, σ 2), então Z = X−µ σ
∼ N (0, 1).
(b) Assim, se X ∼ N (µ, σ ), então
2
1 2 t2
mX (t) = eµt+ 2 σ
E(X) = µ
V X = σ2 .
P Pn
(c) Se Xi ∼ N (µi, σi2 ), então Sn ∼ N ( ni=1 µi , i=1 σi2 ).
(d) Se Xi ∼ N (µ, σ 2), então Sn ∼ N (nµ, nσ 2 ).
2
(e) Se Xi ∼ N (µ, σ 2), então S̄n ∼ N (µ, σn ).
Exercício 6.7. A distribuição dos comprimentos dos elos da corrente de bicicleta é

normal, com média 2 cm e variância 0, 01 cm2 . Para que uma corrente se ajuste à
bicicleta, deve ter comprimento total entre 58 e 61 cm. Qual é a probabilidade de
uma corrente com 30 elos não se ajustar à bicicleta?
Exercício 6.8. As durações de gravidez têm distribuição normal com média de 268
dias e desvio-padrão de 15 dias.
(a) Selecionada aleatoriamente uma mulher grávida, determine a probabilidade
de que a duração de sua gravidez seja inferior a 260 dias.
(b) Se 25 mulheres escolhidas aleatoriamente são submetidas a uma dieta especial
a partir do dia em que engravidam, determine a probabilidade de os prazos de
duração de suas gravidezes terem média inferior a 260 dias (admitindo-se que a
dieta não produza efeito).
(c) Se as 25 mulheres têm realmente média inferior a 260 dias, há razão de
preocupação para os médicos de pré-natal? Justifique adequadamente.
Exercício 6.9. O peso de uma determinada fruta é uma variável aleatória com
distribuição normal com média de 200 gramas e desvio-padrão de 50 gramas. De-
termine a probabilidade de um lote contendo 100 unidades dessa fruta pesar mais
que 21 kg.
Exercício 6.10. Um elevador pode suportar uma carga de 10 pessoas ou um peso

total de 1750 libras. Assumindo que apenas homens tomam o elevador e que seus
pesos são normalmente distribuídos com média 165 libras e desvio-padrão de 10
libras, qual a probabilidade de que o peso limite seja excedido para um grupo de 10
homens escolhidos aleatoriamente?
Exercício 6.11. Se X ∼ U[a, b], calcule MX (t). Use a função geradora de momentos
para calcular EX e V X.
Exercício 6.12. As cinco primeiras repetições de um experimento custam R$ 10, 00

cada. Todas as repetições subseqüentes custam R$ 5, 00 cada. Suponha que o
experimento seja repetido até que o primeiro sucesso ocorra. Se a probabilidade de
sucesso de uma repetição é igual a 0, 9, e se as repetições são independentes, qual é
custo esperado da operação?
Exercício 6.13. Se X ∼ exp(λ), calcule MX (t). Use a função geradora de momen-

tos para calcular EX e V X.
Exercício 6.14. Seja Y uma variável aleatória contínua com função de densidade
de probabilidade dada por
(
ye−y , se y > 0
fY (y) =
0, caso contrário
Ache a função geradora de momentos de Y e use-a para calcular EY e V Y .
Exercício 6.15. Se X ∼ N (0, 1), calcule ϕX (t).

Você pode usar o seguinte fato, da teoria do cálculo em uma variável complexa:
Z +∞ Z +∞
2 2
e−(w+ci) dw = e−w dw
−∞ −∞
para qualquer c ∈ R.
Exercício 6.16. Se X ∼ N (µ, σ 2), calcule ϕX (t).
Exercício 6.17. B. James. Capítulo 6. Recomendados: 1, 2, 3, 4, 7, 9, 13a, 14, 17,

18, 21, 29.
6.4. EXERCÍCIOS 55
Tabela 6.1: Φ(x + y), onde x são os valores das linhas e y os das colunas.
0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
Capítulo 7
Lei dos Grandes Números e

Teorema Central do Limite
A referência para os assuntos deste capítulo são os Capítulos 5 e 7 do B. James.

Porém faremos aqui uma exposição simplificada desses assuntos, enquanto o livro-
texto os trata com um nível de profundidade que está fora dos objetivos deste curso.
Recomendam-se os exercícios listados ao final deste capítulo.
7.1 Leis dos Grandes Números

Sejam X1 , X2 , . . . v.a.’s integráveis em (Ω, A, P ) e S1 , S2 , . . . suas somas parciais
dadas por
Sn = X1 + X2 + · · · + Xn .
Definição 7.1. X1 , X2 , . . . satisfazem a Lei Fraca dos Grandes Números se para

todo ε > 0 temos

Sn − ESn
≥ ε → 0, quando n → ∞,
P

n
ou seja, se
Sn − ESn P
→ 0.
n
Definição 7.2. X1 , X2 , . . . satisfazem a Lei Forte dos Grandes Números se para
todo ε > 0 temos
Sn − ESn
P lim =0 =1,
n→∞ n
ou seja, se
Sn − ESn q.c.
→ 0.
n
57
58 CAPÍTULO 7. LEI DOS GDES NÚMEROS E TEO CENTRAL DO LIMITE
Teorema 7.3 (Lei Fraca de Chebyshev). Sejam X1 , X2 , . . . v.a.’s não-correlacionadas

dois a dois com variâncias finitas e uniformemente limitadas (isto é, existe c finito,
tal que para todo n V Xn < c). Então X1 , X2 , . . . satisfazem a Lei Fraca dos Grandes
Números:
Sn − ESn P
→ 0.
n
Demonstração. Exercício. Basta usar a segunda desigualdade de Chebyshev.
Corolário 7.4 (Lei dos Grandes Números de Bernoulli). Considere uma seqüência
de ensaios binomiais independentes tendo a mesma probabilidade p de sucesso em
cada ensaio. Se Sn é o número de sucessos nos primeiros n ensaios, então
Sn P
→ p.
n
Teorema 7.5 (Lei Fraca de Khintchine). Sejam X1 , X2 , . . . v.a.’s independentes,
identicamente distribuídas e integráveis, com média µ. Então X1 , X2 , . . . satisfazem
a Lei Fraca dos Grandes Números:
Sn P
→ µ.
n
Demonstração. Utilizamos o Teorema de Paul Lévy. Primeiramente, como as Xn
são i.i.d., temos
h in n
µt
ϕ Sn (t) = ϕX1 n t
= 1 + i + r1 nt ,
n n
r1 (w)
onde r1 (·) é tal que w
→ 0 quando w → 0. Segue que ϕ Sn (t) → eitµ quando
n
d
n → ∞, para todo t ∈ R. Pelo Teorema 6.17, Sn
n
→ µ e, como µ é constante, isso é
Sn P
o mesmo que n
→ µ.
Teorema 7.6 (Primeira Lei Forte de Kolmogorov). Sejam X1 , X2 , . . . v.a.’s inde-
pendentes e integráveis, e suponha que
∞
X V Xn
2
< ∞.
n=1 n
Então X1 , X2 , . . . satisfazem a Lei Forte dos Grandes Números:

Sn ESn q.c.
− → 0.
n n
Demonstração. (Eu aula, se houver tempo.)
Teorema 7.7 (Lei Forte de Kolmogorov). Sejam X1 , X2 , . . . v.a.’s independentes,
identicamente distribuídas e integráveis, com EXn = µ. Então X1 , X2 , . . . satisfa-
zem a Lei Forte dos Grandes Números:
Sn q.c.
→ µ.
n
7.2. TEOREMA CENTRAL DO LIMITE 59
7.2 Teorema Central do Limite

Teorema 7.8 (Teorema Central do Limite para variáveis aleatórias i.i.d.). Seja
{Xn ; n ≥ 1} uma seqüência de v.a.’s i.i.d., com média comum µ e variância comum
σ 2 , onde 0 < σ 2 < ∞. Seja Sn = X1 + X2 + · · · + Xn . Então
Sn − ESn d
√ → N (0, 1),
V Sn
isto é,
Sn − nµ d
√ → N (0, 1).
σ n
Demonstração. Utilizamos o Teorema de Paul Lévy. Supomos sem perda de gene-

ralidade que µ = 0. Como as Xn são i.i.d., temos
" #n
h in t2
ϕ S√
n (t) = ϕX1 t
√
σ n
= 1 − + r2 σ√t n ,
σ n n
r2 (w) 2
onde r2 (·) é tal que w2
→ 0 quando w → 0. Segue que ϕ S√
n (t) → e−t quando
σ n
d
n → ∞, para todo t ∈ R. Pelo Teorema 6.17, S√n
σ n
→ N.
Observação 7.9. Se X1 , X2 , . . . , Xn é uma seqüência de variáveis aleatórias inde-

pendentes de Bernoulli com parâmetro p, então sabemos que
Sn = X1 + X2 + · · · + Xn ∼ b(n, p).
Assim, pelo Teorema Central do Limite, para n suficientemente grande Sn pode ser
aproximada por uma distribuição Normal, já que
Sn − np
√ ≈ N (0, 1).
npq
Ou de outra forma
Sn ≈ N (np, npq).
Exemplo 7.10. Um par de dados honestos é lançado 180 vezes por hora (aproxi-
madamente).
(a) Qual a probabilidade aproximada de que 25 ou mais lançamentos tenham
tido soma 7 na primeira hora?
(b) Qual a probabilidade aproximada de que entre 700 e 750 lançamentos tenham
tido soma 7 durante 24 horas?
60 CAPÍTULO 7. LEI DOS GDES NÚMEROS E TEO CENTRAL DO LIMITE
7.3 Exercícios
Observação 7.11. As questões sobre a Lei Forte dos Grandes Números, por trata-
rem de eventos que devem acontecer com probabilidade 1, em geral envolvem o uso
do Lema de Borel-Cantelli.
Exercício 7.1. Seja (Xn )n uma seqüência de variáveis aleatórias i.i.d. com EX14 <
∞. Mostre que essa seqüência satisfaz a Lei Forte dos Grandes
Números.

(Dica: supondo que EX1 = 0, mostre que ESn = nEX1 + 42 n2 E(X12 X22 ).)
4 4

com funções de probabilidade pn dadas por pn (n2 ) = n13 = 1 − pn (0). Essa seqüência
satisfaz a Lei dos Grandes Números?
com funções de probabilidade pn dadas por pn (n2 ) = n12 = 1 − pn (0). Essa seqüência
satisfaz a Lei dos Grandes Números?
Exercício 7.4. B. James. Capítulo 5. Recomendados: 2, 3, 14.
Exercício 7.5. Imagine um modelo idealizado com M eleitores, dos quais MA pre-
tendem votar no candidato A. Suponha que seja possível sortear um desses eleitores
ao acaso, e de forma equiprovável. Definimos

1, caso o eleitor sorteado vá votar no candidato A,
X=
Deseja-se estimar a proporção p = MMA de eleitores do candidato A, que é desco-

nhecida. Para isso, repete-se este processo N vezes, obtendo-se X1 , . . . , XN . Para
estimar o valor de p considera-se
X1 + · · · + XN
pbN = .
N
Supomos a priori que p é bem próximo de 21 , de forma que V X ≈ 14 . Se entrevista-
mos N = 2500 eleitores, calcule aproximadamente a probabilidade de essa pesquisa
cometer um erro |pbN − p| maior que 0, 01.
Exercício 7.6. Use o Teorema Central do Limite para verificar que
n
X nk
lim 2 e−n = 1.
k=0 k!
n→∞
Exercício 7.7. Se lançamos 10.000 vezes uma moeda honesta, calcule aproximada-
mente a probabilidade de que o número de vezes que se obtém coroa seja no mínimo
4.893 e no máximo 4.967.
Exercício 7.8. B. James. Capítulo 7. Recomendados: 2 e 9.
Capítulo 8
Distribuição e Esperança
Condicionais
Este certamente é o tópico mais delicado para um curso introdutório. É importante

entender bem o caso finito, que contém as idéias essenciais e é fundamental para
que se compreenda o conceito de distribuição e esperança condicionais.
As Seções 8.1, 8.2 e 8.3 seguem a linha desenvolvida na Seção I.8 de Shiryaev.1
Nessas seções vamos assumir que todas as partições são finitas e todas as variáveis
aleatórias assumem apenas finitos valores, mesmo que não seja dito explicitamente.
Na Seção 8.4 enunciamos as principais propriedades da esperança condicional dada
uma σ-álgebra que serão usadas nas seções seguintes. As Seções 8.5 e 8.6 têm como
referencial a linha desenvolvida no Capítulo 4 de B. James, porém de forma muito
mais resumida. Recomendam-se os exercícios listados ao final deste capítulo.
8.1 Partições
Muitas vezes a estrutura do espaço amostral Ω é complicada demais para estudar-
mos as grandezas de interesse diretamente a partir dos eventos elementares ω ∈ Ω,
até mesmo em situações aparentemente simples. Por exemplo, se existe uma seqüên-
cia infinita de variáveis aleatórias independentes que representam lançamentos de
moedas honestas, então Ω é certamente não-enumerável e F é bastante complicada.
Neste contexto, estudamos as propriedades de algumas grandezas observáveis
(variáveis aleatórias), ou ainda, conseguimos dividir Ω em “classes” que podem
ser estudadas separadamente. Estudar uma partição D de Ω ao invés de toda a
σ-álgebra F quer dizer que estamos trabalhando apenas com a “informação” relaci-
onada àquela partição.
Exemplo 8.1. Sejam X1 , X2 , X3 , . . . variáveis aleatórias assumindo valores em

1
Shiryaev, A. N. (1984). Probability. Springer Verlag.
61
62 CAPÍTULO 8. DISTRIBUIÇÃO E ESPERANÇA CONDICIONAIS
{−1, 1}. O espaço Ω pode ser dividido em átomos onde X1 e X2 são constantes.
Definição 8.2. Dizemos que D = {D1 , D2 , D3 , . . . , Dn } é uma partição de (Ω, F )

se Di ∈ F ∀ i, Di ∩ Dj = ∅ ∀i 6= j, e ∪i Di = Ω.
Dizemos que D2 é mais fina que D1 , denotado por D2 < D1 , se todo elemento de
D1 é igual à união de elementos de D2 , isto é, se para todo D ∈ D1 existe C ⊆ D2
tal que D = ∪C. Isso significa que D2 tem “mais informação” do que D1 .
Exemplo 8.3. Seja D2 = {D1 , D2 , D3 , D4 } uma partição de Ω, e sejam D5 =

D1 ∪ D3 , D6 = D2 e D7 = D4 . Se definimos D1 = {D5 , D6 , D7 }, temos D2 < D1 .
Exemplo 8.4. Para qualquer partição D vale D < D.
8.2 Probabilidade Condicional dada uma Parti-

ção
Dada uma partição D = {Di }i e um evento A, definimos a variável aleatória
X
P (A|D) = P (A|D)(ω) = IDi (ω)P (A|Di)
i
isto é, em cada átomo Di da partição D, temos que P (A|D) assume o valor cons-
tante P (A|Di).
Exemplo 8.5. Suponha que P (chover amanhã|chove hoje) = 0, 7,

P (chover amanhã|não chove hoje) = 0, 5 e seja D = {chove hoje, não chove hoje}.
Então

0, 7, se no estado ω chove hoje,
Z = P (chover amanhã|D) =
0, 5, caso contrário.
Teorema 8.6 (Teorema da Probabilidade Total).

h i
P (A) = E P (A|D) .
P h i
Demonstração. P (A) = i P (A|Di)P (Di ) = E P (A|D) .
Exemplo 8.7. Se P (chover hoje) = 0, 4, temos

X
P (chover amanhã) = EZ = zP (Z = z) = 0, 7 × 0, 4 + 0, 5 × 0, 6 = 0, 58.
z
Definição 8.8. Seja X uma variável aleatória assumindo valores em {x1 , . . . , xm }.

Definimos a partição induzida por X como DX = {D1 , . . . , Dm }, onde Dj = {ω :
X(ω) = xj }. Denotamos a variável aleatória P (A|DX )(ω) por P (A|X)(ω).
8.3. ESPERANÇA CONDICIONAL DADA UMA PARTIÇÃO 63
Uma forma equivalente de definir P (A|X) é a seguinte. Para k = 1, . . . , m, faça

φ(xk ) = P (A|X = xk ). Temos que P (A|X) = φ(X), isto é, ∀ω, P (A|X)(ω) =
φ(X(ω)).
Exercício 8.1. Se X e Y são independentes então
P (X + Y = z|Y = y) = P (X + y = z).
Exemplo 8.9. Se X e Y são i.i.d. Bernoulli(p), considere o evento A = [X +Y = 1].

Vamos calcular P (A|Y ):
P (A|Y ) = pIY =0 + (1 − p)IY =1 ,
ou, escrevendo explicitamente como função de Y :
P (A|Y ) = p(1 − Y ) + (1 − p)Y.
De forma análoga definimos DX1 ,X2 ,...,Xn como sendo a partição cujos átomos são
os maiores conjuntos onde todas as Xn são constantes.
Exercício 8.2. Mostre que DX1 ,X2 < DX1 .
8.3 Esperança Condicional dada uma Partição

Sexa X uma variável aleatória com valores em {x1 , . . . , xm } e Aj = [X = xj ].
Considere D uma partição de (Ω, F ). Definimos a variável aleatória
m
X
E(X|D) = E(X|D)(ω) = xj P (Aj |D)(ω).
j=1
Observe que, dado Di ∈ D, para cada ω ∈ Di temos

m
X
E(X|D)(ω) = xj P (Aj |Di) = E (X|Di ) ,
j=1
isto é, em cada átomo Di da partição D, a variável aleatória aleatória E(X|D)

assume um valor contante dado por E(X|Di ). Veja a Figura 8.1.
Exemplo 8.10. Lançamento de um dado honesto. Seja D = {ímpar, par}. Temos

E(X|X é par), se X(ω) é par,
Z(ω) = E(X|D)(ω) =
E(X|X é ímpar), se X(ω) é ímpar.
Assim, 
4, se X(ω) é par,
Z(ω) =
3, se X(ω) é ímpar.
X(ω) E(X|D)(ω)
ω ω
D D
Figura 8.1: Ilustração da definição de E(X|D).
Exercício 8.3. Mostre as seguintes propriedades:

1. E(aX + bY |D) = aE(X|D) + bE(Y |D).
2. E(c|D) = c.
3. E(X|{Ω}) = EX.
Teorema 8.11 (Generalização to Teorema da Probabilidade Total).

h i
EX = E E(X|D) .
Demonstração. Pelo Teorema 8.6,

 
h i X X h i X
E E(X|D) = E  xj P (Aj |D) = xj E P (Aj |D) = xj P (Aj ) = EX.
j j j
Com o Teorema 8.11 completamos o diagrama da Figura 8.2.
Exemplo 8.12. Lançamento do dado no Exemplo 8.10. Temos
EX = E[E(X|D)] = EZ = 3, 5.
Seja Y outra variável aleatória assumindo valores y1 , . . . , yn . Denotamos
E(X|Y ) = E(X|DY ).
Se fizermos φ(yi) = E(X|Y = yi ), i = 1, . . . , n, temos que
E(X|Y ) = φ(Y ).
Exercício 8.4. Se X e Y são independentes então E(X|Y ) = EX é constante.

h i
Observação 8.13. Caso particular do teorema anterior: EX = E E(X|Y ) .
Exercício 8.5. Entender os Exemplos 2 e 4 de B. James, pp. 150 e 155, respecti-

vamente.
8.3. ESPERANÇA CONDICIONAL DADA UMA PARTIÇÃO 65
P (·) P / E(·)
F EX= i
xi P (X=xi ) ?

P (A∩D)
P (A|D)= P (D)

P
E(X|D)= i xi P (X=xi |D)
P (·|D) / E(·|D)
EX=E[E(X|D)]
P
P (A)=E[P (A|D)]
P (A|D)= i P (A|Di )IDi

P
E(X|D)= i E(X|Di )IDi

P (·|D) P / E(·|D)
E(X|D)= i
xi P (X=xi |D)
Figura 8.2: Relação entre probabilidade, esperança, probabilidade condicional

dado um evento, esperança condicional dado um evento, probabilidade condici-
onal dada uma partição, e esperança condicional dada uma partição.
De forma análoga definimos

E(X|Y1, . . . , Yn ) = E X DY1 ,...,Yn ,
e isso é equivalente a tomar φ(yi1 , . . . , yin ) = E(X|Y1 = yi1 , . . . , Yn = yin ) e
E(X|Y1 , . . . , Yn ) = φ(Y1, . . . , Yn ).
Definição 8.14. Dizemos que X é D-mensurável se D < DX , isto é, se X é cons-

tante nos átomos de D. Em outras palavras, se a “informação” sobre D determina
o valor de X.
Proposição 8.15. Se D1 4 D2 , então

h i h i

E E(X|D2 )D1 = E E(X|D1 )D2 = E(X|D1 ).
Em particular, h i

E E(X|Y1 , Y2 )Y1 = E(X|Y1).
Observação 8.16. X sempre é DX -mensurável.
Proposição 8.17. Se X é D-mensurável, então
E(XY |D) = XE(Y |D).
Em particular, E(X|D) = X. Ademais, E(X|X) = X.

Exemplo 8.18. Dada uma função f , vale

h i

E f (Y )E X Y = E [Xf (Y )] .
De fato, como Z = f (Y ) é claramente DY -mensurável, temos

h i

E Xf (Y )Y = f (Y )E(X|Y ).
Tomando a esperança dos dois lados, obtemos a equação anterior.
Observação 8.19. Seja f ∗ (y) = E(X|Y = y), ou seja, tome f ∗ tal que E(X|Y ) =
f ∗ (Y ). Então, para qualquer f : R → R vale
2 2
∗
E X − f (Y ) ≥ E X −f (Y ) .
A observação acima diz que o melhor estimador para o valor de X sabendo-se

o valor de Y (melhor no sentido da média quadrática) é a esperança condicional
E(X|Y ).
8.4 Esperança Condicional dada uma σ-Álgebra

Uma partição D gera uma álgebra α(D) formada por conjuntos que são união finita
de elementos de D, ou seja, α(D) = {A ⊆ Ω : A = Di1 ∪ · · · ∪ Dik , Dij ∈ D, k ≥ 0}.
A esperança de X condicionada à partição D dada por Z = E(X|D), foi cons-
truída de forma a ser a única variável aleatória Z a satisfazer simultaneamente
Z Z
XdP = ZdP para qualquer A ∈ α(D)
A A
e
Z é D-mensurável.
Nesse sentido, interpretamos E(X|D) como a melhor aproximação para X quando

tem-se acesso apenas à informação correspondente a D.
Num caso mais geral, temos acesso à “informação” correspondente a uma classe
C ⊆ F , ou melhor, à σ-álgebra G ⊆ F gerada por C, e nesse caso definimos E(X|G)
como a única variável aleatória Z que satisfaça simultaneamente
Z Z
XdP = ZdP para qualquer A ∈ G
A A
e
n o
Z é G-mensurável, i.e., ω : Z ∈ B ∈ G ∀B ∈ B.
8.4. ESPERANÇA CONDICIONAL DADA UMA σ-ÁLGEBRA 67
Teorema 8.20 (Radon-Nikodým). Seja X uma variável aleatória integrável definida

em (Ω, F , P ) e G ⊆ F uma σ-álgebra. Então existe uma variável aleatória Z, que
chamamos de E(X|G), satisfazendo as propriedades acima. Tal variável aleatória
é única, no sentido de que qualquer outra variável aleatória Z̃ satisfazendo essas
mesmas propriedades satisfaz também P (Z̃ = Z) = 1.
Neste contexto, definimos
P (A|G) = E (IA |G) e E(X|Y ) = E (X|σ(Y )) ,
onde σ(Y ) = {Y −1 (B) : B ∈ B} é a menor σ-álgebra em Ω com relação à qual
Y : Ω → R é mensurável.
No caso de G ser gerada por uma partição finita D, ou Y ser uma variável
aleatória assumindo finitos valores, essas definições coincidem com o que havíamos
feito anteriormente.
Proposição 8.21 (Propriedades da esperança condicional).

1. E [E(X|G)] = EX.
2. E(c|G) = c quase certamente.
3. X ≤ Y ⇒ E(X|G) ≤ E(Y |G) quase certamente.
4. E(aX + bY |G) = aE(X|G) + bE(Y |G) quase certamente.
5. Se X é G-mensurável então E(X|G) = X quase certamente.
6. Se G1 ⊆ G2 ⊆ F são σ-álgebras, então

E E X G2 G1 = E E X G1 G2 = E X G1 quase certamente.
7. Se Y é G-mensurável, E|X| < ∞, E|XY | < ∞, então

E XY G = Y.E X G quase certamente.
A esperança condicionada a Y , E(X|Y ), sendo uma variável aleatória σ(Y )-

mensurável, pode ser expressa como φ(Y ), isto é, E(X|Y )(ω) = φ(Y (ω)) quase
certamente.
Isso justifica a seguinte definição.
Definição 8.22 (Esperança condicional de X dado que Y = y). Chamamos de
esperança condicional de X dado que Y = y a qualquer função φ : R → R que seja
B-mensurável e satisfaça E(X|Y ) = φ(Y ) quase certamente. Neste caso escrevemos
E(X|Y = y) = φ(y).
Observação 8.23. Sempre existe tal φ, que é única no sentido de que qualquer
outra φ′ satisfazendo as mesmas condições satisfaz também P (φ(Y ) = φ′ (Y )) = 1.
Com isso estabelecemos uma relação entre φ(y) = E(X|Y = y) e E(X|Y ).
A primeira forma é mais intuitiva para se lidar. Entretanto, toda essa abstração
teórica e teoremas de existência e unicidade não fornecem uma forma explícita para
E(X|Y = y). É disso que tratam as Seções 8.5 e 8.6.
8.5 Distribuição Condicional Regular

Quando Y é uma variável aleatória discreta assumindo valores y1 , y2, . . . , essa va-
riável aleatória induz uma partição DY de (Ω, F ), e temos as seguintes relações:
X
P (X ∈ B) = E [P (X ∈ B|Y )] = P (X ∈ B|Y = yn )P (Y = yn )
n
Z +∞
= P (X ∈ B|Y = y)dFY (y),
−∞
h i X
FX (x) = E FX|Y (x) = FX (x|Y = yn )P (Y = yn )
n
Z +∞
= FX (x|Y = y)dFY (y),
−∞
X
E(X) = E [E(X|Y )] = E(X|Y = yn )P (Y = yn )
n
Z +∞
= E(X|Y = y)dFY (y).
−∞
Nas expressões acima, todas as grandezas condicionadas a Y = y são definidas

diretamente utilizando a probabilidade condicional P ′ (·) = P (·|Y = y) dado o
evento de probabilidade positiva [Y = y]. Este caso já foi tratado na Seção 4.5.
No caso de variáveis aleatórias Y que não sejam discretas, temos que dar sentido
a expressões do tipo P (X ∈ B|Y = y) mesmo que P (Y = y) seja zero, para poder
dizer que expressões análogas continuam valendo.
Definição 8.24 (Distribuição Condicional Regular). Sejam X e Y variáveis aleató-
rias definidas no mesmo espaço de probabilidade (Ω, F , P ). A distribuição condici-
onal regular de X dado Y = y é definida por

P X ∈ [s, t] Y = y = lim lim P X ∈ [s − ∆, t + ∆] Y ∈ [y − δ, y + δ]
∆→0 δ→0
para todo s < t e y ∈ A, onde A é algum conjunto tal que P (Y ∈ A) = 1. Quando

s = −∞, definimos a função de distribuição condicional acumulada FX (t|Y = y) =
P (X ≤ t|Y = y).
Teorema 8.25. Para quase todo y ∈ R, isto é, para todo y ∈ A onde A é um
conjunto tal que P (Y ∈ A) = 1, o limite acima existe para todo s < t e determina
uma probabilidade em R.
8.5. DISTRIBUIÇÃO CONDICIONAL REGULAR 69
Na prática, o que se faz é encontrar um candidato ad hoc de quem deveria ser

a distribuição condicional regular de X dado Y , segundo princípios que se aplicam
em diferentes casos, e verifica-se a posteriori que o candidato proposto satisfaz a
Definição 8.24. À continuação veremos alguns desses princípios.
Caso de Y discreta
Se Y é variável aleatória discreta, a distribuição condicional de X dado Y = y

é dada por
P {X ∈ B, Y = y}
P {X ∈ B|Y = y} =
P {Y = y}
para todo y tal que P (Y = y) > 0
A função de distribuição condicional de X dado Y = y é
FX (x|Y = y) = P {X ≤ x|Y = y} .
Caso de X e Y independentes
Se X e Y são independentes, o condicionamento em Y = y não afeta em

nada a variável X. Neste caso temos
P (X ∈ B|Y = y) = P (X ∈ B).
Exercício 8.6. Verifique que esse candidato satisfaz a Definição 8.24.
Caso de X e Y possuírem densidade conjunta
Se X e Y têm função de densidade conjunta fX,Y (x, y), a função de densidade

condicional de X dado Y = y é dada por
fX,Y (x, y)
fX (x|Y = y) =
fY (y)
para todo y tal que fY (y) > 0.
Neste caso a função de distribuição condicional de X dado Y = y é

Z x
FX (x|Y = y) = P {X ≤ x|Y = y} = fX (t|Y = y)dt.
−∞
Exemplo 8.26. Sejam X e Y com densidade conjunta


6xy(2 − x − y), 0 < x < 1, 0 < y < 1,
fX,Y (x, y) =
Vamos determinar a distribuição condicional de X dado que Y = y.
Temos
Z +∞ Z 1
fY (y) = fX,Y (x, y)dx = 6xy(2 − x − y)dx = 4y − 3y 2
−∞ 0
se y ∈ (0, 1) e 0 caso contrário. Assim, para y ∈ [0, 1] temos


6x(2−x−y)
fX,Y (x, y)  4−3y , 0<x<1
fX (x | Y = y) = =
fY (y) 0, caso contrário.
Para y fora desse intervalo FX (·|Y = y) é irrelevante, pois P (Y 6∈ [0, 1]) = 0.

(
1
ye−xy ,0<x<∞ e 0<y<2
fX,Y (x, y) = 2
0, caso contrário
Vamos determinar a distribuição condicional de X dado que Y = y.
Temos Z +∞ Z
1 ∞ −xy 1
fY (y) = fX,Y (x, y)dx = ye dx =
−∞ 2 0 2
para 0 < y < 2. Logo Y ∼ U[0, 2].
Assim, para y ∈ (0, 2] temos

fX,Y (x, y) ye−xy , x > 0,
fX (x | Y = y) = =
fY (y) 0, x ≤ 0.
Caso de Y possuir densidade e X ser discreta
Se X é discreta e Y tem função de densidade fY (y), a função de probabilidade

condicional de X dado Y = y é dada por
P (X = xn )fY (y|X = xn )
pX (xn |Y = y) =
fY (y)
para todo y tal que fY (y) > 0.
Neste caso a função de distribuição condicional de X dado Y = y é

X
FX (x|Y = y) = P {X ≤ x|Y = y} = pX (xn |Y = y).
n:xn ≤x
8.5. DISTRIBUIÇÃO CONDICIONAL REGULAR 71
Princípio da preservação das chances relativas
O princípio da preservação das chances relativas diz que, dada a ocorrência

de um evento, os resultados possíveis dentro desse evento mantêm as mesmas
chances relativas que possuíam antes.
Exemplo 8.28. X ∼ N (0, 1) e Y = X 2 . Qual a distribuição condicional de X dado

que Y = y?
Como P (Y > 0) = 1, basta considerar valores y > 0. Sabendo que Y = y temos
duas alternativas: X = y ou X = −y. Como fX (y) = fX (−y), esses dois valores
continuam tendo a mesma chance quando condicionamos a Y = y. Definimos então
P (X = y|Y = y) = P (X = −y|Y = y) = 12 .
Vamos verificar que esse candidato satisfaz a Definição 8.24. Se s < t < −y,
temos que limδ P (X ≤ t + ∆|Y ∈ [y − δ, y + δ]) = 0 para ∆ < −y − t (verifique!),
coincidindo com nosso candidato P (X ∈ [s, t]|Y = y) = 0. Se −y < s ≤ y ≤ t,
temos que limδ P (X ∈ [s−∆, t+∆]|Y ∈ [y−δ, y+δ]) = 12 para ∆ < s+y (verifique!),
coincidindo com nosso candidato P (X ∈ [s, t]|Y = y) = (X = y|Y = y) = 12 . Os
outros casos são verificados de forma análoga.
Exemplo 8.29. Seja X ∼ U[0, 2] e Y ∼ U[−1, 1] independentes. Vamos encontrar

FX (x|X + Y = z).
Seja Z = X + Y . A densidade conjunta de X e Y é dada por fXY (x, y) =
1
I
4 [0,2]×[−1,1]
(x, y), e a marginal de X é dada por fX (x) = 12 I[0,2] (x). Condicionando
a Z = z, temos que o conjunto dos resultados possíveis fica restrito a uma diagonal
{(x, y) ∈ [0, 2] × [−1, 1] : x + y = z} que corta o quadrado [0, 2] × [−1, 1]. Pelo Prin-
cípio da Preservação das Chances Relativas, todos os pontos desse conjunto eram
“equiprováveis” antes do condicionamento, devem continuar equiprováveis dentro do
conjunto da restrição. Assim, para z > 1 devemos ter X ∼ U[z − 1, 2] e para z < 1
devemos ter X ∼ U[0, z + 1], ou seja

 1
I[z−1,2] (x), 1 ≤ z < 3,
fX (X|Z = z) =  3−z
1
I
z+1 [0,z+1]
(x), −1 < z ≤ 1.
Princípio da substituição
O princípio da substituição permite substituir Y por y sempre que se condi-

ciona a Y = y. Se W = g(X, Y ), então
h i
P (W ∈ B|Y = y) = P (g(X, y) ∈ B|Y = y) = P X ∈ {x : g(x, y) ∈ B} Y = y .


(1 + 2x − 2y), x, y ∈ [0, 1]
fX,Y (x, y) =
Queremos calcular P (X + Y ≤ z | Y = y).

Pelo Princípio da Substituição temos que P (X + Y ≤ z | Y = y) = P (X ≤
z − y | Y = y). Calculemos então a distribuição condicional de X.
R +∞
Como X e Y possuem densidade conjunta temos fY (y) = −∞ fX,Y (x, y)dx =
R1
0 (1 + 2x − 2y)dx = 2 − 2y, 0 < y < 1, e
Z Z x
x fX,Y (t, y) 1 + 2t − 2y
FX (x | Y = y) = dt = I[0,1]×[0,1] (x, t)dt
−∞ fY (y) 0 2 − 2y



 0, x ≤ 0,
 2
= x +x−2xy
, 0 < x < 1,
 2(1−y)



1, x ≥ 1.
Substituindo temos



 0, z ≤ y,
 2
z +(1−4y)z+3y 2 −y
FZ (z|Y = y) = FX (z − y|Y = y) = , y < z < y + 1,

 2(1−y)


1, x ≥ y + 1,
ou seja,
2z − 4y + 1
fZ (z|Y = y) = I[y,y+1] (z).
2(1 − y)
Vetores aleatórios A Definição 8.24, o Teorema 8.25 e os princípios apresentados

acima valem para a distribuição condicional do vetor aleatório X dado Y, sendo o
limite em Y ∈ [y − δ, y + δ] substituído por kY − yk ≤ δ, etc.
Exercício 8.7. Considere X1 , X2 , . . . , Xn variáveis aleatórias independentes com

densidade exp(λi ), i = 1, 2, . . . , n. Mostre que
λk
P {Xk = min(X1 , X2 , . . . , Xn )} = Pn .
i=1 λi
(Sugestão: calcule P (Xi ≥ Xk ∀i|Xk = x) usando o princípio da substituição, depois

use que P (A) = E[P (A|Xk )].)
8.6. ESPERANÇA CONDICIONAL DADA UMA VARIÁVEL ALEATÓRIA 73
8.6 Esperança Condicional dada uma Variável Ale-

atória
Dada X integrável, definimos E(X|Y = y) como
Z ∞
E [X|Y = y] = xdF (x|Y = y) .
−∞
Teorema 8.31. Se X é integrável então E(X|Y = y) é finita para todo y ∈ A, para

algum A tal que P (Y ∈ A) = 1.
Definindo φ(y) = E(X|Y = y), temos que E(X|Y ) = φ(Y ), de forma que pode-
mos obter uma versão “palpável” de E(X|G), G = σ(Y ). A esperança condicional
E(X|Y )(ω) = φ(Y (ω)), sendo um caso particular de esperança condicional dada
uma σ-álgebra, satisfaz todas as propriedades enunciadas na Proposição 8.21.
Proposição 8.32. Os seguintes resultados envolvendo esperanças condicionais se

verificam:
R∞
(a) E [X] = −∞ E (X|Y = y) dFY (y).
R∞
(b) P (X ∈ B) = −∞ P (X ∈ B | Y = y)dFY (y), para todo B ∈ B.
R∞
(c) FX (x) = −∞ FX (x|Y = y) dFY (y).
Observação 8.33. Para qualquer função g tal que g(X) é integrável, definimos
Z ∞
E [g(X)|Y = y] = g(x)dFX (x|y) .
−∞
Exemplo 8.34. Se X e Y são independentes, então FX (x|Y = y) = FX (x) e

Z ∞ Z ∞
E [X|Y = y] = xdF (x|Y = y) = E (X|Y = y) dFY (y) = E [X] .
−∞ −∞
Assim, φ(y) = EX ∀y ∈ R e E(X|Y ) = φ(Y ) = EX, isto é, E(X|Y ) é uma variável

aleatória constante, igual a EX.
Exemplo 8.35. Se X ∼ U[0, 2] e Y = max{X, 1}. Temos que Y assume valores

em [1, 2]. Tomando y em (1, 2], temos que [Y = y] = [X = y] e, pelo Princípio da
Substituição, E[X|Y = y] = y. Tomando y = 1, temos que [Y = 1] = [X ≤ 1].
Assim,

x/2


 = x, 0 ≤ x ≤ 1,
P (X ≤ x, X ≤ 1)  1/2
FX (x|Y = 1) = FX (x|X ≤ 1) = = 0, x < 0,
P (X ≤ 1) 



1, x > 1.
Logo, fX (x|Y = 1) = d
F (x|Y
dx X
= 1) = I[0,1] (x) e
Z 1 1
E(X|Y = 1) = xfX (x|Y = 1)dx = .
0 2
Portanto, 
1, Y =1
E(X|Y ) = 2
Y, 1 < Y ≤ 2.
Exemplo 8.36. O Jogador I lança uma moeda honesta n vezes, obtendo k “caras”,
onde 0 ≤ K ≤ n. Depois o Jogador II lança a moeda k vezes, obtendo j “coroas”.
Seja X o número j de “coroas” obtidas pelo Jogador II. Queremos calcular EX.
(Poderíamos fazer algum esforço neste caso – nem sempre isso é possível – para
mostrar que X ∼ b(n, 14 ) e portanto EX = n4 , mas estamos interessados apenas em
saber EX.)
Seja Y o número de “caras” obtidas pelo Jogador I. É claro que X|Y = k ∼ b(k, 21 ,
logo E(X|Y = k) = k2 . Assim, E(X|Y ) = Y2 . Calculamos então

Y 1 1n n
EX = E [E(X|Y )] = E = EY = = ,
2 2 22 4
uma vez que Y ∼ b(n, 12 ).
Exemplo 8.37. No Exemplo 8.26, vamos cacular E [X|Y ] e E [X].

Substituindo a densidade obtida temos
Z Z
+∞ 1 6x2 (2 − x − y) 5 − 4y
E[X | Y = y] = xfX (x | Y = y)dx = dx = .
−∞ 0 4 − 3y 8 − 6y
Então E[X | Y ] = 5−4Y

8−6Y
e
Z 1 5 − 4y 15 8 7
E[X] = E[E[X | Y ]] = (4y − 3y 2 )dy = − = .
0 8 − 6y 12 12 12
h i h i
Exercício 8.8. No Exemplo 8.27, vamos calcular E eX/2 |Y e E eX/2 |Y = 1 .
Substituindo a densidade condicional obtida, temos
Z ∞ Z ∞
X x 1
E[e 2 | Y = y] = e ye dx = y
2
xy
e( 2 −y)x dx.
0 0
y
Se y ≤ 1
2
a integral vale +∞. Se y > 1
2
la integral vale y− 21
. Assim,


+∞,
h i Y ≤ 12 ,
E eX/2 |Y = y

 , y > 12 ,
y− 12
h i
e E eX/2 |Y = 1 = 12 .
8.6. ESPERANÇA CONDICIONAL DADA UMA VARIÁVEL ALEATÓRIA 75
Exemplo 8.38. Seja X ∼ U [0, 1]. Se X = x, então uma moeda com probabilidade
x de sair cara é lançada n vezes independentemente. Seja Y a v.a. que representa
o número de caras obtidas.
Temos que Y |X = x ∼ b(n, x) e X ∼ U(0, 1) Se y ∈ 0, 1, . . . , n então:
Z Z !
1 1 n y
P (Y = y) = P (Y = y | X = x)fX (x)dx = x (1 − x)n−y dx.
0 0 y
Portanto
n n Z
!
X X 1 n y
E[Y ] = yP (Y = y) = y x (1 − x)n−y dx
y=0 y=0 0 y
Z n
!
1 X n − 1 y−1
= xn x (1 − x)n−y dx
0 y=0 y−1
Z Z
1 1 n
= xn(x + 1 − x)n−1 dx = n xdx = .
0 0 2
Por outro lado, E[Y | X = x] = nx, ou seja, E[Y | X] = nX, logo
n
E[E[Y | X]] = E[nX] = .
2
Exercício 8.9. Sejam X e Y v.a.’s independentes tais que X ∼ U [0, 2] e Y ∼
U [−1, 1].
(a) Calcule E [X|X + Y ≤ 2].
(b) Calcule E [X|X + Y ].
(c) Calcule E [X|X + Y = 2].
Exercício 8.10. Seja X1 , X2 , . . . .uma seqüência de variáveis aleatórias independen-

tes e identicamente distribuídas e seja N uma variável aleatória inteira e não-negativa
N
P
independente da seqüência X1 , X2 , . . . . Seja Y = Xi . Mostre que
i=1
E [Y ] = E [N] E [X] .
Exercício 8.11. Sejam Y1 , Y2 , . . . , Yn variáveis aleatórias não-negativas i.i.d. Mostre

que
k
E [Y1 + Y2 + · · · + Yk |Y1 + Y2 + · · · + Yn = y] = y, k = 1, 2, . . . , n.
n
Exercício 8.12. Um número não-negativo X é escolhido com densidade fX (x) =
xe−x para x > 0. Se X = x, um número Y é escolhido no intervalo [0, x]. Ache
P (X + Y ≤ 2).
8.7 Exercícios
Exercício 8.13. Considere X e Y i.i.d. Bernoulli(p). Calcule E(X +Y |Y ) e escreva
essa variável aleatória como uma função da v.a. Y , de duas formas diferentes:
(a) usando P (X + Y = k|Y ), que para k = 1 já foi calculado no Exemplo 8.9, e
aplicando a definição de esperança condicional dada uma partição.
(b) usando a linearidade da esperança condicional, a independência entre X e Y
e o fato de que Y é DY -mensurável.
Exercício 8.14. Dadas X e Y i.i.d. assumindo finitos valores {0, . . . , n}, mostre
que
X +Y
E(X|X + Y ) = E(Y |X + Y ) = .
2
Sugestão: para obter a primeira igualdade, escreva a definição de esperança
condicionada à partição DX+Y , desenvolva essa expressão para depois usar a in-
dependência e o fato de X e Y terem mesma distribuição. Para obter a segunda
igualdade, some os dois lados da primeira igualdade.
Exercício 8.15. A variância condicionada a uma partição é definida de forma aná-

loga à variância de uma variável aleatória:
n o

V (X|D) = E [X − E (X|D)]2 D .
Mostre que
V (X|D) = E X 2 |D − [E (X|D)]2 .
Sugestão: desenvolva a definição dada acima de forma semelhante ao que se faz
para mostrar que V X = EX 2 − (EX)2 . Em algum momento você vai ter que usar
o fato de que E(X|D) é uma variável aleatória D-mensurável.
Exercício 8.16. Se X é uma variável aleatória limitada definida em (Ω, F , P ) e D

é uma partição de (Ω, F ), mostre que
V X = E[V (X|D)] + V [E(X|D)].
Sugestão: desenvolva o lado direito usando o Exercício 8.15.
Exercício 8.17. Se X e Y são variáveis aleatórias limitadas e definidas em (Ω, F , P )

e G ⊆ F é uma σ-álgebra, então mostre que
E [ X E (Y |G) ] = E [ Y E (X|G) ] .
Dica: sabemos que essas esperanças podem ser calculadas da seguinte forma: pri-
meiro calcula-se E(·|G) e depois E(·), isto é, E[E(Z|G)] = EZ.
8.7. EXERCÍCIOS 77
Exercício 8.18. Sejam X e Y variáveis aleatórias em (Ω, F , P ) e G ⊆ F

uma σ-álgebra. Se
E(Y 2 |G) = X 2 , E(Y |G) = X,
mostre que X = Y quase certamente, isto é, P (X = Y ) = 1.

Sugestão: calcule E [(X − Y )2 ] em duas etapas e justifique por que X é G-
mensurável.
Exercício 8.19. A variância condicionada a uma σ-álgebra é definida de forma

análoga à variância de uma variável aleatória integrável:
n o

V (X|G) = E [X − E (X|G)]2 G .
Se X é uma variável aleatória limitada definida em (Ω, F , P ) e G ⊆ F é uma σ-

álgebra, mostre que
V X = E[V (X|G)] + V [E(X|G)].
Exercício 8.20. B. James. Capítulo 4. Recomendados: 1, 9, 15, 16b, 32, 40.

Apostila - Introdução A Probabilidade

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apostila - Introdução A Probabilidade

Enviado por

Direitos autorais:

Formatos disponíveis

Introdução à Probabilidade

4.3.1 Propriedades da Variância . . . . . . . . . . . . . . . . . . . . 32

5 Convergência de Variáveis Aleatórias 39

6 Função Geradora de Momentos e Função Característica 47

7 Lei dos Grandes Números e Teorema Central do Limite 57

8 Distribuição e Esperança Condicionais 61

Rio de Janeiro, fevereiro de 2012.

1.1 Espaços de Probabilidade

Exemplo 1.6. Se o experimento consiste em medir a vida útil de um carro, então

Definição 1.7. Qualquer subconjunto A do espaço amostral Ω, isto é A ⊂ Ω, ao

Definição 1.8. Dois eventos A e B são ditos mutuamente exclusivos ou incompatí-

Observação 1.9. É importante saber traduzir a notação de conjuntos para a lin-

Definição 1.10. Seja A uma classe de subconjuntos de Ω tendo as seguintes pro-

Exercício 1.1. Seja A uma álgebra. Mostre que:

Definição 1.11. Seja A uma classe de subconjuntos de Ω tendo as seguintes pro-

Proposição 1.12. Seja A uma σ-álgebra de subconjuntos de Ω. Se A1 , A2 , · · · ∈ A

Demonstração. (Em aula.)

Definição 1.13. Os membros de A são chamados (no contexto da teoria de Proba-

Exercício 1.2. Seja Ω = R e A a classe de todas as uniões finitas de intervalos do

Exercício 1.4. Mostre, com exemplo, que se A e B são σ-álgebras, A ∪ B não é

Observação 1.14. Dada uma classe B de subconjuntos de Ω, podemos construir a

Observação 1.15. Podemos construir (ainda que de forma abstrata) a menor

Definição 1.17. A σ−álgebra de Borel é gerada pela coleção de conjuntos abertos

B = σ{(a, b); −∞ ≤ a < b ≤ +∞}

e assim por diante.

Definição 1.18. Seja A uma (σ−)álgebra em Ω. Um membro A de A é dito um

Definição e propriedades das probabilidades Seja Ω um espaço amostral e

Definição 1.20. Um espaço de probabilidade é um trio (Ω, F , P ) onde

Com base nos axiomas de probabilidade, podem-se demonstrar as seguintes pro-

Teorema 1.21. 1. P (∅) = 0.

Demonstração. (Em aula.)

Uma propriedade importante da função probabilidade P é que ela é contínua.

De forma similar se {En , n ≥ 1} é uma seqüência decrescente de eventos, então

Demonstração. (Em aula.)

1.2 Probabilidade Condicional

1.2.1 Definição de Probabilidade Condicional

Exercício 1.6. Certo experimento consiste em lançar um dado equilibrado duas

1.2.2 Regra do Produto

Demonstração. (Em aula.)

Teorema 1.27. (a) P (A ∩ B ∩ C) = P (A).P (B | A).P (C | A ∩ B).

Demonstração. (Em aula.)

1.2.3 Lei da Probabilidade Total

(iii) Ai ∩ Aj = ∅, para todo i 6= j.

Para todo evento B ∈ A temos

Como os Ai são disjuntos, então os Ci = Ai ∩B são disjuntos. Com isto podemos

Teorema 1.29 (Teorema da Probabilidade Total). Seja (A1 , A2 , . . . ) uma par-

Demonstração. (Em aula.)

1.2.4 Fórmula de Bayes

Teorema 1.30 (Fórmula de Bayes). Se a seqüência (finita ou enumerável) de

Demonstração. (Em aula.)

4 republicanos. Um comitê é selecionado aleatoriamente e uma pessoa é selecionada

Definição 1.31. Seja (Ω, F , P ) um espaço de probabilidade. Os eventos alea-

Observação 1.32. Eventos de probabilidade 0 ou 1 são independentes de qualquer

Teorema 1.33. A é independente de si mesmo se e somente se P (A) = 0 ou 1.

Demonstração. (Em aula.)

Teorema 1.34. São equivalentes:

P (Ai ∩ Aj ) = P (Ai).P (Aj )

1.3.2 Eventos Coletivamente Independentes

Exercício 1.15. Seja (Ω, F , P ) um espaço de probabilidade. Considere uma seqüên-

Exercício 1.16. Considere um espaço amostral Ω e uma σ-álgebra F sobre Ω. Se

então P também é uma medida de probabilidade sobre F . Mostre isso.

Exercício 1.17. A σ-álgebra gerada por uma classe de conjuntos C.

(a) σ(C) é uma σ-álgebra.