Você está na página 1de 83

Introdução à Probabilidade

Notas de Aula

Leonardo T. Rolla
Instituto de Matemática Pura e Aplicada

Rio de Janeiro
14 de fevereiro de 2012

c 2012 Leonardo T. Rolla. Texto publicado sob a Licença “Creative Commons Atribuição

CompartilhaIgual 3.0 Brasil”. http://creativecommons.org/licenses/by-sa/3.0/br/deed.pt
Este material é parcialmente baseado no(s) seguinte(s) trabalho(s):
• Nei Rocha. Apostila “Teoria das Probabilidades II”, 2009.
http://www.lce.esalq.usp.br/arquivos/aulas/2011/LCE5806/apos_RJ_ProbabilidadeII.pdf

Trabalhos derivados devem ser distribuídos junto com o código-fonte, observando os termos desta
Licença. Devem fazer atribuição ao presente material, bem como ao(s) trabalho(s) acima citado(s).
Código fonte: bzr branch http://www.impa.br/~leorolla/apostila-intr-prob/ Versão: Date: Tue 2012-02-14 15:28:12 -0200
Sumário

Apresentação v

1 Definições Básicas 1
1.1 Espaços de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Definição de Probabilidade Condicional . . . . . . . . . . . . . 6
1.2.2 Regra do Produto . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.3 Lei da Probabilidade Total . . . . . . . . . . . . . . . . . . . . 6
1.2.4 Fórmula de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Independência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.1 Eventos Independentes 2 a 2 . . . . . . . . . . . . . . . . . . . 8
1.3.2 Eventos Coletivamente Independentes . . . . . . . . . . . . . . 9
1.4 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Variáveis Aleatórias 13
2.1 Definição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Função de Distribuição . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3 Tipos de Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . 15
2.4 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3 Vetores Aleatórios 21
3.1 Independência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2 Função de Distribuição Marginal . . . . . . . . . . . . . . . . . . . . 23
3.3 Tipos de Vetores Aleatórios . . . . . . . . . . . . . . . . . . . . . . . 23
3.4 Método do Jacobiano . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.5 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4 Esperança Matemática 29
4.1 Definição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.1.1 Propriedades da Esperança Matemática . . . . . . . . . . . . . 30
4.2 Esperanças de Funções de Variáveis Aleatórias . . . . . . . . . . . . . 31
4.3 Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

iii
iv SUMÁRIO

4.3.1 Propriedades da Variância . . . . . . . . . . . . . . . . . . . . 32


4.4 Esperanças de Funções de Vetores Aleatórios . . . . . . . . . . . . . . 33
4.5 Esperança Condicional dado um Evento de Probabilidade Positiva . . 35
4.6 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

5 Convergência de Variáveis Aleatórias 39


5.1 Lema de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2 Tipos de Convergência . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.3 Relação entre os Tipos de Convergência . . . . . . . . . . . . . . . . . 44
5.4 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

6 Função Geradora de Momentos e Função Característica 47


6.1 Função Geradora de Momentos . . . . . . . . . . . . . . . . . . . . . 47
6.2 Função Característica . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6.3 A Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . 52
6.4 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

7 Lei dos Grandes Números e Teorema Central do Limite 57


7.1 Leis dos Grandes Números . . . . . . . . . . . . . . . . . . . . . . . . 57
7.2 Teorema Central do Limite . . . . . . . . . . . . . . . . . . . . . . . . 59
7.3 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

8 Distribuição e Esperança Condicionais 61


8.1 Partições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
8.2 Probabilidade Condicional dada uma Partição . . . . . . . . . . . . . 62
8.3 Esperança Condicional dada uma Partição . . . . . . . . . . . . . . . 63
8.4 Esperança Condicional dada uma σ-Álgebra . . . . . . . . . . . . . . 66
8.5 Distribuição Condicional Regular . . . . . . . . . . . . . . . . . . . . 68
8.6 Esperança Condicional dada uma Variável Aleatória . . . . . . . . . . 73
8.7 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
Apresentação

Esta é uma apostila feita a partir de notas de aula das disciplinas Probabilidade do
mestrado em Ciências Atuariais da PUC-Rio ministrada em 2006 e Introdução à
Probabilidade ministrada no verão de 2012 no IMPA.
Este não é um livro-texto nem um livro para consulta. O texto aqui apresentado é
uma versão expandida do conteúdo que foi passado no quadro-negro, além de listas
de exercícios sugeridos. Durante os cursos ministrados, os principais livros-texto
adotados foram o Barry James1 no IMPA e Magalhães2 na PUC-Rio. Alguns dos
exercícios sugeridos são uma simples listagem de exercícios desses dois excelentes
livros.
O único pré-requisito formal é o Cálculo, e o curso não assume que os alunos
tenham qualquer tipo de conhecimento prévio em Probabilidade. Os alunos terão
que aceitar como verdadeiros certos resultados que só serão justificados rigorosa-
mente utilizando Análise ou Teoria da Medida, o que não impede a compreensão
dos objetos probabilísticos estudados.3 Não obstante, para um curso que tem entre
17 a 20 aulas de 2 horas cada e sem pré-requisito formal, trata-se de uma introdu-
ção bastante ampla à teoria da probabilidade, o que só foi possível porque ambos
os cursos foram dados para um conjunto de alunos extremamente motivados e com
excelente desenvoltura matemática.
Esta apostila está em construção. Para que este texto reflita melhor o conteúdo
e a abordagem dos cursos mencionados, são necessárias diversas mudanças, prin-
cipalmente nos primeiros quatro capítulos. Agradeço ao Prof. Nei Rocha, que me
permitiu desenvolver esta apostila a partir do material que ele já havia compilado.
Comentários, críticas e correções são muito bem-vindos.

Rio de Janeiro, fevereiro de 2012.

1
James, B. R. (2004). Probabilidade: Um curso em nível intermediário. Projeto Euclides.
2
Magalhães, M. N. (2004). Probabilidade e variáveis aleatórias. IME-USP.
3
Da mesma forma, aprende-se Cálculo antes de se fazer a demonstração do seu teorema funda-
mental. Da mesma forma, é comum entre matemáticos usar resultados baseados no Lema de Zorn
sem ter entrado nos detalhes da sua demonstração.

v
Capítulo 1

Definições Básicas

1.1 Espaços de Probabilidade


Suponha que vamos realizar um experimento cujo resultado não pode ser predito
de antemão. Entretanto, suponha que saibamos todos os possíveis resultados de
tal experimento. Este conjunto de todos os resultados possíveis, que denotaremos
por Ω, é chamado de espaço amostral do experimento. Assim, temos a seguinte
definição:
Definição 1.1. O conjunto não-vazio Ω de todos os resultados possíveis de um
determinado experimento é chamado de espaço amostral.
Exemplo 1.2. Se o experimento consiste em lançar uma moeda, então Ω = {Ca, Co},
onde Ca é “cara” e Co é “coroa”.
Exemplo 1.3. Se o experimento consiste em lançar um dado e observar a face
superior, então Ω = {1, 2, 3, 4, 5, 6}.
Exemplo 1.4. Se o experimento consiste em lançar duas moedas, então
Ω = {(Ca, Ca), (Ca, Co), (Co, Ca), (Co, Co)}, onde o resultado (a, b) ocorre se a
face da primeira moeda é a e a face da segunda moeda é b.
Exemplo 1.5. Se o experimento consiste em lançar dois dados e observar as faces
superiores, então
 


 (1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6) 



 





(2, 1) (2, 2) (2, 3) (2, 4) (2, 5) (2, 6) 




 

(3, 1) (3, 2) (3, 3) (3, 4) (3, 5) (3, 6)
Ω=


 (4, 1) (4, 2) (4, 3) (4, 4) (4, 5) (4, 6) 



 





(5, 1) (5, 2) (5, 3) (5, 4) (5, 5) (5, 6) 




 

(6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6)
onde o resultado (i, j) ocorre se a face i aparece no primeiro dado e a face j no
segundo dado.

1
2 CAPÍTULO 1. DEFINIÇÕES BÁSICAS

Exemplo 1.6. Se o experimento consiste em medir a vida útil de um carro, então


um possível espaço amostral consiste de todos os números reais não-negativos, isto
é, Ω = [0, ∞).

Definição 1.7. Qualquer subconjunto A do espaço amostral Ω, isto é A ⊂ Ω, ao


qual atribuímos uma probabilidade, é dito um evento aleatório.
Obviamente, como ∅ ⊂ Ω e Ω ⊂ Ω os conjuntos ∅ e Ω são eventos aleatórios.
O conjunto vazio ∅ é denominado evento impossível e o conjunto Ω é denominado
evento certo. Se ω ∈ Ω o evento {ω} é dito elementar (ou simples).

Definição 1.8. Dois eventos A e B são ditos mutuamente exclusivos ou incompatí-


veis se A ∩ B = ∅.

Observação 1.9. É importante saber traduzir a notação de conjuntos para a lin-


guagem de eventos: A ∪ B é o evento “A ou B”; A ∩ B é o evento “A e B” e Ac é o
evento “não A”.

Definição 1.10. Seja A uma classe de subconjuntos de Ω tendo as seguintes pro-


priedades:
(i) Ω ∈ A;
(ii) Se A ∈ A então Ac ∈ A; (a classe é fechada pela complementariedade)
n
(iii) Se A1 , A2 , . . . , An ∈ A então ∪ Ai ∈ A. (a classe é fechada pela união finita)
i=1
Então a classe A de subconjuntos de Ω é chamada uma álgebra.

Exercício 1.1. Seja A uma álgebra. Mostre que:


(a) ∅ ∈ A;
(b) se A e B ∈ A então A − B ∈ A;
n
(b) se A1 , A2 , . . . , An ∈ A então ∩ Ai ∈ A.
i=1

Definição 1.11. Seja A uma classe de subconjuntos de Ω tendo as seguintes pro-


priedades:
(i) Ω ∈ A;
(ii) Se A ∈ A então Ac ∈ A; (a classe é fechada pela complementariedade)

(iii) Se A1 , A2 , · · · ∈ A então ∪ Ai ∈ A. (a classe é fechada pela união infinita
i=1
enumerável)
Então a classe A de subconjuntos de Ω é chamada uma σ-álgebra.

Proposição 1.12. Seja A uma σ-álgebra de subconjuntos de Ω. Se A1 , A2 , · · · ∈ A



então ∩ Ai ∈ A.
i=1

Demonstração. (Em aula.)


1.1. ESPAÇOS DE PROBABILIDADE 3

Definição 1.13. Os membros de A são chamados (no contexto da teoria de Proba-


bilidade) de eventos, ou subconjuntos de Ω A-mensuráveis, ou apenas subconjuntos
mensuráveis de Ω se não houver confusão quanto à σ-álgebra referente. O par (Ω, A)
é dito ser um espaço mensurável.

Exercício 1.2. Seja Ω = R e A a classe de todas as uniões finitas de intervalos do


tipo (−∞, a], (b, c] e (d, ∞). Mostre que
(a) A é uma álgebra;
(b) A não é uma σ-álgebra.

Exercício 1.3. Mostre que toda σ-álgebra é uma álgebra, mas a recíproca não é
verdadeira.

Exercício 1.4. Mostre, com exemplo, que se A e B são σ-álgebras, A ∪ B não é


necessariamente uma σ-álgebra.

Exercício 1.5. Mostre que se A e B são σ-álgebras, A∩B é também uma σ-álgebra.

Observação 1.14. Dada uma classe B de subconjuntos de Ω, podemos construir a


menor álgebra contendo B, da seguinte forma:
(i) Formamos a classe B1 contendo Ω, ∅, A e Ac para todo A ∈ B;
(ii) Formamos a classe B2 de interseções de elementos de B1 ;
(iii) Formamos a classe B3 de uniões finitas de elementos de B2 .
Claramente, B ⊂ B1 ⊂ B2 ⊂ B3 , e pode-se verificar facilmente que B3 é uma
álgebra.

Observação 1.15. Podemos construir (ainda que de forma abstrata) a menor


σ−álgebra contendo uma classe B de subconjuntos de Ω, da seguinte forma: Con-
sidere todas as σ−álgebras contendo B. Denote-as σλ (B), λ ∈ Λ. O conjunto Λ é
não-vazio, pois o conjunto de todos os subconjuntos de Ω é uma σ−álgebra. Então,
a menor σ−álgebra contendo B é dada por

σ(B) = ∩ σλ (B)
λ∈Λ

Exemplo 1.16. Seja Ω = {1, 2, 3, 4, 5, 6}. (a) Construa a menor σ−álgebra de sub-
conjuntos de Ω; (b) Construa a menor σ−álgebra contendo a classe de subconjuntos
de Ω dada por {{1, 2} , {1, 3, 4} , {3, 5}}; (c) Construa a menor σ−álgebra contendo
todos os subconjuntos de Ω (esta σ−álgebra é chamada de conjunto das partes de
Ω, e é denotada por P(Ω)).

Definição 1.17. A σ−álgebra de Borel é gerada pela coleção de conjuntos abertos


de um espaço topológico. Os membros desta σ−álgebra são chamados Borelianos.
As σ−álgebras em Rd , d > 1, e R são geradas por intervalos nestes espaços e
são denotadas por B(Rd ) = Bd e B = B1 = B(R), respectivamente. Por exemplo, se
4 CAPÍTULO 1. DEFINIÇÕES BÁSICAS

Ω = R, B pode ser gerada por quaisquer dos intervalos (a, b), (a, b], [a, b) ou [a, b],
isto é,

B = σ{(a, b); −∞ ≤ a < b ≤ +∞}


= σ{[a, b); −∞ < a < b ≤ +∞}
= σ{[a, b]; −∞ < a < b < +∞}
= σ{(−∞, x]; x ∈ R},

e assim por diante.

Definição 1.18. Seja A uma (σ−)álgebra em Ω. Um membro A de A é dito um


átomo, se A 6= ∅ e se B ⊆ A implica que ou B = ∅ ou B = A. Portanto, átomos são
os membros mais finos de uma (σ−)álgebra.

Exemplo 1.19. Seja Ω = {1, 2, 3, 4, 5, 6} e seja A = {∅, {2}, {1, 3, 4, 5, 6}, {4, 6}, {1, 2, 3, 5},
{1, 3}, {2, 4, 5, 6}, {5}, {1, 2, 3, 4, 6}, {1, 3, 5}, {4, 5, 6}, {1, 3, 4, 6}, {2, 5}, {1, 2, 3}, {2, 4, 6}, Ω}.
Então os átomos associados à A são {2}, {5}, {1, 3} e {4, 6}.

Definição e propriedades das probabilidades Seja Ω um espaço amostral e


A uma σ-álgebra para um dado experimento. Uma medida de probabilidade P é
uma aplicação P : A → [0, 1] satisfazendo os seguintes axiomas:
A1) P (A) ≥ 0.
A2) P (Ω) = 1.
P∞
A3) Se A1 , A2 , · · · ∈ A e Ai ∩ Aj = ∅ ∀i 6= j, então P (∪∞
i=1 Ai ) = i=1 P (Ai ).

Definição 1.20. Um espaço de probabilidade é um trio (Ω, F , P ) onde


1. Ω é um conjunto não-vazio;
2. A é uma σ-álgebra de subconjuntos de Ω;
3. P é uma probabilidade definida em A.

Com base nos axiomas de probabilidade, podem-se demonstrar as seguintes pro-


priedades:

Teorema 1.21. 1. P (∅) = 0.


2. Para todo A ∈ A, temos P (Ac ) = 1 − P (A).
3. Para todo A ∈ A, temos 0 ≤ P (A) ≤ 1.
1.1. ESPAÇOS DE PROBABILIDADE 5

4. Sejam A e B ∈ A. Se A ⊂ B, então
(a) P (B − A) = P (B) − P (A);
(b) P (A) ≤ P (B).
5. Sejam A e B ∈ A. Então P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
  ∞
∞ P
6. Para qualquer seqüência de eventos A1 , A2 , . . . , An ∈ A, P ∪ Ai ≤ P (Ai)
i=1 i=1
(desigualdade de Boole).
7. Sejam A1 , A2 , . . . , An ∈ A. Então
  n
X X X
n
P ∪ Ai = P (Ai) − P (Ai ∩ Aj ) + P (Ai ∩ Aj ∩ Ak )
i=1
i=1 i<j i<j<k
X
− P (Ai ∩ Aj ∩ Ak ∩ Al ) + · · · + (−1)n+1 P (A1 ∩ A2 ∩ · · · ∩ An )
i<j<k<l

Demonstração. (Em aula.)

Uma propriedade importante da função probabilidade P é que ela é contínua.


Para ver isto, definimos antes o que se entende por uma seqüência crescente (decres-
cente) de eventos.
Definição 1.22. Uma seqüência de eventos {En , n ≥ 1} é dita crescente se En ⊂
En+1 , n ≥ 1 e é dita decrescente se En ⊃ En+1 , n ≥ 1.
Se {En , n ≥ 1} é uma seqüência crescente de eventos, então definimos um novo
evento, denotado por limn→∞ En por

lim En = ∪ Ei .
n→∞ i=1

De forma similar se {En , n ≥ 1} é uma seqüência decrescente de eventos, então


definimos limn→∞ En por

lim En = ∩ Ei .
n→∞ i=1
Com isso, podemos mostrar o seguinte teorema.
Teorema 1.23. Se {En , n ≥ 1} é uma seqüência crescente ou decrescente de even-
tos, então
lim P (En ) = P ( lim En ).
n→∞ n→∞

Demonstração. (Em aula.)


Exemplo 1.24. Considere uma população de indivíduos capazes de gerar proles do
mesmo tipo. O número de indivíduos inicialmente presentes, denotado por X0 , é o
tamanho da geração zero. Todos as proles da geração zero constituem a primeira
geração e o seu número é denotado por X1 . Em geral, Xn denota o tamanho da
n-ésima geração. Mostre que limn→∞ P (Xn = 0) existe e interprete o seu significado.
6 CAPÍTULO 1. DEFINIÇÕES BÁSICAS

1.2 Probabilidade Condicional

1.2.1 Definição de Probabilidade Condicional


Definição 1.25. Seja (Ω, A, P ) um espaço de probabilidade. Se B ∈ A e P (B) > 0,
a probabilidade condicional de A dado B é definida por

P (A ∩ B)
P (A | B) = , A ∈ A. (1.1)
P (B)

Exercício 1.6. Certo experimento consiste em lançar um dado equilibrado duas


vezes, independentemente. Dado que os dois números sejam diferentes, qual é a
probabilidade condicional de
(a) pelo menos um dos números ser 6;
(b) a soma dos números ser 8?

1.2.2 Regra do Produto


Teorema 1.26. Sejam A, B ∈ A com P (A) > 0 e P (B) > 0. Então

P (A ∩ B) = P (B).P (A | B)
= P (A).P (B | A)

Demonstração. (Em aula.)

Teorema 1.27. (a) P (A ∩ B ∩ C) = P (A).P (B | A).P (C | A ∩ B).


(b) P (A1 ∩ A2 ∩ · · · ∩ An ) = P (A1 ).P (A2 | A1 ).P (A3 | A1 ∩ A2 ) · · · P (An | A1 ∩
A2 ∩ · · · An−1 ), para todo A1 , A2 , . . . , An ∈ A e para todo n = 2, 3, . . . .

Demonstração. (Em aula.)

1.2.3 Lei da Probabilidade Total


Definição 1.28. Seja (Ω, F ) um espaço mensurável. Uma partição de Ω é uma
família de conjuntos A1 , A2 , . . . , An tais que
(i) Ai ∈ F para todo i,
n
(ii) ∪ Ai = Ω,
i=1

(iii) Ai ∩ Aj = ∅, para todo i 6= j.


Ou seja, os conjuntos A1 , A2 , . . . , An são disjuntos dois a dois e a sua união é o
conjunto Ω. Dizemos também que Ω foi particionado pelos conjuntos A1 , A2 , . . . , An .
1.2. PROBABILIDADE CONDICIONAL 7

Para todo evento B ∈ A temos


n
B = ∪ (Ai ∩ B) .
i=1

Como os Ai são disjuntos, então os Ci = Ai ∩B são disjuntos. Com isto podemos


demonstrar os seguintes teoremas:

Teorema 1.29 (Teorema da Probabilidade Total). Seja (A1 , A2 , . . . ) uma par-


tição de (Ω, F ). Para todo B ∈ F vale
X
P (B) = P (Ai ).P (B | Ai ). (1.2)
i

Demonstração. (Em aula.)

1.2.4 Fórmula de Bayes

Teorema 1.30 (Fórmula de Bayes). Se a seqüência (finita ou enumerável) de


eventos aleatórios A1 , A2 , . . . formar uma partição de Ω, então

P (Ai )P (B | Ai )
P (Ai | B) = P . (1.3)
P (Aj ).P (B | Aj )
j

Demonstração. (Em aula.)

Exercício 1.7. Uma caixa contém 10 bolas das quais 6 são brancas e 4 vermelhas.
Removem-se três bolas sem observar suas cores. Determine:
(a) a probabilidade de que uma quarta bola removida da caixa seja vermelha;
(b) a probabilidade de que as três bolas removidas sejam brancas, sabendo-se
que pelo menos uma delas é branca.

Exercício 1.8. Uma moeda é lançada. Se ocorre cara, um dado é lançado e o seu
resultado é registrado. Se ocorre coroa, dois dados são lançados e a soma dos pontos
é registrada. Qual a probabilidade de ser registrado o número 2?

Exercício 1.9. Num certo certo país, todos os membros de comitê legislativo ou são
comunistas ou são republicanos. Há três comitês. O comitê 1 tem 5 comunistas, o
comitê 2 tem 2 comunistas e 4 republicanos, e o comitê 3 consiste de 3 comunistas e
8 CAPÍTULO 1. DEFINIÇÕES BÁSICAS

4 republicanos. Um comitê é selecionado aleatoriamente e uma pessoa é selecionada


aleatoriamente deste comitê.
(a) Ache a probabilidade de que a pessoa selecionada seja comunista.
(b) Dado que a pessoa selecionada é comunista, qual a probabilidade de ela ter
vindo do comitê 1?

Exercício 1.10. São dadas duas urnas A e B. A urna A contém 1 bola azul e 1
vermelha. A urna B contém 2 bolas vermelhas e 3 azuis. Uma bola é extraída ao
acaso de A e colocada em B. Uma bola então é extraída ao acaso de B. Pergunta-se:
(a) Qual a probabilidade de se retirar uma bola vermelha de B?
(b) Qual a probabilidade de ambas as bolas retiradas serem da mesma cor?

Exercício 1.11. Suponha que temos 4 cofres, cada um com dois compartimentos.
Os cofres 1 e 2 têm um anel de brilhante num compartimento e um anel de esmeralda
no outro. O cofre 3 têm dois anéis de brilhante em seus compartimentos, e o cofre
4 têm dois anéis de esmeralda. Escolhe-se um cofre ao acaso, abre-se um dos com-
partimentos ao acaso e encontra-se um anel de brilhantes. Calcule a probabilidade
de que o outro compartimento contenha:
(a) um anel de esmeralda;
(b) um anel de brilhantes.

1.3 Independência
1.3.1 Eventos Independentes 2 a 2

Definição 1.31. Seja (Ω, F , P ) um espaço de probabilidade. Os eventos alea-


tórios A, B ∈ F são independentes se

P (A ∩ B) = P (A)P (B).

Observação 1.32. Eventos de probabilidade 0 ou 1 são independentes de qualquer


outro.

Teorema 1.33. A é independente de si mesmo se e somente se P (A) = 0 ou 1.

Demonstração. (Em aula.)

Teorema 1.34. São equivalentes:


1. A e B são independentes
1.3. INDEPENDÊNCIA 9

2. A e B c são independentes
3. Ac e B são independentes
4. Ac e B c são independentes
Demonstração. Exercício.
Observação 1.35. Dois eventos disjuntos não podem ser independentes, a menos
que um deles tenha probabilidade zero.

Definição 1.36. Dada uma família de eventos aleatórios (Ai )i∈I , dizemos que
os Ai são independentes dois a dois se

P (Ai ∩ Aj ) = P (Ai).P (Aj )

para todo i, j ∈ I, i 6= j.

1.3.2 Eventos Coletivamente Independentes


Definição 1.37. (a) Os eventos aleatórios A1 , . . . , An (n ≥ 2) são chamados (cole-
tiva ou estocasticamente) independentes se
P (Ai1 ∩ Ai2 ∩ · · · ∩ Aim ) = P (Ai1 ).P (Ai2 ) · · · P (Aim )
para todo 1 ≤ i1 < i2 < · · · < im ≤ n, para todo m = 2, 3, . . . , n (isto é, se todas as
combinações satisfazem a regra produto).
(b) Os eventos aleatórios A1 , A2 , . . . independentes se para todo n ≥ 2, A1 , . . . , An
são independentes.
Observação 1.38. Independência a pares não implica independência coletiva. Con-
forme o exercício a seguir.
Exercício 1.12. Seja Ω = {w1 , w2 , w3 , w4 } e suponha P ({w}) = 1/4 para todo
w ∈ Ω. Sejam os eventos A = {w1 , w4 }, B = {w2 , w4 } e C = {w3 , w4 }. Verifique
que A, B e C são independentes dois a dois, mas
P (A ∩ B ∩ C) 6= P (A).P (B).P (C).
Demonstração. (Em aula.)
Observação 1.39. Toda família de eventos independentes é independente.
Exercício 1.13. Um dado não viciado é lançado uma vez. Se a face que aparece
é ímpar, uma moeda não viciada é lançada repetidas vezes. Se a face é par, uma
moeda com probabilidade p 6= 12 de dar cara é lançada repetidamente. Os sucessivos
lançamentos são independentes. Se os primeiros n lançamentos resultaram em cara,
qual a probabilidade de que a moeda não viciada foi usada?
10 CAPÍTULO 1. DEFINIÇÕES BÁSICAS

1.4 Exercícios
Exercício 1.14. Considere o experimento resultante do lançamento de dois dados
onde se observa o mínimo entre suas faces. Construa um modelo probabilístico
associado.

Exercício 1.15. Seja (Ω, F , P ) um espaço de probabilidade. Considere uma seqüên-


cia de eventos aleatórios (An ) em F . Defina o evento Bm : “o primeiro evento a
ocorrer da seqüência (An ) é Am ”.
1. Expresse Bm em função dos An . Bm é aleatório? Por quê?
2. Os eventos B1 , B2 , . . . , Bm , . . . são disjuntos?
S∞
3. Quem é o evento m=1 Bm ?

Exercício 1.16. Considere um espaço amostral Ω e uma σ-álgebra F sobre Ω. Se


(Pn ) é uma seqüência de medidas de probabilidade sobre F , se (an ) é uma seqüência
P
de números reais não-negativos tal que ∞ n=1 an = 1 e se definirmos


X
P (E) = an Pn (E), E ∈ F,
n=1

então P também é uma medida de probabilidade sobre F . Mostre isso.

Exercício 1.17. A σ-álgebra gerada por uma classe de conjuntos C.


Seja C uma classe de subconjuntos de Ω. Prove que:
1. C ⊆ P(Ω).
2. Dadas duas σ-álgebras F e G, temos que F ∩ G é uma σ-álgebra.
3. Dada uma família qualquer de σ-álgebras {Fi}i∈I , onde I é qualquer conjunto
T
de índices não-vazio, temos que i∈I Fi é uma σ-álgebra.
4. Considere a família de σ-álgebras {F ⊆ P(Ω) : F é σ-álgebra e C ⊆ F }. Esta
família não é vazia.
5. Defina σ(C) como sendo a interseção de todas as σ-álgebras do item anterior.
Então:

(a) σ(C) é uma σ-álgebra.


(b) C ⊆ σ(C).
(c) Dada F σ-álgebra, se C ⊆ F então σ(C) ⊆ F .

6. Não existe outra σ-álgebra satisfazendo as três propriedades acima.


Dizemos que σ(C), assim definida, é a σ-álgebra gerada por C, ou a menor σ-álgebra
que contém C.
1.4. EXERCÍCIOS 11

Exercício 1.18. Prove as propriedades de σ(C) abaixo.


1. Se C ⊆ D então σ(C) ⊆ σ(D).
2. Se A é σ-álgebra então σ(A) = A.
3. Seja f : Ω → Ω′ uma função e C ′ uma classe de subconjuntos de Ω′ . Então
σ(f −1 C ′ ) = f −1 (σ(C ′ )).

Exercício 1.19. Prove que a fórmula de Bayes é valida (use a regra do produto e
a lei da probabilidade total).

Exercício 1.20. Prove que cada um dos itens abaixo é equivalente à definição de
‘A e B independentes’:
1. A e B c são independentes;
2. Ac e B são independentes;
3. Ac e B c são independentes;
4. P (A|B) = P (A);
5. P (B|A) = P (B).

Exercício 1.21. Se P (A) = P (A|B) = 1


4
e P (B|A) = 21 :
1. A e B são independentes?
2. A e B são mutuamente exclusivos?
3. Calcule P (Ac |B c ).

Exercício 1.22. B. James. Capítulo 1. Recomendados: 3, 4, 5, 7, 11, 16, 18, 22.


12 CAPÍTULO 1. DEFINIÇÕES BÁSICAS
Capítulo 2

Variáveis Aleatórias

2.1 Definição
Na realização de um fenômeno aleatório, muitas vezes estamos interessados em uma
ou mais quantidades, que são dadas em função do resultado do fenômeno. A essas
quantidades damos o nome de variáveis aleatórias. Informalmente, uma variável
aleatória é um característico numérico do experimento.
Exemplo 2.1. Sortear 11 cartas do baralho e contar quantas dessas cartas são de
espadas.
Exemplo 2.2. Sortear dois números entre 0 e 1 e considerar o menor deles.
Exemplo 2.3. Joga-se um dado e observa-se a face superior. Nesse caso temos
Ω = {1, 2, 3, 4, 5, 6} e
X(ω) = ω.

Entretanto, nem toda função de Ω em R traduz uma variável aleatória. Para


que ela seja uma variável aleatória, precisamos garantir que todo evento relacionado
à variável aleatória possa ser mensurado. Daí a definição seguinte:

Definição 2.4. Uma variável aleatória X em um espaço de probabilidade


(Ω, A, P ) é uma função real definida no espaço Ω tal que o conjunto
[ω ∈ Ω : X(ω) ≤ x] (daqui para frente escrito de forma simplificada [X ≤ x])
é evento aleatório para todo x ∈ R; isto é,

X:Ω→R

é uma variável aleatória se [X ≤ x] ∈ A para todo x ∈ R.

13
14 CAPÍTULO 2. VARIÁVEIS ALEATÓRIAS

Exemplo 2.5. Sejam Ω = {1, 2, 3, 4} e A = {∅, {1, 2}, {3, 4}, Ω} e considere os
conjuntos A = {1, 2} e B = {1, 3}. Então 1A é variável aleatória em (Ω, A), mas 1B
não é.

2.2 Função de Distribuição


Definição 2.6. A função de distribuição (acumulada) da variável aleatória X, re-
presentada por FX , ou simplesmente por F quando não houver confusão, é definida
por
FX (x) = P (X ≤ x), x ∈ R. (2.1)

Exercício 2.1. Duas moedas honestas são lançadas. Seja a variável X que conta o
número de caras observadas. Construa a função de distribuição da variável aleatória
X e represente-a graficamente.

Exercício 2.2. Seja um experimento que consiste em selecionar um ponto ao acaso


do intervalo [a, b] com a < b. Seja X a variável aleatória que representa a coordenada
do ponto. Construa a função de distribuição da variável aleatória X e represente-a
graficamente.

Proposição 2.7 (Propriedades da Função de Distribuição). Se X é uma variável


aleatória, sua função de distribuição F satisfaz as seguintes propriedades:

1. Se x1 ≤ x2 então F (x1 ) ≤ F (x2 ); isto é, F é não-decrescente.


2. Se xn ↓ y, então F (xn ) ↓ F (y); isto é, F é contínua à direita.
3. limx→−∞ F (x) = 0 e limx→+∞ F (x) = 1.

Demonstração. (Em aula.)

Tendo em mente que FX (x) = P (X ≤ x), podemos observar que


1. P (X > a) = 1 − P (X ≤ a) = 1 − FX (a)
2. P (a < X ≤ b) = P (X ≤ b) − P (X ≤ a) = FX (b) − FX (a)
3. P (X = a) = P (X ≤ a) − P (X < a) = FX (a) − FX (a− ). Ou seja, P (X = a)
é o tamanho do salto da função de distribuição em x = a. Se a função for
contínua no ponto x = a então P (X = a) = 0.
4. P (a < X < b) = P (a < X ≤ b) − P (X = b)
= P (X ≤ b) − P (X ≤ a) − P (X = b) = FX (b) − FX (a) − [FX (b) − FX (b− )]
= FX (b− ) − FX (a).
5. P (a ≤ X < b) = P (a < X < b) + P (X = a)
= FX (b− ) − FX (a) + [FX (a) − FX (a− )] = FX (b− ) − FX (a− ).
2.3. TIPOS DE VARIÁVEIS ALEATÓRIAS 15

6. P (a ≤ X ≤ b) = P (a < X ≤ b) + P (X = a)
= FX (b) − FX (a) + [FX (a) − FX (a− )] = FX (b) − FX (a− ).
Exercício 2.3. Um dado tendencioso é tal que a probabilidade de um ponto é
proporcional ao próprio ponto. Seja X a variável aleatória que representa o número
obtido no lançamento do dado. Pede-se:
(a) A função de distribuição da variável aleatória X, esboçando o seu gráfico.
(b) A probabilidade de ocorrer 5, dado que ocorreu um número ímpar?
(c) A probabilidade de ocorrer um número par, dado que ocorreu um número
menor do que 5?
Exercício 2.4. Seja F (x) a função

0, se x < 0



F (x) = x + 21 , se 0 ≤ x ≤ 1
2


 1, se x > 1
2

Mostre que F é de fato uma função de distribuição e calcule:


(a) P (X > 18 )
(b) P ( 81 < X < 52 )
(c) P (X < 25 | X > 81 )

2.3 Tipos de Variáveis Aleatórias

Definição 2.8. Uma variável aleatória X (assim como sua função de distribuição
FX ) é dita discreta se existe um conjunto enumerável {x1 , x2 , x3 , . . . } ⊆ R tal
que

X
P (X = xn ) = 1.
n=1

Neste caso definimos a função de probabilidade de uma variável aleatória contínua


como
pX (x) = P (X = x).

Note que, se X é discreta assumindo valores em {x1 , x2 , x3 , . . . }, temos P (X ∈


{x1 , x2 , . . . }) = 1 e P (X 6∈ {x1 , x2 , . . . }) = 0. No tratamento de variáveis aleatórias
discretas, tudo pode ser feito em termos de somatórios. A função de distribuição de
uma variável aleatória discreta é dada por
X X
FX (x) = P (X = xn ) = PX (xn ).
n:xn ≤x n:xn ≤x
16 CAPÍTULO 2. VARIÁVEIS ALEATÓRIAS

Observação 2.9. Reciprocamente, dada p(·) satisfazendo

p(x) ≥ 0, ∀x∈R (2.2)

e X
p(x) = 1, (2.3)
x∈R

existe uma variável aleatória com função de probabilidade dada por p.

Exercício 2.5. A probabilidade de um indivíduo acertar um alvo é 2/3. Ele deve


atirar até atingir o alvo pela primeira vez. Seja X a variável aleatória que representa
o número de tentativas até que ele acerte o alvo. Pede-se:
(a) A função de probabilidade de X, mostrando que ela atende as propriedades
(2.2) e (2.3).
(b) A probabilidade de serem necessários cinco tiros para que ele acerte o alvo.

Exercício 2.6. Seja X uma variável aleatória com função de probabilidade


P (X = x) = cx2 , onde c é uma constante e k = 1, 2, 3, 4, 5. Calcule F (x) e
P (X ser ímpar).

Exercício 2.7. Seja X o número de caras obtidas em 4 lançamentos de uma mo-


eda honesta. Construa a função de probabilidade e a função de distribuição de X
esboçando os seus gráficos.

Definição 2.10. Uma variável aleatória X e sua função de distribuição FX são ditas
contínuas se P (X = a) = 0 para todo a ∈ R, ou seja, se FX for contínua no sentido
usual.

Definição 2.11. Uma variável aleatória X (assim como sua função de distri-
buição FX ) é dita absolutamente contínua se existe fX (·) ≥ 0 tal que
Z t
FX (t) = fX (s)ds.
−∞

Neste caso, dizemos que fX é a função de densidade de probabilidade de X, ou


simplesmente densidade de X.

Observação 2.12. Pelo Teorema Fundamental do Cálculo, observe que

dFX (x)
fX (x) = .
dx
Observação 2.13. Como FX (x) é contínua, observe que
2.3. TIPOS DE VARIÁVEIS ALEATÓRIAS 17

1. P (X = x) = FX (x) − FX (x− ) = 0 para todo x ∈ R.


2. P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b) =
Rb
a fX (x)dx.

3. dFX (x) = fX (x)dx.

Exercício 2.8. Verifique que





0, z < 0,



z 2 , 0 ≤ z < 12 ,
FZ (z) = 
1 − 3(1 − z) , ≤ z < 1,
 2 1
 2



1, z≥1

é uma função de distribuição e obtenha a função de densidade de Z. Calcule também


P (Z > 14 |Z ≤ 34 ).

Exercício 2.9. Verifique que



0, y < 0




FY (y) = y, 0 ≤ y ≤ 1


 1, y > 1

é uma função de distribuição e calcule a função de densidade de Y . Use-a para


calcular P ( 14 < Y < 43 ).

Definição 2.14. Uma variável aleatória X é dita mista se tem partes nas diferentes
classificações (parte discreta e parte contínua).

Exercício 2.10. (Exemplo de Variável Aleatória Mista: Discreta e Contínua ao


mesmo tempo) A função de distribuição de uma variável aleatória X é dada por:

0, x < 0





x
2


, 0≤x<1
FX (x) = 2
3
, 1≤x<2



 11
, 2≤x<3

 12


1, x ≥ 3

Obtenha:
(a) o gráfico de FX (x);
(b) P (X < 3);
(c) P (X = 1);
(d) P (X > 1/2);
(e) P (2 < X < 4).
18 CAPÍTULO 2. VARIÁVEIS ALEATÓRIAS

Exercício 2.11. Seja X uma variável com função de distribuição



0, x < −2



FX (x) = 1
4
+ x+2
8
, −2≤x<0


 3 + 1 (1 − e−x ), x ≥ 0
4 4

(a) Classifique X e faça um gráfico de F.


(b) Calcule P (X > −1) e P (X ≤ 4|X > 0).
(c) Decomponha F nas partes discreta e absolutamente contínua.

Exercício 2.12. Mostre que se X é uma variável aleatória do tipo contínuo com
função de densidade par, ou seja, simétrica em torno de x = 0, isto é, fX (x) =
fX (−x), então:
(a) FX (x) = 1 − FX (−x);
(b) FX (0) = 21 ;
(c) P (−x < X < x) = 2FX (x) − 1, x > 0;
Rx
(d) P (X > x) = 1
2
− 0 fX (t)dt, x > 0.

Exercício 2.13. Suponha que X seja uma variável aleatória com f.d.p. dada por
1
fX (x) = , −∞<x<∞
2(1 + |x|)2
(a) Obtenha a função de distribuição de X.
(b) Ache P (−1 < X < 2).
(c) Ache P (|X| > 1).

Exercício 2.14. Z é uma variável aleatória contínua com função de densidade de


probabilidade (
10e−10z , z > 0
fZ (z) =
0, z ≤ 0
Obtenha a função de distribuição de Z e esboce o seu gráfico.

2.4 Exercícios
Exercício 2.15. Prove as propriedades de uma função de distribuição

Exercício 2.16. Prove que P (X = a) = 0 se e somente se FX é contínua em a.

Exercício 2.17. Prove que (R, B), juntamente com PX , formam um espaço de
probabilidade, i.e., prove que PX é uma medida de probabilidade.

Exercício 2.18. Se p(n) = p(1 − p)n−1 , n = 1, 2, 3, . . . , mostre que p(·) é função de


probabilidade e determine a função de distribuição acumulada.
2.4. EXERCÍCIOS 19

Exercício 2.19. Seja X uma variável aleatória definida em (Ω, F , P ). Considere o


seguinte truncamento de X:


X, |X| ≤ A,


Y = A, X > A,



−A, X < −A,

onde A é um número positivo.


Mostre que Y é uma variável aleatória em (Ω, F , P ).

Exercício 2.20. Mostre que, se duas variáveis aleatórias X e Y são iguais quase
certamente – isto é, P (X = Y ) = 1 – então FX = FY .

Exercício 2.21. Encontre os valores das constantes reais α e β de modo que a


função F abaixo seja função de distribuição acumulada de alguma variável aleatória
definida em algum espaço de probabilidade:

0, x ≤ 0,
F (x) =
α + βe−x2 /2 , x > 0.

Exercício 2.22. Mostre que a função de probabilidade do modelo de Poisson é de


fato uma função de probabilidade.

Exercício 2.23. Perda de memória do modelo geométrico.


1. Mostre que P (X ≥ m + n|X > n) = P (X ≥ m) para inteiros não-negativos,
se X segue o modelo geométrico.
2. Se X segue o modelo geométrico, prove que a distribuição de X dado que
X > n é igual à distribuição de X + n.

Exercício 2.24. Mostre que a densidade do modelo uniforme contínuo é de fato


uma função de densidade.

Exercício 2.25. Mostre que a distribuição do modelo exponencial é de fato uma


distribuição. Calcule a densidade associada.

Exercício 2.26. Perda de memória do modelo exponencial.


1. Mostre que P (X > t + s|X > s) = P (X > t) para t, s ≥ 0 se X tem
distribuição exponencial.
2. Mostre que a distribuição de X dado que X > s é igual à distribuição de X +s.

Exercício 2.27. B. James. Capítulo 2. Recomendados: 1, 5, 6, 7, 9, 10, 13, 14.


20 CAPÍTULO 2. VARIÁVEIS ALEATÓRIAS
Capítulo 3

Vetores Aleatórios

Definição 3.1. Um vetor X = (X1 , . . . , Xn ) com Xi variáveis aleatórias definidas


no mesmo espaço de probabilidade (Ω, A, P ) é chamado vetor aleatório se

X−1 (B) ∈ A para todo B ∈ Bn .

Definição 3.2. A função de distribuição conjunta F = FX de um vetor aleatório


X é definida por

FX (x) = FX (x1 , . . . , xn ) = P (X1 ≤ x1 , . . . , Xn ≤ xn ).


n
T
Observação 3.3. {X1 ≤ x1 , . . . , Xn ≤ xn } = {ω : Xi (ω) ≤ xi } ∈ A.
i=1

Proposição 3.4 (Propriedades da Função de Distribuição Conjunta). Se X é um


vetor aleatório em (Ω, A, P ), então para qualquer x ∈ Rn , sua função de distribuição
F goza das seguintes propriedades:
F1) F (x) é não-decrescente em cada uma de suas coordenadas.
F2) F (x) é contínua à direita em cada uma de suas coordenadas.
F3) Se para algum j, xj → −∞, então F (x) → 0 e, ainda, se para todo j, xj →
+∞, então F (x) → 1.
F4) F (x) é tal que para todo ai , bi ∈ R, ai < bi , 1 ≤ i ≤ n, temos

P {a1 < X1 ≤ b1 , a2 < X2 ≤ b2 , . . . , an < Xn ≤ bn } ≥ 0.

Demonstração. (Em aula.)


Observação 3.5. A propriedade F4 parece tão óbvia que poderíamos questionar a
necessidade de mencioná-la. No caso unidimensional ela não é necessária, mas no
caso multi-dimensional ela é essencial, pois há funções que atendem as propriedades
F1, F2 e F3 que não são funções de distribuições de nenhum vetor aleatório, conforme
o exemplo abaixo.

21
22 CAPÍTULO 3. VETORES ALEATÓRIOS

Exemplo 3.6. Considere a seguinte função:


(
1, em S = {(x, y) : x ≥ 0, y ≥ 0 e x + y ≥ 1}
F (x, y) =
0, caso contrário

Então F (x, y) satisfaz F1, F2 e F3, mas P {0 < X ≤ 1, 0 < Y ≤ 1} = −1 < 0! Logo
F (x, y) não satisfaz F4 e, portanto, não pode ser função de distribuição conjunta.

Exemplo 3.7. Sejam X e Y duas variáveis aleatórias com função de distribuição


conjunta FX,Y (x, y). Mostre que

P {a < X ≤ b, c < Y ≤ d} = F (b, d) − F (b, c) − F (a, d) + F (a, c).

3.1 Independência

Definição 3.8. Dizemos que as variáveis aleatórias X1 , X2 , . . . , Xn , definidas


em um espaço de probabilidade (Ω, F , P ), são coletivamente independentes, ou
simplesmente independentes, se
n
Y
P {X1 ∈ B1 , X2 ∈ B2 , . . . , Xn ∈ Bn } = P {Xi ∈ Bi }
i=1

para todo Bi ∈ A, i = 1, 2, . . . , n.

Observação 3.9. (i) (Propriedade de Hereditariedade de Variáveis Aleatórias In-


dependentes) Observe que para toda família de variáveis aleatórias independentes
X1 , X2 , . . . , Xn qualquer subfamília é também formada por variáveis aleatórias in-
dependentes, pois, por exemplo

P {X1 ∈ B1 , X2 ∈ B2 } = P {X1 ∈ B1 , X2 ∈ B2 , X3 ∈ R, . . . , Xn ∈ R}
= P {X1 ∈ B1 } P {X2 ∈ B2 } P {X3 ∈ R} . . . P {Xn ∈ R}
= P {X1 ∈ B1 } P {X2 ∈ B2 } .1 . . . 1
= P {X1 ∈ B1 } P {X2 ∈ B2 }

(ii) Se as variáveis aleatórias X1 , X2 , . . . , Xn são independentes, então funções de


famílias disjuntas das variáveis são também independentes. Por exemplo:
(a) X1 + X2 + X3 e e−X4 são independentes.
(b) min(X1 , X2 ) e max(X3 , X4 ) são independentes.
(c) X1 .X2 e X2 + X3 não são necessariamente independentes!
3.2. FUNÇÃO DE DISTRIBUIÇÃO MARGINAL 23

A proposição a seguir nos fornece o critério para independência de variáveis alea-


tórias a partir da função de distribuição conjunta. Trata-se do critério de fatoração.

Proposição 3.10. São equivalentes:


1. X1 , X2 , . . . , Xn são independentes.
2. FX (t) = FX1 (t1 )FX2 (t2 ) · · · FXn (tn ) para todo t ∈ Rn .
3. FX pode ser escrita como FX (t) = F1 (t1 )F2 (t2 ) · · · Fn (tn ) com F1 , . . . , Fn fun-
ções reais.

Demonstração. (Em aula.)

3.2 Função de Distribuição Marginal


A partir da função de distribuição conjunta, pode-se obter o comportamento de
cada variável isoladamente. A função de distribuição individualizada é denominada
função de distribuição marginal e é obtida da seguinte forma:

FXk (xk ) = xlim


→∞
F (x)
i
i6=k

em que o limite é aplicado em todas as coordenadas, exceto k.

Demonstração. (Em aula.)

3.3 Tipos de Vetores Aleatórios

Definição 3.11. Um vetor aleatório X (assim como sua função de distribui-


ção FX ) é dito discreto se existem {x1 , x2 , . . . } tais que P (X ∈ {x1 , x2 , . . . }) = 1.
Neste caso, a função de probabilidade conjunta de X é dada por

pX (x) = P (X = x) .

Um vetor aleatório X é discreto se e somente se suas coordenadas X1 , . . . , Xn são


discretas. Qualquer função p(·) satisfazendo

p(x) ≥ 0, ∀ x ∈ Rn

e X
p(x) = 1
x
24 CAPÍTULO 3. VETORES ALEATÓRIOS

é função de probabilidade conjunta de algum vetor aleatório X em algum espaço


(Ω, F , P ).
A função de probabilidade marginal de uma variável, digamos Xk , é obtida a
partir da conjunta, somando-se os valores possíveis em todas as coordenadas, exceto
em k, isto é,
n X
X
pXk (xk ) = P (Xk = xk ) = p(x).
i=1 xi
i6=k

Exemplo 3.12. Duas moedas equilibradas são lançadas de forma independente e


definimos as variáveis aleatórias X e Y da seguinte forma: X = número de caras
nos dois lançamentos e Y = função indicadora de faces iguais nos dois lançamentos.
Obtenha a função de probabilidade conjunta de X e Y e as funções de probabilidade
marginais de X e de Y .

Definição 3.13. Um vetor aleatório X (assim como sua função de distribuição


FX ) é dito absolutamente contínuo se existe fX (·) ≥ 0 tal que
Z t1 Z tn
FX (t) = ··· fX (s1 , . . . , sn )dtn · · · dt1 .
−∞ −∞

Neste caso, dizemos que fX é a função de densidade conjunta de X, ou simples-


mente densidade de X.

Se um vetor aleatório X é absolutamente contínuo, então suas coordenadas


X1 , . . . , Xn são absolutamente contínuas (não vale a recíproca!). Qualquer f (·) sa-
tisfazendo
f (x) ≥ 0, ∀ x ∈ Rn
e Z
f (x)dn x = 1
Rn
é densidade de algum vetor aleatório X.
A densidade de uma variável Xi é chamada densidade marginal, e pode ser
calculada por
Z +∞ Z +∞
fXi = ··· f (x1 , . . . , xi , . . . , xn dx1 · · · dxn .
−∞ −∞ | {z }
| {z } exceto xi
n−1 vezes

A função de densidade conjunta fX pode ser calculada por


∂n
fX (x) = FX (x1 , . . . , xn ).
∂x1 · · · ∂xn
3.4. MÉTODO DO JACOBIANO 25

Exemplo 3.14. Seja G ∈ Rn uma região tal que Vol G > 0, onde Vol G é o volume
n-dimensional de G. Dizemos que X = (X1 , X2 , . . . , Xn ) com função de densidade

 1
, (x1 , . . . , xn ) ∈ G
fX (x1 , . . . , xn ) = Vol G
0, (x1 , . . . , xn ) ∈
/G

é uniformemente distribuído em G.

Exercício 3.1. Sejam três variáveis aleatórias X, Y e Z com função de densidade


conjunta dada por
( √
kxy 2 z, se 0 < x ≤ 1, 0 < y ≤ 1 e 0 < z ≤ 2
f (x, y, z) =
0, caso contrário

Encontre o valor de k e ache a função de densidade marginal de X.

Critério de independência Se X é discreta então X1 , . . . , Xn são independentes


se, e somente se,

pX (x1 , . . . , xn ) = p1 (x1 ) · · · pn (xn ) ∀ x1 , . . . , xn ∈ R

para funções reais p1 , . . . , pn . Neste caso, uma outra decomposição possível sempre
é
pX (x1 , . . . , xn ) = pX1 (x1 ) · · · pXn (xn ).
Se X é absolutamente contínua então X1 , . . . , Xn são independentes se, e somente
se,
fX (x1 , . . . , xn ) = f1 (x1 ) · · · fn (xn ) ∀ x1 , . . . , xn ∈ R
para funções reais f1 , . . . , fn . Neste caso, uma outra decomposição possível sempre
é
fX (x1 , . . . , xn ) = fX1 (x1 ) · · · fXn (xn ).

3.4 Método do Jacobiano


Sejam G0 ⊂ Rn e G ⊂ Rn duas regiões abertas e seja g : G0 → G uma função
bijetora onde

g(x1 , . . . , xn ) = (g1 (x1 , x2 , . . . , xn ), . . . , gn (x1 , x2 , . . . , xn )) = (y1 , . . . , yn ).

Então existe a função inversa h = g −1 en G, onde

x1 = h1 (y1 , . . . , yn ), . . . , xn = hn (y1 , . . . , yn ).
26 CAPÍTULO 3. VETORES ALEATÓRIOS

Suponha também que existam as derivadas parciais

∂xi ∂hi (y1 , . . . , yn )


= , 1 ≤ i, j ≤ n,
∂yj ∂yj

e que elas sejam contínuas em G. Definimos o jacobiano J(x, y) pelo determinante


 
∂x1 ∂x1
! ∂y1
··· ∂yn
∂xi  
J(x, y) =
= det  .
 .. .. .. 


. . 
∂yj 
∂xn ∂xn

∂y1
··· ∂yn

Pelo cálculo de várias variáveis, sabemos que se o jacobiano for não-nulo para todo
y ∈ G, então
Z Z Z Z
. . . f (x1 . . . , xn )dx1 . . . dxn = . . . f (h1 (y1 , . . . , yn ) . . . , hn (y1 , . . . , yn )) |J(x, y)| dy1 . . . dyn
A g(A)

para qualquer f integrável em A, onde A ⊂ G0 . Com isso, no contexto de probabili-


dade, temos o seguinte teorema:

Teorema 3.15. Sejam Y1 , Y2 , . . . , Yn variáveis aleatórias transformadas, isto é, Yi =


gi (X1 , X2 , . . . , Xn ) para i = 1, 2, . . . , n. Então a densidade conjunta de Y1 , Y2 , . . . , Yn
é
(
fX (h1 (y1 , . . . , yn ) . . . , hn (y1 , . . . , yn )) |J(x, y)| , y ∈ G
fY (y1 . . . , yn ) =
0, y ∈ /G

onde fX é a função de densidade conjunta de X.

Demonstração. (Em aula.)

Exemplo 3.16. Sejam X e Y variáveis aleatórias independentes, cada uma com


distribuição exponencial com parâmetro 1, mostre que Z = X + Y e W = X
Y
são
também independentes com densidades
(
ze−z , z > 0
fZ (z) =
0, z ≤ 0
e ( 1
(w+1)2
,
w>0
fW (w) = .
0, w ≤ 0

Observação 3.17. Seja a função g : Rn → Rk com k < n. Então g não é bijetora.


Então para obtermos a distribuição de Y = g(X), basta:
(a) Completar a transformação g através de variáveis auxiliares convenientes:
Yk+1 = gk+1 (X), . . . , Yn = gn (X).
3.5. EXERCÍCIOS 27

(b) Obter a conjunta de Y1 , Y2, . . . , Yn usando o método do jacobiano fY (y1 . . . , yn ) =


f (h1 (y1 , . . . , yn ) . . . , hn (y1 , . . . , yn )) |J(x, y)|.
(c) Obter a marginal conjunta de Y1 , Y2 , . . . , Yk como
Z ∞ Z ∞
... fY (y1 . . . , yn )dyk+1 . . . dyn .
−∞ −∞

Exemplo 3.18. A função de densidade conjunta de X e Y é dada por


1
fX,Y (x, y) = (x + y)1(0,2] (x)1(0,1] (y).
3
Mostre que a densidade de Z = X + Y é dada por
 z2


 3
, 0≤z<1

 z
, 1≤z<2
fZ (z) = 3
z(3−z)


 3
, 2≤z≤ 3


0, caso contrário
Exemplo 3.19. (Jacobiano sem bijeção) Seja X uma variável contínua com densi-
dade fX (x) = 12 e−|x| , −∞ < x < ∞. Mostre que a densidade de Y = X 2 é dada
por
1 √
fY (y) = √ e− y 1(0,∞) (y).
2 y
Exemplo 3.20. Seja X uma variável contínua com densidade uniforme em [−2, 5].
Encontre a densidade de Y = X 2 .
Exemplo 3.21. Seja X uma variável contínua com densidade




1
4
x, 0 ≤ x < 2
fX (x) = 1
8
, 2≤x≤6


 0, caso contrário
(a) Determine a função de distribuição de Y = min(3, X).
(b) Faça a decomposição de FY nas suas partes discreta, contínua e singular.

3.5 Exercícios
Exercício 3.2. Sejam X e Y variáveis aleatórias definidas no mesmo espaço de pro-
babilidade, independentes, discretas e com distribuições Poisson(λ1 ) e Poisson(λ2 ),
respectivamente. Mostre que, dada a ocorrência do evento X + Y = n, a probabili-
dade condicional de X = k é
! !k !n−k
n λ1 λ2
P (X = k|X + Y = n) = .
k λ1 + λ2 λ1 + λ2
Como você interpretaria isso com seus conhecimentos prévios do cálculo das proba-
bilidades?
28 CAPÍTULO 3. VETORES ALEATÓRIOS

Exercício 3.3. 1. Considere um vetor aleatório (X, Y ) absolutamente contínuo


com distribuição uniforme em
n o
A = (x, y) ∈ R2 : 0 < y < x e x + y < 1 .

Encontre FX,Y .
2. Considere um vetor aleatório (Z, W ) absolutamente contínuo com densidade

c, 0 < z < 1, 0 < w < z,
fZ,W (z, w) =
0, caso contrário.

Encontre FZ,W .
Exercício 3.4. Mostre por indução finita que, se X1 , X2 , . . . , Xn são variáveis ale-
atórias independentes com Xi ∼ b(mi , p), i = 1, 2, . . . , n, então
n n
!
X X
Xi ∼ b mi , p .
i=1 i=1
Pn     
a b a+b
Dica: k=0 k n−k
= n
.
Exercício 3.5. Seja X uma variável aleatória em (Ω, F , P ) com distribuição expo-
nencial de parâmetro λ > 0. Considere a transformada N = ⌊X⌋ (o maior inteiro
menor ou igual a X). Mostre que N é uma variável aleatória em (Ω, F , P ) e ache
sua lei.
Exercício 3.6. Sejam Y e U duas variáveis aleatórias em um mesmo espaço de
probabilidade, independentes e com leis Y ∼ N (0, 1) e P (U = −1) = P (U = +1) =
1
2
. Ache a lei de Z = UY . (Dica: ataque a função de distribuição acumulada).
Exercício 3.7. Sejam X e Y i.i.d. contínuas com densidade f . Mostre que
Z
fX+Y (t) = f (t − s)f (s)ds ∀ t ∈ R.
R

Sugestão: faça Z = X + Y e W = Y , calcule a densidade conjunta de Z e W e


depois a marginal.
Exercício 3.8. Sejam X e Y i.i.d discretas com função de probabilidade p. Mostre
que X
pX+Y (t) = p(t − s)p(s).
s

Sugestão: Considere a partição {[Y = s] : s ∈ {x1 , x2 , x3 , . . . }}, onde {x1 , x2 , x3 , . . . }


é o conjunto dos valores que X (ou Y ) assume.
Exercício 3.9. B. James. Capítulo 2. Recomendados: 2, 17, 18, 21, 30, 33, 34, 41,
46.
Capítulo 4

Esperança Matemática

4.1 Definição
Definição 4.1. Seja X uma variável aleatória com função de distribuição FX . A
esperança de X, denotada E(X), é definida como
Z ∞
E(X) = xdFX (x) (4.1)
−∞

quando a integral está bem definida.

Observação 4.2. (a) ϕ(x) = x é contínua. A integral (4.1) é de Riemann-Stieltjes.


R
(b) A esperança está bem definida se pelo menos uma das integrais 0∞ xdFX (x)
R0
ou −∞ xdFX (x) for finita.
R R0
(c) Se ambas as integrais 0∞ xdFX (x) e −∞ xdFX (x) forem finitas, dizemos que
X é integrável, ou seja, X é integrável se
Z ∞
E(|X|) = |x| dFX (x) < ∞.
−∞

(d) Se X é uma variável aleatória discreta tomando valores no conjunto {x1 , x2 , x3 , . . . }


e com função de probabilidade p(xi ) = P (X = xi ), então

X
E(X) = xi p(xi ).
i=1

(e) Se X é uma variável aleatória contínua com função de densidade de probabilidade


fX (x), então Z ∞
E(X) = xfX (x)dx
−∞

(f) Se X é tal que sua função de distribuição se decompõe F = Fd + Fac + Fs ,


então ∞ Z ∞ Z ∞
X
E(X) = xi p(xi ) + xfX (x)dx + xdFs (x).
i=1 −∞ −∞

29
30 CAPÍTULO 4. ESPERANÇA MATEMÁTICA

Exercício 4.1. Um dado é lançado sucessivamente, até que a face 6 ocorra pela
primeira vez. Seja X a variável que conta o número de lançamentos até a ocorrência
do primeiro 6. Calcule a esperança de X.
Exercício 4.2. Suponha que X seja uma variável aleatória com f.d.p. dada por
(
C(9 − x2 ), − 3 ≤ x ≤ 3
f (x) =
0, caso contrário
(a) Obtenha o valor de C.
(b) Obtenha a esperança de X.
(c) Ache P (|X| ≤ 1).

4.1.1 Propriedades da Esperança Matemática


1. E(C) = C, onde C é uma constante.
2. Se a ≤ X ≤ b, então a ≤ E(X) ≤ b.
3. E(aX ± b) = aE(X) ± b.
4. E[X − E(X)] = 0.
5. Se X ≤ Y , então E(X) ≤ E(Y ).
6. Se X é uma variável aleatória tal que 0 ≤ |X| ≤ Y , onde Y é variável aleatória
integrável, então X é integrável.
Exercício 4.3. Seja X uma variável aleatória simétrica em torno de µ, isto é,
P {X ≥ µ + x} = P {X ≤ µ − x} para todo x ∈ R. Mostre que se X é integrável,
então E(X) = µ.
Observe pelo exercício seguinte, que sem a hipótese de integrabilidade, o resul-
tado não se verifica, pois:
Exercício 4.4. Seja X uma variável aleatória Cauchy com parâmetros M e b, isto
é, a densidade de X é dada por
b
f (x) =
π[b2 + (x − M)2 ]
para todo x ∈ R, b > 0 e M ∈ R. Mostre que M é ponto de simetria de X, mas
E(X) não existe.
Exercício 4.5. Sejam X e Y variáveis aleatórias independentes com distribuição
uniforme em [0, 1]. Sejam Z = min(X, Y ) e W = max(X, Y ). Calcule E(Z) e
E(W ).
Proposição 4.3. (Desigualdade de Jensen) Seja ϕ uma função convexa definida na
reta. Se a variável aleatória X é integrável, então

E[ϕ(X)] ≥ ϕ[E(X)].
4.2. ESPERANÇAS DE FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 31

Demonstração. (Em aula.)

Observação 4.4. Se ϕ é uma função côncava, então E[ϕ(X)] ≤ ϕ[E(X)]. (Mostre


isso!)

Exemplo 4.5. Pela desigualdade de Jensen, temos, por exemplo, que


(a) E [|X|] ≥ |E(X)|.
(b) E(X 2 ) ≥ E 2 (X).
p p p
(c) E |X|
  ≥ (E |X|) ≥ |EX| . onde p ≥ 1.
(d) E X1 ≥ EX 1
.

4.2 Esperanças de Funções de Variáveis Aleató-


rias
Definição 4.6. Seja X uma variável aleatória e φ(x) uma função real mensurável.
Então a esperança da variável aleatória Y = φ(X) é dada por
Z ∞
E(Y ) = ydFφ(X) (y).
−∞

A fórmula acima nem sempre é muito fácil de ser usada, pois devemos obter
a distribuição de Y a partir da distribuição da variável X e só então obter E(Y ).
No entanto é possível mostrar pela Teoria da Medida que a esperança da variável
aleatória Y = φ(X) é dada por
Z ∞ Z ∞
Eφ(X) = ydFφ(X) (y) = φ(x)dFX (x),
−∞ −∞

sendo que φ(X) será integrável em (Ω, F , P ) se e somente se φ for integrável em


(R, B, dFX ). Assim,

X
E[φ(X)] = φ(xi )p(xi ) (se X é discreta)
i=1
Z ∞
E[φ(X)] = φ(x)fX (x)dx (se X é contínua)
−∞

4.3 Momentos
Definição 4.7. Seja X uma variável aleatória. Define-se o k-ésimo momento ordi-
nário da variável aleatória X, mk , como
Z ∞
mk = E(X k ) = xk dFX (x).
−∞
32 CAPÍTULO 4. ESPERANÇA MATEMÁTICA

Assim,

X
mk = xki P (X = xi ) se X é v.a.d.
i=1
Z ∞
mk = xk fX (x)dx se X é v.a.c.
−∞

Definição 4.8. Seja X uma variável aleatória. Define-se o k-ésimo momento central
da variável aleatória X, Mk , como

Mk = E[(X − E(X))k ].

Assim,

X
Mk = [xi − E(X)]k P (X = xi ) se X é v.a.d.
i=1
Z ∞
Mk = [x − E(X)]k fX (x)dx se X é v.a.c.
−∞

Definição 4.9. Seja X uma variável aleatória. Define-se a variância da variável


aleatória X, denotada por V X ou σX
2
, como

V X = E[(X − E(X))2 ].

Observação 4.10. Observe que V X = E[(X − E(X))2 ] = E[X 2 − 2XE(X) +


E 2 (X)] = E[X 2 ] − 2E 2 (X) + E 2 (X) = E(X 2 ) − E 2 (X).

4.3.1 Propriedades da Variância


1. V C = 0, onde C é uma constante.
2. V (aX ± b) = a2 V X.

Definição 4.11. Define-se o desvio-padrão da variável aleatória X, denotado por


DP (X) ou σX , como √
DP (X) = V X.

Observação 4.12. Pelas definições acima, vemos que

m1 = E(X)
M1 = 0
M2 = V X = m2 − m21 .

Proposição 4.13. (Desigualdade básica de Markov) Seja X uma variável aleatória


não-negativa e seja λ > 0 uma constante. Então
E(X)
P (X ≥ λ) ≤ .
λ
4.4. ESPERANÇAS DE FUNÇÕES DE VETORES ALEATÓRIOS 33

Demonstração. Em aula.
Proposição 4.14. (Desigualdade de Markov) Seja X uma variável aleatória qual-
quer e seja λ > 0 uma constante. Então para todo t > 0,
E |X|t
P (|X| ≥ λ) ≤ .
λt
Demonstração. Em aula.
Proposição 4.15. (Desigualdade Clássica de Chebyshev) Seja X uma variável ale-
atória integrável e seja λ > 0 uma constante. Então
VX
P (|X − E(X)| ≥ λ) ≤ .
λ2
Demonstração. Em aula.
Exercício 4.6. Suponha que X seja uma variável aleatória tal que P (X ≥ 0) = 1
e P (X ≥ 10) = 15 . Mostre que E(X) ≥ 2.
Exercício 4.7. Suponha que X seja uma variável aleatória tal que E(X) = 10,
P (X ≤ 7) = 0, 2 e P (X ≥ 13) = 0, 3. Prove que V X ≥ 29 .
Proposição 4.16. Se Z ≥ 0 e EZ = 0, então P {Z = 0} = 1, ou seja, Z = 0 quase
certamente.
Demonstração. Em aula.
Observação 4.17. A proposição acima implica que, quando V X = 0, então X é
constante quase certamente, pois P {X = EX} = 1.

4.4 Esperanças de Funções de Vetores Aleatórios


Teorema 4.18. Seja X = (X1 , X2 , . . . , Xn ) um vetor aleatório em (Ω, A, P ) e φ :
Rn → R mensurável a Borel. Então
Z ∞ Z ∞ Z ∞
Eφ(X) = ydFφ(X) (y) = ... φ(x)dFX (x)
−∞ −∞ −∞

onde a última integral é uma integral n-dimensional de Stieltjes.


Demonstração. (Teoria da Medida)
Observação 4.19. (i) Se X for discreto tomando valores em {x1 , x2 , . . . } temos

X
Eφ(X) = φ(xi )pX (xi ).
i=1

(ii) Se X for contínuo com densidade fX (x) temos


Z ∞ Z ∞
Eφ(X) = ... φ(x)fX (x)dx1 . . . dxn .
−∞ −∞

(iii) E[φ1 (X) + · · · + φn (X)] = E[φ1 (X)] + · · · + E[φn (X)].


34 CAPÍTULO 4. ESPERANÇA MATEMÁTICA

Proposição 4.20. Se X1 , X2 , . . . , Xn são variáveis aleatórias independentes e inte-


gráveis, então X1 X2 · · · Xn é integrável e

E [X1 X2 · · · Xn ] = (EX1 )(EX2 ) · · · (EXn ).

Demonstração. (Em aula.)

O exemplo a seguir nos mostra que a recíproca da proposição anterior não é


sempre verdadeira, isto é, EXY = EX.EY não implica X e Y independentes.
Exemplo 4.21. Sejam X e Y variáveis aleatórias tomando valores −1, 0, 1 com
distribuição conjunta dada por p(−1, −1) = p(−1, 1) = p(1, −1) = p(1, 1) =
p(0, 0) = 51 . Então EXY = EX.EY , mas X e Y não são independentes, pois
P (X = 0, Y = 0) 6= P (X = 0).P (Y = 0).
Definição 4.22. A covariância entre duas variáveis aleatórias X e Y é definida
como

Cov(X, Y ) = E [(X − EX) (Y − EY )]


= E [XY ] − E [X] E [Y ]

Duas variáveis aleatórias X e Y são ditas não-correlacionadas se Cov(X, Y ) = 0.


Segue-se que variáveis aleatórias independentes são não-correlacionadas, mas a re-
cíproca não é necessariamente verdadeira.
Observação 4.23. Há certos casos em que não correlação implica em independên-
cia. O caso mais importante é o da Normal: Se X e Y possuem distribuição conjunta
normal bivariada e são não-correlacionadas, então ρ = 0 e como vimos anteriormente
X e Y são independentes.
n
P
Proposição 4.24. A variância da variável aleatória Y = Xi é dada por
i=1
" n # n
X X X
V Xi = V [Xi ] + 2 Cov(Xi , Xj ).
i=1 i=1 i<j

Demonstração. (Em aula.)


Corolário 4.25. Se X1 , X2 , . . . , Xn são variáveis aleatórias não-correlacionadas,
então " n # n
X X
V Xi = V [Xi ] .
i=1 i=1

Demonstração. (Em aula.)


Definição 4.26. Dada uma variável aleatória X, a variável aleatória Z = X−EX
σX
é
uma padronização de X (também chamada de redução ou normalização de X).
Observe que EZ = 0 e V Z = 1.
4.5. CONDICIONANDO A EVENTO DE PROBABILIDADE POSITIVA 35

Definição 4.27. Chama-se coeficiente de correlação entre X e Y , denotado por


ρX,Y ou ρ(X, Y ), a correlação entre as sua variáveis padronizadas, isto é,
  
Cov(X, Y ) X − EX Y − EY
ρX,Y = =E .
σX .σY σX σY

Exercício 4.8. Mostre que ρ(X, Y ) = ρ(aX + b, cY + d) para a > 0 e c > 0.

A proposição seguinte nos informa que ρX,Y representa a dependência linear entre
X e Y.

Proposição 4.28. Sejam X e Y variáveis aleatórias com variâncias finitas e posi-


tivas. Então:
(i) −1 ≤ ρX,Y ≤ 1.
(ii) ρX,Y = 1 se e somente se P {Y = aX + b} = 1 para algum a > 0 e b ∈ R.
(iii) ρX,Y = −1 se e somente se P {Y = aX + b} = 1 para algum a < 0 e b ∈ R.

Demonstração. (Em aula.)


√ √
Proposição 4.29 (Desigualdade de Cauchy-Schwarz). E |XY | ≤ EX 2 EY 2 .

Demonstração. (Em aula.)

4.5 Esperança Condicional dado um Evento de


Probabilidade Positiva
Seja X uma variável aleatória em um espaço de probabilidade (Ω, A, P ), e seja A
um evento aleatório tal que P (A) > 0. Definimos a distribuição condicional de X
dado o evento A por

P ([X ∈ B] ∩ A)
P (X ∈ B | A) =
P (A)

para B ∈ B, a σ-álgebra dos borelianos da reta. Os axiomas abaixo se verificam


Axioma 1) P (X ∈ B | A) ≥ 0.
Axioma 2) P (X ∈ R | A) = 1.
Axioma 3) Se B1 , B2 , . . . são borelianos disjuntos dois a dois, então P (X ∈

S ∞
P
Bi | A) = P (X ∈ Bi | A).
i=1 i=1
A função de distribuição associada à distribuição condicional é chamada função
de distribuição condicional de X dado A:

P ([X ≤ x] ∩ A)
FX (x | A) = P (X ≤ x | A) = , x ∈ R.
P (A)
36 CAPÍTULO 4. ESPERANÇA MATEMÁTICA

A esperança condicional de X dado A é a esperança da distribuição condicional


definida por
Z ∞
E(X | A) = xdFX (x | A)
−∞
E [X.1A ]
=
E [1A ]
1
= E [X.1A ] ,
P (A)

se esta esperança existe.


Observe, pelo Teorema da Probabilidade Total, que
X
P (X ∈ B) = P (An )P (X ∈ B | An ), para todo B ∈ B.
n

X
FX (x) = P (An )P (X ≤ x | An )
n
X
= P (An )FX (x | An ), para todo x ∈ R.
n

Z Z " #
∞ ∞ X
E [X] = xdFX (x) = xd P (An )FX (x | An )
−∞ −∞ n
X Z ∞  X
= P (An ) xdFX (x | An ) = P (An )E(X | An ).
n −∞ n

Exemplo 4.30. Seja X ∼ U [−1, 1] e sejam A1 = [X ≥ 0] e A2 = [X < 0]. Pede-se


(a) A distribuição condicional de X dado A1 .
(b) A distribuição condicional de X dado A2 .
(c) E(X | An ) para n = 1, 2.

Exemplo 4.31. Seja X uma variável aleatória exponencial com parâmetro λ. En-
contre E [X | X > 2].

4.6 Exercícios
Exercício 4.9. Calcular EX, onde:
1. X ∼ b(n, p).
2. X ∼ exp(λ).
3. X ∼ Geom(p).
4.6. EXERCÍCIOS 37

Exercício 4.10. 1. Prove que, se X assume valores em {0, 1, 2, 3, . . . }, então



X
EX = P (X ≥ n).
n=1

Sugestão: escreva a fórmula da esperança como um somatório duplo de p(n)


e troque a ordem da soma.
2. Dada X variável aleatória, mostre que

X ∞
X
P (|X| ≥ n) ≤ E|X| ≤ P (|X| ≥ n).
n=1 n=0

Estabeleça um critério para determinar se X é integrável ou não.


Dica: ⌊|X|⌋ ≤ |X| ≤ ⌊|X|⌋ + 1.

Exercício 4.11. Dada X v.a., defina



X, X ≤ a,
Y =
a, caso contrário,

onde a é uma constante positiva. Mostre que EY ≤ EX.

Exercício 4.12. Mostre que X é integrável se, e somente se, E|X| < ∞.

Exercício 4.13. Prove:


1. Se E|X|
h = 0 então
i P (X = 0) = 1.
Dica: |X| ≤ n ↓ [X = 0] quando n → ∞.
1

2. Se X ≥ c e EX = c, então P (X = c) = 1.

Exercício 4.14. Prove as conseqüências da desigualdade de Cauchy-Schwarz para


a covariância e o coeficiente de correlação.

Exercício 4.15. Prove que a covariância e o coeficiente de correlação de duas va-


riáveis independentes são nulos.

Exercício 4.16. Prove que E|X| ≤ EX 2 .

Exercício 4.17. Sejam X1 , . . . , Xn variáveis aleatórias satisfazendo EXi2 < ∞ ∀ i.


1. Se Cov(Xi , Xj ) = 0 ∀ i 6= j, mostre que
n
! n
X X
V Xi = V Xi .
i=1 i=1

2. A fórmula acima também vale se as variáveis aleatórias forem independentes?


38 CAPÍTULO 4. ESPERANÇA MATEMÁTICA

Exercício 4.18. Calcular V X, onde:


1. X ∼ Poisson(λ).
2. X ∼ exp(λ).
3. X ∼ b(n, p).

Exercício 4.19. Padronização de X.


Dada uma variável aleatória X com EX 2 < ∞, definimos a padronização de X
(ou a normalização de X) como
X − EX
.
σ(X)
A padronização de uma variável aleatória não tem unidade de medida. Mostre que:
1. EZ = 0 e V Z = 1, onde Z é a padronização de X.
2. X e (aX + b) têm a mesma padronização para a > 0 e b ∈ R.
3. Se Z é a padronização de X e W é a padronização de Y , então

ρ(Z, W ) = Cov(Z, W ) = E(ZW ) = ρ(X, Y ).

(Prove uma igualdade de cada vez.)

Exercício 4.20. Considere uma seqüência de variáveis aleatórias X1 , X2 , X3 , . . .


i.i.d. com distribuição Bernoulli(p). Quantas realizações são suficientes para que a
média amostral, dada por
1X n
X̄n (ω) = Xn (ω),
n j=1
não difira de seu valor esperado p por mais de 0,01, com probabilidade mínima de
0,95? (Sugestão: Desigualdade de Chebyshev)

Exercício 4.21. Considere variáveis aleatórias X1 , X2 , . . . e X definidas no espaço


de probabilidade (Ω, F , P ) tais que Xn (ω) → X(ω) ∀ ω ∈ Ω.
1. Mostre que, se as Xn são uniformemente limitadas, então X é integrável e
EXn → EX.
2. Mostre que h i h i
lim E e−|X| sen(Xn ) = E e−|X| sen(X) .
n→∞

Exercício 4.22. B. James. Capítulo 3. Recomendados: 5, 6, 19, 20ab, 21, 23, 26,
28, 30, 36.
Capítulo 5

Convergência de Variáveis
Aleatórias

Considere um experimento devidamente modelado por um espaço de probabilidade


(Ω, F , P ). Neste espaço vamos considerar uma seqüência de variáveis aleatórias
X1 , X2 , X3 , . . . . Em inúmeras situações teóricas e práticas, uma pergunta natural
é qual o comportamento de longo prazo da seqüência (Xn )n . Dito de outra forma:
quais as propriedades estatísticas de XN , sendo N “suficientemente grande”?
Tratando-se de variáveis aleatórias, o conceito de convergência é uma generali-
zação do conceito de convergência para números reais. Entretanto, existem várias
possíveis formas de se fazer essa generalização, e cada forma é a mais natural em de-
terminado contexto. No caso de variáveis aleatórias degeneradas, todas as definições
são equivalentes à convergência de números reais.
Em B. James, as convergências quase certa e em probabilidade são vistas na
Seção 5.1, a convergência em distribuição é vista na Seção 6.2 e a convergência
em média r não é considerada. A referência mais completa sobre convergência é
Magalhães, Seção 6.2. Para o Lema de Borel-Cantelli recomenda-se a Seção 5.2 de
B. James. Para uma revisão sobre convergência de seqüências e séries de números
reais pode-se consultar o Capítulo 1 de Rêgo.1 Recomendam-se os exercícios listados
ao final deste capítulo.

5.1 Lema de Borel-Cantelli


Começamos definindo o lim inf e o lim sup de uma seqüência de eventos.

1
L. C. Rêgo. Notas de Aula do Curso Probabilidade 4. 2010.
http://www.de.ufpe.br/~leandro/AulasET5842010-1.pdf

39
40 CAPÍTULO 5. CONVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS

Definição 5.1 (lim sup e lim inf de eventos). Dada uma seqüência de eventos
aleatórios An , definimos o evento lim sup An , denotado por [An infinitas vezes]
ou [An i.v.], por
∞ [
\ ∞
lim sup An = Ak .
n→∞ n=1 k=n

Definimos o evento lim inf An , denotado por [An eventualmente], por


∞ \
[ ∞
lim inf An =
n→∞
Ak .
n=1 k=n

É importante entender as seguintes interpretações:


– lim sup An é o conjunto dos ω’s tais que ω pertence a infinitos An ’s.
– O evento lim sup An significa “An acontece infinitas vezes”.
– lim inf An é o conjunto dos ω’s tais que ω pertence a todos os An ’s exceto uma
quantidade finita deles.
– O evento lim inf An significa “An acontece para todo n grande”.
De fato, lim sup An ∈ F e lim inf An ∈ F . Vale também que

lim inf An ⊆ lim sup An

e
lim inf(Acn ) = (lim sup An )c .

(−1/n, 1], n ímpar,
Exemplo 5.2. Exemplo: Ω = R, An =
(−1, 1/n], n par.
Temos ∞ [
∞ ∞
\ \
lim sup An = Ak = (−1, 1] = (−1, 1]
n=1 k=n n=1
e ∞ \
∞ ∞
[ [
lim inf An = Ak = {0} = {0}.
n=1 k=n n=1

Exercício 5.1. Sejam um espaço de probabilidade (Ω, F , P ) e uma seqüência de


eventos aleatórios (An ) em F .
Mostre que, se (An ) é crescente, então lim sup An = lim inf An = ∪∞ n=1 An . Por
outro lado, se (An ) é decrescente, então lim sup An = lim inf An = ∩n=1 An .

Exercício 5.2. Considere o espaço de probabilidade (R2 , B2 , P ), no qual P é uma


probabilidade arbitrária. Se An = {(x, y) ∈ R2 : 0 ≤ x ≤ n, 0 ≤ y ≤ n1 }, encontre
lim sup An e lim inf An .
5.1. LEMA DE BOREL-CANTELLI 41

Exercício 5.3. Considere a seqüência de intervalos



(0, 2 + 1
), n par
An =  n
(0, 2 − 1
n
), n ímpar.

Encontre o lim inf An e o lim sup An .

Teorema 5.3 (Lema de Borel-Cantelli). Seja (Ω, F , P ) um espaço de probabili-


dade e (An ) uma seqüência de eventos aleatórios. Então:
P∞
1. Se n=1 P (An ) < ∞ então

P (An infinitas vezes) = 0.

P∞
2. Se n=1 P (An ) = ∞ e os eventos An são independentes, então

P (An infinitas vezes) = 1.

Demonstração. Feita em aula. Referência: B. James, p. 201.

Exemplo 5.4. Considere a seqüência de infinitos sorteios independentes e uniformes


de um número (xn ) entre 0 e 1.
1. P (xn ∈ [0, 1/n] para infinitos n’s) = 1.
2. P (xn ∈ [0, 1/n2] para infinitos n’s) = 0.

Caso os eventos An não sejam independentes, podemos ter P (An i.v.) = 0 sem
P
que necessariamente tenhamos n P (An ) < ∞. Neste caso podemos afirmar pelo
menos que P (An ) → 0.

Teorema 5.5 (Lema de Fatou). Para qualquer seqüência (An )n de eventos vale

P (lim inf n An ) ≤ lim inf n P (An ).

Demonstração. Para qualquer k ∈ N e m ≥ k temos



\
An ⊆ Am ,
n=k

logo !

\
P An ≤ P (Am )
n=k
42 CAPÍTULO 5. CONVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS

e portanto !

\
P An ≤ inf P (Am ).
m≥k
n=k
Como (∩∞
n=k An )k é uma seqüência crescente de eventos, temos que
" ∞ ∞
!# ∞
!
[ \ \
P (lim inf n An ) = P An = lim P An ≤ lim inf P (An ).
k→∞ k→∞ n≥k
k=0 n=k n=k

O último termo é igual a lim inf n P (An ), o que termina a prova.


Corolário 5.6. Se P (An i.v.) = 0 então P (An ) → 0.
Demonstração. Aplicando o Teorema 5.5 para a seqüência (Acn )n temos que
lim supn P (An ) = 1 − lim inf n P (Acn ) ≤ 1 − P (lim inf n Acn ) = P (lim supn An ) = 0,
donde segue o resultado.

5.2 Tipos de Convergência


Sejam X e {Xn }n≥1 variáveis aleatórias definidas num mesmo espaço de probabili-
dade (Ω, A, P ).

Definição 5.7. Dizemos que Xn converge em probabilidade para X, denotado


P
por Xn → X, se para todo ε > 0

P {|Xn − X| ≥ ε} → 0, quando n → ∞.

Exemplo 5.8. Sejam X1 , X2 , . . . v.a.’s independentes, tais que P (Xn = 1) = 1


n
e
P
P (Xn = 0) = 1 − 1
n
. Mostre que Xn → 0.
Exemplo 5.9. Sejam X1 , X2 , . . . v.a.’s independentes, identicamente distribuídas
com distribuição exp(1). Defina
Xn
Yn =
ln n
P
para n > 1. Mostre que Yn → 0.

Definição 5.10. Dizemos que Xn converge quase certamente para X, denotado


q.c.
por Xn → X, se
P {Xn → X, quando n → ∞} = 1,
ou seja, o evento A0 = {ω : Xn (ω) → X(ω)} é de probabilidade 1.
5.2. TIPOS DE CONVERGÊNCIA 43

Observação 5.11. Observe que a convergência quase certa é uma convergência


pontual num conjunto de medida 1, ou seja, Xn (ω) → X(ω) para quase todo ω,
exceto aqueles dentro de um conjunto de medida nula. Por outro lado convergência
em probabilidade não diz respeito à convergência pontual, ela apenas afirma que
para valores grandes de n as variáveis Xn e X são aproximadamente iguais com
probabilidade bem alta.
Exemplo 5.12. Seja Ω = [0, 1]. Um ponto é selecionado aleatoriamente do intervalo
[0, 1] e seja a sequência de variáveis aleatórias dada por
Xn (ω) = ω + ω n .
q.c.
Mostre que Xn → X com X ∼ U [0, 1]. Observe também que Xn (1)6→X(1). Mas
P {ω ∈ Ω : Xn (ω) 6→ X(ω), quando n → ∞} = 0.
q.c.
Proposição 5.13. Xn → X se, e somente se,
 
P |Xn − X| ≥ ε i.v. = 0 ∀ ε > 0.
Exercício 5.4. Prove a proposição acima.

Definição 5.14. Dizemos que Xn converge para X em Lp , que denotamos por


Lp
Xn → X, se
lim E {|Xn − X|p } = 0.
n→∞

Quando p = 2, a convergência é dita em média quadrática.

Exemplo 5.15. Sejam X1 , X2 , . . . v.a.’s independentes, tais que P (Xn = 1) = 1


n
e
Lp
P (Xn = 0) = 1 − n1 . Mostre que Xn → 0, para todo p.

Definição 5.16. Sejam {Xn ; n ≥ 1} e X variáveis aleatórias com funções de


distribuição {Fn ; n ≥ 1} e F , respectivamente. Dizemos que Xn converge em
d
distribuição para X, que denotamos por Xn → X, se para todo ponto x em que
F é contínua, tivermos
lim Fn (x) = F (x).
n→∞

Exemplo 5.17. Seja {Xn ; n ≥ 1} uma seqüência de v.a. independentes com distri-
buição uniforme em (0, b), b > 0. Defina Yn = max(X1 , X2 , . . . , Xn ) e Y = b. Então
d
verifique que Yn → Y .
d
Exemplo 5.18. Seja Xn = n1 para n ≥ 1 e X = 0. Mostre que Xn → X, embora
limn→∞ Fn (0) = 0 6= 1 = F (0). Mas como 0 não é ponto de continuidade de F , isto
não é problema.
44 CAPÍTULO 5. CONVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS

5.3 Relação entre os Tipos de Convergência


q.c. P
Proposição 5.19. Se Xn → X então Xn → X.
Demonstração. Para qualquer ε > 0, pela Proposição 5.13 temos que
P (|Xn − X| ≥ ε i.v.) = 0,
P
logo segue do Corolário 5.6 que P (|Xn − X| ≥ ε) → 0, ou seja, Xn → X.
P
Proposição 5.20. Se Xn → X então existe uma subseqüência nk → ∞ tal que
q.c.
Xnk → X.
Idéia da prova. Como P (|Xn −X| ≥ ε) → 0 pode-se tomar uma subseqüência nk tal
P
que k P (|Xnk −X| ≥ ε) < ∞, e usar um argumento análogo ao do Exercício 5.9.
P P
Corolário 5.21. O limite em probabilidade é “único”: se Xn → X e Xn → Y então
P (X = Y ) = 1.
q.c.
Demonstração. Tome uma subseqüência nk tal que Xnk → X e uma subseqüência
q.c.
nkj tal que Xnkj → Y . Para todo ω na interseção desses dois eventos quase certos
A = [Xnk → X] e B = [Xnkj → Y ] temos que [X = Y ]. Como P (A) = P (B) = 1
implica P (A ∩ B) = 1, temos que P (X = Y ) ≥ P (A ∩ B) = 1.
P d
Proposição 5.22. Se Xn → X então Xn → X.
d P
Proposição 5.23. Se Xn → c para c ∈ R constante, então Xn → c.
Lp+s Lp
Proposição 5.24. Sejam p ≥ 1 e s ≥ 0. Se Xn → X então Xn → X.
Demonstração. Fazendo q = p + s, pela Desigualdade de Jensen temos
 p  1  q  1
p q
E Xn − X ≤ E Xn − X → 0.
Lp P
Proposição 5.25. Seja p ≥ 1. Se Xn → X então Xn → X.
Idéia da prova. Pela desigualdade de Markov
P (|Xn − X| ≥ ε) ≤ ε−p E(|Xn − X|p ) → 0.
P
Proposição 5.26. Seja p ≥ 1. Se Xn → X e existe Y tal que EY p < ∞ e |Xn | ≤ Y
Lp
para todo n, então Xn → X.
Idéia da prova. Para qualquer subseqüência nk , tome uma subseqüência nkj tal que
q.c.
Xnkj − X → 0. Como |Xnkj − X|p ≤ (|Xnkj | + |X|)p ≤ (2Y )p que é integrável, pelo
Teorema da Convergência Dominada temos que E(|Xnkj − X|p ) → 0. Como isso
sempre vale para alguma subseqüência de uma seqüência arbitrária nk , temos que
E(|Xn − X|p ) → 0.
Observação 5.27. Não há qualquer relação de implicação entre convergência quase
certa e convergência em Lp , a não ser no caso dominado ou por subseqüências.
Completamos assim o diagrama de implicações da Figura 5.1.
5.4. EXERCÍCIOS 45

q.c.Y
constante
subseqüência  |
P +3 d
caso dominado
AI

y
Lp+s +3 Lp

Figura 5.1: Diagrama de implicações entre os tipos de convergência.

5.4 Exercícios
Exercício 5.5. B. James. Capítulo 5. Recomendados: 5, 6, 7, 9, 10.

Exercício 5.6. Seja (An )n uma seqüência de eventos em (IAn )n a seqüência de va-
riáveis aleatórias indicadoras das ocorrências dos eventos correspondentes. Encontre
P
uma condição sobre as probabilidades P (An ) para que IAn −→ 0.

Exercício 5.7. Considere o espaço de probabilidade ([0, 1], B, P ) com P dado pela
medida de comprimento, e a seqüência de variáveis aleatórias (Xn )n dadas por

n, w < n1 ,
Xn (ω) =
0, w ≥ n1 .

d P q.c. L L
Verifique respectivamente se Xn → X, Xn → X, Xn → X, Xn →2 X, Xn →1 X,
para alguma variável aleatória X.

Exercício 5.8. Seja (Xn )n uma seqüência de variáveis aleatórias independentes


com distribuição uniforme em [0, 1], e Yn = max{X1 , . . . , Xn }. Encontre a função
de distribuição de Yn e o limite em distribuição desta seqüência.

Exercício 5.9. Sejam (Xn )n variáveis aleatórias tais que



X  
P |Xn | > ε < ∞
n=1

para qualquer ε > 0. Mostre que


q.c.
Xn → 0.
Mostre que também vale a recíproca no caso de as Xn serem independentes.

Exercício 5.10. Sejam Xn , n ∈ N, variáveis aleatórias independentes tais que


Xn ∼ Bernoulli(pn ). Estude as condições sobre (pn ) para que:
46 CAPÍTULO 5. CONVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS

P
1. Xn → 0.
q.c.
2. Xn → 0.

Exercício 5.11. Seja (Xn )n uma seqüência i.i.d. Mostre que

Xn q.c.
→0
n
se e somente se E|X1 | < ∞.

Exercício 5.12. Seja (Xn )n uma seqüência i.i.d. Mostre que

X q.c.
√n → 0
n

se e somente se E|X1 |2 < ∞.

Exercício 5.13. Seja (Xn )n uma seqüência i.i.d. com distribuição exp(1). Mostre
que
P (Xn ≥ 2 log n i.v.) = 0.

Exercício 5.14. Seja (Xn )n uma seqüência i.i.d. com distribuição Poisson(λ). Mos-
tre que
Xn q.c.
→ 0.
log n
Sugestão: mostre antes que EeX1 /ε < ∞.

Exercício 5.15. Seja (Xn )n uma seqüência i.i.d. de variáveis aleatórias não-negativas
com EX12 < ∞. Mostre que
( ∞
)
X
Xn
P 2
<∞ =1
n=1 n

Exercício 5.16. B. James. Capítulo 6. Recomendados: 15, 19.


Capítulo 6

Função Geradora de Momentos e


Função Característica

A função geradora de momentos e a função característica estão entre os exemplos


mais importantes de transformadas. A idéia geral de transformada é mapear certos
objetos em objetos de outro tipo e outras propriedades, onde certas análises são
possivelmente mais fáceis, o que ficará claro nos exemplos seguintes. A função
geradora de momentos é a instância da Transformada de Laplace de uma distribuição
em R, e a função característica é a Transformada de Fourier.
A função característica e o Teorema da Continuidade são vistos nas Seções 6.1
e 6.2 de B. James. A função geradora de momentos é vista nesta apostila, e o
leitor mais interessado pode consultar a Seção 5.4 de Magalhães. Recomendam-se
os exercícios listados ao final deste capítulo.

6.1 Função Geradora de Momentos

Definição 6.1. Seja X uma variável aleatória. Define-se a função geradora de


momentos MX (t) de X, como

MX (t) = E[etX ],

desde que a esperança seja finita para todo t em algum intervalo [−b, b]. Caso
contrário dizemos que X não possui função geradora de momentos.

47
48 CAPÍTULO 6. TRANSFORMADAS

Assim,

X
MX (t) = etxi P (X = xi ) se X é v.a.d.
i=1
Z ∞
MX (t) = etx fX (x)dx se X é v.a.c.
−∞

Exercício 6.1. Seja X a variável aleatória que conta o número de lançamentos de


uma moeda honesta até que ocorra a primeira cara. Ache a função geradora de
momentos de X.

Exercício 6.2. Se X tem função geradora de momentos MX (t) e se Y = aX + b,


então MY (t) = ebt MX (at).

Proposição 6.2. Se X tem função geradora de momentos MX (t), então



dk

MX (t) = E[X k ].
dtk
t=0

Exercício 6.3. No Exercício 6.1, use a função geradora de momentos para calcular
EX e V X.

Proposição 6.3 (Unicidade). A função geradora de momentos define de forma


unívoca a distribuição da variável aleatória, ou seja, dada M(t) existe apenas uma
função de distribuição F (x) que a gera.

Teorema 6.4 (Variáveis Aleatórias Independentes). Sejam X1 , X2 , . . . , Xn v.a.’s


independentes e para i = 1, 2, . . . , n, seja MXi (t) a função geradora de momentos de
Xi . Seja Y = X1 + X2 + · · · + Xn , então para todo valor de t tal que MXi (t) existe
para i = 1, 2, . . . , n, temos
n
Y
MY (t) = MXi (t).
i=1

Demonstração. (Em aula.)

Exemplo 6.5. Suponha um experimento realizado uma única vez tendo probabi-
lidade p de sucesso e q = 1 − p de fracasso. Denote a variável aleatória X = 0 se
fracasso ocorre e X = 1 se sucesso ocorre. Então a variável aleatória X é dita ter
distribuição de Bernoulli com parâmetro p, representado por X ∼ Bernoulli(p), e
sua função de probabilidade é dada por

P (X = x) = px (1 − p)1−x , x = 0, 1.
6.1. FUNÇÃO GERADORA DE MOMENTOS 49

Assim se X ∼ Bernoulli(p), então

MX (t) = pet + q,
EX = p,
V X = pq.

Exemplo 6.6. Sejam n ensaios independentes de Bernoulli, cada um tendo a mesma


probabilidade p de sucesso e q = 1 − p de fracasso. Seja X a variável aleatória que
conta o número de sucessos nas n realizações. A variável aleatória X é dita ter
distribuição Binomial com parâmetros n e p, denotado por X ∼ b(n, p), e sua
função de probabilidade é dada por
!
n
P (X = x) = px q n−x , x = 0, 1, 2, 3, . . . , n.
x

(a) Se X ∼ b(n, p), então

MX (t) = (pet + q)n ,


EX = np,
V X = npq.

(b) Se Xi ∼ Bernoulli(p), para i = 1, 2, . . . , n, independentes, então X = X1 +


X2 + · · · + Xn ∼ b(n, p).
(c) Se Xi ∼ b(ni , p), para i = 1, 2, . . . , k, independentes, então X = X1 + X2 +
P
· · · + Xk ∼ b( ki=1 ni , p).

Exemplo 6.7. Sejam ensaios sucessivos e independentes de Bernoulli, cada um


tendo a mesma probabilidade p de sucesso e q = 1 − p de fracasso. Seja X a variável
aleatória que conta o número de realizações até que o primeiro sucesso ocorra. A
variável aleatória X é dita ter distribuição Geométrica com parâmetro p, denotado
por X ∼ Geo(p), e sua função de probabilidade é dada por

P (X = x) = q x−1 p, x = 1, 2, 3, 4, . . .

Assim, se X ∼ Geo(p), então

pet
MX (t) = , para t < − ln q
1 − qet
1
EX = ,
p
q
V X = 2.
p
50 CAPÍTULO 6. TRANSFORMADAS

Exemplo 6.8. Denotemos por Poisson(λ) a distribuição de Poisson com parâmetro


λ.
(a) Se X ∼ Poisson(λ), então
t
MX (t) = eλ(e −1) ,
EX = λ,
V X = λ.

(b) Se Xi ∼ Poisson(λi ), para i = 1, 2, . . . , n, independentes, então X = X1 +


P
X2 + · · · + Xn ∼ Poisson( ni=1 λi ).

6.2 Função Característica


Do ponto de vista teórico, a função característica é bem mais robusta e funcional que
a função geradora de momentos: está definida para qualquer distribuição; sempre
determina a distribuição; determina também a convergência em distribuição; não
bastasse, ainda gera momentos.
Entretanto, uma desvantagem faz com que, na prática, muitos prefiram trabalhar
com a função geradora de momentos: a função característica envolve a manipulação
de números complexos.1

Definição 6.9. Uma variável aleatória complexa X é uma função X : Ω → C


tal que X = X1 + iX2 , onde (X1 , X2 ) é um vetor aleatório real. Se X1 e X2 são
integráveis, definimos EX = EX1 + iEX2 ∈ C.

A integração de funções complexas em domínios reais pode ser feita, para todos
os fins práticos, como no caso real. Por exemplo, X = g(Y ) = g1 (Y ) + ig2 (Y ), Y
v.a., define uma variável aleatória complexa, cuja esperança pode ser calculada por
R +∞ R +∞
EX = −∞ g1 (y)dF (y) + i −∞ g2 (y)dF (y).
Lembramos ainda a fórmula de Euler:

eix = cos(x) + i sen(x)

1
Registro aqui um comentário. A compreensão e manipulação de funções características não
requer conhecimentos de cálculo em uma variável complexa. Isso porque as integrais são calculadas
Rb
em dx para x ∈ R e não em dz para caminhos γ ⊆ C. Mais precisamente, a F ′ (x)dx = F (b)−F (a)
mesmo que F e F ′ sejam funções complexas. As únicas situações em que teríamos que sair de R e
R
usar argumentos típicos de variáveis complexas, em particular γ f dz = 0, seriam na obtenção da
função característica da Normal e da distribuição de Cauchy. Cumpre porém ressaltar que usamos
P n
abundantemente n zn! = ez , (eg )′ = g ′ eg , e (1 + znn )n → ez se zn → z, mas para fins práticos
manipulamos o i como um número qualquer.
6.2. FUNÇÃO CARACTERÍSTICA 51

Definição 6.10. A função característica de uma variável aleatória X, denotada


por ϕX , é a função ϕX : R → C definida como

ϕX (t) = EeitX = E cos(tX) + iE sen(tX), t ∈ R.

Exemplo 6.11. Se X ∼ U[a, b], então


ϕX (t) = E[eitX ] = E[cos(tX)] + iE[sen(tX)]
Z b Z b
1 1
= cos(tx) dx + i sen(tx) dx
a b−a a b−a
b b
1 i
= sen(tx) − cos(tx)
t(b − a) a t(b − a) a
1
= [sen(tb) − sen(ta) − i cos(tb) + i cos(ta)]
t(b − a)
−ieitb + ieita eitb − eita
= = .
t(b − a) it(b − a)
Ou, mas rápido:
Z " #
b
itx 1 1 1 itx b eitb − eita
ϕX (t) = e dx = e = .
a b−a b − a it a it(b − a)
Exemplo 6.12. Se X ∼ Poisson(λ), então:
∞ ∞
X
itn e
−λ n
λ −λ
X (eit λ)n it it
ϕX (t) = E[e itX
]= e =e = e−λ ee λ = eλ(e −1) .
n=0 n! n=0 n!
Proposição 6.13. Propriedades da função característica:
1. |ϕ(t)| ≤ ϕ(0) = 1.
2. ϕ é uniformemente contínua em R.
3. Se a, b ∈ R, então ϕaX+b (t) = eitb ϕX (at).
4. Se X e Y são independentes, então ϕX+Y (t) = ϕX (t)ϕY (t).
5. ϕX também gera momentos:

dn
ϕ X (t)
= in E(X n ), se E|X|n < ∞.
dtn t=0

6. Se E|X|n < ∞, então


t2 t3 tn
ϕX (t) = ϕ(0) + ϕ′ (0)t + ϕ′′ (0)+ ϕ′′′ (0) + · · · + ϕ(n) + rn (t)
2 6 n!
EX 2 2 EX 3 3 EX n
= 1 + i(EX)t − t −i t + · · · + in tn + rn (t),
2 6 n!
rn (t)
onde o resto rn (t) é pequeno: tn
−→ 0.
t→0
52 CAPÍTULO 6. TRANSFORMADAS

Exemplo 6.14. Poisson (Feito em aula.)


Proposição 6.15 (Unicidade). Se ϕX (t) = ϕY (t) ∀ t ∈ R, então X ∼ Y .
Exemplo 6.16. Soma de Poissons independentes é Poisson. (Feito em aula.)

Convergência em distribuição O Teorema de Continuidade relaciona conver-


gência de funções características com convergência em distribuição.

Teorema 6.17 (Teorema da Continuidade (Paul Lévy)). Seja (Xn )n uma


seqüência de variáveis aleatórias e (ϕn )n a seqüência das funções característi-
cas correspondentes. Se

ϕn (t) → ϕ(t) ∀ t ∈ R,

e ϕ é contínua em t = 0, então
d
Xn −→ X,

onde X é uma variável aleatória tal que ϕX = ϕ.

Exemplo 6.18. Binomial converge a Poisson. (Feito em aula.)

6.3 A Distribuição Normal


Denotamos por Φ a função de distribuição acumulada de uma normal padrão
Z 2
t e−x /2
Φ(t) = FN (t) = P (N ≤ t) = √ dx.
−∞ 2π
Em geral, a solução de problemas numéricos envolvendo a distribuição normal inclui
a consulta de uma tabela de valores de (Φ(t); t ≥ 0) com os valores de t apropriados
– veja a Tabela 6.1. Para t < 0 usa-se a identidade Φ(−t) = 1 − Φ(t).

6.4 Exercícios
Exercício 6.4. Se X ∼ N (0, 1), calcule MX (t). Mostre que EX = 0. Mostre que
V X = 1. (Sugestão: verifique que −(z 2 − 2tz) = t2 − (z − t)2 e faça z − t = u.)
Exercício 6.5. Mostre que a soma de n variáveis aleatórias independentes normal-
mente distribuídas é, por sua vez, normalmente distribuída com média dada pela
soma das n médias e variância dada pela soma das n variâncias.
6.4. EXERCÍCIOS 53

Exercício 6.6. Sejam X1 , X2 , X2 , . . . independentes, Sn = X1 + X2 + · · · + Xn e


S̄n = X1 +X2n+···+Xn Mostre as seguintes propriedades:
(a) Se X ∼ N (µ, σ 2), então Z = X−µ σ
∼ N (0, 1).
(b) Assim, se X ∼ N (µ, σ ), então
2

1 2 t2
mX (t) = eµt+ 2 σ
E(X) = µ
V X = σ2 .
P Pn
(c) Se Xi ∼ N (µi, σi2 ), então Sn ∼ N ( ni=1 µi , i=1 σi2 ).
(d) Se Xi ∼ N (µ, σ 2), então Sn ∼ N (nµ, nσ 2 ).
2
(e) Se Xi ∼ N (µ, σ 2), então S̄n ∼ N (µ, σn ).

Exercício 6.7. A distribuição dos comprimentos dos elos da corrente de bicicleta é


normal, com média 2 cm e variância 0, 01 cm2 . Para que uma corrente se ajuste à
bicicleta, deve ter comprimento total entre 58 e 61 cm. Qual é a probabilidade de
uma corrente com 30 elos não se ajustar à bicicleta?

Exercício 6.8. As durações de gravidez têm distribuição normal com média de 268
dias e desvio-padrão de 15 dias.
(a) Selecionada aleatoriamente uma mulher grávida, determine a probabilidade
de que a duração de sua gravidez seja inferior a 260 dias.
(b) Se 25 mulheres escolhidas aleatoriamente são submetidas a uma dieta especial
a partir do dia em que engravidam, determine a probabilidade de os prazos de
duração de suas gravidezes terem média inferior a 260 dias (admitindo-se que a
dieta não produza efeito).
(c) Se as 25 mulheres têm realmente média inferior a 260 dias, há razão de
preocupação para os médicos de pré-natal? Justifique adequadamente.

Exercício 6.9. O peso de uma determinada fruta é uma variável aleatória com
distribuição normal com média de 200 gramas e desvio-padrão de 50 gramas. De-
termine a probabilidade de um lote contendo 100 unidades dessa fruta pesar mais
que 21 kg.

Exercício 6.10. Um elevador pode suportar uma carga de 10 pessoas ou um peso


total de 1750 libras. Assumindo que apenas homens tomam o elevador e que seus
pesos são normalmente distribuídos com média 165 libras e desvio-padrão de 10
libras, qual a probabilidade de que o peso limite seja excedido para um grupo de 10
homens escolhidos aleatoriamente?

Exercício 6.11. Se X ∼ U[a, b], calcule MX (t). Use a função geradora de momentos
para calcular EX e V X.
54 CAPÍTULO 6. TRANSFORMADAS

Exercício 6.12. As cinco primeiras repetições de um experimento custam R$ 10, 00


cada. Todas as repetições subseqüentes custam R$ 5, 00 cada. Suponha que o
experimento seja repetido até que o primeiro sucesso ocorra. Se a probabilidade de
sucesso de uma repetição é igual a 0, 9, e se as repetições são independentes, qual é
custo esperado da operação?

Exercício 6.13. Se X ∼ exp(λ), calcule MX (t). Use a função geradora de momen-


tos para calcular EX e V X.

Exercício 6.14. Seja Y uma variável aleatória contínua com função de densidade
de probabilidade dada por
(
ye−y , se y > 0
fY (y) =
0, caso contrário

Ache a função geradora de momentos de Y e use-a para calcular EY e V Y .

Exercício 6.15. Se X ∼ N (0, 1), calcule ϕX (t).


Você pode usar o seguinte fato, da teoria do cálculo em uma variável complexa:
Z +∞ Z +∞
2 2
e−(w+ci) dw = e−w dw
−∞ −∞

para qualquer c ∈ R.

Exercício 6.16. Se X ∼ N (µ, σ 2), calcule ϕX (t).

Exercício 6.17. B. James. Capítulo 6. Recomendados: 1, 2, 3, 4, 7, 9, 13a, 14, 17,


18, 21, 29.
6.4. EXERCÍCIOS 55

Tabela 6.1: Φ(x + y), onde x são os valores das linhas e y os das colunas.
0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
56 CAPÍTULO 6. TRANSFORMADAS
Capítulo 7

Lei dos Grandes Números e


Teorema Central do Limite

A referência para os assuntos deste capítulo são os Capítulos 5 e 7 do B. James.


Porém faremos aqui uma exposição simplificada desses assuntos, enquanto o livro-
texto os trata com um nível de profundidade que está fora dos objetivos deste curso.
Recomendam-se os exercícios listados ao final deste capítulo.

7.1 Leis dos Grandes Números


Sejam X1 , X2 , . . . v.a.’s integráveis em (Ω, A, P ) e S1 , S2 , . . . suas somas parciais
dadas por
Sn = X1 + X2 + · · · + Xn .

Definição 7.1. X1 , X2 , . . . satisfazem a Lei Fraca dos Grandes Números se para


todo ε > 0 temos
 
Sn − ESn
≥ ε → 0, quando n → ∞,
P

n
ou seja, se
Sn − ESn P
→ 0.
n
Definição 7.2. X1 , X2 , . . . satisfazem a Lei Forte dos Grandes Números se para
todo ε > 0 temos  
Sn − ESn
P lim =0 =1,
n→∞ n
ou seja, se
Sn − ESn q.c.
→ 0.
n

57
58 CAPÍTULO 7. LEI DOS GDES NÚMEROS E TEO CENTRAL DO LIMITE

Teorema 7.3 (Lei Fraca de Chebyshev). Sejam X1 , X2 , . . . v.a.’s não-correlacionadas


dois a dois com variâncias finitas e uniformemente limitadas (isto é, existe c finito,
tal que para todo n V Xn < c). Então X1 , X2 , . . . satisfazem a Lei Fraca dos Grandes
Números:
Sn − ESn P
→ 0.
n
Demonstração. Exercício. Basta usar a segunda desigualdade de Chebyshev.
Corolário 7.4 (Lei dos Grandes Números de Bernoulli). Considere uma seqüência
de ensaios binomiais independentes tendo a mesma probabilidade p de sucesso em
cada ensaio. Se Sn é o número de sucessos nos primeiros n ensaios, então
Sn P
→ p.
n
Teorema 7.5 (Lei Fraca de Khintchine). Sejam X1 , X2 , . . . v.a.’s independentes,
identicamente distribuídas e integráveis, com média µ. Então X1 , X2 , . . . satisfazem
a Lei Fraca dos Grandes Números:
Sn P
→ µ.
n
Demonstração. Utilizamos o Teorema de Paul Lévy. Primeiramente, como as Xn
são i.i.d., temos
h  in   n
µt
ϕ Sn (t) = ϕX1 n t
= 1 + i + r1 nt ,
n n
r1 (w)
onde r1 (·) é tal que w
→ 0 quando w → 0. Segue que ϕ Sn (t) → eitµ quando
n
d
n → ∞, para todo t ∈ R. Pelo Teorema 6.17, Sn
n
→ µ e, como µ é constante, isso é
Sn P
o mesmo que n
→ µ.
Teorema 7.6 (Primeira Lei Forte de Kolmogorov). Sejam X1 , X2 , . . . v.a.’s inde-
pendentes e integráveis, e suponha que

X V Xn
2
< ∞.
n=1 n

Então X1 , X2 , . . . satisfazem a Lei Forte dos Grandes Números:


Sn ESn q.c.
− → 0.
n n
Demonstração. (Eu aula, se houver tempo.)
Teorema 7.7 (Lei Forte de Kolmogorov). Sejam X1 , X2 , . . . v.a.’s independentes,
identicamente distribuídas e integráveis, com EXn = µ. Então X1 , X2 , . . . satisfa-
zem a Lei Forte dos Grandes Números:
Sn q.c.
→ µ.
n
Demonstração. (Em aula.)
7.2. TEOREMA CENTRAL DO LIMITE 59

7.2 Teorema Central do Limite


Teorema 7.8 (Teorema Central do Limite para variáveis aleatórias i.i.d.). Seja
{Xn ; n ≥ 1} uma seqüência de v.a.’s i.i.d., com média comum µ e variância comum
σ 2 , onde 0 < σ 2 < ∞. Seja Sn = X1 + X2 + · · · + Xn . Então

Sn − ESn d
√ → N (0, 1),
V Sn

isto é,
Sn − nµ d
√ → N (0, 1).
σ n

Demonstração. Utilizamos o Teorema de Paul Lévy. Supomos sem perda de gene-


ralidade que µ = 0. Como as Xn são i.i.d., temos
" #n
h  in t2  
ϕ S√
n (t) = ϕX1 t

σ n
= 1 − + r2 σ√t n ,
σ n n

r2 (w) 2
onde r2 (·) é tal que w2
→ 0 quando w → 0. Segue que ϕ S√
n (t) → e−t quando
σ n
d
n → ∞, para todo t ∈ R. Pelo Teorema 6.17, S√n
σ n
→ N.

Observação 7.9. Se X1 , X2 , . . . , Xn é uma seqüência de variáveis aleatórias inde-


pendentes de Bernoulli com parâmetro p, então sabemos que

Sn = X1 + X2 + · · · + Xn ∼ b(n, p).

Assim, pelo Teorema Central do Limite, para n suficientemente grande Sn pode ser
aproximada por uma distribuição Normal, já que

Sn − np
√ ≈ N (0, 1).
npq

Ou de outra forma
Sn ≈ N (np, npq).

Exemplo 7.10. Um par de dados honestos é lançado 180 vezes por hora (aproxi-
madamente).
(a) Qual a probabilidade aproximada de que 25 ou mais lançamentos tenham
tido soma 7 na primeira hora?
(b) Qual a probabilidade aproximada de que entre 700 e 750 lançamentos tenham
tido soma 7 durante 24 horas?
60 CAPÍTULO 7. LEI DOS GDES NÚMEROS E TEO CENTRAL DO LIMITE

7.3 Exercícios
Observação 7.11. As questões sobre a Lei Forte dos Grandes Números, por trata-
rem de eventos que devem acontecer com probabilidade 1, em geral envolvem o uso
do Lema de Borel-Cantelli.
Exercício 7.1. Seja (Xn )n uma seqüência de variáveis aleatórias i.i.d. com EX14 <
∞. Mostre que essa seqüência satisfaz a Lei Forte dos Grandes
  Números.

(Dica: supondo que EX1 = 0, mostre que ESn = nEX1 + 42 n2 E(X12 X22 ).)
4 4

Exercício 7.2. Seja (Xn )n uma seqüência de variáveis aleatórias independentes


com funções de probabilidade pn dadas por pn (n2 ) = n13 = 1 − pn (0). Essa seqüência
satisfaz a Lei dos Grandes Números?
Exercício 7.3. Seja (Xn )n uma seqüência de variáveis aleatórias independentes
com funções de probabilidade pn dadas por pn (n2 ) = n12 = 1 − pn (0). Essa seqüência
satisfaz a Lei dos Grandes Números?
Exercício 7.4. B. James. Capítulo 5. Recomendados: 2, 3, 14.
Exercício 7.5. Imagine um modelo idealizado com M eleitores, dos quais MA pre-
tendem votar no candidato A. Suponha que seja possível sortear um desses eleitores
ao acaso, e de forma equiprovável. Definimos

1, caso o eleitor sorteado vá votar no candidato A,
X=
0, caso contrário.

Deseja-se estimar a proporção p = MMA de eleitores do candidato A, que é desco-


nhecida. Para isso, repete-se este processo N vezes, obtendo-se X1 , . . . , XN . Para
estimar o valor de p considera-se
X1 + · · · + XN
pbN = .
N
Supomos a priori que p é bem próximo de 21 , de forma que V X ≈ 14 . Se entrevista-
mos N = 2500 eleitores, calcule aproximadamente a probabilidade de essa pesquisa
cometer um erro |pbN − p| maior que 0, 01.
Exercício 7.6. Use o Teorema Central do Limite para verificar que
n
X nk
lim 2 e−n = 1.
k=0 k!
n→∞

Exercício 7.7. Se lançamos 10.000 vezes uma moeda honesta, calcule aproximada-
mente a probabilidade de que o número de vezes que se obtém coroa seja no mínimo
4.893 e no máximo 4.967.
Exercício 7.8. B. James. Capítulo 7. Recomendados: 2 e 9.
Capítulo 8

Distribuição e Esperança
Condicionais

Este certamente é o tópico mais delicado para um curso introdutório. É importante


entender bem o caso finito, que contém as idéias essenciais e é fundamental para
que se compreenda o conceito de distribuição e esperança condicionais.
As Seções 8.1, 8.2 e 8.3 seguem a linha desenvolvida na Seção I.8 de Shiryaev.1
Nessas seções vamos assumir que todas as partições são finitas e todas as variáveis
aleatórias assumem apenas finitos valores, mesmo que não seja dito explicitamente.
Na Seção 8.4 enunciamos as principais propriedades da esperança condicional dada
uma σ-álgebra que serão usadas nas seções seguintes. As Seções 8.5 e 8.6 têm como
referencial a linha desenvolvida no Capítulo 4 de B. James, porém de forma muito
mais resumida. Recomendam-se os exercícios listados ao final deste capítulo.

8.1 Partições
Muitas vezes a estrutura do espaço amostral Ω é complicada demais para estudar-
mos as grandezas de interesse diretamente a partir dos eventos elementares ω ∈ Ω,
até mesmo em situações aparentemente simples. Por exemplo, se existe uma seqüên-
cia infinita de variáveis aleatórias independentes que representam lançamentos de
moedas honestas, então Ω é certamente não-enumerável e F é bastante complicada.
Neste contexto, estudamos as propriedades de algumas grandezas observáveis
(variáveis aleatórias), ou ainda, conseguimos dividir Ω em “classes” que podem
ser estudadas separadamente. Estudar uma partição D de Ω ao invés de toda a
σ-álgebra F quer dizer que estamos trabalhando apenas com a “informação” relaci-
onada àquela partição.

Exemplo 8.1. Sejam X1 , X2 , X3 , . . . variáveis aleatórias assumindo valores em


1
Shiryaev, A. N. (1984). Probability. Springer Verlag.

61
62 CAPÍTULO 8. DISTRIBUIÇÃO E ESPERANÇA CONDICIONAIS

{−1, 1}. O espaço Ω pode ser dividido em átomos onde X1 e X2 são constantes.

Definição 8.2. Dizemos que D = {D1 , D2 , D3 , . . . , Dn } é uma partição de (Ω, F )


se Di ∈ F ∀ i, Di ∩ Dj = ∅ ∀i 6= j, e ∪i Di = Ω.
Dizemos que D2 é mais fina que D1 , denotado por D2 < D1 , se todo elemento de
D1 é igual à união de elementos de D2 , isto é, se para todo D ∈ D1 existe C ⊆ D2
tal que D = ∪C. Isso significa que D2 tem “mais informação” do que D1 .

Exemplo 8.3. Seja D2 = {D1 , D2 , D3 , D4 } uma partição de Ω, e sejam D5 =


D1 ∪ D3 , D6 = D2 e D7 = D4 . Se definimos D1 = {D5 , D6 , D7 }, temos D2 < D1 .

Exemplo 8.4. Para qualquer partição D vale D < D.

8.2 Probabilidade Condicional dada uma Parti-


ção
Dada uma partição D = {Di }i e um evento A, definimos a variável aleatória
X
P (A|D) = P (A|D)(ω) = IDi (ω)P (A|Di)
i

isto é, em cada átomo Di da partição D, temos que P (A|D) assume o valor cons-
tante P (A|Di).

Exemplo 8.5. Suponha que P (chover amanhã|chove hoje) = 0, 7,


P (chover amanhã|não chove hoje) = 0, 5 e seja D = {chove hoje, não chove hoje}.
Então

0, 7, se no estado ω chove hoje,
Z = P (chover amanhã|D) =
0, 5, caso contrário.

Teorema 8.6 (Teorema da Probabilidade Total).


h i
P (A) = E P (A|D) .
P h i
Demonstração. P (A) = i P (A|Di)P (Di ) = E P (A|D) .

Exemplo 8.7. Se P (chover hoje) = 0, 4, temos


X
P (chover amanhã) = EZ = zP (Z = z) = 0, 7 × 0, 4 + 0, 5 × 0, 6 = 0, 58.
z

Definição 8.8. Seja X uma variável aleatória assumindo valores em {x1 , . . . , xm }.


Definimos a partição induzida por X como DX = {D1 , . . . , Dm }, onde Dj = {ω :
X(ω) = xj }. Denotamos a variável aleatória P (A|DX )(ω) por P (A|X)(ω).
8.3. ESPERANÇA CONDICIONAL DADA UMA PARTIÇÃO 63

Uma forma equivalente de definir P (A|X) é a seguinte. Para k = 1, . . . , m, faça


φ(xk ) = P (A|X = xk ). Temos que P (A|X) = φ(X), isto é, ∀ω, P (A|X)(ω) =
φ(X(ω)).
Exercício 8.1. Se X e Y são independentes então

P (X + Y = z|Y = y) = P (X + y = z).

Exemplo 8.9. Se X e Y são i.i.d. Bernoulli(p), considere o evento A = [X +Y = 1].


Vamos calcular P (A|Y ):

P (A|Y ) = pIY =0 + (1 − p)IY =1 ,

ou, escrevendo explicitamente como função de Y :

P (A|Y ) = p(1 − Y ) + (1 − p)Y.

De forma análoga definimos DX1 ,X2 ,...,Xn como sendo a partição cujos átomos são
os maiores conjuntos onde todas as Xn são constantes.
Exercício 8.2. Mostre que DX1 ,X2 < DX1 .

8.3 Esperança Condicional dada uma Partição


Sexa X uma variável aleatória com valores em {x1 , . . . , xm } e Aj = [X = xj ].
Considere D uma partição de (Ω, F ). Definimos a variável aleatória
m
X
E(X|D) = E(X|D)(ω) = xj P (Aj |D)(ω).
j=1

Observe que, dado Di ∈ D, para cada ω ∈ Di temos


m
X
E(X|D)(ω) = xj P (Aj |Di) = E (X|Di ) ,
j=1

isto é, em cada átomo Di da partição D, a variável aleatória aleatória E(X|D)


assume um valor contante dado por E(X|Di ). Veja a Figura 8.1.
Exemplo 8.10. Lançamento de um dado honesto. Seja D = {ímpar, par}. Temos

E(X|X é par), se X(ω) é par,
Z(ω) = E(X|D)(ω) =
E(X|X é ímpar), se X(ω) é ímpar.

Assim, 
4, se X(ω) é par,
Z(ω) =
3, se X(ω) é ímpar.
64 CAPÍTULO 8. DISTRIBUIÇÃO E ESPERANÇA CONDICIONAIS

X(ω) E(X|D)(ω)

ω ω

D D

Figura 8.1: Ilustração da definição de E(X|D).

Exercício 8.3. Mostre as seguintes propriedades:


1. E(aX + bY |D) = aE(X|D) + bE(Y |D).
2. E(c|D) = c.
3. E(X|{Ω}) = EX.

Teorema 8.11 (Generalização to Teorema da Probabilidade Total).


h i
EX = E E(X|D) .

Demonstração. Pelo Teorema 8.6,


 
h i X X h i X
E E(X|D) = E  xj P (Aj |D) = xj E P (Aj |D) = xj P (Aj ) = EX.
j j j

Com o Teorema 8.11 completamos o diagrama da Figura 8.2.

Exemplo 8.12. Lançamento do dado no Exemplo 8.10. Temos

EX = E[E(X|D)] = EZ = 3, 5.

Seja Y outra variável aleatória assumindo valores y1 , . . . , yn . Denotamos

E(X|Y ) = E(X|DY ).

Se fizermos φ(yi) = E(X|Y = yi ), i = 1, . . . , n, temos que

E(X|Y ) = φ(Y ).

Exercício 8.4. Se X e Y são independentes então E(X|Y ) = EX é constante.


h i
Observação 8.13. Caso particular do teorema anterior: EX = E E(X|Y ) .

Exercício 8.5. Entender os Exemplos 2 e 4 de B. James, pp. 150 e 155, respecti-


vamente.
8.3. ESPERANÇA CONDICIONAL DADA UMA PARTIÇÃO 65

P (·) P / E(·)
F EX= i
xi P (X=xi ) ?

P (A∩D) 
P (A|D)= P (D) 



P 
 E(X|D)= i xi P (X=xi |D) 
P (·|D) / E(·|D) 
 EX=E[E(X|D)]
P 
P (A)=E[P (A|D)]
P (A|D)= i P (A|Di )IDi

P 
E(X|D)= i E(X|Di )IDi 

  
P (·|D) P / E(·|D)
E(X|D)= i
xi P (X=xi |D)

Figura 8.2: Relação entre probabilidade, esperança, probabilidade condicional


dado um evento, esperança condicional dado um evento, probabilidade condici-
onal dada uma partição, e esperança condicional dada uma partição.

De forma análoga definimos


 

E(X|Y1, . . . , Yn ) = E X DY1 ,...,Yn ,

e isso é equivalente a tomar φ(yi1 , . . . , yin ) = E(X|Y1 = yi1 , . . . , Yn = yin ) e

E(X|Y1 , . . . , Yn ) = φ(Y1, . . . , Yn ).

Definição 8.14. Dizemos que X é D-mensurável se D < DX , isto é, se X é cons-


tante nos átomos de D. Em outras palavras, se a “informação” sobre D determina
o valor de X.

Proposição 8.15. Se D1 4 D2 , então


h i h i

E E(X|D2 ) D1 = E E(X|D1 ) D2 = E(X|D1 ).

Em particular, h i

E E(X|Y1 , Y2 ) Y1 = E(X|Y1).

Observação 8.16. X sempre é DX -mensurável.

Proposição 8.17. Se X é D-mensurável, então

E(XY |D) = XE(Y |D).

Em particular, E(X|D) = X. Ademais, E(X|X) = X.


66 CAPÍTULO 8. DISTRIBUIÇÃO E ESPERANÇA CONDICIONAIS

Exemplo 8.18. Dada uma função f , vale


h  i

E f (Y )E X Y = E [Xf (Y )] .

De fato, como Z = f (Y ) é claramente DY -mensurável, temos


h i

E Xf (Y ) Y = f (Y )E(X|Y ).

Tomando a esperança dos dois lados, obtemos a equação anterior.

Observação 8.19. Seja f ∗ (y) = E(X|Y = y), ou seja, tome f ∗ tal que E(X|Y ) =
f ∗ (Y ). Então, para qualquer f : R → R vale
 2   2 

E X − f (Y ) ≥ E X −f (Y ) .

A observação acima diz que o melhor estimador para o valor de X sabendo-se


o valor de Y (melhor no sentido da média quadrática) é a esperança condicional
E(X|Y ).

8.4 Esperança Condicional dada uma σ-Álgebra


Uma partição D gera uma álgebra α(D) formada por conjuntos que são união finita
de elementos de D, ou seja, α(D) = {A ⊆ Ω : A = Di1 ∪ · · · ∪ Dik , Dij ∈ D, k ≥ 0}.
A esperança de X condicionada à partição D dada por Z = E(X|D), foi cons-
truída de forma a ser a única variável aleatória Z a satisfazer simultaneamente
Z Z
XdP = ZdP para qualquer A ∈ α(D)
A A

e
Z é D-mensurável.

Nesse sentido, interpretamos E(X|D) como a melhor aproximação para X quando


tem-se acesso apenas à informação correspondente a D.
Num caso mais geral, temos acesso à “informação” correspondente a uma classe
C ⊆ F , ou melhor, à σ-álgebra G ⊆ F gerada por C, e nesse caso definimos E(X|G)
como a única variável aleatória Z que satisfaça simultaneamente
Z Z
XdP = ZdP para qualquer A ∈ G
A A

e
n o
Z é G-mensurável, i.e., ω : Z ∈ B ∈ G ∀B ∈ B.
8.4. ESPERANÇA CONDICIONAL DADA UMA σ-ÁLGEBRA 67

Teorema 8.20 (Radon-Nikodým). Seja X uma variável aleatória integrável definida


em (Ω, F , P ) e G ⊆ F uma σ-álgebra. Então existe uma variável aleatória Z, que
chamamos de E(X|G), satisfazendo as propriedades acima. Tal variável aleatória
é única, no sentido de que qualquer outra variável aleatória Z̃ satisfazendo essas
mesmas propriedades satisfaz também P (Z̃ = Z) = 1.
Neste contexto, definimos
P (A|G) = E (IA |G) e E(X|Y ) = E (X|σ(Y )) ,
onde σ(Y ) = {Y −1 (B) : B ∈ B} é a menor σ-álgebra em Ω com relação à qual
Y : Ω → R é mensurável.
No caso de G ser gerada por uma partição finita D, ou Y ser uma variável
aleatória assumindo finitos valores, essas definições coincidem com o que havíamos
feito anteriormente.

Proposição 8.21 (Propriedades da esperança condicional).


1. E [E(X|G)] = EX.
2. E(c|G) = c quase certamente.
3. X ≤ Y ⇒ E(X|G) ≤ E(Y |G) quase certamente.
4. E(aX + bY |G) = aE(X|G) + bE(Y |G) quase certamente.
5. Se X é G-mensurável então E(X|G) = X quase certamente.
6. Se G1 ⊆ G2 ⊆ F são σ-álgebras, então
        



E E X G2 G1 = E E X G1 G2 = E X G1 quase certamente.

7. Se Y é G-mensurável, E|X| < ∞, E|XY | < ∞, então


   

E XY G = Y.E X G quase certamente.

A esperança condicionada a Y , E(X|Y ), sendo uma variável aleatória σ(Y )-


mensurável, pode ser expressa como φ(Y ), isto é, E(X|Y )(ω) = φ(Y (ω)) quase
certamente.
Isso justifica a seguinte definição.
Definição 8.22 (Esperança condicional de X dado que Y = y). Chamamos de
esperança condicional de X dado que Y = y a qualquer função φ : R → R que seja
B-mensurável e satisfaça E(X|Y ) = φ(Y ) quase certamente. Neste caso escrevemos
E(X|Y = y) = φ(y).
68 CAPÍTULO 8. DISTRIBUIÇÃO E ESPERANÇA CONDICIONAIS

Observação 8.23. Sempre existe tal φ, que é única no sentido de que qualquer
outra φ′ satisfazendo as mesmas condições satisfaz também P (φ(Y ) = φ′ (Y )) = 1.
Com isso estabelecemos uma relação entre φ(y) = E(X|Y = y) e E(X|Y ).
A primeira forma é mais intuitiva para se lidar. Entretanto, toda essa abstração
teórica e teoremas de existência e unicidade não fornecem uma forma explícita para
E(X|Y = y). É disso que tratam as Seções 8.5 e 8.6.

8.5 Distribuição Condicional Regular


Quando Y é uma variável aleatória discreta assumindo valores y1 , y2, . . . , essa va-
riável aleatória induz uma partição DY de (Ω, F ), e temos as seguintes relações:
X
P (X ∈ B) = E [P (X ∈ B|Y )] = P (X ∈ B|Y = yn )P (Y = yn )
n
Z +∞
= P (X ∈ B|Y = y)dFY (y),
−∞
h i X
FX (x) = E FX|Y (x) = FX (x|Y = yn )P (Y = yn )
n
Z +∞
= FX (x|Y = y)dFY (y),
−∞
X
E(X) = E [E(X|Y )] = E(X|Y = yn )P (Y = yn )
n
Z +∞
= E(X|Y = y)dFY (y).
−∞

Nas expressões acima, todas as grandezas condicionadas a Y = y são definidas


diretamente utilizando a probabilidade condicional P ′ (·) = P (·|Y = y) dado o
evento de probabilidade positiva [Y = y]. Este caso já foi tratado na Seção 4.5.
No caso de variáveis aleatórias Y que não sejam discretas, temos que dar sentido
a expressões do tipo P (X ∈ B|Y = y) mesmo que P (Y = y) seja zero, para poder
dizer que expressões análogas continuam valendo.
Definição 8.24 (Distribuição Condicional Regular). Sejam X e Y variáveis aleató-
rias definidas no mesmo espaço de probabilidade (Ω, F , P ). A distribuição condici-
onal regular de X dado Y = y é definida por
   

P X ∈ [s, t] Y = y = lim lim P X ∈ [s − ∆, t + ∆] Y ∈ [y − δ, y + δ]
∆→0 δ→0

para todo s < t e y ∈ A, onde A é algum conjunto tal que P (Y ∈ A) = 1. Quando


s = −∞, definimos a função de distribuição condicional acumulada FX (t|Y = y) =
P (X ≤ t|Y = y).
Teorema 8.25. Para quase todo y ∈ R, isto é, para todo y ∈ A onde A é um
conjunto tal que P (Y ∈ A) = 1, o limite acima existe para todo s < t e determina
uma probabilidade em R.
8.5. DISTRIBUIÇÃO CONDICIONAL REGULAR 69

Na prática, o que se faz é encontrar um candidato ad hoc de quem deveria ser


a distribuição condicional regular de X dado Y , segundo princípios que se aplicam
em diferentes casos, e verifica-se a posteriori que o candidato proposto satisfaz a
Definição 8.24. À continuação veremos alguns desses princípios.

Caso de Y discreta

Se Y é variável aleatória discreta, a distribuição condicional de X dado Y = y


é dada por
P {X ∈ B, Y = y}
P {X ∈ B|Y = y} =
P {Y = y}
para todo y tal que P (Y = y) > 0

A função de distribuição condicional de X dado Y = y é

FX (x|Y = y) = P {X ≤ x|Y = y} .

Caso de X e Y independentes

Se X e Y são independentes, o condicionamento em Y = y não afeta em


nada a variável X. Neste caso temos

P (X ∈ B|Y = y) = P (X ∈ B).

Exercício 8.6. Verifique que esse candidato satisfaz a Definição 8.24.

Caso de X e Y possuírem densidade conjunta

Se X e Y têm função de densidade conjunta fX,Y (x, y), a função de densidade


condicional de X dado Y = y é dada por

fX,Y (x, y)
fX (x|Y = y) =
fY (y)

para todo y tal que fY (y) > 0.

Neste caso a função de distribuição condicional de X dado Y = y é


Z x
FX (x|Y = y) = P {X ≤ x|Y = y} = fX (t|Y = y)dt.
−∞
70 CAPÍTULO 8. DISTRIBUIÇÃO E ESPERANÇA CONDICIONAIS

Exemplo 8.26. Sejam X e Y com densidade conjunta



6xy(2 − x − y), 0 < x < 1, 0 < y < 1,
fX,Y (x, y) =
0, caso contrário.
Vamos determinar a distribuição condicional de X dado que Y = y.
Temos
Z +∞ Z 1
fY (y) = fX,Y (x, y)dx = 6xy(2 − x − y)dx = 4y − 3y 2
−∞ 0

se y ∈ (0, 1) e 0 caso contrário. Assim, para y ∈ [0, 1] temos



6x(2−x−y)
fX,Y (x, y)  4−3y , 0<x<1
fX (x | Y = y) = =
fY (y) 0, caso contrário.

Para y fora desse intervalo FX (·|Y = y) é irrelevante, pois P (Y 6∈ [0, 1]) = 0.


Exemplo 8.27. Sejam X e Y com densidade conjunta
(
1
ye−xy ,0<x<∞ e 0<y<2
fX,Y (x, y) = 2
0, caso contrário
Vamos determinar a distribuição condicional de X dado que Y = y.
Temos Z +∞ Z
1 ∞ −xy 1
fY (y) = fX,Y (x, y)dx = ye dx =
−∞ 2 0 2
para 0 < y < 2. Logo Y ∼ U[0, 2].
Assim, para y ∈ (0, 2] temos

fX,Y (x, y) ye−xy , x > 0,
fX (x | Y = y) = =
fY (y) 0, x ≤ 0.

Caso de Y possuir densidade e X ser discreta

Se X é discreta e Y tem função de densidade fY (y), a função de probabilidade


condicional de X dado Y = y é dada por

P (X = xn )fY (y|X = xn )
pX (xn |Y = y) =
fY (y)

para todo y tal que fY (y) > 0.

Neste caso a função de distribuição condicional de X dado Y = y é


X
FX (x|Y = y) = P {X ≤ x|Y = y} = pX (xn |Y = y).
n:xn ≤x
8.5. DISTRIBUIÇÃO CONDICIONAL REGULAR 71

Princípio da preservação das chances relativas

O princípio da preservação das chances relativas diz que, dada a ocorrência


de um evento, os resultados possíveis dentro desse evento mantêm as mesmas
chances relativas que possuíam antes.

Exemplo 8.28. X ∼ N (0, 1) e Y = X 2 . Qual a distribuição condicional de X dado


que Y = y?
Como P (Y > 0) = 1, basta considerar valores y > 0. Sabendo que Y = y temos
duas alternativas: X = y ou X = −y. Como fX (y) = fX (−y), esses dois valores
continuam tendo a mesma chance quando condicionamos a Y = y. Definimos então
P (X = y|Y = y) = P (X = −y|Y = y) = 12 .
Vamos verificar que esse candidato satisfaz a Definição 8.24. Se s < t < −y,
temos que limδ P (X ≤ t + ∆|Y ∈ [y − δ, y + δ]) = 0 para ∆ < −y − t (verifique!),
coincidindo com nosso candidato P (X ∈ [s, t]|Y = y) = 0. Se −y < s ≤ y ≤ t,
temos que limδ P (X ∈ [s−∆, t+∆]|Y ∈ [y−δ, y+δ]) = 12 para ∆ < s+y (verifique!),
coincidindo com nosso candidato P (X ∈ [s, t]|Y = y) = (X = y|Y = y) = 12 . Os
outros casos são verificados de forma análoga.

Exemplo 8.29. Seja X ∼ U[0, 2] e Y ∼ U[−1, 1] independentes. Vamos encontrar


FX (x|X + Y = z).
Seja Z = X + Y . A densidade conjunta de X e Y é dada por fXY (x, y) =
1
I
4 [0,2]×[−1,1]
(x, y), e a marginal de X é dada por fX (x) = 12 I[0,2] (x). Condicionando
a Z = z, temos que o conjunto dos resultados possíveis fica restrito a uma diagonal
{(x, y) ∈ [0, 2] × [−1, 1] : x + y = z} que corta o quadrado [0, 2] × [−1, 1]. Pelo Prin-
cípio da Preservação das Chances Relativas, todos os pontos desse conjunto eram
“equiprováveis” antes do condicionamento, devem continuar equiprováveis dentro do
conjunto da restrição. Assim, para z > 1 devemos ter X ∼ U[z − 1, 2] e para z < 1
devemos ter X ∼ U[0, z + 1], ou seja

 1
I[z−1,2] (x), 1 ≤ z < 3,
fX (X|Z = z) =  3−z
1
I
z+1 [0,z+1]
(x), −1 < z ≤ 1.

Princípio da substituição

O princípio da substituição permite substituir Y por y sempre que se condi-


ciona a Y = y. Se W = g(X, Y ), então
h i
P (W ∈ B|Y = y) = P (g(X, y) ∈ B|Y = y) = P X ∈ {x : g(x, y) ∈ B} Y = y .
72 CAPÍTULO 8. DISTRIBUIÇÃO E ESPERANÇA CONDICIONAIS

Exemplo 8.30. Sejam X e Y com densidade conjunta



(1 + 2x − 2y), x, y ∈ [0, 1]
fX,Y (x, y) =
0, caso contrário.

Queremos calcular P (X + Y ≤ z | Y = y).


Pelo Princípio da Substituição temos que P (X + Y ≤ z | Y = y) = P (X ≤
z − y | Y = y). Calculemos então a distribuição condicional de X.
R +∞
Como X e Y possuem densidade conjunta temos fY (y) = −∞ fX,Y (x, y)dx =
R1
0 (1 + 2x − 2y)dx = 2 − 2y, 0 < y < 1, e

Z Z x
x fX,Y (t, y) 1 + 2t − 2y
FX (x | Y = y) = dt = I[0,1]×[0,1] (x, t)dt
−∞ fY (y) 0 2 − 2y



 0, x ≤ 0,
 2
= x +x−2xy
, 0 < x < 1,
 2(1−y)



1, x ≥ 1.

Substituindo temos



 0, z ≤ y,
 2
z +(1−4y)z+3y 2 −y
FZ (z|Y = y) = FX (z − y|Y = y) = , y < z < y + 1,

 2(1−y)


1, x ≥ y + 1,

ou seja,
2z − 4y + 1
fZ (z|Y = y) = I[y,y+1] (z).
2(1 − y)

Vetores aleatórios A Definição 8.24, o Teorema 8.25 e os princípios apresentados


acima valem para a distribuição condicional do vetor aleatório X dado Y, sendo o
limite em Y ∈ [y − δ, y + δ] substituído por kY − yk ≤ δ, etc.

Exercício 8.7. Considere X1 , X2 , . . . , Xn variáveis aleatórias independentes com


densidade exp(λi ), i = 1, 2, . . . , n. Mostre que

λk
P {Xk = min(X1 , X2 , . . . , Xn )} = Pn .
i=1 λi

(Sugestão: calcule P (Xi ≥ Xk ∀i|Xk = x) usando o princípio da substituição, depois


use que P (A) = E[P (A|Xk )].)
8.6. ESPERANÇA CONDICIONAL DADA UMA VARIÁVEL ALEATÓRIA 73

8.6 Esperança Condicional dada uma Variável Ale-


atória
Dada X integrável, definimos E(X|Y = y) como
Z ∞
E [X|Y = y] = xdF (x|Y = y) .
−∞

Teorema 8.31. Se X é integrável então E(X|Y = y) é finita para todo y ∈ A, para


algum A tal que P (Y ∈ A) = 1.

Definindo φ(y) = E(X|Y = y), temos que E(X|Y ) = φ(Y ), de forma que pode-
mos obter uma versão “palpável” de E(X|G), G = σ(Y ). A esperança condicional
E(X|Y )(ω) = φ(Y (ω)), sendo um caso particular de esperança condicional dada
uma σ-álgebra, satisfaz todas as propriedades enunciadas na Proposição 8.21.

Proposição 8.32. Os seguintes resultados envolvendo esperanças condicionais se


verificam:
R∞
(a) E [X] = −∞ E (X|Y = y) dFY (y).
R∞
(b) P (X ∈ B) = −∞ P (X ∈ B | Y = y)dFY (y), para todo B ∈ B.
R∞
(c) FX (x) = −∞ FX (x|Y = y) dFY (y).

Observação 8.33. Para qualquer função g tal que g(X) é integrável, definimos
Z ∞
E [g(X)|Y = y] = g(x)dFX (x|y) .
−∞

Exemplo 8.34. Se X e Y são independentes, então FX (x|Y = y) = FX (x) e


Z ∞ Z ∞
E [X|Y = y] = xdF (x|Y = y) = E (X|Y = y) dFY (y) = E [X] .
−∞ −∞

Assim, φ(y) = EX ∀y ∈ R e E(X|Y ) = φ(Y ) = EX, isto é, E(X|Y ) é uma variável


aleatória constante, igual a EX.

Exemplo 8.35. Se X ∼ U[0, 2] e Y = max{X, 1}. Temos que Y assume valores


em [1, 2]. Tomando y em (1, 2], temos que [Y = y] = [X = y] e, pelo Princípio da
Substituição, E[X|Y = y] = y. Tomando y = 1, temos que [Y = 1] = [X ≤ 1].
Assim,

x/2


 = x, 0 ≤ x ≤ 1,
P (X ≤ x, X ≤ 1)  1/2
FX (x|Y = 1) = FX (x|X ≤ 1) = = 0, x < 0,
P (X ≤ 1) 



1, x > 1.
74 CAPÍTULO 8. DISTRIBUIÇÃO E ESPERANÇA CONDICIONAIS

Logo, fX (x|Y = 1) = d
F (x|Y
dx X
= 1) = I[0,1] (x) e
Z 1 1
E(X|Y = 1) = xfX (x|Y = 1)dx = .
0 2
Portanto, 
1, Y =1
E(X|Y ) = 2
Y, 1 < Y ≤ 2.

Exemplo 8.36. O Jogador I lança uma moeda honesta n vezes, obtendo k “caras”,
onde 0 ≤ K ≤ n. Depois o Jogador II lança a moeda k vezes, obtendo j “coroas”.
Seja X o número j de “coroas” obtidas pelo Jogador II. Queremos calcular EX.
(Poderíamos fazer algum esforço neste caso – nem sempre isso é possível – para
mostrar que X ∼ b(n, 14 ) e portanto EX = n4 , mas estamos interessados apenas em
saber EX.)
Seja Y o número de “caras” obtidas pelo Jogador I. É claro que X|Y = k ∼ b(k, 21 ,
logo E(X|Y = k) = k2 . Assim, E(X|Y ) = Y2 . Calculamos então
 
Y 1 1n n
EX = E [E(X|Y )] = E = EY = = ,
2 2 22 4
uma vez que Y ∼ b(n, 12 ).

Exemplo 8.37. No Exemplo 8.26, vamos cacular E [X|Y ] e E [X].


Substituindo a densidade obtida temos
Z Z
+∞ 1 6x2 (2 − x − y) 5 − 4y
E[X | Y = y] = xfX (x | Y = y)dx = dx = .
−∞ 0 4 − 3y 8 − 6y

Então E[X | Y ] = 5−4Y


8−6Y
e
Z 1 5 − 4y 15 8 7
E[X] = E[E[X | Y ]] = (4y − 3y 2 )dy = − = .
0 8 − 6y 12 12 12
h i h i
Exercício 8.8. No Exemplo 8.27, vamos calcular E eX/2 |Y e E eX/2 |Y = 1 .
Substituindo a densidade condicional obtida, temos
Z ∞ Z ∞
X x 1
E[e 2 | Y = y] = e ye dx = y
2
xy
e( 2 −y)x dx.
0 0

y
Se y ≤ 1
2
a integral vale +∞. Se y > 1
2
la integral vale y− 21
. Assim,


+∞,
h i Y ≤ 12 ,
E eX/2 |Y = y

 , y > 12 ,
y− 12

h i
e E eX/2 |Y = 1 = 12 .
8.6. ESPERANÇA CONDICIONAL DADA UMA VARIÁVEL ALEATÓRIA 75

Exemplo 8.38. Seja X ∼ U [0, 1]. Se X = x, então uma moeda com probabilidade
x de sair cara é lançada n vezes independentemente. Seja Y a v.a. que representa
o número de caras obtidas.
Temos que Y |X = x ∼ b(n, x) e X ∼ U(0, 1) Se y ∈ 0, 1, . . . , n então:
Z Z !
1 1 n y
P (Y = y) = P (Y = y | X = x)fX (x)dx = x (1 − x)n−y dx.
0 0 y

Portanto
n n Z
!
X X 1 n y
E[Y ] = yP (Y = y) = y x (1 − x)n−y dx
y=0 y=0 0 y
Z n
!
1 X n − 1 y−1
= xn x (1 − x)n−y dx
0 y=0 y−1
Z Z
1 1 n
= xn(x + 1 − x)n−1 dx = n xdx = .
0 0 2
Por outro lado, E[Y | X = x] = nx, ou seja, E[Y | X] = nX, logo
n
E[E[Y | X]] = E[nX] = .
2
Exercício 8.9. Sejam X e Y v.a.’s independentes tais que X ∼ U [0, 2] e Y ∼
U [−1, 1].
(a) Calcule E [X|X + Y ≤ 2].
(b) Calcule E [X|X + Y ].
(c) Calcule E [X|X + Y = 2].

Exercício 8.10. Seja X1 , X2 , . . . .uma seqüência de variáveis aleatórias independen-


tes e identicamente distribuídas e seja N uma variável aleatória inteira e não-negativa
N
P
independente da seqüência X1 , X2 , . . . . Seja Y = Xi . Mostre que
i=1

E [Y ] = E [N] E [X] .

Exercício 8.11. Sejam Y1 , Y2 , . . . , Yn variáveis aleatórias não-negativas i.i.d. Mostre


que

k
E [Y1 + Y2 + · · · + Yk |Y1 + Y2 + · · · + Yn = y] = y, k = 1, 2, . . . , n.
n
Exercício 8.12. Um número não-negativo X é escolhido com densidade fX (x) =
xe−x para x > 0. Se X = x, um número Y é escolhido no intervalo [0, x]. Ache
P (X + Y ≤ 2).
76 CAPÍTULO 8. DISTRIBUIÇÃO E ESPERANÇA CONDICIONAIS

8.7 Exercícios
Exercício 8.13. Considere X e Y i.i.d. Bernoulli(p). Calcule E(X +Y |Y ) e escreva
essa variável aleatória como uma função da v.a. Y , de duas formas diferentes:
(a) usando P (X + Y = k|Y ), que para k = 1 já foi calculado no Exemplo 8.9, e
aplicando a definição de esperança condicional dada uma partição.
(b) usando a linearidade da esperança condicional, a independência entre X e Y
e o fato de que Y é DY -mensurável.

Exercício 8.14. Dadas X e Y i.i.d. assumindo finitos valores {0, . . . , n}, mostre
que
X +Y
E(X|X + Y ) = E(Y |X + Y ) = .
2
Sugestão: para obter a primeira igualdade, escreva a definição de esperança
condicionada à partição DX+Y , desenvolva essa expressão para depois usar a in-
dependência e o fato de X e Y terem mesma distribuição. Para obter a segunda
igualdade, some os dois lados da primeira igualdade.

Exercício 8.15. A variância condicionada a uma partição é definida de forma aná-


loga à variância de uma variável aleatória:
n o

V (X|D) = E [X − E (X|D)]2 D .

Mostre que  
V (X|D) = E X 2 |D − [E (X|D)]2 .
Sugestão: desenvolva a definição dada acima de forma semelhante ao que se faz
para mostrar que V X = EX 2 − (EX)2 . Em algum momento você vai ter que usar
o fato de que E(X|D) é uma variável aleatória D-mensurável.

Exercício 8.16. Se X é uma variável aleatória limitada definida em (Ω, F , P ) e D


é uma partição de (Ω, F ), mostre que

V X = E[V (X|D)] + V [E(X|D)].

Sugestão: desenvolva o lado direito usando o Exercício 8.15.

Exercício 8.17. Se X e Y são variáveis aleatórias limitadas e definidas em (Ω, F , P )


e G ⊆ F é uma σ-álgebra, então mostre que

E [ X E (Y |G) ] = E [ Y E (X|G) ] .

Dica: sabemos que essas esperanças podem ser calculadas da seguinte forma: pri-
meiro calcula-se E(·|G) e depois E(·), isto é, E[E(Z|G)] = EZ.
8.7. EXERCÍCIOS 77

Exercício 8.18. Sejam X e Y variáveis aleatórias em (Ω, F , P ) e G ⊆ F


uma σ-álgebra. Se

E(Y 2 |G) = X 2 , E(Y |G) = X,

mostre que X = Y quase certamente, isto é, P (X = Y ) = 1.


Sugestão: calcule E [(X − Y )2 ] em duas etapas e justifique por que X é G-
mensurável.

Exercício 8.19. A variância condicionada a uma σ-álgebra é definida de forma


análoga à variância de uma variável aleatória integrável:
n o

V (X|G) = E [X − E (X|G)]2 G .

Se X é uma variável aleatória limitada definida em (Ω, F , P ) e G ⊆ F é uma σ-


álgebra, mostre que
V X = E[V (X|G)] + V [E(X|G)].

Exercício 8.20. B. James. Capítulo 4. Recomendados: 1, 9, 15, 16b, 32, 40.

Você também pode gostar