Você está na página 1de 29

Notas sobre Probabilidade Discreta

por
Roberto Imbuzeiro M. F. de Oliveira
IMPA
i

Indice
1 Introducao 1
1.1 Andamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 20 de marco de 2007 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2 Denicoes basicas do caso discreto 2
2.1 Conceitos basicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.2 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.3 Probabilidades condicionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4 Particoes e probabilidades condicionais . . . . . . . . . . . . . . . . . . . . . . . 8
2.5 Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3 Variaveis aleatorias 11
3.1 Denicao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2 Distribuicao de uma variavel aleatoria . . . . . . . . . . . . . . . . . . . . . . . 11
3.3 Distribuicoes novas a partir de antigas . . . . . . . . . . . . . . . . . . . . . . . 12
3.4 Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.5 Somas de variaveis aleatorias independentes . . . . . . . . . . . . . . . . . . . . 14
4 Valores esperados, momentos e desigualdades 16
4.1 Valores esperados e momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.1.1 A desigualdade de Jansen e as normas L
p
. . . . . . . . . . . . . . . . . 18
4.2 Variancia e covariancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.3 A desigualdade de Chebyshev e concentracao . . . . . . . . . . . . . . . . . . . 21
4.4 Aplicacao a aproximacoes por polinomios . . . . . . . . . . . . . . . . . . . . . 23
5 Interpretacao das probabilidades condicionais 25
5.1 Probabilidades e esperancas condicionais . . . . . . . . . . . . . . . . . . . . . . 25
5.1.1 Informacao e aproximacao: denindo probabilidades condicionais . . . . 25
5.1.2 Informacao e aproximacao: o caso geral . . . . . . . . . . . . . . . . . . 27
ii
Captulo 1: Introducao
Muitos dos conceitos relevantes em Probabilidade e ja sao interessantes no caso discreto,
em que as tecnicalicades de Teoria da Medida sao desnecessarias e as ideias envolvidas se
tornam transparentes. Alem disso, as distribuicoes discretas sao freq uentemente encontradas
em aplicacoes de Probabilidade.
Estas duas razoes sugerem que um curso introdutorio de Probabilidade dispense especial
atencao a este caso particular da teoria. No entanto, a duracao do curso de mestrado em
Probabilidade do IMPA exige que se cumpra a parte difcildo programa sem muita demora.
Estas notas sucintas se propoem a complementar este curso atraves de um estudo paralelo
da Probabilidade discreta atraves de exerccios. Apresentaremos uma boa parte do curso
neste caso particular, indicaremos a correspondencia natural que existe entre conceitos de
Probabilidade discreta e de Medida e, por m, exibiremos as limitacoes do caso discreto e a
forma pela qual elas sao superadas pela teoria axiomatica de Kolmogorov.
Sugestoes e correcoes devem ser enviadas para rimfo@impa.br.
1.1 Andamento
Estas notas sao um trabalho em andamento que sera constantemente atualizado. Manter-
emos aqui uma lista das modicacoes mais relevantes e das secoes ja prontas.
1.1.1 20 de marco de 2007
So os Captulos 2 e 3 est ao razoavelmente prontos (mas ainda nao revistos). O Captulo 4
ja esta algo legvel e pode ser estudado preliminarmente. O Captulo 5 ainda esta totalmente
caotico.
1.2 Referencias
As principais referencias destas notas sao:
1. Kai Lai Chung, A Course in Probability Theory Revised;
2. William Feller, An Introduction to Probability Theory and Its Applications, Volume1;
3. Barry James. Probabilidade: um curso em nvel intermediario.
1
Captulo 2: Denicoes basicas do caso discreto
2.1 Conceitos basicos
Aproximadamente um sexto dos lancamentos de um dado resulta no n umero 4. As
brasileiras tem em media 2, 5 lhos. Ha uma chance de 22% de que a economia chilena cresca
mais do que a indiana no ano de 2007. Cada uma destas armacoes pode ser vagamente
interpretada de uma das seguintes duas maneiras:
Avaliacao de risco: Ha um conjunto de possibilidades para o que pode vir a acontecer.
A cada possibilidade atribui-se uma medida numerica do risco de sua ocorrencia.
Freq uencia: Olhamos para uma serie de circunstancias repetidas. Para cada repeticao,
observamos a ocorrencia de um dado evento e calculamos a fracao de vezes em que o
evento acontece.
Grosso modo, a denicao de probabilidade que veremos a seguir captura a primeira inter-
pretacao acima. Um teorema fundamental chamado de Lei dos Grandes N umeros nos permi-
tira dizer que, ao menos em alguma situa coes, podemos recuperar a segunda interpretacao de
forma precisa.
Nossa denicao (provisoria) de probabilidade tem dois ingredientes.
Denicao 2.1. Um espaco de probabilidade discreto e um par (, P) cujos dois elementos
sao:
1. Um espaco amostral , que e o conjunto de possveis acontecimentos, e que e um
conjunto nito ou enumeravel.
2. Uma medida de probabilidade (ou distribuicao) P(), que atribui a cada elemento
uma probabilidade (valor de risco) P() [0, 1]. Exigiremos sempre que a soma das
probabilidades seja 1, isto e:

P() = 1.
Hipotese 2.2. Todos os espacos de probabilidade neste captulo sao espacos discretos.
A denicao acima induz uma funcao sobre os subconjuntos de (isto e, o conjunto T()
das partes de ). Esta nova funcao tambem sera chamada de P.
(2.1)
P : T() [0, 1]
A P(A) =

A
P()
Note que, com esta denicao, P() e o valor de P() denido anteriormente.
Exerccio 2.1. Prove que a funcao P sobre T() satisfaz as seguintes propriedades:
1. P() = 0
2. P() = 1
2
3. se A
1
, A
2
, sao conjuntos disjuntos 2 a 2, P
_

+
n=1
A
n
_
=

+
n=1
P(A
n
). (A
probabilidade da uniao de conjuntos disjuntos e a soma das probabilidades dos conjuntos
individuais.)
Mostre a seguinte recproca: se P : T() [0, 1] satisfaz estas tres propriedades, entao
P() = P() e uma medida de probabilidade no sentido da Denicao 2.1.
Observacao 2.3. Os elementos A T() sao ocasionalmente chamados de eventos.
Exerccio 2.2. Prove tambem as seguintes propriedades.
1. Se A B , P(A) P(B);
2. Se A
1
, A
2
, P(A
1
) = P(A
1
A
2
) +P(A
1
A
2
);
3. para todo A T(), P(A
c
) = 1 P(A), onde A
c
e o complementar de A em .
4. Inclusao-exclusao: Para quaisquer conjuntos A
1
, A
2
:
P(A
1
A
2
) = P(A
1
) +P(A
2
) P(A
1
A
2
) .
5. Inclusao-exclusao generalizada: Para quaisquer conjuntos A
1
, A
2
, . . . , A
n
:
P(
n
i=1
A
i
) =
n

k=1
(1)
k+1

S{1,...,n}:|S|=k
P(
iS
A
i
) ,
onde [S[ e a cardinalidade de S. [Este e um item mais difcil. Uma estrategia para
resolve-lo e usar inducao em n. O caso n = 2 e o item anterior. Para n 3, considere
P(B
n1
A
n
) onde B
n1
=
n1
i=1
A
i
. Note que pelo item anterior:
P(B
n1
A
n
) = P(A
n
) +P(B
n1
) P
_
B

n1
_
,
onde B

n1
=
n1
i=1
(A
i
A
n
). Agora aplique a hipotese indutiva.]
2.2 Exemplos
Alguns exemplos basicos de espacos de probabilidade sao apresentados a seguir. O leitor
deve certicar-se de que cada um corresponde de fato a um espaco de probabilidade.
Exerccio 2.3 (Espacos produto). Para 1 i n, sejam (
i
, P
i
) espacos de probabilidade
(discretos). Dena um novo espaco (, P) mediante o produto cartesiano
=
1

2
. . .
n
e tomando
(2.2) P() = P
1
(
1
) P
1
(
2
) . . . P
n
(
n
) , = (
1
, . . . ,
n
) .
Mostre que (, P) e um espaco de probabilidade (o espaco produto) e que (2.2) e equivalente
a
P(A
1
A
n
) = P
1
(A
1
) P
1
(A
2
) . . . P
n
(A
n
) , A
1
, . . . , A
n
.
3
Exemplo 2.4 (Bernoulli). Neste caso = 0, 1 correspondendo ao cara/coroa de uma
moeda. Fixamos um n umero p [0, 1] e dizemos que P(1) = p, P(0) = 1p. Esta distribuicao
e chamada de Bernoulli com parametro p (Be
p
)
Exerccio 2.4 (Produto de Bernoullis). Escolha p [0, 1] e n N. Seja = 0, 1
n
e
P() = p
||
(1 p)
n||
, onde [[ =

n
i=1

i
. Mostre que este espaco e o produto de n
espacos
i
= 0, 1 com medida P
i
= Be
p
.
Exemplo 2.5 (Um dado). Neste caso = 1, 2, 3, 4, 5, 6 correspondendo `as faces de um
dado. Denimos P() = 1/6 para cada .
Exemplo 2.6 (Distribuicao uniforme). Generalizando o exemplo anterior, e um conjunto
discreto dado e P() = 1/[[ para cada , onde [[ e a cardinalidade do conjunto .
Esta e a distribuicao uniforme sobre (Unif

)
Exerccio 2.5. Mostre que neste caso A , P(A) = [A[/[[.
Exerccio 2.6 (Produtos de distribuicoes uniformes sao uniformes). O produto de n espacos
nitos (
i
, P
i
= Unif
i
) e (, P = Unif

).
Exemplo 2.7 (Distribuicao geometrica). A tecnica de datacao por carbono 14 e baseada no
chamado decaimento: cada atomo transforma-se espontaneamente em outro tipo de atomo
ao longo do tempo
1
. Nosso espaco correspondera ao n umero de segundos que um atomo
escolhido de carbono 14 demora para decair: = N = 1, 2, 3, . . . . A probabilidade P tera a
forma de decaimento exponencial discretodeterminada pela seguinte formula:
(2.3) P(k, k + 1, k + 2, . . . ) = (1 p)
k1
,
onde p [0, 1) e um parametro que depende das propriedades do carbono-14
2
. De modo geral,
a distribuicao determinada pela formual acima e chamada de geometrica com parametro p
(Geo
p
).
Exerccio 2.7. Mostre que ha uma unica funcao P : [0, 1] compatvel com (2.3) e que
ela e dada por P() = p(1p)
1
. Calcule tambem a meia-vida H, isto e, o menor k tal que
P(k, k + 1, k + 2, . . . ) 1/2.
Exemplo 2.8 (Binomial). Recordamos a denicao do coeciente binomial
_
n
k
_
:
_
n
k
_

n!
k!(n k)!
(k, n N, 0 k n).
A distribuicao binomial com parametros n N, p [0, 1] (Bin
n,p
) e a probabilidade sobre
= 0, 1, 2, . . . , n dada por
_
n
k
_
p
k
(1 p)
nk
, k .
1
Ver http://en.wikipedia.org/wiki/Carbon-14.
2
Por que nao podemos tomar p 1?
4
Exerccio 2.8 (Produto de Bernoullis e Binomial.). Volte ao Exerccio 2.4. Considere os
eventos E
k
: [[ = k. Prove que cada E
k
e a uniao disjunta de
_
n
k
_
eventos
F
S
: 1 i k,
i
= 1 se i S ou 0 se i , S.
Mostre que P(F
S
) = p
k
(1p)
nk
e que P(E
k
) = Bin
n,p
(k). Esta conexao entre o produto de
Bernoullis e a distribuicao Binomial sera elucidada quando falarmos de variaveis aleatorias.
Exerccio 2.9 (Apresentando a distribuicao Poisson). Fixe > 0 e considere (para n ) a
distribuicao P
n
= Bin
n,pn
, com p
n
= /n. Note que P
n
(k) esta denido para todo 0 k n
inteiro. Prove o seguinte limite para todo k N
lim
n+
P
n
(k) Po

(k) = e

k
k!
.
Po

e uma probabilidade sobre N conhecida como Poisson com parametro > 0. Este ex-
erccio mostra que binomiais convergem para Poisson; um resultado mais forte sera provado
bem mais adiante.
Exemplo 2.9 (Retirando bolas de urnas com ou sem reposicao). Imagine uma urna com
bolas numeradas de 1 a n das quais k n bolas a
1
, . . . , a
k
sao retiradas sucessivamente.
Para denirmos as distribuicoes abaixo, seja [b] = 1, dots, b (b natural). S
R
e o conjunto
de funcoes de S em R e S
R
inj
e o subconjunto de funcoes injetivas. Descrevemos duas situacoes
possveis.
1. Cada bola retirada e reposta. Se denimos : [k] [n] via (i) = a
i
, entao e um
elemento do espaco = [n]
[k]
. Se P = Unif
[n]
[k] , este caso e conhecido como retirada
de bolas com reposicao.
2. Cada vez que uma bola e retirada, ela nao e reposta na urna, de modo que na -esima
retirada restam na urna as bolas 1, . . . , na
1
, . . . , a
i1
. Se denimos : [k] [n]
via (i) = a
i
, entao e um elemento do espaco = [n]
[k]
inj
Se P = Unif
[n]
[k]
inj
, temos o
que se chama de retirada de bolas com reposicao.
Exerccio 2.10. Prove que [n]
[k]
e [n]
k
tem uma bijecao natural onde cada [n]
[k]
corre-
sponde ao vetor ((1), . . . , (n)). Logo Unif
[n]
[k] corresponde naturalmente a medida produto
sobre [n]
k
(Exerccio 2.6).
Exerccio 2.11. Considere o caso de uma urna com n bolas da qual k = n bolas sao tiradas
sem reposicao. Mostre que neste caso = S
n
, o conjunto das permutacoes de [n]. Agora
considere o conjunto das permutacoes com pontos xos, isto e, que mapeiam algum i [n]
nele mesmo.
F
n
= S
n
: i [n], (i) = i.
Seja P
n
= Unif

. Seguindo os passos abaixo, provaremos que


P
n
(F
n
) =
n

k=1
(1)
k+1
k!
1 e
1
.
1. Dena E
i
= S
n
: (i) = i. Mostre que F
n
=
i
E
i
.
5
2. Mostre que para todos 1 i
1
< < i
k
n P(E
i1
E
i
k
) = (nk)!/n! = 1/k!
_
n
k
_
[Dica: seja uma permutacao de [n]i
1
, . . . , i
k
(que tem n k elementos). Dena
=

com a permutaca com (i


j
) = i
j
e (u) = (u) para u [n]i
1
, . . . , i
k
. Prove
que a cada E
i1
E
i
k
corresponde um como acima e vice-versa. Isto permite
contar os elementos da interseccao.]
3. Aplique a formula da Inclusao-Exclusao Generalizada aos E
i
s.
2.3 Probabilidades condicionais
Suponha que temos um espaco de probabilidade (, P) correspondendo por exemplo a uma
carta de um baralho com disribuicao uniforme. Estas cartas estao particionadas em quatro
conjuntos correspondendo aos naipes e queremos saber se a carta escolhida e de copas
. De incio, tudo o que podemos dizer e que, se C e o evento copas,
P(C) =
1
4
.
Equivalentemente, o riscoatribudo a C e de 25%. Suponha, no entanto, que recebemos a
informacao de que a carta escolhida e preta, isto e, P. Neste caso, e necessario atualizar
nossa medida de risco: como todas as cartas de copas sao vermelhas, devemos passar a atribuir
risco 0 ao dado evento. Isto e, cndicionado ao evento P, o evento C em probabilidade 0. Por
outro lado, se descobrimos que e vermelha ( V = P
c
), entao continua existindo um
risco de que C; como metade das cartas vermelhas pertence a V , parece natural dizer
que condicionado a V , a probabilidade de C e 1/2.
A probabilidade condicional pode ser vista como uma formalizacao da ideia de que proba-
bilidades devem ser atualizadas cada vez que informacao nova e recebida. Mostraremos mais
adiante que as formulas abaixo representam uma atualizacao otima das medidas de risco de
acordo com uma certa medida natural de qualidade. Segue que as formulas abaixo nao sao
arbitrarias; pelo contrario, sua escolha e bem motivada.
Denicao 2.10. Seja (, P) um espaco de probabilidade discreto e A um evento com
P(A) > 0. A probabilidade condicional de dado A e denida pela formula.
(2.4) P( [ A) =
_
P()
P(A)
, A;
0, A
c
.
Observacao 2.11. Note que para todo evento B, P(B [ A) = P(B A) /P(A) [Exerccio].
Ocasionalmente falaremos de P(B [ A) para P(A) = 0; neste caso, a probabilidade condicional
pode ser denida de maneira arbitraria, pois seu valor quase nunca fara diferenca.
Exerccio 2.12. Formalize o problema do baralho descrito acima e mostre que P(C [ P) = 0,
P(C [ V ) = 1/2.
Exerccio 2.13 (Regra da probabilidade total.). Se A
1
, A
2
, . . . e uma particao de ,
B , P(B) =

i
P(B [ A
i
) .
6
Exerccio 2.14 (Regra de Bayes.). Se P(A) , P(B) > 0,
P(A [ B) =
P(B [ A) P(A)
P(B)
.
Exerccio 2.15. Considere = [n] = 1, . . . , n com a medida uniforme. Suponha que n e
divisvel por 4. Seja P [n] o sub-conjunto dos pares e I = P
c
o sub-conjunto dos mpares e
Q o sub-conjunto dos n umeros divisveis por 4. Calcule P(Q) , P(Q [ P) , P(Q [ I) , P(P [ Q).
Exerccio 2.16 (Falta de memoria da distribuicao geometrica). Consideramos agora (, P) =
(N, Geo
p
) como no Exemplo 2.7. Considere um evento M
k
k, k + 1, k + 2, . . . . Mostre
que a distribuicao condicional de P( [ M
k
) e dada por
P(i +k 1 [ M
k
) = p(1 p)
i1
, i N e P(j [ M
k
) = 0, j < k.
Em particular, mostre que a meia-vida da distribuicao condicional e k 1 + H, onde H e a
meia-vida de Geo
p
. Intuitivamente, isto quer dizer que se o atomo nao decaiu ate o tempo
k, o tempo que falta para o decaimento tem a mesma distribuicao que tinha originalmente: o
atomo nao se lembra de quanto tempo ja passou.
Em muitos casos usa-se probabilidades condicionais para denir uma medida P implicita-
mente. Abaixo vemos alguns exemplos.
Exemplo 2.12. Tem-se um saco com n moedas. Uma moeda e escolhida aleatoriamente
e joga-se cara/coroa com ela, obtendo 1 ou 0. Nosso espaco amostral sera dado por =
[n]0, 1, correspondendo ao par moeda/resultado, e cada elemento de e um par = (k, b).
Considere os eventos E
k
= k 0, 1 correspondentes a escolha da k-esima moeda.
Sejam F
b
= [n] b os eventos correspondentes ao valor cara/coroa. Nossa regra para
denir probabilidades em e a seguinte.
1. P(E
k
) = 1/n para cada k [n] (ou seja, as moedas sao equiprovaveis);
2. P(F
1
[ E
k
) = 1 P(F
0
[ K = k) = p
k
, onde p
k
(0, 1) (a k-esima moeda tem probabil-
idade p
k
de dar cara).
Isto dene unicamente uma medida sobre dada por
P((k, b)) =
p
k
b + (1 p
k
)(1 b)
n
.
[Exerccio.]
Exerccio 2.17. Suponha que p
1
> > p
n
. Calcule P(F
b
) e P(E
k
[ F
b
) e mostre que
P(E
k
[ F
1
) decresce com k.
Ou seja: se o resultado do lancamento e cara, as moedas com proabilidade alta de cara sao
as mais provaveis (segundo a probabilidade condicional).
Exemplo 2.13. Voltamos ao cenario do Exemplo 2.7. Agora temos dois tipos de atomo e
observamos o decaimento de um deles. Formalmente,
= 0, 1 N
correspondendo a pares (atomo,tempo do atomo). Se A
b
= b N e D
k
0, 1 k,
denimos:
7
1. P(A
i
) = 1/2 (os atomos sao equiprovaveis);
2. P(D
k
[ A
i
) = p
i
(1 p
i
)
k1
, onde p
i
(0, 1) (o decamento do i-esimo atomo tem dis-
tribuicao Geo
pi
).
Isto tambem dene uma probabilidade sobre [Exerccio].
Exerccio 2.18. Calcule P(D
k
) e P(A
i
[ D
k
). Se p
1
= 1/2 e p
0
= 1/3, para quais k a
probabilidade de A
0
condicionada a D
k
e maior (isto e, quando o atomo 0 tem probabilidade
condicional maior)?
[Outros exerccios: os das secoes 1.1 e 1.2 do Barry James que nao envolvem explicitamente
-algebras ou conjuntos nao discretos.]
2.4 Particoes e probabilidades condicionais
Acima falamos que probabilidades condicionais podem ser vistas como uma forma geral de
atualizar a medida de risco de acordo com alguma informacao nova recebida. De modo geral,
receber informacao sobre signica saber que esta em algum subconjunto A .
Se T = A
1
, . . . , A
n
e uma particao de , podemos imaginar que a informacao recebida e
T() = A
i
a que pertence. Isto leva a uma denicao de probabilidade condicionada a T
como uma funcao.
Denicao 2.14. Se e um conjunto com particao T e P e uma distribuicao sobre ,
P( [ T) : (, B) T P(B [ T())
e a probabilidade condicional sobre T. Aqui T() e o ( unico) elemento de T a que pertence.
A funcao P( [ T) condensatodas as probabilidades condicionais P(B [ A
i
) em um unico
objeto. Veremos mais adiante de que forma isto e util.
Exerccio 2.19. Reformule a regra no Exerccio 2.13 como P(B) =

P() P(B [ T()).


Exerccio 2.20. Se T = A, A
c
, P(B [ T) () = P(B [ A) se A e P(B [ A
c
) em caso
contrario.
2.5 Independencia
Se probabilidades condicionais representam atualizacoes na avaliacao de risco, independencia
signica que saber se A ocorreu nao altera a avaliacao de risco de B. Isto sugere que A
e B sao independentes quando P(B [ A) = P(B), o que equivale pela regra de Bayes a
P(A [ B) = P(A) quando P(B) , P(A) > 0. Para evitar esta ulima condicao, toma-se em
geral uma denicao ligeiramente diferente (porem equivalente).
Denicao 2.15. Dizemos que eventos A, B sao independentes quanto P(A B) = P(A) P(B).
Em geral, n 2 eventos A
1
, . . . , A
n
sao ditos independentes se para todas as escolhas de
1 i
1
< i
2
< < i
k
n,
P(A
i1
A
i
k
) = P(A
i1
) . . . P(A
i
k
) .
8
Exerccio 2.21. A
1
, . . . , A
n
sao independentes sse B
1
, . . . , B
n
o sao, onde cada B
i
e A
i
ou
A
c
i
.
Uma denicao um pouco mais geral e dada por
Denicao 2.16. Dizemos que n 2 particoes T
1
, . . . , T
n
sao independentes se para toda
escolha de F
i
T
i
,
P(F
1
F
n
) = P(F
1
) . . . P(F
n
) .
Exerccio 2.22. Se cada T
i
= A
i
, A
c
i
, a denicao acima equivale `a independencia de
A
1
, . . . , A
n
.
Exerccio 2.23. Qualquer subconjunto de uma famlia de eventos/particoes independentes e
ele proprio independente.
Exerccio 2.24. T
1
e T
2
s ao independentes sse P(F
2
[ T
1
) () P(F
2
) para todo F
2
T
2
e com P() > 0.
Exerccio 2.25. Os T
i
sao independentes sse o seguinte ocorre: sempre que A
i
e a uni ao de
eventos em T
i
para cada i, entao A
1
, . . . , A
n
sao independentes. Mostre que isto implica que
se (
1
e outra particao de e T
1
rena (
1
3
, entao (
1
, T
2
, . . . , T
n
sao independentes. [Dica:
cada G sG
1
e a uniao de elementos de T
1
.]
Exerccio 2.26. Seja T
i,j
: 1 i n, 1 j m
i
uma famlia de particoes independentes.
Dena

mi
j=1
F
i,j
F
i,1
. . . F
i,mi
: 1 j m
i
F
i,j
T
i,j
(1 i n).
Mostre que as
mi
j=1
F
i,j
s tambem sao particoes independentes.
O exemplo mais simples de particoes independentes e o dado por espacos produto (Ex-
erccio 2.3). Seja =
1
. . .
n
com uma medida produto P. Para cada 1 i n, considere
a particao T
i
de onde elementos sao separados pela i-esima coordenada.
T
i
F
i,i
= (
j
)
n
j=1
:
i
=
i
:
i

i
.
As particoes assim construdas sao independentes [Exerccio]. Grosso modo, qualquer outra
famlia de particoes independentes tem comportamento semelhante a este exemplo. Ressalta-
mos, no entanto, que nem sempre eventos independentes vem de espacos produto. Veja por
exemplo o exerccio a seguir.
Exerccio 2.27. Tome = [n] com medida P = Unif
[n]
. Determine os valores de n para os
quais os seguintes eventos sao independentes:
P = k [n] : k par,
M = k [n] : k n/2.
O exerccio seguinte faz outra ressalva importante.
3
Isto e, todo F F
1
esta contido em algum G G
1
.
9
Exerccio 2.28. Sejam =
1

2

3
com
i
= 0, 1. Seja P dada por
P((
1
,
2
,
3
)) =
_
1
4
,
3
=
1
+
2
mod 2;
0
3
,=
1
+
2
mod 2
Cheque que isto e de fato uma medida de probabilidade. Agora construa T
1
, T
2
, T
3
como no
caso de espacos produto. Prove que T
1
, T
2
, T
3
nao sao independentes, mas que qualquer par
delas e. Isto mostra que a independencia de tres eventos nao e conseq uencia da independencia
dois-a-dois.
Exerccio 2.29. Sejam A
1
, A
2
independentes com probabilidades p
1
, p
2
(resp.). Prove
que P(A
1
A
2
) = p
1
+p
2
p
1
p
2
. Generalize este resultado via Inclusao-Exclusao generalizada
para A
1
, . . . , A
n
independentes.
Exerccio 2.30. Seja = 0, 1
n
com a medida produto Be
p
(Exerccio 2.4). Use o exerccio
acima para calcular a probabilidade dos com exatamente uma coordenada igual a 1.
[Resposta: np(1 p)
n1
.]
10
Captulo 3: Variaveis aleatorias
3.1 Denicao
Quase todos os problemas interessantes em Probabilidade envolvem o conceito de variavel
aleatoria.
Denicao 3.1. Seja (, P) um espaco de probabilidade discreto. Uma funcao X :
(onde e algum outro conjunto) e chamada de variavel aleatoria (ou v.a.).
Intuitivamente
1
, uma variavel aleatoria corresponde a algum tipo de informacao obtido
ou desejado sobre o elemento . Se por exemplo (, P) corresponde aos valores de acoes
numa bolsa de valores ou seja, cada e um vetor com precos de acoes diferentes em
momentos diferentes X = X() pode ser o preco das acoes de uma dada empresa ao nal
do pregao de um dia xo. Podemos imaginar duas situacoes: ou queremos estimar X, ou
pretendemos usar X como base para estimar uma outra quantidade Y = Y () (por exemplo,
o preco da mesma acao em outro dia).
A maior parte dos exemplos de variaveis aleatorias que consideraremos tera valores em N,
Z, R ou R
d
; neste ultimo caso, elas tambem serao chamadas de vetores aleatorios.
3.2 Distribuicao de uma variavel aleatoria
Note que a denicao de v.a. nao envolve a medida de probabilidade P. A probabilidade
entra em cena quando percebemos que P e X induzem uma medida de probabilidade no
contradomnio .
Denicao 3.2. Sejam (, P) e X como acima. Considere o conjunto (enumeravel) dado por
X() X() : .
A distribuicao de X e a probabilidade P
X
sobre X() dada por
P
X
() P
_
X
1
()
_
( ).
Os conjuntos X
1
() e X
1
(A) (A X()) sao normalmente representados pelas expressoes
X = e X A, respectivamente. A probabilidade P
X
pode ser estendida para todo E
pela formula
P
X
(E) = P(X E) P(X X() E) =

:X()E
P() .
A ultima parte da deni cao e um abuso da denicao de proabilidade discreta, ja que
pode nao ser enumeravel. No entanto, como X() e sempre enumera vel, isto nao causara
problemas.
1
Esta intuicao sera esclarecida na Secao ??
11
Exerccio 3.1. Seja um conjunto nito ou enumeravel e uma medida de probabilidade
sobre . Prove que existe uma v.a. X : e uma distribuicao P sobre tal que P
X
= .
[Dica: o exerccio e trivial!]
Observacao 3.3. Podemos denir distribuicoes condicionais: P
Y
(y [ A) = P(Y = y [ A).
Exerccio 3.2 (Falta de memoria de v.a.s geometricas). Reformule o Exerccio 2.16 da
seguinte maneira: se X tem distribuicao Geo
p
, entao para todo k a distribuicao de X k +1
condicionada a X k tambem e Geo
p
. Em outras palavras:
P(X = x +k 1 [ X k) = p(1 p)
x1
.
3.3 Distribuicoes novas a partir de antigas
Apresentaremos agora alguns resultados gerais e especcos sobre distribuicoes de v.a.s.
Como em muitos problemas trataremos de variaveis aleatorias denidas a partir de outras
v.a.s, e conveniente comecar por um resultado para esta situacao.
Exerccio 3.3. Seja X :
1
uma v.a. e f :
1

2
uma funcao. Dena a composicao
f(X) f X. Mostre que f(X) e uma v.a. e que
A
2
, P
f(X)
(A) = P
X
_
f
1
(A)
_
.
Um caso particular especialmente importante e o de soma de variaveis aleatorias.
Exerccio 3.4 (Soma de variaveis aleatorias). Seja X = (X
1
, X
2
, . . . , X
n
) uma v.a. com
valores em R
d
e dena f(x
1
, x
2
, . . . , x
n
) =

n
i=1
x
i
. Mostre que S
n
f(X) = X
1
+ X
2
+
+X
n
e deduza do exerccio anterior que
P(S
n
= z) = P
_
_
_
(z1,z2,...,zn)X() : z1++zn=z
(X
1
= z
1
X
2
= z
2
X
n
= z
n
)
_
_
.
Mostre que os eventos nesta uniao sao disjuntos e deduza:
P(S
n
= z) =

(z1,z2,...,zn)X() : z1++zn=z
P
_
n

i=1
X
i
= z
i

_
.
Os proximos exerccios consideram outras situacoes que nao as de soma.
Exerccio 3.5. Suponha que (, P) e um espaco nito com P uniforme (Exemplo 2.6). Seja
X : tal que para um certo inteiro s, todo tem exatamente s pre-imagens por X.
Prove que P
X
= Unif

.
Exerccio 3.6. Seja [n] = 1, . . . , n. Denamos a quantidade
_
n
k
_
como o n umero de sub-
conjuntos de [n] com cardinalidade k. Denamos tambem n! como o n umero de permutacoes
de [n]. Nosso objetivo e provar sem usar as formulas de
_
n
k
_
e n! que
0 k n,
_
n
k
_
=
n!
(n k)!k!
.
Para isso devemos seguir os seguintes passos.
12
1. Seja = S
n
o conjunto de permutacoes de [n] e = S T([n]) : [S[ = k.
2. Ponha medida P = Unif
Sn
sobre S
n
.
3. Dena a v.a. X : S
n
(1), . . . , (k).
4. Fixe S . Escolha X
1
(S). Prove que qualquer outro X
1
(S) e da forma
=
1

2
,
onde
1
e permutacao de [k] (estendida a i > k via
1
(i) = i) e
2
e permutacao de
[n][k] (estendida a j k via
2
(j) = j).
5. Prove agora que para cada par (
1
,
2
) deste tipo ha exatamente um como acima.
Mostre que ha k!(n k)! destes pares e deduza que
P(X = S) =
k!(n k)!
n!
.
6. Por outro lado, use o exerccio anterior para mostrar que P(X = S) = 1/[[ e conclua
a prova.
Exerccio 3.7. Dados 1 k n, considere = [n] [n 1] [n k +2] [n k +1]
com a medida uniforme. Dena X
1
() =
1
e para cada 2 i k:
X
i
() = o
i
-esimo elemento de [n]X
1
(), . . . , X
i1
().
Tome P = Unif

, considere a funcao aleatoriaX : [n]


[k]
que para cada e dada
por
X() : [k] [n]
t X
t
()
.
Mostre que X tem a distribuicao de k bolas retiradas sem reposicao de uma urna com n
bolas(Exemplo 2.9), isto e, X e uniformemente distribuda sobre as funcoes injetivas [n]
[k]
inj
.
[Dica: use o Exerccio 2.6 para mostrar que P e uma distribuicao produto.]
Exerccio 3.8. Considere novamente k bolas retiradas sem reposicao de uma urna com n
bolas(Exemplo 2.9), isto e: = [n]
[k]
inj
e P = Unif

. Seja S [k] um conjunto com s


elementos e tome X como a restricao a S:
X : [n]
[k]
inj

[
S
: i S (i).
Mostre que P
X
= Unif
[n]
S
inj
. Este fato tem a seguinte interpretacao: se so olhamos para s
das k bolas retiradas , a distribuicao observada e a mesma de s bolas tiradas sem reposicao
de uma urna com n bolas.
3.4 Independencia
Grosso modo, eventos s ao independentes quando qualquer subgrupo deles nao da in-
formacao alguma a respeito dos eventos restantes. A denicao de independencia de variaveis
aleatorias signica algo semelhante e de fato e equivalente `a independencia das particoes
correspodentes a cada v.a., conforme o exerccio abaixo.
13
Exerccio 3.9. Cada v.a. X : gera uma particao T
X
de :
T
X
= X
1
(x) : x X().
Por outro lado, se T e uma particao, existe uma v.a. X com T
X
= T.
Denicao 3.4. Sejam X
i
:
i
, 1 i n v.a.s. Elas sao independentes se alguma das
seguintes condicoes equivalentes e satisfeita:
1. A distribuicao do vetor (X
1
, . . . , X
n
) sobre =
n
i=1
X
i
(
i
) e uma medida produto.
2. Para todos x
i
X
i
(
i
),
P
(X1,...,Xn)
((x
1
, . . . , x
n
)) = P(
i
X
i
= x
i
) =
n

i=1
P
Xi
(x
i
) =
n

i=1
P(X
i
= x
i
) ;
3. Para todos A
i
T(X
i
(
i
)),
P
(X1,...,Xn)
(A
1
A
n
) =
n

i=1
P
Xi
(A
i
) ;
4. As particoes T
Xi
sao independentes.
Exerccio 3.10. Prove a equivaencia.
Os dois proximos exerccios podem ou ser resolvidos diretamente, ou via os resultados
sobre particoes independentes (p. ex. Exerccio 2.25,Exerccio 2.26).
Exerccio 3.11 (Agrupar v.a.s nao destroi a independencia). Sejam X
i,j
: 1 i n, 1
j m
i
v.a.s independentes. Considere os vetores Y
i
= (X
i,j
)
mi
j=1
. Mostre que eles tambem
sao independentes. [Dica/obs: na notacao do Exerccio 2.26, T
Yi
=
mi
j=1
T
Xi,j
.]
Exerccio 3.12 (Tomar funcoes das v.a.s nao destroi a independencia). Sejam X
i
:
i
,
1 i n v.a.s independentes e f
i
funcoes denidas nos espacos apropriados. Entao as v.a.s
Y
i
= f
i
(X
i
) sao independentes.[Dica/obs: na notacao do Exerccio 2.25, cada T
Yi
e renada
por T
Xi
.]
3.5 Somas de variaveis aleatorias independentes
Exerccio 3.13 (Somas de v.a.s produto; convolucoes discretas). Se as X
i
: R
d
(1
i n) sao independentes,
x = (x
1
, . . . , x
n
) (R
d
)
n
P
(X1,...,Xn)
(x) =
n

i=1
P
Xi
(x
i
) .
Aplique este resultado junto com o Exerccio 3.4para mostrar que neste caso:
P(S
n
= z) =

(z1,z2,...,zn): z1++zn=z
P(X
1
= z
1
) P(X
2
= z
2
) . . . P(X
n
= z
n
) .
14
Em particular, se X
1
, X
2
, . . . , X
n
tomam valores em Z:
z Z, P(S
n
= z) =

(z1,z2,...,zn1)Z
n1
(P(X
1
= z
1
) P(X
2
= z
2
)
P(X
n1
= z
n1
) P(Z
n
= z z
1
z
2
z
n1
)).
No caso n = 2, a operacao que leva os vetores innitos (P(X
i
= z
i
))
ziZ
em (P(S
2
= z))
zZ
e chamada de convolucao discreta. Para n > 2, temos convoluc oes iteradas.
Exerccio 3.14 (A soma de Bernoullis produto e Binomial). Considere o espaco-produto
de Be
p
s discutido no Exerccio 2.4: isto e, = 0, 1
n
e P() = p
||
(1 p)
n||
, onde
[[ =

i
. Dena
i
:
i
como a funcao que leva na sua i-esima coordenada. Note
que a soma das
i
s e
S() =
n

i=1

i
() = [[.
Use o resultado anterior para mostrar que
P
S
(z) = P(S = z) =
_ _
n
k
_
p
k
(1 p)
nk
, k 0, . . . , n;
0 caso contrario.
Isto e, S tem distribuicao Bin
n,p
(Exemplo 2.8). [Obs: de que forma isto elucida o Ex-
erccio 2.8.]
Exerccio 3.15 (A soma de Poissons produto e Poisson). Considere
1
,
2
, . . . ,
n
= N onde
cada
i
recebe medida Po
i
. Construa o produto (, P), dena
i
como no exerccio anterior
e considere S
j
=

ij

i
. Mostre por inducao que cada S
j
tem distribuicao Po
P
ij
i
.
15
Captulo 4: Valores esperados, momentos e desigualdades
4.1 Valores esperados e momentos
Nesta secao deniremos o valor esperado de uma variavel aleatoria com valores reais e
algumas outras quantidades da derivadas. Primeiro comecamos com v.a.s especialmente
simples.
Denicao 4.1. Seja X : R uma v.a. . Dizemos que X e a funcao indicadora (ou
caracterstica) de A se X() = 1 quando A e X() = 0 quando A
c
. Neste caso
escreveremos X como X = I
A
.
Exerccio 4.1. Se X : R, PX = Be
p
para algum p [0, 1] (cf. Exemplo 2.4) se e
somente se existe A com P(X = I
A
) = 1. Neste caso, p = P(A).
Exerccio 4.2. Mostre que toda X : R e uma combinacao linear de funcoes
simples. Mais exatamente,
X =

xX()
xI
X
1
(x)
.
A denicao de valor esperado E[X] pode ser escrita da seguinte maneira: se X = I
A
,
E[X] = P(A); para outras X, a denicao se estende por linearidade:
X =
+

j=1
c
j
I
Aj
E[X] =
+

j=1
c
j
P(A
j
) .
No entanto, esta extensao pode apresentar problemas de convergencia quando e innito.
Evitamos esta diculdade com uma denicao em duas partes. Comecamos com v.a.s com
valores nao-negativos.
Denicao 4.2. Seja X : [0, +] uma v.a. com valores nao negativos. O valor esperado
(ou esperanca) de X, simbolizado por E[X], e dado por
E[X]

X()P() ,
com a convencao de que 0. = 0. O valor esperado tambem pertence a [0, +]. Ocasion-
almente representaremos E[X] como uma integral:
E[X] =
_

X dP.
Observacao 4.3. Suponha que = 0, 1, P = Be
p
(cf. Exemplo 2.4) e X = +. I
{1}
, i.e.
X(0) = 0 e X(1) = +. Entao E[X] = 0 se p = 0 e E[X] = + em caso contrario.
Observacao 4.4. Se e nito e X 0, E[X] < + se e somente se P(X = +) = 0.
Quando e innito ainda e verdade que E[X] < + P(X = +) = 0, mas a recproca
e falsa (ex: = N, P
X
= Geo
1/2
como em Exemplo 2.7 e X() = 3

para N).
16
Exerccio 4.3. Mostre que, na situacao acima:
E[X] =

xX()
xP(X = x) =

xX()
xP
X
(x) .
Deduza que se (, Q) e outro espaco de probabilidade discreto e Y : [0, +] com Q
Y
=
P
X
(isto e, X e Y tem a mesma distribuicao), entao E[X] = E[Y ].
Exerccio 4.4. Se X, Y : R e X Y sempre, E[X] E[Y ].
Agora deniremos E[X] para X qualquer.
Denicao 4.5. Seja X : [, +] uma v.a. com valores reais (possivelmente diver-
gentes). X e dita integravel se E[[X[] < + segundo a Denicao 4.2. Se X e integravel, o
valor esperado (ou esperanca) de X, simbolizado por E[X], e dado por
E[X] E[maxX, 0] E[maxX, 0] ,
onde os dois valores esperados do lado direito sao denidos como antes.
Exerccio 4.5. Use o Exerccio 4.4 para mostrar que E[[X[] < +implica que E[maxX, 0] <
+, E[maxX, 0] < +. Mais ainda, mostre que neste caso
E[X] =

X()P()
onde a serie e absolutamente convergente. Por m, prove que os fatos no Exerccio 4.3
pernamecem validos sob a denicao geral sempre que X for integravel (o que e equivalente a
Y integravel).
Exerccio 4.6. Se X toma valores em N 0, E[X] =

+
n=1
P(X n).
Exerccio 4.7. Mostre que
1. P
X
= Be
p
(cf. Exemplo 2.4) E[X] = p;
2. P
X
= Geo
p
(cf. Exemplo 2.7) E[X] = 1/p;
3. P
X
= Bin
n,p
(cf. Exemplo 2.8) E[X] = pn [Dica: Escreva
G(a, b) = (a +b)
n
=
n

k=0
_
n
k
_
a
k
b
nk
.
Derivando termo a termo em a, mostre que
E[X] = a
G
a
(a, b)
_
(a,b)=(p,1p)
e calcule E[X] da.];
4. P
X
= Po

(cf. Exerccio 2.9)E[X] = .


17
Exerccio 4.8. Seja L
1
= L
1
(, P) o espaco vetorial cujos elementos sao as v.a.s integraveis
X : R. Mostre que E[] e um operador linear sobre este espaco. Isto e, se R e X,
Y L
1
, entao X +Y L
1
e E[X +Y ] = E[X] +E[Y ]. [Se X, Y, 0, o requerimento
de estar em L
1
pode ser eliminado.]
Observacao 4.6. Todas as denicoes acima tem analogos para X = (X
1
, . . . , X
d
) :
R
d
. E[X] e o vetor cujas coordenadas sao os E[X
i
] (se estes valores estao denidos). Se
E[[X
i
[] < + para cada i, dizemos que X e integravel.
Deniremos agora os momentos de X.
Denicao 4.7. Para p [0, +) com E[[X[
q
] < +, o q-esimo momento de X e dado por
E[X
q
]. Se p [1, +), a norma L
p
de X e |X|
p
(E[[X[
p
])
1/p
.
Exerccio 4.9. Mostre que |X|
p
= 0 sse P(X = 0) = 1.
4.1.1 A desigualdade de Jansen e as normas L
p
Denicao 4.8. Seja K R
d
convexo. Dizemos que a funcao : K R e convexa se para
todos x, y K e [0, 1]:
(x + (1 )y) (x) + (1 )(y).
Lema 4.9 (Desigualdade de Jansen). Se K R
d
e convexo, X : K e integravel e
: K R e convexa e contnua,
(E[X]) E[(X)] .
Prova: [Esboco.] O primeiro passo e provar que n N, x
1
, . . . , x
n
K e
1
, . . . ,
n

[0, +) com

n
i=1

i
= 1,
(
n

i=1

i
x
i
)
n

i=1

i
(x
i
).
De fato, se tomamos x = x
n
, y =
P
n1
i=1
ixi
P
n1
i=1
i
e =
n
, deduzimos que

_
n

i=1

i
x
i
_
= (x + (1 )y)
(x) + (1 )(y)
=
n
(x
n
) +
_
n1

i=1

i
_

n1
i=1

i
x
i

n1
i=1

i
_
e o resto do resultado segue por inducao. Suponha agora que a imagem de X : R
d
contem nitos pontos x
1
, . . . , x
n
, isto e
X =
n

i=1
x
i
I
{X=xi}
.
18
Aplicando o resultado de convexidade acima com
i
= P(X = x
i
), deduzimos que
(E[X]) = (
n

i=1
x
i
P(X = x
i
))

i=1
P(X = x
i
) (x
i
)
= E[(X)] .
Em geral, a imagem de X e um conjunto enumeravel x
i

+
i=1
. Mas este caso e um limite do
primeiro [Exerccio.] 2
Exerccio 4.10. Aplicando Jansen a (x) = [x[ (norma euclideana), mostre que para toda
X : R
d
[E[X] [ E[[X[].
Exerccio 4.11. Sejam q > p > 0. Aplicando Jansen a (x) = x
q/p
(x 0), mostre que
para toda X : R |X|
p
|X|
q
. Em particular, E
_
X
2

(E[[X[])
2
(E[X])
2
.
Exerccio 4.12. O exerccio anterior mostra que |X|
p
e funcao crescente de p. Em partic-
ular, existe o limite
|X|

lim
p+
|X|
p
[0, +].
Prove que
|X|

= sup[X()[ : , P() > 0.


Observacao 4.10. A chamada desigualdade de Holder implica que, se X e Y sao v.a.s sobre
o mesmo espaco e 1 p, q + satisfazem p
1
+q
1
= 1,
|XY |
1
|X|
p
|Y |
q
.
Em particular, se p = q = 2 temos a desigualdade de Cauchy-Schwartz:
|XY |
1
|X|
2
|Y |
2
.
4.2 Variancia e covariancia
Apresentamos agora duas quantidades essenciais: a variancia e a covariancia.
Denicao 4.11. Seja X : R dada com X
2
integravel (logo, pelo Exerccio 4.11 X e
integravel). A quantidade
V(X) E
_
(X E[X])
2

e chamada a variancia de X. Ela pode ser equivalentemente escrita como V(X) = E


_
X
2

(E[X])
2
[Exerccio.].
Observacao 4.12. A variancia e sempre nao negativa (Exerccio 4.11). V(X) = 0 sse
X = E[X] com probabilidade 1 (Exerccio 4.9).
19
Denicao 4.13. Sejam X, Y : R com X
2
, Y
2
integraveis. A covariancia de X e Y e a
quantidade dada por:
C(X, Y ) E[(X E[X])(Y E[Y ])] .
Equivalentemente, C(X, Y ) = E[XY ] E[X] E[Y ] [Exerccio].
Observacao 4.14. V(X) = C(X, X).
Exerccio 4.13. Usando os resultados do Exerccio 4.7, mostre que:
1. P
X
= Be
p
(cf. Exemplo 2.4) V(X) = p(1 p);
2. P
X
= Geo
p
(cf. Exemplo 2.7) V(X) = 1/p
2
1/p [Dica: calcule = E[X(X 1)]
e determine V(X) a partir de . Note que
= p
+

k=2
k(k 1)(1 p)
k1
= p(1 p)
d
2
dp
2
_
+

k=0
(1 p)
k
_
= p(1 p)
d
2
dp
2
_
1
p
_
=
2 2p
p
2
.
];
3. P
X
= Bin
n,p
(cf. Exemplo 2.8) V(X) = p(1 p)n [Dica: Como antes, e melhor
calcular = E[X(X 1)] antes. Escreva
G(a, b) = (a +b)
n
=
n

k=0
_
n
k
_
a
k
b
nk
.
Derivando termo a termo em a, mostre que
E[X(X 1)] = a
2

2
G
a
2
(a, b)
_
(a,b)=(p,1p)
e calcule = E[X(X 1)] da.];
4. P
X
= Po

(cf. Exerccio 2.9) V(X) = [Dica: mais uma vez vale a pena comecar
calculando = E[X(X 1)]. Neste caso,
=

k0
e

k(k 1)

k
k!
=
2

k2
e


k2
(k 2)!
.
.]
Exerccio 4.14. V(X) = V(X c) para qualquer c R. Se E[X] = 0 V(X) = E
_
X
2

. Do
mesmo modo, C(X, Y ) = C(X c
X
, Y c
Y
) e C(X, Y ) = E[XY ] se E[X] = E[Y ] = 0
20
4.3 A desigualdade de Chebyshev e concentracao
Variancias sao freq uentemente mais faceis de se calcular do que probabilidades exatas de
eventos. A desigualdade abaixo mostra que em alguns casos importantes, pode-se estimar
probabilidades a partir de variancias:
Proposicao 4.15 (Desigualdade de Chebyshev). Se E
_
[X[
2

< +,
> 0, P([X E[X][ )
V(X)

2
.
Prova: Suponha sem preda de generalidade que V(X) > 0. Seja A [X E[X][ . Se
: R [0, +) e uma funcao crescente com () > 0, temos que
, [X() E[X][ ([X E[X][) ()
([X E[X][)
()
1.
Tomando (x) = x
2
, podemos reescrever:
(4.1) A
(X() E[X])
2

2
1.
Mas entao temos:
,
(X() E[X])
2

2
I
A
().
De fato, a desigualdade vale para A por conta de (4.1) e para A
c
porque lado esquerdo
e sempre 0. Tomando valores esperados, vemos que:
V(X)

2
=
_ _
(X() E[X])
2

2
_
dP()
_
I
A
() dP() = P(A) .
2
De que forma se utiliza este resultado? Consideremos o caso em que P
X
= Bin
n,p
. Neste
caso, vimos acima que E[X] = np, V(X) = p(1 p)n. Suponha que queremos estimar uma
probabilidade do tipo
Bin
n,p
(k : [k np[ np) = P([X np[ np) .
Usando Chebyshev com = np, temos
(4.2) Bin
n,p
(k : [k np[ np)
p(1 p)n

2
n
2
p
2

1

2
pn
.
Equivalentemente,
Bin
n,p
(k : [k np[ < np) 1 (
2
pn)
2
.
Isto quer dizer que se pn e grande, a maior parte da massada distribuicao Bin
n,p
se
concentra no intervalo ((1 )np, (1 + )np). Em outras palavras, Y
n
X/np 1 esta
quase sempre no intervalo (, ). Esta propriedade e um exemplo simples do que se chama
de concentracao de medida: a distribuicao P
Yn
esta quase toda concentrada num pequeno
intervalo ao redor de um valor determinstico 0 cujo tamanho tende a 0 quando n +.
Um resultado semelhante vale sempre que V(X) E[X]
2
:
21
Denicao 4.16 (Concentracao). Considere uma seq uencia de distribuicoes
n
sobre R
d1
.
Dizemos que
n
se concentra em c R
d
se para toda bola aberta B centrada em c temos
lim
n+

n
(B) = 1.
Uma seq uencia de v.a.s se concentra em c quando suas distribuicoes se concentram em c.
Exerccio 4.15. Se p
n
[0, 1] satisfaz p
n
n +, e P
Xn
Bin
n,pn
, entao Y
n
= X
n
/pn1
se concentra em 0. Se
n
+ e P
Xn
Po
n
, Y
n
= X
n
/
n
se concentra em 1.
Uma pergunta importante e: quando as condicoes de concentracao acima descritas sao
satisfeitas? Um caso particular e dado por variaveis aleatorias sem covariancia, que discutimos
a seguir.
Denicao 4.17. X
n
: R
+
n=1
sao v.a.s sem covariancia se para todos i, j N distintos
C(X
i
, X
j
) = 0.
Proposicao 4.18. Para quaisquer v.a.s X
1
, . . . , X
n
,
V
_
n

i=1
X
i
_
=
n

i=1
V(X
i
) + 2

1i<jn
C(X
i
, X
j
) .
Em particular, se as X
i
s nao tem covariancia, a variancia da soma e a soma das variancias.
Prova: [Exerccio.] 2
Teorema 4.19 (Lei fraca dos grandes n umeros.). Seja X
n
: R
+
n=1
uma seq uencia de
v.a.s sem covariancia e cujas variancias sao limitadas por
2
< + e tais que Entao as
medias empricas centradas:
C
n

n
i=1
(X
i
E[X
i
])
n
se concentram ao redor de 0. De fato,
P([C
n
[ )

2

2
n
.
Prova: Basta aplicar a Desigualdade de Chebyshev a nC
n
: como nao ha correlacoes entre os
(X
i
E[X
i
])s
V(nC
n
) =
n

i=1
V((X
i
E[X
i
])) =
n

i=1
V(X
i
)
2
n.
Logo
P([C
n
[ ) = P([nC
n
E[nC
n
] [ n)

2
n

2
n
2
e a concentracao segue do fato que o lado direito tende a 0 quando n + para todo xo.
2
1
Mais exatamente, existe Sn R
d
nito ou enumeravel tal que n e medida sobre Sn. Neste caso,
estendemos n a todo A R
d
como zemos no caso de v.a.s (Denicao 3.2): n(A)
P
ASn
n().
22
Exerccio 4.16. No teorema acima, se lim
n+

n
i=1
E[X
i
] /n existe, entao as medias
F
n

in
X
i
/n se concentram ao redor de .
No caso X
i
= I
Ai
para uma seq uencia A
i
de eventos, podemos interpretar a Lei Fraca
da seguinte forma (cf. a introducao do captulo). As probabilidades P(A
i
) oferecem nossa
avaliacao dos riscosde cada evento A
i
. Supondo-se que
(4.3) C
_
I
Ai
, I
Aj
_
= P(A
i
A
j
) P(A
i
) P(A
j
) = 0
para todo par i ,= j, vemos temos
2
1 e que portanto a Lei Fraca dos Grandes N umeros
nos diz que
para n grande,

n
i=1
I
Ai
n

n
i=1
P(A
i
)
n
com probabilidade 1.
Em outras palavras: sob a hipotese (4.3), ha um baixo riscode que as freq uencias com que
os A
i
s ocorrem se desvie muito do valor esperado, quando olhamos para um n umero grande
de eventos.
A condicao (4.3) e chamada de independencia. O captulo seguinte contem muitos exem-
plos de independencia; por hora, notamos apenas o seguinte resultado.
Denicao 4.20. Dois eventos A, B sao ditos independentes quando P(A B) = P(A) P(B).
Corolario 4.21 (Lei Fraca dos Grandes N umeros para Eventos Independentes). Seja A
i

+
i=1
uma seq uencia de evento independentes dois-a-dois. Considere
C
n

n
i=1
(I
Ai
P(A
i
))
n
.
Entao C
n
se concentra em 0 quando n +. Mais exatamente,
> 0, P
__
:

i=1
I
Ai
()
n

i=1
P(A
i
)

> n
__

2
n
.
4.4 Aplicacao a aproximacoes por polinomios
Conclumos esta secao com um bonus: uma prova probabilstica do conhecido Teorema
de Weierstrass sobre aproximacoes por polinomios.
Teorema 4.22 (Weierstrass). Para toda funcao contnua f : [0, 1] R, existe uma seq uencia
P
n
[f] de polinomios tas que lim
n+
(sup
x[0,1]
[f(x) P
n
[f](x)[) = 0.
A prova que daremos da uma expressao explcita para cada P
n
[f] e uma cota de aprox-
imacao para cada n nito (como veremos num Exerccio). A demonstracao se baseia em duas
observacoes simples:
1. Bin
n,p
se concentra quando n + (cf. (4.2)); e
2. para qualquer f : [0, 1] R,
P
n
[f](x) =
_
f(k/n) dBin
n,x
(k) =
n

k=0
_
n
k
_
f(k/n)x
k
(1 x)
nk
e um polinomio na vari avel x [Exerccio].
23
Prova: [Bernstein] Seja f : [0, 1] R contnua.

E sabido que qualquer f deste tipo e uni-
formemente contnua, isto e, o modulo de continuidade
m() sup[f(x) f(y)[ : x, y [0, 1], [x y[ ( > 0)
satisfaz lim
0
m() = 0. Sabemos tambem que |f|

= sup
x[0,1]
[f(x)[ < +. A desigual-
dade de Jansen implica que
[f(x) P
n
[f](x)[
_
[f(k/n) f(x)[ dBin
n,x
(k).
Fixamos um > 0 e dividimos a integral do lado direito em dois termos.
_
[f(k/n) f(x)[ dBin
n,x
(k) =
_
{k : |knx|n}
[f(k/n) f(x)[ dBin
n,x
(k)
+
_
{s : |snx|>n}
[f(s/n) f(x)[ dBin
n,x
(s).
Na primeira integral, [k/n x[ , logo [f(k/n) f(x)[ m(). Na segunda usamos a cota
mais fraca (e sempre valida) [f(s/n) f(x)[ 2 sup
t[0,1]
[f(t)[ = 2|f|

. Deduzimos que
[f(x) P
n
[f](x)[
_
{k : |knx|n}
m() dBin
n,x
(k)
+
_
{s : |snx|>x}
2|f|

dBin
n,x
(k)
m() + 2|f|

Bin
n,x
s : [s nx[ > n
((4.2) com p = x, = /x) m() +
2|f|

x(1 x)

2
n
(0 x 1, x(1 x) 1/4) m() +
|f|

2
2
n
.
Esta ultima cota e uniforme em x e vale para > 0 arbitrario, logo
> 0, |f P
n
[f]|

m() +
|f|

2
2
n
.
A prova se encerra tomando limites em n + e 0 (nesta ordem!). 2
Exerccio 4.17. A prova acima da uma cota quantitativa para a qualidade da aproximacao
por P
n
[f]. Quanto menor o modulo de continuidade m(), melhor a cota. Mostre que se f e
Lipschitz com constante |f|
Lip
,
|f P
n
[f]|

|f|
Lip
+
|f|

2
2
n
e otimize a escolha de =
n
para obter uma cota explcita para cada n N.
24
Captulo 5: Interpretacao das probabilidades condicionais
5.1 Probabilidades e esperancas condicionais
Dissemos no incio do captulo que uma medida de probabilidade corresponde a uma
avaliacao de risco. Tambem foi dito que uma variavel aleatoria corresponde a informacao
recebida a respeito de um dado espaco amostral. Nesta secao discutiremos de que maneira a
informacao recebida nos permite calibrar a nossa medida de risco de modo a fazer previsoes
mais precisas. Isto nos levara a deduzir as regras das chamadas probabilidades condicionais.
5.1.1 Informacao e aproximacao: denindo probabilidades condicionais
Nosso problema nesta se cao e prever o valor de uma variavel aleatoria X : R que
suporemos satisfazer E
_
[X[
2

< +, com base em alguma informacao I : que


dispomos sobre . Para isto, escolheremos uma funcao f : R de modo a minimizar
o erro medio quadratico:
(X, f(I)) E
_
(X f(I))
2

.
No caso trivial I =constante; a informacao que obtemos e in util. e nosso problem e equivalente
a achar c R tal que
E
_
(X c)
2

= min
xR
E
_
(X c)
2

.
Proposicao 5.1. Para qualquer x R temos
E
_
(X x)
2

= V(X) + (E[X] x)
2
.
Logo o problema acima tem uma unica solucao c = E[X].
Prova:
E
_
(X x)
2

= E
_
X
2
+x
2
2xX

= E
_
X
2

+x
2
2xE[X]
= E
_
X
2

+ (x E[X])
2
E[X]
2
= V(X) + (x E[X])
2
.
2
Consideraremos a seguir o caso I = I
A
para algum A . Isto e, toda a informacao que
temos sobre e se A ou nao. Suporemos que 0 < P(A) < 1, de modo que A nao e
nem impossvelnem certo
1
. Procuramos entao uma func ao f : 0, 1 R tal que
(5.1) E
_
(X f(I))
2

= inf
g:{0,1}R
E
_
(X g(I))
2

.
Este e um problema geomeetrico no espaco L
2
= L
2
(, P). Este espaco e Hilbert com o
produto interno U, V ) E[UV ], ao menos quando identicamos quaisquer U, U

L
2
com
P(U = U

) = 1 [Exerccio]. De agora em diante faremos esta identicacao tacitamente.


1
Intuitivamente, se um evento sempre ocorre (ou nunca ocorre), ele nao nos da informacao alguma sobre a
situacao em questao.
25
Lema 5.2. O subconjunto
E
I
g(I) : g : 0, 1 R
e o subespaco linear de L
2
gerado por I
A
, I
A
c .
Prova: De fato,
g(I) = g(0)I
A
+g(1)I
A
c
sempre esta neste espaco, e inversamente qualquer v.a.
U = a
1
I
A
+a
0
I
A
c spanI
A
, I
A
c
e dada por g(I) com g(0) = a
0
, g(1) = a
1
. 2
Segue-se que queremos achar , R que minimizem
E
_
(X I
A
I
A
c )
2

= E
_
(X )
2
I
A
+ (X )
2
I
A
c

.
Armamos que ha uma unica escolha possvel para e :
= E[X [ A]
E[XI
A
]
P(A)
= E[X [ A
c
]
E[XI
A
]
P(A
c
)
.
De fato, temos o seguinte resultado:
Proposicao 5.3. Para qualquer R temos
E
_
(X )
2
I
A

= P(A) E
_
(X E[X [ A])
2

+P(A) (E[X [ A] x)
2
e analogamente para A
c
.
Prova: Basta seguir os passos da prova de Proposicao 5.1. 2
Exerccio 5.1 (Apresentando a probabilidade condicional). Mostre que E[X [ A] como denido
acima satisfaz
E[X [ A] =
_

X() dP( [ A) ,
onde para todo E
P(E [ A) = E[I
E
[ A] =
P(E [ A)
P(A)
ou equivalentemente
P( [ A) =
P() I
A
()
P(A)
( ).
A distribuicao P( [ A) e a distribuicao condicionada a A. P(E [ A) e a probabilidade condi-
cional de E dado A.
Juntando todos os resultados anteriores, vemos ha uma unica funcao f : 0, 1 R que
satisfaz
E
_
(X f(I))
2

= inf
g:{0,1}R
E
_
(X g(I))
2

.
e ela e dada por
f(x)
_
E[X [ A] , x = 1;
E[X [ A
c
] , x = 0.
26
5.1.2 Informacao e aproximacao: o caso geral
Suponha agora que I : e geral. Provaremos que existe uma f : R tal que
(5.2) E
_
(X f(I))
2

= inf
g:R
E
_
(X g(I))
2

.
Primeiro notamos o seguinte resultado.
Proposicao 5.4. Considere a particao T
I
de induzida pelas imagens inversas dos valores
de I:
T
I
I
1
() : I().
Entao para toda Y : R, Y = f(I) para algum f : R se e somente se
Y =

EP
I
c
E
I
E
,
com c
E
R para cada E T
I
. Alem disso, para cada particao T de existe um conjunto
e uma funcao I : tal que T = T
I
Prova: Exerccio. Para a ultima armacao, basta tomar = T e I() = E T tal que
E. 2
Esta proposicao mostra que particoes e v.a.s sao em certo sentido equivalentes. Podemos
vericar que isto faz sentido quando notamos que a informacao que i = I() da a respeito
de e justamente que I
1
(i). Optamos por lidar com particoes a seguir. Se T e uma
particao e
L
2
(, T, P) = spanI
E
: E T,
entao a otimizacao descrita em (5.2) se torna a busca por U L
2
(, T, P) tal que
(5.3) E
_
(X U)
2

= inf
V L2(,P,P)
E
_
(X V )
2

.
Provaremos o seguinte teorema geral:
Teorema 5.5. Sejam X : R com E
_
X
2

< + e T uma particao de . Entao ha uma


solucao U L
2
(, T, P) que e equivalentemente descrita pelas seguintes propriedades:
1. U e solucao de (5.3);
2. para todo E T, E[UI
E
] = E[XI
E
].
U e a unica solucao de cada um destes dois problemas, no sentido de que qualquer outra
solucao V satisfaz P(U = V ) = 1.
27