Escolar Documentos
Profissional Documentos
Cultura Documentos
BARRY R. JAMES. Probabilidade Um Curso em Nível Intermediário. (Projeto Euclides) - CNPq. 1981 (O.C.R.) - 2
BARRY R. JAMES. Probabilidade Um Curso em Nível Intermediário. (Projeto Euclides) - CNPq. 1981 (O.C.R.) - 2
BARRY R. JAMES. Probabilidade Um Curso em Nível Intermediário. (Projeto Euclides) - CNPq. 1981 (O.C.R.) - 2
( probabilidade:
um curso em nível
intermediário
(
(
(
;
I '
!
(
( J
probabilidade:
James, Barry R., 1942 -
Probabilidade: um curso em nível intermediário/Barry
R. James - Rio de Janeiro: Instituto de Matemática Pura
um curso em nível
e Aplicada, 1981
304 pp. (Projeto Euclides) intermediário
Bibliografia
1. Probabilidades
I. SÉRIE li. T(TULO
CDD-519.2
Comissão Editorial
Cesar Camacho Manco PREFÁCIO ............................... .. .... ........................... ... ........... VII
Chaim Samuel HOnig
Djairo Guedes de Figueiredo CAPÍTULO I DEFINIÇÕES BÁSICAS
Elon Lages Lima § 1.1 Modêlo matemático para um experimento (modêlo probabilistico) ..
Guilherme de La Penha
ImreSimon § 1.2 Probabilidade condicionai.... ..... .... ............. ............ .. ... .......... 14
Jacob Palis Junior § 1.3 Independência ...... ..... .......... .. ............................... .............. 18
Lindolpho de Carvalho Dias Exercícios .. .. . . .. .. . . . . . . . .. . . . .. .. .. . . .. .. .. . . . .. . .. .. .. . . .. . . .. . . . .. . . .. .. .. .. .. . .. . .. . . 27
Manfredo Perdigão do Carmo
Pedro Jesus Fernandez
CAPÍTULO 2 VARIÁVEIS ALEATÓRIAS
Tftu/os já publicados: § 2.1 Variáveis aleatórias e funções de distribuição ............................. 35
I. Curso de Análise, vol. I, Elon Lages Lima § 2.2 Tipos de variáveis aleatórias ............................... .................... 41
2. Medida e Integração, Pedro Jesus Fernandez § 2.3 A distribuição de uma variável aleatória ..... ............................... 47
3. Aplicações da Topologia à Análise, Chaim Samuel HOnig 55
4. Espaços Métricos, Elon Lages Lima § 2.4 Vetores aleatórios .. ..... .. ....................... ... .............................
S. Análise de Fourier e Equações Diferenciais Parciais,· Ojairo Guedes de Figueiredo § 2. 5 Independência ....... .. .................... .... .. .. ........ ....................... 59
6. Introdução aos Sistemas Dinãm;cos, Jacob Palis Junior e Welington C, de Melo § 2.6 Distribuições de funções de variáveis e vetores aleatórios ... :........... 67
7. Introdução à Álgebra, Adilson Gonçalves § 2. 7 O método do jacobiano.... ....... ........... ........ ..... . .. .... .. . ...... .. .. . .. 74
8. Aspectos Teóricos da Computação, Cláudio L. Lucchesi; Imre Simon, Istvan Simon, 84
§ 2. 8 Observações adicionais- variáveis e vetores aleatórios .............
Janos Simon e Tomasz Kowaltowski 86
9. Teoria Geométrica das Folheações, Alcides Lins Neto e Cesar Camacho Manco
Exercícios . .. .. . . .. .. . . .. .. .. .. . .. .. .. . . .. .. .. .. .. .. . .. .. .. . .. . .. .. . . . . .. .. .. . . . . . . .. . . .. . .
10. Geometria Riemanniana, Manfredo P. do Carmo
11. Lições de Equações Diferenciais Ordinárias, Jorge Sotomayor
12. Probabilidade: Um Curso em Nível Intermediário, Barry R. James CAPÍTULO 3 ESPERANÇA MATEMÁTICA
13. Curso de Análise, vol. 2, Elon Lages Lima
§ 3 .I Preliminares: a integral de Stieltjes .. ... .. .. .. .. .. .. .. .. ........ .... .... .. .. . 97
§ 3.2 Esperança.................. ............................... ......................... 104
Publicação feita com auxilio da FINEr - Financiadora de Estudos e Projetos. § 3.3 Propriedades da esperança ............................... ...................... 113
§ 3.4 Esperanças de funções de variáveis aleatórias ............................. 11 7
§ 3.5 l\.1omentos ............................... ............................... ........... 120
§ 3.6 Esperanças de funções de vetores aleatórios.................. ............. 126
§ 3 .7 Teoremas de convergência ............................... ...................... 133
Composiçilo e arte:
AM Produções Gráfiças Ltda.
Exercícios .......................... ... ............................... ..................... 137
Impresso por:
Gráfica Editora Hamburg Ltda. CAPÍTULO 4 DISTRIBUIÇÃO E ESPERANÇA CONDICIONAIS
Rua Apeninos , 294- São Paulo- SP
§ 4.1 Distribuição condicional de X dada Y discreta ............................ 144
Distribuído por: 154
Livros Técnicos e Científicos Editora S.A. § 4.2 Distribuição condicional de X dada Y: caso geral ........................
Avenida Venezuela, 163 § 4.3 Definições formais e teoremas de existência ............................... 162
20.200- Rio de Janeiro, RJ- Brasil § 4.4 Exemplos. ............ .. ............................... ............................ 166
§ 4.5 Esperança condicional .................. .. ............................... ..... .. 174
Le calcu/ des probabilités n 'est au jond que /e bon sens réduit au calcu/.
CAPÍTULO 7 O TEOREMA CENTRAL DO LIMITE - Laplaée
D. Agradt?ci mcntos.
DEFINIÇÕES BÁSICAS
embora contenha muitíssimos resultados impossívei~. pode represen- Aqui estão alguns eventos para esse experimento:
tar uma escolha muito conveniente para n.
principalmente no caso
origem é s -~ .. :
em que desejemos atribuir uma distribuição normal ao resultado (veja
.4 = "distância entre o ponto escolhido e a
o Capítulo 2). B ="distância entre o ponto escolhido e a origem é 2 15":
C= "].• coordenada do ponto escolhido é maior que a 2.•".
o
importante. então. é que n contenha todo resultado possível: Se w = (x. y) for o resultado do experimento. w será favorávei
por isso vamos supor: 1
ao evento A se. c somente se. x
2
+ y2 s ~- . c será favorável a C se.
(i) a todo resultado possível corresponde um. e somente um. pon-
to WEÜ: C c só se. x > y. Nenhum resultado será favorável a B. Logo temos :
(ii) resultados distintos correspondem a pontos distintos em n.
i. e .. w não pode representar mais de um resultado.
Ora. quando se realiza um experimento há certos erl!ntos que
ocorrem ou não. Por exemplo. no experimento I (jogar um dado e
observar o resultado) alguns eventos são:
B = 0 == conjunto vazio~
A = "observa-se um número par"
B = "observa-se o número 2"
C = ··observa-se um número 2 4...
C= :(x.y))EO :x > y:
Notemos que cada um desses eventos pode ser identificado a um
subconjunto de Q a saber: A= (2. 4. 6:. B = (2;. C= :4. 5. 6:. Esta
identificação de eventos c subconjuntos costuma sa realizável no caso
de um experimento qualquer. Então. todo evento associado a este experimento pode ser iden-
Com efeito. seja O o espaço amostrai e A um evento associado tificado a um subconjunto do espaço amostrai n. Reciprocamente .
ao experimento. i. e .. um evento que seguramente irá ou não ocorrer se A for um subconjunto qualquer de n.
i. e .• A C n, então será con-
sempre que for rcalindo o experimento. Para fixarmos idéias. supo- veniente identificar A e o evento "resultado do experimento perten-
nhamos que O consista exatamente nos resultados possíveis do expe- ce a A".
rimento. de modo que O não contenha resultados impossíveis. Su- Chegamos à seguinte definição. qw.: adotaremos no caso geral.
ponhamos. então. que (IJ seja o resultado do experimento. Se A ocorre. inclusive nos casos em que utilizamos um espaço amostrai maior que
dizemos que uJ é jilroráre/ a A. Se A não ocorre. dizemos que w não o estritamente necessário:
é favorável a A (ou ainda, que uJ é favorável ao evento "não A"). Iden-
DEFINIÇÃO 1.1. Seja no espaço amostrai do experimento. Todo
tificaremos o evento A e o subconjunto de O que contém todo oJ fa- subconjunto A c O será chamado erento. O é o
vorável a A. Por exemplo. consideremos o
evento certo. 0 o evento impossh·el. Se uJ E n, o evento [w; é dito e/e-
melltar (ou simples).
EXPERIMENT O 3. Escolher. ao acaso. um ponto do círculo (disco)
de raio I centrado na origem. Então Observação. Às vezes. identifi.;amos o evento [(!) l (= "resultado do ex-
perimento é w") e o ponto w. Como. por exemplo. na
n = círculo unitário = :(.x. y} E IFI: 2 : x 2 -+ y 2 s I:. indicação P((l)) = P( :w}l.
(
É bom saber traduzir a notação de conjunt os para a linguagem DEFIN IÇÃO 1.2. Um evento A ao qual atrubuím os uma proba-
de eventos : A u B é o evento "A ou B", A (I B= "A c B", A'' = não A" bilidade será chamad o evento aleatório.
(i. e., ocorre o evento Ac se, e somente se, não ocorre o evento A);
A C B significa : a ocorrênc ia do evento A implica a ocorrênc ia do Na prática. o fato de não podermo s atribuir probabi lidade a todo
evento B ; A (I B = 0 significa: A E B são eventos mutuamente exclu- evento não nos causará problem as. No experim ento 3, por exemplo ,
sivos ou incompatíveis. (Para um exercício sobre essa linguagem, veja obviame nte é suficiente restringi r a nossa atenção aos conjunto s com
o exercíci o l.) área bem definida, pois os conjunto s sem área definida nunca surgem
na prática (de fato, é impossível visualiz ar um tal conjunto ).
A esta altura é razoável pergunt ar: a que eventos vamos atribuir Vamos supor, contudo , que a classe dos eventos aleatóri os possua
probabi lidade? Conside remos novame nte o experim ento 1, e seja A certas propried ades básicos e intuitivas, que serão essenciais para o
um evento, i. e., A c n. É evidente que podemo s atribuir probabil i- desenvo lvimento posterio r da teoria e do cálculo de probabil idades.
dade a A pois estamos jogando um dado equilibr ado. De fato, defi- Indican do com d a classe dos eventos aleatório s, vamos estipula r as
nimos: seguinte s propried ades para .s;( :
P(A) = #A = número de resultado& favoráveis a~- . AI. O E.w (definiremos P(il) = 1).
6 número de resultad os possíveis A2. Se A E.w, então A c Ed (é evidente que definiremos
Esta é a definiçã o clássica de probabi lidade quando Q é finito, e ba- P(A c) = I - P(A)).
seia-se no conceito de resultad os equiprov áveis, ou melhor, no prin-
A3. Se A E ..w' e B E.fiÍ, então A u B E.fli (i. e., se atribuirm os uma
cípio da indiferen ça (estamo s "indifere ntes" diante dos resultad os
1 probabi lidade a A c outra a B, então atribuire mos uma probabi lidade
1, 2, 3, 4, 5, 6 ; logo definimos P(i) = - V i E il). Então para o expe- a "A ou B".)
6
Em outras palavras, vamos supor que cf!Í seja uma álgebra de
rimento I, nossa resposta é que todo evento terá uma probabi lidade. eventos :
Conside remos agora o experim ento 3 (escolher um ponto ao acaso
no círculo unitário) . Aqui "ao acaso" será interpre tado assim: dois
eventos têm a mesma probabi lidade se, e somente se, eles têm a mes- DEFIN IÇÃO 1.3. Seja n um conjunto não-vaz io. Uma classe .fli de
ma área. (Essa probabi lidade é chamad a geométrica. Veja Gncden ko subconj untos de n satisfaze ndo AI, A2 e A3 é
[li], §6.) Essa interpre tação conduz à definição, para A c n. chamad a álgebra de subconj untos de n.
=(área A)/7t para todo A cuja área está bem definida ; i. e., não po- Esta proposiç ão diz que uma álgebra é fechada para um número
demos estender a definição de P(A) para todo evento de modo a sa- finito de aplicaçõ es das operaçõ es u, (1, e c.
tisfazer os axiomas usuais, que serão vistos mais adiante. A prova disto
depende da Hipótes e do Contínu o.) Vamos, então, atribuir probabi - ProL'a. AI e A2 implicam A4. Para A5, temos A3=>A 1u A 2 E.~~
n
lidade somente aos eventos cuja área estiver bem definida. Tais even- =>(Ai u A.2)u A3 Ed => ... => U AiE.!<lf, por indução.
tos serão chamad os eventos aleatório s. i I
6 Probabilidade: Um curso em Nível Intermediário Definições Básicas 7
Agora basta observar que Podemos dizer, então, que uma a-álgebra é fechada para um nú-
mero enumerável de aplicações das operações u , n e '.
/J Ai= (0.AJ
e aplicar sucessivamente A2, a parte já provada de A5 e, novamente,
EXEMPLOS (de a-álgebra de eventos aleatórios).
A2. O
(1) Caso discreto. Se O for finito ou enumerável, então d será
(Exercício. Demonstre que .91 é também fechada para diferenças, i. e.,
se A Es# e B Es#, então A- B E.<;;/, onde A- B =A n Bc.) (usualmente) a a-álgebra de todas as partes de n, i. e., .91 = 9(0). Por
exemplo, no experimento l, onde O= {l, 2, 3, 4, 5, 6}, temos .91 =
= 9(0) = {0, {1 }, {2}, ... {6}, {1, 2}, ... , 0}. A classe .91 tem 26 = 64
Sem perda de generalidade (veja a segunda observação a seguir), elementos, de modo que há 64 eventos aleatórios associados a este ex-
vamos supor que a classe dos eventos aleatórios também satisfaça: perimento. No caso finito geral, se O tem n elementos, 9(0) tem 2".
oc
O leitor deveria se convencer do fato de 9(0) ser uma a-álgebra, ve-
A3'. Se A.Es# para n= I, 2, 3, ... , então U A.E .<;;/.
n; l rificando Al, A2 e A3:
r (2) Caso contínuo. Consideremos o
DEFINIÇÃO 1.4. Uma classe .r# de subconjuntos de um conjunto
não-vazio O satisfazendo A I, A2 e A3' é chamada EXPERIMENTO 4. Selecionar, ao acaso, um ponto do intervalo
a-álgebra de subconjuntos de O. [0, I]. Aqui, O = [0, I] e .91 = todos os sub-
conjuntos cujo comprimento esteja bem definido. Quem são esses
Observações. (1) Uma a-álgebra é sempre uma álgebra, pois A3 é con- conjuntos? Consideremos primeiro uniões finitas de intervalos e seja
seqüência de A3:já que Au B = Au Bu Bu B ... E.<;;/ d 0 ={A c[O,l]: A é . união finita de intervalos}. Notemos ques# 0
se .91 é a-álgebra. é álgebra, pois o Ed 0• se A Es# o então Ac também é união finita de
(2) Podemos supor, sem perda de generalidade, que .91 é uma intervalos, A3 é trivial. O conjunto vazio 0 e o evento elementar
a-álgebra em vez de álgebra, pelo Teorema da Extensão de Carathéo- {w}, onde w E [0, I], serão interpretados como intervalos degenerados
dory. Este teorema da Teoria da Medida garante que uma probabili- de comprimento O, portanto serão elementos de .91 0 • Mas .91 0 não é
dade definida em uma álgebra, e de acordo com os axiomas usuais, a-álgebra, pois não contém toda união enumerável de intervalos, como
pode ser estendida de uma única maneira para a a-álgebra gerada teria que conter se fosse a-álgebra. Por exemplo, o evento
pela álgebra. (Para entender o significado de "a-álgebra gerada pela ' .
Sejam r 1 • r 2 •••. os racionais em [O. I], e seja A. o intervalo aber- descrita como união enumerável de retângulos. Aliás, todo subcon-
to de centro r. e comprimento ej2", onde e > O. Então, junto do plano que pode ser desenhado ou visualizado é boreliano,
"- e podemos dizer a mesma coisa sobre os borelianos da reta, do es-
B = {r. : n = I, 2, ... J C ,,U
_ t
A •• paço, etc.
No caso de n geral, :JB" é a a-álgebra de Borel no IR", i. e., a menor
e o comprimento do conjunto dos racionais satisfaz a-álgebra contendo todos os retângulos n-dimensionais (os retângulos
comprimento (B) ~ comprimento (.v,A.) tridimensionais, por exemplo, são os paralelepípedos retângulos no IR 3 ).
" e
~ L"- comprimento (A.) = L 2
• = e. Até agora, temos definido a probabilidade de um evento aleató-
n 1 n= I rio utilizando algumas definições clássicas (resultados equiprováveis,
Como o comprimento de B é menor que ou igual a e, pa"ra todo probabilidade geométrica). Outro método de definir probabilidade é
e >O, ele é igual a zero. (Um argumento alternativo : como B é união o da freqüência relativa: poderíamos definir P(A) como o limite da
enumerável dos intervalos degenerados disjuntos {r. }. todos de com- freqüência relativa da ocorrência de A em n repetições independentes
primento zero, o comprimento de B é a soma dos comprimentos dos do experimento, com n tendendo ao infinito, i. e..
componentes, ou seja, comprimento (B) = 0.)
Os eventos A e B acima são uniões enumeráveis de intervalos 1
P(A) = lim - x (número de ocorrências de A em 11 '"ensaios'"
e, portanto, pertencem a toda a-ãlgebra que contém os intervalos. n - 7. n
Neste livro, nossa a-álgebra de eventos aleatórios para o experimento 4 independentes do experimento).
será a a-álgebra gerada pelos intervalos, i. e., a menor a-álgebra que
contém todos os intervalos (veja o exercício 6). Esta a-álgebra é cha- Essa é a definição "freqüentista" ou "estatística" de probabilidade.
mada a-álgebra de Borel em [0, I] e seus elementos são chamados Baseia-se na experiência, comum a todos nós, da estabilidade da fre-
borelianos. Notação : !Ml 0 • 11 =( A C [0, 1]: A boreliano ). qüência relativa de ocorrência de eventos, quando realizamos muitas
repetições do experimento. Essa definição foi usada por von Mises
Obserr·açào. Vamos indicar com J9 a a-álgebra de Borel na reta, i. e .. na construção de uma teoria de probabilidade. Não é, contudo, a
a menor a-álgebra contendo todos os intervalos. Os ele- definição, que adotaremos neste livro, mas será obtida no Capítulo 5
mentos desta a-álgebra são os borelianos da reta. Em termos intuiti- _ como conseqüência da construção axiomática de probabilidade que
vos, um borefiano é um conjunto que pode ser obtido de um número começaremos agora.
enumerável de intervalos aplicando-se as operações u . r. e " um nú- Não vamos nos preocupar, doravante, com o problema de como
mero enumerável de vezes. O conjunto dos racionais. por exemplo. definir probabilidade para cada experimento. Simplesmente, vamos
é boreliano por ser união enumerável de intervalos degenerados (pon- admitir que existem as probabilidades em uma certa a-álgebra .91 de
tos). O conjunto dos irracionais também o é, pois é complementar de eventos, chamados eventos aleatórios ; vamos supor que a todo"A E.fil
união enumerável. seja associado um número real P(A~ chamado probabilidade de A,
Definições e notações análogas valem para dimensões maiores que de modo que os axiomas a seguir sejam satisfeitos. (Essa construção
2
um. Por exemplo, :JB 2 é a a-álgebra de Borel no plano IR , i. e., a menor axiomática de probabilidade se deve a Kolmogorov - veja a referência
a-álgebra contendo todos os retângulos. A idéia intuitiva de boreliano [12] - e conseguiu proporcional à Teoria da Probabilidade uma base
no plano é a de um conjunto que pode ser obtido partindo-se de um matemática firme.)
número enumerável de retângulos e aplicando-se as operações u, r.
e < um. número enumerável de vezes. Entre os borelianos do plano AXIOMA I. P( A) ~ O.
encontram-se as regiões abertas, porque toda· região aberta pode ser AXIOMA 2. P(Q) = I.
Definições Básicas 11
1O Probabilidade: Um curso em Nlvel Intermediário
AXIOMA 3. (Aditividade finita). Se A 1 , •..• A. E.~ são disjuntos (2 a 2~ Ocorre que, dados os Axiomas 1, 2, 3, o Axioma 3' é equivalente ao:
entã~ P( Ü
k= I
Ak) = t
k= I
P(Ak). (Os eventos são disjuntos, ou AXIOMA 4. ("Continuidade no vazio"). Se a sequência (A.). ~ 1 , onde
A. E.~ V n, decrescer para o vazio, então PIA.)-+ O quan-
disjuntos 2 a 2, se são mutuamente exclusivos, i. e., A; n A i= 0 se
do n-+ 'X!.
i :F j.)
Observação. decresce para o vazio (A.! 0) significa A.) A. +1
(A.). ~ 1
V n, ou seja, (A.). ~ 1 decresce, e (J A.= 0.
Observações. Como A1u A2 u A3 = (A 1u A2 )u A3 , podemos usar in- n? I
k=l L P(Ak -
k~ 1
Ak+ tl -
n-:r_
P(A tJ.
DEFINIÇÃ O _1.S. Uma função P definida numa a-álgebra .91 e satis- Pela aditividade finita,
fazendo os Axiomas 1, 2 e 3' chama-se uma medida
de . probabilidade em .91 ou simplesmente uma probabilidade em .r;/. P(Ak - Ak+ I) = P(Ak} - P(Ak - tl.
12 Probabilidade: Um curso em Nivellntermediário
Definições Básicas 13
P3. A 1 C A 2 = P(A d::;; P(A 2 ). (Pela aditividade finita, P(A 2 ) = P(A tl+
e então P(A")--+ O. -1- P(A 2 - A d ~ P(A tJ, pelo Axioma I.)
P( y A)::;; ;L P(A;).
(ii) Suponhamos o Axioma 4 e sejam A 1 , A 2 •... u:l disjuntos. Que- I n ' n
P4. (Pela aditividade finita,
remos provar que P( Ú A") = Í P(A,). Seja A = Ú A,, então 1 1
n· 1 n 1 "-"- 1
P(A. 1 u A 2 ) = P(Ad + P(A 2 n A'd::;; P(A 1) + P(A 2 ),
A = (.u A,)u c v+ A,) por P3, já que A 2 nA\ C A 2 . Completa-se a prova por indução.)
P(A) =
11
± +A ú A,J
I
P(A,)
'" k+ 1
P6. (Cominuidade de probahilidadt'). Se A,
A, 1 A, emão P(A") ~ P(A).
i A, elltào P(A,) i P(A ). Se
Prom. O sistema I é equivalente aos Axiomas L 2. 3. 3'. pois já vimos (a) L'm conjunto não-vazio Q de resultados possíveis, o espa~·o
que o Axioma 3" implica o Axioma 3. Agora basta aplicar a amoslral.
Proposição 1.4. [J (b) Uma a-álgebra .r;/ de erenlos aleatórios.
(c) Uma probabilidade P definida em rd.
Obserração. Então para verificar se P é probabilidade em .c/. basta
verificar os axiomas do sistema I ou os axiomas do sis- Agora vamos retirar nosso modelo do contexto de um experi-
tema 11. mento c rcformulá-lo como um conceito matemático abstrato.
que todo modelo probabilístico é um espaço de probabilidade. Re- Probabilidade condicional possui uma interpretação intuitiva em
ciprocamente, o espaço de probabilidade (Q, .>#, P) pode ser consi- termos de freqüências relativas. Pensando em probabilidade como li-
derado um modelo para o experimento "selecionar um ponto de n con- mite de freqüência relativa, temos
forme a probabilidade P". Se o leitor quiser, poderá continuar conside-
rando um espaço de probabilidade como um modelo probabilístico.) I
P(A B) = P(A 11 B) =
P(B)
1
lim - x (número de ocorrências de" A e B" em n ensaios independentes do experimento)
n
n-+a::
B
A B
!
Definiçõe s Básicas 17
16 Probabilid ade: Um curso em Nlvellnter mediário
Por indução, temos o seguinte Para todo evento B E.Sil, temos B = U(A; n
j
B). Como os A; são
TEORE MA 1.1. (Teorema da Multiplicação ou Teorema da Probabili- disjuntos, então os B n A; são disjunto s e
dade Composta). Seja (!L111', P) um espaço de proba-
P(B) =I P(A; n B) =I P(A;) P(B I A;) :
bilidade. Então i i
P(A) =
(~)- (~) 4 · I · 3 ! · 49! 4· 3· 2
sequência Uinita ou enumerável) de eventos aleatórios
AI> A 2 , ••• formar uma partição de Q então
- 52-,- - = 52· 51· 5Õ .
= L P(A;) P(B I A;), v
CJ) P(B)
j
B E .91.
Agora suponha mos que A 1 , A 2 , ... sejam eventos aleatório s mu- Usando esse teorema, podemos calcular a probabi lidade de A;
tuament e exclusivos e exaustivos (i. e., que os A; sejam disjunto s= mu- dada a ocorrência de B :
tuament e exclusivos e u A;= 0). Então os A; formam uma partição
do espaço amostra i n: P(A ·I B) = P(A; C2~ = P(A ·I B) = P(A;) P(B I A;) .
I P(B) I LP(A j) P(B IA j)
j
n
Esta é a formula de Bayes. Ela é útil quando conhecemos as proba-
bilidades dos A; e a probabi lidade condicional de B dado A;, mas
não conhecemos diretamente a probabi lidade de B :
EXEMP LO 4. Experimento de duas etapas (experimento composto).
Supor que uma caixa contenh a três moedas: duas hones-
tas e uma de duas caras. Retirar uma moeda ao acaso e jogá-la. Per-
gunta: qual a probabi lidade condicional da moeda ter sido a de duas
caras, dado que o resultado final foi cara?
Este é um experimento de duas etapas, e queremo s .calcula r a
Vamos admitir que a seqüência A~> A 2 , ... seja finita ou enu- probabi lidade de um evento determi nado pela primeira etapa dado
meráve l- então, por exemplo, A é Ac formam uma partição , V A E.Sil. um evento determi nado pela segunda. Sejam, então, A 1 = "moeda re-
18 Probabilidade: Um curso em Nfvef Intermediário Definições Básicas 19
tirada é honesta", A 2 ="moeda retirada é a de duas caras", e B = "re- PROPOSIÇÃO 1.6. Se A e B são independentes, então A e B" tam-
sultado final é cara". bém são independentes (e também Ac e B, e ainda
Aplicando a fórmula de Bayes, temos Ac e B").
pela Proposição 1.6, basta uma destas últimas equações para a de-
Observação. A fórmula de Bayes é, às vezes, chamada de fórmula de finição.
probabilidades "posteriores". Com efeito, as probabilida-
des P(A;) podem ser chamadas probabilidades "a priori" e as P(A; IB), ObserPação. Se A n B= 0. então A e B não são independentes (a
dentes se
EXEMPLO 6 .. No experimento 3, os eventos
P(A n B) = P(A) • P(B).
A = "distância entre o ponto escolhido e a origem é :$; ~"
Observação. Eventos de probabilidade zero ou um são independentes e
de qualquer outro : se P(A) =O, então P(A n B) =O e A e B C= "I." coordenada do ponto ~scolhido é maior que a 2.""
são independentes, V B Ed. Se P(B) = 1, então P(A n B) = P(A)- são independentes, pois o evento C ocupa metade da área do evento A,
- P(A n B') e, como A n Bc c B< implica P(A n B') :$; P(B") = O, fazendo com que (veja os desenhos no §1.1)
temos P(A n B'') = O e P(A n B) = P(A) = P(A) P(B). Logo A e B são
independentes, V A Ed. P(A n C) = área (A 0_Cl = _!_ = - . _I = P(A) P( C)
n 8 4 2 ·
i í PROPOSIÇÃO 1.5. A é independente de si mesmo se, e somente se,
P(A) =O ou l.
Como vamos definir a independência coletiva de três eventos
Prova. P(A) = P(A nA)= P(A)P(A)<=>P(A) =O ou l. O aleatórios A, B e C? Queremos não somente que C seja independente
20 Probabilidade: Um curso em Nivellntermediário Definições Básicas 21
(Notemos que O suporta no máximo 2 eventos independentes de pro- Vamos ver agora que a Definição 1.10 é consistente com nossa
babilidade + cada, pois # n = 4. Para que existissem três eventos
idéia intuitiva de independência (por exemplo, no caso de três eventos
A, B, C, o evento C é independente de A n B, de A n B'·, de A c n B,
~I
Definições Básicas 23
22 Probabilidade: Um curso em Nível Intermediário
Prova. Pelos itens (a) e (c) da definição, basta provar que toda subfamília chegarem durante um período de duração t depende apenas de t e
finita dos B; satisfaz a regra produto. Para tanto, é suficiente não da hora e nem do dia. Esta hipótese não é satisfeita na prática,
provar que se A 1 , • •• , A. são independentes, então P(B 1 n ... n B.) = mas é uma boa aproximação durante curtos períodos de tempo, por
n exemplo, durante o horário do pique.). Esta hipótese implica
= 0 P(B;), onde B; =A; ou B; =A ~. Esta prova é semelhante à prova
i= I P(A~.,) = P(A~./,g Pk(t).
da Proposição 1.6, usando indução finita. (Exercício: complete a prova.
HIPÓTESE 2. (Incrementos independentes.) Os números de chegadas du-
Se quiser, pode ver Fernandez [10], Lema 4.3.1).0
rante intervalos disjuntos de tempo são independentes
EXEMPLO 8. O procéso de Poisson. Consideremo s o número de te- (ou seja, A~.r e A~ .•. são independentes para toda escolha de k e j se
lefonemas que chegam em uma central telefônica. (s, s + t] n(u, u +v]= 0. e temos independência também no caso de
Vamos contar o número de chamadas que chegam até o tempo t, 3, 4, 5, ... intervalos disjuntos).
para todo t ~ O. Podemos representar um resultado possível deste HIPÓTESE 3. As chamadas chegam sozinhas e não simultaneamente.
experimento por meio de uma função-escada : Isto será interpretado em termos de probabilidad es con-
Esta função é
número de
um resultado dicionais da seguinte maneira: a probabilidad e condicional de terem
chamadas
típico, um típico chegado duas ou mais chamadas em (0, t ], dado que chegaram uma
wEu
,__ ou mais chamadas em (0, t ], tende a zero quando t-+ O. Isto quer dizer
que
probabilidad e de chegada de duas ou mais chamadas em (0, t] -+
0
1- probabilidad e de chegada de uma ou mais chamadas em (0, r] •-o '
tempo i. e.,
I - P (r) - P t(tl
A cada tal função w corresponde um resultado possível do expe- - - -º--- - -+0 quando t-+0,
I - P0 (t) '
rimento (chamadas chegam em r 1 , r 2 , 13 , .. . ),e cada resultado do expe-
rimento gera uma função deste tipo (sob certas suposições que estão ou equivalentemente,
adiante). Então podemos fazer íl =conjunto de todas as funções-es-
cada cqm gráfico do tipo que aparece acima = {w : [0, :r.- )-+ {O, I, 2. ... } 13 P 1(t) -+ l, quando t-+ O.
1 - P0 (t)
O < t 1 < t 2 < ... (t. i oc ) tal que w(t) =O para c E [0, ttJ, w(t) =I para
tE [t 1 , t 2 ), ... ,w(t)=n em [t.,t.+ Jl, ... }. Podemos calcular agora as probabilidad es Pk(t). Vamos começar
Agora, seja o evento A ~. , = "chegam exatamente k chamadas no com P 0 (t) = P(A8,,), e mostraremos que é uma função exponencial do
intervalo (s, s + r]", para s, 1 ~O; k = O, I, 2, .... Então, tipo e - ;.r.
{wEíl : w(s + r)....:. w(s) = k}, s, t ~O, k =O, I, 2, .. .. Como não chega telefonema algum no intervalo (0, t] se, e so-
A~. r =
mente se, nenhum telefonema chega nos n intervalos
Vamos supor que a u-álgebrad contenha todos os eventos A~ .• (daqui
a pouco calcularemos a probabilidad e destes eventos). Vamos fazer as
seguintes hipóteses :
HIPÓTESE I. (Incrementos estacionários). A probabilidade de chega- temos
. da de k telfdonemas no intervalo (s, s + t] depende so-
~ente de t e não de s (i. e., a probabilidad e de exatamente· k telefonemas A8.r = A8.rtn 1\ A~n.t/n 1\ ... 1\ A?n - llt /n .rtn ·
24 Probabilidade: Um curso em Nlvel Intermediário Definições Básicas 25
Pela hipótese 2 (os intervalos são disjuntos), estes eventos são Observação. É claro que P 0 (0) = I, pois o evento "nenhuma chegada
independentes. logo em um intervalo vazio de tempo" é o evento certo. Formal-
mente,
P 0 (t) = fi
n-1 ( )
P( Ag:•. ,1.) =(pela hipótese I)= P'Q _I_ , V t > O, V n.
n A~ 0 = {wE O: w(s)- w(s) =O}= O.
i=o
Pó'(l) = P 0 (r; ) ~ Po(t) ~ P 0 (r 2 ) = Pó'(l). Os eventos A~.snA~.~; são disjuntos em i, e para todo i os eventos
A~ .• e A~.~; são independentes (pela hipótese 2, pois os intervalos (0, s]
Se rdt e r2 !t, então Pó'(l)!P~(l) e Pó2 ( l )jPb(l~ logo
e (s, s +r] são disjuntos). Logo
P 0 (t) = P~(I) Vt>O. k k
probabtltdadc um, pela hipótese 1), implica a chegada de pelo menos lim ~.!!1 = lim { P 1(t) · .!.!._- Po.!Ql_} = À.
dois em (0, r]. Em consequencia disto. teríamos I - P 0 (l) = I e r- o t r-o (I - Po(t)) l
I - Po(t) - P.(l)= I para todo t >0, contradizendo assim a hipótese 3. e
Definindo À = - log P0 (1 ), temos o resultado enunciado, i. e.,
P 0 (t) = e - ;.r, t >O.
26 Probabilidade: Um curso em Nível Intermediário
Definições Básicas 27
(c) A u B u C = A
n =l
:f.
U Ak,
k ~ n
(a) P (l\ Ak) 2 1 - ktt P(A~). mite de A,). Demonstre que se A = lim A,. então P(A,)-+ P(A)
quando 11-+ % .
(b) Se P(Ad 2 1 - E; para k = 1, .. , 11, então P(l \ Ak) 2 1 - n~:. 8. No jogo de "Craps" dois dados são jogados. Se o jogador tira 7
ou 11 pontos ele ganha. Se ele tira 2, 3 ou 12 ele perde. Nos outros
(c) P(l\ Ak) 2 1 - kt1P(A/J casos ele continua jogando os dois dados até sair 7, caso em que
ele perde. ou então sair o primeiro resultado, caso em que ele ga-
4. Demonstre as seguintes propriedades :
nha. Descreva o espaço amostrai. Qual é a probabilidade dele
J.
I 30 Probabilidade: Um curso em Nlvel Intermediário
branca. Observa-se o número de vezes que ocorra cada cor. rem retiradas. Qual a probabilidade de que para pelo menos uma
(d} O experimento (c) é realizado sem reposição. carta, o número da carta coincida com o número da retirada '?
(Observação. A resposta é igual à do exercício 14 (b). Por quê?).
12. Retiram-se 4 cartas, ao acaso, de um baralho de 52 cartas. Re-
gistra-se o número de reis na amostra. Exiba um bom modelo
probabilístico para este experimento se : ~1.2
(a) As retiradas são feitas sem reposição. 16. Seja (Q, .911, P) um espaço de probabilidade e suponha que todos
(b) As retiradas são feitas cmn reposição. os conjuntos abaixo pertençam a .r#. Prove :
(c) Determine em que caso, (a} ou (b), é mais provável obter 4 (a) Se os A. são disjuntos e P(B I A.) ~ c para todo 11, então
reis. P(B Iu A.) ~ c (pode supor P(A.) > O para todo 11).
13. (a) Sejam A, B e C eventos aleatórios em um espaço de probabili- (b) O item (a) com "=" no lugar de '"~ ".
dade (Q, ,'4/, P). Mostre que P( Au B) = P(A) + P(B)- P(A n B) (c) Se A. ) An + 1 e P(An + 1 IA.) s ~ para todo 11, então P(A.)-> O
e P(Au 81....· C)= P(A) + P(B) + P(C) - P(A n Bl- P(A n C) -
quando 11-> Y_.
- P(B n C) + P(A n B n C).
(d) Se os A. são disjuntos e P(B I A.)= P(C I A.) 'r/ n, então
(b) Enuncie a generalização do item (a) para o caso da união de
n eventos aleatórios. P(B iu A.)= P(C iu .4.).
(c) Prove as seguintes desigualdades de Bm!fi!rroni': (e) Se .4 1 , .4 2 , .. . são disjuntos e u .4. = il, então
(i) J 1
~ i~i ~ • P(A ; n A i } s PC~ A
P(A;) -
1
)s I
P(B C) = L P(A. IC) P(B I A.
"
(I C).
2X. Lma lâmpada está acesa no tempo 1 =O. Sempre que a lâmpada
queimar , é substitu ída por uma lâmpada nova. embora isso não VARIÁ VEIS ALEATÓRIAS
seja feito imediata mente. Suponh a que para todo r > 0:
IH I) dado que a lâmpada esteja acesa no instante r. a probabi-
lidade dela estar queimad a no instante 1 + L'.t. dividida por
L'.t, converg e para ;, quando /'.r-. 0: e
(H2l dado que a lâmpada esteja queimad a no instante I, a pro-
babilida de dela estar novame nte acesa em 1 + L'.t. dividida § 2.1 Variáv eis aleató rias e funçõe s de distrib uição
por L'.t. converg e para Ç quando L'.t-> O. ()., ~ > 0.)
Informa lmente. uma variável aleatória é um característico llltfl/(;·
(a' Seja P(l) a probabi lidade da lâmpada estar acesa no instante rim do resultad o de um exp~rimento. Pnr exemplo :
I, t;::: O. Ache a equação diferenc ial satisfeita por P(t
).
(b) Resolva a equação diferenc ial do ítem (a). Determi ne lim P(l ). EXEMP LO I. Lançar uma moeda 11 vezes e observa r a scqlienci<i de
~~ I
caras (c) e coroas (:·)obtid as Os resultado~ pos~;ivci:;
Esse resultad o tem sentido intuitivo ') aqui silo seqüênc ias de cxtensàu 11 de caras c cot1><! :_. c
podemo s definir
29. Suponh amos que cada eicmcnt o de certa populaç ão ou morre ou
Q =· ~(c'i 1 , . ., C'1 11 ): Uli=C OU i': i== 1, .. .. 11:.
se dividc. (Exemp lo: uma colônia de bactérias .) Façamo s três
hipótese s: O número de caras obs~.:n· adas nos 11 lan<,'anwnto ~ c un. caracter ístico
numéric o da seqüenc ia de caras c coroas. De f.1to. se definimo s X = nú-
(H I) A probabi lidade d<: que um element o. vivo no instante 1. mero de caras observad as. vemos qut~ o valor de .\ depende do resul-
venha a morrer até o instante 1 + L'.t. é assintot icament e equi- tado do experim ento e podemo s dcfinil
valente a 11.'11 (i. e .. a razão dos dois converg e para I quan-
do L'.t-> 0). X teu) ,._,= número de c's em cu= (c1J 1 ••.•• c'lll)
(H2J l'm element o vivo no instante 1 se divide até o instante == # :i: c·Ji = c. I$; i $;11:.
r -t !1.1 com probabi lidade assintoti camentl : equivale nte a EXE\1 PLO 2. Escolher um ponto ao acaso em ["0. I} Seja X o qua·
i.f.r. e produz "'netos"' (i. c .. se divide ao menos duas vezes) Jrado dü \"alor obtido. Então
com probabi lidade que. dividida por !!.r. converg e para O
quando /'.t-> O. ·
n = [o. 1J
tHJJ ;-.;ào há intaaçà o entre os element os. e eles morrem ou se e
dividem indepen denteme nte.
(a) Ache as equaçõe s diferenc iais satisfeita s pelas probabil idades EXE\1P LO 3. Escolhe r um ponto ao acaso nu círculo unitário. Seja
P"(l) =probab ilidade da populaç ão conter exatame nte 11 ele- X a distànci a entre o ponto escolhid o c a origem. Então
mentos no instante r (11 =O. I, 2... . : r;::: 0).
(b) Mostre que se i.= Jl = I c PJ~OJ =I , uma solução será n= ((x.r): x 2 + y 2 $; t;
I t" 1 c. com w = (x. y),
Po(tl = I + (: P"(l) = (I + 1)"' 1 . 11 = L 2.....
(c) Supond o que a solução do item (b) seja a única. qual a pro-
babilida de da populaç ão mais cedo ou mais tarde ficar extinta '1
36 Probabilidade: Um curso em Nlvel Intermediário
Variáveis Aleatórias 37
Como [X : ; x - 1
11
J
c= [X ::;; x]. temos
Definir
P((- x. x]) = F(x).
[x- 1
11
<X :s; xj = [X ::;; x] - [X :s; x- I
ll
-~E.r:/
P((x, x )) = I -
P((a, h]) = F( h! - F( a).
f(x),
(H, ..r;(, P). Por exemplo, se X~ ,'\'(0, I), i.e., se X tem distribuição nor-
[T1 s t] = (Ag ,t, t 2 0,
mal com parâmetros O e I (veja o exemplo 9 adiante), então -X~
- N(O, I). Conseqüentemente, Fx =F. x· No entanto, P(.\.' = ·-X)= com [7~ s t] = 0 para t <O ( T1 também assume apenas valores
= P(2X =O)= P(X = 0) =O. positivos). Portanto, temos
: 2 •3
DEFINIÇÃO 2J. (a) A variável aleatória X é discreta se toma um
número finito ou enumerável de valores, i.e., se
existe um conjunto finito ou enumerável {x 1 , x 2 , .•. J C iFl: tal que
X((I))E [xl, Xz, ... } VwE n. A função p(x;) definida por p(xi) = P(X =xi),
i= I, 2, ... , é chamadafimção de probabilidade (oufi.mção def'eqüência)
Notemos que a função de distribuição de X, cresce através de
de X.
saltos nos valores possíveis de X,. i.e., os números O, I, 2, .... O ta-
(b) A variável aleatória X é (absolutamente) contínua se existe
manho do salto em k é a probabilidade de X, tomar o valor k, e a soma
uma função f(x) 2 O tal que
dos tamanhos de todos os saltos é igual a um. Esta propriedade é
característica das variáveis aleatórias chamadas discretas (veja a defi-
nição a seguir), das quais as variáveis do tipo Poisson são, na prática,
alguns dos principais exemplos.
Fx(X) =r -.;"j:
f(l)dt, VxEiF!:.
42 Probabilidade: Um curso em Nível Intermediário Variáveis Aleatórias 43
F x(.x) = . L P( X = x; l = L
= U
t: . \ ! : X
p(x,l.
[X= xJ logo
--0-1'~'---i X
i: X i~ X
Então X tem densidade, pois Fx é contínua e
(Já verificamos que [X = x;] era evento aleatório quando vimos que
o salto de F em X; era igual a P(X = x;l.) F'x(xl = {I, x E (0, I)
(b) Se X é absolutamente contínua. então Fx. sendo uma integral
O. x$ (0, I].
indefinida de j; é contínua. Tecnicamente. a integral da Definição A densidade de X é dad;; por
2.3(b) é de Lebesgue. e X tem densidade se. e somente se, Fx é absolu-
tamente contínua (i.e .. F x é a integral da sua derivada). Neste caso. f(xl =/,(xl= {oi.. xE(O. I)
f(x) = F'x(x) em todo ponto, exceto num conjunto de medida de Le- X < () OU X > J.
besgue nula (diz-se que f= Fx' em quase toda parte). Um conjunto O valor de f nos pontos O c I é arbitrário, pois qualquer que scj;; f(OJ
B C IR tem medida de Lebesgue nula se tem comprimento zero. i.e .. (ou fi I)). a integral f , /(1) dt é ainda igual a Fx(x). Costuma-~t Jcf1
se para todo 1: >O, existem intervalm de comprimento total <r cuja nir ou j(Ol = j( 1) = I ou f(Ol = j( I)= O (Outro exemplo de uma lult·
união inclui B. ção de distribuição contínua e derivável por partes é a F 1 , considerada
Uma funçãof(x) 2': O é densidade de alguma variável aleatória se. anteriormente.)
e somente se, J f(x) dx = 1. já que neste caso F definida por
1
1
Por outro lado. suponha que
F(x) = í'
•- I
j(l) dt fx(x) = {~: x<O
x;::O
Aqui X não tem densidade. pois F x não é contínua. De fato X é uma
é função de distribuição. pois satisfaz FI, F2 c F3 (verifique!). Reci- variável aleatória discreta. e P(X = 0) = I.
procamente, se fé densidade então J' ,f(x)dx= I. pelo item (bl da
definição e a propriedade F3. É fácil construir um exemplo de variável aleatória que não é diS-
Mas sem a Teoria da Medida, como vamos verificar se X tem creta nem absolutamente contínua, mas sim uma mistura dos dois tipos
densidade? Podemos usar o seguinte critério. válido em quase todo Por exemplo. seja tal que X~ U [0. I] (kia-sc "X tem distribuição uni-
caso que surge na prática: forme em [0. I Tl. i.e., X tem a função de distribuição Fx cujo gráfico está
X tem densidade se Fx é (i) contínua e (ii) dcrivável por partes. acima. E seja Y = min (X, 11 2). i.c, Y é a variável aleatória definida
i.e., se F x é derivável no interior de um número finito ou enumerável por Y((l)) = min (X((!J), I i2). (!)E n ( y é variável aleatória, pois é função
de intervalos fechados cuja união é a reta IR. (Neste caso. a derivada contínua da variável aleatória X). Então r é do tipo "misto".
é a densidade de X.) Em particular, X tem densidade se F x é contínua Fyly)
e derivável em todo ponto exceto num número finito de pontos, ou se I
EXEMPLO 7. Uma função de distribuição de uma variável aleatória do tipo misto (pela mesma razão), c nem contínua (X não tem densi-
que não é discreta, contínua, ou mista. Nossa fun~ão dade, pois F'(x) = O em C c f'- F'(t) dt =O, i.c., F não é a integral
f
será contínua. derivável em todo ponto menos num conjunto de medida da sua derivada, ou melhor, não é absolutamente contínua.) Dizemos
de Lebesgue nula, mas não será absolutamente contínua: vamos con- que X é variável aleatória singular: uma variável aleatória X é chamada
siderar a função de Cantor. singular se F,~ é contínua e Fx(x) = O em quase toda parte, i.c .. exceto
F(x) em um conjunto de medida de Lebesgue nula.
1
Observemos agora que se F x é a função de Cantor, então
3/4
1/2 P(X E C)= I, onde C é o conjunto de Cantor. Com efeito,
1 2') 7 8) -
2') (9'9
1 1 1
1/4 1
C=IR-(-::t_,O)-(I,x.)-(3·f, -(9'9 - ... =
1
1/9 2/9 1/3 2/3 7/9 8/9 I X
I3 I4
I s.
Gráfico da função de Cantor após as etapas 1 e 2. --,..--· ~
Definamos F(x) = O para x < O. F(x) = I para x > I. Continuemos 1." etapa 2a etapa
por etapas: = (u /,)'.
Etapa I. Seja F(x) = I (2 em (I /3. 2, 3 ). Então o valor de F nesse inter- Mas para todo 11, P(X E/,)= O, pois, por exemplo,
valo é a média dos valores nos dois intervalos \izinhos em
que F já está definida ((- :r. 0) t.: (I. ( )), c F continua sem definição 2 )
em dois intervalos \LO. 1,'3] c [2;3, I]) de comprimento total 2/3. 3. =
é F, a função de Cantor. Então X não é discreta (F é contínua), nem Fd é uma função-degrau não-decrescente: a parte discreta de F.
II 46 Probabilidade: Um curso em Nlvel Intermediário
I X< 0 X> 2
1
{F'(x) se F é _dif~re~ciável. ~m x.
OU
j(x) =
· O se F nao e d1faencwvel em x. I
0 <X<
Seja F"c(x) =f' , f(t) dt. Fac é não-decrescente, pois é integral in- 2
definida de uma função não-negativa U 2. Oporque F é não-decrescente). j(x) = O se x = O ou I 12 (por definição).
A sua derivada é igual a f pelo menos em quase toda parte, de modo
que Fac é absolutamente contínua (é a integral de sua derivada): F", é Logo.
a parte ahsnlutamellte contínua de F.
Fac(X) ~
Seja F.Jx) = F(x)- Fd(x)- Fa,(x). F, é contínua, pois é a diferen- x:S:O
ça de duas funções contínuas (F", é absolutamente contínua, logo
O<x:S: 1-t.
contínua; F- F" é contínua. porque a subtração de Fd tira todos os 2
saltos de F). A derivada de F, é igual .1 zero em quase toda parte. porque
F c Fa, têm a mesma derivada/; e F11 , sendo uma função-degrau, possui
derivada zero em quase toda parte. F, é a parte singular de F, e
x>
2 1<--
Üi
I
l
2
X
F = F11 + F", + F,. Como Fd + Fac= F I. Fs(x) =o Yx e não há uma parte singular.
(Ohst>rvaçào. Fs também é não-decrescente. Omitimos a prova, que Então r é realmente uma mistura dos tipos discreto e contínuo (pode-se
depende da Teoria da Medida.) até dizer que metade da distribuição é discreta e concentrada no ponto
A discussão acima dá um método de decompor F em sua partes x = 1/2 c a outra metade é absolutamente contínua e uniforme em
discreta, absolutamente contínua e singular. Consideremos um exemplo. [0, 1!2]). Na prática, é pouco provável que surja uma variável aleató-
ria com uma parte singular. e quase todas as variáveis aleatórias que va-
EXEMPLO li. Suponha X~ U[O. 1] e Y = min(X. 1 2). Já vimos que
mos considerar serão discretas. contínuas. ou misturas dos dois tipos
[o. x <o
=j
I
Prora. Teoria da Medida. Mas podemos justificar (intuitivamente) a Axioma I. Px(B) = P(X E B) ~O.
proposição: recorde que a a-álgebra ~. dos borelianos, é a Axioma 2. Px(IR) = P(X E IR)= I.
menor a-álgebra contendo os intervalos. Vamos, então, verificar a Axioma 3'. Se 8 1 , 8 2 , ... E .dd são disjuntos, então
conclusão da proposição para B intervalo:
P.ttu B,) = P(X EU B") = P(u [X E 8 11 ] ) =
(i) Se B=(-Y_,h]. então [XEB]E.r1 pela Definição 2.1. =L P(X E Bn) = I PxW,).
(ii) Se B =(a, x ), então B = (- x, a]' e [X E B] =[X s a]' E.w, por(i). n
Neste caso, P(X E B) = P(X >a)= I - P(X s a)= I -F ;.:(a). Pelas observações feitas na prova anterior, P.\ é determinada pela
(iii) Se B=(a,h]. então [XEB]=[a<Xsh]=[Xsh]-[Xsa]E função de distribuição de X; por outro lado, ~ claro que a função de
E.c/, por (i). P(XEB)=P(Xsh)-P(Xsa)=Fx(h)-Fx(a). distribuição F x é determinada por P\, pois F x(x) = P(X s x) =
(iv) Se B =(a, h), então B = 0(a.
11 1
h- :
1
J c [X E B] = = Px((- x, x]). Em outras palavras, Fx determina Px, e vice-versa.
que [XEB] =
"
U [XEB.] c P(XEB)= I.P(XEB,).
n
Px(B) = I f(x)dx,
I'
VBE-!4.
i I i 1 • B
Então vale a conclusão da proposição na álgebra de uniões finitas Prora. (a) [Xt:B] = L~ [X= x.]cesseseventm:sãodisjuntoslogo
i: XI·· H
de intervalos. Logo vale na a-álgebra .:14 ~ Tecnicamente, para verificar.
se certa propriedade é válida para todo borcliano, basta verificar se P.dB) = I P(X = x.).
i: x 1 c H
(a) é válida para toda união finita de intervalos c (b) continua válida
também para limites monótonos, i.e., se vale para 8 11 • para todo n. (h) Prova-se pela Teoria da Medida. É fácil verificar no caso de B
e B 11 l B ou B, i B. então vale para B. Neste livro, não vamos nos preo- intervalo: por exemplo. se B =(a. h) então
cupar com problemas técnicos desta natureza, limitando-nos em geral Px(B) = P(a < X < h) = (pois Fx é contínua c P(X = h) = 0) =
a verificar (a) e deixando (b) para o leitor interessado. Tomaremos = P(a < X s h) = F.\(h)- F>:(a) = (pela Definição 2J(b)) =
isto como regra geral.
Salientamos outra implicação desta prova: as probabilidades
= r· ,ftxJ dx - J" , .f(xJ dx = J~;f(xl dx = Sn ftxJ dx.
P(X E B) são determinadas pela função de distribuição F x. O Se B = lJ B, é união finita de intervalos di~juntos, então
J
i I
Observação. Se definimos Px(B) = P(X E B), para B boreliano, então
Px é uma probabilidade em :J4, porque os axiomas se Px!Bl = L
11
Px(B;) = I11 f j(x) dx "' f(x) dx,
verificam: I I I 1
.. }JI 11
50 Probabilidade : Um curso em Nível Intermediário Variaveis Aleatórias 51
pela aditividade da integral (por exemplo, se a <h <c < d, então Considerem os o seguinte problema: se X~ N(O. I) e Y= aX + Jl.
f f(x) dx
la.b] L•It·,dJI
= ff(x.) dx
u
+ rf(x) dx).
•,.
onde a> O e J.1 E IR, qual a distribuiçã o de r'l Resposta : Y ~ N(/l. a 2 ).
ou seja. Y tem densidade
I -(y ·- ~) 2 • 2>T 1
Agora é só aplicar nossa regra geral, adotada na prova da Pro- jy(y) = _::_:__··-· e
, - ffD
, ) "''""·
posição 2.1: como f 8 f(x) dx = P x(BJ para todo B união finita de in- v /2n a
tervalos, vale também para todo B bordiano. O É claro que r é variável aleatória, pois Y ~ y se, e somente se.
Vimos, então, que a distribuiçã o de X é determinad a por qualquer x ~ Y ~ 1!:., de modo que o evento [ Y ~ y] é aleatório para todo y.
(]
das seguintes funções :
(1) A função de distribuiçã o F x.
Veremos agora, através de um resultado mais geral. como obter a
(2) A densidade f(x), se X é absolutam ente contínua. densidade de r a partir da densidade de X.
(3) A função de probabilid ade p(xJ, no caso discreto.
PROPOSI ÇÃO 2.3. Suponhamos que X possua densidade fx(x) . Seja
Veremos mais adiante (Capítulo 6) que é determinad a também por:
Y = bx +c, onde b > O e c E IR. Então Y tem den -
( 4) A função característ ica de X.
(I), (2), (3) e (4) serão chamadas rcpre.~emaçiies da distribuiçã o
sidade
de X ou representa ções da lei de X tiei =distribuiç ão). Para conhecer
a distribuiçã o de X, tanto faz conhecer qualquer das suas representa-
ções. Costuma-s e escolher a representa ção mais convenient e para des- (Notemos que no exemplo da normal, c= p, b =a).
crever a distribuiçã o de uma dada variável aleatória. No caso contínuo,
esta é geralmente a densidade: Prora F 1 (y) = P(Y~ y) = P(bX +c~ y) = P(X s J'~() =
(r-c) tb
EXEMPL O 9. A variável aleatória X possui distribuiçã o normal
= . .fxC"() dx = (fazendo t = hx· + c) =
"padrão" (notação: X - N(O, I)) se X tem densidade
Í
.. - :f_
(f x f(x)dx Y= (fx
- r:r_
f(x)dx) X (f f(y)dy) =
Como conseqüên cia da proposição , vemos que quando /(x) é
densidade, podemos construir uma família de densidades Ui,.c}, defi -
+ ~~-M) 2 l,
Observação. Quando rx = I, a distribuiÇão é a exponencial com parâ-
fr(Y) = n(b 2 Y E IR. metro {3, que tem densidade f(y) = {3e - Pr, y > O. Quando
1
Na família de distribuições de Cauchy, o parâmetro de locação M ~ = n e {3 =
2, temos a d"tstn"b utçao ·
· - qut-qua d ra do com 11 graus de
é a mediana, e o parâmetro de escala b representa a distância entre a 2
mediana e o primeiro (ou o terceiro) quartil : liberdade (veja o § 2.8).
fy()')
No caso discreto, a representação mais conveniente da distribuição
de X é, geralmente, a função de probabilidade. Já tratamos de um
exemplo de variável aleatória discreta no §2.1, quando vimos a função
de distribuição de uma variável tendo distribuição de Poisson com
M-b M M+b y parâmetro ),t. Com efeito, fazendo t = 1, vemos que se X ....., Poisson (À),
então
1'? quartiJ 3? quartil
O ,sex<O
EXEMPLO 11. Distribuição gamJ. Quando ~>O, a função g(x) = F(x) = ' e- ;.;._k O
1
{ L... se x ~ .
= x•- e x é integrável no intervalo (0, ·x ), i. e., O$k$[.<) k!
J~x· - e x dx < x. Consideremos, então, a função gama, definida por
1
r(rx)= J~ x• - le ·xdx, ~ >0. Integrando por partes, vemos que r(rx + I) = Como o valor p(k) da função de probabilidade é igual ao salto de F
=rxqrx) e, por indução, r(n + l) =n! (pois r(I)=J~ e- xdx= 1). no ponto k, temos
E óbvio que r(rx) > O; logo, f definida por -). ).k
p(k) = P(X = k) = e_ _ ' , k = O, 1, 2, .....
k!
.( ) =
.f x
ri(rx)·x'
{'- I e - "', x >O
EXEMPLO 12. Dizemos que X tem distribuição binomial com parâ-
0 , X :5:0 metros n c p, onde 11 é um inteiro positivo e O < p < 1, se
é densidade (a da distribuição gama com parâmetros rx e 1. Notação:
r(rx, 1)). Se Y = ; e X....., r(rx, I), então
p(k) = P(X = k) = ( ~ )pk(l-pt -\ k =O, 1, ... , n.
dois dados equilibrados (p = ~).Se repetirmos o experimento básico Em muitos experimentos, o interesse do investigador recai sobre
vários característicos numéricos do resultado do experimento. l'm
11vezes, independentemente, e contar o número de ocorrências do even- exemplo simples disto foi visto no exemplo 5, em que o resultado do
to de interesse, então este número terá distribuição h(n, p). experimento "escolher, ao acaso, um ponto do círculo unitário" era
Em tais casos, chamamos as repetições independentes do experi- considerado como o valor de um par de variáveis aleatórias X c Y
mento básico de "ensaios" e, já que podemos interpretar cada ensaio as coordenadas (cartesianas) do ponto escolhido. Formalmente, tí-
como tendo apenas dois resultados possíveis (ocorrência ou não do nhamos
t\ulto de interesse), dizemos que se trata de um caso de "ensaios
binomiais". Chamando o k-ésimo ensaio "sucesso" se ocorre o evento (I) = (\, y) = (X(w), Y(w)), (I) E n = [(x, y): ,ix 2 +7 :-: :; 1:.
de interesse e "fracasso" se não ocorre, concluímos que a distribuição No processo de Poisson, que representa o modelo probabilístico
do número de sucessos em 11 ensaios hinomiais, com probabilidade p de um experimento bem mais complicado, é comum o experimentador
de sucesso em cada ensaio, é h(11, p). Por exemplo, a distribuição do se interessar pela análise simultânea de várias variáveis aleatórias.
número de caras (=sucessos) em 11 jogadas de uma moeda honesta é Por exemplo, ele poderia querer comparar o número acumulado de
h (11. ~ ).ea distribuição do número de sucessos obtidos em 11 lança- chamadas até a hora 11, para 11 = 1, 2, ... , 24; i. e., analisar o fluxo ho-
rário de telefonemas durante o primeiro dia. Neste caso, com t expresso
mentos de um par de dados equilibrados, onde a obtenção de uma em horas, ele trabalharia com as variáveis aleatórias X 1 , X 2, ... , X 24·
' ") onde X ,(w) = (ll(k). (I) E n =a classe de funções-escada do ~ 1.3.
soma de 7 ou 11 é considerada sucesso. é h ( n. l)~ ) . Nestes exemplos, o interesse está em um vetor de variáveis aleató-
rias, todas definidas no mesmo espaço de probabilidade. Os vetores
(X, Y), no caso do círculo, e (X 1 , ... , X 24 ), no caso do processo de
Ohsenaçiío. Na definição geral de ensaios binomiais, admitimos a Poisson, são exemplos de Petores aleatórios.
possibilidade da probabilidade de sucesso variar com os
DEFINIÇÃO 2.5. (a) Um vetor ~=(X 1 , ..• , X,), cujos componentes
ensaios. Um exemplo disto será visto no ~ 5.3 (exemplo 5). Quando
são variáveis aleatórias definidas no mesmo espaço
a probabilidade de sucesso é a mesma p para todo ensaio. os ensaios
de probabilidade (Q srl, P), é chamado t'etor aleatório (ou variável
binomiais são freqüentemente chamados ensaios de Bernoulli.
aleatória n-dimensional).
(b) A junção de distribuição F= F x =F\ . .x" de um vetor alea-
EXEMPLO 13. Ir lançando uma moeda. não necessariamente honesta, tório ~ = (X 1 , ... , X ,I é assim definidã:
independentemente. Contar o número de lançamen-
tos até o da primeira saída de cara. inclusive. Seja ){. esse número. F(x) = F(x 1 , ... ,x,) = P(X 1 s x 1, ... ,X,:-:::; x,), li(x 1 ..... x,}E.IR.".
Se p é a probabilidade de cara em um dado lançamento. então X tem F é também chamada ji.m,·ào de distribuição conjunta das variáveis
função de probabilidade
aleatórias X 1 •..•• X,.
n
p(k) = (1-p)k 1
p, k = 1.2, .... Obsenaçào. Oevento[X 1 :-:::;x 1 , ... ,X,:-::::x, ] = rr·i
d•f [ .1\j:-::::xi
v J eaeato-
, 1 ,
i 1
Dizemos que X tem distrihuiç·iío yeomórica com paràmetro p. A geo-
rio, já que as Xi são variáveis aleatórias e portanto [XisxJE.tilii.
métrica é a distribuição do tempo de espera até o primeiro sucesso
. ... ,.\, está bem definiJa. Note qul' o vetor aleatório ~ é um(l
Logo F .\,,
em uma seqüência de ensaios de Bernoulli com probabilidade p de
função definida no espaço amostrai n assumindo valores no !R:", i.e.,
sucesso.
x:n_. IR:".
56 Probabilidade: Um curso em Nível Intermediário Variáveis Aleatórias 57
Propriedades da função de distribuição F de um vetor aleatório EXEMPLO 14. Uma função F 0 : íR 2 -> íR que satisfaz FI, F2 e F:l
(X 1 ••••• X,). mas não é a função de distribuição de um vetor aleatório (X. n Seja
F 0 a seguinte função definida no plano:
F I. F(x 1 , .•• , x,) é nãa-dccresct'ntc em cada uma das mriál'cis. Por
exemplo. é não-decrescente em x 1 : se x < y. então I se x ::::>: Oe r ::::>: Oe x +y ::::>:
F o( X, y) = { O caso contrá~io.
F(x, x 2 • ... , x,):::; F(y, x 2 , ... , x,).
1ilmhàn.
É claro que as propriedades FI, F2 e F3 estão satisfeitas. Mas
lim F(x 1 ••..• x,) I.
Vi. x,---+ + , F 0 não é função de distribuição de um vetor aleatório (X. Y). Se fosse.
então teríamos a contradição
(Este é o limite quando todas as coordenadas convergem simul- O ::s; P(O <X:::; 1,0 <}':::;I)~~ Ft,(l.l)- F 11 (1.0)- F 0 (0, I)+
taneamente para + f_.)
+ F 0 (0. 0) = I - I - I + O = - I.
Pml'a. Como no caso unidimensional. Somente a propriedade F3 é Para verificar a equação (*) acima, basta notar que quando F
um pouco diferente. É importante notar que se i e fixo, então é a função de distribuição de um vetor aleatório (X. Y), temos
[Xl:s;xl ..... Xi l::s;xi-I· Xis:-m. Xi~ 1 ::Sxi_ 1 , ... ,X,::s;x,]l0.
quando m-> J., para todo (x 1 , ..••.\, 1 • xi+I• .... x,). Mas F(l, I J = P(X :::; 1, r:::; 1J.
F(l. I ) - F( I. O)= P(X:::; I, Y::s; l l - P(X:::; I.}':::; 0) =
[X 1 ::Sx 1 , ... ,Xi 1 ::s;x, 1 .X,::Sm.X,_ 1 ::s;\i-I· .... };',::s;x,J+ = P( X :::; I, O < Y :::; 1),
t [X I :::; X I . . .. ' X I - I :::; XI I . X I + I :::; X i ·• I ' .....\.'li :::; X,] F(O. I)- F(ü,O) = P(X:::; O, r::; I)- P(X:::; O, Y:s; 0) =
quando m-> --r- J. . Em outras palavras. quando x, ...... --r- J. F.\,. . x, con- = Pl X :::; O, O < } :::; I ).
verge para a função de distribuição conjunta das n- I variáveis aleatórias c. finalmente.
X 1 •••. , X, 1 ••\", + 1 •..•• X,. Finalmente. quando todos os x, convergem
simultaneamente para + f_ (i.e.. -'i -• + x 'ii), então o evento F(l.1J- F(1,0)- F(0,1) + F(O.O) = P(X s 1.0 < Y:s; 1)-
n
- P(X:::; O. O < Y:::; I)= P(O <X :::; I. O < Y:::; I).
Í' [.Yi:::; x;] con\erge para o evento certo Q c F(\ 1 ..... x 11 ) converge
i I De fato, se a 1 < h 1 e a 2 < h2 e F é função de distribuição de (X. Y).
para I. O então temos
Para 11 ::::>: 2. as propriedades F I. F2 e F3 mio s<lo suficientes para O:::; P(a 1 <X:::; h 1 ,a 2 < Y:s; h 2 ) = F(h 1 ,h 2 ) - F(h 1 ,a 2 ) -
que F seja uma função de distribuição: - F(a 1, h 2) + F(a 1 • a2J-
Varlévels Aleatórias 59
58 Probabilid ade: Um curso em Nlvel Intermediá rio
Podemo s descrever esta propried ade por meio de operado res de São válidas as extensões para o caso · n-dimensional das Propo-
diferença. Com efeito, para 1 =(a, bJ e y : IRk-+ IR definamos sições 2.1 e 2.2 c da Definição 2.4. Isto é:
xk - ~> a). Seja ! = (X 1 , ... , X.) um vetor aleatóri o no espaço de proba bi-
&1 g(xl, ... , xk) = g(x 1 , ... , xk - l, b) - g(x 1 , ... ,
lidade (0.. .r#, P).
A propried ade, então, é a seguinte, quando F é função de distribu ição PROPO SIÇÃO 2.1'. [XEB] E.r# VB E dd", onde :JI" é a a-álgebra de
do vetor aleatóri o (X, Y): se / 1 = (a 1 , b 1 ] e 12 =(a;, b2 ], então Borel no IR".
&I,&h F(x, )') =&1 , [F(x, b 2 ) - F(x, a 2 )] = (Obserr·ação. A a-álgebr a de Borel no IR" é a menor a-álgebr a contend o ·
= F(b1 ,h 2l - F(b1.a2) - [F(a 1 ,b 2 ) - F(a 1 ,a 2 )] ~O.
todo retângul o n-dimensional, ou seja, a a-álgebr a gerada
Para n geraL a nova propried ade é: pelos retângulos. Pelo método de prova da Proposi ção 2.1, pode-se
ver que [X E B] é evento aleatório se B é retângul o ou união finita
F4. &1, ...&I" F(xl, ... , x.) ~O, Vlk = (ak, bk], ak < bk, k = I, ... , n.
de retângulos. Por nossa regra geral, vale então para todo B borelian o.
Notemos, por exemplo, que qualque r região aberta A no plano é
união enumerável de retângul os; portanto , tem sentido falar na pro-
. Essa propried ade nada mais é, portanto , que a formulação, por
babilidade de (X, Y) pertence r a A, se (X. Y) é vetor aleatório.)
meiO da função de distribu ição F, da propried ade P(a 1 < X 1 ::s; b 1 , ... ,
a.< X. ::s; b.) ~O. Acontece que uma função satisfazendo FI , F2, F3 DEFINI ÇÃO 2.4'. A probabi lidade definida em Jd" por P(! E B) é
c F4 é realmen te a função de distribu ição de um vetor aleatório, i.e .. chamad a distribuição de ! ou distribuição conjunta
as quatro propried ades são suficientes para caracter izar funções de de X 1 , ... , X •.
distribu ição (referência : Breiman [5]. § 2.5). é a distribu ição de !·
Notação. P~(B) = P(! E B), P!.
DEFIN IÇÃO 2.6. Uma função F : IR"-+ IR que satisfaz as propried ades PROPO SIÇÃO 2.2. (a) Se o t·etor aleatório ! é discreto, então
FI, F2, F3 e F4 é chamad a jimção de distribuição Px(B) = L P(! = ~;),VB E :Jd".
n-dimensional (ou n-variada). - i:~jE B
n
DEFINIÇÃ02.8. As variáveis aleatórias X 1 , ••• ,X, são (coletiva- = (por hipótese) = fl
j o· I
P(X ;E ( - :-cxJ) =
mente) independentes se
= Il P(X; ~X; ) = IlFx,(x;), V(x; ..... x.).
n P(X; E B;). vB; E :Jd. i= 1•...•
n
P(xl E Bl. x 2 E B2• ...• x.E B.) = j ~~ 1
IJ. i~ 1 i.- 1
exemplo, P(X 1 E B 1 , X 2 E B 2 ) =P(X 1 E B 1 , X 2 E B 2 , X; + 1 ~ m, ... , X. ~ m) = lim F x ,.··· ..\Jm.... , m, X;. m. .... ml.
. m- +..Y ~
XJEIR, ... , X.EIR)= P(X lE Bd P(X2EB2 J· I .. ·I = P(X 1 EB 1 ) P(X2E B2). ;- 1 t.•ezes n - i vezes
(2) Usando o mesmo raciocínio do item (I) (ou a definição infor- Pela hipótese do item (b). temos então
mal), vemos que para toda família de variáveis aleatórias independentes,
qualquer subfamília é também formada por variáveis independentes. F x;(x;) =
m-+J
lim (Yi .1:-;1
f)m) F;(x;l .
J :1+ l
{I F}ml) = F ;(x;),
Por exemplo, se X, Y e Z são independentes, então X e Y também o
são. (Essa é uma propriedade "hereditária" de variáveis independentes, já que lim F;{m) = I. Logo F, é a função de distribuição de X ;(F; = Fx.).
segundo Breiman [ 6].) m -:r
( 3) Ocorre que as variá veis aleatórias X 1 .... , X, são indepen- Terminamos a prova com a Teoria da Medida. ·(A idéia da prova:
dentes se sua função de distribuição conjunta fatora e é o produto queremos ver que
das funções de distribuição individuais. De fato, temos a seguinte 11
(h) Reciprocamente. se existem funç6es F 1 , •.• , F. tais que i.e .. vale o resultado se os B; são do tipo ( - oo. x;]. Vamos fazer uma
verificação para B; = (a;. b;]:
lim F;(x) = I para todo i e
x-.,.. .IJ
11
P(X 1 E B 1 , ••• ,X.EB,) = P(a 1 < X 1 ~h 1 .
a, < X, ~h,) .. ..
F.\ ,. . .\,. (x 1 ••••• x,) = fl1 F;(x;). V(x 1 ••••• x.) E IR".
;~
=&1 , .. . & 1.. F(x 1 , .. . , x.) =&1 , ... &, ,. (F x,(xtJ .. . Fx..(x.))
-
= [Fx,(bd- Fx,(ad] x ... x [Fx ..(b.l- Fx,(a,l] -=-
então X 1 •.•.• X" seio independentes e F; = Fx i' V i= 1, ... , 11. " 11
(Em outras palavras, X 1 . . . . , X" são independentes se. e só se, [lP(a; < X; ~ bJ = [lP(X ; E B.).
sua função de distribuição conjunta fatora e cada fator converge para i= 1 i= 1
é densidade conjunta das L'aríáL•eis aleatórias X 1, ... , X "' l.e.,· j '-- 1·X ... X •
. (b) Reciprocamente, se X 1 , . . . , X" têm densidade conju~ta'/s~-
ttsfazendo
.• r
f(x I , · · ·, Xn) = n
.f.{xJ, V(X;, ... , Xn) E~",
,~ I
onde a 1 > 0, a 2 >0, -1 < p<l, p 1 E ~, p 2 E R
Se p = O, então a densidade fatora :
onde px)'2! o_e r - .,.J,{x)dx =I , Vi, então XI , ... , x. são independentes
e fi e a denstdade de X;, para i= I, ... , 11 • .f(x, _r) = I exp{ - (x- ~til}· I exp{ - (y- ~2)2 } ·
.jfi a 1 2a 1 .jfi a 2 2a 2
Prol'a. (a) Se X I ' ... , X n são independent es, então
Portanto, pela Proposição 2.5(b), se p =O então X e Y são independen-
F x ,, .... x)xl, . .. , x.) = (pela Proposição 2.4(a)) = fJ Fx,(.\:;) = tes e X- N(p 1 , af}, Y- N(p 2 , a~ ).
i~l
Se p # O, então X e Y não são independentes, pois sua densidade
n I x, fx ,(t;)dt; =
=(pela definição de densidade) = ll _f
conjunta não é produto das densidades marginais (i.e.,f# fx f r ). Com
efeito, vamos calcular as densidades de X e Y, usando a seguinte
fx
f x" . ..
PROPOSIÇ ÃO 2.6. (a) Se F(x, y) é a função de distribuição conjunta
1
Por exemplo, se F( ...:, y, .::-) é a função de distribuição conjunta de X. em quase toda parte, então g também é densidade de ~- Já vimos
r e Z, então a função de distribuição marginal de (X, Y) é F(x. y. + _~_ ), um exemplo disso, no caso de variáveis aleatórias (logo após a De-
e a de X é F(x, + Y., +f__); se j(x, y, .::-) é a densidade conjunta de X, finição 2.3), quando consideramos a densidade da distribuição uniforme
1; Z, então a densidade marginal de (X, }) é J~, /(x. r.:) d: e a de em [0, I], aceitando as duas "'versões" usuais da densidade (uma com
X é j~(x) = S~ , S' , j(x, y, :) dy d:::. No caso geral, .obtc~os a função f (0) = f (I)= O, a outra com .f (0) =f (1) = I).
de distribuição (densidade) marginal de uma subfamília das n variáveis Na prática. podemos ignorar este problema técnico c tratar todas
aleatórias, fazendo todas as outras variáveis convergirem para + , as versões da densidade como equivalentes, porque qualquer versão
na função de distribuição conjunta (integrando a densidade conjunta de serve para obtermos a distribuição. Notemos, contudo, ljUe para con•
- f__ até +f__ em todas as outras variáveis). cluir que f 1= f,· f) no exemplo acima, não é suficiente achar somente
Para um resultado análogo no caso discreto, veja o exercício 2. um pont~ (x, y) em que temos a desigualdade, mas precisamos provar
que j(x, y) i=.fx(x)f)(y) em um conjunto de área estritamente positiva
(i.e., medida de Lebesgue > 0).
Voltando ao exemplo 15. vamos calcular a densidade marginal
de X. i.e .. fr(x) = S' "f(x, _r) dy. Colocando em evidência os fatores EXEMPLO 16. Seja G c IR" uma região tal que Vol G >0. onde V oi G
que não dependem de y. c completando o 4uadrado do expoente do é o volume n-dimensional de G, de modo que Voi G =
restante, temos = J ... J I dx 1 ... dx,. (Quando 11 = 2, por exemplo, V oi G =área G.)Di-
zem~s que ~ = (X 1 , .... X .l é unifármementt' distribuído em G se X
possui densidade
1
-, (x 1 , ... , x.) E G
j(x 1 •...• x,) =~ Voi G
{ O , (x 1 , ... ,x,)1G
1
66 Probabilidade: Um curs o em Nfvellntermediério
Variáveis Aleatórias 6 I
Se G é retângulo, então X 1 , ••• , X" são independentes e cada uma é que vale a recíproca (Proposição 2.6(b)): se X e Y têm densidade con-
junta, então existem as densidades marginais, com .fx(x) = J ~ n f(x, y)dy
uniformemente distribuída. Por exemplo, seja G = fi [ai, b;]. Então
i~! e f~( _v)= J~ X> f(x, y) dx.
Cabe notar aqui que X e Y são discretas se, e somente se, (X, }')
f(x,, ... ,Xn) =-~~ I - - JG(x, , ... ,Xn) =,fi, {b,.~a,-lla,.bil(x}, é discreto. (Verifique!) Logo, temos o seguinte esquema, onde X 1 , .•• , X,.
TI (bi -
i= I
a;) f são variáveis aleatórias em (íl, d, P):
onde a última igualdade se justifica por : X I' ... ' X n discretas <o> (X I ' ... ' X,.) discreto
(x 1 , ... , x,.) E G <o> X; E [a;, b;] 'Vi, X I ' ... ' X n absolutamente contínuas t.
(X I ' ... ' X nl absolutamente
ou seja, contínuo.
Observamos que sob a hipótese adicional de independência, te-
JG(x,, ... , Xn) = I <o> l(a;,bil(xi) = I, para todo i= I, ... , 11. mos equivalência nos dois casos, pois X 1 , ... , X" independentes e
I absolutamente contínuas = (X 1 , ... , X 11 ) absolutamente contínuo, pela
Como b- -:.__ - l 1a;.b,J é densidade da distribuição U[ai, ba, a Proposi-
0 Proposição 2.5(a).
' I
ção 2.5(b) diz que X 1 , ... , X" são independentes e X.- U [a- b]
. Se V, oi ~ ~ ~· não .se pode usar a definição dada ~cima p~ra' de-
fim r a d1stnbmçao umforme em G. Mas em certos casos tal distri- § 2.6 Distribuições de funções de variáveis e veto-
buição pode ser definida de maneira bem intuitiva. Para iiustrar este res aleatórios
conceito, seja G a diagonal do quadrado unitário no plano: Seja X =(X 1 , ••• , X,.) um vetor aleatório em ((l, .91, P), e conside-
remos o problema de determinar a distribuição de Y = g(X 1 , ... , Xnl·
Este problema inclui o problema de determinar a distribuição da fun-
Ção de uma variável aleatória, ou seja, de Y = g(X), pois uma variável
G aleatória é vetor aleatório unidimensional (i.e., 11 = I).
Obserração. Para que Y seja uma variável aleatória, vamos supor que
o g seja mensurável a Borel. i.e.,
Como v~cê interpretaria "o vetor (X, Y) é uniformemente distribuído g - 1(B) = {(x 1 , ... , X 11
)E IR": g(x 1 , ... , x,.) E B } E dd", 't/BE :Jd.
em G"? E claro que com isto queremos dizer que para todo boreliano Toda função que se pode visualizar é mensurável a Borel - em par-
B no plano, ticular, toda função contínua o é - e não vamos nos preocupar com
Px . y(B) = P((X, Y) E B) = ~~_mpri_m_:~o (G n Bl . esta questão.
~2
Formalmente, o problema é de fácil solução, pois a função de
Notemos que esta distribuição é singular: não existe uma densidade
con~unta. (Suponhamos que exista uma densidade conjunta, f(x, y).
di5tribuição de Y é
Entao Px.r(G)= I=JvJ f(x;y)d xdy =I. Mas área G =O, logo F y(y) = P( Y::::; y) = P(g(X 1, · .. , X nl ::::; y),
Jd f(x,y) dxdy =O. Absurdo.) e esta última probabilidade pode ser calculada por meio da distribui-
E fácil verificar que X,..,_, U [0, I] c Y ,. ,_, U [O, I]. Logo, fica pro-
ção conjunta de X I ' ... ' X n: se definirmos
vado que se X tem densidade e Y também, não é necessariamente verda-
deiro que X .e Y possuam uma densidadP mnirmta. Já sabemos, contudo, By = {(x 1, ... ,x,.):g(x 1, ... ,x,.)::::; y},
68 Probabilidade: Um curso em Nível Intermediário
Variáveis Aleatórias 69
então g(X 1 , •••• X.)~ y se, e somente se, (X 1 •••.• X.) E By, de modo que probabilidade zero são desprezíveis. ~ara noss.o~ pr~pósit~s. Se você
quiser, poderá substituir z pela vanavel aleatona Z defimda por
F y(y) = P((X 1, ... , X.) E B).) = Px ,..... x.(B..).
, {X I Y, se X > O e Y > O
Em outras palavras, conhecendo a distribuição conjunta de
Z = O, caso contrário.
X 1 , ••• , X •• podemos obter a distribuição de qualquer função (men-
surável) das X i, pelo menos teoricamente. Voltando aos cálculos, temos para z >O,
Quando X é discreto, o problema é realmente de fácil solução,
pois neste cas~ Y também é discreta (por quê?) e para obtermos sua
Fz(z) = P(X 1Y ~ z) = P((X, Y) E BJ, onde:
função de probabilidade precisamos apenas somar os valores relevan-
tes da função de probabilidade de K· Especificamente, se a função de y
Caso 2
Caso 1
probabilidade de K é Px(;!i), i = 1, 2, ... , e se Yi é um valor possível 1/z ------ - -,; z<1 z ~1
de Y (i.e., um dos g(xi)[ então '
1/z
py(.V) = I P,e(~J
i: g(!.i ) .l';
metro I.
Logo.
EXEMPLO 18. Se X e Y são independentes, cada uma com distri- 0, z~ O
buição uniforme no intervalo [0, 1], qual a distribui- , o < =< 1
ção de Z = X ,' Y? F z(z) = zI~. 1
Como o < z < X se X > o e r > O, temos .{ I - : , z ~ I.
2
P(O < Z < x) ~ P(O < X ~ I, O < Y ~ I) = Como F z é contínua e derivável por partes, Z possui densidade,
= P(O < X ~ 1) P(O < Y ~ 1) = 1.
a saber :
Logo, F z(z) =O para z ~O. Notemos que segundo a nossa definição
0, =< o
formal, pode ser que Z não seja uma variável aleatória, pois pode . , I 12. O < : < I
tomar o valor + x (quando Y =O e X > 0) ou ainda ficar sem defi- fz( z) = Fz(:) = _I_
nição (quando X =O e Y = 0). Mas esses dois eventos excêntricos têm { z > I.
2z 2 '
probabilidade zero, e podemos afirmar que, com probabilidade 1, Z
está bem definida e toma valores finitos, e, em todo caso, eventos de . (Os valores de fz em O e são arbitrários.)
70 ProbabMidade: Um curso em Nlvellntermediário
I Variéveis Aleatórias 71
. Para certos casos :·pa.dr~o", existem fórmulas que podem ser Logo, g é a densidade da soma Z = X + Y, i.e.,
aphcad.as para obter a distrtbUição de g(X). A soma de duas variáveis
aleat?r~as é o caso mais típico disto. E'iitão, sejam X e y variáveis
aleatonas em (Q, .91, P). com Z = X + Y. Calculemos a distribuição
fx + y{z) = f"" f(z- t, t) dt = (fazendo s = z- t) = foo f(s, z- s) ds.
-a: -oo
de Z. A solução geral é
Por isso, já está provada a seguinte proposição.
Fz(z) = P(X + Y~ z) = P((X, Y) e B;),
PROPOSIÇÃO 2.7. (a) Se X e Y têm densidade conjuntaf(x, y), então
+y
onde B= = {(x,y):x
y
S; z}:
J:u y(Z) = r:
-oc
f(z - t, t) dt = f"'
- ~
f(t, Z- t) dt.
_Yamos supor agora que (X, Y) tenha densidade l(x, y), i.e., vamos
restringir nossa atenção para o caso contínuo. N~ste caso,
/1 •Ji.(x) = fcx. fl(x-t)f2(t)dt.
f ff(x,
-oc
Fz(z) = (pela Proposição 2.2'(b)) = y) dx dy = Portanto, pela proposição, se X e Y são independentes e absoluta-
8;,.., mente contínuas, então fx *fr é densidade da soma X + Y.
=f" f=Yf(x, idx dy. voltando ao exemplo da distribuição normal bivariada, pode-se
-J -J
mostrar que, se (X, Y) tem distribuição normal bivariada, então X+ Y-
. F~zendo a mudança de variáveis s = x + y. t = y, que tem jaco- - N(11 1 + 11 2 , O'~ + 2p a 1a 2 +a~). (Exercício: verifique os cálculos.) Em
biano Igual a I, temos particular, se X e Y são independentes (i.e., se p = O~ então X + Y-
F z(z) =fr 7
-7 - Y
f(s- t, t) ds dt = rf-'J _
7
7
f(s- t, t) dt ds =
- N(11t + 112• ai+ CT~).
Podemos generalizar esse resultado para a soma de n variáveis
aleatórias normais independentes. Com efeito, sejam X 1 , X 2 , ••• , X"
=r -c>
g(s)ds,
independentes, com X i - N(l1i• af), I~ i~ n. Então, por indução,
X 1 + ... +X."" N(111 + 112 + ... + l1n• CTI +O'~+ ... +a;).
Fazemos a indução da seguinte maneira: X I+ x 2- N(111 + 112•
onde g(s) = JJ f(s- t, t) de. ai +a~) e X 1 + X 2 é independente de X 3 , logo X 1 +X 2 +X 3 -
- ., · - N(11 1 + 11 2 + 11 3 , ai+ a~+ a~~ etc .. O problema que surge nesse
72 Probabilidade: Um curso em Nível Intermediário Variáveis Aleatórias 73
wz
x = h 1(z, w) = - - , y = h 2(z, w) = - - ,
z axj
~=
ahi<Y•·:~ ... ,y.) , 1< .. <
_i,J_n,
w+1 w+ 1 uyj uyj
"fi
E• f"ac1·1 verttcarque - -I- -2, w>O e ze -=' z> O' são densidades·' h.<.r ...... y.)) IJ<~. r> Idy • ... dy ••
(w + 1) '
de fato, são as derivadas das funções de distribuição F w e Fz obtidas para qualquer f integrável em A, onde A C G0 .
na solução 1. Decorre, então, da Proposição 2.5(b) que Z e W são Vamos traduzir para a linguagem de variáveis aleatórias e den-
independentes, e sidades: seja f a densidade conjunta das variáveis aleatórias X 1 , .•. , X"'
fz(z) = {ze -=, z > O onde P((X I, X nl EGo)= 1. Sejam r.'
o o o, as variáveis transfor- o o o, r.
O, z :5; O madas, i.e., ri= g~X 1 ; ..• , X.), i= 1, ... , n. Então para B C G, B bo-
reliano, temos
j;..(w) = {(w ~ 1) 2, w > O P(( r. ' o o o' }~)E B) = P((X I ' o o o' X nl E h(B)) =(pela Proposição 2.2'(b)) =
O, w :5; O.
= f- ··ff(x 1 , ••• ,x")dx 1 ••• dxn=
f-
h(8)
§2.7 O método do jacobiano = o ff<hdr.' o •• ' Yn), o o o' h.(Yl, o •• ' YnH· IJ(~. x)l dyl o o o dy •.
8
Suponha que G0 C IR" e G C IR" sejam regwes abertas, e que
Como
g: G0 ~ G seja uma bijeção entre G0 e G, onde
g(x 1 , ••• ,x.) = (g 1(x 1 , ••• ,x.), ... ,g.(x 1 , ••• ,x")) = (y 1 , ••• ,y.). -
P(rEG) = P(XEh(G))
- -
= P(X E G0 ) = 1,·
.
~
•
~·
76 Probabilidade: Um curso em Nível Intermediário
Variáveis Aleatórias 77
~
conduzindo assim a:
6 temos, para todo boreliano B no iR",
f JB,,(, ..
l
••• ,_1' 11 ), ••• ,h"(y 1 , .. . ,y"))IJ(x,y)l, 1
.fl _I 1 , .. . , J "I - O, y ~ G. - - - /(r)={/x(y\rlli(Y- l'(yJf, yEG
1
. . O, Yf G.
Ohscnaç{)es. (I) O teorema diz que, sob as condições dadas, para
~ obter a densidade de Y basta (i) substituir o valor de x
Como y 1 (y)=e--' c (y- 1 )'(y)= -e-', a densidade de Yé
I em f(x) por seu valor em função de 1-:: i.e .. substituir x por h( r)= y 1( rl
c (ii) ;nultiplicar pelo módulo do j~cobiano de x e;n relação a r, q~e
I já é função de y. - :...
I Como é freqüentemente mais fácil obter o jacobiano de y em re-
I lação a ~, pois X
é dado em função de ~- é bom lembrar que os dois
jacobianos são recíprocos e pode-se obter J(x, r) a partir de J( r, x), t.e., Y- exp (I).
I invertendo este último e substituindo ~ por 11~1')"'= y- \r). (Esta ;cg~a (3) Para obter a distribuição de l=(Y1 , ... , }k)=g(~), quando
é análoga à regra para a derivada da função Inversa no caso unidi- a dimensão de Y é menor que a dimensão de~ (i.c .. k < n), muitas vezes
mensional: é possível completar a transformação y através da definição ~onvc
niente de outras variáveis }~ + 1 = !lk+ 1(~ ), ... , };, = g"L~), determmar a
dy" l(y) I I I ,
densidade conjunta de }'1 , .•• , l;, utilizando o método do jacobiano c.
dy - = y'(x) ;' q l(yJ
g'(g- 1
(.rll ) ·
finalmente, obter a densidade conjunta marginal de Y1, ... , }i,.
Por exemplo, na solução 2 do exemplo 19 obtivemos o jacobiano Por exemplo, no exemplo 18 calculamos a densidade de Z =X/}
partindo da suposição de X e Y serem independentes, cad~ qual t~ndo
}((.\, y), (:. 11)) = distribuição uniforme em [0, I]. O método usado foi o metodo basico
de obter diretamente P(Z :-s; :).
Consideremos o seguinte método alternativo: seja Gu o quadra-
derivando as funções x = Ir:- e r = - - . Mas poderíamos ter de-
~r+ I Ir~ I do aberto (0, I) x (0, I), de modo que
y
rivado as funções originais, : = x +y e 1r = - , para obter P((X, Y) E G0 ) = I.
r
Definamos !/ dx, y) = x,'y c completemos a transformação, definindo
J((:, 11-L (_x, _r)) ==
(.\ + y) IV = }: ou seja
Variáveis Aleatórias 79
78 Probabilidade: Um curso em Nível Intermediário
Então a transformação g definida por g(x, y) = (x/y, y) é uma uma correspondência biunívoca entre Gr e G, V ( = 1, ... , k. (Neste
bijeção entre G0 e G = {(;::, w) :0 <::: < 1/w, O < w < I }: caso podemos dizer que a função g é "k a 1".)Além disso, suponhamos
que a função inversa de g IG , denotada por h<"l, satisfaça todas as con-
dições da função h do caso ~nterior, e indiquemos com J r(~.~) o jaco-
biano da função h<f'l. (Este jacobiano é função de y E G. Notemos que
h<tl: G--+ Gt é uma bijeção.) Temos, então, o seguinte esquema:
I0"'
J((x, y), (.:, w)) = = w.
=I
1
-x
O, .:::;O
- {"t/(h<fl<g))· IJ ,{,!, fl J, r EG
rol
J wdw =
2'
0 <z::;; 1 /!.(~) - O, 1 ~ G.
l /: 1
io
P(X E B) = P(g(X) E B) = L
k
P(g(~) E B, ! E Gr) =
P(~EW 1(B)) =
f=l
±f . .
f-1 h(fl(Bl
ff(x 1, ... ,x.)dx 1 ... dx.=
K=(X 1 , ••. , X.) e X= (Y1 , .•. , Y.), podemos utilizar o método do ja- = (mudança de variável) =
cobiano em muitos casos em que a função g não é 1 a 1, bastando que
g seja 1 a 1 quando restrita a cada uma de k regiões abertas cuja união
contêm o valor de K com probabilidade um. Para tanto, suponhamos
= ftf . . B
ff<h(fl<g))JJ,(,!,_r)Jdyl ... dy.=
fz. w(z, w) = { /(h 0 1(z, w)) + f(h121(z, w))} · . 2(w; + ) em G.. Neste caso, as estatísticas de ordem X (li• ... , X 1• 1 possuem den-
1
sidade conjunta
Como
"
n! flf(xi), se x 1 < x 2 < ... < x.
1 -(x2+ 1·2)12 1 -z/2
= { ~: ca~o
1
/( x, }' ) = n e · -- -2n e ' fx( tJ ..... x(.,(x 1 ' ... ,x.) contrário.
2
temos Prova. Provaremos primeiro para n = 2. Definamos
1 1 < x2
fz w(z w) = 2 (_!__ e - z/ 2 ) · - -- -
2(w 2 +1)
= _!__ e - •12,
n:(w 2 +1)'
(x 1 , x 2 ) se x 1
··' 2n 2 g(x 1 , x 2 ) = (x 2 , x 1) se x 2 < x 1
{ (X , xtJ Se X = X •
para (z, w) E G, i.e., z >O e w E IRl (e = O, (z, w) ~ G). 1 1 2
Como a densidade conjunta é o produto de duas densidades, con- Então X = (X (I 1, X 121) = g(X 1 , X 2) e g é 2 a 1. De fato, definindo
cluímos (Proposição 2.5(b)) que Z e W são independentes, Z- exp(1/2~ G = G 1 = {(x 1, x 2): x 1 < x 2} e G2 = {(xJ, x2): x2 < xd, vemos que o!G,
e W - Cauchy-padrão. e g 1 . são correspondências biunívocas entre as regiões abertas G,
G2 1 .
e G, t'= 1,2. Além disso, temos P((X 1 ,X 2)EGi u G2)= , pms
(Observação. Decorre disso que x2 (2) = exp(l/2) = r(l, 1/2).)
P((X 1 ,X 2 )ftG 1 u G 2 ) = P(XI = X2) =
EXEMPLO 22. Obteremos a densidade conjunta das estatísticas de
ordem de uma amostra aleatória de uma distribuição
= ff f(xJlf(x 2)dx 1 dx2 =O
l(x,.x,):x, =xz l
absolutamente contínua. Primeiro, as definições necessárias:
(a área da diagonal é nula, portanto a integral sobre a diagonal tam-
DEFINIÇÃO 2.9. Variáveis aleatórias que possuem a mesma distri- bém é nula). ·
buição são chamadas identicamente distribuídas. Se Como h11)(y 1 ,}' 2) = (y 1 , y 2) e h121(y 1 , y 2) = (y 2, y 1 ), os jacobianos
X I• ... 'X n são variáveis aleatórias independentes e identicamente dis- de h(l' e h121 são, respectivamente, iguais a 1 e - 1. Em cada caso o
tribuídas, com função de distribuição comum F= F x i' dizemos que módulo do jacobiano é 1 em G, Jogo a densidade conjunta de X(l,
as Xi formam uma amostra aleatória de tamanho 11 (tirada de F, ou e x(2 ) é
tirada de uma população com distribuição F). As Xj ordenadas em
ordem crescente são as estatísticas de ordem da amostra e são repre- fxlli.XIli(YI• Y2l = /x,,x,(YI• Y2) + fx..x2(y2, Yd
= f(yd f(y2) + f(y2) f(yd = 2f(yd f(Y2~
sentadas por x(IJ•"'' X(nJ• onde para WEil, (Xo,(w~ .... X(n)(w)) é
qualquer permutação de (X 1 (w~ ... , X .(w)) que satisfaz para (y 1 ,y 2)EG, ou seja, para y 1 <y 2 (e é igual a zero se Y2 s yd,
como queríamos demonstrar.
X 11 ,(w) s Xdw) s ... s X 1.,(w). Para n > 2, a prova é análoga. Neste caso, a função g é 11! a 1 e
Observação. X 11 1 = mio (X 1 , ••• , X.) é o mínimo da amostra, X 1• 1 = há n! regiões Gf, correspondentes às n! jlermutações de G = {(x 1, ..• x.) :
= max(X 1 , ••• , X.) é o seu máximo. x 1 < x 2 < ... < x.}. Como o jacobiano de cada permutação é 1 ou -1,
.I
e como o produto dos n termosf (y;) não depende da ordem dos termos , Dizemos que a soma Xi +X~+ .. . + x; tem distribuição qui-
segue-se o resultado. O -quadrado com n graus de liberdade. Notação :
Consideremos o seguinte exemplo especifico : se X 1 , .•• , X" são
independentes e identicamente distribuídas. com X ; --.. U [0. 1], então
Xf + .. . x; "' X (n).
2
f( x ) = / [o. l](x) e a densidade conjunta das estatísticas de ordem e Para verificar que a distribuição X2 (n) é a r(n/2, 1/2~ siga este
caminho: verifique primeiro que Xi- r(l /2, 1/2) (veja o exemplo 20);
j
.
X!!I . .. ,. X!n l
(
X1, .. . , X.)=
{n!O se O~conx rano,
< ... < x . ~ 1
1
t .. prove a seguir que se X e Y são independentes e X"' r{tx 1 , {3~ Y-
caso - nxz, {3). então X+ y- r(IX, + (X2, {3); e finalmente, mostre por in-
de modo que X 111, ... , X 1• 1 têm distribuição uniforme na pirâmide dução e pela propriedade hereditária da independência que X i + ... +
{ (x~> .. . ,x.): O~x 1 <: ... < x.~ 1}. + x; . .r(n/2, 1/2). (Para verificar que X+ Y"' r(a 1 + il 2 , {3~ use a
convolução - veja a Proposição 2.6(b).)
§2. 8 . Observações adicionais - variáveis e vetores Nota: quando n = 2, a distribuição é exponencial.
aleatórios (ii) Se X- N(O, 1~ Y- x2(n), e X, Y são independentes, então
(a) Se X 1, ... , X" têm densidade conjunta f(x 1, ... , x.). então, como T= _ x _
no caso unidimensional, f é a derivada de F = F x ,..... x"' no seguinte .jYin
sentido :
tem distribuição t de Studenr com n graus de liberdade.
Por exemplo, sejam X 1 , • • • , X" variáveis aleatórias independentes
2 2
e identicamente distribuídas, com X;- N(O, a ), onde a >O. Defi-
em quase toda parte, i.e., em todo ponto exceto num conjunto de namos
medida de Lebesgue nula (volume zero). - = 1- (X 1 + ... + X .) = " me'd"Ia amostraI",
X
n
(b) Seja f: IR"-+ IR: uma função não-negativa (f(x 1 , .. . ,x.)~0).
Como no caso unidimensional (veja o ~ 2.2), f é densidade de algum
1
S2 = - -
n-1
f (X;- X) 2 = "variância amostrai".
I vetor aleatório se, e só se, i=l
I S ... S f(x 1, ... , x.) dx 1 ... dx. = I. É fácil verificar que fi>:
a
possui distribuição N(O, 1). Acontece que
i O argumento é o mesmo : se a integral é igual a 1, então F definida por 1 2
f"'"
(n- ) S ._ X2(n- 1) e X e S 2 são independentes (você verá isso em
t F(x 1 , ... , x.)=
fx'
_" ... _ " f(t 1 , ... , t.)dt 1 ... dt.
0"2
I
I 87
86 Probabilidade: Um curso em Nível Intermediário Variáveis Aleatórias
•
•
Varibeis Aleatórias 89
88 Probabilidade: Um curso em Nfvellntermediário
18. Uma urna contém três bolas numeradas I, 2 e 3. Duas bolas são
~2.3
tiradas sucessivamente da urna, ao acaso e sem reposição. S..:ja X
12. Determine a densidade de Y = (b- a) X+ a, onde X ~ U [0, I]. o número da primeira bola tirada e Y o número da segunda.
(É a densidade da distribuição uniforme em [a, b], e escrevemos (a) Descreva a distribuição conjunta de X e Y
Y"' U [a, b ].) Faça o gráfico da função de distribuição de Y (b) Calcule P(X < }').
13. Se X tem densidade f(x) =e x /2. - x < x < + x, qual a dis-
1 1 19. Dizemos que a distribuição conjunta de X 1 , ..• , X" é invariante
tribuição de Y = X I I? para permutações se toda permutação das X; tem a mesma dis-
14. Cinco pontos são escolhidos, independentemente e ao acaso, do tribuição, i.e., se (X n1, X n,• ... , X n)"' (X 1, .•. , X.) para toda permu-
intervalo [0, I]. Seja X o número de pontos que pertencem ao tação (n 1 , ... ,n") do vetor (l, ... ,n).
intervalo [0, c] onde O< c< I. Qual a distribuição de X? (a) Mostre que se (X, Y)- ( Y, X) e X e Y possuem densidade con-
15. Determine a dif.tribuição do tempo de espera até o segundo su- junta f(x, y), então P(X < Y) = P(X > Y) = 1/2, com P(X =
cesso em uma seqüência de ensaios de Bernoulli com probabilidade = Y) =O.
p de sucesso. (b) Generalize o item (a), provando que se a distribuição conjunta
de X 1 , ... , X" é invariante para permutações e X 1 , ... , X" pos-
16. Uma massa radioativa emite partículas segundo um pro:esso de
suem densidade conjunta f(x 1, ••• , Xn), então
Poisson a uma taxa média de 10 partículas por segundo, Um
contador é colocado ao lado da massa. Suponha que cada par- P(X 1 < X 2 < ... < Xn) = P(Xn 1 < Xn, < ... < Xn) = ~!
tícula emitida atinge o contador com probabilidade 1!10, que o
contador registra todas as partículas que o atingem, e que não há e P(X; = X 1 para algum par (i,j) tal que i i' j) =O.
2
interação entre as partículas (elas se movimentam independen- 20. Seleciona-se, ao acaso, um ponto do círculo unitário {(x, y): x +
temente). + y ~ I}. Sejam X e Y as coordenadas do ponto selecionado.
2
(a) Qual a distribuição de X, ",gnúmero de partículas emitidas até (a) Qual a densidade conjunta de X e Y?
o tempo t, t >0? (b) Determine P(X < Y), P(X > Y) e P(X = Y).
(b) Prove que r; tem distribuição de Poisson, onde }; é o número 21. Seleciona-se, ao acaso, um ponto do quadrado umtano : (x, y):
de partículas registradas (contadas) até o tempo t, t >O. Qual o O ._: ; x :::;; I, O :::;; y :::;; I ) . Sejam X e Y as coordenadas do ponto se-
parâmetro? lecionado.
(a) Qual a densidade conjunta de X e Y?
(b) Calcule P(l Y/X- li:::;; 1/2).
(c) Calcule P( r~ X l Y ~ I /2).
~24
~2.5
17. (a) Demonstre que a função
.,., (Critério para independência no caso discreto.) (a) Sejam X e r
I - e- x- r, se x ~ Oe y ~ O variáveis aleatórias discretas, tomando respectivamente os valores
F(x, v)=
· { O, caso contrário x 1 , x 2 , ... e y 1 .}' 2 , .... Prove que X e Y são independentes se, e
somente se, P(X=x;, Y=y 1 )=P(X=x;)P(Y=y)'v'i.j.
não é função de distribuição de um vetor aleatório.
(b) Mostre que se X e Y tomam somente um número finito de va-
(b) Mostre que a seguinte função é função de distribuição de algum
lores, digamos x 1 , ... , xm e y 1 , ... , y•• então X e Y são indepen-
(X, Y):
dentes se P(X = x;, Y = y1 ) = P(X = x;) P( Y = y1) para I ~i:::;;
(1-e-x)(l-e->), x~O e y~O :::;; rn- I, 1 ~j ~ 11- I. (Em outras palavras, para provar in-
F(x, V)=
· { O, caso contrário. dependência, basta verificar (m- ·1) (n- I) equações.)
Variáveis Aleatórias 91
90 Probabilidade: Um curso em Nível Intermediário
(c) Generalize o ítem (a) para o caso de 11 variáveis aleatórias. 3::'.. Um ponto é selecionado. ao acaso (Í.e., conforme a distribui<;<!(,
Compare com a Proposição 2.5 e explique porque é suficiente uniforme). do seguinte quadrado:
verificar se a função de probabilidade conjunta é igual ao pro- Y+
---_~1ç~ ~~
duto de 11 funções de probabilidade unidimensionais.
21 Demonstre ou exiba um contra-exemplo: se X, Y e Z são indepen-
dentes 2 a 2, então elas são independentes.
24. Ache a densidade conjunta e as distribuições marginais das variá-
veis aleatórias X e Y cuja funçao de distribuição conjunta está
~-'-1-'f/
no exercício 17(b). X c Y são indepcndcntcs'? ~;;
25. Determine as distribuições marginais das variáveis aleatórias dis- i -1
cretas X c }'definidas no exercício I X. X e Y são independentes'? Sejam X e Y a~ coordenadas do pon(o sdc:cionado.
26. Demonstre a Proposição 2.6(b). (:i/ Qual a tkmidade conjuntcl de :-; e r·>
27. Sejam X, }'e Z independentes, cada uma tendo distribuição uni- (b\ Obtenha a dcnsiddde rnargiH,il de .Y
forme em [O. I]. Qual a probabilidade da equação quadrática (C) X c r SdO indeper:L:Cnte~; ,,
Xt 2 + Yt+Z=O ter raízes reais'.' <,:,. Suponhamos qu\.' X e } tenham di"tribuiçào conjunta dada pcl.l
28. Sejam X e }'variáveis aleatórias independentes, com X ~ U [O. a] scguinh: tabelâ
e }' ~ U [a, a+ h], onde a> O, h> O. Qual a probabilidade de que
J
os três segmentos [O, X], [X, Y]. [ 1: a+ h possam formar um
triângulo'> 3
29. Demonstre: se a variável aleatória X é independente de si m;.::,ma.
então X é constante com probabilidade 1 (i.e., existe uma constante o
c tal que P(X =c)= 1).
30. Suponha que as vidas úteis T1 e 7 2 de máquinas I e li sejam va- 2 1) I. 15
I
t'5
riá\eis aleatórias independentes tendo distribuições exponenciais
3 o ~~-0--
com, respectivamente, parâmetros í. 1 e í. 2 . l'm inspetor escolhe
uma das máquinas ao acaso, cada uma tendo a mesma probabi-
lidade de ser a escolhida, e depois observa a máquina escolhida (Por exemplo, P(X=l, Y=ll=O e P(X=2, Y=1)=1 5./
durante a vida útil dela. (Suponha que a escolha sL~a independente (a) Determine as distribuições marginais de X e r
das vidas.) (c) X e }'são independentes? Por quê'?
(a) Determine a densidade de T; onde T é a vida observada.
~2.6
(b) Suponha que o inspetor parou de observar a máquina esco-
lhida depois de cem horas, com a máquina ainda funcionando. 34. Sejam X e Y variáveis aleatórias independentes com distribuição
Qual a probabilidade condicional da máquina escolhida ter uniforme em [li- l/2, O+ 1/2], onde OE IR:. Prove que a distribui-
sido a máquina I'? ção de· X - Y não depende de tJ, achando sua densidade.
(c) Qual a distribuição de T se í. 1 = í. 2 = í.'? 35. Sejam X 1 , •.. , X" variáveis aleatórias independentes com densida-
31. Suponhamos que os tempos que dois estudantes demoram para de comum de Rayleigh com parâmetro 0: e>
resolverem um problema sejam independentes c exponenciais com
parâmetro i.> O. Calcule a probabilidade do primeiro estudante
j(x) f é~ cxp ( - 2~:2) , x >O
demorar pelo menos duas vezes o tempo do segundo para resol-
ver o problema. 1o' X "5: O.
Variáveis Aleatórias 93
92 Probabilidade: Um curso em Nfvellntermediá rio
(al Determine a densidade conjunta de Y1 , .• • , }~. onde }j = X f_ (a) Seja X, o número total de fregueses que entram no supermc-
cado até o instante 1 (inclusive), para 1 ~ O. Então :X,: 1 ~ O:
(bl Qual a distribuição deU= min X; ' ) (Como se chama essa dis-
também é processo de Poisson (não é preciso provar). Qual o
tribuição '? ) parâmetro deste processo'? Justifique sua resposta.
z X_~_ . (bl Seja T1 o tempo em que o primeiro freguês entra pela entrada .4.
(c) Calcule a distribuição de =
x2 com V1 o tempo em que o primeiro freguês entra pela entra-
da B. Ache a distribuição de min( T1 , VtJ, o mínimo dos dois
36. Sejam as variáveis aleatórias X 1 , ... , X" independente s e exponen- tempos.
ciais com, respectivame nte, parâmetros '1 1 , •• . , '1,.
(cl Determine a probabilidad e de que o primeiro freguês a entrar
(al Mostre que a distribuição de Y = min X; é exponencial. Qual
no mercado entre pela entrada .4.
o parâmetro'? 41. Seja A o seguinte triângulo :
(b) Prove que para k = I. ... , 11 .
37. Seja X uma variá\'el aleatória cuja função de distribuição F é Suponha que X e Y tenham densidade conjunta /(x., y) = d Ix. y).
uma função contínua na reta. Prove que a distribuição de Y = F(X) (a) Determine o valor da constante c.
é C..: [0, I]. (Sugestão. Prove primeiro no caso de F estritamente (bl Calcule a distribuição de X, a de Y e a de Z =X+ Y
crescente. Observe que não é suficiente provar no caso absoluta- (c) ,\;' e Y são independente s'1 Por quê?
mente contínua; vale também quando F é a função de Cantor.l 42. Se X e Y são as coordenadas de um ponto selecionado, ao acaso,
do círculo unitário [(.x, y) : x + y :<==;I:. qual a distribuição da
2 2
38. (a) As variáveis X. } c Z são independente s, cada um a uniforme- 2
variável aleatória Z = X + Y '!
2
mente distribuída no intervalo [0. I]. Determine Pl X < Y < Zl
eP(X:<==;Y:<==;Z). 43. Sejam X e Y variáveis aleatórias independente s, tendo distribuição
. (b) Se X , Y e Z são independente s e identicament e distribuídas, c comum L' [0, I].
(a) Qual a densidade da variável aleatória Z = X + }' '
1
a função de distribuição comum F é contínua, qual é P(X <
(b) Ache a probabilidad e da equação quadrática Xt
2
+ }'t + Z =O
< Y < Z)'? Justifique sua resposta . (Sug<'stãn. Exercício anterior. I
ter raízes reais.
39. (a) Sejam X e }'independen tes com distribuições de Poisson tendo,
respectivame nte, parâmetros i. 1 e i.2 . Mostre que X+ Y~ Pois- 44. Dizemos que X tem distribuição de Weibull com parâmetros '1
45. SeJam X e }' varÜi\'eis aleatórias independentes. X tendo dislri- 53. Sejam X c Y variáveis aleatórias independente-; com distribu11;üu
buição de Poisson com parâmetro i.= 5, e Y tendo distribuição
uniforme em [O. 1]. Ache a densidade de Z = X + Y comum exp(_i.). Prove que Z = x-1- y- U [0, 1].
46 Lança-se um dado equilibrado dum vezes. independL~ntemenk. 54. (Extensão do método do jacobiano para o caso de k infinito.) Sej;;
Sejam X e }'as vanáveis ak:atórias que representam os números Y=g(X). onde X=(X 1 , ... ,Xnl e 1'=(1'1 •... , }~).Suponhamo'
obtidos em, respectivamente, o primeiro e o segundo lançamento. que c:--c,, G2 , -~sejam subregiões ;bertas do [q" tais que P(~ c
(ai Determine P(.\ = }). EU G") =I, e tais que fiiG,. seja uma correspondência biunívoca
(b) Descreva a distribuiçà:J dr:: W =' i X - }' j. n
entre G, e G. V n ~ L Demonstre o seguinte teorema: se a função
(c) Seja Z = \1 se X + Y ~ ~ar
11<" 1 a inversa de g I! c· satisfaz as condições da função h do T cu-
tO se X + Y e tmpar. ~ rn"~
{re-~' ~ ~-
2
'\ - '\ -
1
/(r)= : :
são indcpendenks e ;\'(0, I).
4Y. Sejam X c }'variáveis aleatórias independentes com distribuição (b) Mostre que Z e u:
definidas por Z =R cos 8 e H'= R scn 8,
comum U [O, I J Ache a densidade conjunta de W e Z. onde W = são independentes com distribuição comum .'\'(0. I).
= X+ Y e Z =X- }' W e Z são independentes' 1 (Obserração. Este resultado é de interesse na simulação dt: varia-
50. Suponha que X seja uma variável aleatória com distribuição veis aleatórias independentes ~ normais. pois indica como trans-
,\'(0. 11. Calcule a densidade de r= X 4 c a de Z = I. X. }'e Z pos- formar números "pseudo-aleatórios" (simulações de variáveis alea:
suem densidade conjunta? Por que'? tórias independentes c L' [0, I]) gerados por computador.)
5 I. Seja X uma variável aleatória possuindo densidade j(x ). 57. (a) Se X e Y têm densidade conjunta f(x. y), ache a densidade con-
(a) Ache a densidade de }' = I X:
pelo método básico, obtendo a junta de W e Z, onde W =a X +b e Z = c Y + d. a >O, c >O.
função de distribuição de X e derivando-a. b E iR;, dE !R.
(b) Ache a densidade de }' pelo método do jacobiano. (b) Seja (X. Y) um vetor aleatório tendo distribuição normal biva-
52. Suponha que X. }'e Z possuam densidade conjunta riada com a densidade dada no exemplo 13 Hi2.5). Qual a den-
I
.
(X._\',::) =
J-I(I · - +6- y -+- .::f-
T X
se x > O, r > O e :: > O
.
sidade de ( W, Z) = (.\' ~ J.1 1 , y -
ai a2
J.1 2 )? Que distribuição é essa·)
l O caso contrário. (c) Se (X, Y) tem distribuição uniforme no círculo unitário l(x, rJ E
Obtenha a densidade da variável aleatória 11' =X + Y + Z de duas E [R 2 : x 2 + y 2 ::; 1 J. qual a distribuição conjunta de W e Z
· maneiras diferentes (método básico c método do jacobiano). (como definidas no item (a))?
96 Probabitid ade: Um curso em Nível Intermedi ário
§2.8
60. Suponh a que X I ' . .. , X n sejam indepen dentes c identica mente dis-
tribuída s, com densidad e comum f Mostre que a densidad e con- §3 .1 Preliminares: a integral de Stieltjes
junta de U = min X; e V= max Xi é
1 :S i- ~ n 1 :., i·~ n
Não é necessár io ler esta seção primeiro para poder acompa nhar
I~ l(u, r)= {n(n- l) [F( r) - F(uJ]" - 2 j(uJ/11'). se li < r as seções seguinte s. O leitor que já tenha alguma familiar idade com
· · O . se li 2 r . as proprkd ades da integral de Riemann -Stieltjc s. que são parecida
s
com as da integral de Stieltjes, pode omitir esta seção e consultá -la
(Sugestão. Primeiro obtenha P(li s; U. V s; r). Depois, calcule a
-
derivada da função de distribu ição conjunt a) quando precisar . Ao leitor que não conheça a integral de Ricmann
Stieltjes, sugere-s e uma leitura rápida antes de prossegu ir à seção
61 . Sejam X 1 , ... , X, variávei s aleatóri as indepen dentes e identica-
mente distribuí das, com distribu ição uniform e em [O, O]. onde seguinte .
O> O. Sejam Se cp é uma função contínua definida no interval o [a, b] e F é
U = min Xi, J.'= max Xi . uma função de distribui ção, define-se a imegral de Riemann-Stieltjes
I :. i ::.: ti t ·.. i : " de cp em [a, b], em relação a F (ou pondera da por F), como o limite
(a) Prove que a densidad e conjunt a de (L '. J ) é de "somas de Rieman n" da forma
2
/(u. r)= {11(11- l)(r-u)" ,0", Os; u < r s; O
• · O caso contrári o . f cp(_r;) [ F(xh d - F(x;)], (3.1)
•
i l
(Sugestão. Exercíci o 60).
onde a= x 1 < x 2 < ... < xn +1 = b, .\'i é um ponto arbitrár io de [x;. x,. 1],
• (b) Prove que a densidad e de ~ · - C está dada por
e toma-se o limite quando a norma da partição tende a zero. (A par-
•• /(Ir) =
11(11-1)11'" - (
2
. . (J" - t - -- 1 - O . . O ~ 1r s; li
[
1\' ,) tição consiste nos pontos xi. e a sua norma é definida como a maior
distânci a entre seus pontos vizinhos, ou seja. max (xi + 1 - xi).) Tal
1 ~- i,..:;"
O , caso contrári o.
I
I
• 62 . Se X b .. . , X, são indepen dentes com distribu ição comum U[O. 1].
mostre que
a
cp(x) dF(x) .
..•
A função cp é chamad a de integrando. F de integrador.
Y= (fi xi')l·". Não é preciso supor que F seja uma função de distribui ção: se
,
F é uma função monóto na, ou mais geralme nte, de variação limitada
1- I
.•
.
63. Mostre que se X~ t( I), então X tem distribu ição de Cauchy . o limite de (3.1) existe e é a integral de Riemann -Stieltje s. No entanto,
Esperança Matemática 99
98 Probabilidade: Um curso em Nível Intermediário
limite das somas (3.1), pois quando zero não é um dos pontos da par-
o caso em que o integrador é uma função de distribuição será do maior
tição, de modo que.\;< O< X;+ 1 para algum i, com F 0 (.-..:i+ d- fll(x;) =· L
interesse para nós.
então o somatório assu~c como valor ou O ou I, dependendo do va-
A integral de Riemann-Sticltjes sobre a reta é uma integral im-
lor escolhido para .\'; ser menor que O. ou não.
própria definida da mesma maneira que a integral imprópria de Rie-
mann:
•I• Por causa desta deficiência da definição, a integral de Riemann-
J <p(x)df(x) = lim j I.{J(x)df(x), Stieltjes mostra-se insuficiente para nossos propósitos, e teremos que
utilizar uma integral mais geral, a saber, a de Lebesgue-Stieltjl!s, que,
a_,. f r!
b-+ + f
doravante, será chamada simplesmente integral de Stieltjes. Não da-
se o limite existe. Veremos adiante que para a definição de esperança remos a definição formal desta integral, pois depende de conceitos
de uma variável aleatória. a função I.{J(x) = x assume a maior impor- da Teoria da Medida. que não devem ser introduzidos a esta altura.
tância. Neste caso. pode-se mostrar que quando a integral imprópria Entretanto, faremos agora algumas observações sobre a integral de
de Riemann-Stieltjes existe. é um simples limik de somas da forma Stidtjcs que deverão proporcionar ao leitor condições para poder cal-
cular a integral em qtmse todos os casos de interesse. (Como caso
i
L'
-
r;[Hx,. d- Flx 1 l]. (3.2) particular, notemos que quanto ao exemplo acima, o item 6 abaixo
f
implica J~ 1 F 0 (x)dF(,(x) = 1.)
onde os pontos X; formam uma seqü~ncia crescente, lim .\, oc + Y, I\o que se segue, o intl~grando l.fJ é uma função real mensuráveL
c o integrador F é uma função de variação limitada, contínua à direita,
lim
,_, f
X;= - J. _ .\";E [x;. X;; 1 Je toma-se o limite quando i. e., a diferença entre duas funções monótonas crescentes, limitadas
c contínuas à direita (veja Rudin [16], Teorema 6.27). Na grande parte
sup (x; + 1 - x 1) --> O. dos casos em que usaremos a integral de Stieltj..;s, o integrador F será
J ~: j ~ j
I•I•
<P(x)dF(x)
lcpdF = I' !.pdf = lim r !.pdF.
"'•(!
"' ._ I (J--> - f ._ ü
b-- ~ f
como o limite das somas (3.1) quando a norma da partição tende
a zero. se o limite existe. O problema desta definição é que até fun-
ções bem simples deixam de possuir integrais, como vemos no se- (2) Quando o integrando é contínuo em [a. h]. a integral de
guinte exemplo.
Stieltje" torna-se uma simples integral de Riernann-Stieltjes, e pode-
EXEMPLO 1. Inexistência da integral de Riemann-Stieltjes para um mos utilizar as propriedades desta. tais como as descritas em Rudin [16].
caso '"simples'". Seja F 0 a função de distribuição de- Capítulo 6. Com efeito. estas facilitarão nossa discussão das proprie-
finida por dades da esperança, pois nesse caso o integrando será a função con-
se x 2 O, tínua m(x) = x e, além disso. a integral será o limite das somas (3.2),
se x <O, se existir tal limite.
(3) J~ dF(x) = F(b)- f(al, i. e., a diferença de F sobre um inter-
c consideremos a integral de f 0 em [- I, I J em relaçãü a F 0 , ou seja,
I valo é a integral da sua diferencial. Esta propriedade é análoga ap
F 0 é ao mesmo tempo integrador e integram.~o. Então. não existe o
I
I
1 00 Probabilidade: Um curso em Nível Intermediário Esperança Matemática 1 O1
teorema fundamental do cálculo: J~(p'(x)dx = q>(/J)- cp(a), onde cp'(x) = dessa restrição, no caso da esperança, veja a observação 3, logo abai-
dq>(x) xo da Definição 3.2.
podendo-se reescrever a igualdade formalmente como
dx ' (6) Quando F é a função de distribuição de uma variúvel
r
&.LI
cp'(x)dx = r dcp(x)
il
= cp(b) - cp(a).
aleatória discreta X, a integral de Stieltjes reduz-se a uma série. se
P(X = xi) = p(xj) >O e L
p(xj) =I, i. e .. se p é a função de probabi-
f cpdF = ex JtdF + {J gdF. f tos x que não são pontos de salto de F (notemos que F cresce apenas
em seus pontos de salto).
Quando a região de integração é um intervalo finito, temos
+ {JG(x)
r r
e para H(x) = cxF(x) temos
a
cpdH = X
u
cpdF + /f r cpdG
u
r
• a
(pdF =ia<~,· o cp(.xi)p(xj),
e
como é explicado nos ítens 9 e I O abaixo.
então
(5) A integral de Stieltjes é aditira. Por exemplo. se a< h< c r r cpdF = cp(x)f (x)dx.
r
.. u .. a
f
cp(x)f(x)dx.
J cpdF = r
Isto vale também quando os intervalos são infinitos. Por exemplo,
cpdF + J a
f cpdF.
(8) No caso de uma função de distribuição geral F. onde a de·
composição de F nas partes discreta. absolutamente contínua e singular
é dada por F= Fd + Fuc + Fc. temo~, por linearidade,
J
- f
Novamente, estas equações são válidas quando as integrais estão bem h cpdF í"
=. cpFd +. q>dFuc + íb J" q>dF,.
definidas e as somas têm sentido. Para ter uma idéia do significado a a a a
1 02 Probabilidade: Um curso em Nível Intermediário Esperança Matemática 1 03
Em particular, quando F não possui parte singular .(F 5 (x) =O Vx), como vemos pela definição da integral como limite das somas (3.1 ).
então Portanto, a integração leva em conta o salto em b e ·ignora o salto
r =r +r
cpdF cpdFd cpdFa,
em a. Como essa propriedade é também da integral de Stieltjes sobre
o intervalo (a, b] (veja o item seguinte), utilizaremos o símbolo para J:
r
a a a
+r
representar esta integral:
r·
e a (a. b]
•
I
I
F,(x)~ F se x < a
sea::;x<b
se b ::; x.
t
cp(x)l 1a,bl(x)
·
=
{ O
cpx
se x ~(a, b].
( ) sexea,.
Tomando como exemplo a função de distribuição F 1 do item 9,
que é uma função de distribuição discreta, temos (veja o item 6)
( b]
•
I
pontos de salto pertencentes ao intervalo [a, b], salta somente uma
vez nesse intervalo: fa,b cpdF 1
= [
]ta,b]
cpdF 1 = fcp(x)l 1a,bJ(x)dF 1(x) = +cp(a)lla.bl(a) +
I I
I
J .------- +l cp(b)J(a,b](b) = lcp(b).
-----~ t_ ------------
I ..\nalogamente, temos
I
é Q b X
[ cpdF 1 = fcp(x)I[a,bJ(x)dF 1(x) = +[cp(a) + cp(b)],
I ]ta,b]
Gráfico de F 1 . em [a, b]
• Se cp for uma função contínua em [a, b], a integral de Riemann-
I Stieltjes de cp em [a, b], ponderada por F 1 , será
•
I f
b 1
c cpdF1 = 2 cp(b), f
(a.bl
cpdF 1 = f cp(x)l 1a:b 1(x)dF 1(x) = O. ·.
I I
I ~
I
Esperança Matemática 105
1 04 Probabilidade: Um curso em Nível Intermediário
Portanto, vemos que no caso discreto a integral inclui ou não a Uma possível explicação ínt uitiva desta definição reside na in-
parcela qJ(.\:;)p(x;) dependendo de X; pertencer ou não ao intervalo de terpretação de probabilidade como limite de freqüências relativas :
integração. interpretando X novamente como um característico numérico do re-
sultado de um experimento, suponhamos que vamos repetir (pelo
Na Teoria da Medida estende-se esse conceito, definindo-se a
menos conceitualmente) o experimento n vezes, independentemente,
integral sobre um boreliano B qualquer por
e observar os valores desse característico numérico. Nesses n experi-
I cpdF =I cpla(iF,
mentos, se n é grande, as observações tomarão o valor X; com fre-
qüência relativa de aproximadamen te p(x;). para todo i, isto é, X; apa-
recerá mais ou menos np(x;) vezes nas n observações. Portanto, o va-
de maneira que no caso discreto, por exemplo, lor médio observado nesses n ensaios do experimento, i. e., a média
fB
cpdF = , ~ 13
cp(x;)p(x;).
aritmética dos n valores observados, será aproximadamen te igual a
•a
íb cpdF + fb
cpc/F.
foi dito que ). era o número médio de chegadas durante
um intervalo unitário de tempo. Verifiquemos isso agora, recordando
que o número de chegadas em tal intervalo possui distribuição de
Poisson de parâmetro ).. Em particular, temos X 1 ~ Poisson (i.). por-
tanto
§3.2 Esperança
Seja X uma variável aleatória discreta com função de probabi-
lidade p(x;). O leitor certamente conhece a definição de esperanra
matemática para o caso discreto: a esperança de X é definida por • Y. ).1
=(fazendoj= k - l)=ú-'· ') _: =/..
(3.4t j';;;"'O j!
Este valor está bem definido quando a soma não depende da ordem Observamos agora que quando X é discreta, o item 6 do ~3 . 1
dos termos, em particular quando a série converge absolutamente diz que EX = JxdF(x). É essa definição que adotaremos no caso ge-
I
(i. e.. jx;!p(x;) < x ). A esperança de X é também chamada média ral, mantendo assim EX como uma média dos valores possíveis de
i
X, ponderada conforme a distribuição de X. Para justificarmos o
de X , ou ralor esperado de X. Com efeito, EX é uma média ponde-
uso dessa definição, partindo de (3.4), vamos aproximar X por uma
rada, onde os pesos são as probabilidades p(.x';), i. e., EX é uma média
variá vcl aleatória discreta.
dos valores possíveis de X, ponderada conforme a distribuição de X.
Esperança Matemáti ca 107
1 06 Probabilid ade: Um curso em Nivellnter mediário
= J, xdF,1 (x).
Y-3
.
x_2 Y-2
)(
/_1
•
X.J
}(
Y-t
.
xa
lo
](
Yo
.
I,
]( •
onde a integral de Stieltjcs é, de fato, de Riemann-Stieltzes (veja a
discussã o em torno da fórmula (3.2) ).
Os intervalos não precisam ser de mesma comprim ento:
suponha mos apenas que eles sejam uniform emente pequeno s, no sen- DEFINJ Ç,\ 0 3.1. Seja X uma variável aleatóri a qualque r c F sua
d•'/ .
.
t1do de que sup(l'; - .\';- 1 ) = M seJa pequeno . função de distribuição. A t'sp.:rwt~·a de .\.· é dcfi-
r'
nida por
Definamos uma variável aleatória discreta r como a variável alea-
tória que assume o valor X; quando X assume um valor em 1;. ou LX = xdF(x).
seja. em notação formaL
y ,__ ~x,/J .I · I . J· quando a integral imprópr ia de Riemann-Stieltjes está bem dcfimda.
i
Como [Y = x,J = [X E:/.]. que é um evento aleatório . }"é variável DEFIN IÇÃO 3.2. Se EX e finita. dizemos que X é i111eynírd
aleatória . É discreta . pois assume somente os valores X;. c sua esperanç a é
LT = I .\"' J>( }" "-"' X') = I i
.\ i P(){ E I;). Ohserrariie.\. (I) Para muitos autores (por exemplo . Gneden ko [li]).
i
a esperança existe" quer dizer "X é intcgrável" . !\l,ls.
Ocorre que LT é finita se. e somente se II -' )P(X E /;) < Y. . entretan to. admitire mos a "existência" de esperc~nças infinitas -- \e_la
a observa ção 3 a seguir.
. - "' . '}. - A"' I. S:: T
M (2) Na literatur a matemá tica. usam-se várias integrais
para re-
Mas } e. uma boa aproxtm açao para A, pots 1
e h<!m intuiti\l l requerer que nossa definição da esperanç a (=médi a) As duas últimas integrais são de Lebesgue: a última é uma integral
1 de Lebesgue no espaço de probabi lidaJe (Q. _,; , P). Vocl: não precisa
satisfaça IEX - E } 1 :S ~ . Em outras palavras, queremo s que EX
entende r essas integrais, mas no futuro poderá ser conveniente reco-
sc_1a o limite de E} quando M-. O. se o limite existir. i.e .. nhecê-las como equivale nks à esperança.
I x;P(X E /;). (3) A esperança estarà bem definida se Jt; xdF(x) ou J':_, xdF(x)
LX = lim
M~o ; fllf finita. 0..: falo, escrevendo
(Pode-se mostrar que existe o limite se I lx;!P(X E /,) < +f. para
"·
_" xdF x(x) = Io xdF x(x) + f .f.
xdF x(x) ~f
d
1 + li.
alguma partição com M <
partição.)
Y_. , ou seja, se Er é finita para alguma tal
I - J._,
0
Esperança Matemática 1 09
1 08 ProbabiNdade: Um curso em Nível Intermediário
EX = jxdF\(xl = jxt(x)d.\.
. .
Se a densidade f for integrável a Riemann (no sentido usual) então Para x ~O, xdf(x) é uma diferencial de área da região /.
esta última inkgral também será de Riemann (Rudin [Ió]. Teorema y • F [xl
6.17). Em outras palavras. H'Cê pode continuar a trabalhar com a
integral de Riemann nl) caso contínuo.
No caso discreto. já vimos que EX =L; X;p(x;l. Pelo item 6 do
~31. esta definição concorda com a Definição 3.1
No caso geraL suponha F\ = FJ -i- F.,,+ F,. Então
(Este exemplo é continuação do exemplo 8, 92.2.) gração, veja Rudin [16]. Teorema 6.30):
I
Prora. Imediata. O
Quando se conhece F x ou P(X > x), esta fórmula pode simplifi-
•
h ,•h
J [F(h)- F(x)]dx s
• f o
xdF(x) =
() • ()
[I - F(x)]dx. V h> O, car o cálculo de EX. Por exemplo, se X- exp().), i.e .. X tem distribuição
exponencial de parâmetro ;,, então P(X > x) =e-'", x? O c
• de modo que
f' ~
I.'
EX= e-;.xdx =- e-;.xl'
•
I •o
xdf(x) = lim
h ..... f
I" xdf(x) ::s; J,•, [I
•o
' (J
- F(x)]dx . Jo A. o "-
O cálculo foi simplificado, pois evitou-se uma integração por partes
I Por outro lado, seja i >O. Se b >À, então
(o que, afinal, já foi feito na prova da proposição.)
~b ~A A fórmula do Corolário 1 possui uma forma simples no caso
J [f(b)- F(x)]dx ? J [F(b)- F(.x)]dx = de X ser discreta e assumir valores inteiros:
u u
COROLÁRIO 2. Se a rariávcl aleatória X assumir somente valores in-
= I' [f(b)- I ]dx + f;. [I - F(x)]dx =
teiros não-negatiros, então
~ "
~(} ~(J
I I
= i[f(b)- I]+ r
• (I
[I - F(x)]dx,
Prora.
EX =
n--O
P(X > n) =
n -' 1
P(X ? n).
F(x)
e portanto,
, ·"
lim ,. xdf(x) = lim I·" [F(b)- F(.x)]dx;::::
•or xdf(x) =
h_. f
•o
b--. I
•o
r
EX = área 1 = I - f(O) + 1 - F(l) + I - f(2J + ... =
í'
.. o
xdF(x)? li_:l;
.. o
[I - F(x)]dx = íf [i -
.. o
F(x)]dx. O
= I'
n =O
[I - f(n)] =
~
I
n~ O
P[X > n].
EX = r o
[I - F x(x)]dx = r o
P(X > x)dx.
logo,
I
x_.
n-:::0
P(X > n) =
:f
I
n:::O
P(X ? n + I) = I
X
n·:::l
P(X >- n). O
Esperan ça Matemá tica 11 3
112 Probabi lidade: Um curso em Nlvef Interme diário
~
lançam
dado
n) é
até obter a
a
entos ne-
lançam
probab
ento.
ili-
Então, pela prova da Propos ição 3.1,
E IX I = área I + área 11 = ro
xdF x(x) -
= ~Ix IdFx(.x) + Io I I.
f
... , n - I, i. e., a pro-
dade de não obter cara nos lançam entos I. 2,
( = (I - p)"- 1 ).
x IdF x(x) = Ix IdF x(x).
babilid ade de sair coroa nos lançam entos I até n- I -
o .y, - f
L
n ·· I
nP(X = n) =
geomé trica, é
•
L n(l -
n :~ I
p)" 1
p,
Eq>(x) = f' f q>(x)dF x(x)
Observação. Como IX I ~ O, o Corolá rio I implica que Et. Se X= c (i.e., X(w) =c V w E Q), _então EX= c.
= c) =
Proua. X é uma variáve l aleatór ia discret a e EX = cP(X
E IX I= f' P( i X I> x)dx =f'
o
[P(X > x) + P(X < - x)]dx =
=C· I= c. o
s.
E2. Se X s Y então EX s EY, se as esperanças estão bem definida
.. 0
f,
•o
[I - F x(x) + F x((- x) - )]dx. (Basta uma das espera nças ser finita, ou E Y
x) -)é o limite da função F xl.r) quan- c I - F y(z)::?: I - F x(z). Pela Propos ição 3.1 .
É bom record ar que F x((-
do .ri (- x). Logo. Fx((- x)-) =F x(- x) quand o - x é ponto
contin uidade de F>.. Por isso,F x((-x )-)e Fx(-x ) são
em iguais, exceto em um númer
de
funçõe s mo-
o finito ou
EY =r (I - F y(:))d.:: - f,. F y(.::)dz ~ r (I - F x(z))d.:: -
-r,.
nótona s (decres centes x)
LJ F x((- x) - )dx = I:
enume rável de pontos . Daí conclu ímos que
=f • F x(x)dx.
E3. Linearidade.
(i) Se EX está bem definida, então E(aX + b) = aEX + b
a, b E IR (convenção: O· CXJ = 0).
para todo
Jogo
E(aX +h)=
{'
I. (I - Fa.nb(x))dx- I( FaX+b(x)dx =
.. o .. - .t
= ., (.· I - f , x(-'-
- -- -- b').) dx - fo Fx (-'--h)
. - dx =
X
..1o \ ,ui/ -1_ \~.-1
= a
r,
I (I - F xCrJ)dy - a
Í I·., Fx(_r)dy ='
<p(x) ~ L(x) = <p(\ 0 ) + i.(x - x 1,), 'r/x.
"-h,a .. - J Portanto,
,.., ,.o E<p(X) ~ EL(X) ~ <p(x 0 ) + i(EX - x 0 ).
= aJo (I - F x(y))dy - a I, F.\(y)dy +
Tomando-se x 0 =EX. vem E<p(X) ~ <p(EX). D
,.o ,..o (Exercício. Mostre que se <p é côncava, então E<p(X) ~ <p(EX).)
+ a j_ b " (I - F x(.V))dy + a J_I• Fxí_r)dy =
11
Comeqüências das propriedades. (I )E2 diz que X~ Y implica EX ~ E} .
•o Em particular, se X~ O então EX ~O.
= aEX + a J dy = aEX + b. Sejam X e Yvariáveis aleatórias tais que y ~O, ré integrável. e I X:~ r
- b a
Então O~ IX! ~ Y implica
o~ E: X I~ EY < + Y.,
O caso a <O é análogo, e (i) está provado. Para (ii), resta provar
i.c., X é integrável. Em outras palavras, se X é dominada por uma
E(X + Y) =EX+ EY se o termo à direita tem sentido. Veremos mais
variável aleatória integrável, então também X é integrável. Em par-
tarde quando consideramos esperanças de funções de vetores aleató-
ticular. se X é limitada, então ela é integrárel, pois IX I ~ b < + Y.
rios. D
implica E IX I ~ b < x.
E4. Desigualdade de J ensen. Seja <p uma função com·exa definida na (2) Critério para integrahilidade. Seia X uma rariâre/ aleatória qual-
reta. Se a l'ariát•el aleatória X é integrárel, então f 'l
Prova. Se x ~O, seja [x] a parte inteira de x (o maior inteiro menor §3.4 Esperanças de funções de variáveis aleatórias
que ou igual a x). Então a variável aleatória [I X I] assume
o valor k quando k ~ IX I < k + I e Seja X uma variável aleatória, <p(x) uma função real mensurável,
O~ [ I X I J ~ l X I ~ [lX I ] + I, Y = <p(X). Então Y é uma variável aleatória cuja esperança é dada por
logo, por E2 e E3.
EYd,1 f.vdFip(X)(y) =L" [I - Flp(XI(y)]dy- J:.,. F.,(X)(y}dy,
o~ E[ I X IJ ~ E I X I ~ I + E[ I X I ].
Mas pelo Corolário 2 da Proposição 3.1.
pela Proposição 3.1.
Para usar estas fórmulas, é preciso obter a distribuição de Y = <p(X).
X OC
(c) Seja <p(x)= lx iP, onde p~ I. Então E I X I P~ IEX IP· Fazendo é também discreta e toma somente os valores <p(xi). Então sejam
Y = IX I e aplicando Jensen a Y, obtemos uma desigualdade mais y 1 , y 2 , ••• os valores possíveis de Y, supondo por conveniência que os
refinada: Yi sejam distintos, de modo que Yi = <p(x;) para pelo menos um i (é
E I X IP ~ (E I X I JP ~ (pelo item a) ~ I EX IP·
possível que exista apenas um YJ• como, por exemplo, se <p(x) = c
constante). Então temos
Observação. Para a validade da desigualdade de Jensen, basta que a
função cp seja convexa em um intervalo (a, b) tal que P(Y = y) = L p(xi).
i: •<·' ;I = y 1
P(a <X< b) = I (a prova é a mesma, mas veja o exercício 13). Por
Obtemos agora a esperança de Y:
exemplo, se X é uma variável aleatória positiva (X >O ou, mais geral-
. f -
mente, P(X >O)= 1), podemos aplicar Jensen a unçao <p(x) =
1 .x' EY = fydFr(Y) = ~yiP(Y =
J •
y) = ~(J'i. L
J I: .(Xj) =}';
p(xi)) =
com (a, b) = (0, x, ). Neste caso, a conclusão é que
= (substituindo) = L L <p(xi)p(xi) ~L <p(xi)p{x;) =
j i:op(Xj ) =Jj i
) > _1 .
E(_!_·
X -EX
=f <p(x)dF x(x),
Sob a mesma condição P(X > 0) = 1, podemos aplicar Jensen à fun-
ção côncava <p(x) = log x, obtendo onde a equação (*) é válida desde que a ordem dos termos. da série
não afete o valor da soma (e, em particular, se EY está bem definida).
E log X ~ log (EX).
Passaremos agora ao caso geral. ·
118 Probabilidade: Um curso em Nível Intermediário Esperança Matemática 119
TEOREMA 3.1. Seja X uma rariárel aleatória. cp(x) uma fimrão real Pelo método de prova da Proposição 3.1 (integração por partes).
mcmuráre/. Então temos
EX" = II" ·;
•o
P(X" > t)dt (pois x• 2': 0) = EXk = k { :k- 1 e-ü dx .
= J~f
o
P(X >+I'~.t)dt
.. ()
P(X <- ~ t)dt = Podemos calcular todos os momentos (veja o *3.5) por iteração, sem
I
integrar por partes. Com efeito, já vimos que EX = T; portanto.
= í.' [I- F(~.t)]dt +I'
•0 •U
f((- ~-t)-)dt =
EX 2 = 2
r
J
.o
• .
xe-·'-' dx =
~
2 ,.,
-:;-J
o
')
úe-ü dx = -~
~
i'o
xf(x)dx =
= (fazendo t = s•) =
= í.'
.. o
[1 - n~J]ksk I dl-r f'
.. ()
F((- s)- )ksk I ds .
EXk = f [I - F(s)]ksk 1
ds - f J F(u)ku•
1
du. (3.5)
.. ---- ·- - - - - - - - - - - -......
EXEMPLO 6. Voltando ao exemplo 3. suponha que X ~ U [O, I] É claro que o primeiro momento é a esperança c o primeiro mo-
mento central é nulo: E( X- EX)= O. O segundo momento central
c Y= min (X. ~} Então r= q>(X). onde é chamado variância de X:
Var Xd;;j E(X- EX) 2 = E(X 2 - 2XEX + (EX) 2 ) =
(x. n~[
X, se X<
2 = (por linearidade)= EX - 2EX EX + (EX)
2 2
=
q>(x) = min 2
2
= EX - (EX) .
"). se X~
2' 2
Notação. Var X= V(X) =ai= a (X). ax = v ' Var X é o desl'io-pa-
Calculemos a esperança de Y, usando o Teorema 3.1 e uma proprie- drào de X.
dade da integral de Stieltjes no caso contínuo ( ~3.1, item 7): Para c> O, EI X I' é chamado t-ésimo momento absoluto de X.
Os momentos absolutos possuem a seguinte propriedade de mono-
EY =I q>(x)dF x(x) =Iq>(x)/~(x)dx =f q>(x)dx = tonia:
PROPOSIÇÃO 3.2. Seja X uma variárel aleatória. A função
J ~ dx =
= (
2
xdx + ( 1 ,+ 1 3 /(t) = El /rl X I'
Jo 1.2 .!. 8 4 =, 8 ·
é não decrescente em c para c >0. (Notação : E ''1XI' = [E<IX I'l]l').
1
V ar X
o
(b) Desigualdade de Afarkor. Seja X uma wriárel aleatória qual-
Indicando com I a região hachurada. e como X~ O. temos quer. Então para todo t >O,
EX = íf P(X > x)dx =área I ~área (retângulo A)= P(j X I~).)~ E_!_:~
1.!
i~ Vi.> O.
• o
= í,P(X ~ í.),
Prom P(\X\~í.)=P(jXj'~).')s-~I. 1 E\X\'. 0
portanto
(c) Se Z ~O e EZ =O, então P(Z =O)= I (i. e., Z =O quase cer-
P(X ~À) s -~EX. O tamente).
Á
Obsen:açào. Eis uma prova alternativa, que será generalizada adiante Prora. P(z~ :I)snEZ=O. Mas [Z>ü]= y[z~-~Jlogo
na prova da desigualdade de Kolmogorov (Capítulo 5):
,-
( r
• !~~ P !) = !J Prova. (X - d = (X- J.1 + J.1 - d = (X- J.1) 2 + 2(J.I - c)(X - J.l l+
• PIZ > 0) = ( Z;;::: O (notemos que os eventos [ Z ;;::: + (J.I- d. logo (pela linearidade da esperança)
• crescem com n). Portanto. P(Z = 0) = I - P(Z > 0) = I. O E(X - d = E(X- p) 2 + 2(Jl-
c)(EX - .J.I) +
• + (J.I - c) = Var X + (J.I - c) 2 .
2
•
lt
Em outras palavras, se Var X= O então X é constante, com proba-
bilidade I (é constante quase certamente).
PROPOSIÇÃO 3.4. Seja X u'ma variárel aleatória, e seja m uma me-
diana de X . Então m minimiza E IX - c j, c E IR, i. e.,
• E8. Se X e Y são variá reis aleatórias em (Q, .cl, .011) tais que E IX I' < x E IX - m I = min E I X - c I·
ce!HI
•
fi
e E! Yl' < ex. , então E IX + Yl ' < x .
Como EIX I' < oc óbviamente implica E laX I' < XJ, V a E IR, esta
Obserração. Por definição. m é uma mediana de X se P(X;;::: m) ;;::: 1/2
e P(X::;; m);;::: 1/2. Para obter uma mediana. basta consi-
[ •
I
propriedade diz que a classe das variáveis aleatórias em (0, s/, .P')
possuidoras de t-ésimo momento absoluto finito, é um espaço veto-
derar a função de distribuição de X . Por exemplo, consideremos as
seguintes funções de distribuição F:
rial ou espaço linear. (Com t substituído por p, estes são os espaços U'
de Análise.)
I I
Destaquemos dois casos particulares desta propriedade, os cor- - - - - --- - -- -- - -- ---
respondentes a t = I e t = 2: (i) se X e Y são integráveis, então X + Y
é integrável e (ii) se X e Y têm z•ariâncias .finitas. então X+ Y também
o tem (lembremos que X tem variância finita se, e somente se. EX 2 <·X:·).
Prora. IX + Y I ::;; I X I + I Y I ::;; 2 max ( I X 1. I Y I ). Portanto.
X '----y----' o X
medianas
IX + Yl' ::;;2'max( IX I', j Yj')::;;2'( 1X I' +I YI'l, 1
F(m> = z-
logo
I' ::;; 2'(E I X I' +
-------~
E IX + y E I y I'J. D
Consideremos agora dois resultados que são de interesse para i I
a Estatística. Suponhamos que se deseje escolher uma constante real c
para "predizer" o valor de uma variável aleatória X. Qual c é o me-
lhor preditor? Se queremos minimizar nosso erro absoluto médio (i. e .. o m X
I
a média de X - c j), o melhor predito r é a mediana (veja a definição
adiante). Mas se queremos minimizar o erro quadrático médio E(X -c) 2 ,
o melhor predito r é a média :
Prova da Proposição. Notemos que X é integrável se, e somente se.
PROPOSIÇÃO 3.3. Seja X integrável, J.1 =EX. Então J.1 minimi:a V c E IR, X - c também O é, pela linearidade da
E( X - c) 2, c E IR, i. e., esperança. Portanto, se E IX I = + oc. , então E IX - J.l l = + oc' Vc. E IR
Var X = E(X - J.1) 2 = min E(X - cf .
e a proposição vale trivialmente. Consideremos, então, caso de X o
CErR!: integrável.
,.
I
f
126 Probabilidade: Um curso em Nlvellntermediário Esperança Matemática 127
I
<c (o caso c < 111 é análogo): desejamos provar que
• Suponha 111
E IX - c I ; : : E IX - m I· Seja À. = c - m:
onde a última integral é uma integral n-dimensional de Stieltjes, assim
como a penúltima (notação compacta).
I
X>o Prova. Teoria da Medida. D
I
~
(
Observações. (1) Você não precisa entender a integral de Stieltjes no
•
11
m c IR" (a integração é feita em relação à medida de Lebes-
gue-Stieltjes gerada por F X• ou seja, em relação à distribuição de ~).
se x ~· m. Ix - c I= Ix - m I+ Â; se x > m. Ix - c I :2:: Ix - m I - ~.. Basta saber que a integraCse simplifica nos casos discreto e contínuo,
I
Então, como no caso unidimensional:
Jl
X~m=IX-c i- I X - m l = )., Caso discreto. Se X for discreto, tomando os valores X;= (x; ,, ... ,x;J
X>m =I X - cl- X - ml:e:: - À.. co~ probabilidade p(x;), onde
-
L p(xd =
i ......
I, então
.II
r
, 111
dade ~ -~ , e com probabilidade ~ ~ toma valores ;;::: - ),. A prova
formal desse fato utiliza um argumento do tipo utilizado na prova (2) Podemos terminar agora a prova da propriedade E3, a linea-
.,
•· I
alternativa da desigualdade "basica":
Como Y;;:::. ), l[x " ml- À.ltx >mJ• temos
= ).P(X ~ m) -
ridade da esperança. Resta provar que E(X + Y) =EX+ EY, contanto
que o termo à direita tenha sentido. Por isso, sejam cp(x, y) = x + y,
q> 1(x, y) = x, cp 2 (x, y) = y. Pelo teorema,
•
• I
EY :2:: ),E ltx ,; mJ- ),E ltx >mJ
~)=O.
m) =
E( X + Y) = Eq>(X, Y) = f
f(x + y)dF x. r(x, y) .
11 Portanto, pela definição de rea linearidade da esperança., temos
Agora aplicamos a linearidade da integral múltipla de Stieltjes.
• EIX-c l:e::EIX-m l. Ô
.,•
obtendo
í
§3 .6 Esperanças de funções de vetores aleatórios E( X + Y) = ff xdF x. r(X, y) + ffydF x. y(X, Y) =
li = EcpdX, Y) + Ecp 2 (X, Y) = EX + EY.
=(X 1 , . .• , X nl um vetor 'aleatório e cp: IR"--+ IR
'
.,
• !
TEOREMA 3.2. Seja X
mensurável a Borel. Então
Ecp(~) deff
= ydF '~><! 1 (y) = f cpdF!. =
(Exercício. Verifique a linearidade da esperança para combinações li-
'T
tI
Esperança Matemática 129
128 Probabilidade : Um curso em Nlvellntermediário
~
uma integral de Stieltjes na reta). Consideremos primeiro o caso con-
tínuo :
- I o I
Sejam X I • ...• X n variáveis aleatórias independentes. com ~ =
= (X 1 , . .. , X.), e suponha que X 1 , ... , X 11 tenham (respectivament e) - 1 1/s o II5
densidades J;, ... , f~ . Então a densidade conjunta é o produto das
densidades };, e o o 1/s o
o
Eq>(~) =f -f q>(x 1 , •.• , x.) ft<x Jl .. . j~(x.)dx 1 .•• dx. = I 1/s 1/s
= f . [I q>(x 1 , ••• , J
x.) ft<x ddx 1 .f2(x 2) dx 2 ••• /.(x.)dx •.
I
I
válida para X 1 , ••• , X. independentes no caso geral :
1
I EXY=Lijp(i, j)= - (1-1- 1 + I +0)=0.
(Não provaremos a fórmula no caso geral.) i.j 5
Como conseqüência imediata temos que se as X ; são indepen-
Portanto, EX Y = EX · E Y. Mas X e Y não são independentes.
dentes, a esperança do produto é o produto das esperanças: Temos, por exemplo,
PROPOSIÇÃO 3.5. Se X 1 • ••• , X. são rariáreis aleatórias indepen-
dentes e integráreis, então n X ; é integrárel e
11
i= I
P(X = O, Y = 0) = p(O, 0) = + 5 + f(x
#-
2
1
= ~- · = = 0) · P( Y = 0).
i "' I
A diferença entre os valores EX Y e EX · E Y será chamada co-
variância entre X e l': Formalmente, sejam X e Y variáveis aleatórias
I Prm'a. Basta provar para n = 2 (e completar com indução). Seja integráveis. Então a covariância entre X e Y é definida por
(
I q>(x, y) = xy, então a independência de X e Y implica Cov (X, Y) = E[(X- EX) ( Y- EY)].
EX Y = Eq>(X, Y) = II q>(x, y)dF x(x)dF rCrl = se esta esperança existe. Po r linearidade, temos
Cov(X, Y) = E(XY- YEX- XEY +EX· EY) = EXY- EX· E>;
=f[ fxdF x(x)]ydFr(Yl = f(EX)ydFl·(y) =EX. EY O de modo que existe a covariância entre duas variáveis integráveis se,
e somente se, existe a esperança EX Y.
Adl'ertência. EX Y =EX· EY não implica X e Y independentes, como Se Cov (X, Y) =O, dizemos q ue X e Y são não-corre/acionadas.
vemos no seguinte exemplo. Sejam X e Y variáveis alea- Se X e Y são independentes e integráveis, então são não-correlacion a-
tórias toma ndo os valores - I, O, I, com distribuição conjunta defi-
nida por p( - I, - I ) = p( .- I, I ) = p( I, - I ) = p( I, I ) = p(O, O) = +, i. e.,
das, pois neste caso EXY= EX· EYpela Proposição 3.5. Mas acaba-
mos de ver que a igualdade EX Y =EX· EY não implica a indepen-
dência, ou seja, covariância zero não necessariamente implica inde-
a fu nção· de probabilidade conjunta é a da seguinte tabela. pendência.
Esperança Matemática 131
130 Probabilidade: Um curso em Nlvellntermediário
Obserração. Há certos casos especiais em que não correlação implica Suponhamos agora que X e Y sejam variáveis aleatórias integrá-
independência. Talvez o mais importante seja o da nor- veis, com variânc;..ts positivas e finitas (0 <ai < ·X.., O <a~ < :x. ). A
mal: se X e Y possuem distribuição conjunta normal bivariada e são X --EX
' . -
. ' I a Icatona
vanave . - de X (tam bém cha-
- e' uma padromzaçao
não-correlacionadas, então p =O (isto será visto no §4.5). E já vimos ax
no exemplo 15, §2.5, que X e Y são independentes se p = O. mada redução ou normalização de X), pois expressa o valor de X em
Para um outro exemplo de independência como conseqüência de unidades padronizadas, i. e., desvios-padrão. Notemos que esta va-
covariância zero, veja o exercício 26. riável aleatória padronizada possui esperança zero e variância um.
Além disso, não depende da escala nem da locação de X, no sentido
de que Z = aX + b possui a mesma padronização que X, se a >O
Vejamos agora que se as variáveis aleatórias X 1 , ... ,X. são não- e b E IR. No mesmo estilo, a covariância entre as variáveis padroniza-
-correlacionadas (2 a 2), então a variância da soma é a soma das va- das também não depende da escala nem da locação de X e Y; é uma
riâncias. espécie de covariância padronizada. Chama-se coejiciimte de correla-
PROPOSIÇÃO 3.6. Sejam X 1 , ••• , X" rariáveis aleatórias integrát~eis ção entre X e Y e indica-se com Px. y ou p(X, Y):
tais que Cot· (X;. X) = O para i#- j. Então
n Px.l d;;J, Cov (~. YL = E[(! - E_x_) ( y- E~-)]·
.. J.-ar(X 1 + ... + X.)= L
i= I
VarX ;. ax • al' ax Uy
•• 2
(Exercício. Verifique que p(X, Y) = p(aX + b. c Y + d) para a > O, c> O,
Provu. J.-ar(X 1 + ... +X.)= E(X 1 + ... +X.- E(X 1 + ... + X.)) = i. e., o coeficiente de correlação é independente da escala
li = E((X 1 - EX d + ... + (X.- EX.)) 2 = e locação das variáveis.)
I· = E[t (X;- EX;) 2 + 2 .L (X; - EX;)(X j- EX)] = Podemos dizer que em certo sentido, Px . y representa a depen-
J ZI ICJ
dência linear entre X e Y, como vemos pela seguinte proposição.
I! n
I!
=L VarX; +2 L Cov(X;,Xj) = L VarX ;.
i= I i<j i= I
O PROPOSIÇÃO 3.7. Sejam X e Y mriát•eis aleatórias com t•ariâncias
finitas e positit•as. Então :
I COROLÁRIO. Se X I• .... X n são independentes e integráveis, então
(a) - I ~ p(X, Y) :5: I.
I n
(b) p(X, Y) = I se, e somentese, P( Y = aX + b) = I paru algum
fi
"ar(X 1 + ... +X.)= L VarX;.
i= l a> O, IR.
bE
(c) p(X, }')= - 1-=P(Y=aX+b)= I para algum a<O. bE IR.
I
Obserrações. (I) Salientamos um resultado que aparece na prova Pror·a. (a) Como
I
acima: se . X 1 , ••• , X" são integrát•eis, então
I n
I
Var(X 1 + ... + X.)= L Var X;+ 2 L Cm•(X;, X).
i= 1 i<j
temos
I (2) Já vimos no §2.6 um exemplo da propriedade enunciada pela
proposição: se X 1 , ••• , X" são independentes e normais, com X; - O:5: E(X-axEX _ ~ EY) 2
= E(X- EX)
ax
2
+E( y- E ~)2
Gt·
Gy
- N(p;. atl, então a soma é também normal, e para obter os parâmetros
Logo p(X, Y) ~ I. rantc a falta de correlação sem ao mesm0 tempo garantir a indepen-
Substituindo o sinal "-" por "+" na expressão ac1ma, temos dência. É claro que o valor de Y não possui nem a tendência a acom-
O~ 2 + 2p(X, Y), i. e., p(X, Y) 2: - I.
panhar o de X, nem a tendência oposta.
(b) e (c). Se p(X, Y) = I , então (pela prova de (a))
2 Observação. Quando X e Y têm distribuição normal bivariada, p é
E(X - EX _ _l_- EY_) = O,
(Jx (J r
o coeficiente de correlação, como será mostrado no §4.5.
. e., P (X-
- EX
- - - EY)
= y- - = I (consequenc1a . lda de
... . (c ) da des1gua
1.
ax (Jr
§3.7 Teoremas de convergência
"básica" - propriedade E7). Em outras palavras, Y = ~ (X - EX) As provas desta seção podem ser omitidas em uma primeira lei-
ax
(JI" tura. Mas os dois teoremas- da Convergência Monótona e Domina-
quase certamente, o que prova a necessidade em (b), com a =-
(Jx
da- são de grande importância e utilidade na Probabilidade, Teoria
da Medida, e Matemática em geral. (Para exemplos da utilização de
e h = EY - a!.. EX . métodos probabilísticos na demonstração de resultados de Análise,
2
ax + Y - EY ) = O e veja as conseqüências 2 e 3 a seguir.)
Se p(X, Y) = - 1, então E( X - EX
(J x ar Os teoremas serão dados do ponto de vista probabilístico. Para
y = E Y - ~ (X - EX) com probabilidade 1. Neste caso, a = - ~..L tanto, sejam X, X 1, X 2 , ..• variáveis aleatórias definidas no mesmo
ax ax espaço de probabilidade (Q,d, P), e suponha que X. convirja para
X quando n -+ x . A convergência aqui é pontual (recorde que variáveis
e h= EY +!!.!.. EX . aleatórias são funções definidas no espaço amostrai), i.e., X.(w)-+X(w)
ax
Por outro lado, se P( Y = aX + h) = 1 para algum a =F O. temos para todo w EU. (Estudaremos outros tipos de convergência nos
Capítulos 5 e 6.) A questão é a seguinte: sob que condições a esperança
p(X, Y) = E[ (X ~xEX ) ( aX + ~~ 2:~X- h) J= do limite é o limite das esperanças? Isto é, queremos saber quando
EX = lim EX n· Não é verdade, infelizmente, que EX"-+ EX sempre.
n - oc
• = R E( X ~XEX r =ia~= sinal (a) = ± 1. o_ Um contra-exemplo simples é o seguinte: suponha que X- Cauchy-
-padrão e seja
Uma alta correlação entre X e }: i. e., Px. r próximo de 1, signi- X se - n < X < n
fica que o valor de Y tende a acompanhar o de X (quanto maior X, X.= X/l - ns x s nJ = { 0 se lXI-> n.-
maior também é, geralmente, Y). Por outro lado, uma correlação ne-
X,. é uma variável aleatória de Cauchy truncada.
gativa forte (P x. )' próximo de - 1) significa a tendência oposta, ou
seja, quanto maior X, menor Y, e vice-versa. Então X n-+ X , pois X .(w) = X(w) para n 2: I X(w) I· X n é inte-
11 Já vimos, nesta seção, um exemplo de um par de variáveis aleató- grável, porque limitada, e EX"= O, por simetria (veja o exercício I).
rias dependentes, mas que tinham covariância zero e, portanto, coeficien- Mas EX" não converge para EX, porque EX não existe. (Para um
I
I te de correlação zero. Nesse exemplo, em que a distribuição conjunta outro exemplo, em que X"-+ X e EX existe, mas EX" + EX, veja o
estava concentrada nos cinco pontos (- 1, - 1), (- l, l ), (0, 0), (I, - 1), exercício 37.)
Daremos duas respostas à questão colocada acima: a esperança
( 1, 1), cada um tendo probabilidade ~-, vemos que há uma simetria
do limite é o limite das esperanças (a) quando as variáveis são não-
da distribuição conjunta em relação aos dois eixos. Essa simetria ga- -negativas e a seqüência cresce monotonamente e (b) quando a se-
.•
134 Probabilidade: Uno curso em Nível Intermediário
Esperança Matemática 135
Sejam X. X 1 • X 2 •... variá rei:; uleatóriu.Hm (Q.,I. Fi. Sd):::;: X" I X. Mas P(B" nA.) i P(B,) quando k-> + Y~, logo
u· .. X.(e>)2:0 e X,.(ul)"j X((>JÍ para todo ('.J'é'Q, <'liÚ/,. L\.",~ L\.
m m
Prora. Pela propriedade E2. tcmus O~EX,<;EY c EX.,i. Logo lim EX k 2 lim
k-+y k-+Yn=O
L nc P(B. n A.) =
n=O
L m; P(B.), 'r/m.
lim EX n ~EX e basta provar q uc lim EX";:::: EX - 1: par<.~ todo c> O.
ll ·• J
Portanto,
Para isso. vamos aproxim:~r X por meio d:..: uma vari~m:l aleatória X
discreta Y tal que i X - Y i :5. 1:. omk 1: >O .: fíxo. lim EXk 2
k--+ J
LO nc P(B,) = EY
n=-:
O
Definamos o evento B" =-~ [n: < X ::; (I!+ 1} r], n ~' 0.. 1, 2.. . . . e 8
J TEOREMA 3.4. 1eorema da Conrergência Dominada.
v.uiá vcl aleatória } = I
11 (•
/li; 1h,. Em outr d~ palavra~
Sejam t X, X 1 , X 2 , .•. variáz·eis aleatórias em (0.. /~, P) tais que
y é integrárel, IXnl:::;: y 'r/n, e X,-> X (i.e., x.(w)->X(w)'r/w). Então
}(u;)
\•1·: :;.,' 111: < X(<!;):S(n-' ]);
X e X, são integráreis e EX,-+EX.
t 11 .i·~ X(t·Ji = O.
Logo .X --1: < Y< X c EX -1::::;: El"~ EX (>aie tambem caso EX= Prora. Como X, e X são dominadas por Y XI= lim jX,j:::;: i! }').
=+X). a integrabilidade delas é conseqüência da propriedade E2.
Vamos provar agora qu~: EY:;, limE.\"", i.t: .. hm EX,;:::: EX- 1:. Faça }~= inf Xk, então }~i X quando n-> x. (pois X(w)=
assim terminando a prova. Para tanto, st:ja L>n
= lim X,(w) = lim inf X"(w) = lim (inf Xk(w)) = lim }~, sendo óbvio
n---:r n-+.:t. k"".::'n n-+:t
que }~ cresce com n). Logo, temos ( Y" + Y) i (X+ Y) quando n _, x..
Observemos que .4, i O (pois X .twl 2: }(u;)cco> .\, .. d(>J);:::: }(t•>}. pela
Mas X";:::- Y'rln=Y,2- Y=l~+ Y20,eoTeoremadaCon-
monotonia de X,. portanto A, t. Mas a convergência de X 1 para X
vergência Monótona implica que E( Y, + Y) j E(X + Y}. Por linearida-
implica que X.((!)} 2 Y(t·;) para k suficicntt:menk grande: notemos
de e intcgrabilidade, temos
que Y(w\ <X((!)} a menos que X((l)} =O. Logo fl = ..__,A,= limA.,)
Portanto, · E}~ i EX. (3.6)
B" ,, A, t B, quando k _, x (1z fixo}. (Obserraçào: }~é variável aleatória, pois [Y, <a]= Í) [Xk <a].)
Ora, a variavel aleatória Y I A, e discreta e De modo análogo, se Z.(w) = sup x.(w) então Z,(w)
de f
l X(w)
k :• n
}'( UJ )/ A, (·}
(I)
_
-
{Y(~;) s Xk(w). se t!JEA, quando n-+ x, i.e., (Y- Z.) i (Y- X).
O :::;: X kfw), se w if A,,
Mas X,:::;: Y 'r/n = Z, s Y= Y- Z, 2 O, e pelo Teorema da
logo O:::;: H A, s X k e O:::;: E H A• s E.\· •· Para calcular E H A,, é pre- Convergência Monótona, E( Y- Z.) i E( Y - X), de modo que
ciso notar que
E Z, l EX. (3.7}
}'( )/ (
w A,wl=
[nr se w E B, n Ak, n = O, I, 2, ...
,
Já que
O se u; f U (B, n A.). Y,, = in f X k
k-~,1
:::;: X" :::;: sup X k
k·~n
= Z,,
n- b
136 Probabilidade: Um curso em Nlvellntermedijrio Eaperança Metemjtica 137
temos EY, ::5: EX. ::5: EZ., o que, combinado com (3.6) e (3.n implica (Para ver que EX.= J~.(x) dx, seja Z a variável aleatória iden-
EX.-+EX. ·o tidade: Z(w) = w. Então Z- U[a, b] e fz(x) = - -
1
11• btx). Como
b-a ·
Conseqüências dos teoremas de convergência. X.(w) = X.(Z(w)) = (b- a)J.(Z(w)), temos
I I (I) Seja X uma variável aleatória. Se E X I I'<
oo para algum EX. = (b- a) Ef.(Z) = (b- a) JJ,.(z)fz(z)dz = J:J,.(z)dz.) O
t >O, então a função g definida por g(s) =E IX 1• é contínua n) in- =
I (3) Convergência de séries. Se a.,.~ O para m, n l, 2, 3, ... , e se
tervalo (0, t]. r
a.,. a., quando n ..... 00, para todo m, então
I I
Prova. Suponha s...... s, onde s, s. E (0, t]. Então IX I"" -+I X 1". e para
I aplicar o Teorema da Convergência Dominada basta verificar se as
variáveis IX 1•" são dominadas por urna variável aleatória integrável.
Mas IXI"":5I XI'+ I e E(IXI'+ l)=EIX I'+ l <oo. Logo EIXI'"-+ 00
..... E IX 1•. 'Portanto, g(s.)-+ g(s) para toda seqüência (s.). ~ 1 que con-
Prova. Escolhamos Pm >o tal que L Pm = l . Definamos n = {1, 2, ... },
m=t
verge para s. Por isso, g é contínua em (0, t]. D
" p(m) = p.,, X .(m) = a"'" , X(m) = ~. Então
Pm Pm
(2) Teorema de Arzelà (Veja Aposto! [2], Teorema 13-17.)
Sejam j; f~> 12•... funções reais (mensuráveis a Borel) definidas O ::5: X.(m) r X(m) V m,
no intervalo [a, b], a < b, e integráveis a Riemann. Se/.-+f em toda
parte, e se I!. I
::5: M < oo para todo n (i.e., as f, são uniformemente logo o Teorema da Convergência Monótona implica EX. j EX.
limitadas), então a: a:. C(, ai
(i v) X - b ( n, ~). EX = 2 + ( 1- ~) + ( 1 - +) (
1- ~) + .:. +
(v) X tal que Fx é a função de Cantor.
(vi) X tendo distribuição de Laplace (ou exponencial dupla):
Var( X Y) = Var(X) Var( Y) + (EX) 2 V ar( Y) + (EY) 2 Var(X). 34. Sejam X e Y variáveis aleatórias independentes com distribuição
comum U[O, 1], e sejam Xt 11 = min (X, Y), Xt 21 = max (X, Y).
29. Sejam X e Y variáveis aleatórias com variâncias finitas. Mostre Calcule o coeficiente de correlação p(Xt 11 , Xt 21 ) •
. que se Var X"# Var Y, então X+ Ye X - Ynão são independentes.
35. Sejam X, Y e Z independentes com distribuição comum U [0, I].
30. Seja X uma variável aleatória tendo distribuição b(n, p). Mostre Calcule a esperança e a variância de W= (X+ Y) · Z.
que X tem a mesma distribuição que X 1 + ... + X"' onde as X i 36. Seja p o coeficiente de correlação entre X e Y. Determine p(Z, W)
são variáveis aleatórias independentes e identicamente distribuídas em função de p, se Z = aX + b e W = c Y + d, onde a "# O, c "# O.
que assumem apenas os valores O e 1. (Qual é P(X i = I)?) Utilize
esse resultado para calcular a esperança e a variância de X. §3.7
31. Demonstre que a covariância é bilinear: 37. Exiba um exemplo de uma seqüência tal que X.(w)-+ X(w) 'Vw E n,
com EX e EX" finitas, mas EX" + EX. (Sugestão. Seja Y- U[O, 1]
Cov (t 1
a:xi, it biYi)
1
= itl itl aibi Cov(Xi, X i),
e defina Xn= nJI O<Y< lnJ·l
32. Seja (X 1, ... , X, Y~o ... , Y") um vetor aleatório (m + n)- dimen-
sional tal que Var(Xd =V ar (lj) = I, p(Xi, Xj) = p 1 e p(Y;, lj) = P2
e
'Vi#- j, e p(X, YJ) = p 3 'Vi,j. Se V= X 1 + ... X,.. V= Y1 + ... + Y",
Distribulçlo e Esperança Condicionais 145
Seja X uma variável aleatória no espaço de probabilidade (íl,d, P), Neste caso, P(X E B 1 I A), a probabilidade condicional de X per-
e seja A um evento aleatório tal que P(A) >O. Usando o conceito de tencer a B 1 dado A, é a proporção do evento A em que X E B 1, com
probabilidade condicional, podemos definir a distribuição condicional uma interpretação análoga para B 2 •
de X dado o ez•ento A por A função de distribuição associada ·à distribuição condicional
é chamada função de distribuição condicional de X dado A :
P(X E B I A) = P([XEB]nA)
P(A) ' P( [X ~ x]n A)
I = P(X -< x IA) =
F x(X A)
P(A)
, x E IR.
para B E Jl, a a-álgebra dos borelianos na reta. Isto realmente define
uma distribuição na reta, i.e., uma probabilidade nos borelianos, pois A esperança condicional de X dado A é a esperança . da distribuição
verificam-se os axiomas : condicional, definida por
Axioma I. P(X E B I A);;?: O é quociente de probabilidades). I
E( X A) = J xdF x< x IA).
Axioma 2. P(X EIR I A)=I (pois P(X EIR I Al = P(O n A)=I). se esta esperança existe.
P(A)
Axioma 3'. Se B 1 • B 2 , • •• são borelianos disjuntos 2 a 2, então
Agora suponhamos que os eventos aleatórios A 1, A 2 , ... formem
l,..
P(X E 1 B. I A) = I P(X E B. I A). (Pois
" uma partição (finita ou enumer~vel) de n, i.e., que os A. sejam dis-
juntos 2 a 2 e U A.= O. Pelo Teorema da Probabilidade Total,
P(X E u B11 I A) = ~([X EU B. ] n_ A) temos
n P(A) '
com P(X E B) = I P(A.)P(X E B I A.~ VB E iÂ,
[X E U B.] n A = !U [X E B.]l n A = U([X E B.] n A).
" F x(x) = P(X ~ x) = I P(A.) P(X ~ x I A.) = I P(A.) F x(x I A.), Vx,
Como os B. são disjuntos 2 a 2, os eventos [X E B.] n A também o
são, logo e se a esperança de X existe,
IP([XEB.] n A) EX = Jx dF x(x) = Jx d(I P(A.)F x(x I A.)) =
P(X EU Bn I A) = " = ~ "
P(A) = (pelalinearidade da integral de Stieltjes) =
=I P(X E B. I A).) = I {P(A.} JxdF x(x I A.)J = I P(A.) E( X I A,).
n
"
146 Probabilidade: Um curso em Nível Intermediário Distribuição e Esperança Condicionais 14 7
Em outras palavras. a distribuição dt: X (função de distribuição os eventos .1, = [Y=' r,J formam uma partição d·~ Q. Neste caso. a
de X, esperança de X) é uma media ponderada da distribuição con- dist ri buiç~i n
dicional (função de distribuição condicionaL esperança condicional)
P(.\' E B I Y= _\'li)"' P(X E B I A,J BE ::!4.
dado Ali. onde os pesos são as probabilidades dos membros Ali da
partição. é chamada dislrihui\·ào condicional de X dado cjue } =r,. e valem as
fónnulas
EXEMPLO I. Um exemplo simples é o seguinte: seja X~ Uf ~I, IJ
e sejam A 1 =[X zO], A 2 =[X <0] =A;. Qual a dis-
P(X" H) ~- I. P( r= Yn) f'( X E B! } =
n
Ynl· B E~-
tribuição condicional de X dado A 1 ? Em outras palavras. dado que
F!IL\l = 2., P( Y= y.,) Fxlx I Y= y,,), .\E R
X 2: O qual a nova distribuição que se atribui a X? A resposta in-
tuitiva é: uniforme em [0. 1]. Verifiquemos a resposta: jú que para L\ = 2:. P(1 ,= r,J E( X I>= y,).
todo boreliano B, P(X E BJ = -~ x comprimento (B r' [ ~ I, I ]I. temos
...
ond;.: vak a últiroa fórn1uia s, EX existe; em pariicuL:u. se X é in
P([XEBJn[X?O]) __ P(X•::Bn[O,:~_))
P( X E B I Ad
1
= - - tcgr:tvd.
P( X ?: O) ~ P( X 2: O) -
!\ct~m,-,s qw: par.t B ííxo. Pi.X E B: i'= _\n) é funçà0 Jt y.,.dJgamn,:
comprimento (B r [0. I ]I yj r,.). SL' definirmos y(i') = P( X E B ! Y c r) arbitrariamente pma
2
1 rt ;r,.: n :::-I:. por exemplo. g(l') = P(X E 8), então teremos
2 F'( X E B1 = jP(X E B; Y = r) dF 1(r) "" S!J(y) dF 1(r)
=comprimento (Bn [0. 1]1.
pelo item 6. ~JI (integral de Stidtj,~~ no caso discreto). As outras
satisfazendo assim a definição da distribuição L'l O. I]. Vamos usar fórmulas gozam de interpretações análoga,, logo temo;;
a notação X i A 1 ~ U[O. I] para indicar o fato da distribuição con-
PLXEB) = JP(XEBi }=,y)dfl(lt
dicional de X dado A 1 ser uniforme em [0, 1]. Podemos mostrar por
um método análogo que X A 2 ~ U[ ~ I, 0]. 1
Fy(\ I = JF\(_\ I } = \) dFj(yl. (41)
mula que expressa a esperança como média ponderada da esperança Essas fórmulas vão v ale r também no caso geral (r não necessaria-
condicionaL mente discreta), como veremos adiante. Salientamos que a esperança
precisa existir para que valha a última fórmula. De fato, quando .\·
I I I
O = EX = • P( A d ~ PiA 2) = =O. for integrávcL cp(r)~E(X I Y =r) será finito. Nesse caso. a variá\el
2 1 4 4 aleatória cp( Y) scr'á chamada esperan1·a condicional de X dada Y e será
indicada por cp( Yi = E( X i Y). Notemos que E( X I Y =r) é um valor
Consideremos agora o caso em que a partição do espaço amostrai particular da variável aleatória E(X I Y): é o valor quando Y= y.
é gerada por uma variável aleatória discreta. Para tanto, seja Y uma Portanto, a última fórmula pode ser interpretada assim:
variável aleatória discreta em (Q.w. P). tomando somente os valores
EX= (pelo Teorema 3.1) = Erp(Y) =' EiE(X! YJ;.
Yt· y 2 , .. . , onde admitimos que esta seqüência dos valores possíveis
de Y seja finita ou enumerável. (Ressaltamos que estamos supondo Fm outras palavras. a e:-;pcrança de X é igual à esperançtJ da es-
que X e Y sejam definidas no mesmo espaço de probabilidade.) Então peran\ a condicional de X dada Y
r
EXEMPLO 2. Consideremos o seguinte experimento em que parti- EXEMPLO 3. De volta ao processo de Poisson. Consideremos par-
cipam dois jogadores, I e 11. Suponhamos que o jo- tículas que chegam a um contador segundo um pro-
gador I lance uma moeda honesta n vezes, obtendo k caras, onde cesso de Poisson com parâmetro À.> O. ·Recordemos as nossas variáveis
O~ k ~ n, e que depois disso o jogador li lance a mesma moeda k vezes. aleatórias ; X, é o número de particulas que chegam até o instante
Seja X o número de caras obtidas pelo jogador 11. t ~ O, 71 é o tempo de chegada da primeira partícula, T,. é o tempo
entre a chegada número n - I e a n-ésima.
Problema. Determinar a esperança de X , supondo independência de Já foi visto que X,- Poisson (À.t) e T1 - exp (À.). Ocorre que T1,
todos os lançamentos. T2 , • • • são independentes com a mesma distribuição exponencial de
parâmetro À. (não provaremos isto).
Solução. Seja ro número de caras nos n lançamentos do jogador I. Consideremos o seguinte problema: dado que exatamente uma
Decorre das condições do experimento que r- b ( n, ~) partícula chegou até o tempo t >O, qual a distribuição condicional
do seu tempo de chegada? Traduzindo em termos de variáveis alea-
tórias, temos o problema:
Qual a distribuição condicional de T1 dado que X,= 1? A res-
posta é : uniforme em [0, t ], i.e.,
Por isso, a esperança condicional de X dado que r = k é a esperança T, IX, =I- U[O, t].
da distribuição b ( k, ~) :
Verifiquemos esta solução, calculando a função de distribuição
k
E( X 1 r= kl = 2
• condicional. Como X,= I implica que a primeira partícula chegou
até o tempo t, temos [X,= I] C [O < T1 ~ t], logo P(O < T1 ~t I X,=
ou seja, = I) = I. Consequentemente, temos
r
E(X I Y) = 2 .
{
Oses~O
F 1 ,(s i X, =I )= t
Utilizando a fórmula. temos se s ~ t.
Se O< s < t.
EX= E{ E(X I Yl} =E
2
' = __!_2 Er = ~.
(y-) 4 P(T ~ s,X,=I)
F 1.(s X,=I)=P(T1 <s X,= I)=- -1 - -
I
I -
I -.
P(X, =I)
Neste exemplo, não era preciso calcular a distribuição condicional
de X dado que r= k, pois esta foi deduzida das condições do experi- Agora, T1 ~ s e X,= I significam que a primeira partícula chegou
mento. Tal método vale, em geral, para experimentos de duas etapas : até o instante se, já que só uma partícula chegou até o instante t, não
partindo do conhecimento da distribuiç~o do resultado da primeira chegou outra partícula até o instante t. Em outras palavras, home
etapa e da distribuição condicional do resultado da segunda etapa uma chegada em (0, s] e nenhuma em (s, t]. Estes intervalos são dis-
dado o resultado da primeira etapa, obtém-se a distribuição (ou a juntos, logo, por independência, temos
esperança) do resultado da segunda etapa.
Vejamos agora um exemplo em que há algumas . contas para P(T1 ~ s,X, = I}= P(X. =I, X, - X s =OI=
fazer na determinação da distribuição condicional. = P(Xs = l)P(X, - X s = 0).
r(
Como o número de chegadas durante um período de duração r Veremos agora que é suficiente provar que
tem distribuição de Poisson de parâmetro Àt, segue-se que para
o< s < (, P((T1, T 1 + T2 ) E (a 1, h 1 ] x (a2, hz] I X,= 2) = (4.2)
2(h 1 - _(J_I]_(b_2_~ li_ 2) áre_aj~~n~ulo)
F I)s
·I X ' -_ 1) -_ _P~Ã'' =oiJ P(.~,_- -~'-=0)
P(X, = I)
t2 área A 2
lse · "' · e- '- 11 -' 1 s Isto é suficiente porque decorre de (4.2) que
- -;,,-('~-).1
área B
P((7~. TI+ T,)EBIX,=2) =~----A~
• arca 2
Uma vez que a função de distribuição condicional é a função de
distribuição da U[O, r], concluímos que T1 I X,= I ~ L'[O, t]. para todo B c A 2 , B boreliano. (Vale se B é união disjunta enumerável
Generalizando um pouco, podemos perguntar o seguinte: dado de retângulos do tipo descrito acima, por a-aditividade. Como todo
que chegaram exatamente duas partículas até o tempo t >O, qual a boreliano de A 2 pode ser aproximado por uma tal união disjunta,
distribuição dos dois tempos de chegada? Isto é. qual a distribuição segue-se o resultado.) Conseqüentemente.
condicional do retor (T1, T 1 + T2 ) dado que X,= 2'? (Deve ser óbvio
como definir a distribuição condicional de um vetor aleatório (X 1, X") (T~o T 1 + T2 ) I X,= 2 ~ U(A 2 ).
dada uma variável aleatória discreta } : Resta, então, provar a expressão (4.2), cujo primeiro termo é
igual a
l'
f
152 Probabilidade: Um curso em Nivellntermediário
circunstâncias (daqui a pouco veremos a relação com nosso exemplo): Então x.~.,- Poisson (À. 1), X.1.,+.1. 2 - X.~.,- Poisson (À. 2 ) e X .~., e
I sejam Y1, ••• , Y. variáveis aleatórias independentes, cada uma tendo X;.,+.l. 2 - X.~. , são independentes.
t distribuição U[O, t], t >O. Então, pelo exemplo 22 do Capítulo 2.
U(A.) é a distribuição conjunta das estatísticas de ordem da amostra Problema. Qual a distribuiçãocondicional de X .1., dado que X.~., +.1. 2 = n?
r,..... }~ . pois a densidade de }; é t- 1 / to. rJ e. portanto. a densidade (Notemos que as variáveis aleatórias X e Y do problema
''
f
t
de ( 1'; 1 " ••• , 1';. 1) é
que chegaram exatamente 11 partículas até o instante t, é razoável roemos o i-ésimo ensaio de sucesso se~::; À." fracasso se~ >ld. Logo
t pensar que cada partícula escolheria seu tempo de chegada unitorme- a distribuição é binomial, com parâmetros n e À.t , . (Observação:
~ mcnte no intervalo [0, t]. como no caso 11 = I, independentemente
1
llt + 11.2
para n =O, P(X .1., =O IX.~., +.1. 2 =O)=
~ das outras partículas. Então os tempos de chegada corresponderiam
a 11 variáveis aleatórias independentes. cada uma distribuída uniforme-
1.) O
I começar, o jogador li observa uma variável aleatória N tendo dis- ximação para a probabilidade condicional de X pertencer a B dado
tribuição Poisson (À), onde À. > O. Supomos que 1\' seja independente que Y = y, a probabilidade condicional do mesmo evento dado que
da seqüência de lançamentos do jogador I. Se o jogador li observar YE /, ou seja,
N = n, ele vai parar o jogador I depois deste ter feito n lançamentos
(se N =O, o jogador 11 não permite nenhum lançamento). P(X E B yI = y) ~ P(X E B I YEI) = P(X E B, YE I) .
P(YE I)
Problema. Se S for o número de caras observadas até o jogador
parar, quais são a distribuição e a esperança de S? Se P(X E B I Y E I) converge para um limite quando L\y-+ O, cha-
memos o limite P(X E B I Y = y ). Se P( YE/) = O para alguma vizinhança
Solução. Como a seqüência de lançamentos é independente de N , I. então definamos arbitrariamente a probabilidade condicional.
a distribuição condicional de S dado que N = 11 é b(n, p), i.e., digamos P(X E B I Y = y) = P(X E B). Então nossa definição (informal,
SIN = 11 - h( li. p). por enquanto ; as definições formais serão dadas na seção seguinte)
será :
Isto vale ainda no caso em que 11 = O.
Como N ._ Poisson (Â), S tem distribuição Poisson ().p) e ES = À.p. Relação I. P(X E B I Y = y) = lim P(X E B I Y E /), onde I é em inter-
ây~o
Obserl'ação. Se quiséssemos determinar apenas o valor de ES, não valo que contém y, de comprimento L\y.
era preciso obter a distribuição de s.· Com efeito, já vimos que
ES=E[E<S INl l. Como SIN= II-h(tz.p). temos E<S IN = n) = llp. i.e..
Observação. O limite existe quase certamente, no sentido de que
E<S INJ = Np. Portanto.
existe para quase todos os valores possívei; de l: De
ES = E(Np) = pEN = pl.. fato. vert:mos que a Relação I dá o "valor certo" da pwbabilidade
condicional com probabilidade I (o "valor certo" é o valot dado pela
distribuição condicional regular, a ser definida no §4.3).
§4.2 Distribuição condicional de X dada Y: caso
geral Embora essa definição seja construtiva e dê uma receita para
Nosso objetivo nesta seção é definir distribuição condicional se calcular a distribuição condicional, ela não é muito prática (como
de X dado que Y = y para todo y E IR e todo par de variáveis aleatórias o leitor descobrirá lendo os exemplos e fazendo os exercícios). O que
X e Y definidas no mesmo espaço de probabilidade (Q .tl. P). se costuma fazer é conjeturar - ou, se quiser, "chutar" - a distri-
No §4.1 , definimos distribuição condicional dado que Y = y buição condicional e depois verificá-la. Mais adiante voltaremos a
quando P( Y = }') >O; portanto, nosso problema agora é como definir este assunto.
distribuição condicional quando P( Y = y ) =O. No caso discreto esta Essa definição não é a única existente. Há outra, baseada na
y
definição era arbitrária, pois o conjunto dos tais que P( Y = y) = O, Teoria da Medida, que é muito mais útil no sentido teórico (pode-se
i.e., o conjunto B 0 = {y. : 11 = I, 2, ... }', também tinha probabilidade provar muito mais com ela). Para termos uma idéia da base desta
zero, no sentido de que P( YE B0 ) = O. Mas é evidente que essa solução definição, consideremos novamente o caso discreto.
não serve para o caso geral, já que é bem possível que P( Y = y) =O Para Y discreta, as fórmulas (4.1 ) dizem que a distribuição (ou
para todo yE IR (por exemplo, no caso contínuo). função de distribuição, ou esperança) de X é determinada pela dis-
Mais uma vez, nossa solução será uma aproximação utilizando tribuição de Y e a distribuição (função de distribuição, esperança)
a definição do caso discreto. Para tanto. seja I um intervalo pequeno condicional de X dada Y. De fato, o Teorema da Probabilidade Total
de comprimento Óy e que contém o ponto y. Tomemos como apro- nos dá um resultado muito mais forte : a distribuição conjunta de X e Y
Distribuição e Esperança Condicionais 1 57
156 Probabilidade: Um curso em Nlvellntermediário
1
~.\'" < m , temos 1 c (r"-
1
. y., + 1
)e Caso I li . X e Y possuem densidade conjunta f(.x, y). Pensemo s assim :
e quando
\
111 m. dado que Y = y, os valores possívei s do vetor (X, }') são
' I I ' os valores (x. y), x E IR, y fixo. Ora. a densida de f(x , y) represen ta a
P( }' = _\'.,) :$ P( };, E I) :$ P ( y., - < }' < y., + ) ) chance relatim de observa r o par (x, y). no sentido de que ames de
. m m . ·.
observa r os valores das variávei s aleatória s X e }'; j(x, y) fornece uma
Pela mesma continui dade de probahil idadc, temos idéia da chance relativa de observa r (x, y). Por exemplo . se /(x 1 • y) =
'""' 2f(x c. y). então. informa lmente. (x 1 • y) tem o dobro da chance de
P(X E B. } E/)--+ P(X E B. }'=r,.) quando ~.\'"-.O. (.\ > y) de ser observa do. Neste caso. é razoável pensar que. dado
que
} = y. x 1 mantenh a duas vezes a chance de x c. na distribu ição con-
Como P( Y = Ynl > O, segue-se que
dicional de X.
Portanto . nosso candida to para a distribu ição condicio nal de X
dado que Y =_I' manterá as chances proporc ionais a f(x, y), com _I'
fixo. Com efeito. vamos normali:::.ar f(x , y), x E R para que seja uma
como queríam os demons trar. nova densidad e, a densidad e da distribu ição condicio nal. Para tanto,
como ela já é uma função não-neg ativa basta dividir por sua integral
Portanto, as duas relações definido ras de distribu ição condicio -
sobre a reta . Então. nosso candida to para a densida de da distribu ição
nal são consiste ntes com a definiçã o vista no caso discreto.
condicio nal será
Em resumo, nosso candida to satisfaz as duas relações e é a dis- Daremo s uma prova parcial desta relação; a pro\'a complet a neces-
tribuiçã o condicio nal. sita de conceito s da Teoria da Medida.
-~
P"
li
I I Sejam y fixo e I um intervalo de comprimento ~y contendo y. EXEMPLO 5. Suponha que o vetor (X, Y) possua distribuição nor-
Temos mal bivariada com densidade
P(X E B I y E 1) = P(X E B, Y E ll_ = f~f 8 f(~, t)dxdt .
P( YE 1) fi jy(t)dt f(x y) = -- I
~
exp { - 1
2(1 - p 2 )
[(x - 11 1 )
--
2
:
' 21lCT 1CT 2 0" 1
Se a densidade .fr é contínua no ponto y, sabemos do Cálculo que
,,
!' tisfeita pelo candidato, pois
f_. (fx
- OI. - Cf,
f<s l t)ds)dFy(t) = f.r (fx
-J -:J
[_(s,_!lds).fr (t)dt =
.fl(t)
onde a constante c(uf, u~, p, y) é determinada pela equação
Jf(x ly)dx = 1. É claro que essa densidade condicional é normal. Com
efeito, completando o quadrado obtemos
I! = F x. r(_x, y),
Vx, y. cda 11 a 2 ,p,y)exp { - l~TO I_ p 2 ) x
2 2
- p ( .\' ~
- --
Jlz)] }
Obserração. Se j)(y) =O, f(x Iy) pode ser arbitrariamente definida, di- 2 =
(
I
gamos f(x y) = fx(x). Isso é intuitivamente evidente, pois
os valores y tais que .fi(y) =O não são valores possíveis de Y. Formal-
x [x - 11 1 - jJ~I (y- I12)J}·
I mente,
{
P(YE {y :j).(y) =O })= P1 ((y :fi·(Y) = 0 })=
Esta é a densidade da distribuição normal com média 11 +
1
l
f + .P.f!.~ 2
I (y- jt 2 ) e variância af(t - p ). Por isso, escrevemos
i
ll
fdy)dy =
f
IJ' :JrO·l Oi
O· dy =O.
(j2
dicional no caso geral. O leitor, se quiser, poderá pular esta parte onde I representa um intervalo de comprime nto Ay contendo y.
teórica e passar diretament e às observações gerais no final da seção. Esta definição correspond e, então, à Relação I .
DEFINIÇ ÃO 4.1. Sejam X e Yvariáveis aleatórias definidas no mes- TEOREM A 4.2. Para cada B E~ fixo, o limite na Definição 4.2 ex iste
mo espaço de probabilid ade (Q .Qf, P). Uma função quase certamente, i. e., P( Y E { y : limite existe em
P(X E B I Y = y ~ definida para B boreliano e .v E IR, será chamada uma y} ) = 1. Além disso, para cada B fix o, o limite é igual a P(X E B I Y = y)
distribuiçã o condiciona l (regular) para X dada Y se como definida na Definição 4.1 , quase certamente .
P(X E B I Y = y) define uma probabili-
(i) para todo y E IR fixo, Prora. Teórica. (Uma modificação do Teorema 8.6. de Rudin [17]). O
dade em ~. a a-álgebra de Borel na reta, e
(ii) para todo B E~ fixo, P(X E B I Y = y) é função mensuráve l COROLÁ RIO. Para se achar a distribuição condicional de X dada Y,
de y e, 'v' (x, y)E IR 2, basta obter Jim P(X E B I Y E I) para todo B em uma
ây-0
apropriada classe enumeráve l 'tff de borelianos que gera a a-álgebra de
f~ oc P(X ::5: X IY = t)dF y(t) = P(X ::5; X, Y ::5; y). Borel. Por exemplo, <t& 1 = {( - ·X!, r] : r racional} ou <t& 2 = {(r" r 2 ):
- r:N < r 1 < r 2 < oo, r 1 e r 2 racionais}.
cha~ada probabilidade c~ndicional de Prova. As classes C6 1 e 16 2 são ambas enumeráveis. Pelo teorema,
Linguagem . P(X E B I Y = y) é
para cada membro de 16 1 ou tt 2 , o limite acerta no valor da
X pertencer a B dado . que Y = y. A probabilid ade
distribuiçã o condicional regular com probabilid ade um. Como a in-
P(X E • I Y = y)
é a distribuição condicional de X dado que Y = y.
terseção de um número enumerável de eventos de probabilid ade um
(Observaç ão : o ponto". " representa o argumento da função, de modo
também é de probabilid ade um, o limite acerta no valor da distri-
que y é fixo.) A função F.\(· I Y = y)d:fl P(X ::5: · I Y = y) é a.fimção de dis-
tribuição condiciona l de X dado que Y = y. Então, a condição (ii) da
buição condicional regular simultaneamente para todos os membros
definição se escreve assim : de <t& 1 ou C6 2 , com probabilid ade um. Mas qualquer probabilid ade é
determinad a pelos seus valores em <t 1 ou 16 2 , logo segue-se o co-
-~
164 Probabilidade: Um curso em Nfvellntermediário DistrlbuiçAo e Esperança Condicionais 165
' '
I Nesta seção, vamos considerar alguns exemplos que não se en-
quadram nos casos I, li, III. Para obter as distribuições condicionais,
qJ(x, y) umafunção
nal.) Sejam X e Y t•ariát,eis aleatórias em (Q . !I/, P),
mensurável. Se a distribuição condicional de X dada Y é
usaremos dois principias importantes que enunciamos agora. P(X E B I y = y), B E~. y E IR,
então a distribuição condicional para ({)(X, Y) dada Y é
O princípio da preserl'ação de chances relat iras. Este principio diz que
condicionalmente, dada P(qJI X. Y) E B I y = y) = P(qJ(X, y) E B I y = y) =
a ocorrência de um evento A, os resultados possíveis (i. e., w E A) man- = P(X E {x: qJ(x, y) E B} I Y = y), B E .si, y E IR.
têm as mesmas chances relativas que tinham anterior à realização do
Obserração. A segunda probabilidade condicional acima deveria ser
experimento. interpretada como uma etapa transicional cujo objetivo
é ajudar a memória. Não é desejável calcular para cada y a distri-
Em termos de variáveis aleatórias, o principio da preservação de buição condicional da variável aleatória qJ(X . .r)- já que no caso
chances relativas pode ser expresso da seguinte forma: dado que Y = y, geral o número de y é não-enumerável, os erros podem se acumular
os valores possíveis de X mantêm as mcsmds chances relativas de antes e estragar o resultado final -mas sim utilizar a distribuição condi-
do experimento. Aqui, um valor possível de X é um x tal que (x, y) cional conhecida de X. Podemos colocar o resultado da proposição
era um valor possível de (X Y) antes do experimento. e o princípio em símbolos assim :
diz que estes pontos x mantêm. na distribuição condicional, as mes- ({)(X, }') I y = y - qJ(X I y = y, y),
mas chances relativas que os pontos (x, y) tinham na distribuição con-
junta de X e t: ou seja, a distribuição condicional de qJ(X, Y) dado que Y = y é a
Já vimos uma aplicação direta deste princípio quando obtive- mesma que a distribuição de qJ(X, y~ onde a variável aleatória X pos-
mos a densidade condicional no caso contínuo (caso lll, §4.2). A dis- sui a sua ·distribuição condicional.
tribuição condicional nos outros dois casos de fácil solução também Prora. Teoria da Medida para o caso geral. Provaremos para o caso
pode ser considerada como conseqüência deste princípio (exercício 21 ). de Y discreta. Suponha que P( Y = y.) = p(Jn) ~ O, onde
Além disso, o exemplo 6 é conseqüência imediata, pois dado que Y L p(y.) = I. Para B E 31, temos
I tomou o valor y, este mesmo valor tornou-se o único valor condi-
(
cionalmente possível de Y- notemos que os pares.(_r, y) eram os úni- P(qJ(X.' Y) E B I y = y.) = P(qJ(X, Y) E B, y = y.)
• cos valores possíveis do vetor aleatório ( Y. }'). p(y.)
O princípio da preservação de chances relativas poderá ser apli-
cado sempre. O seguinte princípio é aplicável, e indicado, nos casos
P(qJ(X, y.) E B, Y = y.)
p(y.)
em que queremos obter a distribuição condicional de uma função de
Y ou, mais geralmente, de uma função de Y e uma variável aleatória pois os eventos [ qJ(X, Y) E B, Y = y.] e [ qJ(X, y.) E B, Y = y.] são idên-
X cuja distribuição condicional já seja conhecida. ticos (você sabe explicar por quê?).
O princípio da substituição. Este principio diz que condicionalmente, Assim, a primeira equação da proposição está provada, para
dado que Y = y, a variável aleatória Ypode "quase todo" y. (Novamente, os outros valores y são desprezíveis ;
ser substituída pelo valor y sempre que Y aparecer em uma probabi- neste caso, y f: {y. : n ~ I }.) Para a segunda equação, temos
lidade (ou esperança) condicional. Mais geralmente, diz que para se P(X E {x: qJ(x, y.) E B}, Y = y.)
P( qJ(X, y.) E B, Y = y.)
obter a distribuição condicional de qJ(X, Y) dado que Y = y, bas~a
p(y.) p(y.)
substituir Y pelo valor y e X pela variável c<?ndicional. Formalmente,
temos a seguinte = P(X E {x: ({)(X, y.)E B ] I Y = y.). O
168 Probabilidade: Um curso em Nfvellntermediário DfstribuiçAo e Esperança Condicionais 169
EXEMPLO 7. Dado que Y = y, qual a distribuição condicional de Seja B = (r i> r 2 ), onde O < r 1 < y < r2 , r 1 e r2 racionais. Para I
Z = g( Y)? Já vimos que a distribuição condicional de Y pequeno tal que I C B, temos
é massa pontual em y, ou seja, a variável aleatória condicional.é cons- P(X E B, I X IE /) = P( X E /) = (pela simetria) =
tante e assume o valor y. Portanto, a distribuição condicional de Z
I I
é também massa pontual, desta vez em g(y). Em outras palavras. 2- { P(X E /) + P(X E - /) } = f P( X I IE /),
P(g(Y) = I
g(y ) y = y) = I ,
e
o que é intuitivamente óbvio. .
Notemos que na aplicação da proposição, identificamos X e Y, P(X E - B. l X IE I) = P(X E - /) = ~- P( I X IE 1).
pois Z é função somente de Y
Logo I C B implica
EXEMPLO 8. Seja X uma variável aleatória simétrica em torno de
zero, de modo que P(X ·: $ x) = P(X ~ - x), 't/x E IR. P(X E B I IX IE I) = -2I = P(X E - B I IX IE 1).
Qual a distribuição condicional de X dada a variável aleatória X I I?
Utilizemos o princípio da preservação de chances relativas para Portanto,
achar um candidato. Dado que I X I = y > O, então os únicos valores
1
possíveis de X são y e - y. De fato, IX I = J' se, e somente se. X = y P(X E B I I X I = y) = lim P(X E B I IX IE I) =
ou X = - y. Pela simetria de X. os dois valores y e - y tinham. antes ~-o 2
do experimento, a mesma chance de serem o valor de X . Portanto. nosso e
candidato é
1
••
I
P(X E - B I IX I = y) = lim P(X E - B I IX IE I) = .
y li X I = y), se y > O . 2
P(X = y li X I = y) = - = P X
2
=- A.r-o
(X, Y) e a origem?---=---=-
Para z >O, J X 2 + Y 2 = z se, e somente se, (X, Y) pertence à
circunferência do círculo de raio z. Logo a distribuição 2condicion al,
dado que X 2
+ J
Y 2
= ::, está concentr ada em {(x, y): x + y 2
= z 2
}.
P((X, Y)F B I JX 2
I
+ y 2 = z) = comprimento (B n C)
' 2nz
Distribuiçlo e Esperança Condicionais 173
172 Probabilidade: Um curso em Nlvellntermediário
Pela simetria circular da densidade conjunta (se quiser, poderá (Observação. Os outros valores de Y têm probabilidade zero, pois a
fazer uma mudança de variáveis, passando para coordenadas polares), probabilidade de pelo menos um empate é zero :
(
., circunferência e é uniforme nela.
A distribuição condicional dado que Z = O é arbitrária. já que
nais). Suponha que I seja um pequeno retângulo contendo y, de modo
que yEI C B C A.. -
P(J X 2 + Y2 = 0) =O. Costuma-se adotar a definição intuitiva Para toda permutação n = (n , ••• , 1t ), definamos!,= (X" , ... , X" ).
• P((X, Y) = (O,Ol iJX 2 + Y2 = 0) = I,
É fácil de ver que ! c !.
1
possuem a
11
(
li = (.1'1 · ...• y,). onde .r i <r~< ... < y,,
É evidente que X= y se, e somente se, K é uma permutação de y.
- P(X E B I }' E I)
"""" """
= P~K" ~B, I
P([EI)
E I) jJl_K ,~ I)
PCt E/) n.
,.
li Apliquemos o princípio- da preservação de chances relativas: todã
I onde usamos o fato de que [~"E B. XE I]=[~, E/, XE /] = [~, E J].
permutação de y tinha. antes da observação das estatísticas de ordem. Mas quando K, E B. n é a permutação que coloca as coordenadas
' a mesma chance relativa de ser o valor de X, pois as Xi eram inde- de K em ordem. Neste caso, ~ E ri - 1 (B). onde n - é a permutação
1
pendentes e identicamente drstribuídas. Po; exemplo. suponha que inversa de n, ou seja, a permutação que recoloca os valores (n 1 , •.• , tt 11 )
n = 2 e que o valor observado de X foi l = (y 1 , }' 2 ), onde y 1 < J2. na ordem natural (1 , ... , n).
Então ou lf = (J 1 • y 2 ) ou~ = (y 2 • y 1 ) e os dois valores tinham a priori. Logo [~,E B] = [~ E n 1 (BJ] e temos
i. e., anterior à observação das l'/, a mesma chance de serem escolhi-
dos (pois (X 1 • X 2 ) - (X 2 , X 1 ), ou seja, os dois vetores possuem a
P(~ E n - 1(B) I.!'El) = P(~, E B i_YE 1) = ~f' Vn.
mesma distribuição). Logo é natural pensar que
Fazendo B diminuir para y, de modo que rr - (B) diminui para n - \
-v).
1
I
P(X . 1• .~·li
.._ =(r 2 . I . .I' 2 )) = P(X
Y =(r
.._ .._ =(I'. Y = (r.
.2 .rI l i .._ r))= 2
. I .2
temos
-.
Então. nosso candidato para n geral será P(X = n - 1 (y)l Y = y) = -~. Vn.
,..., - - - n!
I
P(X = l.r. · · · ·· J'r.J I Y = (yl, · · ·, Y.)) = 1' Y1 < Y2 < · ·· < Yn • . Como a classe das permutações inversas é igual à das permutações,
• IJ.
onde (rr 1 ..... n,) é uma permutação de 11. ... . n). o nosso candidato está verificado.
174 Probabilidade: Um curso em Nível Intermediário Distribuição e Esperança Condicionais 175
§4.5 EspPrança condicional Enunciaremos a seguir, sem provas, algumas importantes proprie-
dades da esperança condicional. Seja Yuma variável aleatória qualquer,
e sejam X, X 1 , X 2 , etc., variáveis aleatórias integrát,eis, todas defi-
DEFINIÇÃO 4.3. Sejam X e } variáveis aleatórias em (!1. ç). /-'). A
nidas no mesmo espaço de probabilidade.
esperança condicional de X dado IJII<' }' ~- y. é a es-
perança da distribuição condicional de X dado que }' = _\', se esta ECI. Propriedade básica. E:EIXI Y)} =EX.
esperança existir. Ou seja.
I
Propriedades de E(X l') análogas às propriedades da esperança
ordinária. Convenção: não distinguiremos variáveis aleatórias que se-
EIXIY=r)= JxdF,(xiY=,rl.
jam iguais quase certamente. Por exemplo. em EC2 basta 9ue X = c
quase certamente. i.e .. P(X = c)= 1. Além disso. os resultados enun-
TEOREMA 4.3. Se X (; integráz·d, emão E( X I Y = y) existe e éfinita
ciados são necessariamente válidos apenas quase certamente.
qzwsr certamente. i. e.. existe um horcliano B 0 tal iJIIC
P( }'E B 0 l =I e E( X I Y = y) é .finita para y E 8 0 . EC2. Se X= c. para alguma constante c. então E( X I }')=c (veja o
Prora. Teoria da Medida (decorre do Teorema de Radon-Nikodym). O exercício 26 ).
Se definimos cp(yl =E( X I y = _1'), a variável aleatória f{J( }')==f( X in EC3. Se X 1 :::; X 2 , então E(X 1l Y):::; E(X 2l }').
chama-se esperança condicional de X dada r (Sem perda de gene-ra- Casos particulares: (i) Se X ~O, então E( X I Y) ~O.
lidade. cp é mensurável no caso de .\· 'integrável.) (ii) Se a::::;; X :::; h, então a :::; E( X I Y):::; h.
A esperança condicional, sendo a esperança da distribuição con- (iii) E( X I Y):::; E( I X! I}') e. por EC4, I E( X I n I :::; E( I X I I n
dicional, possui (condicionalmente) todas as propriedades da espe-
rança ordinária já enunciadas. mais a propriedade importante de que EC4. Linearidade. E(aX 1 + hX 21 Y) = aE(X 1 I Y) + hE(X 21 n
f:E(X In:= E.Y. ou equivalentemente. EC5. Desigualdade de J ensen. Seja cp uma jimção conrcxa. Então
r
· ·
PROPOSIÇÃO 4.2. (Princípio da suhstituiç·ão pura esperança condi-
/(\,y)dl)xdx~ cional). Se cp(X, Y) é integrárel. emão
= rJ .xf(x,y)dxd_l=f'
... y
(f"
'"" E{cp(X. Yll Y=.\'}=E:cp(X,y)l Y=y) =Jcp(x,y)dFxlxl Y=y).
que Y= y, que é interpretada como a distribuição de qJ(X, y), onde Prora. Os vetores (X 1 ... ,X 11 ) c (Xj,X 2 , ... ,Xi I·XI.Xi+l··· .. .\.'")
X tem a sua distribuição condicional dado que Y = y. O têm a mesma distribuição (por quê'?). Por isso,(.\.' 1 • S) c(};·,. S)
possuem a mesma distribuição (use o seguinte fato: se ~ e l são ve-
Ohserração. O princípio da substituição vale também no caso de qJ tores aleatórios identicamente distribuídos, então f(~) e (([) tam-
ser função de vetores aleatórios ~ e l bém têm a mesma distribuição, onde a função f pode ser um vetor
EXEMPLOS (12). Como a distribuição condicional de X = g( Yl de funções reais).
dado que Y = y, é massa pontual em g(y), temos Como a distribuição condicional é determinada pela distribuição
E:g(Y)IY=y}=g(y), i.e., E{g(Y)I Yl=g(}'). conjunta, segue-se que X 1 e X i têm a mesma distribuição condicio-
( 13). Se X e Ysão independentes, então P(X E B I Y = y) = P(X E 8), nal dado que S = s, i. e.,
de modo que E(X I Y = y) =EX c E( X I Yl = EX. P(X 1 EBIS=s)= P(XjEBIS=s), i= 1.2, ... ,11.
( 14). Se X é integrável, a desigualdade de Jensen implica que
E 2(X In d!l :E(X i Yll 2 ::; E(X 2 1 A diferença entre as duas,
}').
Logo E(X 1 !S=s) e E(}.:"iiS=s), sendo esperanças da mesma
E(X 2 Y) - E 2 (X! Y), é chamada rariància condicional de X dada Y
1
distribuição, são iguais. Portanto.
(Veja o exercício 36(/J) para o resultado: variância de X é igual à soma E( X IS = s) = E(X 2 I S = s) = ... = E( X" IS = s),
1
da esperança da variância condicional e a variância da esperança
condicional.) e
11
2) )·
!
Portanto, Logo
E J XY J ~ ,./ ab= .J EX • EY
2 2
1 •
2
Se a= O. então P(X = 0) = l, P(X. = 0) = I e P(X Y = 0) = 1, logo
ou, equivalentemente, E( X I Y) = 11 1 + p~ ( Y- J.lz ). E JXYj = O e E JXl'j ~ v'ab =O (convenção : O· X• = 0). Se b =O, vale
(J2
Vamos calcular Cov (X, Y) = EXY- J.li J.lz sem mexer com a den- a mesma coisa. Se a = + x e b >O, a desigualdade é trivial: E IX YJ ~
sidade conjunta no cálculo de EX l: Supondo que X Y seja integrável ~ +X· . Idem se a >0 e b = + oc. O
(veremos isto no final deste exemplo), temos Sejam, agora, Y uma variável aleatória e A um evento aleatório.
Como A = [ 1A = I] e P(A IBl = P(J A= I IB) para B evento aleatório,
,, E(XYI Y = y) = yE(X I Y = y) =/li y + P(JL(y
G"z
2
- J.lzY~ é bem natural definir
P(A JY =y) = P( IA = 1IY=y)= lim flA= .IIYEI)=
logo ~y-0
= E (X~ -
a
2
.jab
1 X Yl + y~) = 2- 2
b Jab
E I X Yl. =(pelo princípio da substituição)= J P(X ~ z - y I Y = y) dFr(Y) =
= JFx(z- yj'r::::: y ) dFr(y). .
180 Probabilidade: Um curso em Nível Intermediário Distribuição e Esperança Condicionais 181
Se X e Y são independentes. então F 1( : : - r 1 Y = r)= F,(::- y) 4. Mostre que se X é uma variável aleatória tendo distribuição
e temos simétrica em torno de zero. e se P(X = 0) = O, então a distribuição
condicional de X 2 dado que X> O é igual à própria distribuição
Fzl::) = P(X + YS: ::) = JFx(::- y) dF 1 (y) =(trocando
de X 2 .
.Y por Yl = JF 1( : : - x) dFxCx).
5. Partículas radioativas chegam a um contador segundo um processo
Esta distribuição é a conro/uçào das distribuições de X e Y c, de Poisson com uma taxa média de três por segundo, mas o con-
como no caso da convolução de densidades, escrevemos l-z = F 1 *F x = tador registra somente cada segunda partícula (i.e., são registradas
=Fx*Fr. somente as partículas n." 2, 4, 6, ... ).
(a) Seja X, o número de partículas registradas até o tempo t.
É (X, : t ;:::: O: um processo de Poisson? Se for, qual o parâ-
EXERCÍCIOS DO CAPÍTULO 4 metro? Se não for, explique o porquê.
(b) Supondo que o contador registrou exatamente uma partícula
~.I durante o primeiro segundo. qual a probabilidade de que ele
não registre mais partícula alguma antes do tempo 2?
I. Sejam X 1 e X 2 variáveis aleatória' independentes, cada uma com
distribuição geométrica definida por 6. Cm contador recebe impulsos de duas fontes independentes. A e B.
Fonte A gera impulsos conforme um processo de Poisson com
P( X i = 111 = p( I - p !", 11 = O. L .? .... : i ~. L :::! :
parâmetro ). >O, enquanto a fonte B gera impulsos segundo um
onde O< p <I. (Observação: esta versão da distribuição geomé- processo de Poisson com parâmetro Ç >O. Suponha que o con-
trica corresponde à distribuição do número de fracassos antes tador registre todo impulso gerado pelas duas fontes.
do primeiro sucesso em uma seqüência de ensaios de Bernoulli.) (a) Seja X, o número de impulsos registrados pelo contador
(a) Calcule P()( 1 =X 2 ) e P(X 1 < .\.' 2 ) até o tempo t, t>O IX 0 =0). Explique porque (X,:r:::::o:
(b) Determine a distribuição condicional de X 1 dada X 1 + X 2. é um processo de Poisson (basta uma explicação intuitiva).
Qual o parâmetro'!
1 Uma certa lâmpada tem uma vida. em horas. tendo distribuição
(b) Qual a probabilidade de que o primeiro impulso registrado
exponencial de parâmetro I. Um jogador acende a lâmpada e.
seja da fonte A'?
enquanto a lâmpada ainda estiver acesa. lança um dado equili- (c) Dado que exatamente 100 impulsos foram contados durante
brado de quinze em quinze seywulos. Qual o número esperado de
a primeira unidade de tempo, qual a distribuição que você
3's lançados pelo jogador até a làmpada se apagar'?
atribuiria ao número emitido pela fonte A?
3. Partículas chegam em um contador segundo um processo de
7. Diz-se que ~=(X 1, .•• , X d tem distribuiç·ào multinomial com
Poisson com parâmetro X Em um determinado tempo I, produz-se k
uma voltagem. multiplicando o número de partículas que já en- parâmetros p 1, ... , Pk e 11, onde Pi :2: O e L Pi = I, se
traram no contador por um fator que é independente desse número i I
={(I~
ll·h .... )k.
2, x;:::O
j(x) x)
para toda escolha de j 1, ... , .ik inteiros não-negativos tais que
o ' x <O. k
(a) Prove que X;- b(n, p;), i= I, ... , k. (b) Se T,. + 1 é o tempo transcorrido entre a n-ésima chegada e a
(b) Sejam O < s 1 < s 2 < ... < sk = t. Mostre que no processo de chegada número n + 1, qual a distribuição de T,. + 1 ? Deter-
Poisson, dado que X,= n, a distribuição condicional de mine a distribuição de W, = tempo que transcorre entre o
(X.,, X,, -X,,, ... , X,- X,k- ) é multinomial com parâmetros instante t e a próxima chegada.
-
·- nao (c) Mostre que Z, + W" o tempo entre as chegadas que "cercam"
-s 1, s 2 -st , ... , 1- - - e n. (N ote que essa d'1stn"b mçao
sk-1
t t t o instante t, é estocasticamente estritamente maior que T,. + t>
depende do parâmetro À. do processo.) i.e., P(Z, + W, ~ x) < P(T,. + 1 ~ x) Vx >O. (Esse é o "paradoxo
8. Uma exposição funciona pelo periodo de T horas. Visitantes do tempo de espera".)
chegam à exposição segundo um processo de Poisson com taxa
13. Seja X" X 2 , .. • uma seqüência de variáveis aleatórias inde-
À. visitantes/hora. Os visitantes permanecem na exposição até
pendentes e identicamente distribuídas tendo distribuição ex-
o fim do período. Calcule o tempo médio total gasto pelos visi-
tantes na exposição. (Sugestão. Dado que chegou um só visitante
durante as T horas, qual a média do tempo que ele permanece
ponencial com média T' onde À. > O. Para t > O fixo, seja
n
na exposição?) N = max {11 ~O: s. ~ t}, onde S 0 =O e s. = L X;, de modo que
i=l
9. Suponha que o número de passas num bolo inglês tenha distri-
N é o índice da última soma parcial menor ou igual a t. Mostre
buição de Poisson de parâmetro 60. Um jogador compra um bolo,
que N tem distribuição de Poisson com média À.t. (Sugestão. "Mer-
tira todas as passas uma por uma e reparte as passas entre ele e
gulhe" a seqüência no processo de Poisson.)
você da seguinte maneira: depois da extração de cada passa ele
joga uma moeda equilibrada, dando à passa para você se der
cara, comendo ele mesmo a passa se der coroa. Qual a distribuição §4.2
de número ·de passas que você recebe? A esperança ?
14. Suponha que Y possua densidade /r(Y) e que a distribuição con-
10. Sejam X e Y independentes tais que X- b(m, p) e Y- b(n, p).
dicional de X, dado que Y = y, possua densidade j(x Iy), para
Obtenha a distribuição condicional de X dada X + Y. Como se
todo y (ou pelo menos para "quase todo" valor possível de Y).
chama essa distribuição '?
Demonstre que·
li. Duas fontes radioativas, I e li, emitem partículas (independente-
mente) segundo processos de Poisson com. respectivamente, pa- /(x, y) = /r(YÍ /(x Iy)
râmetros i. e Ç. Seja Z, o número total de partículas emitidas até
o instante t. para t >O. Dado que Z, = k, onde k > O. qual a pro- é a densidade conjunta de X e Y. (Observação : foi provado no
babilidade condicional da última partícula emitida antes do instan- caso III que j(x Iy) = f(x, y) se existe uma densidade conjunta,
te r ter sido da fonte I '? ' (A resposta é igual à do exercício 6(b). /r(Y)
Um possível método de verificação : use o exercício 16(c) doCa- de modo que a distribuição conjunta determina /r(Y) e j(x Iy).
pítulo I, com A. o evento "n partículas emitidas até o instante t Este exercício diz que /r(Y) e j(x Iy) determinam /(x, y).)
pela fonte 1".) 15. Considere o seguinte experimento de duas etapas: primeiro, es-
12. Considere um processo de Poisson com parâmetro i. > O. colhe-se um ponto x de acordo com a distribuição uniforme em
(a) Para t > O fixo, seja Z, o tempo transcorrido até o instante t (0, I ); depois, escolhe-se um ponto y de acordo com a distribuição
desde a ocorrência ("chegada") imediatamente anterior. (Z, = t uniforme em (- x, x). Se o vetor aleatório (X, Y) representar o
se não houve nenhuma chegada e.m (0, t].) Calcule a distri- resultado do experimento, qual será a densidade conjunta de
buição de Z,. (Note que essa distribuição é aproximadamente X e Y? A densidade marginal de Y? A densidade condicion;:tl
I. exponencial quando r é grande). de X dada l'? (Sugestão. Exercício 14.)
Distribuiçlo e Esperança Condicionais 185
184 Probabilidade: Um curso em Nlvellntermediário
16. Observam-se duas lâmpadas durante suas vidas úteis. Suponha v X' _ . = {P(Z E B I X = x) se x. E,;. A4
E/1 1
1
P(Z E B, '" x)
as vidas independentes e exponenciais de parâmetro X Sejam X
-
0 se x 'F . .
18. Demonstre que se P(X E B I }' = y) = P(X E B) para todo B E Jd 24. (a) Seja X= (X 1, .. . , X") um vetor aleatório com densidade
e y E IR, então X e Y são independentes, de modo que X e Y são f(x 1, .~•• x"). Use o princípio da preservação de chances re-
independentes se, e somente se, a distribuição condicional não de- lativas para obter f(x 1 , ... , xk Ixk+ 1, ... , x"). a densidade con-
pende do valor de Y (Sugestão. Mostre que a função de distribuição dicional de (X I• ... , Xd dado que (Xk+ I · ... , X nl = (xk+ I • ... , Xnl-
conjunta fatora .) onde I ::;; k::;; n - L (Não é preciso demonstrar formalmente.)
(b) Sejam X 1• X 2 e X 3 independentes com distribuição comum
§4.4 U[O. 1]. com X I II· x(ll e xi3 J as estatísticas de ordem. De-
termine a distribuição condicional de Xw dadas XIII e xt3J ·
19. Seja X uma variável aleatória com densidade f(x), onde f é con-
tínua. Qual a distribuição condicional de X dada I X I? Verifique 25. Sejam X 1. . . . . X" variáveis aleatórias independentes e identica-
sua resposta. (Observação: a hipótese de continuidade de f não mente distribuídas. com distribuição contínua F Seja X = max X i·
1 ::O i·; n
é necessária. Tenk verificar a Relação 4.1 sem essa hipótese.)
2
(a\ Mostre que para todo k =I, 2, .. ., 11.
20. Sejam X e Y independentes, cada uma com distribuição N(O. a ).
(n- I) F(x)
Qual a distribuição condicional de X dada ..jX + Y ') (Suges-
2 2
se x < t
tão. Exemplo 10 c o princípio da substituição.) Determine P(X. :s: x i X=t)= 11F(l) ·
[
E(X I"' xz + }'2)_ . I , se x 2: t.
23. Sejam X e Z variáveis aleatórias em (Q.w. PJ. 27. Sejam X e Y variáveis aleatórias tais que EX <
2
.y_ e EY 2 < y_ .
(a) Mostre que para A e B borelianos, Demonstre que Cov (X, Y) = Cov (X, E(}' I X)).
186 Probabilidade: Um curso em Nível Intermediário Distribuição e Esperança Condicionais 18 7
2
2!\. Suponha que X e Y possuam densidade conjunta \ >O, a distribuição condicional de Y dado que X = x é L'[O, x ]
.
I ,
, se x· +
,
1·· :;:; I
Em outras pala nas. X ~ cxp ( ~) e Y IX = x -1 U[O. x 2
J.
f (x, I') = n ·
(a) Qual ~ a distribuição de Z = Y;X '?
2
{
O , caso contníno. (b) Calcule EX, EY c Cov IX. }').
(a l Ache a distribuição condicional de r dada X. Calcule E( Y i X). y,_ Sejam X c }' variáveis aleatórias tai~ que } tem esperança finita.
(b) X e }' são independentes? Por quê'? (a) '\.1o~,trcque a variãncia condicional de Y dada X, como de-
(c) Prove que X e }' são não-correlacionadas. (Sugesliio. l'sc o finida no exemplo 14, é a variância da distribuição condicional
exercício anterior.) (b) Demonstre que Var Y = E[Var( Y! XJ] +V ar [EO'I Xl], i.e.,
29. Seja X uma variável aleatória. Cauchy-padrão. a variância de Y é a soma da esperança da variància condi·
(a) Conforme a Definição 4.3, qual é E( X !1 X I~' y)' 1 cional e a vari:mcia da esperança condicional (Para simpli·
(b) Deduza que E[E(X i IX!l] = O. ficar a i.kmonstração, podt.: supor que a variância de Y seja
(c) A propriedade basica E[ E( X I n] = EX não vale nc~)SC caso. finita. J
Existe uma contradição nisso'! 37. Sejam .\· e )' variáveis alcatorias com segundos momentos finitos,
30. Se X;::. O, ocorre que EX= E[E(X j } ' ) ] sem a hipótc~e de in-
,: seja Z uma outra va;·i:.'11·ci alcatc)ria. Demonstre a seguinte fór·
tegrabilidade de X (se EX = + Y. • então E[ E( X I })] c= , . f.. mula:
também). PrO\e esse resultado quando X e }' são discretas. Cu\ t.\.}) = E;Cov (( .\.·, }')] ZJ; + Cov (E( X' L), E( l: ZH
31. O número de acidentes que ocorrem em certa fábrica em uma omk Cm (IX. }) I LJ ~~~E( X} .! ZJ - E(.\ I ZJ E( Y I' Z).
semana é uma variável aleatória com média fl e variüncia rT 2 .
~~\. Suponha qw: em um temporal, o número X de gotas de chuv,J
Os números de indivíduos feridos nos diferentes acidcnlé,; são
que caem no IMPA durante um segundo tenha distribuição de
independentes c identicamente distribuídos com média :: c vari-
Poisson com parümetro i. >O, onde /. representa a inten.>idadc
ância r 2 , e são independentes do número de acidentes. D~tcrmine
de chuva. Suponha que o parâmetro i. seja uma variável aleatória
a média e a variância do número de indivíduos feridos em uma
que tcnhü distribuição gama com par[tmctros 'Y. >O c [3 = L i.e ..
semana. (Sugestão. Use o exercício 30. J
que sua densidade seja dada por
3~. Calcule E(XI21 i XIII'
xi31J' onde XII>· xl21 e xl31 são as estatística~
I .,
de ordem de uma amostra aleatória da U[O, I]. (Veja o exercíci.o
24(b).)
IW = r~'Y.J /.
{
i.< o.
33. Seja X uma variável aleatória com distribuição exponencial de
(a) Mostre que
parâmetro I. Seja 1 >O fíxo. Ache E( X I max (X, 1)) e E( X! min(X, 1)).
34. Mostre que se X e r são variáveis aleatórias, então P(X = kl = r(~;~~~ I) ( ~ )b', k =O, L 2, ...
F u(x. y) .:S: v Fx(x) F y(y).
(b) Usando métodos probabilísticos, demonstre que
(Sugestão. C se indicadores e Cauchy-Schwarz.)
f
.:..... (k + n - 1) -,kI -- _..,, , para· n -- I , 2, ....
35. Seja (X, YJ um vetor aleatório bidimcnsional. Suponha que (i)X • I ' I! ~
I
tem distribuição exponencial com parâmetro c (ii) para cada (Sugestiio. Calcule a esperança de X de duas maneiras diferentes).
2
-r-
= no X nu X ... = n(~ . 11
Aqui, w" é o resultado do n-ésimo ensaio do experimento básico. (0 tipo de convergência será visto adiante.)
Não vamos completar o modelo probabilístico para o experimento
globaL pois utilizaria conceitos da Teoria da Medida t: fugiria dos EXEMPLO I. Se você jogar uma moeda honesta n vezt:s, indepen-
propósitos deste livro. (Poderíamos comph:tar o modelo utilizando dentemente, e contar o número de caras obtidas. sn
para .w a a-álgebra produto t: para P. pda hipótese de indept:ndência
então ~" , a freqüência relativa de caras, convergirá para I í2 quando
dos ensaios. a probabilidade produto. O ícitor interessado pode con- 11
sultar qualquer livro mais avançado de probabilidade, tal como Feller 11 _,x. Esta conseqüência da Lei dos Grandes Números é bastante
[9]. ~1\'.6. Para uma di~cussào mai:. dcmcntar. no caso discreto. veja intuitiva c todo mundo a aceita sem maiores problemas. E claro que
Feller [8].. ~\'.4. é conseqüência imediata da dt:finição de probabilidade como limik
Já que vamos registrar um ct:rto característico numérico do re- dt: freqüências relativas, mas essa dt:finição não é a adotada por nós:
sultado do 11-ésimo ensaio, para todo 11. estart:mos registrando os va- Portanto, vejamos agora que este resultado realmente decorre da Let
lores de uma seqüência de variáveis akatórias. Com efeito, como dos Grandes Números enunciada acima.
X(w 0 ) representa o valor do característico numérico do resultado do O espaço amostrai do experimento global é o conjunto de se-
experimento básico k!u E 0 0 ), então, quando o resuliado da seqüência qüências infinitas de caras e coroas:
de ensaios for w = (í'J 1 , uJ> ... ). os valores observados st:rào X(rnd.
Xlw 2 )•.... É t:onveniente representar por X" o observado do n-ésimo
ensaiO. Assim, X" é função do resultado uJ do experimento global. com
X"jeJ) = X(w").
O característico numerico do resultado básico (c m1 c~) em que estamos
interessados é o indicador da propriedade de ser cara, i.e., X (c)= L
e no decorrer do experimento serão registrados os valores das variáwis X(c~) =O. Portanto, com X "(w) = X(w"), temos X"= I se, e somente
aleatórias X 1 , X 2 , .... Notemos que X" tem a mesma distribuição se, o n-ésimo lançamento dá cara (com X"= O se dá coroa). Em outras
de X, pois trata-se dt: uma seqüência dl: repetições do mesmo expe- palavras, a variável aleatória X" é o indicador do evento "'cara no
rimento. n-ésimo lançamento". .
Como as X" dependem de ensaios independentes, elas são inde- Como a moeda é honesta, Xn tem distribuição binomial com
pendentes. Como têm todas a mesma distribuição, são idellticamellte parâmetros 1 e 1/2: X- b(l, 1/2). Recordemos que os lançamt:ntos
distribuídas. Na literatura de Probabilidade. é comum dizer que X 1 , da moeda formam uma seqüência de "'ensaios binomiais" ou "'ensaio~
X 2 , ... são i.i.d. (independentt:s c identicamente distribuídas. Recor- de Bernoulli": a variável aleatória X" é, portanto, o indicador de
demos que são independentes, por definição, se X 1 , ... , X" são inde- "'sucesso" no n-ésimo ensaio, e S" é o número de sucessos nos pri-
pendentes para todo n ~ 2.). Se X 1 é integrávcl. então todas elas o são, meiros 11 ensaios. (F oi Bernoulli quem provou a primeira Lei dos
pois possuem a mesma distribuição, e EX" = EX 1 Vn. N~:ste caso. Grandes Números. justamente para ocaso de ensaios binomiais. Veja
como a Lei dos Grandes Números diz qut: o valor médio observado o Corolário do Teorema 5.1.)
~
~'
111
192 Probabilidade: Um curso em Nlvellntermediário A Lei dos Grandes Números 193
(j
Então, X 1 , X 2 , ••• compõem uma seqüência de variáveis aleató- Notemos que convergência quase certa é convergência pontual.
I~
., rias independentes e identicamente distribuídas, com esperança comum
EX" = I /2, e a Lei dos Grandes Números diz que
com probabilidade I - costuma-se dizer que Y.(w) converge para Y(w)
para "quase todo'' (1). Interpretando (!)E n como um resultado possível
,; de um experimento, a seqüência Y.(w) de característicos numérícos
s. X..L± o o o + X_!!_ -+ EX I de w converge para Y(w) para quase todo resultado w do experimento.
11 11 2 quando Y.-+ Y quase certamente.
No exemplo I (lançamentos de uma moeda honesta), as variáveis
Observação. De um modo geral, na Teoria da Probabilidade o espaço aleatórias Y, = ~· formam uma seqüência de característicos numéri-
amostrai em si é de menor importância que as relações
entre as variáveis aleatórias consideradas. Isto vale porque as pro- cos do resultado do experimento, pois se w = (w 1 , w 2 , •• • ) é uma se-
priedades de variáveis aleatórias são determinadas por suas distribui- qüência de caras e coroas (um resultado possível), então Y.(w) = I fn x
ções, inclusive distribuições conjuntas, independentemente do espaço (número de c's entre w 1 , ••• , w.). Será conseqüência da Lei Forte dos
amostrai no qual as variáveis são definidas. No exemplo I, o impor- Grandes Números que Y.-+ 1/2 quase certamente.
tante é que X 1 , X 2 , •.. são independentes e identicamente distribuídas Por outro lado, convergência em probabilidade não diz respeito
com distribuição comum b( L I /2). Poderíamos ter chegado imediata- à convergência pontual - apenas afitma que para valores grandes de
mente a essa seqüência sem ter passado pelo espaço n, através do 11 as· variáveis Y, e Y são aproximadamente iguais com probabilidade
'l seguinte argumento : bem alta. Convergência em probabilidade é mais fraca que conver-
Se X" é o indicador de sucesso (cara) no n-ésimo ensaio, então gência quase certa, já que
~ decorre diretamente das hipóteses (a moeda é honesta e os lançamentos
(.
convergência quase certa= convergênCia em probabilidade,
independentes) que as X n são independentes e identicamente distri- convergência em probabilidade =f convergência quase certa.
•
f
buídas. com x.- b(l , 1/2 ).
PR OPOSIÇÃO 5.1. Se Y.-+ Y quase certamente, então Y.~ Y.
A questão óbvia agora é a seguinte: de que tipo é a convergência Prora. Suponha que Y.-+ Y quase certamente e seja c >O fixo. Pre-
•.: afirmada pela Lei dos Grandes Números ? A resposta que será dada cisamos provar que
neste capítulo: convergência em probabilidade (a Lei Fraca de Khint- P<l Y.- y I;;::: f.)-+ o.
chin) e convergência quase certa (a Lei Forte de Kolmogorov). Con-
li sideremos, portanto, as definições dos dois tipos de convergência. Seja A 0 = {w: Y.(w)-+ Y(w)] . Por hipótese, P(A 0 ) =I. Para todo
I Sejam r. Y1 , Y2 , .•• variáveis aleatórias definidas em urn mesmo w E A 0 , I Y.(w)- Y(wll <c para todo n suficientemente grande. Seja
espaço de probabilidade (Q, .r;l, P) . A. o evento "para todo k ;;::: 11, l lk - Y I < r.", i.e.,
•
I D EFINIÇÃO 5.1. Y. converge para Y em probabilidade se para todo
A.= n [IYk -
'X
Y l<c ].
k =n
r c >0.
Se wEA 0 , 'então wE A. para algum n. Mas A. C An + l • logo
f Pli r. - y I ;;::: f. ) -+ o quando 11 -+ X o
A0 C U A. = n-tlim?' A •.
n ~ l
Notação. }'~.!.. Y
Portanto, I = P(A 0 )::;; P( U A.) e, por continuidade de probabilidade.
I' n? I
DEFI N IÇÃO 5.2. l;, converge para Y quase certamellte se PO;,-+ Y P(A.) i I.
• quandon-+ w ) = l.i.e.,sc oeventoA 0 = Y,,(w)-+ :w: Mas A. c [IY. - Y l<r. ], Jogo P( IY.- Yl <cl-+1 e P(IY. - Yl :<::
• -+ Y(w)J é de probabilidade I. ;;::: c)= I - P<l Y. - Y I <e)-+ O. D
•
•
-
t;
• 194 Probabilidade: Um curso em Nível Intermediário A Lei dos Grandes Números 195
• EXEMPLO 2. Uma seqüência de variáveis aleatórias que converge Dizemos que X 1, X2• ... satisfazem a Lei Fraca dos Grandn
• em probabilidade e não quase certamente. i\' úml·ro., se
'
f:
Seja X uma variável aleatória com distribuição uniforme no in-
tervalo [0. I]. e coloquemos os intervalos binários básicos de [0. I J
na seguinte ordem:
S., - ES,
11
-+ O em probabilidade,
l f,.,
2 +1
·=[i_2m' i-i-IJ
2m ·
lllt'ros se
S, -- ES,
I -+O quase certamente.
Então os 2"' intervalos de comprimento I /2" cobrem o intervalo ll
l
[O, I]. ao mesmo tempo que seu comprimento fica cada vez menor. ou. eq uivalcn1emente. se
• Definamos l;, igual ao indicador do evento [X E:/,], ou seja,
I
I
y
"
={I se X E/,
O se X rfc 1,.
(X 1 - EX,)+ (X2 ~EX z) -r ... + (X,- E_X,,)_-+ O quase certamente.
11
• (Notemos que S 1 , S 2 , ... também são variáveis aleatórias em (O,.ci, P).) mente.)
•
•
196 Probabilidade: Um curso em Nível Intermediário A Lei dos Grandes Números 197
TEOREMA 5.1. (Lei Fraca de Tchebycher). Sejam X 1 , X 2 , ••• variáveis ou, equivalentemente,
aleatórias independentes 2 a 2 com t•ariâncias finitas
e unfformemente limitadas (i.e., existe c .finito tal que para todo n, s,
---+
p
p. o
Var X n::;;; c). Então X I ' X 2• . .. sati.vàzem a Lei Fraca dos Grandes n
Números: A hipótese de variâncias finitas foi eliminada por Khintchin, que
S - ES P conseguiu provar a Lei dos Grandes Números no caso de variáveis
-"---,-"-__.O. independentes e identicamente distribuídas, supondo apenas integra-
n
bilidade :
Prora. Precisamos mostrar que para e >O,
TEOREMA 5.2. (Lei Fraca de Khintchin). Se X~> X 2 , ... são indepen-
dentes, identicamente distribuídas e integráveis, com
média comum J1, então
n
!>_,_-+ J1 em probabilidade.
Como Var S, = Var(X 1 + ... + X,)= L Var X; ::;;; nc. a desigualdade de 11
i= I
Tchebychev implica Prova. Omitida, pois o teorema já não tem muita importância (é con-
seqüência da Lei Forte de Kolmogorov). Porém, o método de
prova (truncamento) utilizado por Khintchin, aparentemente introdu-
zido por Markov, será usado na prova da Lei Forte. O
Obserl'açào. Pela Proposição 3.6, basta que as X, sejam rião-correla-
cionadas em vez de independentes 2 a 2.
COROLÁRIO. (Lei dos Grandes Números de Bernoulli, publicada em § 5.2 Seqüências de eventos e o Lema de Borei-
Ars Conjectandi. 171 3). Consideremos uma sequência Cantelli
de ensaios binomiais independemes, tendo a mesma probabilidade p de
"sucesso" em Gada ensaio. Se S, é o . número de sucessos nos primeiros Neste parágrafo, consideraremos o lema de Borel-Cantelli, uma
11 ensaios, então ferramenta das mais úteis na Teoria da Probabilidade e uma peça
sn -+ p em probabilidade.
importante na prova da Lei Forte.
Se A 1 , A 2 , .. • é uma seqüência de eventos, i.e., se A, c n para·
11
11 = I , 2, ... , o limite superior da seqüência é definido por
Prora. Seja OC· 0:
X
"
= {I se o 11-ésimo ensaio é sucesso
O se o n-ésimo ensaio é fracasso.
lim sup A,
n-+ rr.
= () U Ak;
n=l k = n
Se r•JElimsupA 11 , então r·JE U A~..'rln. Comli 1•Jt: U .1 1 .r•JEA,, Obsrrraçào. O item (b) não vale necessariamente sem mdepcndência.
k rl t.. 1 Por exemplo, seja A"= A Vn, onde O < ?1 ·I) < I. Então
' l:P(A 11 ) = x mas o evento [A" infinitas vezes] = A e P(A" infinitas
para algum k 1 . Mas <o E L.J Ak~ logo (!) ~ AJ..: para algun1 k:~ > k 1 .
k k, .._ I vezes)= P(A) < I.
'
Continuando, temos rtJ E U 4k, logo I"!.=: ..Jk, para algum k 3 > k 2 • Prcwa. (a) Se l:P(A 11 )< x. então I"- P(Ad--+0 qu;jndo n--+·x. Mas
1\ k_, -r j
k::;n
etc. Desta maneira obtemos uma seqüência crescenk de inteiros po- ,,
sitivos k 1 <k 2 <k 3 < ... , que dependem de r·;, tais que uJEAk,.Vn. [ .4 11 infinitas vezes] C U Ak Vn,
k.:: n
logo
Portanto. w pertence a um número infinito dos A".
Reciprocamente, st: oJ pertence a um número infinito dos Ali.
'
P( 41i infinitas vezes) ::; P ( UAk) I
k n
<.::;
k.:: n
P(Ad--+ O.
então r•; E U,I Ak. Vn,
k
de modo que 1u f lim sup A 11 • Concluímos que
Portanto, P(A 11 infinitas vezes)= O.
;t; E lim sup A 11 se. c somente se, w pertence a um número infinito dos .4 11 •
(b) Basta provar que P (.ú,. Ak) I Vn (pois [Ali infinitas vezes] ='
i\'otação. lim sup A,.= [.4 11 infínita~; vezes]. (Salientamos aqui· o t:vcntc·
"A" infinitas vezes" é o evenio "'ocorr2Lci''· dt: um número Íl' '
U Ak e a interseção de um número enumerável de eventos de
infinito dos A 11 ". Cada 4, ocorre ou não. portantc' é importante não fl l k 11
cair no erro de pcns:u em infinitas ocorrências de. por exemplo. A 1 .) probabilidade um, é também de probabilidade um). Para tanto, seja
f n-r-m
O evento lim inf A,. também tem uma interpretação intuitiva: é B,. = U A,. Então B, contém U Ak para todo m, e
k -_ n k n
o evento "ocorrência de A" para todo n suficientemente grande". Para
ver isso. note que (tJ E lim in f A 11 se. e somente se. 1•1 E ( 1 Ak para algum
k TI()
11 0= n 0 (il)), ou st:_ia. rtJ E Ak para todo k suficientemente grande (k 2': n 0 ). Logo para todo 111.
Caso lim sup A,.= lim inf Ali ·~I A. este evento é chamado limite de
A 11 e escrevemos A= lim Ali ou A,.-> A. Neste caso. P(Aii) comerge I - P(B,.) = P(B~) s P ("(in A~) =(pela independência)=
\. li
k~·n
?(.4~) =
n+m
O (I
k-~,n
- P(AdJ.
nas (a propriedade P6, ~1.1 ), como também para seqüências conver-
gentes neste sentido mais geral. (E.\crcicio. Mostre que se A,. i A ou Como I - p:::; e- P para O::; p::; I, temos
A"~ A. então A ~~ lim A,..)
n· ... .o
n+m
tos aleatórios em (!l.d, P). i.e .. . t 11 E.d Vn.
OC'
quando 111---> 'l_' pois I P(Ak)---> + 'l_ quando m--+ cJ._. Logo P(Bnl o= I
(a) Se L P(.4 11
) < I. então P(Aii infinitas rc:::es) =O.
k --"
• X" "' exp( l ), i.e., PROPOSIÇÃO 5.3. Sejam F 1 , F 2 , ... funções de distribuição quaisquer.
• FxJx)={~ -e-x:::~~, Então existem um espaço de probabilidade (Q,síl', P)
e uma sequência de variáveis aleatórias independentes X 1 • X 2 , ... , defi-
• nidas neste espaço de probabilidade, tais que F, é a .função dt:> distri-
• e seJa \/1" = ---
Xn para n > 1.
log n buição de X".
•
•
202 Probabilidade: Um curso em Nlvellntermediá rio A lei dos Grandes Números 203
X 1 , X 2 , • • • variáveis aleatórias independentes e iden- "J ~" l;?: k para um número infinito de n, para todo k", ou seja, é
ticamente distribuídas. Se E IX 1 I = + 'X.J, então, com probabilidade I,
a sequência
--- e' 1'I'1m1ta
... . - IX.!
o evento .. a sequenc1a
. 'fi1ca: w
. da. " (Isto s1gm E n B4 ~
n
n n .. ' .
~
IX.( -(l))-- I
------ ' . d a.)
e sequenc1a 1'J'1m1ta
não é limitada. n
Observação. A Lei Forte afirma que se as X" são integráveis, então Para terminar a prova, basta mostrar que se l X"n I é ilimitada,
§!!. converge para um limite finito (=EX 1 ) com probabili-
n então j ~.l também é ilimitada. Agora, com S 0 =O, temos
dade I. A recíproca diz que se as X" não forem integráveis, então, com n
I
n=l
P (~I_
k
;?: n) =
n=!
I P (-l!J.
k
;?: n) =
n=l
Í, P (__I!_,J_
11
;?: k), Vk.
se,
-
_Is. L também
11 11
ISn - li_
o c. (notemos que -"- ----- • para
r
1 .orma
11;?: -· a
n n- 1
Por independênc ia das X"' os eventos A. = [I ~-·1 J;?: k são inde-
mesma seqüência que I~. i_,
11
11 ;?: I). O
pendentes, e Borel-Cantel li implica
Prom. Recordemos a técnica usada na prova alternativa da desigual- Queremos substituir S~ por Sf no somatório (pois Sf 2: l- 2 em
dade generalizada de Tchebychev. que pode ser assim esque- A,. e não vale necessariamente 2: /. 2 ): o truque é escrever s;
matizada: S~ = (S, - S, + Sd 2 = (S" - Sd 2 + S~ + 2(S" - S.)S,
2: Sf + 2(S" - Sd S,.
Portanto.
tantu. seja A= [ max S~ 2: /. 2 ]. \'amos decompor A conforme a pri- Es; I A. 2: ES~ 1A, 2: (pois Sf 2: /. 2 em A.J
t ._- k ~ "
2: E). 2 I A. = i 2 P( Ad.
meira vez que Sf 2: /. 2 : definamos
Por (5.1 ).
n
Es; 2: L 1.
k · I
2
P(Ad = i. 2 P(AJ.
11
logo
Então os Ak são disjuntos 2 a 2 e A =
k
U A.:I
I , I
P(A) s ~-2 ES~ = . 2 V ar S,. O
I. /,
I·
I'
{
I
• 206 ProbabiHdade: Um curso em Nivellntermed iário A lei dos Grandes Números 207
(1)· f
L..
n=l
P ( M.;;::::: - I) <
m
oc , Vm = I, 2, ... (usaremos a desigualdade Portanto,
16m 2
L"· P(A.) ~ - -
Var X
L-
'X.
-k <
2
oo (por hipótese).
de Kolmogorov). e n= I 3 k= I k
(ii) M.-+ O quase certamente (por Borcl-Cantelli).
Prom de (i). Seja m fixo. Então, para todo 11, Prora de (ii). Com a mesma notação de (i), temos P(A. infinitas ve-
zes)= O, por Borel-Cantelli. Em outras palavras, para
P
( max IS
I ;;::::: -
.EU I) ~ P ( max ISk I ; : : : 2")
- todo m fixo a probabilidade é O de que M. assuma um valor ; : : : 1/m
2"<k :S 2" ' ' k m 2" < k :S 2" ' • m infinitas vezes. Isto significa que para todo m, a probabilidade é I
de que M. assuma um valor ; : : : 1/m para somente um número finito
de n's. Fazendo
I . fi .
Bm = "M. assume um valor;;::::: - para somente um numero m1to
onde vale a última passagem pela desigualdade de Kolmogorov. Se m
definimos de n's",
A. = [ max
2U < k :S 2n + l
~- > _!__] = [M
k - m
>
ft-
_!__]
nt ~'
208 Probabilidade: Um curso em Nlvellntermediário A Lei dos Grandes Números 209
f
Para terminar a prova, basta observar que o evento Í) Bm é equi- LEMA 5.1. (Este lema será usado na prova do teorema a sc:guir.)
m I
Seja X uma wriát,el aleatória integrál'el com função de
valente ao evento [M,~OJ. Para ver essa equivalência. notemos que:
distribuição F. Então,
}\,f n 2 oe portanto: (I) E n Bm
I
~
m'- 1
n~ I
Í {-~I" 2
x dF(x)} < x.
~ Vm, M ,((I)) 2 I /m para somente um número finito de n's 11 -n
~ Vm. Os M,(w) < I .'m para todo n suficientemente grande Obserração. Lembre-se de que o extremo direito está incluído no
~ A1,(w) ~O quando 11--> Y~. D intervalo de integração e o extremo esquerdo não está,
COROLÁRIO. A Lei Forte é satisfeita por toda sequência de mriáreis ou seja, J"-, x 2 dF(x) = J1 _ n. , 1 x 2 dF(.x) (veja os itens 9 e I O do §3.1 ).
aleatórias indepe11dr11tes c unifórmrmelltc limitadas. o lema ainda vale quando a integral é substituída por St- n. n] x 2 dF(x),
e a prova é quase a mesma.
Prora. Se X 1 • X 2 •... são uniformemente limitadas. então existe c fi-
nito tal que IX ,.I~ c \111. Neste caso, Var X,~ EX;~ c 2 e. como Prrm1. Vamos utilizar o seguinte jàto: para j = I, 2, ... ,
as variâncias estão limitadas, a condição do teorema está satisfeita. D f I .,
L2 S~·
EXEMPLO 5. Consideremos uma seqüência de ensaios binomiais in- n • i 11 ./
dependentes, com probabilidade p,. de sucesso no n-ési- (Prova do fato: para 11 = 2. 3, ... ,
mo ensaio. Se X, é o indicador de sucesso no 11-ésimo ensaio, então
X I, X 2, ... são independentes e uniformemente limitadas X n i ~ I 11 ). (I v < -
Portanto. decorre da Lei Forte que n2 - 11(11 - I) 11 - I n
logo
P1 +- ··· + -p,. -->
-
U quase certam.:nte,
11
I
{
11 ~n
.x 2 dF(x) = } L' _ Ln
no·IJ"-n+l
{ I
-i
11
il
J~l
_ x df(x)
2
} =
I /2 + I /6 + ~
11
+ + p, =
j
''{lij
L L
I n "' 1
--i .
11 1 I
.xz dF(x) ~ } f~ " f F
ÍI {~~fi
j [+ I 11 j- I
X
2
dF(x)l
f
(Com probabilidadr: I, a diferença entre estes dois valores convergirá
para zero quando n ~ x .)
~(pelo fato)~ 2 J' IJ1 1
.
1
xz
·j dflx) + 2
1
Lo
f,-I
j
~ .
\2
1 J,1 + I
~ - df(x).
21 O Probabilidade: Um curso em Nlvellntermediário A Lei dos Grandes Números 211
2
Como -'_ ::; x em U-1,j], parai 2: 1, e . ·: -::; lxi em U- l.j]. (b) -Y_1__ +__.._. _+___ }~ _ EY1 + .. _._+ _E_Y,'-~O
- ~ quase certamente ( L e-
J ,} 1
1 1 n 11
para j S: O, temos ma 5.1 e Teorema 5.4).
I~ { -12
n••1
f"
n .-n
2
x dF(x) } S: 2 I r}
f
jo1.J-1
xdF(x) + 2_
j
I() rj
.1
lxldF(x) =
nada).
(c) E + .-..- -+- -E- -Yn- - + O (pe Io T eorema da C onvergenc1a
-- Y1-----
n
' . D omJ-.
= 2it J f lxl 1
dF(x) = 2 .f." J lxl dF(x) = 2EIXI < x. 0 (a), (b) e (c) implicam o teorema pois basta somar os três termos
na interseção dos eventos quase certos de (a) e (b): sejam
ll
+ z:~----> o] e B =-c [
-
Y~_ + .. ·_-f- }~ - E y 1 + · · · + ~-~' __. O~,
11 n -
riáreis aleatórias independentes, identicamente distri- então
buída.\ e integráreis, com EX,. = Jl. Então
X1+ ... +Xn
+ - X,.-----> Jl P(Al= 1, P(Bl= I, P(A r. Bl= 1 e -- - -- -• Oem A n B.
quase certamente. n
n
Prora de (a). Por dcfiniçcio, Z 11 # O-~~ }~ # X,.= X,. E ( -11, n]. Logo,
(Já vimos no Teorema 5.3 a recíproca deste teorema.)
P(Z" #- 0) = P(Xn1(-n, n])::; P(iX,.I 2: n).
Prom. Basta supor Jl O. (No caso geral. seja U,. = X,. - Jl. Então as
=
variáveis aleatórias U,. são independentes e identicamente dis- Mas os eventos A,.= [Zn #O] satisfazem
tribuídas e EU"= O. Se J f
Lrr Var Y.
--2-"- ~ Loc 1
-T
f" x 2 dF(x) < x,
Ocorre que o caso dos racionais é um tanto patológico, pois
n=l n n= l n
-n
x1 + ... +x. -+ _!___para quase todo x ("quase todo" em relação. à me-
n 2
pelo Lema 5.1. Segue-se da primeira Lei Forte de Kolmogorov que
as Y. satisfazem a Lei Forte, e (b) está provado. d1.da d e Lebe sgue, I.e.,
. .
o conjunto d os x tais
.
· que -
n
. +-x.- -1
x 1-+-..- +
2
Prm 1a de (c). É suficiente demonstrar que E}'~-+ O. Mas . N x 1 + ... +x.
tem compnmento zero). otemos que - - - - -+ - - se, e somente
1
. n 2
EY. = E(X.Jl - n<Xns nJl = (são identicamente distribuídas) =
= E(X,Jt - n<x, s nJ)-+ EX,= O, se, (1 - x d + ... + (1 - x.) -+ -1, dc mo d o que a frequenc1a
.. • · re 1ativa
· de
n 2 ·
pelo Teorema da Convergência Dominada. (0 teorema é aplicável, O's também converge a I /2 para quase todo x. Um x que tem essa pro-
pois j X,J 1 - n < x ,snJ I ~ f X 1 j integrável e X 1 / 1_n<x, s . 1-+X 1 em toda priedade é chamado de número (simplesmente) normal com relação à
parte. Notemos que [ - n < X.~ n] = :w: - n < X dw) ~ n}l O, de base 2 (x seria normal em relação à base k, para k inteiro ~ 2, se 1/k
modo que I, _ n<X, Sn)(w)-+ I 'v'w.) D fosse o limite da freqüência relativa de j na expansão de x na base k,
para j = O, 1, ... , k - 1). Provemos agora que quase todo número per-
Observação. Consideremos um evento aleatório A associado a um tencente a [0, 1] é normal com relação à base 2.
experimento E, tal que a probabilidade de ocorrência de A,
quando se realiza o experimento E, é p. Se o experimento é realizado Seja n = [0, 1], d =.sito. I)= borelianos de [0, 1], p = probabili-
independentemente 11 vezes, e se s. é o número de ocorrências do dade uniforme em [0, 1] (=medida de Lebesgue). Definamos uma
evento A nessas n realizações, então S. in-+ p quase certamente quando seqüência de variáveis aleatórias :
n-+ oc. S.Jn é a freqüência relativa de ocorrência de A nos n ensaios.
Esse resultado, um caso particular da Lei Forte de Kolmogorov e X ={O em [O, 1/2)
1
também da primeira Lei Forte de Kolmogorov (veja o exemplo 5), I em [ 1/2,. I ],
é devido a Borel, e pode ser formalmente enunciado da seguinte maneira : X ={O em [0, l/4)u [1 /2, 3/4)
2
I COROLÁRIO. (Lei Forte de Borel, 1909). Sejam X 1 , X 2 , ... indepen- 1 em [1/4, l /2)u [3/4, 1],
I dentes e identicamente distribuídas tais que P(X" = 1) = p,
(
P(X. = 0) = 1 - p. Então S./n-+ p quase certamente, onde S.= X 1 + etc. Então X .(x) = x. e é fácil ver que as X" tem mesma distribuição,
I
( + .. . + X •. com P(X. =O)= 1/2 = P(X. = n
I Além disso, elas são independentes, pois, por exemplo, P(X 1 = 1,
EXEMPLO 6. Números normais (Borel, 1909). Seja x E [0, I] e seja
O, x 1 x 2 x 3 ... a expansão binária de x, de modo que X l = lf=P([3f4, 1])= I/4 =P(X 1 =I) P(X 1. = I.). Como EX.= 1/2, de-
214 Probabilidade: Um curso em Nível Intermediário A Lei dos Grandes Números 21 5
corre d a L e1. F orte que X 1 + ... +X"- __, quase cer t amen t e. ou scp
· . finita o resultado vale para quase todo x. Como existe um número
11 2 enumerável de seqüências finitas de O's c I 's, segue-se que quase todo
x 1 + ... +x. x é inteiramente normal com relação à base 2. (Definição: se 1/2'" é o
· --- ----> I · para quase to d o x.
11 2 limite da freqüência relativa de b 1 ... bm na expansão binaria de x,
Agora perguntamos: qual o limite da freqüência relativa de "li" para toda seqüência ô 1 ... (i'" de O' s e 1's, e para todo m ;:::: I, então
na expansão binária de x? Queremos dizer: se .l'n = I quando x,. = I = dizemos que x é inteiramente normal com relação à base 2.) Para
. . qua I o 1·. r 1 + ... +l'"'l(0b ver isso. basta fazer A,,, "m = {x E [0. I]: 1.'2'" é limite da freqüência
= x.+ 1 e y,. = O caso contrano, Imite d c'""--·-······· · . serva-
li relativa de b 1 .•• Ôm na expansão binária de x}. Como P( A,, ,n,) = I
ção: se a expansão de x começa com 0,0111011 então y 1 =O, y 2 =I, Vô 1 ••. i5"' e Vm, temos P( n A,, ,J = I, logo quase todo x é intei-
y 3 = I, y 4 =0, y 5 =0, Yt.= 1.) Resposta: 114 para quase todo x! ramente normal com relação à base 2.
A prova disto é só um pouco mais complicada que a anterior: O mesmo resultado vale para qualquer base k;:::: 2: quase todo
definimos };, = X n' X"+ 1 , 11 = I, 2, .... Então as variáveis aleatórias };, x é inteiramente normal com relação à base k (i.e., a freqüência relativa
são identicamente distribuídas, com P(l> I )o= P(X,= L X n+ 1 =I)= I.A de b 1 ..• (\, tende a 1/k"' Vbi =O, I, ... ,k- I, Vj ~I, ... m, Vm;:::: 1). Se
e ?(}~=0)=3/4. mas não são inde~ndentes (por quê?). Porém. Y,. x é inteiramente normal à base k para todo inteiro k ;:::: 2, x é chamado
Y3 , Y5 , ... são independentes, como também o são }2. }~. }; ...... absolutamellle normal. Então o resultado de Borel é que quase todo
Logo x é absolutamente normal. (Não é fácil encontrar um tal x. Qualquer
racional não serve, pois a expansão se re~te. Exemplo de número
r1 + r_~ + r, -t ... + r211 i_ --> quase certamente inteiramente normal com relação à base 2: x = O,OIIIOOIOIIIOIIIIOOOI
ll 4
IOO! ! .... )
e
}2-r}~+
·· ··
...- +Y ,
·· ·· 2 · __.
I
quase certamente.
ll 4
Segue-se que
Y1+ Y.1+ ... + r211 _1 . . . . Y2 + r.. + ... + ~·211). ..... EXERCÍCIOS DO CAPÍTULO 5
2n 2 ( ll ll
. I
_... quase certamente. ~5.1
4
Como convergência da subseqüência correspondente aos números pa-
res já determina convergência de toda a seqüência (pois I. Seja A 1 • A 2 .... uma seqüência de eventos aleatórios em (Q, d, P),
com indicadores IA,• IA,, .... Mostre que P(A 11 )-->0 se, e somente
p
se, I An _... O.
quando11--> x,se'Y.>-~.
-
(Dado:
.
I
k' 1
k2 =.iU_+II~2 i!-Jl ·)·
6
para 11 =I, 2, ... , Demonstre que X, con•:::rge quase certamente
(ache o limite X 1. mas EX';+ EX'" quando n--> x, para todo
m = I, 2, ....
~5.2.
I I. Sejam X 1 , X 2 • . . . variá veis aleatórias.
5. Seja S uma seqüência finita de caras e coroas. Demonstre que se (a) Demonstre: se I
11"- I
P([X,[ > 11) < x, então lim sup [X,L
11
s
uma moeda não necessariamente honesta (com probabilidade de
quase certamente.
cara igual a p, O < p < I) for jogada independentemente um nú-
(b) Se as X, são identicamente distribuídas e integrá veis, demons-
mero infinito de vezes. então S sairá infinitas vezes na seqüência
obtida, com probabilidade I. tre que
lim sup -'X
1 I
- " - s I quase certamente.
6. Sejam X 1 , X 2 , ... variáveis aleatórias independentes tais que X,
11
tem distribuição U[O, u,] onde u, >O. Mostre:
(a) Se u, = 11 2 , então com probabilidade I. somente um número 12. Sejam X 1 , X 2 • . . . variáveis aleatórias independentes e identica-
finito das X, toma valores menores que I. mente distribuídas tais que X 1 - U[O, 1]. Prove que 11-x"-->Ü em
(b) Se a,= 11, então com probabilidade L um número infinito das probabilidade. mas 11-x" não converge quase certamente para O.
X, toma valores menores que I. (Sugestão para a parte quase certa: prove que ?(11- x "--> 0) = 0.)
13. Prove que para cada seqüência (X,),. 1 de variáveis aleatórias em
7. Sejam X 1 , X 2 , ... variáveis aleatórias independentes tais que (Q, .cl, P), existe uma seqüência (b,),, 1 de números reais positivos
P(X,= I)= 1;11, P(X,=O)= I -l;'n. Mostre que X,~O mas
P(X,-->0)=0. tal que X-"--->O quase certamente. (Sugestão. Mostre que para cad:1
b,
8. Observa-se uma seqüência infinita de lançamentos independentes 11 existe h, tal que P([x,[ > ~~-) < ~ 2 -)
de moedas. onde o 11-ésimo lançamento é duma moeda com pro-
babilidade p, de cair "cara". Determine a probabilidade de cara
sair infinitas vezes na seqüência observada. se ~5.3.
I 5. Demonstre: se X 1 • X 2 , ... são independentes e identicamente dis- -, .. Uma massa radioativa emite partículas segundo um processo de
tribuídas, com EX 1 = I = V ar X 1 • então Poisson com parâmdro i. >O Sejam T 1 • 7~ .... os tempos trar~s
I
--:======----> --;::_quase certamente
n i') ..' 1. Sejam X 1 , X 2 , ... independente~; com distribui;,:à() comum .'\'(0, li
jn L Xf v-
Qual o limite quase certo d,·
\ i 1
Xi -,- . + };·~ ')
16. Seja O< O< 1;2. Prove que se X 1 , X 2 , ... são independentes tais (X 1 ~- 1( + ... + (X, ·- I r'
que P(X, = 11°) = 1/2.= P(X, = -11 11 ), então
XI+ ... +){, o quase ' ' Sejam X 1 • X.' . ... variáveis aleatórias indq1L:ndenks tais que À, ·•
--'----~---> certamente. r· [O . f/ J• /1 = 1, -·.
L "' .. Cham~ l' n-ésim·:) ensaio de sucesso se X-,,> •
11
X 211 1 , ji·acu .. s<' Sé: X 2 , S:: X ê, 1 • pari! n = I. 2, . . Dcterr:1in,· a
17. Sejam X 1 • X 2 .... variáveis aleatórias independentes com densida- probabilidade d:: !'Javc:r st;ces·;,, no 11-ésimo ensaio e ache o limite
de comum ise exisiir) de S, n. onde S, númc:r·::~ de sucessos no:-; prin·;ciro~,
11 ensaios. Ess·:; limite l~ limite em probabilidade C/OU quac>c cato''
o-(.\
f._
o 1 2. 1 \
'.
> _ 1;'1
- /--
f(x) o= :'I. A Lei Fortepara varián:is akJtórüs indeperdcntes, idl:nticamenL.
{
0, .\ < 1/2.
c inttgrá vcis pode ser estendida ao caso de cspcr ança~.
distribuídas
infinitas. s~:
admitirmos limites infmiws Em particular. st~ X 1.
Demonstre que S,.-• +x quase certamenk. onde S,= X 1 + ... +X,.. X 2 , . . . são
independentes c iden! icamente distribuída-; tais que
l H. Sejam X 1 , X 2 • ... independentes e identicamente distribuídas com EX"= + r_. então 5 11 '/1-+ -t :r. quase certamentl~- (Compare cont
média p 1 e variáncia ai, e sejam 1'1 , Y2 • ... independentes c identi- o Teorema 53. Qual a difere'1Ça '')Prove esse resultado em 3 et<~pa~::
camente distribuídas com média 11 2 e variáncia a~. onde O< a f <·r. (a) Param inkiro positivo fixo. seja 1;, o truncamento de X,. em m
e O< a~< x. Defina-se uma seqüência de variáveis aleatórias
Z 1 , Z 2 • . • • da seguinte maneira: joga-se uma moeda honesta e . _{·x,. se
}" -· o
X,. S:: m
x· ,
define-se Z 1 = ),: 1 se dá cara e Z 1 = Y1 se dá coroa. Depois joga-se se > m.
a moeda de novo. definindo-se Z 2 = X 2 se dá cara e Z 2 = } 2 se
- }'I + + };, _:, EY1 quase certamente, onde
dá coroa, etc. (ad infinitum). Suponha que todas as X's e }''s são E ntao -
li
independentes e que os lançamentos da moeda não dependem das
X's e }"s. Explique se a seqüência Z 1 , Z > ... obedece à Lei Forte
dos Grandes Números. Se obedece. qual o limite de
- = zl
z, + ... + z,..1
11
(b)liminf "2>:
n ..... 1
s
11
I""'
.. - .1
xdF.\,(x)quasecertamente.(Sugestao:À,2':}wl
- ' .
(c)
s"-+ +:r. quase certamente. (Faça m-+ + :t_ em (b)\
19. Sejam X 1 ,X 2 • ... variáveis aleatórias independentes tais que.\.'.~ 11
~ h(n,, p), onde O< p < I (p fixo).
24. S~jam X 1 • X 2 . ... variáveis aleatórias indep,:ndente,;, idt:nticam:ntt
"
(a) Qual a distribuição de S,. .·.= I X"'> distribuída~ c integráveis. Determine lim E{Xtl X 1 -J. -r >:,,i
rr ___.. r
k l
(b) Se n" S:: ".: k. mostre que a seqü~ncia satisfaz a Lei Forte. Qual o tipo de convagt:ncia '.'
Probabilidade : Um curso em Nlvellntermediá rio
CAPÍTULO VI
220
25. Seja (X nln ~ 1 uma seqüência de variáveis aleatórias. cada qual to-
mando valores O ou l. Suponha P(X 1 =I)= 1/2 e P(X. +1 =X. I FUNCÕES CARACTERÍSTICAS E CONVERGÊNCIA
I X I =X I, ... , X n = x.) = 1 -a.. para todo (X I ' .. . 'Xn). n = 1. 2..... . EM DISTRIBUIÇÃO
1 n
Faça-se Y. =-L X;. Discuta se Y. -+ 1/2 em probabilidade ou
n i=I
quase certamente quando
(a) a..= 1/2 Vn, e
(b) I:a.. converge.
26. Sejam X I' X 2 • ..• independentes tais que EX n =o Vn. Demonstre §6.1 Funções características
J:
que se L Var X.< oo. então E(sup IS.Il < 'l., onde s. = X + ...
1
Neste capítulo estudàremos o conceito de convergência em dis-
n=l n> t
... + X •. (Sugestão. Use o critério para integrabilidade do §3.3 e tribuição de seqüências dé variáveis e vetores aleatórias. Uma ferra-
a desigualdade de Kolmogorov.) menta de grande utilidade para este estudo é a função característica.
O resultado mais importante deste capítulo é que uma seqüência de
variáveis aleatórias converge em distribuição se, e somente se, a se-
qüência de suas funções características converge pontualmente para
·a função característica do limite. A definição de convergência em dis-
tribuição será dada no parágrafo 6.2; nesta seção, veremos a definição
e algumas propriedades básicas de funções características.
Embora funções características assumam valores complexos, não
· é preciso ter muita familiaridade com números complexos para poder
trabalhar com elas. Isto ficará claro durante o decorrer da discussão
desta seção. Neste capítulo, o símbolo i representará sempre o núme-
ro imaginário J'=T.
Se X e Y são variáveis aleatórias em (Q,.w', P), então Z =X+ iY é
chamada uma rariárel aleatória complexa. Notemos que Z é uma fun-
ção definida em n e que· assume valores complexos, com Z(w) =
= X(w) + iY(w) para w E Q. A esperança EZ é definida por lineari-
dade, EZ =EX + iEY, se EX e EY são finitas.
Pela formula de Euler eix = cos x + i sen x. x E IR, vemos que a
variável aleatória complexa e;x = cos X+ i sen X sempre possui espe-
·rança finita, para toda variável aleatória X, pois as variáveis aleatórias
cos X e sen X são limitadas. Assim, a esperança na definição seguinte
é finita, e garantimos que a função característica está bem definida.
DEFINIÇÃO 6.1. Seja x· uma variável aleatória. A função caracte-
. rística de X é a função cp : IR-+ C definida por
cp(t) = ({Jx(t) = Eeirx.
11
222 Probabilidade: Um curso em Nivellntermediério Funções Características e Convergência em Distribuição 223
•
I
(
onde definimos
• EeitX = Ecos( tX)+iEsen(tX), t E IR .
Prova. cos(- tX) = cos(tX) e sen(- tX) = - sen(tX), logo
n cos(at) , _ , sen(at) ,
l
A equação significa <Px, +·· · +X"~t)= n <Px.(t), 'v' tER Para todo a E IR, - - - e funçao 1mpar e - - - e par, 1ogo
k~I t t
(
(
t
u cos(at) dt = O e f" sen(at) dt = 2 [" sen(at) dt, 'v'a E IR.
t
FC6. A função característica de uma variável aleatória X determina a
função de distribuição de X. Já vimos a recíproca: a função ca-
f-u t -u t t Jo
I ' racterística é determinada pela função de distribuição, pois ({Jx(t) = Por isso,
= J e1'x dF x(x). Como conseqüência, temos F x =Fx ~ (/)x = <py, de
modo que a função característica é uma representação da distribuição. /(u) =f~"' {2 J: senr(;- x) dt- 2J: senr(;- y) dt}df(z) =
I (Duas funções são iguais se, e só se, assumem valores iguais em cada
(
I ponto; então (/)x = (/Jr significa (/Jx(t) = <py(t) 'v't E IIH = (pelo teorema 3.1) = Eg.(X),
(
onde
Esta propriedade decorre da fórmula da inversão: seja X uma va-
riável aleatória, F sua função de distribuição, <p sua junção característica.
g.(z) =2
]o
[" sen t(z - x) dt - 2
t
r sen
Jo
t(z - y) dt.
t
Se x e )' são pontos de continuidade de F tais que x < y, então · Agora queremos aplicar o Teorema da Convergência Dominada
quando u-+ oo. Para isto, basta provar que existe uma variável aleató-
(
111
F(y)- F(x) = - li lim f" e - it x - e-ity
. <p(t)dt. ria X 0 tal que g.(X)-+ X 0 em toda parte, e que as variáveis aleatórias
tt 2nu- oc -u lt
( g.(X) são dominadas por uma variável aleatória YintegráveL Primeiro,
(Para x <v em geral este limite é igual a F(y)+ F(y-) _ (F(x)+ F(x- )) ) recordemos a integral clássica de Dirichlet:
. ' 2 2
Pro1-•a da fórmula da inversão. Sejam x e y pontos de continuidade
.
.
llmi"
·-oc. o
sen-t dt= -
-
t
n.
2
de F, x < y. Para u >O, a integral do termo à direita é uma integral
iterada:
Daí podemos calcular hm . i"
u-oc. O
sen-
- at dt para qualquer a E IR:
t
u-sen(ar)
- · d t = la• - l" -sen(ar)
Como
a >0~
iu
0
l
sen(ar) d
sen t d
-
O
l"
t
t~
sen( -at) d _
l"1m
u-oc· O
. - - dt = 2'
l
i-au sen
n
l l"
a<O~ ---t=- t-- t dt .
-- ~
( o t o t o t
. e - irx _ e -ity
I (6.1)
( hm . = y- x, . sen(at) d
r-o 11 ~ llm --- t n
= - 2'
u- oo O l
(
I
define-se o integrando como y - x quando t = O. Neste caso, o inte-
grando da integral dupla é limitado e _contínuo na região de integração
(z E IR, tE [ - u, u] ). Já que o integrando é integrável nessa região (pois
l.
a= O~1m
u- oo
l" O
- - -dt -
stm(at)
l
_ .
0
(
226 Probabilidade: Um curso em Nivellntermediário Funções Caracterlsticas e Convergência em Distribuição 227
Em outras palavras (recorde que x < y), (Ocorre que não costum·a ser prático obter-se a função de distri-
buição através da fórmula da inversão.)
/
~ :~ ~:;
lim gu(z) = ·2n se x < z < y
u- oc n se z = y FC7. A variável aleatória X tem distribuição simétrica em torno de zero
se, e somente se, tp x(t) é real para todo t. (Por definição, X tem
O se z > y.
distribuição simétrica em torno de zero se P(X :$ x) = P(X 2':: - x), Vx E IR.
Em termos de variáveis aleatórias, temos As vezes, dizemos neste caso que X é simétrica em torno de zero.)
Prova. X é simétrica em torno de zero' se, e somente se, P(X :$ x) =
= P(- X:$ x) Vx, i.e., F x = F _ x e X e -X são identicamente
distr:ibuídas. Mas F x = F_ x =- tp x = tp _ x, de modo que X é simétrica
Temos também que as integrais J~ (~en(at))/t dt são uniformemen- em torno de zero se, e somente se, para todo tE IR,
te limitadas em u e a: para todo .aE IR (veja as fórmulas (6.1)), IPxU) = IP - x(t) =(por FC3) = IP - x(- t) = Eeil tH x, = Eeirx = tpx(t).
IJof" sen(at)
t Jo t
11 >0
< 00,
=- Vt, IPxUl é real. O
FC8. Se Y = a X+ b, então tpy(t) = eirb IPx(at).
pois a função j(u) = J~ (sen t)jt dt é contínua em [0, x) (j(O) = 0) e tende
Prova. tpy(t) = Eeit(aX+b) = eirb Eeiarx = eirb CfJx(at). O
a um número finito quando u-+ e~:.,, Logo, as funções 9u são limitadas
por 4M e as variáveis aleatórias g11(X) são dominadas pela variável FC9. Se E IX I" < x, então tp x possui n derivadas contínuas e
aleatória Y~ 4M. Aplicando o Teorema da Convergência Dominada,
temos
tp~ 1 (t) = J (ix)k eirx dF x(x), k = 1, 2, ... , n.
Em particular, tp~ 1 (0) = ikEX\ de modo que a função característica é
lim Eg..(X) = EX 0 = nP(X= x) + 2n P(x <X< y) + nP(X = y). uma espécie de função geradora de momentos.
u-+ o:
I•
228 Probabilidade: Um curso em Nivellntermediário
Funções Caracteristicas e Convergência em Distribuição 22S
11
C oml~ (e; ' - I ); h --+ ix quando h --->O, 'r/x E lii, temos
com X ~ Poisson (I.J c Y = Poisson (sl. então X+ Y - Poisson (; + , l.
_ ) (;,+.::H c' r 1)
( il!.\ I) Basta aplicar a propriedade f·C5: Cf>x+rU)=<px(t)<pr(t =c ·
e;'x. e -_ _ -------+ iX e;rx
h /i-+0 . i.e., a função característica de X + Y é a da distribuição Pmsson (}_ + J_ s
Pelo Teorema da Unicidade, X+ Y- Poisson () + ~).
Mostremos que estas variáveis aleatórias estão uniformemente domi-
nadas. Já que para todo x. EXEMPLO 2. Seja X - N(O, I). Então
I
eihx- I
--- =
I I-s:')-ix-ej'-'-ds- li s:') cj'-'
= lx/· i' - -- ds I
5 /x!,
cr>xtc) = le;,, dFx(x) =
J
1
.,-
~n
f' _eirx-x>z d.x =(completando o
h I . h
1
'-) e ' · dx c .
pois /c;"'/= I, temos /e;'x. Como IX: é integrável. ,;_n
o Teorema da Convergência Dominada implica que onde verificamo~~ a última equação da seguintt: maneira:
~I/ - it
= J ix e;,, dF(x ).
tr .... 1 ., 1 __ n __ it
Decorre também desse teorema que <p'(t) é contínua em t, pois
ixe;,, = lim ix e;'-' e lix eisxl = /x/. onde o inkrvalo d;; integração nesta última integral (para 11 fixo t:
s -r
I> 0) é /1:
O restante da prova vem por indução em n, e é deixado para o
leitor. O
-n o n
-n- it n-it
I. e.,
I · n - it
e- =2 / 2 d: = §6.2 Convergência em distribuiçã o
basta provar que f 1,. - =.. o d-- e., .f1, c· --=--.· d:: tcndl:m a zero quando
'
21:. da convergência quase certa.
DEFINIÇÃO 6.2. Sejam X, X 1 , X 2 , ..• variáveis aleatórias com, res-
. .1.- pectivamente , funções de distribuição F, F 1 , F 2 , ••..
11-+ x (ass1m estara provado que q; -(I)= e- ' ' 2 1 > u p . .
método é :I , . . , . À • • ara t < 0, (_) x. converge em distribuição para X, quando n-+ Y.., , se F.(x)-+F(x)
. , ana o~o, a umca dtferença sendo qut: os inkrvalos 1. e 1._.
mvertem de sent1do · Aliás·. e' .sufi~.... 1· ~;·nt ~;, no 1ar
. .. . . . •· para todo x ponto de continuidade de F.
_ q uc ,\ simctnc:i = cp -(f)=
- <Px(- t). Para t =O, o resultado é óbvio.). .I
Notação: X • .!!. X ou X • .!!. F. Também dizemos que X. conrerge em
lei para X e escrevemos .Y'(X .J--+ i!'( X).
:rovaremos que L. e · =-'·' d:; __,O: a prov:1 de que 1· 1 , _.- , 1J- __, \·1
é anal o C · ,• - ' O seguinte exemplo ilustra por que a definição requer convergên-
ga. _ ?.11_1~ o compriment o do inter,·alo f;- é 1, bas!J prov<J:· cia apenas nos pontos de continuidade de F.
d
· que max /(' - -_-1 ..... () qlldl10/i-- tf.
=, I '
EXEMPLO 4. Seja (Q .>Y', P) um espaço de probabilidad e qualquer.
~ar~:::=n\Ín- O::::; s::::; r. temos:~= 11 ;- - - .,~ - -..,,J.~[· e• t • - =' Para todo n =I, 2, ... , seja X. a variável aleatória
(s· - n·) o c is. onde:
I .I constante ljn (i.e., X.(w)= 1/n VwEíl), e seja X igual à constante O.
=e -c·· orno ,e" I= I 1::/t, temos /e _".' )= e" · . ,.-,;-_ Portanto,
Intuitivamen te. X n teria que convergir para X segundo qualquer cri-
tério razoável de convergência . De fato, é fácil ver que X.-+ X quase
certamente e X"!. X.
A função de distribuição de X" é
~Segue-se da propriedade FC8 que se y =a X+ p. onde X ~ 'V((J· I)· I
, E m outras palavras. se }' --.. V( 2
entaocp (r)- e"um ( r) =e i,,, _,,,, -. se X~ - --
~ 1 - . 'f" X a .
entaocp(r)- 1' "~'-" '' ·· 2 N . Jl.a). F.(x) = 11
gdF. -L~i+
1
Daí, temos para todo n suficientemente grande. (=q>~ logo F=G e, em particular, F.,.(x)-+G(x)=F(x). Mas F.,(x)-+
se essa condição como definição de convergência fraca. (Nota. Con- (ii) a F do item (i) é função de distribuição.
vergência fraca de funções de distribuição nada tem a ver com a Lei Observação. O item (i) é o Teorema de Compacidade Fraca de Helly.
Fraca dos Grandes Números.) Mas ocorre que basta a convergência
das funções características associadas às funções de distribuição. É Prova de (i). Sejam r~> r2 , • •• os racionais da reta. Usando o método da
evidente como definir a função característica associada a uma função diagonal, escolhemos uma seqüência l s; n 1 < n2 < ... de
de distribuição F: define-se q>(t) = J eirx dF(x). Assim definida, q> é fun- inteiros positivos tais que F./rk) converge, quando j-+ oo, para cada
ção característica de alguma variável aleatória (por quê ?). k fixo. Chamemos o limite de F(rk~ de modo que F./rk)-;::-: F(rk) Vk .
É obvio que Os; F(rk) s; 1 e F é não-decrescente nos racionais.
TEOREMA 6.2. (Teorema da Continuidade de Paul Lévy). Sejam F 1 , Definamos F em x irracional por F(x) = lim F(r). F assim
F 2, ..• .funções de distribuição e q> 1 , q> 2 , . • . , respectiva- r ~ x . r racional
mente, suas funções características. Se q>. converge pontualmente para definida é não-decrescente, mas não é necessariamente contínua à
um limite q> e se q> é contínua no ponto zero, então direita. Temos, contudo, que F•1(x)-:---+
J-oc·
F(x) para todo x ponto de con-
(a) existe umafunção de .distribuição F tal que F.-+ F .fracamente e tinuidade de F. (Pois: suponha x ponto de continuidade de F e sejam
(b) q> é a função característica de F.
r', r" racionais tais que r' < x <r" e F(r")- e< F(x) < F(r') +e. Então,
F(x)- e< F(r') = lim F.}r') s; lim inf F.ix) s; lim sup F./x) s;
j -:s: j -+-=t. j-+ oc
Observação. Cabe destacar agora que os Teoremas 6.1 e 6.2 implicam
D s; lim F.}r") = F(r") < F(x) + e.
. que X.-+X <=> IPx. -+q>x. Mas o Teorema da Continuidade j-+ 'X.
~ ~ais forte do que a suficiência dessa proposição, porque diz que 0
hm1te de uma seqüência de funções características também é uma Como e é arbitrário, temos F.ix)--F(x) quando j~oo.)
função característica, contanto que seja contínuo no ponto zero. Podemos redefinir F, se necessário, nos seus pontos de descon-
tinuidade para torná-la contínua à direita. Assim, (i) esta provado.
Prova. Sob as hipóteses, (a) implica (b), por Helly-Bray. Para provar
que F. converge fracamente para alguma função de distribuição, Prova de (i i). Resta provar F( + oc) = 1, F( - oo ) =O. Para g uma fun-
vamos provar que para toda seqüência de funções de distribuição ção característica qualquer, definamos a função caracte-
satisfazendo as condições do teorema, existem uma subseqüência F. , tica integrada g: se G é a função de distribuição correspondente a g,
F.,, ... e . uma função de distribuição F tais que F., -+F fracament~ '
quan~do 1 ~ ~: (Para ver que é suficiente provar isso, suponha que
F•. n~~ convirJa fracamente para F, onde F.j ~F fracamente. Então,
g(t) = f'
O
g(s) ds = f' -oc
O
fa:. eisx dG(x) ds = f"'
-oc
f'
O
eisx ds dG(x) =
[subseqüência de F t'• F 2·, ••• ] e uma função de distribuição G tais que onde justifica-se a troca da ordem de integração pelo fato do inte-
F""-+ G fracamente. Mas F e G terão a mesma função característica grando ser limitado.
236 Probabilidade: Um curso em Nlvellntermediãrio Funções Características e Convergência em Distribuição 237
Para t fixo, a função (ei"- I) (ix) é limitada e contínua (definir interpretar a expressão "X"~ N(O, I)" como indicativa da COJ?Vergên-
igual a t em x = 0), e tende a zero quando x ~ + x ou x ~ - x. Um;1 cia fraca de Fx, para <I>, a função de distribuição da N(O, I). E conve-
prova análoga à de Helly-Bray mostra que niente dizermos, neste caso, que X, com•erge em distribuição para u
'f -- f
eizx _1 dF (x)-.,---->
-- ---
ix n.l J ...... 'I
J' - f
l'izx -
ix
~ dF(x).
(distribuição) normal-padrão. Vale uma interpretação análoga para as
~
expressoes "X n ~
D p OISSOn
. (1t1 )", "X' n ~
D X'(l)"
- , e t C..
(' (/Jn,(s) ds
]o
;~,
Jo(' . - f' f
eisx dF(x) ds.
X 2 •... independentes e identicamente distribuídas. com médiu comum p
e variância comum () 2 , onde O < (J 2 < x. Seja Sn = X 1 + ... + X n. Então
Mas q>n,-+ q>, q> contínua em zero, implica que q> é limitada c S, - ES, E. 1\í(O, I), i.c.. Sn - np .!!,. N(O, I).
~s
.,_/v ar , ÍJyi n
mensurável, logo pelo Teorema da Convergência Dominada (ou pelo
teorema de Arzelà -- veja o *3.7 - aplicado às partes real c imagi- Prora. Podemos supor, sem perda de generalidade, qw:. p =O. Pele
nária das q>n) Teorema de Paul Lévy. basta mostrar que
I
t
f'() q>( ') ds = I
t
f'u •f' e'" dF( x) d.\, t =1 O.
Notação. "Xn E. N(O, I)" indica que X., converge em distribuição para
uma variável aleatória X que possui distribuição N(O, I). q>(t) = I
Mas não é necessário que X seja explicitamente definida, e podemos
238 Probabilidade : Um curso em Nlvel Intermediário
Funções Característica s e Convergência em Distrlbuiçilo 239
TEOREMA 6.3 .L~K se, e somente se, ({J~,-+([J~, 1.e .. Agora, suponhamos que~ n!!. K Para (tI' ... 'td E IR\ queremos
k k
qJ::.,(t1, ... , td-+ ({J~Ú 1 .... , td 'v'(t 1, ... , tdE Rk. Provar que ) t JX ~ n)
~ )'-~ t 1X 01 . Para tanto, basta provarmos que
i I j I
Prora. Omitida. (Veja Billingsley [4J ~3 e Teorema 7.6.) D
({J\ .__
I X ftJ (t) ;;-:::;7 q>\ .:....
1 .•1.
· I
(t) v tE R
1
Em geral, não é fácil provar convergência de funções caracterís- Mas, utilizando a o~tra metade do Teorema 6.3, temos
ticas k-dimensionais, para k > 1 (e uma aplicação direta da Definição
_ (I)= E<,ul_.1.X,
(/);_,,,x. .
= Et,i LI" IX., =
6.4 é menos prática ainda). Mas há um artificío, devido a Cramér e
=([Jx 11(tt 1 , ,ttd;;-:::;-;+({Jx(tt 1 , ,ttd=({J;_,,,x,.. (t). D
Wold, que reduz o problema de convergência em distribuição ao caso
unidimensional. Para melhor entender esse artifício, observe primeiro
- ...
- ...
k k
Obserra(·ào. Os vetores K e l são independentes, por definição, se
I t,X,, E. I I t,X 0 " quando n-+ x.
i 1 j
P(K E B I ' XE B 2) = P(K E B I ) PC[ E B 2)
para todo B 1 E !J"', B 2 E !J" (i.e., borelianos em IR:"' c IR:").
k k
Prow. Suponhamos primeiro que I t 1X 111 E. I t,X 01 Prora. Suponhamos primeiro que ~ e X sejam variáveis aleatórias
ic•1 i' I X e Y (m = 1, n = 1), com X e Y independentes. Então, temos
Então.
(/Jx.r(X, y) = Eei(x.\+rli = E(eixXei.rl) =
'
({Jx(tl,
,.,_n
... ,td=Ee',2.,'.x. =qJ\·,x
'- , "
(1) = E[{cos(xX) + i sen(xX)} ~cos(yY) + i sen(yY!l] =
n~ 7 ({J t 1 ,I , ( 1) = ({J :r_(t I • .. '. : f d, = E[cos(xX)cos(yY)- sen(xX)sen(yY)] +
+ iE[cos(xX)scn(yY) + sen(xX)cos(yY)]
= (por linearidade e independência)=
onde utilizamos o Teorema de Helly-Bray. Como ({J!_.,-+ ({Jf., decorre
= [Ecos(xX)+ iEsen(xX)} [Ecos(yY)+ iEsen(yY)]
do Teorema 6.3 que .K, E. K = EeixX • Eeirl = (J)x(x) (/Jr(y),
242 Probabilidade : Um curso em Nlvel Intermediário Funções Caracterfstices e Convergência em Distrlbuiçlo 243
para todo (x, y). Reciprocamente, suponha que C{)x . y(X, y) = C{)x(x)cp (y) Reciprocamente, se p.(k)--+ p(k) para todo k, então F x.(x)--+ F x(x)
1
para todo x E IR, y E IR. Então a independência dl! X e r é conseqüência
para todo x E IR, pois st: x ~O
do Teorema da Unicidade: se X e Y fossem independentes, elas teriam
(x} [x]
função característica conjunta C{)x. y(x, y) = cpx(x) cpy(y), pela parti! inicial
desta demonstração. Se não fossem independentes, elas teriam uma
Fx.(x) = L p.(k) ;;::;;+ ~ p(k) = F x(x),
k=O k-0
função característica diferente, o que seria absurdo (por hipótese, pos- onde [xJ é a parte inteira de x (se x <O, então F x.(x) = F x(x) = .0). O
suem a função característica desejada). Logo, são independentes.
A prova no caso geral é análogo, e é deixada para o leitor (exer- Nota. No caso geral. com k substituído por xk, a condição da rro-
cício 25). O
Um resultado semelhante vale para um número finito qualquer
posição 6.3 ainda é suficiente~ i.e., p.(xk).--+ _!'<x.k) V k =X
É necessária se os· valores possíveis das X" e X sao 1s~Iados. Nao. e
X: n-:
de vetores aleatórios (a prova é a mesma). Consideremos o caso mais necessária no caso geral: para um contra-exemplo, seJam X n = 11n.
simples em que X 1 , .•• , X" são variáveis aleatórias. Então, temos X=O.
X 1 , ••• , X 11 independentes se, . e só se, EXEMPL O 4. (Convergência da distribuição hipergeo~étrica p~ra .a
binomial.) Seja X N uma variável aleatóna com dlstn-
(/)x, .···. x.(t I' ... 'r.) = nn
j~ I
cpJr.)tj) v (li, ... ' 111) E IR". buição hipergeométrica tendo função de probabilid ade
(f)(~=-~)
P(X, ~ k) ~ -- -(~)-, k ~O, I, .. .• ~
§6.4 Observações e complem entos
(i) Com·ergência em distribuição nos casos discreto e colltínuo. onde N, D e n são inteiros não-negativos, D :::; N e n:::; N. Lembremos
Suponham os que as variáveis aleatórias X 1 , X 2 , •.• e X sejam que (f)= O se k > D. Tal distribuição serve de modelo, por exemplo,
todas discretas ou todas absolutam ente contínuas. Nestes casos, a para 0 número de itens defeituosos em uma amostra de tam~nho n,
convergência em distribuição de X. para X decorre da convergência extraída sem reposição de um lote de N itens contendo D defe1tu~sos.
pontual das funções de probabilid ade ou densidades. Consideremos Quando De N- D são grandes e n pequeno•. };_N t~~ aproxima-
primeiro o caso discreto. damente distribuição b(n, D/N). Este resultado e mtUJUvo, por~ue
nessas condições as retiradas são "quase" independentes. Com efeito,
PROPOSI ÇÃO 6.3. Sejam X ~o X 2 , ••• e X t'llriáreis aleatórias tomando suponham os que 11 seja fixo e D dependa de N devmodo que D/N--+ F
somente os t•alores O, I , 2, ... , e sejam p 1(k), p2 (k), ... quando N--+ x, onde O< p < 1. Neste caso, X 1\ __. b(n, p), como ven-
e p(k), respectil'amente, as.fimções de probabilidade (i.e., p.(k) = P(X = k)). ficaremos agora. Para k = O, 1, ... , n,
11
Então. X 11 E. X se, e somente se, p.(k)--+ p(k) quando n--+ x para todo
D! (N.-D)! .n!(N-n)!
k =O, 1,2, ... . P(X ~ = k) = ki(D-k}!' (n- k)!(N- D - n + k)! N!
Proru. Os pontos x = 1;2, 3;2. 5/2, ... são pontos de continuidade ) D(D-l) ... (D-k+ 1)· (N-D)(N -D-l) ... (N - D -n+k + I) =
11
de Fx. Portanto, se X.~ X, então FxJk + I /2) --+ F x(k + I /2) =( k N(N- I) ... (N - n + I)
quando n --+ •X· para k = O, I, 2, ... , e
'n%(* - ~J . ·(%-7)(1- %)(t- T) .. (t - D + n ~k -J.
p.(k) =F xJk + 1/2)- F x.(k- 1/2) ..... ,. F x(k + 1/2)- F x(k- 1/2)= p(k)
para k =O, I, 2, ... (quando k = 0, temos Fd - 1/2) = Fx< - 1/2) = 0). ~ u- -
1- (t -~) (t - '~') .
,.
EXEMPLO 6. Se X 11 "' V [0, a11 ], onde a11 -+ a, O < a < x , então Prova. Suponha que X".!. X e seja x um ponto de continuidade de F.\ .
Queremos provar que F x..(x)-+ Fx(x) quando n-+ oo .
X • .!?. V[O, a]. Pois temos Como para e > O, X n 5, X=> X 5, X + e ou X - X n> e, temos
[Xn 5, x] C [X 5, x + e] u [IXn- XI> e]. Logo,
fx..(x) = __!_ /(o. a.. J(x)
a.
~ 1
a
- I [O.aJ(x),
Fx..(x) = P(X 11 5, x) 5, Fx(X + e) + P(l X n - X > e).
J
para todo x E IR, exceto possivelmente para x = a. Logo o Teorema de Por outro lado, X 5, x- e=>X 11 5, x ·ou Xn- X> e, de modo que
Scheffé é aplicável.
Fx(x- e) 5, Fx ..(x) + P(IXn - XI> e).
246 Probabilidade: Um curso em Nfvellntermediário Funções Características e Convergência em Distribuição 24 7
Juntando as duas desigualdades. temos V 1: > O, V 11, com a proposição: todo tipo de convergência é preservado por fun-
fx(x- c)- P{jX,- X i> c) s Fx)x) s Fx(x + d + P(/X, - X ! >1:). ções contínuas.
Fazendo inicialmente 11---+ x e depois 1: ---+ O. temos primeiro (pois PROPOSIÇÃO 6.7. Sejam X 1 , X 2 , . . . e X variát>eis aleatórias e
g: IR: ---+ IR: uma junção cont í11ua. Então
X,~ X) (a) X,--+ X quase cercamente=g(X,)-+ g(X) quase certamente;
F ,\(x - r.) s lim inf F x)xl s lim sup Fx)x) s F,(x + 1:) (b) X,.f..X=g(X,).f.g(X ); e
n- 1 "- 1 (c) X, 1?. X= g(X nl ..!4 g(X).
e, portanto (x é ponto de continuidade de Fxl. F,(x) = Jim F xJx). O Prova. Provaremos em ordem crescente de dificuldade:
n ~'
(a) Se X"---+ X quase certamente, então existe A 0 Ltl tal que
P(Ao) = 1 e para todo w E Ao, X n(w)--+ X(w). Como g é contínua,
Embora a implicação recíproca não valha em geral, é válida g(X,(w))-+g(X(w))V wE A 0 , logo g(X")--+g(X) quase certamente.
quando X é constante: (c) Suponha que X" 1?. X . Para que g(X ") 1?. g(X), basta a conver-
gência das respectivas funções características. Por definição, cp 91 x)t) =
PROPOSIÇÃO 6.6. St> X,!:!. c co11stame, emào X,-.!'. c. = Eeitg(X,.i =E cos(tg(X nl) + i E sen(tg(X ")).
Prol'a. A função dt: distribuição de uma variá\·el aleatória constante c é Como as funções cos(tg(x)) e sen(lg(x)) são contínuas e limitadas
na reta, para 1 fixo, decorre do Teorema de Helly-Bray que
F((x) = {l se .x;:::: c
O se x < c.
cp 91 x" 1(t) ;;::;-;+ E cos(tg(X)) + iE sen(tg(X)) = cp 91 x1(t), tE IR:.
(b) Suponha que X" .f,. X, e seja c> O. Para todo m >O, g é uni-
Como x é ponto dt: continuidade de F .. se x =1 c, segue-se pela con-
vergência em distribuição que FxJx) ....... O quando n--+ x, se x <c. e formemente contínua em [- m, m]; escolhamos m suficientemente gran-
de tal que P(- m/2 s X s m!2) > I - c (isto é possível porque
FxJx)---+ 1 quando n--+ x, se x >c. Logo, para 1: >O,
P(j X I s m/2)---+ I quando m--+ ·X ). Pela continuidade uniforme, existe
P(j X"- r! s c)= P(c- c s X, s c+ e);;:::: P(c- c< X, s c+ 1:) = 6 tal que 0<6sm/2 e se lx l sm, lrlsm e jx-y/<b então jg(x)-
= FxJc +c)- FxJc- 1:) ;;-:;-;+I. -g(yli <1:.
Como PI!X.- X I< b)---+ I, temos P(!X j s m/2, /X.- X/< J)---+
Em outras palavras, P( !X,-c j >cl---+0 Vt: >0 c X,-.!'. c. O
,~ , P( j X ! s m/2) > 1 - <: (observe que se P(A")---+ 1, então P(A n A")--+
EXEMPLO 8. Em geral, x,l?.X=;t>X,-~X. Sejam X, XI, X2, ... in- ---+P(.4)). Mas
depcndentcs com distribuição comum N(O, 1 '2). Então i
[ IX S m/2, IX"- X I< 6] C [lXI S m, /X./ sm, IX"- XI< 6] C
X,~ X, pois todas as distribuições são iguais. Mas X,- X ~ .\'(0, 1) C [jg(X")- g(X)j <c],
e P( 1X,- X i ; : : .::)
= 2 - 2<l>(t:), onde <l> é a função de distribuição da
logo P(ig(X")- g(X)j <r. )> I-<: para n suficientemente grande.
normal-pad:ão. Logo, para <: >O, P( i X, - X I ; : : e) -f+ O c X, -!t. X.
Resummdo, temos que os tipos de convergência possuem a se- s
Por isso, se O < < c, então para n suficientemente grande,
guinte relação: P(jg(X")- g(X) j <e);;:::: P(jg(X.)- g(X)/ < Ç) >I - Ç.
com. quase certa~ conv. em probabilidade ~ conv. em distribuição. Em outras palavras, P(jg(X nl- g(Xll <f.)--+ 1 quando n---+ x, 1.e.,
(iii) O Teorema df! S/utsky. Nesta seção consideramos alguns casos g(X") .f,. g(X). 0
Como conseqüências desta proposição temos. por exemplo,
em ~ue convergência de variáveis aleatórias acarreta convergência de
X. 14 N(O, I )=X~ 14 X~ ; X.14 N(O, I J=cX".ll N(O, c 2 ); X • ..t. c> O=
funçoes, somas ou produtos das variáveis. Iniciaremos nosso estudo
= log X" .f. log c.
248 Probabilidade: Um curso em Nivellntermediârio Funções Caracterfstlcas e Convergência em Distribuição 249
Ohsermçãu. Quando g não é definida e contínua em toda a reta, por (Podemos provar que EZ.-+0 diretamente. sem apelar para o
exemplo, g(x) = log x ou g(x) = I /x, pode-se provar que Teorema da Convergência Dominada:
a proposição ainda vale se para algum conjunto aberto A c IR, g é
O :S: EZn = EZn/[Zn~"l + EZn/[Zn>EJ :S: E(c) + 2E J[Zn>'l =
contínua em A e P(XEA)= I. Se g(X.) não é finita com probabilida-
=e+ 2P(Z. > c) < 2e
de I, como é o caso se g(x)= I!x e P(X. =0) >0, g(X.) pode ser arbi-
trariamente definida quando não é finita, de maneira a convertê-la para n suficientemente grande, pois z• ...!'. 0.)
em variável aleatória. Analogamente, a condição de que P( Y. =1 O)= I (b) Conseqüência de (a). pois - }'~ ...!'. -c.
no item (d) do teorema seguinte não é necessário, se X .I Y. é arbitra- (c) Suponhamos primeiro que c =O. Queremos mostrar que
riamente definida quando }~=O, digamos X.IY. =O. Y.X n -º. O. Para tanto, basta provarmos que l~X • ...!'. O, pois conver-
gência em distribuição decorre da convergência em probabilidade.
TEOREMA 6.4. (Teorema de Slutsky). Sejam X, X 1 , X 2 , . .• e Y1 , Y2 , ...
Agora sejam c, (i >O e x <O < y pontos de continuidade de F x
variáveis aleatórias tais que X n-º. X e Y• ...!'.c, onde c
tais que F x(Y)- F x(x) = P(x <X :s; y) > 1 - b. Como X n-º. X, temos
é uma constante. Então
P(x <X n :s; y) = F x.{y)- F xJx) > I - b para n suficientemente grande.
Definamos M = max (y, - x); então a convergência em probabilidade
(a) X.+ Y.-º. X+ c;
de }~ para zero implic~ que P(! Y. I < E/ M) > I - t5 para n suficientemen-
(h) X.- Y.-º>X-c;
te grande. Logo, para n suficientemente grande (observação: P(A n B) ::2:
(c) Y. X.-º. eX; e
;:;::: 1 - P(A')- P(B')), temos
(d) se c =I O e PO~ =1 O)= 1, _X. -º. ~-
Y. c P (x < X n :S: y, I Y. I < -~ ) > I - 26.
Prova. A prova utilizará funções características. Para uma prova mais Como x <X.s;y e Il~l <c/M implicam IX.Y.I <c, temos P(IX.l~l <
"elementar" - partindo da definição de convergência em dis- <E) > 1 - 2() para n suficientemente grande. Portanto, para todo E >O,
tribuição - veja Bickel e Doksum [3], p. 461. Pil X n Y. I <E)-+ 1' i.e., X n Y• ...!'.O, como queríamos demonstrar._
Agora consideremos o caso de c geral. Como Y.X n =c X.+ ( l.- c)X.
(a) Pelo Teorema de Paul Lévy, basta provarmos que (/Jx"+dt)-+ e Y -c-.!'.0 segue-se da conclusão no caso c=O que (Y.-c)X.-.!'.0.
n ' . D
x, para todo tE IR. Temos
-+ (/Jx +c(tl quando n-+
Além disso, temos <p,xJt) = (/lxJct)-+ <px(ct) = <p,x(t), 'v' tE IR, 1.e. eX."""+
(/Jxn+l')t) = Eeir(Xn+Yn) = Eeil(Xn+c) + EeirX"(eill'n- ej"). -º.c X (este resultado decorre também da proposição anterior). Como
Y.X n é soma de dois termos, o primeiro dos quais convergente para
Como Ee;'x"=<p:~)t)-+<px(t), a primeira parcela do termo à direita c X em distribuição, e o segundo para zero em probabilidade. o resultado
tende a e;" (/Jx(t) = (/Jx+c(t). Logo, para terminarmos a prova basta que é conseqüência do item (a).
provemos a convergência para zero do segundo termo. Como (d) Pela proposição anterior, I/Y.-.!'.1/c. Agora basta aplicar o
IEe;'x"(e;'r" _ ei'c)/ :s; Ele;'x"(ei'l" _ ei'cJI = Ele;'r" _ e;''l, item (c). O
porque/ e;' x"/ = 1, basta provarmos que E/ e;' r"- eirc /-+O quando n-+ x. PROPOSIÇÃO 6.8. Sejam Y1 , Y2 , ... variáveis aleatórias tais que
Mas isto é conseqüência do Teorema da Convergência Dominada, .._ln( Y.- J.1.)-º. N(O, a 2 ). Se g(y) é uma junção deri-
que vale também no caso de convergência em probabilidade (não
Pável no ponto J.1., então jti(g( Y.)- g(J.1.))-º. N(O, a 2 (g'(J.1.)) 2 ).
provaremos esta extensão do teorema): como Y. ...!'.c implica que
z n def/
= eilYn - eire/ -'-+p O, peJa propos1çao
. _ . / . .
antenor com g(y) = e"Y- e"c ,
e como a seqüência é dominada pela constante 2, pois /Z./ /e;'r"l
:s; +
1
Observação. O resultado vale quando g'(J.1.) =O, se a distribuição N(O, O)
+ Ie'" I = 2, temos EZ.-+ O. Portanto, o item (a) está provado. é interpretada como massa pontual em O, ou seja, O~ N(O,O).
250 Probabilidade: Um curso em Nfvellntermediário Funções Caracteristicas e Convergência em Distribuiçlio 251
Prom. A idéia da prova é esta: sob as condições dadas, }~ ~ Ji em dividindo o numerador e o denominador por 11. A conclusão fica
probabilidade quando ~ Como g é derivávd em p e. na
11 f_.
D emm v ,=
fi . d o ... s,--=-X --+ ...------
I +X n (x- ,eamediaamostral
' ' d aamostra
k' I j- I
f' -
distribuição simétrica em torno de O, então I ai X i possui dis-
TEOREMA 6.5. (Bochner-Kh
,
intchin)• Seia
J
m· 11\\
, •
In· r
-+ \(.., uma . unçao con- ' j= I
. . _ tm~a .tal que qJ(0 ) = 1. qJ é uma função característica tribuição simétrica em torno de O, para toda escolha das constantes
(z.e., fu?çao c_aracten stzca de alguma variácel aleatória) se, e somente ai E IR.
, I
se, qJ e d~fimda positil'a. ·
3. Seja qJ uma função característica . Mostre que 1/!(t) = e;. • - ',
1 10 1
mente a (/J quando k--+ ·XJ ). Resta verificar se tp é definida positiva : e portanto,
U. = 11 r.. v.= n( I - Z.). Mostre que, quando n--+ a::: 25. Prove a Proposição 6.2 para m e n quaisquer. (Pode us~~ o ~e
( (a) r• ..:. o e z • ..:. I. seguinte fato, sem prová-lo: se ! e são vetores aleatonos In-
dependentes, então g 1 (~) e g 2(.!:) são independentes, onde g, e 92
r
(b) U" E. W e v. E. U< onde W tem distribuição exponencial de
parâmetro 1. são funções reais mensuráveis.)
20. Seja (X.I.~ 1 uma seqüência de variáveis aleatórias ind~pendentes 26. (Propriedade FC9 para vetores). Seja =(X,, ... , Xk) um v~tor 2
aleatório. Sob condições de regularidade, o momento mtsto
e identicamente distribuídas, tais que P(X" = I) =+ = P(X" = - I), E(x m, vml xm•) onde os m . são inteiros não-negativos, poderá
I A2 •·· k ' J
e seja ser obtido derivando-se a função característica de 2:
r.= L" l
2k xk.
(lm• +··· +mk l
- - - . , - - - - q>X\( 1, ... , (k
) I = I·m· +··· +mk E(Xm'
I
... xm•).
k
u"'tm'
1 "'tm•
••• U k - .!..=Q.
k I
Demonstre este resultado no caso em que k = 2 ·e m, = m2 = l,
Mostre que r.!!. U[ -1,
1]. (Sugestão. Use a igualdade
sob a condição de que EX 1 , EX 2 e EX 1X 2 sejam finitas, i.e., de-
cosO= sen (20)/(2 scn 0).)
(
(
21. Sejam X 1, X 2 , ••. variáveis aleatórias cujas funções características
cp" cp 2 , •.. convergem pontualmente, Mostre que se existe <5 >O
monstre qu: iJ2"' Cf><x ,.x,) (tl, r2) I -EX ,X2.
ul 1 l ·l2 1,= 12 =o
tal que cp.(l)--+ I para todo t com ItI < <5, então X"__:. O. (Sugestão.
21. Suponha que X= (X 1, ••• , Xk) tenha distribuição multinomial ~o~
Use o resultado do exercício 9.)
(
parâmetros p 1 7...,
Pk e n (esta distribuição é definida no exerc1c10
7 do Capítulo 4).
(a) Mostre que a função característica de ~ é
§6.3
22. Dizemos que~= (X 1, ••. , Xd tem distribuição simétrica em torno
cp!(.t)= ( p1 eu 1 + ... + Pke i'")"• _t E u-..
~n~k
de zero se ~ e - ~ possuem a mesma distribuição. Demonstre (b) Utilize o exercício 26 para calcular a covariância entre X i e
( que ~ tem distribuição simétrica em torno de zero se, e somente X r,j #f.
( -
se, Cf>x(t) é real para todo tE ~k.
-
23. Sejam X, Y, U e V variáveis aleatórias definidas em um espaço
§6.4.
( 28. (Generalização da Proposição 6.3.) (a) Demonstre ~ue se
de probabilidade (Q,.crl, P). Suponha que os vetores (X. Y) e (U. V) X 1, X 2, ... e X tomam somente os valores : ~, x 2, .• :• en~ao con-
( sejam independentes, que X seja independente de r e que U vergência pontual das funções de probabthdade tmphca con-
( seja independente de V. Mostre que X, Y, V e V são coletivamente
independentes. Generalize esse resultado para o caso de 11 vetores
vergência em distribuição. i.e., demonstre que se p(xk) = I = f
(
aleatórios independentes, cada qual composto de componentes = i-
'\' p.(xd. Vn e p.(xd--+ p(xd, Vk, então X,. 14 X.
n-::o '
independentes. k N
(Sugestão. Para e >O, escolha N tal que t~l p(xk) > 1 - e e con-
( 24. Sejam X, Y, V e V variáveis . aleatórias, e sejam Z = X + i e r
W = V + i V. Demonstre: clua que para n suficientemente grande, e todo x E ~.
(a) Se os vetores (X, r) e (V, V) são independentes, então X e U
são independentes. -2e +F x(x) <-e+ L
k ~N: Xk ~ X
p(xk) <F x.(x) <
(b) Se (X, Y) e (V, V) são independentes e X, Y, U e V são inte-
gráveis, então E(ZW) = EZ • EW
< 2c + L p(xk) ~ 2e + Fx(x).)
k '$, N: Xk S x
258 Probabilidade: Um curso em Nlvellntermedlário Funç6es Caracterfsticas e Convergência em Dlstribulçlo 259
(b) Demonstre que vale a recíproca de (a) se os pontos x k são 34. Sejam X 1, X 2, ••• variáveis aleatórias independentes e identica-
isolados, i.e., se para todo k existe um intervalo aberto (ak, bd mente distribuídas tais que EX 1 =O e Var X 1 = u 2, onde O< u 2 < oo.
que contém xk e não contém outro xi. Sejam }'1, Y2 ,... variáveis aleatórias independentes e identica-
mente distribuídas tais que EY1 = Jl., onde J1 E llt Prove que
29. Cem mil passas são misturadas em uma massa que posteriormente
- r:: - n 2 d x- x ,+ ... +X,. Y.- Yt+ ... +Y,.
será dividida em partes iguais para fazer dois mil bolos tipo inglês. Y,. +v n X"-+ N(Jl., u ), on e ,. = n e "= .
n
Mais tarde, um bolo será escolhido ao acaso e será contado o
número de passas contidas nele. 35. Sejam X" ... , X n variáveis aleatórias independentes e identica-
(a) Explique porque você pode modelar esse experimento utili- mente distribuídas, com média Jl.x e variância ui < oo; Yt. ... , Y,.
zando a distribuição de Poisson. Qual o parâmetro ? variáveis aleatórias independentes e identicamente distribuídas,
(b) O modelo em (a) é uma aproximação. Qual seria a distribuição com média Jl.r e variância ui < oo. Suponha que as X i e Yk sejam
exata do resultado do experimento ? independentes e que Jl.x4= O. Ache o limite em distribuição de
(c) Qual a probabilidade de não encontrar passa alguma no
bolo, segundo cada um dos dois modelos? As duas proba-
Zn = fi ( Xn!n - _!!_!_)• onde
Jl.x
bilidades são realmente aproximadamente iguais ?
X = .!.!_~ .. +X,. e Y. = Yt + .. . + Y,..
30. Sejam X 1 • X 2•... independentes e identicamente distribuídas n n n 11
tais que X,. - U[O, 0], onde 8 > O. Demonstre que Y,. =
= .j'n :log (2 X,.) - log 8} converge em distribuição para a (Sugestão. Z,. = Jn (pxY,.- _!!rX") · Use o exercício 13.)
N (o' - 3~) ' on d·X-
\; n - X- , + ...
n + -X ,.-.
- Jl.xXn
}'=L n ,,. I
Xnfp nj· §7'1 O Teorema Central do Limite para seqüênci as
de variáveis aleatórias
Mostre que (p = L.p,<p, é a funçã o característica de l; usando
esperança condicional.
Consi::l~..~ rcmo-> uma seqü~n ci a de variúvcis akatórias indcpend ..~n
te.-;, X 1 • X 2 • .. . definidas no mc ~ mo espaço de probabilidade (Q (/, P!.
e se ja S 1 • S 2 , ... a seqüência d ~ somas parciai:;;, definida s por S, =
=-c X 1 + ... -+ X,. Recordemos que a Lei dos Grandes Número _; trdL ~
1
oJ a co nvcrgenCia
- ' d ;'! (S, - Eu' r) pa ra zero, quan d o n-+ ·f_ . supo n'j C>
11
tória s,__
n
a média amostrai no caso de variáveis independentes .:. iden-
suem média 11 e variância rr 2 , onde O< rr 2 < x. então integração, pois os intervalos são abertos. Se X k for discreta, com
função de probabilidade pk(xi), então
S,- nJl v .
a fi
-+ N(O,l).
r
J~-ltk
2
(x - !1k) dF k(x) = i: ~<i_~ i>"'" (xi
2
- !1k) Pk(xJ
I>Esn
Notemos, então, a diferença entre o Teorema Central do Limite e Por outro lado, se X k tiver densidade fk(x), então
a Lei dos Grandes Números neste caso. A Lei dos Grandes Números
diz que a média amostrai ~
n
converge para Jl, em probabilidade ou L-~t•l>e•. (x- Jik)2dFk(x) =f~-··· (x- J1k)2f,.(x)dx +
quase certamente, i. e., a diferença ~- J1
tende para zero, e o Teo- + f+ oc. (x - J1k)2fk(x)dx.
n
rema Central do Limite diz que esta diferença, quando multiplicada IJk +t.:ln
pela raiz quadrada de n, converge em distribuição para uma normal : Notemos também que
Fn =F x..
X 1 , X 2 , ... variáveis aleatórias independentes tais que
EX n = Jln e Var X n = a;,
onde a;
< x e pelo menos um
sn =X I+ ... + Xn e Sn = Var Sn = ar+ ... + .J
>O. Sejam
Então, .J
a;
a:.
Ve >O,__;-
Sn
I
k= I
f l .x- l'kl S ""
(x- J1k) 2 dFk(.x)-+ I quando n-+ oo.
para que
A condição de Lindeberg significa, basicamente, que as parcelas
s- ES -+
,.
D
N (0, I) quando
t _n_ _ _!!_
Sn
11 -+ x, X k - Jlk da soma S, - ES, são uniformemente pequenas para n
s, s,
é suficiente que a seguinte condição, chamada condição de Lindeberg, grande. Por exemplo, a condição de Lindeberg implica
. 2
fJt esteja satisfeita:
max a~ -+O quando n -+ oo,
~IJI Ve> O, lim
n- J.
~ I= f
S,. k 1 lx - JJk I> t.sn
(x- J1d 2 dFk(x) = O.
iSk S n S,
~!
vale a convergência normal.
lU
lll
264 Probabilidade: Um curso em Nível Intermediário O Teorema Central do Limite 265
(Jf
max -T
!•,k<n Sn
s s2 + -.I2
5n
In
k= I
f
~\ IJ> k '>n
(x-
'
Jld"dFk(xl,
para modelar erros em observações astronômicas, e por isso é fre-
qüentemente chamada de distribuição gaussiana. Gauss derivou a dis-
tribuição normal, não como limite de somas de variáveis aleatórias
independentes, mas a partir de certas hipóteses consideradas naturais
que converge para 1: 2, pela condição de Lindebcrg. Como vah: para
para a distribuição de erros, entre elas a de considerar a média aritmé-
todo 1: >O, temos max (O"f js~)--+ O.
tica das observações o "valor mais provável'' da quantidade sob obser-
. - quer d.1zer que as parcelas X,- -. Jik
U ma vez que essa con d Içao vação (veja Maistrov [ 15], §li 1.1 0).
5i" Hoje em dia o T eoreina Central do Limite dá apoio ao uso da
possuem variâncias uniformemente pequenas quando n é grandL:, po- normal como distribuição de erros, pois em muitas situações reais
. S -- ES é possível interpretar o erro de uma observação como resultante de
demos d1zer que nenhuma parcela tem muito peso na soma " - "-
-,·~~ muitos erros pequenos e independentes. Há, também, muitas situa-
Do ponto de vista intuitivo, isso serve para justificar a afirmação: ções em que se pode justificar o uso da normal através do Teorema
a soma de um grande número de pequenas quantidades independentes Central do Limite, embora não necessariamente sejam casos sujeitos
e de média zero tem aproximadamente a distribuição normal. a erros de observações. Por exemplo, a distribuição de alturas de
Observemos que a condição de Lindeberg é formalmente mais homens adultos de certa cidade pode ser considerada aproximada-
forte que a mera condição dada acima sobre o máximo das variàncias mente normal, pois altura pode ser pensada como soma de muitos
n
efeitos pequenos e independentes.
Como s; = I
k' I
f(x- pd 2 dFdxl, a condição de Lindeberg diz que quan-
A distribuição normal não originou com Gauss. Apareceu, pelo
do n é grande, é pequena a parte da variâm:ia da soma devida às "caudas" menos discretamente, nos trabalhos de De Moivre, que provou o
das X k situadas a mais de 1: desvios-padrão s, das suas respectivas Teorema Central do Limite para o caso de ensaios de Bernoulli com
médias li•· I
É interessante, porém, que na presença da condição sobre má- o p = - - (parte do Teorema de De Moivre-Laplace).
2
ximo, a condição de Lindeberg torna-se necessária para a validade
do Teorema Central do Limite. Essa recíproca para o Teorema de
Lindebery deve-se a Fcller: se X 1 , X 2 , ... são independentes com ra- Antes de provar o Teorema de Lindeberg (não provaremos a re-
riâncias finitas O"T, O"~, ... , se pelo menos um O"; >O e se max (0"1 /s~ )--+O cíproca de Feller), consideremos dois corolários e um exemplo. Pri-
J:S:k~n
meiro, um resultado já provado diretamente no Capítulo 6.
quando n--+ x, então a condição de Lindebery é consequência da con-
t•eryência normal, i. e., COROLÁRIO I. Se X 1 , X 2 , ... são variáveis aleatórias independentes
e identicamente distribuídas com EX n = J1 e J!ar X" =
S,._=§S!!_ ~ N(O, I)= V 1: >O. 2 2
sn = 0" , onde O < 0" < x', então
Sn- nJl D
-~-- -;:::::::.- ____. N (0, 1) quando n --+ oc..
O"-..../ n
tobabiNdade: Um curso em Nlvel Intermediário O Teorema Central do Limite 267
__!T
na
I
k= !
f
~< -· l'lst~,;n
(x- J1) 2 dFk(x) =(são identicamente
I n 6
'EIXk-J1ki2+ -+0quandon-+ oo. O
.,
( ' -
- ~6s2+6 ~
11 distribuídas)= ~2 f~< - l' l,"iJ ,m (x- J1) dF (x)
2
1
" • k 1
•
R
COROLÁRIO 2. (Teorema Central do Limite de Liapunov.) Sejam
X 1• X 2 •.•• variáveis aleatórias independentes. tais que
(
,.
soma e 1gual a
18
.
n(n+1)(2n+l)) . De fato, veremos que o tm~r-
I
EX. = J1. e Var X. = a;
< oo, com pelo menos um >O. Seja s; = a; lema, que trata da ordem de séries do tipo I:n":
Var s. =cri + ... +a;. Se existir () >O tal que · -
•
11
I
2"+6 f E Xk
~ I - J1k 12+6 -;;::::O, LEMA 7.1. Para Ã> 0,
Sn k=I
• l
então
I
;::;:y L" k"-+ - 1-I-- quando n-+ oo,
( n k=l 11. +1
I
~ s. - ES. E. N(O, I). L
n
k" é da ordem de n;, + 1 .
• s.
Prova. Verifiquémos a condição de Lindeberg, supondo satisfeita a
de maneira que
k=l
condição de Liapunov. Para e > O, se I x- J1k I > e s. então Prom do lemu. Como x" ~ k" se k - I ~ X ~ k e e ~X). se
Ix - J1k 16í(~> 41~) > I , de modo que k ~ x ~ k + 1, segue-se que
•
•
11
~ I
268 Probabilidade: Um curso em Nível Intermediário
O Teorema Central do Limite 269
----
1
I < -·-- y" I · (~1
k' < - - )'+I n
It.:[X,-.uk\3
;_ + I - 11d I k~l -i+ I 11 I
k I
lim
+ 1' i.+ 1 16'
Como ( ~---) ---> I quando 11---> :r., o lema está provado. O
' I
I (x-
2
!ld JFdxl = Í 2
x dFk(x). Portanto,
. Lx IJ.I-1 > ,,,.," J1.\1 ,.1:~,1
Como a densidade de X k toma o valor zero fora do intervalo [- k, k J
e c.s, > n para n suficientemente grande (pelo lema, s~ é da ordem
de 11 3 , logo s, é da ordem de 11 3 ' 2 ), temos que. para 11 suficientemente lim - ,
L E i• X k - fik
13
= 1·1m
s~
1
n ___..,. k 1
grande, a densidade assume o valor zero na região de integração, para f 11--+ f
k
1
' densidade) = -, 1:.--: I x 2 / :x-O<, ,,,,,:(xldx. Agora, provaremos o Teorema de L!ndeberg. Para facilitar a lei-
- J 1 -': /
. (2.\2
e;,, = I + ltx + tidx) · , onde I 0 1(x) I :<S: L
2
e;,,= I + itx- l
(2\2 (3\3
+ 0 2 (x) (; , onde l11 2 (x) I :<S: I.
+ -t2
2
J..
lx·-p•l'·/:6.,
{I + fJ 1 ( -x -- -JLk- )}. (.· -x -- -llk- ·.). 2 dF d.x).
, Sn \ Sn ,
+
não será expressa, mas é importante lembrar durante o restante da
prova que o valor de c que determina o resto en.k depende da posi-
ção de 11 em relação aos 11"'. Temos, então,
n
k
I Ien.k I-+ O quando
~ 1
n-+ x. (7.2)
Como EXk=Jlk e Var Xk=a;, temos Substituindo em (7. I), vemos que
com os e,.k satisfazendo (7.2). Para provar que o termo à direita con- §7.2 A distribuição normal multivariada
verge para e -,. ', usaremos o seguinte lema sobre números complexos,
Antes de estendermos o Teorema Central do Limite ao caso de
que generaliza o resultado já utilizado para provar o Teorema Cen-
uma seqüência de vetores aleatórios independentes, consideremos a
tral do Limite no caso de variáveis independentes e identicamenk
extensão da definição de distribuição normal ao caso vetoriaL Por
distribuídas, de que c,-+ c implica que ( 1 + -~; )" __. e'. consistência de notação, trabalharemos somente com vetores-linha em
vez de coluna. Na literatura da análise multivariada, é comum o uso
ti
de vetores-coluna para representar vetores aleatórios, mas o leitor
LEMA 7.2. Sejam cn. k números complexos tais qu"'< L,~ c, , k-> c quan-
k c• I
não deverá sentir dificuldade na "tradução" : as modificações neces-
do n -> ·Y.... Se sárias deverão ser óbvias.
Diremos que um vetor aleatório tem distribuição normal multi-
max
I :.; k -::. n
Ic I --+ O quando
11 , k n --+ x
mriada se possui a mesma distribuição de uma transformação afim
de normais-padrão independentes. Isso significa o seguinte: se X 1 , • . . , X"
n são independentes com distribuição comum N(O. 1), então o vetor alea-
I
k' 1
I Cn.k I S M < W. tório X = ( Y1 , • •• , Y11 ), onde
onde M e uma cunstame que não depende de n. entàu Yi = a 1 iX 1 + ... +uni X"+ Jl ,.
para j = I, ... , n, possui distribuição normal n-variada. Aqui, as cons-
n (1 + c
11
11
logo k~l I c"·' I é uniformemente limitado (i.e .. existe M < oo tal que temos
n
Y = XA + JL
'<in, I Ic,, I s
k ,- I
k Af ). Para aplicar o lema, resta verificarmos a con-
Notemos que
- - -
lj, sendo combinação linear de normms indepen-
dição sobre o máximo :
dentes, também é normaL De fato, é evidente que
Ic,_, l s
Y, ~ N (IIJ· ktl
max max
af.).
(2 (Jk2 "
<-
- 2 max ~ + '--
Y 1 t!,_ k 1 • Além disso, a ma triz de covariàncias de }' é ~ 1 = ~ = A' A, onde A
I ,, k ~ n 5, k- I
é a matriz transposta de A e a man·i: de co7-ariiil;cias de um vetor alea-
com o segundo termo tendendo a zero por (7.2). Como já foi visto tório I é, por definição, a matriz das covariàncias entre os compo-
que a condição de Lindeberg implica que max (!í} /s;)--+0, a prova
I ' · k ··, n
nentes de l:1. e.,
Verificando este resultado, temos (notemos que EX;X 1 = I ou O, de- é uma correspondência biunívoca entre IR" e IR". Neste caso, o ja-
pendendo de i ser ou não igual a j ) cobiano J(y, ~) = det (A) # O, e a transformação inversa é dada por
Cov ( Y;, Y1) = E(( Y, - /I; HY1 - p)) = x =(v - Jl)A - 1, de modo que
=E((aliX 1 + ... + a.;X.HauX 1 + ... + a.1X. )) = (linearidade) =
- :::... -n
n n n L xr = ~ . ~ = ~ ~~ = <~ - elA - '<A - In~ - er =
= L L aki ati
k= ! f = !
E(XkXr) = L aki akJ = (A'A )ii.
k =!
i= I
DEFINIÇÃO 7.1 . Sejam X 1 , •• • , X" independentes e identicamente Portanto, pelo método do jacobiano, l = ( Y1 , ••• , Y.) possui den-
distribuídas tais que X i - N(O, I), e seja lo vetor
sidade dada por
aleatório obtido de 2 = (X 1 , ... , X.) através da transformação
Y=XA
..... ..... + .....
Jl, fr(J
-
'
1, ·· · • Ynl-
-(-1 -)" -
..j2rr. - e - -
(.Y - I')(A' A) -I (y - 1' )' ! 2 •
- - 1
I
det (A) 1
1
A matriz de covariâncias é szmetnca e d~finida não-negativa. A para y = (y 1 , ••• , .v.) E IR", onde a última passagem é conseqüência do
primeira propriedade decorre do fato de que Cov ( Y,, lj) = Cov ( lj, Y,). fato de que ~r= A' A e det(+rl = det(A'A) = (det(A)) 2 > O.
Para verificar a segunda, basta observar ·que se ~ E IR", então Se A é ortonormal, i. e., A' A = I. = matriz identidade 11 x 11, então
+r = I"' det <+rl = 1 e a densidade conjunta de Y1 , ••• , Y. torna-se
~ ~ ~~ = ~ A'A ~~ =(~A')(~ A')' = I ~ A' 12 ;;::.: O,
l
= ( J2rr.
)" - (.- - 1')( \'-l' l ' l _
estando satisfeita a definição de matriz definida não-negativa. (Nota : /!_(J'I• . .. ,y.) e ;... -:....- -
a propriedade de ser simétrica e definida não-negativa não é apenas 1
l )" -
= ( -]2rr.
2
da matriz de covariâncias de um vetor com distribuição normal mul- e
- oflr-1')
2 .~ ' ', (Y I' ... , J'nl E IR .
n
Analogamen te, se A é ortogonal, i. e., A' A é uma matriz diagonal ou seja, t A'X' ..... N(O, t;: t').
q~e a- função c~ra~eristica da N(O,
2 2
com elementos diagonais d 1 , ••• , d", todos eles positivos (di > O, Já (1'
2
) é q>(t) = exp( _ r ; ).
temos
Ee......itAX- ' _ , 11 (l) -_e -a> 2 -·/ e-r"'t' /2
fi9') =
<fo)" n di
n
r é.
- ..... t_ '
i=!
I
n
q>z(_~) = exp .U;~' - {i Li L'}· !, E IR".
<,/2n)" n di i=l
onde utilizamos o fato de que +r também é matriz diagonal, Observação. Pelo Teorema da Unicidade, a função característica de-
1 tendo
: . 1 1- termina a distribuição. Logo a distribuição de um vetor
eIementos d1agona1s d":' ... ,-d.--;· Neste caso, vemos que Y 1 , ... , }~
normal n-variado é determinada pela média J1 e pela matriz de cova-
são independente s, com Y; - N(J1i , di). riâncias ;:. A matriz A entra na distribuição sÕmente através da matriz
Se a matriz A não é invertível, o jacobiano é nulo e não há den- ;: = A'A, e duas matrizes A 1 e A 2 tais que A'1 A 1 = AíA 2 dão origem
sidade. Nesse caso a imagem da transformaçã o y = T(x) = x A + ~~ à mesma distribuição normal multivariada. Assim, justifica-se o uso
é um hiperplano no IR", de dimensão menor que e di"iemo~ que Y n, da notação N(J1, ;:) na Definição 7.1.
tem distribuição normal n-variada degenerada. (Veja o exercício 14
para um exemplo.) §7.3 O Teorema Central do Limite caso
Calculeu10s agora a junção característica de um vetor normal multivariado
n-variado X Para tanto, sejam X 1 , ••• , X" variáveis aleatórias inde-
pendentes e N(O, 1), de modo que Xpossui a mesma distribuição de O clássico Teorema Central do Limite do caso univariado diz que
uma transformaçã o afim de ! = (X 1 , ••• , X"), ou seja, a soma de um grande número de variáveis aleatórias independente s
e identicamente distribuídas, com variância comum finita e estritamente
r - ! A +~· positiva, tem distribuição aproximadam ente normal. A versão apre-
Então, a função característica de ..... Yé sentada no exemplo 9 do §6.4, que diz respeito à normalidade assin-
il. }' - E itl'' = E e--
. ' da me' d'1a amostra I x- " = X I+ ... + X n, e' a versao
totlca
. usa da
- ma1s
.,...! (t I• ..• , t n ) -- E e---
{fi
e-- - =
it(XA+Jll'
n
= e!!.!'.:. E ei!..A'~·. na prática. Essa versão diz que quando X 1 , X 2 , ••• são independente s
Notemos que se uma variável aleatória Z é combinação linear e identicamente distribuídas com média comum 11 e variância comum
n
a 2 , onde a 2 < XJ, e!ltão
das Xi , digamos Z = L biXi, então Z possui distribuição normal
j= I
n "/n(X"- J1) ~ N(O, a 2 ).
com média J1 = O e variância (1'
2
= L bJ = E~'. Por isso, a variável
(Se =O, interpretamo s N(O, (1' 2 ) como massa pontual em 0.)
(1'
2
j=l
aleatória !. A'!; sendo combinação linear das Xi com coeficientes Ocorre que vale uma versão análoga desse resultado para uma
n
seqüência de vetores aleatórios independentes e identicamente distri-
bi = (!,A')i = L t ;Aii• tein distribuição normal com média O e va-
buídos. Neste caso, a média amostrai, agora um vetor, quando apro-
i= I
riância priamente normalizada através da subtração da média J1 seguida da·
multiplicaçã o pela raiz de n, converge em distribuição pãra a normal
a2 = -- ...... - = t;: -r;
bb' = (t A')(t A')'= t A'At'
...... ...... ......
O Teorema Central do Limite 279
278 Probabilidade : Um curso em Nível Intermediário
multivariada com média O e matriz de covariâncias ~. onde ~ é a ma- Prova. Pelo Teorema 6.3, basta provar que a função característica
(
triz de covariâncias (sup-;;sta finita) comum aos vetores. k-dimensional de Jn <8, - p) converge para a função carac-
( Como no caso de variáveis aleatórias, dizemos que os vetores terística da N(!b ~) em todo ponto} E IR:k, ou seja. basta provar que
aleatórios X I, X 2' ... são independentes se X I ' ...• X n são indepen- 1~1'/l "'
cp-<x - 111 (t)---+e - - - , vtE~. IT"bk
dentes par; todo n ~ 2; eles são identicam~te distribuídos se pos- ' " ....... " .....
.............. n- :r
suem a mesma distribuição, e para tanto. é evidente que os vetores Pelo método de Cramér e Wold (Proposição 6.1), basta provar
precisam ser de mesma .dimensão. Portanto, se ~ 1 , ~ 2 , ••• são vetores que temos a apropriada convergência em distribuição para toda com-
aleatórios k-dimensionais, definidos no mesmo espaço de probabili- binação linear das coordenadas do vetor Jn <E. -
J.!]. Especificamente,
dade (0.4. P). eles são independentes e identicamente distribuídos se. basta provar que se ~ = (X~> ... , X kl possui distribuição N(Q, ~).
e somente se, então '</L E IR!k,
Pi )v~
P(~ 1 E Bl, ... ,~~~E Bn) = jD P(! jE Bj), J-~ i=l n
.;
- ·+· ... + - X "-'--
n '--ti (XIL _...i...
i= I
ti X iquan don_. •Y.o. (7.3)
(
para todo n = 2, 3, . . . e para toda escolha dos borelianos k-dimen- Agora, o termo à direita de (7.3) possui distribuição normal uni-
variada. De fato, é fácil obterm~s a sua distribuição a partir da de-
(
sionais B ~> ... , Bn (i. e., '</ Bi E dl\ '</ j S:: n, '</ 11 ~ 2).
Se X = (X 1 , •••• X d é um vetor aleatório k-dimensional, dizemos finição de distribuição normal multivariada. Para tanto, notemos que
que tem-média finita se EX i = pi finito para j s; k, e neste caso !:! = existe uma matriz k x k, A, tal que !! tem a mesma distribuição que
(p 1 , ••• , !Jk) é chamado média de X. Dizemos que X tem variância XA, onde A' A = ~ e X = (Y1 , ... , Yd. com as lj independentes e
finita se a sua matriz de covariâncTas ~ é finita, i. e.,-se Cov (Xj, X) N(O, I). Isto significa ~ ....., XA e
é finita para todo par (i, j), I s; i s; k. I s; j s; k. Então, uma condi- k
ção necessária e suficiente para X possuir variância finita é que a va- 't·X·=
~ J )
tX'....., .......tA'Y'
-- _,
riância de X i seja finita Vj, I s; j ~ k, e é óbvio que neste caso ! tam- j= I
k
bém possui média finita.
Quando a matriz de covariâncias ~ for finita, ela será definida
de maneira que L ti X i tem distribuição normal com média zero
j=l
não-negativa (exercício 13), e pela discussão da última seção, existirá e variância igual à soma dos quadrados das coordenadas do vetor
a distribuição normal k-variada N(O, ~). Assim, estará garantida a .f. A', i. e.,
existência da distribuição limite no teorema que se segue.
Var( .± tixi) =!A'(! A')'= !A'At
TEOREMA 7.2. (Teorema Central do Limite para retores.) Sejam ;=I
vetores aleatórios k-dimensionais, indepen-
~ 1 , ~ 2 , •••
Como 4'A = ~. temos, então,
dentes e identicamente distribuídos. Suponha que !! 1 tenha rariância fi-
nita, e sejam Jl a média e ~ a matri= de cot•ariâncias de ~ 1 • Seja a g,. k
_L tiXi....., N(O,!~!'l·
média amostrãt, definida como a média aritmética dos retores!! 1 • ·... , ~ ,. ;=I
k
i - Jii)) ct 1
tp•i,;- JI))]=
3. Seja (X .1. :- 1 uma seqüência de variáveis aleatórias independente s
tais que X" tem distribuição uniforme em [-O, 11], V11. Mostre
que.: a condição de Lindeberg está satisfeita e enuncie o Teorema
Central do Limite resultante. (Calcule os parâmetros!)
= (linearidade) = I I 1ir 1E[(X 1 i - Jli)( X u- Jl)] =
i· I 1 I
4. Suponha que X X 2 . . . . sejam variáveis aleatórias independente s
1,
k k
k k 1
I I lit;Cov(X 1;.Xu)= I L 1 /; 1-u=~1-t tais que P(X" = - 11) = · = P(X" = 11). Mostre que a seqüência sa-
2
i- 1 i I i I i ··· l
tisfaz o Teorema Central do Limite mas não obedece à Lei Forte
Aplicando o Teorema Central do Limite (univariado). temos dos Grandes Números.
-z I-+---=-----
... + Z, D "
,\ ·'(0.!_ +-!) quami o n-> I . 5. Usando o Teorema Central do Limite para variáveis aleatl1rias
v· ll de Poisson. mostre que
Assim, (7.3) está verificada. D " I
lim e " I k! 2
sn sk
números são independente s. Sejam X 1• X 2 .. . variáveis aleatórias
7. Sejam X 1• X 2, ... variáveis aleatórias independente s. X" tendo
representand o uma seqüência de números aleatórios gerados por
densidade
computador (números "pseudo-alea tórios"). Supondo que as con-
dições estejam satisfeitas, enuncie versões da Lei dos Grandes
/~(X)= _.!__ e-lxl:n, XE IA:.
· 2n
Números e do Teorema Central do Limite para este caso. Dê uma
explicação intuitiva do significado dos dois teoremas neste caso. Seja Sn =X I + ... +X n· Demonstre que
2. Fregueses chegam em certo supermercad o segundo um processo S,- E_S....::."-I--->1 N(O. I).
de Poisson com intensidade média de dez por minuto. Sejam -./ Var S"
T 1, T2 , .•• os tempos entre chegadas de fregueses, de modo que
(Sugestiio. Use Liapunov.)
T1 + ... + T,, é o · tempo de chegada do 11-ésimo freguês .
282 Probabilidade: Um curso em Nlvellntermedi6rio
O Teorema Central do Limite 283
10. Sejam X 1, X 2 , ... variáveis aleatórias independentes e identica- I6. Demonstre que se X= (r 1, • • •, r.) é normal n-variada e a matriz
mente distribuídas tais que EX 1 = Jl e Var X 1 = a , onde
2 de covariâncias ~r é diagonal, então Y1o ... , r. são independentes.
2
O< a < oc . Seja (a.). ,. 1 uma seqüência qualquer de números Portanto, se Y1, .. ~ Y. têm distribuição conjunta normal n-variada
reais. Mostre que +
e Cov ( Y;, r) = O para i j, então Y~o .. ., r. são independentes.
(Sugestão. Função característica.)
p( s:7. ~ a.) - Cl>(a.)--> o. quando n--> XJ, 17. Se ?S e Xsão vetores aleatórios k-dimensionais tais que ?S e X são
independentes com ~ "" N(J!! ~x), !:: "" N({. ~!), qual a distri-
!. onde ci> é a função distribuição da N(O, I ). Note que esse resultado
buição de Z = X + Y? Generalize esse resultado para a soma de
n vetores i'iide.;ndentes.
é valido até no caso de não convergência de (a.). 2 1 • (Sugestão.
Use o resultado do exercício I 6 do Capítulo 6.) ; 8. Sejam X e r variáveis aleatórias independentes, cada uma com
distribuição normal. Prove que X + r .e X - r são independentes
l i. Sejam X 1• X 2, .. . variáveis aleatórias independentes tais que se, e somente se, Var X= Var Y. (Compare com o exercício 29
Xk-b(nk,p), onde O<p< I (pfixo). Vale o Teorema Central do do Capítulo 3.)
Limite neste caso? Por quê? (Sugestão. Não tente verificar a con- 1 9. Seja r= (r 1, •• •, r.) um vetor aleatório tendo distribuição normal
dição de Lindeberg.)
n-variãda com média ~ e matriz de covariânciàs ~I= A' A.
(a) Se B é uma matriz real n x k e .( um vetor real k-dimensional,
12. Explique se a seqüência Z ~o Z 2 , ... do exercício 18 do Capítulo 5
satisfaz o Teorema Central do Limite. Se satisfaz, calcule todos mostre que o vetor aleatório Z definido por Z = rB + ~ tem
os parâmetros. - Z
distrib.uição normal k-variada c~m média JJB + e m-;.triz de co:
-
(
(
O Teorema Central do Umite 285
284 Probabilidade: Um curso em Nível Intermediário
variâncias ;:z = B'A 'AB. (Sugestão. Obtenha a função carac- (c) Suponha que N = (N 1, .... Nk) possua distribuição multi-
terística de tJ. nomial com par1metros p 1, ••• , Pk e n. Calcule a covariância
entre N . e N t• onde j =I= {, utilizando o item (b) e a bilinearidade
(b) Partindo do item (a), obtenha a distribuição de Yi, para
j = 1, ... , n. Confira sua solução com a obtida no inicio do da cov~riância. (Compare com o resultado obtido no exercício
§7.2. 27 do Capítulo 6.)
(c) Mostre que todo vetor de dimensão m < n, cujos componentes (d) Enuncie· um Teorema Central do Limite para os vetores alea-
são componentes diferentes de Y. tem distribuição normal tórios §_1 • §_ 2 , ... definidos no item (b).
m-variada (por exemplo, (Y2 , Y5 ) é"i-tormal bivariada), e mostre
que sua matriz de covariâncias é uma submatriz de ;r.
20. Mostre que um vetor aleatório X possui distribuição normal
multivariada se. e somente se, tod; combinação linear dos com-
ponentes de X tem distribuição normal univariada (i.e.,
- k
~=(X 1, ... , Xn) é normal multivariada ~
k=l
L ak Xk é normal
(
V (a 1, ... , an) E !Rn).
§7.3
21. Seja (X Jl , ... , X Jd· j = I, ... , 11, uma amostra aleatória de tamanho
n de uma distribuição k-dimensional com média Jl = (p 1, ... , Jld
finita e matriz de covariâncias ~ = (aii). Seja (.X 1, ..~.X d o vetor
de médias (média amostrai). Demonstre que se 6i >O, j = I, ... , k,
temos
O símbolo "-" significa "tem como distribuição" ou "está distnbuído como" (por
exemplo: X - N(O, 1)).
REFERÊNCIAS n 1 N(p,J.1 2 , a~, a~,p) 63, 283
IR I Ic 65
(I] AHLFORS, L. V.- Complex Analysis, 2~ edição. McGraw-Hill, N. York, 12! 3 U(G) 65
1%6. . .9/ 5 g·'(B) 67
(2] APOSTOL, T.M. - Mathematical Analysis. Addison-Wesley, Reading, A- B 6 - exp(>..) 68
2
Massachusetts, 1957. .-?'(Q) 7 X (n) 85
(3] BICKEL, P.i. E DOKSUM, K.A.- Mathematical Statistics. Holden-Day, dfJ ]o, I]
8 EX 107
S. Francisco, 1977. . 8 Var X 121
(4] BILLINGSLEY, P. - Convergence of Probability Measures. Wiley, N. .142
8 ax 121
York, 1968. JR2 8 Cov(X, Yl 129
(5] BREIMAN, L. - Probability. Addison-Wesley, Reading, Massachusetts, .Jin 9 p(X, Y) 131
1968. P(A) 9 Fx(xlA) 145
(6] BREIMAN, L. - Probability and Stochastic Processes. Houghton Mifflin, An t ÇÍ li E(XlA) 145
Boston, 1969. , AntA,An-1-A 13 Fx(xlY = y) 147, 162
(7] CHUNG, K.L. - A Course in Probability Theory, 2~ edição. Academic P(A lB) 14 E(X l Y = y) 147, 174
Press, N. York, 1974. logx (= log,x) 24 E(X l Y) 147. 174
(8] FELLER, W ..- lntrodução à Teoria das Probabilidades e Suas Aplicações, lim supAn 29. 197 P(X E B I Y = y) ISS, 162
Parte 1. Edgard Blücher, São Paulo, 1976. Tradução parcial do Volume I, 3~ lim infAn 29, 197 f(xly) !59
edição americana (1968). Traduzido por Flávio Wagner Rodrigues. e Maria limAn 29, 198 192
35 Yn f. Y
Eliza Fini. c, c [A n infinitas vezes] 198
(9] FELLER, W. - An lntroduction to Probability Theory and lts Applica- #A 35 2~1
eix
tions, Volume 11. Wiley, N. York, '1966. [X ~ x) 36 221
37 '{!x
(lO] FERNÁNDEZ, P .J. - Introdução à Teoria das Probabilidades. Livros Fx c 222
Técnicos e Científicos, Rio de Janeiro; 1973. Coleção Elementos de Ma- F(x-) 38, 112 229
I[
temática, IMPA. N(O, I) 40, 50
40 Xn .Q. X 231
(li] GNEDENKO, B. - The Theory oj Probability. Mir, Moscou, 1976. Tra- [x)
dução para o inglês de Kurs Teoriia Veroiatnostei. U[O, I) 43 Xn .Q. N(O I) 236
(12] KOLMOGOROV, A.N.- Foundations ojthe Theory oj Probability. Chel- [XEB) 47 23g
.Px
sea, N. York, 1950. Tradução para o inglês de Grundbegriffe der Wahrs- N(J.l, a2 ) 51 (y 273
cheinlichkeits rechnung (1933). f(o:, il) 52 274
NÍJ!, ~)
(13] LEHMANN, E.L. - Testing Statistic Hypotheses. Wiley, N. York, 1959. b(n,p ) 53
(14] LIMA, E.L.- Curso de Análise, Volume 1. Projeto Euclides, CNPq, 1976. Fx 55
(15] MAISTROV, L.E. - Probability Theory: A Historical Sketch. Academic
Press, N. York, 1974. Tradução para o inglês de Teoriia Veroiatnostei /stori-
cheskii Ocherk (1967).
(16] RUDIN, W. - Princfpios de Análise Matemática. Ao Livro Técnico, Rio de
Janeiro, 1971. Traduzido por Eliana Rocha Henriques de Brito da 2~ edição
l (17]
americana (1964).
RUDIN, W. -Real and Complex Analysis. McGraw-Hill, N. York, 1966.
li
I
'
de uma função de X 118 de uma variável aleatória 37 Jensen, desigualdade de 114, 116, 141 Método do jacobiano 74-84, 95
no caso contínuo 120 exemplos de 40-41 para esperança condicional 175 · Mínimo de uma amostra aleatória 82
no caso discreto 120 marginal 63, 64 densidade conjunta de, com máximo 96
de uma função de X 127 n-dimensional 58 Khintchin , Lei Fraca de 197 Modelo probabilístico 13
no caso contínuÕ 127 propriedades de 38, 56, 58 veja Bochner-Khintchin Momento 120-121
no caso de independência 128 de freqüência 41 Kolmogorov 9 absoluto 121
no caso discreto 127 de probabilidade 41 desigualdade de 204 de ordem k 120
de uma variável discreta 104 definida positiva 251 Lei Forte de 210 k-é•imo 120
de variáveis não-negativas li O -escada 22 recíproca para 202 central 120
e assumindo valores inteiros 111 gama 52 primeira Lei Forte de 205 em torn o de b 120
do produto (se independentes) 128 geradora de momentos 227, 254 propriedades de 122-124
infinita 107 identidade 36 Laplace, veja De Moivre-Laplace Multinomial, veja distribuição multinomial
propriedades de 113-116, 122-124 Lebesgue, integral de 42, 107 Mutuamente exclusivos 4, lO
indicadora 65
Estatlsticas de ordem 82 mensurável 36, 67 medida de (nula) 42
densidade conjunta de 83 Lebesgue-Stieltjes, integral de 99 Não-correlacionadas 129
distribuição condicional quando dadas 172 Gama, veja distribução gama Lei ( = distribuição) 50 condições para implicar independência 142
Estocasticamente maior 139 Gauss 265 dos erros 265 · Normal, veja distribuição normal
Evento(s) 2, 3 dos Grandes Números 105, 189, 195 Normalização de uma variável aleatória 131
Geométrica, veja distribuição geométrica, pro-
aleatório 5 de Bernoulli 196 Números
( babilidade geométrica
normais 21 2
álgebra de 5 Fol'te dos Grandes Números 195
certo 3 de Borel 212 "pseudo-aleatórios" 95, 280
( Helly, Teorema de Compacidade Fraca de 235
disjuntos 10 Helly-Bray, Teorema de 232 de Kolmogorov 210
elementar 3 primeira 205 Observado 189
( Hipergeométrica, veja distribuição
impossível 3 hipergeométrica recíproca para 202
incompatíveis 4 estendida 219 Padronização de uma variável aleatória 131
independentes 18, 21 Fraca dos Grandes Números 195 Parâmetro
Identicamente distribuídos 82, 190
linguagem de 4, 27 de Khintchin 197 de configuração 53
vetores aleatórios 278
( mutuamente exclusivos 4, 10 i.i .d. 190 de Tchebychev 196 de e'cala 51
Experimento Lema de Borei-Cantelli 198 de locação 51
Incrementos
( composto 17, 189 Levy, Paul, Teorema da Continuidade de 234 do processo de Poisson 27
estacionários 22
de duas etapas 17, 148, 183 Liapunov, Teorema Central do Limite de 266 Partição do espaço amostrai 16, 145
independentes 23
( modelo matemático para 13 Limite de uma seqüência de eventos 29, 198 Permutações, invariância para 89
Independência
inferior 29, 197 Poisson , veja distribuição de Poisson, proces-
Exponencial, veja distribuição exponencial a pares 20
superior 29, I 97 so de Poisson
( critério para 60
Preditor, melhor 124
Feller, Teorema Central do Limite (recíproca) no caso continuo 62 Lindeberg, condição de 262, 263
264, 281 Teorema Central do Limite de 262 · Princípio
( no caso discreto 89
Linearidade da indiferença 4
Fórmula de eventos 18, 21
da esperança 113 127 da preservação de chances relativas I 59,
( da inversão 224, 239 de variáveis aleatórias 60
de Bayes 17 da esperança condicional 175 166
de vetores aleatórios 239, 241, 278
Freqüência relativa 9, 15 da integral de Stieltjes 100 da substituição 166
( critério para 241
Função para distribuição condicional 167
2 a 2 20
Markov 197 para esperança condicional 175
absolutamente contínua 42 hereditariedade de 60, 72
( característica 221 Indicador 65 desigualdade de 123 Probabilidade 10
caracterização de 251 Massa pontual 164 "a príori" 18
esperança condicional de 179
( como função geradora de momentos "Infinitas vezes" 198 Matriz de covariâncias 273 axiomas definidores de 9
227 é simétrica e definda não-negativa 274, 283 condicional 14
lntegrabilidade
Máximo de uma amostra aleatória 82 como esperança condicional 179
para vetores 257 critério para 115, 140
densidade conjunta de, com mínimo 96 de que X • B dado que Y = y 162, 163
conjunta 238 Integrador 97
( de um evento 9
continuidade uniforme de 223 Integral
Média 104 como esperança de probabilidade con-
de um vetor aleatório 238 de Lebesgue 42, 107
amostrai 85, 252 dicional 179
( definição alternativa de 222 de Lebesgue-Stieltjes 99
finitamente aditiva 10
coordenada 36 de Riemann-Stieltjes 97-99, 103 da normal n-variada 274
de um vetor aleatório 278 geométrica 4
( de Cantor 44-45 de Stieltjes 99-103
ponderada 104, 117, 252 "posterior" 18
de densidade de probabilidade 42 múltipla 127
Mediana 52, 125 t7 -aditiva 10
de distribuição 39 · Integral 107
( Medida Problema central do limite 261
acumulada 37 se limitada 115
de Lebesgue (nula) 42 · Processo de Poisson 22-27, 105, 149-152, 170
( condicional 145, 162
de probabilidade 10 análogo espacial 33
conjunta 55 Jacobiano 75
(
(
I de um vetor aleatório 55 método do 74-84, 95 Mensurável 36, 67 fluxo de tráfego como 32
t
(
(
(
~