BARRY R. JAMES. Probabilidade Um Curso em Nível Intermediário. (Projeto Euclides) - CNPq. 1981 (O.C.R.) - 2

(
barry r. james dificilmente sairá daqui.

É Pesquisador Associado do IMPA
É americano da Pennsylvania, e suas áreas preferidas de
criado em Minnesota. onde faz um pesquisa sào Probabilidade e
frio de rachar. ·
Estatisfica não· Paramétrica.
Bacharelou-se ("summa cum laude") Gosta de trabalhar em
no Williams College. Massachusetts. parceria com a esposa Kang Ung,
obteve o Doutorado (Ph.D) que também doutorou-se em
em Estatfstica na Universidade Estatistica na Universidade
da Califórnia e, um ano
da Califórnia, em Berkeley
depois (1972), veio para o Brasil e é Pesquisadora Associada
( (leia-se Rio de Janeiro), numa do IMPA. Ela. não sendo
trajetória que faz um ângulo agudo
co-autora do livro. não concordou
com o gradiente da temperatura, em sair na foto, o que
como se vê. Mantida esta condição, sem dúvida o torna menos atraente.
(
( probabilidade:
um curso em nível
intermediário
(
(
(
;
I '
!
(
( J
·® CNPq Conselho Nacional de De...-imento Cienlffico e léc"""

L~~Instituto de Matemática Pura e APlicada
'
bany r. james
probabilidade:
James, Barry R., 1942 -
Probabilidade: um curso em nível intermediário/Barry
R. James - Rio de Janeiro: Instituto de Matemática Pura
um curso em nível
e Aplicada, 1981
304 pp. (Projeto Euclides) intermediário
Bibliografia
1. Probabilidades
I. SÉRIE li. T(TULO
CDD-519.2
Instituto de Matemática Pura e Aplicada - CNPq

- ,.......
r Copyright © , by Barry R. James

Direitos reservados, 1981, por Conselho Nacional
de Desenvolvimento Científico e Tecnológico, CNPq,
Av. W-3 Norte, Brasília, DF
Impresso no Brasil / Printed in Brazil
Capa: Gian Cal vi Criação Visual Ltda.

CONTEÚDO
Projeto Euclides
Comissão Editorial
Cesar Camacho Manco PREFÁCIO ............................... .. .... ........................... ... ........... VII
Chaim Samuel HOnig
Djairo Guedes de Figueiredo CAPÍTULO I DEFINIÇÕES BÁSICAS
Elon Lages Lima § 1.1 Modêlo matemático para um experimento (modêlo probabilistico) ..
Guilherme de La Penha
ImreSimon § 1.2 Probabilidade condicionai.... ..... .... ............. ............ .. ... .......... 14
Jacob Palis Junior § 1.3 Independência ...... ..... .......... .. ............................... .............. 18
Lindolpho de Carvalho Dias Exercícios .. .. . . .. .. . . . . . . . .. . . . .. .. .. . . .. .. .. . . . .. . .. .. .. . . .. . . .. . . . .. . . .. .. .. .. .. . .. . .. . . 27
Manfredo Perdigão do Carmo
Pedro Jesus Fernandez
CAPÍTULO 2 VARIÁVEIS ALEATÓRIAS
Tftu/os já publicados: § 2.1 Variáveis aleatórias e funções de distribuição ............................. 35
I. Curso de Análise, vol. I, Elon Lages Lima § 2.2 Tipos de variáveis aleatórias ............................... .................... 41
2. Medida e Integração, Pedro Jesus Fernandez § 2.3 A distribuição de uma variável aleatória ..... ............................... 47
3. Aplicações da Topologia à Análise, Chaim Samuel HOnig 55
4. Espaços Métricos, Elon Lages Lima § 2.4 Vetores aleatórios .. ..... .. ....................... ... .............................
S. Análise de Fourier e Equações Diferenciais Parciais,· Ojairo Guedes de Figueiredo § 2. 5 Independência ....... .. .................... .... .. .. ........ ....................... 59
6. Introdução aos Sistemas Dinãm;cos, Jacob Palis Junior e Welington C, de Melo § 2.6 Distribuições de funções de variáveis e vetores aleatórios ... :........... 67
7. Introdução à Álgebra, Adilson Gonçalves § 2. 7 O método do jacobiano.... ....... ........... ........ ..... . .. .... .. . ...... .. .. . .. 74
8. Aspectos Teóricos da Computação, Cláudio L. Lucchesi; Imre Simon, Istvan Simon, 84
§ 2. 8 Observações adicionais- variáveis e vetores aleatórios .............
Janos Simon e Tomasz Kowaltowski 86
9. Teoria Geométrica das Folheações, Alcides Lins Neto e Cesar Camacho Manco
Exercícios . .. .. . . .. .. . . .. .. .. .. . .. .. .. . . .. .. .. .. .. .. . .. .. .. . .. . .. .. . . . . .. .. .. . . . . . . .. . . .. . .
10. Geometria Riemanniana, Manfredo P. do Carmo
11. Lições de Equações Diferenciais Ordinárias, Jorge Sotomayor
12. Probabilidade: Um Curso em Nível Intermediário, Barry R. James CAPÍTULO 3 ESPERANÇA MATEMÁTICA
13. Curso de Análise, vol. 2, Elon Lages Lima
§ 3 .I Preliminares: a integral de Stieltjes .. ... .. .. .. .. .. .. .. .. ........ .... .... .. .. . 97
§ 3.2 Esperança.................. ............................... ......................... 104
Publicação feita com auxilio da FINEr - Financiadora de Estudos e Projetos. § 3.3 Propriedades da esperança ............................... ...................... 113
§ 3.4 Esperanças de funções de variáveis aleatórias ............................. 11 7
§ 3.5 l\.1omentos ............................... ............................... ........... 120
§ 3.6 Esperanças de funções de vetores aleatórios.................. ............. 126
§ 3 .7 Teoremas de convergência ............................... ...................... 133
Composiçilo e arte:
AM Produções Gráfiças Ltda.
Exercícios .......................... ... ............................... ..................... 137
Impresso por:
Gráfica Editora Hamburg Ltda. CAPÍTULO 4 DISTRIBUIÇÃO E ESPERANÇA CONDICIONAIS
Rua Apeninos , 294- São Paulo- SP
§ 4.1 Distribuição condicional de X dada Y discreta ............................ 144
Distribuído por: 154
Livros Técnicos e Científicos Editora S.A. § 4.2 Distribuição condicional de X dada Y: caso geral ........................
Avenida Venezuela, 163 § 4.3 Definições formais e teoremas de existência ............................... 162
20.200- Rio de Janeiro, RJ- Brasil § 4.4 Exemplos. ............ .. ............................... ............................ 166
§ 4.5 Esperança condicional .................. .. ............................... ..... .. 174
Exercícios.................. ............................... ............................... . 180

CAPÍTULO 5 A LEI DOS GRANDES NÚMEROS
§ 5.1 Introdução às Leis Fraca e Forte dos Grandes Números ................ I 89.
§ 5.2 Seqüências de eventos e o Lema de Bovei-Cantelli ........................ 197
( § 5.3 A Lei Forte ........................ ........ ........................ ................ 202
Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. .. . . .. . .. . .. . . .. 215
CAPÍTULO 6 FUNÇÕES CARACTERÍSTI CAS E CONVERGf!NCIA

§ 6. I Funções características ........................ ........................ ......... 221
( § 6.2 Convergência em distribuição ........................ ................. ........ 231
§ 6.3 Função característica de um vetor aleatório ........................ ........ 238 PREFÁCIO
§ 6.4 Observações e complementos . .. ..... .. . ............. ............... .... . ..... 244
Exercícios . . . . . . . . . . . . . . . .. . .. . . .. .. .. . . . . . .. . . . . . .. .. . .. . . .. .. . .. .. . . . . .. .. . .. . .. . .. . . . . . . . 253
Le calcu/ des probabilités n 'est au jond que /e bon sens réduit au calcu/.
CAPÍTULO 7 O TEOREMA CENTRAL DO LIMITE - Laplaée
§ 7.1 O Teorema Central do Limite para seqüências de variáveis

261 A. Ao leitor.
( aleatórios ....................... ....................... ....................... .....
§ 7.2 A distribuição normal multivariada .. .. .... ... .. . .. .. . . .. .. .. . .... ..... .. ... 273
f
\
§ 7.3 O Teorema Central do Limite- caso multivariado ... ................... 277 O presente volume é oferecido para uso em cursos de Probabilidade
Exercícios .. . . . . . . . . . .. . . .. .. . . . . . . . . . . . . .. . . . . . .. . . . . . . . .. .. . . . .. . . .. . . . . . . . . . . .. . . . . . . . . . . 280 em nível "intermediário" , que devia ser entendido como o ní\'el entre um
(
REFERÊNCIAS ........................ ........................ ........................ 286 curso elementar de Introdução à Probabilidade e um curso mais avançado
( ÍNDICE DENOTAÇÕES. ....................... ....................... ............. 287 que trata de Probabilidade com base na Teoria da Medida e Integração. O
ÍNDICE ALFABÉTICO.. ........ ........................ ........................ .... 288 material aqui apresentado tem sido usado várias vezes em disciplinas de
(
Probabilidade em nível de início de Mestrado, mas também poderá ser
( usado em nível de graduação se alguns assuntos de natureza mais técnica
forem pulados. (Tais assuntos são indicados no texto pelo aviso que po-
dem ser omitidas "em uma primeira leitura".)
Este livro não pretende ser introdutório, embora eventualmente possa
ser usado como tal. Por exemplo, um assunto muito comum nos livros de
Introdução à Probabilidade, e que não será considerado aqui, é a teoria
I combinatória. É preferível, mas não necessário, que o leitor já tenha algu-
ma noção das distribuições discretas clássicas baseadas na contagem de
permutações, combinações, etc., tais como a binomial, hipergeométrica e
multinomial. Uma boa discussão dessas distribuições pode ser encontrada
em Breiman ([6], p. 19-31, em inglês) ou Feller ([8], traduzido para o
Português).
Para se poder acompanhar o texto deste livro, os reais prerequisitos
são um curso de Cálculo Diferencial e Integral e alguma familiaridade com
os conceitos básicos de conjuntos e funções. É bom que o leitor saiba lidar
com uniões, interseções e complementares de conjuntos, e conheça os con-
ceitos de imagem inversa de um Conjunto por uma função, supremo e ínti-
mo de um conjunto e limite de uma seqüência de números reais. Em caso
de uma eventual lacuna na formação do leitor nesta área de Análise,
recomenda-se uma consulta ao livro Curso de Análise (Volume 1), de Elon
Lima [14]. Lá se pode achar, também, definições e discussões de outros
de
do que costuma ser o trata men to
O Capítulo 4 é muito mais extenso abil ida-
o o li- nais em textos da Teo ria da Prob
de vez em qua ndo aqui , tais com dist ribu ição e espe ranç a cond icio
con ceit os anal ítico s que apar.:cem de Ric- esse capi tulo pod erá ser abre viad o,
pois
de núm eros reais , ou a inte gral de. Em caso de tem po exíg uo,
mite supe rior de uma seqü ênci a 2, e plos . Mas será bom se o alun o term inar
tipla s entr am em jogo no Cap ítulo cons iste, na mai or part e, em exem pre-
man n. Além diss o, inte grai s múl a e de- boa idéia intu itiva do prin cípi o da
tiver ouvido falar na matr iz jaco bian o capí tulo com , pelo men os, uma
será bom se até o §2.7 o leitor já r bom assi m taá cond içõe s de lida r no futu ro
pod erá ser en-: ontr ada em qua lque sen· ação de chances rela tiva s, pois
riva das parc iais, cuja defi niçã o usam-se men to, que é da mai or imp ortâ ncia nas área
s
ulo Ava nçad o . Fina lme nte, nos pará graf os 7.2 c 7.3 com apli caçõ es de con dici ona
ca (tan to Bay esia na
text o de Cálc preciso cást icos e Esta tísti
Álg ebra Line ar; em part icul ar, é de Con fiab ilida de, Proc esso s Esto
algu ns conc eito s elem enta res de res. na).
o de mat rize s c veto qua nto Nào -Bay esia
con hece r as regras de mul tipli caçã um enfa tisa r que não é necessário que
o
lque r dúv ida que surg ir sobr e o sign ifica do de Qua nto aos prcr equi sito s, que ro de Leb esgu e
Em caso de qua no- ria da Med ida e a integral
deve rá con sult ar a lista de símb olos c alun o tenh a con heci men tos da Teo
sím bolo usad o no text o, o leitor a, A espe ranç a mat emá tica de uma vari ável
fina l do livro . Proc urei fazer uma lista com plet para pod er aco mpa nha r o liHo . niçã o e
taçõ es que apar ece no
livro s, cita dos zand o-se da integral de Stieltjcs, cuja defi
men dáve l con sult ar os alea tóri a é trat ada utili cion a-
mas se pers istir a dúv ida, é reco ea §3.1. A inte gral de Leb esgu e é men
Fell er [8] . (A única dife renç a imp orta nte entr prop ried ades são abo rdad as no são tra-
acim a, de Lim a [14] ou A ição e espe ranç a cond icio nais
aqui o com plem enta r de um con junt o da apen as em obse rvaç ões. Dist ribu que
nota ção de [14] e a pres ente , é que seja , sem a rest riçã o aos caso s simp les
tada s em plen a gen eral idad e, ou abil idad e. Mas o
é repr esen tado por N.) s s de Intr odu ção à Prob
s de Mat emá tica deste nível, as lista cost uma m ser trat ado s em livro
Com o é sem pre o caso com livro definições part indo da con side raçã o de
ntís sim a do livro. Há gran de núm ero de enfo que ado tado é o que chega às to
de exercícios são part e imp orta ar no cond icio nais . A rcla~,·ão entr e este trata men
com puta cion ais, para ajud ar o leito r a se trein limites de prob abil idad es
que utili za o
exercícios pura men te e de-- Prob abil idad e Ava nçad a,
Há mui tos exer cício s que este ndem mais intu itivo c a abo rdag em de
cálc ulo bási co de prob abil idad es. form aliz ada no §4.3 (esta form aliz ação
text o, e alguns outr os que intr
odu zem Teo rem a de Rad on-N ikod ym, é
senv olve m idéias abo rdad as no por seçã o, e de com o é indi cado no text o).
cícios estã o arra njad os pod erá ser omi tida ,
idéias não con side rada s ali . Os exer orde m que ache i mai s
m colo cado s na
um mod o geral os problema~ fora esta regr a não foi segu ida
post erio r. Mas
con ven ient e para sua reso luçã o s os
lida de, e reco men do que o leitor ao menos leia todo
com mui ta fide
l de cad a seção, reso lven do em segu ida os C. Uma reta sobre terminologia.
exercícios qua ndo cheg ar ao fina uída s com os
s. Sugestões fora m incl livro, esbarrei freq uen tem ente no
que ele acha r mais inte ress ante que foge m ao níve l da Dur ante o proc esso de escrever este
eis, ou com os nata l,
exercícios que cons ider ei mais difíc o o port ugu ês não é min ha líng ua
ntra m. prob lem a de term inol ogia . Com .Mas desc obri vári os con-
seçã o em que se enco imo poss ível .
proc urei ser fiel ao idio ma ao máx em outr as
s por uma pala vra ou frase
ceitos que , emb ora repr esen tado por exem plo, o
ão aqu i no Brasil. Era,
línguas, poss uíam mai s de uma vers car a méd ia de uma va-
ncia " para indi
caso de "esp e_ranç a" c "exp ectâ ex-
isei, entã o, faze r uma escolha. Gos taria ago ra de
B. Ao professor. riável alea tória . Prec
s.
. plic ar min ha esco lha em três caso
sufi cien te para um curs o de semestre "exp cctâ ncia " surgiu em port ugu
ês co-
O mat eria l no livro é mais que o vez que foi (I) Pare ce-m e que a pala vra
e é de qua tro meses e, cada n". Poré m, a pala vra usad a em espa -
No IMP A, o curs o de Prob abil idad er mo trad ução do inglês "ex pec tatio
e livro , sentiu-se a necessidade de corr esta últim a send o usad a
usad a a apo stila prec urso ra de~t s. Cap ítulo s I, 2 e 3 nhol é "esp eran za" c em francês
é "esp éran ce",
ntos aqui presente i por "esp eran ça".
no final para abo rdar todo s os assu mais ou men os a met ade de desde, pelo men os, o século 18.
Por tant o, opte
ser feitos em que
form am a base do livro e pod em icas e tivo "co ndic iona l", em vários lugares em
. Mui tas dem onst raçõ es nos Cap ítulo s 5 c 6 são técn (2) Resolvi usar o adje
em "pro bab ilid ade
um perí odo assu nto da" , a sabe r,
os 6.3, 7.2 e 7.3 con stitu em um tam bém se usa "co ndic iona
pod erão ser omi tida s . Os pará graf omi tido dici ona l" e "esp eran ça con dici ona l".
Mul tiva riad a -qu e pod erá ser con dici ona l", "dis trib uiçã o con
especial - a part e da Esta tísti ca
para apre sent ação em uma aula no final do curs o.
ou até con den sado
Este livro não poderia ter acontecid o sem o apoio e incentivo constan -
tes dos meus colegas do IMPA. Estou especialm ente obrigado a Djalma
Pessoa, Elon Lima e Ruben Klein, não somente pelo apoio recebido, mas
Escolhi assim porque quando ocorre um evento, são ocorrênci as de outro.; também pela insistência deles de que o livro saísse o mais rápido possível.
Grande contribui ção foi dada pelas várias turmas de alunos do !M-
eventos e valores de variáveis aleatórias que estão sendo diretamen te
P A, através de suas perguntas , dúvidas, observaçõ es e, de modo geral, o
afetados (i.c., condicion ados), decorrend o daí as modificaç ões nas
probabili dades, distribuiç ões e esperança s através das respectivas "feedbac k" que deram em aula. Eles até emprestar am suas nmas e cader -
definiçõe s. Portanto, prefiro "condicio nal", mas talvez seja mais uma nos para ajudar a escrever a apostila em português . Não dá para citar tn ·
questão de gosto. dos os nomes aqui, mas a todos os alunos- e aos assistenk s (monitore s)
- gostaria de transmitir os meus agradecim enios especiais.
(3) Primeiro, considere mos um ext'mplo do problema : na expressão Finalmem e, chego à peça chave do livro: a minha esposa e colega ,
"leite de vaca puro", é óbvio, pela concordâ ncia, que não estamos opi- Kang. Descobri nestes últimos meses que o processo de escrever um livro
nando sobre a vaca . Mas .em espanhol , onde "leche" é feminina, a ex- envolve muito mais tempo e trabalho que eu pensa\'a. E foi ela que teve a
pressão seria altamente ambígua. Temos o mesmo problema em português paciência de agüentar tudo isso, inclusive abrindo mão de qualquer de.,-
com a expressão "Teorem a do Limite Central", atualmen te muito usado canso durante os feriados de dezembro para me ajudar. Ela leu vários
no Brasil. Assim como está, esta frase dá a nítida impressão de que é o li - capítulos com cuidado, fez muitas sugestões boas, e passou a limpo a
mite que seja central, o que na realidadt não faz sentido. Por isso, optei maior parte da apostila. Pela ajuda, pela paciência e pelo sacrifício, minha
pelo uso de "Teorem a Central do Limite", para afastar qualquer dúvida gratidão para com ela não tem limite.
sobre o que seja central
É interessan te que a frase em inglês, "Central Limit Theorem ", é Rio de Janeiro, maio de 1981.
também altamente ambígua , c acho que isto explica a tradução de uso cor- BRJ
rente no Brasil. Ocorre que a origem da expressão foi, aparentem ente, o
alemão e não o inglêc,. De fato, a expressão é frequente mente atribuída a
Pólya, que usou a fra se "der zentrale Grenzwer tsatz", i.e., o "central"
refere-se ao "teorema do limite".
D. Agradt?ci mcntos.
Este livro surgiu de notas de aulas usadas no curso básico de Probabi-

lidade do programa de Mestrado em Matemáti ca Aplicada do II\1PA. Um
curso mais ou menos parecido com o presente livro foi dado pela primeira
vez em 1976, e desde então as notas e a apostila resultante foram sendo
modificad as d~ ano em ano, até chegarem a seu estado atual, que é este li-
vro . Dei o curso três vezes neste período, e a apostila foi usada também
por meus colegas Pedro J. Fernánde z e Ricardo Frischtak , no IMPA, e
Anníbal Parracho Sant 'ana, no Instituto de Matemáti ca da UFRJ. Sou
muito grato a eles pelos seus comentár ios e sugestões.
As versões semifinais do manuscri to foram cuidadosa mente lidas por
Maria Eulália Vares e Sergio Wechster . Fizeram muitas sugestões para me-
lhorar a apresenta ção do texto e contribuí ram ao livro com vários
exercícios. Além disso, conseguir am corrigir grande número de erros de
português , ao mesmo tempo ajeitando a minha versão do idioma. A eles,
minha profunda gratidão. A propósito , devo dizer aqui que os erros de
português ainda restantes são unica c exclusiva mente da responsab ilidade
do autor.
CAPÍTULO I
DEFINIÇÕES BÁSICAS
§ 1 .1 Modelo matemático para um experimento

(modelo probabilístico)
Suponhamos que um experimento seja realizado sob certas con-

dições fixas. Seja n o conjunto de resultados possíveis, onde por "re-
sultado possível" entende-se resultado elementar e indivisível do ex-
perimento. n será chamado espaço amostrai do experimento. Por
exemplo:
EXPERIMENTO I. Jogar um dado equilibrado e observar o nú-
mero da face superior. É claro que n = {I, 2, 3, 4,
5, 6:, pois esses 6 resultados são os únicos possíveis. ("Número par",
por exemplo, não é resultado elementar, pois consiste dos 3 resultados
2, 4, 6.)
Às vezes, o conjunto de resultados possíveis não é tão fácil de

ser definido:
EXPERIMENTO 2. Selecionar ao acaso um habitante do Rio de Ja-
neiro e medir sua altura em metros. Quais os
resultados possíveis deste experimento? Números reais entre o e '2
Supondo que não exista uma altura máxima, talvez seja razoável fazer
n = (0, x ). Mas é evidente que esse conjunto contém resultados im-
possíveis, tais como um milhão ou um bilhão de metros. Outros can-
didatos para n seriam, por exemplo, os intervalos limitados (0, 3) e
[I /lO. 3]. Os dois intervalos contêm, aparentl.!mente, todos os resul-
tados possíveis do experimemo. Esta propriedade já é suficiente para
nossos propósitos, e podemos escolher qualquer desses intervalos (in-
cluindo (0, XJ )) para o espaço amostrai. De fato, a própria reta IR,
Definições Básicas 3
2 Probabilidade: Um curso em Nível Intermediário
embora contenha muitíssimos resultados impossívei~. pode represen- Aqui estão alguns eventos para esse experimento:
tar uma escolha muito conveniente para n.
principalmente no caso
origem é s -~ .. :
em que desejemos atribuir uma distribuição normal ao resultado (veja
.4 = "distância entre o ponto escolhido e a
o Capítulo 2). B ="distância entre o ponto escolhido e a origem é 2 15":
C= "].• coordenada do ponto escolhido é maior que a 2.•".
o
importante. então. é que n contenha todo resultado possível: Se w = (x. y) for o resultado do experimento. w será favorávei
por isso vamos supor: 1
ao evento A se. c somente se. x
2
+ y2 s ~- . c será favorável a C se.
(i) a todo resultado possível corresponde um. e somente um. pon-
to WEÜ: C c só se. x > y. Nenhum resultado será favorável a B. Logo temos :
(ii) resultados distintos correspondem a pontos distintos em n.
i. e .. w não pode representar mais de um resultado.
Ora. quando se realiza um experimento há certos erl!ntos que
ocorrem ou não. Por exemplo. no experimento I (jogar um dado e
observar o resultado) alguns eventos são:
B = 0 == conjunto vazio~
A = "observa-se um número par"
B = "observa-se o número 2"
C = ··observa-se um número 2 4...
C= :(x.y))EO :x > y:
Notemos que cada um desses eventos pode ser identificado a um
subconjunto de Q a saber: A= (2. 4. 6:. B = (2;. C= :4. 5. 6:. Esta
identificação de eventos c subconjuntos costuma sa realizável no caso
de um experimento qualquer. Então. todo evento associado a este experimento pode ser iden-
Com efeito. seja O o espaço amostrai e A um evento associado tificado a um subconjunto do espaço amostrai n. Reciprocamente .
ao experimento. i. e .. um evento que seguramente irá ou não ocorrer se A for um subconjunto qualquer de n.
i. e .• A C n, então será con-
sempre que for rcalindo o experimento. Para fixarmos idéias. supo- veniente identificar A e o evento "resultado do experimento perten-
nhamos que O consista exatamente nos resultados possíveis do expe- ce a A".
rimento. de modo que O não contenha resultados impossíveis. Su- Chegamos à seguinte definição. qw.: adotaremos no caso geral.
ponhamos. então. que (IJ seja o resultado do experimento. Se A ocorre. inclusive nos casos em que utilizamos um espaço amostrai maior que
dizemos que uJ é jilroráre/ a A. Se A não ocorre. dizemos que w não o estritamente necessário:
é favorável a A (ou ainda, que uJ é favorável ao evento "não A"). Iden-
DEFINIÇÃO 1.1. Seja no espaço amostrai do experimento. Todo
tificaremos o evento A e o subconjunto de O que contém todo oJ fa- subconjunto A c O será chamado erento. O é o
vorável a A. Por exemplo. consideremos o
evento certo. 0 o evento impossh·el. Se uJ E n, o evento [w; é dito e/e-
melltar (ou simples).
EXPERIMENT O 3. Escolher. ao acaso. um ponto do círculo (disco)
de raio I centrado na origem. Então Observação. Às vezes. identifi.;amos o evento [(!) l (= "resultado do ex-
perimento é w") e o ponto w. Como. por exemplo. na
n = círculo unitário = :(.x. y} E IFI: 2 : x 2 -+ y 2 s I:. indicação P((l)) = P( :w}l.
(
4 Probabilid ade: Um curso em Nlvel lntermedi ério Definiçõe s Básicas 5
É bom saber traduzir a notação de conjunt os para a linguagem DEFIN IÇÃO 1.2. Um evento A ao qual atrubuím os uma proba-
de eventos : A u B é o evento "A ou B", A (I B= "A c B", A'' = não A" bilidade será chamad o evento aleatório.
(i. e., ocorre o evento Ac se, e somente se, não ocorre o evento A);
A C B significa : a ocorrênc ia do evento A implica a ocorrênc ia do Na prática. o fato de não podermo s atribuir probabi lidade a todo
evento B ; A (I B = 0 significa: A E B são eventos mutuamente exclu- evento não nos causará problem as. No experim ento 3, por exemplo ,
sivos ou incompatíveis. (Para um exercício sobre essa linguagem, veja obviame nte é suficiente restringi r a nossa atenção aos conjunto s com
o exercíci o l.) área bem definida, pois os conjunto s sem área definida nunca surgem
na prática (de fato, é impossível visualiz ar um tal conjunto ).
A esta altura é razoável pergunt ar: a que eventos vamos atribuir Vamos supor, contudo , que a classe dos eventos aleatóri os possua
probabi lidade? Conside remos novame nte o experim ento 1, e seja A certas propried ades básicos e intuitivas, que serão essenciais para o
um evento, i. e., A c n. É evidente que podemo s atribuir probabil i- desenvo lvimento posterio r da teoria e do cálculo de probabil idades.
dade a A pois estamos jogando um dado equilibr ado. De fato, defi- Indican do com d a classe dos eventos aleatório s, vamos estipula r as
nimos: seguinte s propried ades para .s;( :
P(A) = #A = número de resultado& favoráveis a~- . AI. O E.w (definiremos P(il) = 1).
6 número de resultad os possíveis A2. Se A E.w, então A c Ed (é evidente que definiremos
Esta é a definiçã o clássica de probabi lidade quando Q é finito, e ba- P(A c) = I - P(A)).
seia-se no conceito de resultad os equiprov áveis, ou melhor, no prin-
A3. Se A E ..w' e B E.fiÍ, então A u B E.fli (i. e., se atribuirm os uma
cípio da indiferen ça (estamo s "indifere ntes" diante dos resultad os
1 probabi lidade a A c outra a B, então atribuire mos uma probabi lidade
1, 2, 3, 4, 5, 6 ; logo definimos P(i) = - V i E il). Então para o expe- a "A ou B".)
6
Em outras palavras, vamos supor que cf!Í seja uma álgebra de
rimento I, nossa resposta é que todo evento terá uma probabi lidade. eventos :
Conside remos agora o experim ento 3 (escolher um ponto ao acaso
no círculo unitário) . Aqui "ao acaso" será interpre tado assim: dois
eventos têm a mesma probabi lidade se, e somente se, eles têm a mes- DEFIN IÇÃO 1.3. Seja n um conjunto não-vaz io. Uma classe .fli de
ma área. (Essa probabi lidade é chamad a geométrica. Veja Gncden ko subconj untos de n satisfaze ndo AI, A2 e A3 é
[li], §6.) Essa interpre tação conduz à definição, para A c n. chamad a álgebra de subconj untos de n.
P(A) = ~rea A = ~rea :i_,

arca n 1t PROPO SIÇÃO 1.1. Seja .91 uma álgebra de subconjuntos de n. Então
ralem as seguintes propriedades :
se área A estiver bem definida. Acontec e que nem todo subconj unto A4. 0E.9/ e
de n tem uma área bem definida, i. e., nem todo evento tem uma pro-
babilida de. (De fato, segundo um teorema profund o da Teoria da Me- A5. v 11, v AI, ... , AnEd, temos u n .
AiEd e n
n
AiEd.
dida: não se pode definir P(A) para todo A c n de modo que P(A) = i= I i=!
=(área A)/7t para todo A cuja área está bem definida ; i. e., não po- Esta proposiç ão diz que uma álgebra é fechada para um número
demos estender a definição de P(A) para todo evento de modo a sa- finito de aplicaçõ es das operaçõ es u, (1, e c.
tisfazer os axiomas usuais, que serão vistos mais adiante. A prova disto
depende da Hipótes e do Contínu o.) Vamos, então, atribuir probabi - ProL'a. AI e A2 implicam A4. Para A5, temos A3=>A 1u A 2 E.~~
n
lidade somente aos eventos cuja área estiver bem definida. Tais even- =>(Ai u A.2)u A3 Ed => ... => U AiE.!<lf, por indução.
tos serão chamad os eventos aleatório s. i I
6 Probabilidade: Um curso em Nível Intermediário Definições Básicas 7
Agora basta observar que Podemos dizer, então, que uma a-álgebra é fechada para um nú-
mero enumerável de aplicações das operações u , n e '.
/J Ai= (0.AJ
e aplicar sucessivamente A2, a parte já provada de A5 e, novamente,
EXEMPLOS (de a-álgebra de eventos aleatórios).
A2. O
(1) Caso discreto. Se O for finito ou enumerável, então d será
(Exercício. Demonstre que .91 é também fechada para diferenças, i. e.,
se A Es# e B Es#, então A- B E.<;;/, onde A- B =A n Bc.) (usualmente) a a-álgebra de todas as partes de n, i. e., .91 = 9(0). Por
exemplo, no experimento l, onde O= {l, 2, 3, 4, 5, 6}, temos .91 =
= 9(0) = {0, {1 }, {2}, ... {6}, {1, 2}, ... , 0}. A classe .91 tem 26 = 64
Sem perda de generalidade (veja a segunda observação a seguir), elementos, de modo que há 64 eventos aleatórios associados a este ex-
vamos supor que a classe dos eventos aleatórios também satisfaça: perimento. No caso finito geral, se O tem n elementos, 9(0) tem 2".
oc
O leitor deveria se convencer do fato de 9(0) ser uma a-álgebra, ve-
A3'. Se A.Es# para n= I, 2, 3, ... , então U A.E .<;;/.
n; l rificando Al, A2 e A3:
r (2) Caso contínuo. Consideremos o
DEFINIÇÃO 1.4. Uma classe .r# de subconjuntos de um conjunto
não-vazio O satisfazendo A I, A2 e A3' é chamada EXPERIMENTO 4. Selecionar, ao acaso, um ponto do intervalo
a-álgebra de subconjuntos de O. [0, I]. Aqui, O = [0, I] e .91 = todos os sub-
conjuntos cujo comprimento esteja bem definido. Quem são esses
Observações. (1) Uma a-álgebra é sempre uma álgebra, pois A3 é con- conjuntos? Consideremos primeiro uniões finitas de intervalos e seja
seqüência de A3:já que Au B = Au Bu Bu B ... E.<;;/ d 0 ={A c[O,l]: A é . união finita de intervalos}. Notemos ques# 0
se .91 é a-álgebra. é álgebra, pois o Ed 0• se A Es# o então Ac também é união finita de
(2) Podemos supor, sem perda de generalidade, que .91 é uma intervalos, A3 é trivial. O conjunto vazio 0 e o evento elementar
a-álgebra em vez de álgebra, pelo Teorema da Extensão de Carathéo- {w}, onde w E [0, I], serão interpretados como intervalos degenerados
dory. Este teorema da Teoria da Medida garante que uma probabili- de comprimento O, portanto serão elementos de .91 0 • Mas .91 0 não é
dade definida em uma álgebra, e de acordo com os axiomas usuais, a-álgebra, pois não contém toda união enumerável de intervalos, como
pode ser estendida de uma única maneira para a a-álgebra gerada teria que conter se fosse a-álgebra. Por exemplo, o evento
pela álgebra. (Para entender o significado de "a-álgebra gerada pela ' .
álgebra", veja o exercício 6.)

(3) Em inglês, usa-se às vezes o termo "field" (corpo) no lugar
de "álgebra" e "a-field" no lugar de "a-álgebra". Para o tradutor de
A = (O, ~)u ( +·!)u (!, ~ )u. . u(I - ;• .I - 2 .~1)u. .
Gredenko (veja [li]). a-álgebra é "Borel field". Em francês, é "tribu". é união enumerável de intervalos mas óbviamente não é união finita.
Então a classe de eventos aleatórias será maior e mais complicada
que d 0 . Aliás, ~ bem claro que A é um evento aleatório, pois seu com-
PROPOSIÇÃO 1.2. Seja .91 uma a-álgebra de subconjuntos de O. primento pode ser definido somando-se os comprimentos dos inter-
valos componentes, fazendo com que comprimento (A)= I = P(A).
Outro evento que não pertence a .91 0 , mas cuja probabilidade
pode ser definida, é o conjunto dos racionais, {r E [0, I]: r racional}.
Qual a probabilidade de selecionar um número racional? É claro que O
é ó único candidato para o comprimento do conjunto dos racionais,
pelo seguinte argumento:
8 Probabilidade: Um curso em Nlvellntermediário
Sejam r 1 • r 2 •••. os racionais em [O. I], e seja A. o intervalo aber- descrita como união enumerável de retângulos. Aliás, todo subcon-
to de centro r. e comprimento ej2", onde e > O. Então, junto do plano que pode ser desenhado ou visualizado é boreliano,
"- e podemos dizer a mesma coisa sobre os borelianos da reta, do es-
B = {r. : n = I, 2, ... J C ,,U
_ t
A •• paço, etc.
No caso de n geral, :JB" é a a-álgebra de Borel no IR", i. e., a menor
e o comprimento do conjunto dos racionais satisfaz a-álgebra contendo todos os retângulos n-dimensionais (os retângulos
comprimento (B) ~ comprimento (.v,A.) tridimensionais, por exemplo, são os paralelepípedos retângulos no IR 3 ).
" e
~ L"- comprimento (A.) = L 2
• = e. Até agora, temos definido a probabilidade de um evento aleató-
n 1 n= I rio utilizando algumas definições clássicas (resultados equiprováveis,
Como o comprimento de B é menor que ou igual a e, pa"ra todo probabilidade geométrica). Outro método de definir probabilidade é
e >O, ele é igual a zero. (Um argumento alternativo : como B é união o da freqüência relativa: poderíamos definir P(A) como o limite da
enumerável dos intervalos degenerados disjuntos {r. }. todos de com- freqüência relativa da ocorrência de A em n repetições independentes
primento zero, o comprimento de B é a soma dos comprimentos dos do experimento, com n tendendo ao infinito, i. e..
componentes, ou seja, comprimento (B) = 0.)
Os eventos A e B acima são uniões enumeráveis de intervalos 1
P(A) = lim - x (número de ocorrências de A em 11 '"ensaios'"
e, portanto, pertencem a toda a-ãlgebra que contém os intervalos. n - 7. n
Neste livro, nossa a-álgebra de eventos aleatórios para o experimento 4 independentes do experimento).
será a a-álgebra gerada pelos intervalos, i. e., a menor a-álgebra que
contém todos os intervalos (veja o exercício 6). Esta a-álgebra é cha- Essa é a definição "freqüentista" ou "estatística" de probabilidade.
mada a-álgebra de Borel em [0, I] e seus elementos são chamados Baseia-se na experiência, comum a todos nós, da estabilidade da fre-
borelianos. Notação : !Ml 0 • 11 =( A C [0, 1]: A boreliano ). qüência relativa de ocorrência de eventos, quando realizamos muitas
repetições do experimento. Essa definição foi usada por von Mises
Obserr·açào. Vamos indicar com J9 a a-álgebra de Borel na reta, i. e .. na construção de uma teoria de probabilidade. Não é, contudo, a
a menor a-álgebra contendo todos os intervalos. Os ele- definição, que adotaremos neste livro, mas será obtida no Capítulo 5
mentos desta a-álgebra são os borelianos da reta. Em termos intuiti- _ como conseqüência da construção axiomática de probabilidade que
vos, um borefiano é um conjunto que pode ser obtido de um número começaremos agora.
enumerável de intervalos aplicando-se as operações u . r. e " um nú- Não vamos nos preocupar, doravante, com o problema de como
mero enumerável de vezes. O conjunto dos racionais. por exemplo. definir probabilidade para cada experimento. Simplesmente, vamos
é boreliano por ser união enumerável de intervalos degenerados (pon- admitir que existem as probabilidades em uma certa a-álgebra .91 de
tos). O conjunto dos irracionais também o é, pois é complementar de eventos, chamados eventos aleatórios ; vamos supor que a todo"A E.fil
união enumerável. seja associado um número real P(A~ chamado probabilidade de A,
Definições e notações análogas valem para dimensões maiores que de modo que os axiomas a seguir sejam satisfeitos. (Essa construção
2
um. Por exemplo, :JB 2 é a a-álgebra de Borel no plano IR , i. e., a menor axiomática de probabilidade se deve a Kolmogorov - veja a referência
a-álgebra contendo todos os retângulos. A idéia intuitiva de boreliano [12] - e conseguiu proporcional à Teoria da Probabilidade uma base
no plano é a de um conjunto que pode ser obtido partindo-se de um matemática firme.)
número enumerável de retângulos e aplicando-se as operações u, r.
e < um. número enumerável de vezes. Entre os borelianos do plano AXIOMA I. P( A) ~ O.
encontram-se as regiões abertas, porque toda· região aberta pode ser AXIOMA 2. P(Q) = I.
1O Probabilidade: Um curso em Nlvel Intermediário
AXIOMA 3. (Aditividade finita). Se A 1 , •..• A. E.~ são disjuntos (2 a 2~ Ocorre que, dados os Axiomas 1, 2, 3, o Axioma 3' é equivalente ao:
entã~ P( Ü
k= I
Ak) = t
k= I
P(Ak). (Os eventos são disjuntos, ou AXIOMA 4. ("Continuidade no vazio"). Se a sequência (A.). ~ 1 , onde
A. E.~ V n, decrescer para o vazio, então PIA.)-+ O quan-
disjuntos 2 a 2, se são mutuamente exclusivos, i. e., A; n A i= 0 se
do n-+ 'X!.
i :F j.)
Observação. decresce para o vazio (A.! 0) significa A.) A. +1
(A.). ~ 1
V n, ou seja, (A.). ~ 1 decresce, e (J A.= 0.
Observações. Como A1u A2 u A3 = (A 1u A2 )u A3 , podemos usar in- n? I
dução para mostrar que o Axioma 3 está satisfeito (para

PROPOSIÇ ÃO 1.4. Dados os Axiomas 1, 2, 3, o Axioma 4 é equiva-
todo n) quando está satisfeito para n = 2. lente ao Axioma 3' (i. e., uma probabilidade fini-
Uma função P satisfazendo Axiomas I, 2 e 3 é chamada pro-
tamente aditiz•a é uma probabilidade se, e só se, é contínua no vazio).
babilidade finitamente aditiva. Embora alguma coisa tenha sido feita
com tais probabilidades (veja, por exemplo, Dubins e Savage: How Prova. (i) Suponhamos o Axioma 3'. Sejam A 1 , A 2 , ••• E.fll tais que
to Gamble if You M ust), é matematicamente mais conveniente supor A.! 0. Queremos provar que P(A.)-+ O. Temos
,.
a-aditividade :
A1 = (A 1 - A 2 )u (A 2 - A 3 )u ... = U (Ak- Ak+Jl,
AXIOMA 3'. (a-aditividade). Se A ~o A 2 , ... E .~ são disjuntos (i. e., mu- k I
tuamente exclusivos). então pelo diagrama:
PROPOSIÇ ÃO 1.3. O Axioma 3' implica o Axioma 3, i.e., se P é

a-aditiva, então é finitamente aditira.
Prova. Suponhamos satisfeito o Axioma 3', e sejam A 1 , ...• A. E .91
disjuntos. Notemos inicialmente que P(0) =O, já que
P(Q) = P(Qu 0 u 0 u ... ) = P(Q) + P(0l + P(0) + ....
Os "anéis" Ak- Ak +1 são disjuntos, porqne a seqüência é decres-
Definamos Ak = 0 para k = n + 1. n + 2, .... Então A 1 , A 2 , ••• são cente, e pertencem a d, já que .91 é fechada para diferenças (veja o
disjuntos. logo exercício seguinte à Proposição 1.1.). _Pelo Axioma 3',
"-
P(AI) = L P(Ak- Ak+tJ,
k=l
portanto a série é convergente e

" P(Ak). o
= L
+ P(0) + P(0) + n- 1
o o o
k=l L P(Ak -
k~ 1
Ak+ tl -
n-:r_
P(A tJ.
DEFINIÇÃ O _1.S. Uma função P definida numa a-álgebra .91 e satis- Pela aditividade finita,
fazendo os Axiomas 1, 2 e 3' chama-se uma medida
de . probabilidade em .91 ou simplesmente uma probabilidade em .r;/. P(Ak - Ak+ I) = P(Ak} - P(Ak - tl.
12 Probabilidade: Um curso em Nivellntermediário
logo Caso particular importante: P(0) = I - P(O) =O.

n- I
P(Ad = lim L (P(Ad- P(Audl = lim(P(A 1 ) - P(Anll, P2. O::;; P(A)::;; I. (Conseqüência do Axioma I e Pl.)
n--+ f 1.: ~ 1 n· ... f
P3. A 1 C A 2 = P(A d::;; P(A 2 ). (Pela aditividade finita, P(A 2 ) = P(A tl+
e então P(A")--+ O. -1- P(A 2 - A d ~ P(A tJ, pelo Axioma I.)
P( y A)::;; ;L P(A;).
(ii) Suponhamos o Axioma 4 e sejam A 1 , A 2 •... u:l disjuntos. Que- I n ' n
P4. (Pela aditividade finita,
remos provar que P( Ú A") = Í P(A,). Seja A = Ú A,, então 1 1
n· 1 n 1 "-"- 1
P(A. 1 u A 2 ) = P(Ad + P(A 2 n A'd::;; P(A 1) + P(A 2 ),
A = (.u A,)u c v+ A,) por P3, já que A 2 nA\ C A 2 . Completa-se a prova por indução.)
e pela aditividade finita.

1 1
P5. P(ú
1
A) : ; ;Í 1
P(A;). (Exercício 2.)
P(A) =
11
± +A ú A,J
I
P(A,)
'" k+ 1
P6. (Cominuidade de probahilidadt'). Se A,
A, 1 A, emão P(A") ~ P(A).
i A, elltào P(A,) i P(A ). Se
Pro1·a de P6. Vamos supor que A" 1 A, i. e .. que A,) An+ 1 V n e

Seja Bk = U' A,, então Bk 10 e portanto P(Bk)--+0 (pelo Axio- il A, = A. Então, P(A,) ~ P(A,+ d. por P3, c
,l k t I n ~,. I
ma 4). Logo (A,-A)10=P(A"-A)--+0, pela continuidade no vazio. A aditivi-
k
I P(A,)----> P(A). dade finita implica P(A, -·A)= P(A")- P(A). pois A C A,. Resumindo.
" I k -~ f
temos P(A")- P(A)--+0 e [P(A,l}n. 1 decrescente. logo P(A,Jl P(A).
'
1. e .. P(A) = L P(A,J O Se A,TA (i. e., A,CAn+ 1 Vn cU A,=A), então A~1A'. Logo
n ?- 1
" I
P(A~llP(A'). ou seja. I- P(A,)11- P(A); portanto P(Anli P(A). 0
COROLARIO. Os dois seguimt's sistemas de axionws são e(jllimlen-
les: Modelo probabilíslico. Terminamos a formulação do modelo matemá-
Sisii:'IIW I: Axiomas L 2. 3'. tico para um experimento. ou modelo proba-
Sislema I I: Axiomus I. 2. 3. 4. lístico. É constituído de:
Prom. O sistema I é equivalente aos Axiomas L 2. 3. 3'. pois já vimos (a) L'm conjunto não-vazio Q de resultados possíveis, o espa~·o
que o Axioma 3" implica o Axioma 3. Agora basta aplicar a amoslral.
Proposição 1.4. [J (b) Uma a-álgebra .r;/ de erenlos aleatórios.
(c) Uma probabilidade P definida em rd.
Obserração. Então para verificar se P é probabilidade em .c/. basta
verificar os axiomas do sistema I ou os axiomas do sis- Agora vamos retirar nosso modelo do contexto de um experi-
tema 11. mento c rcformulá-lo como um conceito matemático abstrato.
DEFINIÇÃO 1.6. Um espaço dl:' probabilidade é um trio (Q si. P),

Propriedades de probabilidade. Seja P uma probabilidade em uma a- onde (a) n
é um conjunto não-vazio,
álgebra .cl. Suponhamos que todo A (b) s~ é uma a-álgebra de subconjuntos de Q c
abaixo pertença a (.;. Então as seguintes propriedades são conseqüên- (c) P é uma probabilidade em .r.i.
cias dos axiomas: A partir de agora. tudo será estudado em espaços de probabilidade.
Pl. P{A') = I - P(A). (Conseqüência dos axiomas 2 e 3.) apesar de mantermos a linguagem de experimentos e eventos. (Já vimos
14 Probabilidade: U m curs., em Nlvellntermediário Definições Básicas 15
que todo modelo probabilístico é um espaço de probabilidade. Re- Probabilidade condicional possui uma interpretação intuitiva em
ciprocamente, o espaço de probabilidade (Q, .>#, P) pode ser consi- termos de freqüências relativas. Pensando em probabilidade como li-
derado um modelo para o experimento "selecionar um ponto de n con- mite de freqüência relativa, temos
forme a probabilidade P". Se o leitor quiser, poderá continuar conside-
rando um espaço de probabilidade como um modelo probabilístico.) I
P(A B) = P(A 11 B) =
P(B)
1
lim - x (número de ocorrências de" A e B" em n ensaios independentes do experimento)
n
n-+a::
§ 1.2 Probabilidade condicional -

lim _!_ x (número de ocorrências de B em n ensaios independentes do experimento)
N-+oc n
..I' DEFINIÇÃO 1.7. Seja (Q, .>#, P) um espaço de probabilidade. Se

B Es<l e P(B) >O, a probabilidade condicional de A = I. número de ocorrências de A
tm ~~~~~~~~-=-~~~~~~-
11 B em n ensaios
•-oc número de ocorrências de B nos mesmos n ensaios
dado B é definida por
Então, quando n é grande, P(A I B) é aproximadamente igual ao
P(A I B) = P(A (\ B) A E.W.
P(B) quociente do número de ocorrências de A e B sobre o número de
ocorrências de B em n ensaios independentes do experimento, i. e.,
P(A I B) é aproximadamente a proporção, entre os experimentos em
Observação. Se P(B) = O, P(A I B) pode ser arbitrariamente definida. que ocorre o evento B, daqueles em que o evento A também ocorre.
A maioria dos livros faz P(A IB) = O, mas é mais interes- (Para uma aplicação desta interpretação a um caso específico, veja
I I
sante fazer P(A B) = P(A) para que P(A B) seja uma probabilidade o exemplo ·4 adiante.)
em .r;;/ (como função de A). É também conveniente, por independência, Decorre da definição que P(A n B) = P(B) P(A IB), e esta igual-
fazer P(A I B) = P(A) - veja § 1.3. dade é válida também quando P(B) = O. Esta igualdade se generaliza:
sendo A, B, C eventos aleatórios, temos P(An B nC)=P(A)P(BIAl·
Consideremos um diagrama de Venn: · P( C I A n B). Isto pode ser visto pelo seguinte diagrama, pensando nas
probabilidades de todos os eventos como proporcionais às suas áreas.
B
A B
Se A e B são desenhados de modo que as áreas de A, B e A n B sejam c

proporcionais às suas probabilidades, então P(A I B) é a proporção do
evento B ocupada pelo evento A. Note que P(A I B). A Es<l, é real-
mente uma probabilidade em.># (verifique os axiomas!). Conseqüen-
I'
temente as propriedades de probabilidade são mantidas, por exemplo : (Prova formal: P(A n B n C) = P(A n B)P(C I A n B) =
I
P(A' B) = I - P(A B). I . = P(A)P(B IA)P(C\ A(\ B ).)
!
Definiçõe s Básicas 17
16 Probabilid ade: Um curso em Nlvellnter mediário
Por indução, temos o seguinte Para todo evento B E.Sil, temos B = U(A; n
j
B). Como os A; são
TEORE MA 1.1. (Teorema da Multiplicação ou Teorema da Probabili- disjuntos, então os B n A; são disjunto s e
dade Composta). Seja (!L111', P) um espaço de proba-
P(B) =I P(A; n B) =I P(A;) P(B I A;) :
bilidade. Então i i
(i) P(A n B) = P(A)P(B IA) == P(B)P(A IB), V A, B E.Sil,

(ii) P(A 1 nA 2 n .:. n An) = P(AdP( A 2 1AdP(A 3 IA 1 nA 2 ) . . •
P(An iA 1 n ... nAn - d. VA 1 , ••• ,AnE.91, Vn=2,3 , ....
EXEMP LO 3. Selecionar três cartas de um baralho, ao acaso e sem
reposição. Qual a probabi lidade de tirar 3 reis?
Seja A; o evento "tirar rei na i-ésima extração". Então (com A =

= "tirar 3 reis") temos
Logo temos o seguinte

Verifiquemos através da distribuição h ipergeométrica :
TEORE MA 1.2. (Teorema da Probabilidade Total (ou Absoluta)). Se a
P(A) =
(~)- (~) 4 · I · 3 ! · 49! 4· 3· 2
sequência Uinita ou enumerável) de eventos aleatórios
AI> A 2 , ••• formar uma partição de Q então
- 52-,- - = 52· 51· 5Õ .
= L P(A;) P(B I A;), v
CJ) P(B)
j
B E .91.
Agora suponha mos que A 1 , A 2 , ... sejam eventos aleatório s mu- Usando esse teorema, podemos calcular a probabi lidade de A;
tuament e exclusivos e exaustivos (i. e., que os A; sejam disjunto s= mu- dada a ocorrência de B :
tuament e exclusivos e u A;= 0). Então os A; formam uma partição
do espaço amostra i n: P(A ·I B) = P(A; C2~ = P(A ·I B) = P(A;) P(B I A;) .
I P(B) I LP(A j) P(B IA j)
j
n
Esta é a formula de Bayes. Ela é útil quando conhecemos as proba-
bilidades dos A; e a probabi lidade condicional de B dado A;, mas
não conhecemos diretamente a probabi lidade de B :
EXEMP LO 4. Experimento de duas etapas (experimento composto).
Supor que uma caixa contenh a três moedas: duas hones-
tas e uma de duas caras. Retirar uma moeda ao acaso e jogá-la. Per-
gunta: qual a probabi lidade condicional da moeda ter sido a de duas
caras, dado que o resultado final foi cara?
Este é um experimento de duas etapas, e queremo s .calcula r a
Vamos admitir que a seqüência A~> A 2 , ... seja finita ou enu- probabi lidade de um evento determi nado pela primeira etapa dado
meráve l- então, por exemplo, A é Ac formam uma partição , V A E.Sil. um evento determi nado pela segunda. Sejam, então, A 1 = "moeda re-
18 Probabilidade: Um curso em Nfvef Intermediário Definições Básicas 19
tirada é honesta", A 2 ="moeda retirada é a de duas caras", e B = "re- PROPOSIÇÃO 1.6. Se A e B são independentes, então A e B" tam-
sultado final é cara". bém são independentes (e também Ac e B, e ainda
Aplicando a fórmula de Bayes, temos Ac e B").
I . I Prova. Supor A, B independentes. Então P(A n Bc) = P(A)- P(A n B) =

3 I =(pela independencia) = P(A)- P(A)P(B) = P(A) (1 - P(B) ) =
--- - - 2. = P(A) • P(JJ<). O
2 I_ + _1_ . I
3 2 3 Aqui está uma justificação intuitiva da Definição 1.8 : B é inde-
pendente de A se tanto a ocorrência quanto a não ocorrência de A
Podemos interpretar este resultado da seguinte maneira, em ter- não afetam a probabilidade de B ocorrer, i. e., P(B I A) = P(B) e
mos de freqüência relativa: se o experimento fosse repetido indepen- P(B I Ar) = P(B). Estas duas equações significam que
dentemente um grande número de vezes, então a moeda de duas caras
seria a escolhida na primeira etapa de aproximadamente metade dos
P(A n B) = P(A) P(B IA) = P(A) P(B) e
experimentos em que o resultado final fosse cara. P(Ac n B) = I

P(A') P(B A c) = P(Ac) P(B);
pela Proposição 1.6, basta uma destas últimas equações para a de-
Observação. A fórmula de Bayes é, às vezes, chamada de fórmula de finição.
probabilidades "posteriores". Com efeito, as probabilida-
des P(A;) podem ser chamadas probabilidades "a priori" e as P(A; IB), ObserPação. Se A n B= 0. então A e B não são independentes (a
.I probabilidades "a posteriori". menos que um deles tenha probabilidade zero).

EXEMPLO 5. No experimento I, os eventos A = "observa-se um nú-
mero par" e Ac = "observa-se um número ímpar" não
são independentes. Intuitivamente, porque não são compatíveis, e for-
§ 1.3 Independência malmente, porque
DEFINIÇÃO 1.8. Seja (!l, .91, P) um espaço de probabilidade. Os even-

tos aleatórios A e B são (estocasticamente) indepen-
P(A n Ar) = P(0) = O #- !- = P(A) P(Ac).
dentes se
EXEMPLO 6 .. No experimento 3, os eventos
P(A n B) = P(A) • P(B).
A = "distância entre o ponto escolhido e a origem é :$; ~"
Observação. Eventos de probabilidade zero ou um são independentes e
de qualquer outro : se P(A) =O, então P(A n B) =O e A e B C= "I." coordenada do ponto ~scolhido é maior que a 2.""
são independentes, V B Ed. Se P(B) = 1, então P(A n B) = P(A)- são independentes, pois o evento C ocupa metade da área do evento A,
- P(A n B') e, como A n Bc c B< implica P(A n B') :$; P(B") = O, fazendo com que (veja os desenhos no §1.1)
temos P(A n B'') = O e P(A n B) = P(A) = P(A) P(B). Logo A e B são
independentes, V A Ed. P(A n C) = área (A 0_Cl = _!_ = - . _I = P(A) P( C)
n 8 4 2 ·
i í PROPOSIÇÃO 1.5. A é independente de si mesmo se, e somente se,
P(A) =O ou l.
Como vamos definir a independência coletiva de três eventos
Prova. P(A) = P(A nA)= P(A)P(A)<=>P(A) =O ou l. O aleatórios A, B e C? Queremos não somente que C seja independente
20 Probabilidade: Um curso em Nivellntermediário Definições Básicas 21
'i de A, de B. e que A e B sejam independentes (i. e., que os três eventos

seJam independentes 2 a 2), mas também que C seja independente de
Outro exemplo ainda mais intuitivo pode ser encontrado em Feller
(Vol. I. 2.• edição, §V. 3) : no lançamento de dois dados honestos,
A n B, A n W, etc. Isto é, queremos que a ocorrência do evento "A e B" sejam os eventos A = "face ímpar no primeiro dado", B = "face ímpar
não afete a probabilidade de ocorrência de C, etc. Por exemplo, quere- no segundo dado", C= "soma ímpar das duas faces". É fácil ver que
mos que P(AnBnC)=P(AnB)P(C)=P(A)P(B)P(C), o que não é A, B, C têm, cada um, probabilidade l /2 e são independentes 2 a 2.
uma conseqüência da independência 2 a 2 : Mas eles não podem ocorrer simultaneamente, de modo que
AnBnC= 0 e
DEFINIÇÃO 1.9. Os eventos aleatórios A;, i E I (I um conjunto de
índices), são independentes 2 a 2 (ou a pares) se
P(A n B n C) = O :f. S1 = P(A) P(B) P( C).
P(A;nA)=P(A;)P(Ai) Vi,jEI, i:f.j.
EXEMPLO 7. Independência a pares não implica independência co- DEFINIÇÃO l.lO. (a) Os eventos A 1 , ... , A" (n ~ 2) são chamados
letiva. Seja n um conjunto de quatro pontos, com os (coletivamente ou estocasticamente) independen-
eventos A, B, C assim definidos: tes se · l t
P(A;, nA;, n ... n A;m) = P(A;,) P(A;,) ... P(A;J
A
V I~ i 1< i 2 < ... < im ~ n, V m = 2, 3, ... , n (i. e., se todas as combina-
ções satisfazem a regra produto).
(b) Os eventos A 1 , A 2 ... são independentes se Vn ~ 2, A 1 , A 2 , ... , A"
são independentes. · 1
(c) Os eventos A;, i E I (onde I é um conjunto de índices tal que
c #I~ 2) são indepimdentes se toda subfamília finita deles é de eventos
independentes, i. e., se A;,, A;,, A;, ,. .. , A;m são independentes para toda
combinação {i1 , ••• , im } de elementos de I, Vm = 2, 3, ....
Seja P(w) = ~, V w E O. Então P(A) = P(B) = P(C) = ~ e
P(A n B) = ! = P(A n C)= P(B n C). Logo A, B. C sã~ independen-

Obserrações. (l) Tais eventos são chamados, às vezes, estatisticamente
ou mutuamente independentes.
tes 2 a 2. Mas (2) Vemos pelo item (c) que toda subfamília de uma família de
eventos independentes é de eventos independentes.
P(A n B n C)= ~:f.+ = P(A) P(B) P(C).
(Notemos que O suporta no máximo 2 eventos independentes de pro- Vamos ver agora que a Definição 1.10 é consistente com nossa
babilidade + cada, pois # n = 4. Para que existissem três eventos
idéia intuitiva de independência (por exemplo, no caso de três eventos
A, B, C, o evento C é independente de A n B, de A n B'·, de A c n B,
independentes de probabilidade +· n precisaria conter pelo menos

de A< n W ; esJ)ecificamente, P(A n Bc n C)= P(A) P(W) P(C), etc.).
PROPOSIÇÃO 1.7. Se os el'entos A;, i E I, são independentes, então

8 pontos, pois haveria 8 eventos incompatíveis de probabilidade · os eventos B;, i E I, também são independentes,
8
cada : A n B n C, A c n B n C, etc.) onde cada B; é igual a A; , ou A~ (ou um ou outro).
~I
Prova. Pelos itens (a) e (c) da definição, basta provar que toda subfamília chegarem durante um período de duração t depende apenas de t e
finita dos B; satisfaz a regra produto. Para tanto, é suficiente não da hora e nem do dia. Esta hipótese não é satisfeita na prática,
provar que se A 1 , • •• , A. são independentes, então P(B 1 n ... n B.) = mas é uma boa aproximação durante curtos períodos de tempo, por
n exemplo, durante o horário do pique.). Esta hipótese implica
= 0 P(B;), onde B; =A; ou B; =A ~. Esta prova é semelhante à prova
i= I P(A~.,) = P(A~./,g Pk(t).
da Proposição 1.6, usando indução finita. (Exercício: complete a prova.
HIPÓTESE 2. (Incrementos independentes.) Os números de chegadas du-
Se quiser, pode ver Fernandez [10], Lema 4.3.1).0
rante intervalos disjuntos de tempo são independentes
EXEMPLO 8. O procéso de Poisson. Consideremo s o número de te- (ou seja, A~.r e A~ .•. são independentes para toda escolha de k e j se
lefonemas que chegam em uma central telefônica. (s, s + t] n(u, u +v]= 0. e temos independência também no caso de
Vamos contar o número de chamadas que chegam até o tempo t, 3, 4, 5, ... intervalos disjuntos).
para todo t ~ O. Podemos representar um resultado possível deste HIPÓTESE 3. As chamadas chegam sozinhas e não simultaneamente.
experimento por meio de uma função-escada : Isto será interpretado em termos de probabilidad es con-
Esta função é
número de
um resultado dicionais da seguinte maneira: a probabilidad e condicional de terem
chamadas
típico, um típico chegado duas ou mais chamadas em (0, t ], dado que chegaram uma
wEu
,__ ou mais chamadas em (0, t ], tende a zero quando t-+ O. Isto quer dizer
que
probabilidad e de chegada de duas ou mais chamadas em (0, t] -+
0
1- probabilidad e de chegada de uma ou mais chamadas em (0, r] •-o '
tempo i. e.,
I - P (r) - P t(tl
A cada tal função w corresponde um resultado possível do expe- - - -º--- - -+0 quando t-+0,
I - P0 (t) '
rimento (chamadas chegam em r 1 , r 2 , 13 , .. . ),e cada resultado do expe-
rimento gera uma função deste tipo (sob certas suposições que estão ou equivalentemente,
adiante). Então podemos fazer íl =conjunto de todas as funções-es-
cada cqm gráfico do tipo que aparece acima = {w : [0, :r.- )-+ {O, I, 2. ... } 13 P 1(t) -+ l, quando t-+ O.
1 - P0 (t)
O < t 1 < t 2 < ... (t. i oc ) tal que w(t) =O para c E [0, ttJ, w(t) =I para
tE [t 1 , t 2 ), ... ,w(t)=n em [t.,t.+ Jl, ... }. Podemos calcular agora as probabilidad es Pk(t). Vamos começar
Agora, seja o evento A ~. , = "chegam exatamente k chamadas no com P 0 (t) = P(A8,,), e mostraremos que é uma função exponencial do
intervalo (s, s + r]", para s, 1 ~O; k = O, I, 2, .... Então, tipo e - ;.r.
{wEíl : w(s + r)....:. w(s) = k}, s, t ~O, k =O, I, 2, .. .. Como não chega telefonema algum no intervalo (0, t] se, e so-
A~. r =
mente se, nenhum telefonema chega nos n intervalos
Vamos supor que a u-álgebrad contenha todos os eventos A~ .• (daqui
a pouco calcularemos a probabilidad e destes eventos). Vamos fazer as
seguintes hipóteses :
HIPÓTESE I. (Incrementos estacionários). A probabilidade de chega- temos
. da de k telfdonemas no intervalo (s, s + t] depende so-
~ente de t e não de s (i. e., a probabilidad e de exatamente· k telefonemas A8.r = A8.rtn 1\ A~n.t/n 1\ ... 1\ A?n - llt /n .rtn ·
24 Probabilidade: Um curso em Nlvel Intermediário Definições Básicas 25
Pela hipótese 2 (os intervalos são disjuntos), estes eventos são Observação. É claro que P 0 (0) = I, pois o evento "nenhuma chegada
independentes. logo em um intervalo vazio de tempo" é o evento certo. Formal-
mente,
P 0 (t) = fi
n-1 ( )
P( Ag:•. ,1.) =(pela hipótese I)= P'Q _I_ , V t > O, V n.
n A~ 0 = {wE O: w(s)- w(s) =O}= O.
i=o
Então, Conseqüentemente, P 0(t) = e-;.•para t ~O e P0 é contínua em [0, OC·).

P 0 (mr) = Põ(t)
e Obteremos agora as probabilidades Pk(t), para todo valor de k.
O método que utilizaremos consiste na aplicação das hipóteses para
obter equações diferenciais satisfeitas pelas funções Pk. com a subse-
qüente solução destas equações. A derivação a seguir, até a fórmula
(1.2), pode ser omitida em uma primeira leitura.
para todo m e n ( == I, 2, 3, ... ).
Em outras palavras, se r> O é racional, P0 (r) = Pó(!). Ora, P0 (t) Sejam k ~ I , s ~ O e r >O. Então chegam k telefonemas em (0, s + t]
é uma função decrescente, pois se, é somente se, ou chega nenhum em (0, s] e chegam k em (s. s + r].
r s s = A8., C A8., = P 0 (1) ~ P 0 (s). ou chega um em (0, s] e chegam k - I em (s, s + t], ou . . . . Isto é,
Logo para r> O fixo e r 1 , r2 racionais tais que r 1 s ts r 2 , temos AÍ.s+r = (A8_. n A~_,)u (AA,. nA:.~ )u ... u (At,. nA~,).
1
Pó'(l) = P 0 (r; ) ~ Po(t) ~ P 0 (r 2 ) = Pó'(l). Os eventos A~.snA~.~; são disjuntos em i, e para todo i os eventos
A~ .• e A~.~; são independentes (pela hipótese 2, pois os intervalos (0, s]
Se rdt e r2 !t, então Pó'(l)!P~(l) e Pó2 ( l )jPb(l~ logo
e (s, s +r] são disjuntos). Logo
P 0 (t) = P~(I) Vt>O. k k
Podemos supor O < P0 ( I) < I, para evitar um caso trivial (P 0 ( I)= I)

Pk(s + t) = L P(A~.s) P(A:.~;) = L P,{s) Pk - ;(t) =
i=O i=O
e outro que contradiz as h1póteses (P 0 (1) = 0). Com efeito. se P 0 (1) k-2
fosse igual a um, teriam os P0 (t) = I para todo t >O, i. e .. com pro- = LP;(s)Pk _,{() + Pk - l(s)PI(t) + Pk(s)e ;.,
i=O
babilidade 1, nunca chegaria nada. Esse é um caso trivial que não é I
de maior interesse na prática. Por outro lado, se P0 ( I) fosse igual

a zero, teríamos P0 (r) =O para todo t >O, i. e., para cada r >O, have- Como P 0 (t) = e- ;.,•. a regra de L'Hôpital implica que
ria probabilidade um de chegar pelo menos um telefonema em (0, r].
Portanto, teriam que chegar pelo menos dois telefonemas em (0, r], lim 1 -- PQ(!l = lim 1 - _e- ;.,' = )..
r-o I r-o t
com probabilidade um, pois a chegada de pelo menos um em
(O, ~ J e pelo menos um em ( T' J r (este evento também seria de

Pela hipótese 3 temos, então,
probabtltdadc um, pela hipótese 1), implica a chegada de pelo menos lim ~.!!1 = lim { P 1(t) · .!.!._- Po.!Ql_} = À.
dois em (0, r]. Em consequencia disto. teríamos I - P 0 (l) = I e r- o t r-o (I - Po(t)) l
I - Po(t) - P.(l)= I para todo t >0, contradizendo assim a hipótese 3. e
Definindo À = - log P0 (1 ), temos o resultado enunciado, i. e.,
P 0 (t) = e - ;.r, t >O.
Agora, indicaremos com P~(s) a derivada a direita de P, em s: Fazendo
P~(s) = lim P~(s+t)_-_ P.(sl_ =

p 1(1) = (' ;,, Q(t).
r-o I temos Q(O) =O e Q'(t) =i.. de modo que Q(t) =i.! e
= lim r:~: Pk~i~ + Pk

P;(s)
'] P 1(l)=).te.;,', 1;?.0.
r-o I A solução geral, para k = O, I. 2, .. . . é
Aplicando as três fórmulas acrma, temos {_.'./) k

•
-).r
(1.2)
Pk ()
I = - e t ~ 0.
k! '
. Pk(s)(e-;,'-1)
hm - ----- - -- ~ = - )_ P.{s). (Exercício. Verifique essa solução indutivamente. através da solução
r-o I
direta das equações diferenciais. ou através da substitui-
lim P.__ J!s)Pdt]_ =; p ção nas equações da solução proposta.)
. •- ds).
·-o I ·
k- 2
I P;ls) P, ;(/) Ohserra~·iics. Provamos. então. que o número de chegadas até o tem-
Os
I () i () po t possui distribuição de Poisson com parâmetro i.t
= (fazendo i= k - i) =
(veja o Capitulo 2 para a definição de distribuição). ).t é o número mé-
k dio de chegadas durante um período de duração t; i. é o número mé-
1
I 2
P)t) I - P 0 (1)- Pdt) dio de chegadas durante um intervalo unitário de tempo (veja o Ca-
s -,~)O. pitulo 3). i. é chamado o parâmetro do processo de Poisson. Como
representa, neste exemplo. uma taxa média de chegadas, é também
Portanto, a derivada à direita é (trocando s por I) chamada taxa ou intensidade do processo.
Poderíamos mostrar que nossas três hipóteses determinam uma
P~(t) = i. P. _ dl) - i. Pdt), ( 1.1 ) probabilidade na rT-álgebra gerada pelos eventos completando A: ...
para t ~O e k = I. 2, .... Podemos provar que, para t >O. a deriva- assim um modelo· probabilístico para o processo de Poisson.
da à esquerda é a mesma, usando a equação
k
Pds) = I o P;(s- I)P._;(/).
i.
EXERCÍCIOS DO CAPÍTCLO
Resta, então. resolver as equações diferenciais ( 1.1.). sujeitas às con-
dições iniciais
I. Sejam A, B e C eventos aleatórios. Identifique as seguintes equa-

e levando-se em conta que ções e frases. casando cada equação expressa na notação de con-
juntos com a correspondente frase na linguagem de eventos:
Po(t)=e-"', t~O.
(a) A n B r. C= A~_.. Bu C (i) A e "B ou c· são incom-
A solução pode ser obtida por indução. Para ilustrar o método, patíveis.
obtaemos Pdt), que satisfaz a equação (b) A n Bn C = A (ii) Os eventos A, B, C são
P'dt) =À. Po(t)- À. Pdt) =i. e ;,, - ), Pdt). idênticos.
,
I
(c) A u B u C = A
(d) (A u B u C) - (Bu C') = A

(iii) A ocorrência de A implica
a de " B e C.
(i v) A ocorrência de A decor-
dadc (Q, si, P), e definam-se
Definições Básicas
7. Sejam A 1 , A 2 • ... eventos aleatórios em um espaço de probabili-·

29
re da de "B ou C". lim sup A, =

n-+ Gt:
n"
n =l
:f.
U Ak,
k ~ n
2. A partir dos axiomas, prove a propriedade P5:
p(.01A.) ~ .~~ P(A,). lim in f A, =

n-+ oc.
"'
U n"' Ak.
n ::;;: 1 k = n
(Veremos uma interpretação intuitiva desses eventos no §5.2.) Se

3. Sejam A1 , A 2 , ... eventos aleatórios. Mostre que: lim sup A, = lim inf A, = A. chamamos o evento A de lim A, (li-
(a) P (l\ Ak) 2 1 - ktt P(A~). mite de A,). Demonstre que se A = lim A,. então P(A,)-+ P(A)
quando 11-+ % .
(b) Se P(Ad 2 1 - E; para k = 1, .. , 11, então P(l \ Ak) 2 1 - n~:. 8. No jogo de "Craps" dois dados são jogados. Se o jogador tira 7
ou 11 pontos ele ganha. Se ele tira 2, 3 ou 12 ele perde. Nos outros
(c) P(l\ Ak) 2 1 - kt1P(A/J casos ele continua jogando os dois dados até sair 7, caso em que
ele perde. ou então sair o primeiro resultado, caso em que ele ga-
4. Demonstre as seguintes propriedades :
nha. Descreva o espaço amostrai. Qual é a probabilidade dele
(a) Se P(A,) = O para 11 = I, 2, .... então P~·~1 A,) = O. ganhar?

9. Uma caixa contém 211 sorvetes, n do sabor A e 11 do sabor B. De
(b) Se P(A,) = I para n = 1, 2, .... então P n A, = I. um grupo de 2n pessoas, u < 11 preferem o sabor A, b < n o sabor B
n ~ 1
e 211- (u + b) não t~m preferência. Demonstre : se os sorvetes são
distribuídos ao acaso, a proabilidade de que a preferência de todas
.5. Demonstre : se A 1 • A 2 • .. . e B 1 • B 2 ... são eventos aleatórios do
mesmo espaço de probabilidade tais que P(A,)-+ 1 e P(B,)-+ p. as pessoas seja respeitada é de ( 2n- u -
n -u
b)
' (2n) .
quando n-+ ::r.. , então P(A, n B,) -+p. 1 n
10. Suponhamos que dez cartas estejam numeradas de I até 10. Das
o. Seja O um conjunto não-vazio. dez cartas. retira-se uma de cada vez.. ao acaso e sem reposição,
até retirar-se o primeiro número par. Conta-se o número de reti-
(a) Prove: se d e :dd são a -álgebras de subconjuntos de Q, então
radas necessárias. Exiba um bom modelo probabilístico para este
dn dd também é uma a -álgebra.
(b) Generalize o item (a): se d;. i E / , são a-álgebras de partes experimento.
de n. onde 1 é um conjunto não-vazio de índices. então n.wi 11. Para cada um dos seguintes experimentos, descreva um espaço
ie/
de probabilidade que sirva de modelo.
também é uma a-álgebra.
(c) Seja "6 uma classe de subconjuntos de O. Mostre que existe (a) Seleciona-se um ponto, ao acaso, do quadrado unitário
pelo menos uma a-álgebra que contém 1(,, (Sugestão. Qual a {(x, y) : O~ x ~ 1, O~ y~ 1}.
"maior" classe de subconjuntos de 0?)
(d) Visando a plena utilização dos itens (b) e (c), como você defi- (b) Retiram-se cartas sucessivamente de um baralho de 52 cartas,
niria "a menor a-álgebra contendo 1(, ", onde C(. é uma classe ao acaso e com reposição, até retirar-se o primeiro rei. Re-
de subconjuntos de O'? gistra-se o número total de retiradas.
J.
I 30 Probabilidade: Um curso em Nlvel Intermediário
(c) Quinze bolas são retiradas, ao acaso e com reposição, de uma

urna contendo 5 bolas vermelhas, 9 bolas pretas, e uma bola
15. Suponha que n cartas numeradas de I até n sejam embaralhadas
e retiradas uma por uma, sem reposição, até todas as cartas se-
branca. Observa-se o número de vezes que ocorra cada cor. rem retiradas. Qual a probabilidade de que para pelo menos uma
(d} O experimento (c) é realizado sem reposição. carta, o número da carta coincida com o número da retirada '?
(Observação. A resposta é igual à do exercício 14 (b). Por quê?).
12. Retiram-se 4 cartas, ao acaso, de um baralho de 52 cartas. Re-
gistra-se o número de reis na amostra. Exiba um bom modelo
probabilístico para este experimento se : ~1.2
(a) As retiradas são feitas sem reposição. 16. Seja (Q, .911, P) um espaço de probabilidade e suponha que todos
(b) As retiradas são feitas cmn reposição. os conjuntos abaixo pertençam a .r#. Prove :
(c) Determine em que caso, (a} ou (b), é mais provável obter 4 (a) Se os A. são disjuntos e P(B I A.) ~ c para todo 11, então
reis. P(B Iu A.) ~ c (pode supor P(A.) > O para todo 11).
13. (a) Sejam A, B e C eventos aleatórios em um espaço de probabili- (b) O item (a) com "=" no lugar de '"~ ".
dade (Q, ,'4/, P). Mostre que P( Au B) = P(A) + P(B)- P(A n B) (c) Se A. ) An + 1 e P(An + 1 IA.) s ~ para todo 11, então P(A.)-> O
e P(Au 81....· C)= P(A) + P(B) + P(C) - P(A n Bl- P(A n C) -
quando 11-> Y_.
- P(B n C) + P(A n B n C).
(d) Se os A. são disjuntos e P(B I A.)= P(C I A.) 'r/ n, então
(b) Enuncie a generalização do item (a) para o caso da união de
n eventos aleatórios. P(B iu A.)= P(C iu .4.).
(c) Prove as seguintes desigualdades de Bm!fi!rroni': (e) Se .4 1 , .4 2 , .. . são disjuntos e u .4. = il, então
(i) J 1
~ i~i ~ • P(A ; n A i } s PC~ A
P(A;) -
1
)s I
P(B C) = L P(A. IC) P(B I A.
"
(I C).
sI" P(A ;)- I P(A ;nA)+ L P(A ;n Ain Ad.

i= 1 1~ i <j ....:. n I i< j < k
17. Suponha que a ocorrência ou não de chuva dependa das condi-
n ções do tempo no dia imediatamente anterior. Admita-se que se
(ii) Se k é ímpar, k s 11, ·então chove hoje, choverá amanhã com probabilidade 0,7 e que se não
rCü,A;) sJl P(A;l - Is i,~ i, ~ n P(A ;, (I .4 ;) +

chove hoje choverá amanhã com probabilidade 0,4. Sabendo-se
que choveu hoje, calcule a probabilidade de que choverá depois
+ ... (- I )k 1 I P( .4 i 1 (I ... (I A ;.}; de amanhã.
l iI ' Ík ti
18. Certo experimento consiste em lançar um dado equilibrado duas
se k é par, k s n, vale ~ nesta última desigualdade. vezes, independentemente. Dado que os dois números sejam dife-
14. (Problema de casamentos.) rentes, qual é a probabilidade condicional de
(a) pelo menos um dos números ser 6, e
(a)' No exercício I, se você identificasse ao acaso as equações e
(b) a soma dos números ser 8?
frases, qual a probabilidade de que você acertaria pelo menos
um casamento ? 19. Em teste de múltipla escolha, a probabilidade do aluno saber a
(bl Resolva o item (a) para o caso em que há n equações e n frases resposta é p. Havendo m escolhas, se êle sabe a resposta êle res-
para serem identificadas. (Sugestão. Use o exercício 13 (b).) ponde corretamente com probabilidade I ; se não sabe êle responde
(c) Mostre que a probabilidade considerada no item (b). converge
I
corretamente com probabilidade _!_, Qual a probabilidade que êle
para p = quando 11 -> :x. m
.e sabia a resposta dado que a pergunta foi respondida cor.retamente'?
Definições Bésicas 33
32 Probabilidade: Um curso em Nfvel Intermediário
25. Consideremos um experimento em que será contado o número de es-

Calcule o limite desta probabilidade quando (i) m-+ x com p fixo
trelas em uma região Iongíqua do espaço, a região sendo de vo-
e (ii) p-+0 com m fixo.
lume V Façamos as seguintes três hipóteses, que são análogas
20. (De Femandez[IO].)Durante o mês de novembro a probabilidade espaciais das hipóteses do processo de Poisson :
de chuva é de 0,3. O Fluminense ganha um jogo em um dia com
(H 1) A probabilidade de achar k estrelas na região depende so-
chuva com a probabilidade de 0,4 ; em um dia sem chuva com
mente de ~~
~ probabili~~de de 0,6. Se ganhou um jogo em novembro, qual
(H2) Os números de estrelas contadas em regiões disjuntas do es-
e a probabilidade de que choveu nesse dia?
paço são independentes.
21. (De Femandez [10].) Pedro quer enviar uma carta a Marina. A (H3) Duas estrelas não ocupam o mesmo lugar.
probabilidade de que Pedro escreva a carta é de 0,80. A probabili-
Interpretando estas hipóteses de maneira semelhante à do pro-
dade de que o correio não a perca é de 0,9. A probabilidade de
cesso do Poisson, obtenha o valor de Pk(V) =probabilidade de
que o carteiro a entregue é de 0,9. Dado que Marina não recebeu
achar exatamente k estrelas na região de volume V.. Aqui, o pa-
a carta, qual é a probabilidade condicional de que Pedro não a
râmetro À. é . a densidade este/ar na vizinhança da região sendo
tenha escrito '?
considerada.
26. N pontos são escolhidos, independentemente e ao acaso, de uma

esfera (bola) de raio R. ·
22. Sejam A 1 , ••• , A. eventos aleatórios independentes, com Pk = P(Ad.
k = I, ... , n. Obtenha a probabilidade de ocorrência dos seguintes (a) Calcule a probabilidade da distância entre o centro da esfera
eventos, em termos das probabilidades Pk: e o ponto mais próximo ser maior que r.
(b) Qual o limite da probabilidade obtida no item (a) quando
( (a) A ocorrência de nenhum dos Ak.
(b) A ocorrência de pelo menos um dos Ak. R-+ x e : 3
-+ -} nJ.? (Observação: este ), é o mesmo do exer-
(c) A ocorrência de exatamente um dos Ak.
cício anterior.)
(d) A ocorrência de exatamente dois dos Ak .
(e) A ocorrência de todos os Ak .
27. Acende-se uma lâmpada no instante t = O. Para t > O, seja
(f) A ocorrência de, no máximo. n - I dos Ak. Q(t +~~ I t) a probabilidade condicional da lâmpada queimar até
23. Sejam A 1 •• •• , A. eventos aleatórios independentes, com Pk = P(Ak). o instante ·r + ~t, dado que ficou acesa até o instante t. Suponha
k = I. .. . , n. Faça uma adaptação das desigualdades de Bonferroni que 'v't>O, _Q_(~:~t \tl_.;,r quando ~t-+0, onde À. >O não de-
(exercício 13 (c)) para este caso, expressando-as em termos das Pk .
pende de t. (Este limite é chamada taxa de falha da lâmpada. Neste
24. Em certa rodovia, a intensidade média do fluxo de tráfego é de
exemplo, a taxa de falha, À.t, é proporcional à idade.)
3? carros ~or minuto. Um medidor é colocado na rua para re-
gistrar o numero de carros passando por cima. Suponha válidas (a) Ache a equação diferencial satisfeita pela função P(t) =proba-
as três hipóteses do processo de Poisson, adaptadas para a con- bilidade da lâmpada ficar acesa até o instante t. Você pode
tagem de carros em vez de telefonemas, e calcule: supor que a função P seja contínua, com P(O) = I, e que as
derivadas à direita e à esquerda sejam iguais.
(a) A probabilidade de que dois ou mais carros sejam registrados
"(b) Resolva a equação diferencial do item (a).
durante determinado intervalo de dois segundos. (c) Obtenha e resolva a equação diferencial satisfeita por P(t)
(b) A probabilidade de passar mais de um minuto até registrar
quando a taxa de falha é constante ( ~ ).).
o primeiro carro.
34 Probabilid ade: Um curso em Nível Intermediá rio CAPÍTU LO 11
2X. Lma lâmpada está acesa no tempo 1 =O. Sempre que a lâmpada
queimar , é substitu ída por uma lâmpada nova. embora isso não VARIÁ VEIS ALEATÓRIAS
seja feito imediata mente. Suponh a que para todo r > 0:
IH I) dado que a lâmpada esteja acesa no instante r. a probabi-
lidade dela estar queimad a no instante 1 + L'.t. dividida por
L'.t, converg e para ;, quando /'.r-. 0: e
(H2l dado que a lâmpada esteja queimad a no instante I, a pro-
babilida de dela estar novame nte acesa em 1 + L'.t. dividida § 2.1 Variáv eis aleató rias e funçõe s de distrib uição
por L'.t. converg e para Ç quando L'.t-> O. ()., ~ > 0.)
Informa lmente. uma variável aleatória é um característico llltfl/(;·
(a' Seja P(l) a probabi lidade da lâmpada estar acesa no instante rim do resultad o de um exp~rimento. Pnr exemplo :
I, t;::: O. Ache a equação diferenc ial satisfeita por P(t
).
(b) Resolva a equação diferenc ial do ítem (a). Determi ne lim P(l ). EXEMP LO I. Lançar uma moeda 11 vezes e observa r a scqlienci<! :_. c
podemo s definir
29. Suponh amos que cada eicmcnt o de certa populaç ão ou morre ou
Q =· ~(c'i 1 , . ., C'1 11 ): Uli=C OU i': i== 1, .. .. 11:.
se dividc. (Exemp lo: uma colônia de bactérias .) Façamo s três
hipótese s: O número de caras obs~.:n· adas nos 11 lan<,'anwnto ~ c un. caracter ístico
numéric o da seqüenc ia de caras c coroas. De f.1to. se definimo s X = nú-
(H I) A probabi lidade d<: que um element o. vivo no instante 1. mero de caras observad as. vemos qut~ o valor de .\ depende do resul-
venha a morrer até o instante 1 + L'.t. é assintot icament e equi- tado do experim ento e podemo s dcfinil
valente a 11.'11 (i. e .. a razão dos dois converg e para I quan-
do L'.t-> 0). X teu) ,._,= número de c's em cu= (c1J 1 ••.•• c'lll)
(H2J l'm element o vivo no instante 1 se divide até o instante == # :i: c·Ji = c. I$; i $;11:.
r -t !1.1 com probabi lidade assintoti camentl : equivale nte a EXE\1 PLO 2. Escolher um ponto ao acaso em ["0. I} Seja X o qua·
i.f.r. e produz "'netos"' (i. c .. se divide ao menos duas vezes) Jrado dü \"alor obtido. Então
com probabi lidade que. dividida por !!.r. converg e para O
quando /'.t-> O. ·
n = [o. 1J
tHJJ ;-.;ào há intaaçà o entre os element os. e eles morrem ou se e
dividem indepen denteme nte.
(a) Ache as equaçõe s diferenc iais satisfeita s pelas probabil idades EXE\1P LO 3. Escolhe r um ponto ao acaso nu círculo unitário. Seja
P"(l) =probab ilidade da populaç ão conter exatame nte 11 ele- X a distànci a entre o ponto escolhid o c a origem. Então
mentos no instante r (11 =O. I, 2... . : r;::: 0).
(b) Mostre que se i.= Jl = I c PJ~OJ =I , uma solução será n= ((x.r): x 2 + y 2 $; t;
I t" 1 c. com w = (x. y),
Po(tl = I + (: P"(l) = (I + 1)"' 1 . 11 = L 2.....
(c) Supond o que a solução do item (b) seja a única. qual a pro-
babilida de da populaç ão mais cedo ou mais tarde ficar extinta '1
36 Probabilidade: Um curso em Nlvel Intermediário
Variáveis Aleatórias 37
Agora vemos que quando o resultado de experimento for um

EXEMPLO 6. O processo de Poisson. Se nosso experimento for a
número real, o próprio resultado será o valor de uma variável aleató-
ria, definida por X(w) = w: . observação do desenrolar do processo de Poisson, en-
tão um resultado típico w será uma função-escada (veja § 1.3). Para
EXEMPLO 4. Escolher um ponto ao acaso em [0, 1], e seja X 0 todo t ~ O, definimos X, = número de chegadas até o tempo t (in-
valor de resultado. Então clusive). Então X, é um característico numérico do resultado do expe-
rimento, e X,(w) = w(t). É fácil ver que [X,= k] = A~. 1 , que é evento
O = [0, I]. X(w) = w. aleatório por suposição (de fato, a esse evento foi atribuída a probabi-
Quando o resultado for um ponto no plano, poderá ser conside-
rado como valor de um par de variáveis aleatórias :
lidade (~t e - ).1) . Isso torna X, uma variável aleatória, já que
[X,~ x] = U [X,= k] Ed, parax ~ O(sex <0, [X,~ x] = 0 Ed).

EXEMPLO 5. Escolher um ponto ao acaso no círculo unitário, e se- OS kS x
jam X e Y as coordenadas do resultad~. Então Agora, seja T1 o tempo até a primeira chegada. Então T1 é função
do resultado do experimento, pois
O = {(x, y): x 2 + y2 ~ I}
T1(w) = sup {t: w(t) =O } = min {t: w(t) = I}.
e, com w = (x , y), temos X(w) = x, Y( w ) = y, e (X(w), Y(w)) = (x, y) = w .
É claro que o primeiro telefonema chega depois do instante t ~O se.
e somente se, não chega telefonema algum até o instante t, inclusive.
Nestes exemplos, cada variável aleatória é uma função real do Logo, [T1 ~ t] = [T1 > tl = (ALt para t ~O, e T1 é variável aleatória
resultado de um experimento. No exemplo 4, X é ajimção identidade. (se t <0, [T1 ~ t] = 0).
No exemplo 5, X e Y são as (funções) coordenadas. Não vamos admitir Seja T2 o tempo entre a primeira e a segunda chegada. É T2 uma
contudo, que toda função de w seja uma variável aleatória. Por razõe~ variável aleatória? Isso é mais dificil de provar. Consideremos o se-
técnicas, diremos que X(w) é variável aleatória se, e somente se, 0 guinte argumento: .
evento [X ~ x] ~ {w EO: X(w) ~ x] for aleatório para todo x real. Seja Z = T1 + T2 = tempo da segunda chegada. Então
(Co~ e_feit?, adotaremos essa definição para poder definir a função [Z ~ ::] = [Z > ::r= (AL u AÕ,:)c Ed,
de dJ~tn?m~ã_o de X e daí a experança de X, etc. Definiremos a função
de d1stnbmçao de X. na Definição 2.2, como F(x) = P(X ~ x), que logo Z é variável aleatória. Por isso, T2 = Z- T1 é variável aleatória.
não terá sentido exceto quando [X ~ x] pertencer a .w. ) (Nota: funções contínuas de variáveis aleatórias são variáveis aleatórias!
Esse fato não será provado, mas sendo ele bem razoável, espera-se
que o leitor o aceite).
DEFINIÇÃO 2.1. Uma wriárel aleatória X em um espaço de pro-
bilidade (0, .W, P) é uma função real definida no DEFINIÇÃO 2.2. A função de distribuição da variável aleatória X ,
espaço n tal que [X ~ X] é evento aleatório para todo .\' E IR: i.e., representada por F x ou simplesmente por F, é de-
X: 0 -+ IR é variável aleatória _se [X~ x] Ed'VxEIR. finida por
F x(x) = P(X ~ x), x E IR.
Observação. Na linguagem da Teoria da Medida, [X~ x] E .w 'Vx E IR.
Obserração. Na literatura, a· função de distribuição de X é freqüen-
significa que X é uma função mensurável a· .ci. Não é
temente chamada de função de distribuição acumulada de X.
fácil encontrar exemplos de funções não-mensuráveis. De fato, as fun--
Mui tos autores, entre os quais se encontram Gnedenko [l i] e Breiman
ções encontradas na prática são sempre variáveis aleatórias, e não
[6] (e as escolas russa e francesa~ definem Fx(x) = P(X < x), fazendo
nos preocuparemos com esta questão. Mas para ilustrar o conceito.
consideremos o seguinte : com que a função de distribuição seja contínua à esquerda, em vez
de contínua à direita.
Propriedades. Se X é uma variávd aleatória. sua função de distrihuição

F goza das seguintes pmpricdadcs: de modo que o evento [X = x] é aleatório e
F I. x :S:: .r=> F(x) ::;; F(y), i.e., F (; nilo-decrescente.
F2. Se x, l x, então F(x,) l F(x), i.e., F é con1ínuu ci direi/a.
P(X = x) = lim P
n- J
(x - 1
ll
< X :s; x)
FJ. Se x, l - x, emão F(x,) lO. Se x, t + y, en1tio F(x,l !1. (Logo = F(x)- F(x- ).
podemos escrever F(- x) =O. F(+ x) = 1.)
Portanto, o salto de F no ponto x é igual a P(X = x), e F é con-
Prora. FI . x:s::.r=[X:s::x] ~[X:s::y] tínua no ponto x se, e somente se, P(X = x) = O. Em outras palavras.
=
F(x) = PLY::;; \l::;; P1X :S::rl = F(_l'l. a função de distribuição de X é contínua se, e somente se, para todo
F2. Se x, l x, então [X :s; xa] é uma seqüência decrescente de eventos x E íR a probabilidade de X tomar o valor x é zero.
aleatórios e í1
[X ::;; x,] = [X :::-, x] (porque X ::;; x se. e somcn- (Exercício. Prove que o número de saltos de F de tamanho
n> 1 1
te se. X ::;; x, V'n). Em outras palavras. X $ x,J ~[X $ x] C, pela r 2:c
11
é ::;; n. Utilize esse resultado para provar diretamente que o nú-
continuidade de probahilidadc. Fi x, l -~ P( .Y ~ x,l ~ /'(.\. :s; xl = F(\). mero de saltos de F é finito ou enumerável.)
F3. Se x, 1 - X então [X$ x,] l e) c F(x,) == P(X :s; x,) ~O. Se\,
o t + ·r o
então [X :s; x,J ~ !2 c F(x = P(X::;; x,) i I. C 11 )

Questão: É toda função F satisfazendo FI, F2 e F3 a função de dis-
Ohserraí"ão. Uma função de distribuição é monótona não-decrescente tribuição de alguma variável aleatória '1 Resposta: sim. A pro-
e portanto tem um numero finito ou enumerável de pon- va deste fato envolve conceitos da Teoria da Medida. Mas para termos
tos de descontinuidade. Além disto. todas as descontinuidades são do uma idéia da prova., suponhamos que a função F satisfaça F 1 • F 2 e F 3,
tipo salto. Pela continuidade à direita. o salto no ponto x é igual a e consideremos o problema de construir uma variável aleatória X tal
que F x =F. Se pudermos definir uma probabilidade P nos borelianos
F(\)- F(x-) = F(xl- lim F
tl---. f
('x-\ 11
I .) = P(X ::;; x)- da reta tal que P((- x, x]) = F(x) V'x E íR, então bastará definir
X(<l)) = w V'w E IR (i.e., X será a função identidade). Pois neste caso,
- lim
n-'
P(X
,
:s; x - I )
ll.
= lim ( P(X
n-; .
s x) - P (X ::;; x - I .),)
/l.
F x(x) = P(X::;; x) = P(( ·- x, x]) = F(x). O método para a construção
1
.
de tal P é o seguinte:
Como [X : ; x - 1
11
J
c= [X ::;; x]. temos
Definir
P((- x. x]) = F(x).
[x- 1
11
<X :s; xj = [X ::;; x] - [X :s; x- I
ll
-~E.r:/
P((x, x )) = I -
P((a, h]) = F( h! - F( a).
f(x),
e e definir P na álgebra de uniões finitas de tais intervalos por aditividade

1 finita, por exemplo.
P ( x - : <X ::;; ·'-) = P(X s x)- P (X :s; .\- )-
1 11 P((a. hJ u (c, d]) = F( h) - F( a) + F(d) - F(c).
Mas a seqüência de eventos [x -

1
11
< X ::;; x J é decrescenk, com para a < b ::;; c < d. Depois de verificar que Pé a-aditiva nesta álgebra.
pode-se estender P para Jd = a-álgebra dos borelianos, pelo Teorema
da Extensão de Carathéodory.
Íl
n
[x - ll
I < X :s; JJ = [X = x]. Portanto. toda função F que satisfaça FI, F2 e F3 será chamada
função de dist rihuirão.
I
.I
Ohserração. Uma função de distribuição pode corresponder a vanas

variáveis aleatórias no mesmo espaço de probabilidade
Outra variável aleatória considerada no exemplo 6 foi 7;, o tem-
po até a primeira chegada. Foi visto que
(H, ..r;(, P). Por exemplo, se X~ ,'\'(0, I), i.e., se X tem distribuição nor-
[T1 s t] = (Ag ,t, t 2 0,
mal com parâmetros O e I (veja o exemplo 9 adiante), então -X~
- N(O, I). Conseqüentemente, Fx =F. x· No entanto, P(.\.' = ·-X)= com [7~ s t] = 0 para t <O ( T1 também assume apenas valores
= P(2X =O)= P(X = 0) =O. positivos). Portanto, temos
Exemplos de jimçôes de distribuição. Voltemos ao exemplo do

F7 (t) = {0, se t < O .
' I - P(A8 .• J = I -e-'', se t 2 O.
processo de P01sson, e consideremos novamente a variável aleatória
X,, onde t >O. Foi visto que
Essa é a função de distribuição da distribuição exponencial com
[X 1 S X] =c U
() ·. k' X
[X 1 = k] = U
() ·_ k ·..\
A~. 1 , X S O, parâmetro À; seu gráfico é
com [X, s x] = 0 para x <O (X, assume apenas valores não-nega-

tivos). Portanto. a função de distribuição de X, satisfaz (veja § 1.3)
. x· ..__.. Í<J. se x < O

F
.,,c) t,~., P(X, = k) = .~, _e_·-:v~~· se x 2 O,
o
onde [x] é a parte inteira de x (maior inteiro ::::; x).
Notemos que a função de distribuição de T1 é contínua, não ha-
Esta é a função de distribuição da distrihuiç·Zio de Poisson com
parâmetro h O seu gráfico é: vendo saltos, e que é derivávcl em todo ponto exceto em O. Veremos
adiante que disto decorre ser 7~ absolutamell/e contínua.
(Exercício: verifique dirdamente da definição a seguir que T1

é absolutamente contínua com densidade /(1) = l.e- >•, t 2 0: /(1) =
= 0, r< 0.)
§2.2 Tipos de variáveis aleatórias
: 2 •3
DEFINIÇÃO 2J. (a) A variável aleatória X é discreta se toma um
número finito ou enumerável de valores, i.e., se
existe um conjunto finito ou enumerável {x 1 , x 2 , .•. J C iFl: tal que
X((I))E [xl, Xz, ... } VwE n. A função p(x;) definida por p(xi) = P(X =xi),
i= I, 2, ... , é chamadafimção de probabilidade (oufi.mção def'eqüência)
Notemos que a função de distribuição de X, cresce através de
de X.
saltos nos valores possíveis de X,. i.e., os números O, I, 2, .... O ta-
(b) A variável aleatória X é (absolutamente) contínua se existe
manho do salto em k é a probabilidade de X, tomar o valor k, e a soma
uma função f(x) 2 O tal que
dos tamanhos de todos os saltos é igual a um. Esta propriedade é
característica das variáveis aleatórias chamadas discretas (veja a defi-
nição a seguir), das quais as variáveis do tipo Poisson são, na prática,
alguns dos principais exemplos.
Fx(X) =r -.;"j:
f(l)dt, VxEiF!:.
42 Probabilidade: Um curso em Nível Intermediário Variáveis Aleatórias 43
Neste caso, dizemos que f é função de densidade de probabilidade de

X ou simplesmente densidade de X. Fx(x; t
Obsen'açõcs. (a) Se X é discreta, então [X s; x]
F x(.x) = . L P( X = x; l = L
= U
t: . \ ! : X
p(x,l.
[X= xJ logo
--0-1'~'---i X
i: X i~ X
Então X tem densidade, pois Fx é contínua e
(Já verificamos que [X = x;] era evento aleatório quando vimos que
o salto de F em X; era igual a P(X = x;l.) F'x(xl = {I, x E (0, I)
(b) Se X é absolutamente contínua. então Fx. sendo uma integral
O. x$ (0, I].
indefinida de j; é contínua. Tecnicamente. a integral da Definição A densidade de X é dad;; por
2.3(b) é de Lebesgue. e X tem densidade se. e somente se, Fx é absolu-
tamente contínua (i.e .. F x é a integral da sua derivada). Neste caso. f(xl =/,(xl= {oi.. xE(O. I)
f(x) = F'x(x) em todo ponto, exceto num conjunto de medida de Le- X < () OU X > J.
besgue nula (diz-se que f= Fx' em quase toda parte). Um conjunto O valor de f nos pontos O c I é arbitrário, pois qualquer que scj;; f(OJ
B C IR tem medida de Lebesgue nula se tem comprimento zero. i.e .. (ou fi I)). a integral f , /(1) dt é ainda igual a Fx(x). Costuma-~t Jcf1
se para todo 1: >O, existem intervalm de comprimento total <r cuja nir ou j(Ol = j( 1) = I ou f(Ol = j( I)= O (Outro exemplo de uma lult·
união inclui B. ção de distribuição contínua e derivável por partes é a F 1 , considerada
Uma funçãof(x) 2': O é densidade de alguma variável aleatória se. anteriormente.)
e somente se, J f(x) dx = 1. já que neste caso F definida por
1
1
Por outro lado. suponha que
F(x) = í'
•- I
j(l) dt fx(x) = {~: x<O
x;::O
Aqui X não tem densidade. pois F x não é contínua. De fato X é uma
é função de distribuição. pois satisfaz FI, F2 c F3 (verifique!). Reci- variável aleatória discreta. e P(X = 0) = I.
procamente, se fé densidade então J' ,f(x)dx= I. pelo item (bl da
definição e a propriedade F3. É fácil construir um exemplo de variável aleatória que não é diS-
Mas sem a Teoria da Medida, como vamos verificar se X tem creta nem absolutamente contínua, mas sim uma mistura dos dois tipos
densidade? Podemos usar o seguinte critério. válido em quase todo Por exemplo. seja tal que X~ U [0. I] (kia-sc "X tem distribuição uni-
caso que surge na prática: forme em [0. I Tl. i.e., X tem a função de distribuição Fx cujo gráfico está
X tem densidade se Fx é (i) contínua e (ii) dcrivável por partes. acima. E seja Y = min (X, 11 2). i.c, Y é a variável aleatória definida
i.e., se F x é derivável no interior de um número finito ou enumerável por Y((l)) = min (X((!J), I i2). (!)E n ( y é variável aleatória, pois é função
de intervalos fechados cuja união é a reta IR. (Neste caso. a derivada contínua da variável aleatória X). Então r é do tipo "misto".
é a densidade de X.) Em particular, X tem densidade se F x é contínua Fyly)
e derivável em todo ponto exceto num número finito de pontos, ou se I
F x é contínua e derivável em todo ponto a não ser nos inteiros.

Por exemplo. seja .,.I
0, X< 0
F x(x) = x, O s; x s;
{
I, X > 1. o I y
2
EXEMPLO 7. Uma função de distribuição de uma variável aleatória do tipo misto (pela mesma razão), c nem contínua (X não tem densi-
que não é discreta, contínua, ou mista. Nossa fun~ão dade, pois F'(x) = O em C c f'- F'(t) dt =O, i.c., F não é a integral
f
será contínua. derivável em todo ponto menos num conjunto de medida da sua derivada, ou melhor, não é absolutamente contínua.) Dizemos
de Lebesgue nula, mas não será absolutamente contínua: vamos con- que X é variável aleatória singular: uma variável aleatória X é chamada
siderar a função de Cantor. singular se F,~ é contínua e Fx(x) = O em quase toda parte, i.c .. exceto
F(x) em um conjunto de medida de Lebesgue nula.
1
Observemos agora que se F x é a função de Cantor, então
3/4
1/2 P(X E C)= I, onde C é o conjunto de Cantor. Com efeito,
1 2') 7 8) -
2') (9'9
1 1 1
1/4 1
C=IR-(-::t_,O)-(I,x.)-(3·f, -(9'9 - ... =
1
1/9 2/9 1/3 2/3 7/9 8/9 I X
I3 I4
I s.
Gráfico da função de Cantor após as etapas 1 e 2. --,..--· ~
Definamos F(x) = O para x < O. F(x) = I para x > I. Continuemos 1." etapa 2a etapa
por etapas: = (u /,)'.
Etapa I. Seja F(x) = I (2 em (I /3. 2, 3 ). Então o valor de F nesse inter- Mas para todo 11, P(X E/,)= O, pois, por exemplo,
valo é a média dos valores nos dois intervalos \izinhos em
que F já está definida ((- :r. 0) t.: (I. ( )), c F continua sem definição 2 )
em dois intervalos \LO. 1,'3] c [2;3, I]) de comprimento total 2/3. 3. =
Etapa n + I. 1\o terço central de cada um dos 2" intervalos restantes

após a etapa 11. seja F(x) igual à média dos valores nos
dois intervalos vizinhos (onde F já está definida). Por exemplo. na Então P(X E v I,) = O e portanto P(X E C) = I.
etapa 2 defina F(x) = 14 em (1,9, 2,9) c F(.\)= 3;4 em (7;9, 8(9). Res- Podemos descrever o caso singular nos seguintes termos: X é
1
tarão então 2"- intervalos (o dobro do número restante após a etapa n). singular se, e somente se, existe um conjunto B de comprimento zero
de comprimento total (2 3)"+ 1, em que F ainda não estará definida. tal que P(X E B) = I e F\ é contínua (i.e., P(X = x) =O para todo
Então definimos F por indução em um número enumerável de XEifh
intervalos abertos, cujo complementar (i.c., o conjunto onde F ainda
não está definida) é o conjunto de Cantor. um conjunto de medida
de Lebesgue zero (comprimento 0). Vamos ver agora que toda variável aleatória é uma mistura dos
três tipos: discreto, absolutamente contínuo e singular.
Podemos estender a definição de F até o conjunto de Cantor C Seja X uma variável aleatória qualquer e seja F sua função de
por continuidade: se x E C a diferença entre os valores de F nos dois distribuição. Se J = : x 1 , x 2 .... } é o conjunto dos pontos de salto de
intervalos vizinhos após a etapa 11, é I. 2". E F é monótona não-decres- F (se F for contínua. J = 0). indiquemos com p, o salto no ponto
cente em C. Se a, é o valor de F no intervalo vizinho esquerdo, após a .\;. I.C.,
etapa 11, e h, é o valor no intervalo vizinho direito. então a, i. h, i, c
b, - a,~ O. Seja F(x) o limite comum de a, c h,, c então F estará defi-
nida em toda a reta. Definimos
(Exercício: verifique que F é função de distribuição.) Fjx) = I P;·
Agora seja X uma variável aleatória cuja função de distribuição i:.'\1":.\
é F, a função de Cantor. Então X não é discreta (F é contínua), nem Fd é uma função-degrau não-decrescente: a parte discreta de F.
II 46 Probabilidade: Um curso em Nlvel Intermediário
Ocorre que uma função monótona possui derivada em quase

toda parte. Seja .l então, a derivada de F, ou melhor:
Diferenciando. temos
I X< 0 X> 2
1
{F'(x) se F é _dif~re~ciável. ~m x.
OU
j(x) =
· O se F nao e d1faencwvel em x. I
0 <X<
Seja F"c(x) =f' , f(t) dt. Fac é não-decrescente, pois é integral in- 2
definida de uma função não-negativa U 2. Oporque F é não-decrescente). j(x) = O se x = O ou I 12 (por definição).
A sua derivada é igual a f pelo menos em quase toda parte, de modo
que Fac é absolutamente contínua (é a integral de sua derivada): F", é Logo.
a parte ahsnlutamellte contínua de F.
Fac(X) ~
Seja F.Jx) = F(x)- Fd(x)- Fa,(x). F, é contínua, pois é a diferen- x:S:O
ça de duas funções contínuas (F", é absolutamente contínua, logo
O<x:S: 1-t.
contínua; F- F" é contínua. porque a subtração de Fd tira todos os 2
saltos de F). A derivada de F, é igual .1 zero em quase toda parte. porque
F c Fa, têm a mesma derivada/; e F11 , sendo uma função-degrau, possui
derivada zero em quase toda parte. F, é a parte singular de F, e
x>
2 1<--
Üi
I
l
2
X
F = F11 + F", + F,. Como Fd + Fac= F I. Fs(x) =o Yx e não há uma parte singular.
(Ohst>rvaçào. Fs também é não-decrescente. Omitimos a prova, que Então r é realmente uma mistura dos tipos discreto e contínuo (pode-se
depende da Teoria da Medida.) até dizer que metade da distribuição é discreta e concentrada no ponto
A discussão acima dá um método de decompor F em sua partes x = 1/2 c a outra metade é absolutamente contínua e uniforme em
discreta, absolutamente contínua e singular. Consideremos um exemplo. [0, 1!2]). Na prática, é pouco provável que surja uma variável aleató-
ria com uma parte singular. e quase todas as variáveis aleatórias que va-
EXEMPLO li. Suponha X~ U[O. 1] e Y = min(X. 1 2). Já vimos que
mos considerar serão discretas. contínuas. ou misturas dos dois tipos
[o. x <o
=j
I
F 1 (x) x. O :S: x <

2
LL .\ ;::: §2.3 A distribuição de uma variável aleatória
2
Seja X uma variável aleatória em (Q .ri, P). Por definição, [X :S: x] E
F 1 tem apenas um salto. em x = I ·2. e p 1 =c salto no ponto I 2 = I 1
u:i Vx E IR. Em outras palavras, o evento [X E B] é aleatório e P(X E B)
Logo
está definida se B = (- x, x] para algum x. De fato, isso vale para
todo boreliano B:
PROPOSIÇÃO 2.1. Se X é Pariál'el aleatória em (O,.w, P), emào o
ío. X<
2
Fd(X) t erento
Fd(x) = ~ ·----~--- (XEB] ";:i [wEO: X(w)EB]
L2
I
x?.
2 +o!
o
I
.
X (; el'ellto aleatório para rodo bore/iano B, i.e.,
-2
[X E B] E.r4, VB E .Jd = cr-á/gehra de Bore/ . .
Prora. Teoria da Medida. Mas podemos justificar (intuitivamente) a Axioma I. Px(B) = P(X E B) ~O.
proposição: recorde que a a-álgebra ~. dos borelianos, é a Axioma 2. Px(IR) = P(X E IR)= I.
menor a-álgebra contendo os intervalos. Vamos, então, verificar a Axioma 3'. Se 8 1 , 8 2 , ... E .dd são disjuntos, então
conclusão da proposição para B intervalo:
P.ttu B,) = P(X EU B") = P(u [X E 8 11 ] ) =
(i) Se B=(-Y_,h]. então [XEB]E.r1 pela Definição 2.1. =L P(X E Bn) = I PxW,).
(ii) Se B =(a, x ), então B = (- x, a]' e [X E B] =[X s a]' E.w, por(i). n
Neste caso, P(X E B) = P(X >a)= I - P(X s a)= I -F ;.:(a). Pelas observações feitas na prova anterior, P.\ é determinada pela
(iii) Se B=(a,h]. então [XEB]=[a<Xsh]=[Xsh]-[Xsa]E função de distribuição de X; por outro lado, ~ claro que a função de
E.c/, por (i). P(XEB)=P(Xsh)-P(Xsa)=Fx(h)-Fx(a). distribuição F x é determinada por P\, pois F x(x) = P(X s x) =
(iv) Se B =(a, h), então B = 0(a.
11 1
h- :
1
J c [X E B] = = Px((- x, x]). Em outras palavras, Fx determina Px, e vice-versa.
DEFINIÇÃO 2.4. A probabilidade Px, definida na a-álgebra de Borel

=
11
Ú {.a< X s h- 1 l_J E.w,
1 . ll
por (iii). Neste caso, por Px(B) = P(X E B), é chamada distribuição de);'
Nos casos discreto c contínuo, podemos descrever a distribuição

P(X E 8) = lim P
n--,
('a < X s h- I .
)=
. [
lim .F x
'
(h- I ,) -F\( a)
]-
= por meio da função de probabilidade ou densidade:
ll ,_' IJ
'
= F x(h-) - F x(a). PROPOSIÇÃO 2.2. (a) Se a tariárel aleatória X é discreta e toma
ntfores somellte no conjunto :x 1 , x 2 , ... :, então
De modo análogo, verifica-se que para todo intervalo B. E B] E p: Px(B) =' I P(X =X;)= L p(x,), VB E B.
Ed c P(X E B) é determinada pela função de distribuição F.\. E a i:x 1 ~ B i:x 1 t'R
"
mesma coisa vale se B = U
B,. onde os B, são intervalos disjuntos, já (h) Se X é ahsolwamente cmllímw com densidade j(x). entiio
i I
que [XEB] =
"
U [XEB.] c P(XEB)= I.P(XEB,).
n
Px(B) = I f(x)dx,
I'
VBE-!4.
i I i 1 • B
Então vale a conclusão da proposição na álgebra de uniões finitas Prora. (a) [Xt:B] = L~ [X= x.]cesseseventm:sãodisjuntoslogo
i: XI·· H
de intervalos. Logo vale na a-álgebra .:14 ~ Tecnicamente, para verificar.
se certa propriedade é válida para todo borcliano, basta verificar se P.dB) = I P(X = x.).
i: x 1 c H
(a) é válida para toda união finita de intervalos c (b) continua válida
também para limites monótonos, i.e., se vale para 8 11 • para todo n. (h) Prova-se pela Teoria da Medida. É fácil verificar no caso de B
e B 11 l B ou B, i B. então vale para B. Neste livro, não vamos nos preo- intervalo: por exemplo. se B =(a. h) então
cupar com problemas técnicos desta natureza, limitando-nos em geral Px(B) = P(a < X < h) = (pois Fx é contínua c P(X = h) = 0) =
a verificar (a) e deixando (b) para o leitor interessado. Tomaremos = P(a < X s h) = F.\(h)- F>:(a) = (pela Definição 2J(b)) =
isto como regra geral.
Salientamos outra implicação desta prova: as probabilidades
= r· ,ftxJ dx - J" , .f(xJ dx = J~;f(xl dx = Sn ftxJ dx.
P(X E B) são determinadas pela função de distribuição F x. O Se B = lJ B, é união finita de intervalos di~juntos, então
J
i I
Observação. Se definimos Px(B) = P(X E B), para B boreliano, então
Px é uma probabilidade em :J4, porque os axiomas se Px!Bl = L
11
Px(B;) = I11 f j(x) dx "' f(x) dx,
verificam: I I I 1
.. }JI 11
50 Probabilidade : Um curso em Nível Intermediário Variaveis Aleatórias 51
pela aditividade da integral (por exemplo, se a <h <c < d, então Considerem os o seguinte problema: se X~ N(O. I) e Y= aX + Jl.
f f(x) dx
la.b] L•It·,dJI
= ff(x.) dx
u
+ rf(x) dx).
•,.
onde a> O e J.1 E IR, qual a distribuiçã o de r'l Resposta : Y ~ N(/l. a 2 ).
ou seja. Y tem densidade
I -(y ·- ~) 2 • 2>T 1
Agora é só aplicar nossa regra geral, adotada na prova da Pro- jy(y) = _::_:__··-· e
, - ffD
, ) "''""·
posição 2.1: como f 8 f(x) dx = P x(BJ para todo B união finita de in- v /2n a
tervalos, vale também para todo B bordiano. O É claro que r é variável aleatória, pois Y ~ y se, e somente se.
Vimos, então, que a distribuiçã o de X é determinad a por qualquer x ~ Y ~ 1!:., de modo que o evento [ Y ~ y] é aleatório para todo y.
(]
das seguintes funções :
(1) A função de distribuiçã o F x.
Veremos agora, através de um resultado mais geral. como obter a
(2) A densidade f(x), se X é absolutam ente contínua. densidade de r a partir da densidade de X.
(3) A função de probabilid ade p(xJ, no caso discreto.
PROPOSI ÇÃO 2.3. Suponhamos que X possua densidade fx(x) . Seja
Veremos mais adiante (Capítulo 6) que é determinad a também por:
Y = bx +c, onde b > O e c E IR. Então Y tem den -
( 4) A função característ ica de X.
(I), (2), (3) e (4) serão chamadas rcpre.~emaçiies da distribuiçã o
sidade
de X ou representa ções da lei de X tiei =distribuiç ão). Para conhecer
a distribuiçã o de X, tanto faz conhecer qualquer das suas representa-
ções. Costuma-s e escolher a representa ção mais convenient e para des- (Notemos que no exemplo da normal, c= p, b =a).
crever a distribuiçã o de uma dada variável aleatória. No caso contínuo,
esta é geralmente a densidade: Prora F 1 (y) = P(Y~ y) = P(bX +c~ y) = P(X s J'~() =
(r-c) tb
EXEMPL O 9. A variável aleatória X possui distribuiçã o normal
= . .fxC"() dx = (fazendo t = hx· + c) =
"padrão" (notação: X - N(O, I)) se X tem densidade
Í
.. - :f_
; .(X ) = - 1-=e - x-' -,'

{/xCJ: ~)~- .
n-
XE~~<>.
l 2n =
"'
Você sabe provar que f é realmente densidade' ! Um método de
prova é o seguinte. Como f é não-negati va, é suficiente provar que
1
Pela Definição 2.3(bl. g(y) = -b- fx ·(v-c')
,b e,a d ensi'd·d
a e de }'O
.
f~" f(x) dx = l. Para tanto, basta provar que o quadrado da integral
é igual a l. Mas temos (Exercício. Obtenha a densidade de bX +c quando b <O. Compare
com o caso b > 0.)
(f x f(x)dx Y= (fx
- r:r_
f(x)dx) X (f f(y)dy) =
Como conseqüên cia da proposição , vemos que quando /(x) é
densidade, podemos construir uma família de densidades Ui,.c}, defi -
mn o 1·b.,..( x) = _Ih .1· (' ~ -~) . Neste caso, c é chamado parâmetro de

- CX: - X
. d
1
=in f" I"· e - (x2t y>) ; 2 d x d y.
b
locação e b, paràmetr~1 de escala. No Exemplo 9 (?orr_nal), J1 é parãmetro
- r - -:r
de locação e a é parâmetro de escala. (Para JUStificar a linguagem,
Exercício. Verifique que a expressão acima é igual a I. (Sugestão : notemos que multiplicaç ão pelo fator b correspond e a ~um_a mudança
mude para coordenad as polares (0, p), onde x = p cos U, de escala, c adição da constante c resulta numa translaçao, 1.e., mudan-
y=psen8 .)
ça de locação.)
r
EXEMPLO 10. X tem distribuição de Cauchy (padrão) se X possui

densidade Neste caso, 7JI é parâmetro de escala (às vezes, escreve-se a den-
1
f"(x) = --- , x E R
· n(l + x 2) sidade substituindo {3 por L{3 , fazendo com que {3 seja parâmetro de
(Verifique se é realmente uma densidade!). Se r= bX + M, onde escala). O parâmetro rx é parâmetro de configuração (faça o gráfico da
b >O, ME IR, então Y possui densidade densidade para entender porque tem esse nome).
+ ~~-M) 2 l,
Observação. Quando rx = I, a distribuiÇão é a exponencial com parâ-
fr(Y) = n(b 2 Y E IR. metro {3, que tem densidade f(y) = {3e - Pr, y > O. Quando
1
Na família de distribuições de Cauchy, o parâmetro de locação M ~ = n e {3 =
2, temos a d"tstn"b utçao ·
· - qut-qua d ra do com 11 graus de
é a mediana, e o parâmetro de escala b representa a distância entre a 2
mediana e o primeiro (ou o terceiro) quartil : liberdade (veja o § 2.8).
fy()')
No caso discreto, a representação mais conveniente da distribuição
de X é, geralmente, a função de probabilidade. Já tratamos de um
exemplo de variável aleatória discreta no §2.1, quando vimos a função
de distribuição de uma variável tendo distribuição de Poisson com
M-b M M+b y parâmetro ),t. Com efeito, fazendo t = 1, vemos que se X ....., Poisson (À),
então
1'? quartiJ 3? quartil
O ,sex<O
EXEMPLO 11. Distribuição gamJ. Quando ~>O, a função g(x) = F(x) = ' e- ;.;._k O
1
{ L... se x ~ .
= x•- e x é integrável no intervalo (0, ·x ), i. e., O$k$[.<) k!
J~x· - e x dx < x. Consideremos, então, a função gama, definida por
1
r(rx)= J~ x• - le ·xdx, ~ >0. Integrando por partes, vemos que r(rx + I) = Como o valor p(k) da função de probabilidade é igual ao salto de F
=rxqrx) e, por indução, r(n + l) =n! (pois r(I)=J~ e- xdx= 1). no ponto k, temos
E óbvio que r(rx) > O; logo, f definida por -). ).k
p(k) = P(X = k) = e_ _ ' , k = O, 1, 2, .....
k!
.( ) =
.f x
ri(rx)·x'
{'- I e - "', x >O
EXEMPLO 12. Dizemos que X tem distribuição binomial com parâ-
0 , X :5:0 metros n c p, onde 11 é um inteiro positivo e O < p < 1, se
é densidade (a da distribuição gama com parâmetros rx e 1. Notação:
r(rx, 1)). Se Y = ; e X....., r(rx, I), então
p(k) = P(X = k) = ( ~ )pk(l-pt -\ k =O, 1, ... , n.
Notação: X- b(n, p). Esta é a distribuição que atribuímos, por exem-

.
fr(y) =
f}_ - ({3V)'
{'-r(IX) ·
- Ie - PY = p:_ v• - le - PY
r(rx) · '
}' > 0
plo ao número de caras obtido em n lançamentos de uma
O, y::;; O. moeda tendo probabilidade .p de dar cara.
Mais geralmente, consideremos um experimento básico em que
Esta é a densidade da distribuição gama com parâmetros IX e {3, indi-
cada com r(:x, fJ). estamos interessados em saber da ocorrência ou não de certo evento
de probabilidade p, tal como a obtenção de cara na jogada de uma
1'
moeda honesta (p = 2
) ou a obtenção de 7 ou 11 no lançamento de §2.4 Vetores aleatórios
dois dados equilibrados (p = ~).Se repetirmos o experimento básico Em muitos experimentos, o interesse do investigador recai sobre
vários característicos numéricos do resultado do experimento. l'm
11vezes, independentemente, e contar o número de ocorrências do even- exemplo simples disto foi visto no exemplo 5, em que o resultado do
to de interesse, então este número terá distribuição h(n, p). experimento "escolher, ao acaso, um ponto do círculo unitário" era
Em tais casos, chamamos as repetições independentes do experi- considerado como o valor de um par de variáveis aleatórias X c Y
mento básico de "ensaios" e, já que podemos interpretar cada ensaio as coordenadas (cartesianas) do ponto escolhido. Formalmente, tí-
como tendo apenas dois resultados possíveis (ocorrência ou não do nhamos
t\ulto de interesse), dizemos que se trata de um caso de "ensaios
binomiais". Chamando o k-ésimo ensaio "sucesso" se ocorre o evento (I) = (\, y) = (X(w), Y(w)), (I) E n = [(x, y): ,ix 2 +7 :-: :; 1:.
de interesse e "fracasso" se não ocorre, concluímos que a distribuição No processo de Poisson, que representa o modelo probabilístico
do número de sucessos em 11 ensaios hinomiais, com probabilidade p de um experimento bem mais complicado, é comum o experimentador
de sucesso em cada ensaio, é h(11, p). Por exemplo, a distribuição do se interessar pela análise simultânea de várias variáveis aleatórias.
número de caras (=sucessos) em 11 jogadas de uma moeda honesta é Por exemplo, ele poderia querer comparar o número acumulado de
h (11. ~ ).ea distribuição do número de sucessos obtidos em 11 lança- chamadas até a hora 11, para 11 = 1, 2, ... , 24; i. e., analisar o fluxo ho-
rário de telefonemas durante o primeiro dia. Neste caso, com t expresso
mentos de um par de dados equilibrados, onde a obtenção de uma em horas, ele trabalharia com as variáveis aleatórias X 1 , X 2, ... , X 24·
' ") onde X ,(w) = (ll(k). (I) E n =a classe de funções-escada do ~ 1.3.
soma de 7 ou 11 é considerada sucesso. é h ( n. l)~ ) . Nestes exemplos, o interesse está em um vetor de variáveis aleató-
rias, todas definidas no mesmo espaço de probabilidade. Os vetores
(X, Y), no caso do círculo, e (X 1 , ... , X 24 ), no caso do processo de
Ohsenaçiío. Na definição geral de ensaios binomiais, admitimos a Poisson, são exemplos de Petores aleatórios.
possibilidade da probabilidade de sucesso variar com os
DEFINIÇÃO 2.5. (a) Um vetor ~=(X 1 , ..• , X,), cujos componentes
ensaios. Um exemplo disto será visto no ~ 5.3 (exemplo 5). Quando
são variáveis aleatórias definidas no mesmo espaço
a probabilidade de sucesso é a mesma p para todo ensaio. os ensaios
de probabilidade (Q srl, P), é chamado t'etor aleatório (ou variável
binomiais são freqüentemente chamados ensaios de Bernoulli.
aleatória n-dimensional).
(b) A junção de distribuição F= F x =F\ . .x" de um vetor alea-
EXEMPLO 13. Ir lançando uma moeda. não necessariamente honesta, tório ~ = (X 1 , ... , X ,I é assim definidã:
independentemente. Contar o número de lançamen-
tos até o da primeira saída de cara. inclusive. Seja ){. esse número. F(x) = F(x 1 , ... ,x,) = P(X 1 s x 1, ... ,X,:-:::; x,), li(x 1 ..... x,}E.IR.".
Se p é a probabilidade de cara em um dado lançamento. então X tem F é também chamada ji.m,·ào de distribuição conjunta das variáveis
função de probabilidade
aleatórias X 1 •..•• X,.
n
p(k) = (1-p)k 1
p, k = 1.2, .... Obsenaçào. Oevento[X 1 :-:::;x 1 , ... ,X,:-::::x, ] = rr·i
d•f [ .1\j:-::::xi
v J eaeato-
, 1 ,
i 1
Dizemos que X tem distrihuiç·iío yeomórica com paràmetro p. A geo-
rio, já que as Xi são variáveis aleatórias e portanto [XisxJE.tilii.
métrica é a distribuição do tempo de espera até o primeiro sucesso
. ... ,.\, está bem definiJa. Note qul' o vetor aleatório ~ é um(l
Logo F .\,,
em uma seqüência de ensaios de Bernoulli com probabilidade p de
função definida no espaço amostrai n assumindo valores no !R:", i.e.,
sucesso.
x:n_. IR:".
Propriedades da função de distribuição F de um vetor aleatório EXEMPLO 14. Uma função F 0 : íR 2 -> íR que satisfaz FI, F2 e F:l
(X 1 ••••• X,). mas não é a função de distribuição de um vetor aleatório (X. n Seja
F 0 a seguinte função definida no plano:
F I. F(x 1 , .•• , x,) é nãa-dccresct'ntc em cada uma das mriál'cis. Por
exemplo. é não-decrescente em x 1 : se x < y. então I se x ::::>: Oe r ::::>: Oe x +y ::::>:
F o( X, y) = { O caso contrá~io.
F(x, x 2 • ... , x,):::; F(y, x 2 , ... , x,).
Analogamente, é não-decrescente em x 2 • em x 3 , etc.

F2. F(x 1 , ... , x,) é contínua à direita em cada uma das l'ariúceis. Por y - ~ :_ =--_- _- _- ~ ~ -_-_-_-:. _- -~ ~ ~ ~ -_-.:- ~ =-=- ==_-_·
exemplo, se .l'm lx 1 quando m-> f_, então
- - - - - - - F0 (x, y) = I - - - - - . - - - - - --
F(ym.X2, ... ,x,)lF(x 1 .x 2 •... ,.\ 11 ) quando /11-> J.,
1 _ _ __ _ ·- nesta região fechada ____ - - - __
valendo resultados análogos quando .l'm lx 2 , .l'm l x 3 , etc. F 0 (x,y) =O

F3. Para todo i. nesta regiã~o~a~b~er~.ta~+--__:~_ _ _ _ _ _ _ _ _ _ _ _ _..,.
lim F(\ 1 ••.. , x,) =' ().

\- ' Gráfico de F0 .
1ilmhàn.
É claro que as propriedades FI, F2 e F3 estão satisfeitas. Mas
lim F(x 1 ••..• x,) I.
Vi. x,---+ + , F 0 não é função de distribuição de um vetor aleatório (X. Y). Se fosse.
então teríamos a contradição
(Este é o limite quando todas as coordenadas convergem simul- O ::s; P(O <X:::; 1,0 <}':::;I)~~ Ft,(l.l)- F 11 (1.0)- F 0 (0, I)+
taneamente para + f_.)
+ F 0 (0. 0) = I - I - I + O = - I.
Pml'a. Como no caso unidimensional. Somente a propriedade F3 é Para verificar a equação (*) acima, basta notar que quando F
um pouco diferente. É importante notar que se i e fixo, então é a função de distribuição de um vetor aleatório (X. Y), temos
[Xl:s;xl ..... Xi l::s;xi-I· Xis:-m. Xi~ 1 ::Sxi_ 1 , ... ,X,::s;x,]l0.
quando m-> J., para todo (x 1 , ..••.\, 1 • xi+I• .... x,). Mas F(l, I J = P(X :::; 1, r:::; 1J.
F(l. I ) - F( I. O)= P(X:::; I, Y::s; l l - P(X:::; I.}':::; 0) =
[X 1 ::Sx 1 , ... ,Xi 1 ::s;x, 1 .X,::Sm.X,_ 1 ::s;\i-I· .... };',::s;x,J+ = P( X :::; I, O < Y :::; 1),
t [X I :::; X I . . .. ' X I - I :::; XI I . X I + I :::; X i ·• I ' .....\.'li :::; X,] F(O. I)- F(ü,O) = P(X:::; O, r::; I)- P(X:::; O, Y:s; 0) =
quando m-> --r- J. . Em outras palavras. quando x, ...... --r- J. F.\,. . x, con- = Pl X :::; O, O < } :::; I ).
verge para a função de distribuição conjunta das n- I variáveis aleatórias c. finalmente.
X 1 •••. , X, 1 ••\", + 1 •..•• X,. Finalmente. quando todos os x, convergem
simultaneamente para + f_ (i.e.. -'i -• + x 'ii), então o evento F(l.1J- F(1,0)- F(0,1) + F(O.O) = P(X s 1.0 < Y:s; 1)-
n
- P(X:::; O. O < Y:::; I)= P(O <X :::; I. O < Y:::; I).
Í' [.Yi:::; x;] con\erge para o evento certo Q c F(\ 1 ..... x 11 ) converge
i I De fato, se a 1 < h 1 e a 2 < h2 e F é função de distribuição de (X. Y).
para I. O então temos
Para 11 ::::>: 2. as propriedades F I. F2 e F3 mio s<lo suficientes para O:::; P(a 1 <X:::; h 1 ,a 2 < Y:s; h 2 ) = F(h 1 ,h 2 ) - F(h 1 ,a 2 ) -
que F seja uma função de distribuição: - F(a 1, h 2) + F(a 1 • a2J-
Varlévels Aleatórias 59
58 Probabilid ade: Um curso em Nlvel Intermediá rio
Podemo s descrever esta propried ade por meio de operado res de São válidas as extensões para o caso · n-dimensional das Propo-
diferença. Com efeito, para 1 =(a, bJ e y : IRk-+ IR definamos sições 2.1 e 2.2 c da Definição 2.4. Isto é:
xk - ~> a). Seja ! = (X 1 , ... , X.) um vetor aleatóri o no espaço de proba bi-
&1 g(xl, ... , xk) = g(x 1 , ... , xk - l, b) - g(x 1 , ... ,
lidade (0.. .r#, P).
A propried ade, então, é a seguinte, quando F é função de distribu ição PROPO SIÇÃO 2.1'. [XEB] E.r# VB E dd", onde :JI" é a a-álgebra de
do vetor aleatóri o (X, Y): se / 1 = (a 1 , b 1 ] e 12 =(a;, b2 ], então Borel no IR".
&I,&h F(x, )') =&1 , [F(x, b 2 ) - F(x, a 2 )] = (Obserr·ação. A a-álgebr a de Borel no IR" é a menor a-álgebr a contend o ·
= F(b1 ,h 2l - F(b1.a2) - [F(a 1 ,b 2 ) - F(a 1 ,a 2 )] ~O.
todo retângul o n-dimensional, ou seja, a a-álgebr a gerada
Para n geraL a nova propried ade é: pelos retângulos. Pelo método de prova da Proposi ção 2.1, pode-se
ver que [X E B] é evento aleatório se B é retângul o ou união finita
F4. &1, ...&I" F(xl, ... , x.) ~O, Vlk = (ak, bk], ak < bk, k = I, ... , n.
de retângulos. Por nossa regra geral, vale então para todo B borelian o.
Notemos, por exemplo, que qualque r região aberta A no plano é
união enumerável de retângul os; portanto , tem sentido falar na pro-
. Essa propried ade nada mais é, portanto , que a formulação, por
babilidade de (X, Y) pertence r a A, se (X. Y) é vetor aleatório.)
meiO da função de distribu ição F, da propried ade P(a 1 < X 1 ::s; b 1 , ... ,
a.< X. ::s; b.) ~O. Acontece que uma função satisfazendo FI , F2, F3 DEFINI ÇÃO 2.4'. A probabi lidade definida em Jd" por P(! E B) é
c F4 é realmen te a função de distribu ição de um vetor aleatório, i.e .. chamad a distribuição de ! ou distribuição conjunta
as quatro propried ades são suficientes para caracter izar funções de de X 1 , ... , X •.
distribu ição (referência : Breiman [5]. § 2.5). é a distribu ição de !·
Notação. P~(B) = P(! E B), P!.
DEFIN IÇÃO 2.6. Uma função F : IR"-+ IR que satisfaz as propried ades PROPO SIÇÃO 2.2. (a) Se o t·etor aleatório ! é discreto, então
FI, F2, F3 e F4 é chamad a jimção de distribuição Px(B) = L P(! = ~;),VB E :Jd".
n-dimensional (ou n-variada). - i:~jE B
(h) Se ! é contínuo com densidade f(x 1 , ••• , x.), então

Os tipos discreto e absoluta mente contínu o têm os seguintes Px(B) = P(X E B) = f ... f f(x 1 , ... , x.) dx 1 ... dx •.
análogo s no caso multiva riado : - - B
(As provas das proposições 2.1' e 2.2' são análoga s às anteriores.)

DEFIN IÇÃO 2.7. (a) Se o vetor aleatóri o (X 1 , ... , X.) toma somente
um número finito ou enumerá vel de valores, é
chamad o discreto.
§2.5 Independência
(b) Seja (X 1 , ... , X.) um vetor aleatóri o e F sua função de distri-
buição. Se existe uma função f(x 1 , ... , x.) ~ O tal que
Sejam X 1 ,X 2 , ... , X. variáveis aleatória s definidas no mesmo es-
paço de probabi lidade (Q, d , P), de modo que ~ = (X 1 , ... , X.) é um
F(x 1, ... , x. =
I
X" ... JXI f(t ~> ... , r.) dt 1 ... dt., V(x 1 , ... , x.) E IR",
- cr -c:c
vetor aleatório em (Q,d, P). Informalmente, as X; são indepen dentes
se, e somente se, quaisqu er eventos determi nados por qualque r grupo
então f é chamad a densidade do vetor aleatóri o (X 1 , ••• , X.) ou densi- de variáveis aleatória s distintas são independentes. Por exemplo,
dade conjunta das variá veis aleatóri as X 1 , ••• , X.. e n~ste caso, dize- [X 1 <5] e [X 2 > 9] são independentes ; [X 1 < 5], [X 2 >9] e [0 <
· mos que (X 1 , ... , X.) é (absolut amente) contínuo. <X 5 ::s; 3] são indepen dentes (se n ~ 5); etc.
n
DEFINIÇÃ02.8. As variáveis aleatórias X 1 , ••• ,X, são (coletiva- = (por hipótese) = fl
j o· I
P(X ;E ( - :-cxJ) =
mente) independentes se
= Il P(X; ~X; ) = IlFx,(x;), V(x; ..... x.).
n P(X; E B;). vB; E :Jd. i= 1•...•
n
P(xl E Bl. x 2 E B2• ...• x.E B.) = j ~~ 1
IJ. i~ 1 i.- 1
(b) Fx;(X;) = P(X; ~X;) = lim P(X 1 ~ m, .... X ; 1 ~ m, X; ~ X;.

Ohserr"ações (I) Essa definição equivale à definição informaL pois, por m -+""1
exemplo, P(X 1 E B 1 , X 2 E B 2 ) =P(X 1 E B 1 , X 2 E B 2 , X; + 1 ~ m, ... , X. ~ m) = lim F x ,.··· ..\Jm.... , m, X;. m. .... ml.
. m- +..Y ~
XJEIR, ... , X.EIR)= P(X lE Bd P(X2EB2 J· I .. ·I = P(X 1 EB 1 ) P(X2E B2). ;- 1 t.•ezes n - i vezes
(2) Usando o mesmo raciocínio do item (I) (ou a definição infor- Pela hipótese do item (b). temos então
mal), vemos que para toda família de variáveis aleatórias independentes,
qualquer subfamília é também formada por variáveis independentes. F x;(x;) =
m-+J
lim (Yi .1:-;1
f)m) F;(x;l .
J :1+ l
{I F}ml) = F ;(x;),
Por exemplo, se X, Y e Z são independentes, então X e Y também o
são. (Essa é uma propriedade "hereditária" de variáveis independentes, já que lim F;{m) = I. Logo F, é a função de distribuição de X ;(F; = Fx.).
segundo Breiman [ 6].) m -:r
( 3) Ocorre que as variá veis aleatórias X 1 .... , X, são indepen- Terminamos a prova com a Teoria da Medida. ·(A idéia da prova:
dentes se sua função de distribuição conjunta fatora e é o produto queremos ver que
das funções de distribuição individuais. De fato, temos a seguinte 11
P(X 1 E B 1 .... ,X,EB, l = fl

;~I
P(X ,E B;J. V B, E .Jd.
PROPOSIÇÃO 2.4. (Critério para independência).
(a) Se X 1 , .... X, são independemes, emão Acabamos de provar que
Fx ,.···. X,. (XI' ... , x.) =

n
n F>.
j-::}
,(X;). V'(xl' ... , x,) E IR".
Fx •····. x..(X 1' .... x.) - n"
j:=..: I
F>.) X;).
(h) Reciprocamente. se existem funç6es F 1 , •.• , F. tais que i.e .. vale o resultado se os B; são do tipo ( - oo. x;]. Vamos fazer uma
verificação para B; = (a;. b;]:
lim F;(x) = I para todo i e
x-.,.. .IJ
11
P(X 1 E B 1 , ••• ,X.EB,) = P(a 1 < X 1 ~h 1 .
a, < X, ~h,) .. ..
F.\ ,. . .\,. (x 1 ••••• x,) = fl1 F;(x;). V(x 1 ••••• x.) E IR".
;~
=&1 , .. . & 1.. F(x 1 , .. . , x.) =&1 , ... &, ,. (F x,(xtJ .. . Fx..(x.))
-
= [Fx,(bd- Fx,(ad] x ... x [Fx ..(b.l- Fx,(a,l] -=-
então X 1 •.•.• X" seio independentes e F; = Fx i' V i= 1, ... , 11. " 11
(Em outras palavras, X 1 . . . . , X" são independentes se. e só se, [lP(a; < X; ~ bJ = [lP(X ; E B.).
sua função de distribuição conjunta fatora e cada fator converge para i= 1 i= 1
1 em + oo. No item (b), notemos que não é preciso verificar se F; é

função de distribuição; basta verificar se F;(x)-+ I quando x-+ + x, V{) Já que qualquer intervalo é li.mitc de intervalos do tipo (a. h].
o resultado é válido se os B; são intervalos quaisquer. Por aditividade,
Prora. (a) Suponhamos X 1 •••• , X" independentes. Então vale se os B; são uniões finitas de intervalos. Para verificar que vale
Fx ,.... .x..(.xl ..... x,) P(X 1 ~x 1 ..... X .. ~x.l para todos os borelianos B;. utilize o argumento sugerido na prova
= P(X 1 E ( -x. ,x 1], ... ,X, E ( - ::r_ ,x.] = da Proposição 2.1.) D
62 Probabilidade: Um curso em Nivellntermedi ário 63
Variáveis Aleatórias
No caso contínuo, o critério pode ser escrito da seguinte maneira :

(Veja o exercício 22 para um critério para independência no caso
PROPOSIÇ ÃO 2·5· (C· rzterw ·
' · para mdependênci a no caso contínuo). discreto.)
I! . (a) Se X 1, ..• , X" são independente s e possuem den-
stdades fx,, ... ,fx"' então a fun ção EXEMPLO 15. Dizemos que o vetor aleatório (X, Y) possui distri-
I1. buição normal bil 1ariada quando tem densidade dada
f(x l , ... ,x.) = n"
i--'1
J'x-(X
·)
~ 1 t '
(X 1' X )EIIlln
• · ·, ~ n t1'l: ,
por
é densidade conjunta das L'aríáL•eis aleatórias X 1, ... , X "' l.e.,· j '-- 1·X ... X •
. (b) Reciprocamente, se X 1 , . . . , X" têm densidade conju~ta'/s~-
ttsfazendo
.• r
f(x I , · · ·, Xn) = n
.f.{xJ, V(X;, ... , Xn) E~",
,~ I
onde a 1 > 0, a 2 >0, -1 < p<l, p 1 E ~, p 2 E R
Se p = O, então a densidade fatora :
onde px)'2! o_e r - .,.J,{x)dx =I , Vi, então XI , ... , x. são independentes
e fi e a denstdade de X;, para i= I, ... , 11 • .f(x, _r) = I exp{ - (x- ~til}· I exp{ - (y- ~2)2 } ·
.jfi a 1 2a 1 .jfi a 2 2a 2
Prol'a. (a) Se X I ' ... , X n são independent es, então
Portanto, pela Proposição 2.5(b), se p =O então X e Y são independen-
F x ,, .... x)xl, . .. , x.) = (pela Proposição 2.4(a)) = fJ Fx,(.\:;) = tes e X- N(p 1 , af}, Y- N(p 2 , a~ ).
i~l
Se p # O, então X e Y não são independentes, pois sua densidade
n I x, fx ,(t;)dt; =
=(pela definição de densidade) = ll _f
conjunta não é produto das densidades marginais (i.e.,f# fx f r ). Com
efeito, vamos calcular as densidades de X e Y, usando a seguinte
fx
f x" . ..
PROPOSIÇ ÃO 2.6. (a) Se F(x, y) é a função de distribuição conjunta
1
= /x,(t d ... f~ ..(t.) dt l . .. dt ". de X e t; então a junção de distribuição de X é

_,_ -7_
n F x(x ) = lim F(x, y) ~ F(x, + oo ).

Logo 11 fx ; é densidade conjunta de X 1 , •••, x •. pela Definição 2.7(b).
Fx assim obtida chama-se função de distribuição marginal de X.
(b) F.\ ,..... .\ .(xl, ·· ·• x.J = f "" ... fx' f(tl, . . . , r.)dt
- '7._ - Cf.
1
••• dt. = (b) Se f(x, y) é densidade conjunta de X e Y, então X tem densidade
dada por
Xn f -"1
= (por hipótese)= f .. . / 1 (td ... j~(r.)dr 1 ••• dt. = fx(x) = f "" f( x , y) dy.
- cr: -r:r - oc
n fx ; fx assim obtida chama-se densidade marginal de X .
= i-!:1 /.{t;) dt; .
-exo Prova. O item (a) já foi verificado no § 2.4 durante a prova da pro-
Definindo F ~X;)= f~ oo/.{t;) dth temos, por hipótese, lim F,{x;) = 1. priedade F3. A verificação do item (b) é deixada para o leitor
(verifique se e aJ(x,y)dy satisfaz a definição de densidade de X.) O
A Proposição 2.4(b) implica que X 1 , ••• , X" são indcpen~~:;e: e F= F
logo fi é densidade de X ;. 0 ' X;• Observação. A Proposição 2.6 possui uma extensão natural para dis-
tribuições de vetores aleatórios de dimensão maior que 2.
.. . !
64 Probabilidade: Um curso em Nlvellntermediário Variáveis Aleatórias 65
Por exemplo, se F( ...:, y, .::-) é a função de distribuição conjunta de X. em quase toda parte, então g também é densidade de ~- Já vimos
r e Z, então a função de distribuição marginal de (X, Y) é F(x. y. + _~_ ), um exemplo disso, no caso de variáveis aleatórias (logo após a De-
e a de X é F(x, + Y., +f__); se j(x, y, .::-) é a densidade conjunta de X, finição 2.3), quando consideramos a densidade da distribuição uniforme
1; Z, então a densidade marginal de (X, }) é J~, /(x. r.:) d: e a de em [0, I], aceitando as duas "'versões" usuais da densidade (uma com
X é j~(x) = S~ , S' , j(x, y, :) dy d:::. No caso geral, .obtc~os a função f (0) = f (I)= O, a outra com .f (0) =f (1) = I).
de distribuição (densidade) marginal de uma subfamília das n variáveis Na prática. podemos ignorar este problema técnico c tratar todas
aleatórias, fazendo todas as outras variáveis convergirem para + , as versões da densidade como equivalentes, porque qualquer versão
na função de distribuição conjunta (integrando a densidade conjunta de serve para obtermos a distribuição. Notemos, contudo, ljUe para con•
- f__ até +f__ em todas as outras variáveis). cluir que f 1= f,· f) no exemplo acima, não é suficiente achar somente
Para um resultado análogo no caso discreto, veja o exercício 2. um pont~ (x, y) em que temos a desigualdade, mas precisamos provar
que j(x, y) i=.fx(x)f)(y) em um conjunto de área estritamente positiva
(i.e., medida de Lebesgue > 0).
Voltando ao exemplo 15. vamos calcular a densidade marginal
de X. i.e .. fr(x) = S' "f(x, _r) dy. Colocando em evidência os fatores EXEMPLO 16. Seja G c IR" uma região tal que Vol G >0. onde V oi G
que não dependem de y. c completando o 4uadrado do expoente do é o volume n-dimensional de G, de modo que Voi G =
restante, temos = J ... J I dx 1 ... dx,. (Quando 11 = 2, por exemplo, V oi G =área G.)Di-
zem~s que ~ = (X 1 , .... X .l é unifármementt' distribuído em G se X
possui densidade
1
-, (x 1 , ... , x.) E G
j(x 1 •...• x,) =~ Voi G
{ O , (x 1 , ... ,x,)1G
i.e., f= v~~ G onde /(; é o indicador de G.

(Ohserruç·ào. O indicador. ou função indicadora, de um conjunto G
é a função que toma o valor I em G e toma o valor O
fora de G. i.e .. / 0 (X) = I se x E G. /&(x) =O se ~E G'.)
Neste caso. ~-tem a di~tribuiçào- uniforme em G, dada por
. I&
P(X
~
E 8) = J ...B J .f(x 1, ... , x,)dx1 ... dx, = J ...B J ,-.--0 1--G =
J.e .. X~ /\'(111. rrf)_ Analogamente. temos r~ N(Jic- rr~).
Segue-se que p oi· O implica que X e r realmente não são inde- = \'~)~ !l G). B E Jd".
pendentes, pela Proposição 2.5(a): se o fossem, então o produto f . f VolG
seria a densidade conjunta, mas é óbvio que j i= .fx· .1;. (0 parâ~~t~~ Notaç·ào: X~ U(G). Quando a distribuição de K é uniforme em G.
p é o coeficiente de corrcla{·ào entre X c Y: veja o ~ 3.6 ). !;dos os pontos de G são, de certa maneira, "'eljuiprováveis",
pois tém o mesmo peso relativo, representado pela densidade.
Ohserraç·ào. Um ponto técnico: a densidade não é univocamente de- Esta definição pode ser usada também no caso de n = I, com
Voi G =comprimento G. Por exemplo, X tem distribuição uniforme
finida. pois podemos mudar o valor da densidade em um conjunto
de medida de Lebesgue nula sem afetar o valor da integral na definição em [0. I J se possui' dens1'd a de f" = · - - -. 110
- · I]-- [O_ I_]_= I 10. ti·
de densidade. Isto é, se f é densidade do vetor aleatório X e 'q = .f · compnmento ,
~
r
1
66 Probabilidade: Um curs o em Nfvellntermediério
Variáveis Aleatórias 6 I
Se G é retângulo, então X 1 , ••• , X" são independentes e cada uma é que vale a recíproca (Proposição 2.6(b)): se X e Y têm densidade con-
junta, então existem as densidades marginais, com .fx(x) = J ~ n f(x, y)dy
uniformemente distribuída. Por exemplo, seja G = fi [ai, b;]. Então
i~! e f~( _v)= J~ X> f(x, y) dx.
Cabe notar aqui que X e Y são discretas se, e somente se, (X, }')
f(x,, ... ,Xn) =-~~ I - - JG(x, , ... ,Xn) =,fi, {b,.~a,-lla,.bil(x}, é discreto. (Verifique!) Logo, temos o seguinte esquema, onde X 1 , .•• , X,.
TI (bi -
i= I
a;) f são variáveis aleatórias em (íl, d, P):
onde a última igualdade se justifica por : X I' ... ' X n discretas <o> (X I ' ... ' X,.) discreto
(x 1 , ... , x,.) E G <o> X; E [a;, b;] 'Vi, X I ' ... ' X n absolutamente contínuas t.
(X I ' ... ' X nl absolutamente
ou seja, contínuo.
Observamos que sob a hipótese adicional de independência, te-
JG(x,, ... , Xn) = I <o> l(a;,bil(xi) = I, para todo i= I, ... , 11. mos equivalência nos dois casos, pois X 1 , ... , X" independentes e
I absolutamente contínuas = (X 1 , ... , X 11 ) absolutamente contínuo, pela
Como b- -:.__ - l 1a;.b,J é densidade da distribuição U[ai, ba, a Proposi-
0 Proposição 2.5(a).
' I
ção 2.5(b) diz que X 1 , ... , X" são independentes e X.- U [a- b]
. Se V, oi ~ ~ ~· não .se pode usar a definição dada ~cima p~ra' de-
fim r a d1stnbmçao umforme em G. Mas em certos casos tal distri- § 2.6 Distribuições de funções de variáveis e veto-
buição pode ser definida de maneira bem intuitiva. Para iiustrar este res aleatórios
conceito, seja G a diagonal do quadrado unitário no plano: Seja X =(X 1 , ••• , X,.) um vetor aleatório em ((l, .91, P), e conside-
remos o problema de determinar a distribuição de Y = g(X 1 , ... , Xnl·
Este problema inclui o problema de determinar a distribuição da fun-
Ção de uma variável aleatória, ou seja, de Y = g(X), pois uma variável
G aleatória é vetor aleatório unidimensional (i.e., 11 = I).
Obserração. Para que Y seja uma variável aleatória, vamos supor que
o g seja mensurável a Borel. i.e.,
Como v~cê interpretaria "o vetor (X, Y) é uniformemente distribuído g - 1(B) = {(x 1 , ... , X 11
)E IR": g(x 1 , ... , x,.) E B } E dd", 't/BE :Jd.
em G"? E claro que com isto queremos dizer que para todo boreliano Toda função que se pode visualizar é mensurável a Borel - em par-
B no plano, ticular, toda função contínua o é - e não vamos nos preocupar com
Px . y(B) = P((X, Y) E B) = ~~_mpri_m_:~o (G n Bl . esta questão.
~2
Formalmente, o problema é de fácil solução, pois a função de
Notemos que esta distribuição é singular: não existe uma densidade
con~unta. (Suponhamos que exista uma densidade conjunta, f(x, y).
di5tribuição de Y é
Entao Px.r(G)= I=JvJ f(x;y)d xdy =I. Mas área G =O, logo F y(y) = P( Y::::; y) = P(g(X 1, · .. , X nl ::::; y),
Jd f(x,y) dxdy =O. Absurdo.) e esta última probabilidade pode ser calculada por meio da distribui-
E fácil verificar que X,..,_, U [0, I] c Y ,. ,_, U [O, I]. Logo, fica pro-
ção conjunta de X I ' ... ' X n: se definirmos
vado que se X tem densidade e Y também, não é necessariamente verda-
deiro que X .e Y possuam uma densidadP mnirmta. Já sabemos, contudo, By = {(x 1, ... ,x,.):g(x 1, ... ,x,.)::::; y},
então g(X 1 , •••• X.)~ y se, e somente se, (X 1 •••.• X.) E By, de modo que probabilidade zero são desprezíveis. ~ara noss.o~ pr~pósit~s. Se você
quiser, poderá substituir z pela vanavel aleatona Z defimda por
F y(y) = P((X 1, ... , X.) E B).) = Px ,..... x.(B..).
, {X I Y, se X > O e Y > O
Em outras palavras, conhecendo a distribuição conjunta de
Z = O, caso contrário.
X 1 , ••• , X •• podemos obter a distribuição de qualquer função (men-
surável) das X i, pelo menos teoricamente. Voltando aos cálculos, temos para z >O,
Quando X é discreto, o problema é realmente de fácil solução,
pois neste cas~ Y também é discreta (por quê?) e para obtermos sua
Fz(z) = P(X 1Y ~ z) = P((X, Y) E BJ, onde:
função de probabilidade precisamos apenas somar os valores relevan-
tes da função de probabilidade de K· Especificamente, se a função de y
Caso 2
Caso 1
probabilidade de K é Px(;!i), i = 1, 2, ... , e se Yi é um valor possível 1/z ------ - -,; z<1 z ~1
de Y (i.e., um dos g(xi)[ então '
1/z
py(.V) = I P,e(~J
i: g(!.i ) .l';
Vamos ver alguns exemplos dos cálculos envolvidos no caso de

X contínuo. o
o X X
EXEMPLO 17. Se X- U [0, 1], qual a distribuição de Y = -log(X)?

Neste exemplo, X é um vetor unidimensional, i.e., Podemos restringir nossa atenção ao quadrado unitá~i?·. já que
uma variável aleatória. Como P(O ~ X ~ 1, O ~ y ~ 1) = 1, i.e., P((X, }')E quadrado umtano) = 1.
o < r < oc ~o < x < 1 Como x e Ytêm densidade conjunta igual a I no quadrado, pela Pro-
posição 2.5(a), temos
e P(O < X < 1) = 1, temos F tÜ') = O, y ~ O. Se y > O, então P( Y ~ y) =
= P( -log(X) ~ y) = P(X ~ e - y) = 1 - e -·".
Solução: Y- exp( 1), i. e., Y tem distribui_ção exponencial com parâ-
P((X, Y) E B:l = JJ B,
1 dx dy = área (B:) ..
metro I.
Logo.
EXEMPLO 18. Se X e Y são independentes, cada uma com distri- 0, z~ O
buição uniforme no intervalo [0, 1], qual a distribui- , o < =< 1
ção de Z = X ,' Y? F z(z) = zI~. 1
Como o < z < X se X > o e r > O, temos .{ I - : , z ~ I.
2
P(O < Z < x) ~ P(O < X ~ I, O < Y ~ I) = Como F z é contínua e derivável por partes, Z possui densidade,
= P(O < X ~ 1) P(O < Y ~ 1) = 1.
a saber :
Logo, F z(z) =O para z ~O. Notemos que segundo a nossa definição
0, =< o
formal, pode ser que Z não seja uma variável aleatória, pois pode . , I 12. O < : 0) ou ainda ficar sem defi- fz( z) = Fz(:) = _I_
nição (quando X =O e Y = 0). Mas esses dois eventos excêntricos têm { z > I.
2z 2 '
probabilidade zero, e podemos afirmar que, com probabilidade 1, Z
está bem definida e toma valores finitos, e, em todo caso, eventos de . (Os valores de fz em O e são arbitrários.)
70 ProbabMidade: Um curso em Nlvellntermediário
I Variéveis Aleatórias 71
. Para certos casos :·pa.dr~o", existem fórmulas que podem ser Logo, g é a densidade da soma Z = X + Y, i.e.,
aphcad.as para obter a distrtbUição de g(X). A soma de duas variáveis
aleat?r~as é o caso mais típico disto. E'iitão, sejam X e y variáveis
aleatonas em (Q, .91, P). com Z = X + Y. Calculemos a distribuição
fx + y{z) = f"" f(z- t, t) dt = (fazendo s = z- t) = foo f(s, z- s) ds.
-a: -oo
de Z. A solução geral é
Por isso, já está provada a seguinte proposição.
Fz(z) = P(X + Y~ z) = P((X, Y) e B;),
PROPOSIÇÃO 2.7. (a) Se X e Y têm densidade conjuntaf(x, y), então
+y
onde B= = {(x,y):x
y
S; z}:
J:u y(Z) = r:
-oc
f(z - t, t) dt = f"'
- ~
f(t, Z- t) dt.
---- z (b) Se X e Y são independentes com densidades fx e fr, então (por

/Bz
(a) e a Proposição 2.5(a)) X+ Y tem densidade
/ (região fechada)
fx+r(z) = f "' fx(z- t)Jr(t) dt = fcx. fx(t)f1 (z- t) dt.
- ~ -1
Observação. Se f 1 e fi. são densidades de variáveis âleatórias, sua

convolução / 1 *!2 é definida por
_Yamos supor agora que (X, Y) tenha densidade l(x, y), i.e., vamos
restringir nossa atenção para o caso contínuo. N~ste caso,
/1 •Ji.(x) = fcx. fl(x-t)f2(t)dt.
f ff(x,
-oc
Fz(z) = (pela Proposição 2.2'(b)) = y) dx dy = Portanto, pela proposição, se X e Y são independentes e absoluta-
8;,.., mente contínuas, então fx *fr é densidade da soma X + Y.
=f" f=Yf(x, idx dy. voltando ao exemplo da distribuição normal bivariada, pode-se
-J -J
mostrar que, se (X, Y) tem distribuição normal bivariada, então X+ Y-
. F~zendo a mudança de variáveis s = x + y. t = y, que tem jaco- - N(11 1 + 11 2 , O'~ + 2p a 1a 2 +a~). (Exercício: verifique os cálculos.) Em
biano Igual a I, temos particular, se X e Y são independentes (i.e., se p = O~ então X + Y-
F z(z) =fr 7
-7 - Y
f(s- t, t) ds dt = rf-'J _
7
7
f(s- t, t) dt ds =
- N(11t + 112• ai+ CT~).
Podemos generalizar esse resultado para a soma de n variáveis
aleatórias normais independentes. Com efeito, sejam X 1 , X 2 , ••• , X"
=r -c>
g(s)ds,
independentes, com X i - N(l1i• af), I~ i~ n. Então, por indução,
X 1 + ... +X."" N(111 + 112 + ... + l1n• CTI +O'~+ ... +a;).
Fazemos a indução da seguinte maneira: X I+ x 2- N(111 + 112•
onde g(s) = JJ f(s- t, t) de. ai +a~) e X 1 + X 2 é independente de X 3 , logo X 1 +X 2 +X 3 -
- ., · - N(11 1 + 11 2 + 11 3 , ai+ a~+ a~~ etc .. O problema que surge nesse
argumento e o seguinte: como garantir a independência entre X 1 +X 2

e X 3 ? Para resolver este problema basta utilizar uma outra proprie- y
dade "'hereditária" de famílias de variá veis aleatórias independentes·
PROPOSIÇÃO 2.8. Se X 1 , •.• ,X" são t:ariáz·eis aleatórias indepen-
dentes, emão funções de famílias disjuntas das X i
também são independentes. (As funções precisam ser mensuráveis. Exem-
plo: (X 1 +X 2 ) 2 , e-x,, max(X 4 , X 5 , X 6 ) são independentes. No exem-
plo acima X I + X 2 c X 3 são independentes, X I + X 2 +X 3 e x4 são
zw z X
independentes, etc .. ) I+ w
Prol'a. Teoria da Medida. Para ilustrar o método, provemos o se-
guinte caso especial: Sejam X 1 , ... , X" rariôreis aleatórias inde-
pendentes. Se g 1 , .•• , Yn sãofimções reais mensuráreis, então g dX d, ... , (Podemos restringir nossa atenção ao pnmc1ro quadrante, já que
Yn(X") são rariáz·eis aleatórias independt>ntes. (Por exemplo, Xf, X~, ... , P(X >0, Y>O)= 1).
x; SãO independentes, pois gi(X) = x 2 é função COntínua C, portanto, Como X c Y têm densidade conjunta
mensurável. E X 1 , X~, ... , X~ são igualmente independentes.) .
.f (x, y) =
{eO 1
' + -'"', X > O, _\' > O
Prom do caso especial. Seja r;=gi(XJ Pela Proposição 2.4. basta pro- , caso contrário
var que a função de distribuição conjunta das
(por quê?), temos
l; fatora:
P((X, Y)EB(.:,w))= J 8(=:, W)-.
f.t(x,y)dxdy= rwtl+wr
Ü X W
'e_ <+' 1dydx=
1
= P(X, Eg!'((- ::r.,y,]).... ,XnE!Jn 1 ( ( - ""~-·Yn]l = (Definição2.8) =

= f:w li +w~-x( -e-r) 1:·-x dx = r=w·(l +w;e-x(l +w)"- e-=) dx =
= r1
P(X,Eyi 1((- Y.,y,]) =
t I
Il
P(g,(Xi) s .\'i)=
i 1
Ii
FrJrd.
i 1
o t) XiW ._. Ü
Passaremos a considerar o caso de funções vetoriais de vetores - - \1'

-e X( I+ W)" I:w (I+ W)
- -.:w- e -: -- ( -\\"- ). (I -e -: -_e
- - =).
aleatórios, ou seja. o caso I=

(fJt(~), ... , g.t~)) = y(~), onde g: :R"-+R:k.
I+ 1r 0 I+ w _I+ w
l'm exemplo simples. em que obtemos a distribuição conjunta de duas Como F L . 11 (.:, w) =O quando .: s O ou w s O, e além disso, os dois
funções de um vetor aleatório bivariado, é o seguinte. fatores convergem para I quando .: -+ x e w-+ :r.. o resultado decorre
da Proposição 2.4(b): Z e W são independentes c
EXEMPLO 19. Sejam X c Yvariáveis aleatórias independentes, cada
uma com distribuição exponencial de parâmetro I. w
---- w>O
Provar que X + Y e X i Y também são independentes e achar as suas F 11 (w) = I +w'
{
distribuições. O . wsO
FL(z)={l-e-=-ze-=, ;;:>0·
Solução I. (Método anterior). Sejam Z = X + }: W = X i Y Aplicare- o ';;; s o.
mos o critério para independência, mostrando que a função
de distribuição F L. li é fatorável. Solução 2. (Método do jacohiano. Ao leitor, sugere-se uma leitura
Para :>O, w >O, F L. 11 (z, w) = P(Z s .:, W s 11') = P(X + Y s .:, rápida antes de passar ao próximo parágrafo, com uma
XiYsw)=P((X. Y)EB(.:,w)), onde B(:,w) é: relida mais profunda depois de ler o Teorema 2.1.) A transformação
Então existe a função inversa h= g - • em G, onde

z = 9t(x, y) = x + y, w = g 2(x, y) = .!_ é uma bijeção (correspondência
y Xt = htCVt• ... ,y.), ... ,x" = lt.(y., ... ,y.).
biunívoca sobre) no primeiro quadrante (i.e., x > O, y > 0), e P((X, Y) E
E primeiro quadrante)= 1. Como Suponha também que existam as derivadas parciais
wz
x = h 1(z, w) = - - , y = h 2(z, w) = - - ,
z axj
~=
ahi<Y•·:~ ... ,y.) , 1< .. <
_i,J_n,
w+1 w+ 1 uyj uyj
o jacobiano é e que elas sejam contínuas em G. Definimos o jacobiano J(z, y) pelo

determinante : -
w z
OXt OXt
w+ 1 (w + 1) 2 z
àyt ...... ily.
J= (w + 1)2.
1 z
w + 1 - ~+ 1)2 . .
ax. ox.
Logo a······a-
Y• Yn
. 7 ~ ~
- ~ -e - <x+Y 1
= - ~ -e ·
f z.w(z,w)= (w__ +-:_ 1-f(x,y)=
f w + 1)2
o ( (w + 1)2 Segundo um teorema do cálculo, se o jacobiano for não-nulo para
1 -- todo y E G, então
·,
=~+ lr ·ze
para z >O, w > O (e é igual a zero para z :5; O ou w :5; 0).

f·· A
ff(x 1 , ••• , x.)dx 1 .•. dx. =f ... ff(h 1(y 1 ,
g(A)
••• , y"), ... ,
"fi
E• f"ac1·1 verttcarque - -I- -2, w>O e ze -=' z> O' são densidades·' h.<.r ...... y.)) IJ<~. r> Idy • ... dy ••
(w + 1) '
de fato, são as derivadas das funções de distribuição F w e Fz obtidas para qualquer f integrável em A, onde A C G0 .
na solução 1. Decorre, então, da Proposição 2.5(b) que Z e W são Vamos traduzir para a linguagem de variáveis aleatórias e den-
independentes, e sidades: seja f a densidade conjunta das variáveis aleatórias X 1 , .•. , X"'
fz(z) = {ze -=, z > O onde P((X I, X nl EGo)= 1. Sejam r.'
o o o, as variáveis transfor- o o o, r.
O, z :5; O madas, i.e., ri= g~X 1 ; ..• , X.), i= 1, ... , n. Então para B C G, B bo-
reliano, temos
j;..(w) = {(w ~ 1) 2, w > O P(( r. ' o o o' }~)E B) = P((X I ' o o o' X nl E h(B)) =(pela Proposição 2.2'(b)) =
O, w :5; O.
= f- ··ff(x 1 , ••• ,x")dx 1 ••• dxn=
f-
h(8)
§2.7 O método do jacobiano = o ff<hdr.' o •• ' Yn), o o o' h.(Yl, o •• ' YnH· IJ(~. x)l dyl o o o dy •.
8
Suponha que G0 C IR" e G C IR" sejam regwes abertas, e que
Como
g: G0 ~ G seja uma bijeção entre G0 e G, onde
g(x 1 , ••• ,x.) = (g 1(x 1 , ••• ,x.), ... ,g.(x 1 , ••• ,x")) = (y 1 , ••• ,y.). -
P(rEG) = P(XEh(G))
- -
= P(X E G0 ) = 1,·
.
~
•
~·
~
conduzindo assim a:
6 temos, para todo boreliano B no iR",
f PQ:EB)=P(_rEBnG)= { ... ,"/(h(~))J1(:-,l·)!dy 1 ... dr".

J((x, r),(:, 11')) = -
.
<
(X+_\')
I
lx.r) 1>.-:1"·-t 1J.:Iw+1!i
f JB,,(, ..
Esta última integral é a integral sobre o conjunto B da função

I que toma o valor f(h(y)) IJ(x, .r li para y E G c o valor zero fora de G.
(2) No caso unidimensional, em que X c Y são variáveis aleató-
rias, o jacobiano é a derivada.
l Decorre, então, da definição -de densiladc que esta função é a den- Portanto, o teorema indica uma solução alternativa para o pro-
I sidade de !; c o seguinte teorema já está provado: blema do exemplo 17: se X ~ U [0, I], qual a distribuição de Y =
= -log X? Fazendo G0 = (0, I), g(x) = -log x e G = (0, x ), vemos
t TEOREMA 2.1. Sob as condiçaes dadas acima, a densidade conjunta
de Y1 , .•. ,}~é:
que as condições do teorema estão satisfeitas: portanto, temos
I
.(. . _ {/(hdJ_' 1 , yEG
l
••• ,_1' 11 ), ••• ,h"(y 1 , .. . ,y"))IJ(x,y)l, 1
.fl _I 1 , .. . , J "I - O, y ~ G. - - - /(r)={/x(y\rlli(Y- l'(yJf, yEG
1
. . O, Yf G.
Ohscnaç{)es. (I) O teorema diz que, sob as condições dadas, para
~ obter a densidade de Y basta (i) substituir o valor de x
Como y 1 (y)=e--' c (y- 1 )'(y)= -e-', a densidade de Yé
I em f(x) por seu valor em função de 1-:: i.e .. substituir x por h( r)= y 1( rl
c (ii) ;nultiplicar pelo módulo do j~cobiano de x e;n relação a r, q~e
I já é função de y. - :...
I Como é freqüentemente mais fácil obter o jacobiano de y em re-
I lação a ~, pois X
é dado em função de ~- é bom lembrar que os dois
jacobianos são recíprocos e pode-se obter J(x, r) a partir de J( r, x), t.e., Y- exp (I).
I invertendo este último e substituindo ~ por 11~1')"'= y- \r). (Esta ;cg~a (3) Para obter a distribuição de l=(Y1 , ... , }k)=g(~), quando
é análoga à regra para a derivada da função Inversa no caso unidi- a dimensão de Y é menor que a dimensão de~ (i.c .. k < n), muitas vezes
mensional: é possível completar a transformação y através da definição ~onvc
niente de outras variáveis }~ + 1 = !lk+ 1(~ ), ... , };, = g"L~), determmar a
dy" l(y) I I I ,
densidade conjunta de }'1 , .•• , l;, utilizando o método do jacobiano c.
dy - = y'(x) ;' q l(yJ
g'(g- 1
(.rll ) ·
finalmente, obter a densidade conjunta marginal de Y1, ... , }i,.
Por exemplo, na solução 2 do exemplo 19 obtivemos o jacobiano Por exemplo, no exemplo 18 calculamos a densidade de Z =X/}
partindo da suposição de X e Y serem independentes, cad~ qual t~ndo
}((.\, y), (:. 11)) = distribuição uniforme em [0, I]. O método usado foi o metodo basico
de obter diretamente P(Z :-s; :).
Consideremos o seguinte método alternativo: seja Gu o quadra-
derivando as funções x = Ir:- e r = - - . Mas poderíamos ter de-
~r+ I Ir~ I do aberto (0, I) x (0, I), de modo que
y
rivado as funções originais, : = x +y e 1r = - , para obter P((X, Y) E G0 ) = I.
r
Definamos !/ dx, y) = x,'y c completemos a transformação, definindo
J((:, 11-L (_x, _r)) ==
(.\ + y) IV = }: ou seja
Então a transformação g definida por g(x, y) = (x/y, y) é uma uma correspondência biunívoca entre Gr e G, V ( = 1, ... , k. (Neste
bijeção entre G0 e G = {(;::, w) :0 <::: < 1/w, O < w < I }: caso podemos dizer que a função g é "k a 1".)Além disso, suponhamos
que a função inversa de g IG , denotada por h<"l, satisfaça todas as con-
dições da função h do caso ~nterior, e indiquemos com J r(~.~) o jaco-
biano da função h<f'l. (Este jacobiano é função de y E G. Notemos que
h<tl: G--+ Gt é uma bijeção.) Temos, então, o seguinte esquema:
Como (x, y) = (zw, w), o jacobiano é
I0"'
J((x, y), (.:, w)) = = w.
=I
1
Portanto, a densidade conjunta de Z e W é G =imagem de g IGt' \:/f.
. (~ ) _ {i·l', (z, w)E G k k

f z.w ~. w - O, (z, w)f/= G. DesdequeP(XE U Gt)=1e[XE U Gr] C [!:EG],temosP(fEG)=
- f= I - f= I
Logo, a densidade (marginal) de Z é = 1, i.e., X toma valores só em G (pelo menos com probabilidade 1).
TEOREMA 2.1 '. Sob as condições dadas acima, se !

fz(z) = f" fz. v.(.:, w) dw = f(x 1 , ••. , x.), então X tem densidade
tem densidade
-x
O, .:::;O
- {"t/(h<fl<g))· IJ ,{,!, fl J, r EG
rol
J wdw =
2'
0 <z::;; 1 /!.(~) - O, 1 ~ G.
l /: 1
io
Esta é a densidade obtida anteriormente.

wdw= -
2z2,
;:: > 1. Prova. Se B C G,
P(X E B) = P(g(X) E B) = L
k
P(g(~) E B, ! E Gr) =
Ocorre que para determinarmos a distribuição de t = g(~), onde

= I
f= I
-
P(~EW 1(B)) =
f=l
±f . .
f-1 h(fl(Bl
ff(x 1, ... ,x.)dx 1 ... dx.=
K=(X 1 , ••. , X.) e X= (Y1 , .•. , Y.), podemos utilizar o método do ja- = (mudança de variável) =
cobiano em muitos casos em que a função g não é 1 a 1, bastando que
g seja 1 a 1 quando restrita a cada uma de k regiões abertas cuja união
contêm o valor de K com probabilidade um. Para tanto, suponhamos
= ftf . . B
ff<h(fl<g))JJ,(,!,_r)Jdyl ... dy.=
que G. G I • . . . • G, sejam subregiões abertas do IR" tais que valha

k =f ... f,~f(h<fl(}:))JJ,(,!,,f)\dyt ... dy •.
P(! E U G;) = 1, e tais que a função g JG,-• a restrição de g a Gf', seja B
i, I
Como P(X E G) = 1, o integrando é a densidade de X (em G). D i.e.,

EXEMPLO 20. Seja X uma variável aleatória com distribuição N(O, 1). r(l /2) = J1C.
Qual a densidade de Y = X 2 ?
(Exercício. Calcule a densidade de X 2 neste exemplo pelo método
2
Solução. Y = g(X) = X • A função g induz duas correspondências biuní- básico, primeiro obtendo a função de distribuição e depois
vocas quando restrita a (- oo, 0) e (0, oo): derivando-a para obter a densidade.)
y EXEMPLO 21. Sejam X e Yindependentes com distribuição comum
N(O, 1). Provar que Z = X 2 + Y 2 e W = X / Y são in-
dependentes e achar as suas distribuições. (Nota: por definição Z "'
- x 2 (2~ qui-quadrado com dois graus de liberdade. Você já sabe,
talvez, que W tem distribuição de Cauchy.)
(
Solução. A função g : IR 2 -+ IR 2, definida por g(x, y) = (z,_w) = (x
2
+ y 2,
x/y), é 2 a 1:
y
Aqui, G = (0, x.), h111(y) = -fi, h121(y)= f i Notemos que P(X E G 1 u
u G 2 ) = l.
z=1 W=l
Os jacobianos (neste caso as derivadas) das h(f'J em relação a y são
(z, w) = (1, 1)
dh 0 1(y) . 1 .
J,(x,y) = ~ = -
2JY, yE G (!.e., y > 0)
X
. dh( 21( ) 1
J2(x, y) = - d y = r.:-' yE G.
y 2y y
Como a densidade de X é j(x) = ~e -x 212 , a densidade de Y é

(z, w) = (1, 1)
Sejam G = {(x,y): x>O}, G 1 = {(x,y): y>O}, G2 = {(x,y): Y <0}. .

jf(y) = /(h(ll(y))· _ 1_ + /(h(2l(y)) _ 1_ = I I
· Então g 6 e g 6 são correspondências biunívocas entre as regiões
2JY 2../Y abertas Gf' e G: { = 1:2, e P((X, Y) E G1 u G2) = 1 (a probabilidade de
(X, Y) tomar um valor na reta {(x,y):y=O} é P(Y=0)=0).
· JY: = J2,tY e -y, , y E G,
1 ( - y/2 1 - )'/2 1 ) 1 . b'tanos das funçoes - .
..,f2n · Jy+
·'2 h(ll
= e e Precisamos, então, obter os Jaco mversas
2 2 e h( 2 J em G. Mas para tanto, basta obtermos os jacobianos das funções
com fy(y) = O se y ::5; O. I I
g 6 , e g 62 , que são recíprocos dos jacobianos d as inversas, e Sl;lbsti-
A distribuição de Y é, por definição, qui-quadrado com 1 grau tuirmos o valor (x, y) pelo valor h01(z, w) ou h( 2 1(z, w). Veremos que
de liberdade, Y- x2 (l ). Como sua densidade é proporcional à densi- neste exemplo não precisamos determinar explicitamente as inversas
dade da distribuição r(1/2, 1/2) (veja o exemplo 11) e as duas densi- (o exemplo é simples). De fato, temos
dades têm que ter a mesma integral ( = 1), concluímos que as duas
densidades são iguais (r(l/2, 1/2) = x2(l )) e. em particular, J ,((x, y), (z, w)) = 2x 2y
1 (1/2) 112 1 X
..,n:n = r om · y -y2
- r-
82 Frobabilidade: Um curso em Nlvellntermediário

V ariáveis Aleatórias 83
e Suponhamos, então que X 1 , ••• , X. formem uma amostra aleató-

ria de uma distribuição com densidade f; deste modo f é a densidade
1
J 2((x, y~ (z, w)) =- 2(w2 + 1)- comum às X i e, pela independência, X 1 , ••. , X. têm densidade conjunta
Portanto, a densidade de (Z, W) é
fz. w(z, w) = { /(h 0 1(z, w)) + f(h121(z, w))} · . 2(w; + ) em G.. Neste caso, as estatísticas de ordem X (li• ... , X 1• 1 possuem den-
1
sidade conjunta
Como
"
n! flf(xi), se x 1 < x 2 < ... < x.
1 -(x2+ 1·2)12 1 -z/2
= { ~: ca~o
1
/( x, }' ) = n e · -- -2n e ' fx( tJ ..... x(.,(x 1 ' ... ,x.) contrário.
2
temos Prova. Provaremos primeiro para n = 2. Definamos
1 1 < x2
fz w(z w) = 2 (_!__ e - z/ 2 ) · - -- -
2(w 2 +1)
= _!__ e - •12,
n:(w 2 +1)'
(x 1 , x 2 ) se x 1
··' 2n 2 g(x 1 , x 2 ) = (x 2 , x 1) se x 2 < x 1
{ (X , xtJ Se X = X •
para (z, w) E G, i.e., z >O e w E IRl (e = O, (z, w) ~ G). 1 1 2
Como a densidade conjunta é o produto de duas densidades, con- Então X = (X (I 1, X 121) = g(X 1 , X 2) e g é 2 a 1. De fato, definindo
cluímos (Proposição 2.5(b)) que Z e W são independentes, Z- exp(1/2~ G = G 1 = {(x 1, x 2): x 1 < x 2} e G2 = {(xJ, x2): x2 < xd, vemos que o!G,
e W - Cauchy-padrão. e g 1 . são correspondências biunívocas entre as regiões abertas G,
G2 1 .
e G, t'= 1,2. Além disso, temos P((X 1 ,X 2)EGi u G2)= , pms
(Observação. Decorre disso que x2 (2) = exp(l/2) = r(l, 1/2).)
P((X 1 ,X 2 )ftG 1 u G 2 ) = P(XI = X2) =
EXEMPLO 22. Obteremos a densidade conjunta das estatísticas de
ordem de uma amostra aleatória de uma distribuição
= ff f(xJlf(x 2)dx 1 dx2 =O
l(x,.x,):x, =xz l
absolutamente contínua. Primeiro, as definições necessárias:
(a área da diagonal é nula, portanto a integral sobre a diagonal tam-
DEFINIÇÃO 2.9. Variáveis aleatórias que possuem a mesma distri- bém é nula). ·
buição são chamadas identicamente distribuídas. Se Como h11)(y 1 ,}' 2) = (y 1 , y 2) e h121(y 1 , y 2) = (y 2, y 1 ), os jacobianos
X I• ... 'X n são variáveis aleatórias independentes e identicamente dis- de h(l' e h121 são, respectivamente, iguais a 1 e - 1. Em cada caso o
tribuídas, com função de distribuição comum F= F x i' dizemos que módulo do jacobiano é 1 em G, Jogo a densidade conjunta de X(l,
as Xi formam uma amostra aleatória de tamanho 11 (tirada de F, ou e x(2 ) é
tirada de uma população com distribuição F). As Xj ordenadas em
ordem crescente são as estatísticas de ordem da amostra e são repre- fxlli.XIli(YI• Y2l = /x,,x,(YI• Y2) + fx..x2(y2, Yd
= f(yd f(y2) + f(y2) f(yd = 2f(yd f(Y2~
sentadas por x(IJ•"'' X(nJ• onde para WEil, (Xo,(w~ .... X(n)(w)) é
qualquer permutação de (X 1 (w~ ... , X .(w)) que satisfaz para (y 1 ,y 2)EG, ou seja, para y 1 <y 2 (e é igual a zero se Y2 s yd,
como queríamos demonstrar.
X 11 ,(w) s Xdw) s ... s X 1.,(w). Para n > 2, a prova é análoga. Neste caso, a função g é 11! a 1 e
Observação. X 11 1 = mio (X 1 , ••• , X.) é o mínimo da amostra, X 1• 1 = há n! regiões Gf, correspondentes às n! jlermutações de G = {(x 1, ..• x.) :
= max(X 1 , ••• , X.) é o seu máximo. x 1 < x 2 < ... < x.}. Como o jacobiano de cada permutação é 1 ou -1,
.I
84 Probabilidade: Um curso em Nlvellntermediário Variáveis Aleatórias 85
e como o produto dos n termosf (y;) não depende da ordem dos termos , Dizemos que a soma Xi +X~+ .. . + x; tem distribuição qui-
segue-se o resultado. O -quadrado com n graus de liberdade. Notação :
Consideremos o seguinte exemplo especifico : se X 1 , .•• , X" são
independentes e identicamente distribuídas. com X ; --.. U [0. 1], então
Xf + .. . x; "' X (n).
2
f( x ) = / [o. l](x) e a densidade conjunta das estatísticas de ordem e Para verificar que a distribuição X2 (n) é a r(n/2, 1/2~ siga este
caminho: verifique primeiro que Xi- r(l /2, 1/2) (veja o exemplo 20);
j
.
X!!I . .. ,. X!n l
(
X1, .. . , X.)=
{n!O se O~conx rano,
< ... < x . ~ 1
1
t .. prove a seguir que se X e Y são independentes e X"' r{tx 1 , {3~ Y-
caso - nxz, {3). então X+ y- r(IX, + (X2, {3); e finalmente, mostre por in-
de modo que X 111, ... , X 1• 1 têm distribuição uniforme na pirâmide dução e pela propriedade hereditária da independência que X i + ... +
{ (x~> .. . ,x.): O~x 1 <: ... < x.~ 1}. + x; . .r(n/2, 1/2). (Para verificar que X+ Y"' r(a 1 + il 2 , {3~ use a
convolução - veja a Proposição 2.6(b).)
§2. 8 . Observações adicionais - variáveis e vetores Nota: quando n = 2, a distribuição é exponencial.
aleatórios (ii) Se X- N(O, 1~ Y- x2(n), e X, Y são independentes, então
(a) Se X 1, ... , X" têm densidade conjunta f(x 1, ... , x.). então, como T= _ x _
no caso unidimensional, f é a derivada de F = F x ,..... x"' no seguinte .jYin
sentido :
tem distribuição t de Studenr com n graus de liberdade.
Por exemplo, sejam X 1 , • • • , X" variáveis aleatórias independentes
2 2
e identicamente distribuídas, com X;- N(O, a ), onde a >O. Defi-
em quase toda parte, i.e., em todo ponto exceto num conjunto de namos
medida de Lebesgue nula (volume zero). - = 1- (X 1 + ... + X .) = " me'd"Ia amostraI",
X
n
(b) Seja f: IR"-+ IR: uma função não-negativa (f(x 1 , .. . ,x.)~0).
Como no caso unidimensional (veja o ~ 2.2), f é densidade de algum
1
S2 = - -
n-1
f (X;- X) 2 = "variância amostrai".
I vetor aleatório se, e só se, i=l
I S ... S f(x 1, ... , x.) dx 1 ... dx. = I. É fácil verificar que fi>:
a
possui distribuição N(O, 1). Acontece que
i O argumento é o mesmo : se a integral é igual a 1, então F definida por 1 2
f"'"
(n- ) S ._ X2(n- 1) e X e S 2 são independentes (você verá isso em
t F(x 1 , ... , x.)=
fx'
_" ... _ " f(t 1 , ... , t.)dt 1 ... dt.
0"2
algum curso de Estatística), logo

F . .
T = .:JjX .... t(n-1).

•
I
satisfaz as quatro condições definidoras de função ·de distribuição
11-dimensional (verifique!). Reciprocamente, se f é densidade, então a
s
Definição 2.7(b) e a propriedade F3 implicam que a integral de f em (iii) Se X - X2 (k), Y .... X2 (n), e X. Y são independentes, então
~
IR:" é igual a 1.
F= Xi~
E (c) Eis uma relação de algumas outras distribuições úteis na Y/n
Estatística :
• (i) Sejam X 1 , .. . , X" variáveis aleatórias independentes e identi- tem distribuição F com k e n graus de liberdade, i.e., - F(k, n). Pdo
2
camente distribuídas co~ distribuição comum N(O, 1).
•
~
item (ii), se T possui distribuição t(n), então T - F(1, n).
I
I 87
86 Probabilidade: Um curso em Nível Intermediário Variáveis Aleatórias
EXERCÍCIOS DO CAPÍTULO 2 (a) Determine o valor da constante c.

(b) Ache o valor r:t. tal que F x(IX) = 1/4. (:x é o primeiro quarril da
~ 2. 1 distribuição de X .)
7. Uma variável aleatória X tem função de distribuição
I. Seja X o número de caras obtidas em 4 lançamentos de uma moeda
honesta. Desenhe o gráfico da função de distribuição de X. 1 se x > I
F(x) = x 3 se O~ x ~ 1
2. Um ponto é selecionado, ao acaso, do quadrado unitário [0. l] x { O se x <O.
x [0, l]. Seja X a primeira coordenada do ponto selecionado.
Faça o gráfico da função de distribuição de X . Qual é a densidade de X?
3. Se adotássemos F(x) = P(X < x) como definição da função de dis- 8. Verifique que a função de Cantor é uma função de distribuição.
tribuição de X, qual seria a distinção entre o gráfico de F x, é o 9. Seja X uma variável aleatória com densidade
desenhado no §2.1? Haveria alguma mudança na função de dis-
tribuição de T1 no mesmo exemplo ?
4. Seja X uma variável aleatória com distribuição de Poisson, parâ-
/(x) = {(1 ~ x)2, se x > O
metro ). >O. Mostre que a função de distribuição de X é O , caso contrário.
Seja Y = max(X, c), onde c é uma constante >O.
F(x) -
_ t-\ J;.f'
n.
e- 'tn dt se n ~ x < n + I, 11 =O, I, 2, ... (a) Ache a função de distribuição de Y
(b) Decomponha Fy em suas partes discreta, absolutamente con-
O se x <O. tínua e singular,
5. Suponha que a vida útil de certo tipo de lâmpada tenha distribuição 10. Se X é uma variável aleatória com distribuição exponencial de
·exponencial com parâmetro .À. parâmetro À.> O, qual a distribuição da variável aleatória Y =
(al (Falta de memória da distribuição exponencial. Compare com o = min(À., X)? Faça a decomposição de F Y·
exercício 27(cl do Capítulo 1.) Seja T a vida de uma lâmpada 11. Suponha que certa máquina seja colocada a funcionar no instante
desse tipo. Mostre que t =O. Para t >O, seja Q(t + ilt I t) a probabilidade condicional da
t máquina pifar até o instante t + ilt, dado que funcionou até o
P(T > r + sI T > r) = P( T > s) 'Vs. r > O.
instante t. A taxa de falha da máquina é a função
t (b) Suponha que }. = 3 quando a .vida é expressa em dias. Uma
f lâmpada solitária é ligada em uma sala no instante r= O. Um h(r) = lim Q(t + M It),
<ir-o !1t
dia depois. você entra na sala e fica ali durante 8 horas, saindo
t no final desse período.
t se este limite existe. Suponha que h(t) = À.IXt~ -I, onde À. > O, :x >O.
(il Qual a probabilidade de que você entn.! na sala quando
já está escura ? (a) Ache a equação diferencial satisfeita por P(t) = P(T > t), r;;::: O,
•f (ii) Qual a probabilidade de você entrar na sala com a lâm-
pada ainda acesa e sa1r da sala depois da lâmpada queimar?
onde T é a vida útil da máquina. (Suponha que P(t) seja con-
tínua, com P(O) = 1, e que as derivadas à direita e à esquerda
são iguais.)
l §2.2 (b) Resolva a equação diferencjal do item (a). Qual a densidade
•t 6. Seja X uma variável aleatória com densidade
de T? (Observação: A distribuição de T é a de 1-Jéibu/1 com
parâmetros :x e À.. Quando r:t. = 1, a distribuição é exponencial ;
{~x , se - 1 ~ ·~ ~ I
2
/(x) = quando :x = 2, é de Rayleigh. Estes dois casos foram conside-
• O, caso contrano. rados no exercício 27 do Capítulo 1.)
•
•
Varibeis Aleatórias 89
88 Probabilidade: Um curso em Nfvellntermediário
18. Uma urna contém três bolas numeradas I, 2 e 3. Duas bolas são
~2.3
tiradas sucessivamente da urna, ao acaso e sem reposição. S..:ja X
12. Determine a densidade de Y = (b- a) X+ a, onde X ~ U [0, I]. o número da primeira bola tirada e Y o número da segunda.
(É a densidade da distribuição uniforme em [a, b], e escrevemos (a) Descreva a distribuição conjunta de X e Y
Y"' U [a, b ].) Faça o gráfico da função de distribuição de Y (b) Calcule P(X < }').
13. Se X tem densidade f(x) =e x /2. - x < x < + x, qual a dis-
1 1 19. Dizemos que a distribuição conjunta de X 1 , ..• , X" é invariante
tribuição de Y = X I I? para permutações se toda permutação das X; tem a mesma dis-
14. Cinco pontos são escolhidos, independentemente e ao acaso, do tribuição, i.e., se (X n1, X n,• ... , X n)"' (X 1, .•. , X.) para toda permu-
intervalo [0, I]. Seja X o número de pontos que pertencem ao tação (n 1 , ... ,n") do vetor (l, ... ,n).
intervalo [0, c] onde O< c< I. Qual a distribuição de X? (a) Mostre que se (X, Y)- ( Y, X) e X e Y possuem densidade con-
15. Determine a dif.tribuição do tempo de espera até o segundo su- junta f(x, y), então P(X < Y) = P(X > Y) = 1/2, com P(X =
cesso em uma seqüência de ensaios de Bernoulli com probabilidade = Y) =O.
p de sucesso. (b) Generalize o item (a), provando que se a distribuição conjunta
de X 1 , ... , X" é invariante para permutações e X 1 , ... , X" pos-
16. Uma massa radioativa emite partículas segundo um pro:esso de
suem densidade conjunta f(x 1, ••• , Xn), então
Poisson a uma taxa média de 10 partículas por segundo, Um
contador é colocado ao lado da massa. Suponha que cada par- P(X 1 < X 2 < ... < Xn) = P(Xn 1 < Xn, < ... < Xn) = ~!
tícula emitida atinge o contador com probabilidade 1!10, que o
contador registra todas as partículas que o atingem, e que não há e P(X; = X 1 para algum par (i,j) tal que i i' j) =O.
2
interação entre as partículas (elas se movimentam independen- 20. Seleciona-se, ao acaso, um ponto do círculo unitário {(x, y): x +
temente). + y ~ I}. Sejam X e Y as coordenadas do ponto selecionado.
2
(a) Qual a distribuição de X, ",gnúmero de partículas emitidas até (a) Qual a densidade conjunta de X e Y?
o tempo t, t >0? (b) Determine P(X < Y), P(X > Y) e P(X = Y).
(b) Prove que r; tem distribuição de Poisson, onde }; é o número 21. Seleciona-se, ao acaso, um ponto do quadrado umtano : (x, y):
de partículas registradas (contadas) até o tempo t, t >O. Qual o O ._: ; x :::;; I, O :::;; y :::;; I ) . Sejam X e Y as coordenadas do ponto se-
parâmetro? lecionado.
(a) Qual a densidade conjunta de X e Y?
(b) Calcule P(l Y/X- li:::;; 1/2).
(c) Calcule P( r~ X l Y ~ I /2).
~24
~2.5
17. (a) Demonstre que a função
.,., (Critério para independência no caso discreto.) (a) Sejam X e r
I - e- x- r, se x ~ Oe y ~ O variáveis aleatórias discretas, tomando respectivamente os valores
F(x, v)=
· { O, caso contrário x 1 , x 2 , ... e y 1 .}' 2 , .... Prove que X e Y são independentes se, e
somente se, P(X=x;, Y=y 1 )=P(X=x;)P(Y=y)'v'i.j.
não é função de distribuição de um vetor aleatório.
(b) Mostre que se X e Y tomam somente um número finito de va-
(b) Mostre que a seguinte função é função de distribuição de algum
lores, digamos x 1 , ... , xm e y 1 , ... , y•• então X e Y são indepen-
(X, Y):
dentes se P(X = x;, Y = y1 ) = P(X = x;) P( Y = y1) para I ~i:::;;
(1-e-x)(l-e->), x~O e y~O :::;; rn- I, 1 ~j ~ 11- I. (Em outras palavras, para provar in-
F(x, V)=
· { O, caso contrário. dependência, basta verificar (m- ·1) (n- I) equações.)
(c) Generalize o ítem (a) para o caso de 11 variáveis aleatórias. 3::'.. Um ponto é selecionado. ao acaso (Í.e., conforme a distribui<;<!(,
Compare com a Proposição 2.5 e explique porque é suficiente uniforme). do seguinte quadrado:
verificar se a função de probabilidade conjunta é igual ao pro- Y+
---_~1ç~ ~~
duto de 11 funções de probabilidade unidimensionais.
21 Demonstre ou exiba um contra-exemplo: se X, Y e Z são indepen-
dentes 2 a 2, então elas são independentes.
24. Ache a densidade conjunta e as distribuições marginais das variá-
veis aleatórias X e Y cuja funçao de distribuição conjunta está
~-'-1-'f/
no exercício 17(b). X c Y são indepcndcntcs'? ~;;
25. Determine as distribuições marginais das variáveis aleatórias dis- i -1
cretas X c }'definidas no exercício I X. X e Y são independentes'? Sejam X e Y a~ coordenadas do pon(o sdc:cionado.
26. Demonstre a Proposição 2.6(b). (:i/ Qual a tkmidade conjuntcl de :-; e r·>
27. Sejam X, }'e Z independentes, cada uma tendo distribuição uni- (b\ Obtenha a dcnsiddde rnargiH,il de .Y
forme em [O. I]. Qual a probabilidade da equação quadrática (C) X c r SdO indeper:L:Cnte~; ,,
Xt 2 + Yt+Z=O ter raízes reais'.' <,:,. Suponhamos qu\.' X e } tenham di"tribuiçào conjunta dada pcl.l
28. Sejam X e }'variáveis aleatórias independentes, com X ~ U [O. a] scguinh: tabelâ
e }' ~ U [a, a+ h], onde a> O, h> O. Qual a probabilidade de que
J
os três segmentos [O, X], [X, Y]. [ 1: a+ h possam formar um
triângulo'> 3
29. Demonstre: se a variável aleatória X é independente de si m;.::,ma.
então X é constante com probabilidade 1 (i.e., existe uma constante o
c tal que P(X =c)= 1).
30. Suponha que as vidas úteis T1 e 7 2 de máquinas I e li sejam va- 2 1) I. 15
I
t'5
riá\eis aleatórias independentes tendo distribuições exponenciais
3 o ~~-0--
com, respectivamente, parâmetros í. 1 e í. 2 . l'm inspetor escolhe
uma das máquinas ao acaso, cada uma tendo a mesma probabi-
lidade de ser a escolhida, e depois observa a máquina escolhida (Por exemplo, P(X=l, Y=ll=O e P(X=2, Y=1)=1 5./
durante a vida útil dela. (Suponha que a escolha sL~a independente (a) Determine as distribuições marginais de X e r
das vidas.) (c) X e }'são independentes? Por quê'?
(a) Determine a densidade de T; onde T é a vida observada.
~2.6
(b) Suponha que o inspetor parou de observar a máquina esco-
lhida depois de cem horas, com a máquina ainda funcionando. 34. Sejam X e Y variáveis aleatórias independentes com distribuição
Qual a probabilidade condicional da máquina escolhida ter uniforme em [li- l/2, O+ 1/2], onde OE IR:. Prove que a distribui-
sido a máquina I'? ção de· X - Y não depende de tJ, achando sua densidade.
(c) Qual a distribuição de T se í. 1 = í. 2 = í.'? 35. Sejam X 1 , •.. , X" variáveis aleatórias independentes com densida-
31. Suponhamos que os tempos que dois estudantes demoram para de comum de Rayleigh com parâmetro 0: e>
resolverem um problema sejam independentes c exponenciais com
parâmetro i.> O. Calcule a probabilidade do primeiro estudante
j(x) f é~ cxp ( - 2~:2) , x >O
demorar pelo menos duas vezes o tempo do segundo para resol-
ver o problema. 1o' X "5: O.
92 Probabilidade: Um curso em Nfvellntermediá rio
(al Determine a densidade conjunta de Y1 , .• • , }~. onde }j = X f_ (a) Seja X, o número total de fregueses que entram no supermc-
cado até o instante 1 (inclusive), para 1 ~ O. Então :X,: 1 ~ O:
(bl Qual a distribuição deU= min X; ' ) (Como se chama essa dis-
também é processo de Poisson (não é preciso provar). Qual o
tribuição '? ) parâmetro deste processo'? Justifique sua resposta.
z X_~_ . (bl Seja T1 o tempo em que o primeiro freguês entra pela entrada .4.
(c) Calcule a distribuição de =
x2 com V1 o tempo em que o primeiro freguês entra pela entra-
da B. Ache a distribuição de min( T1 , VtJ, o mínimo dos dois
36. Sejam as variáveis aleatórias X 1 , ... , X" independente s e exponen- tempos.
ciais com, respectivame nte, parâmetros '1 1 , •• . , '1,.
(cl Determine a probabilidad e de que o primeiro freguês a entrar
(al Mostre que a distribuição de Y = min X; é exponencial. Qual
no mercado entre pela entrada .4.
o parâmetro'? 41. Seja A o seguinte triângulo :
(b) Prove que para k = I. ... , 11 .
PIXÁ = min .li;)=

I :~ i : rr
(Sugestão . X k e min X; são independente s e, pelo item (a), expo-

i.., k
nenciais . Considere o evento [X k < min X;].)

í .j /..
37. Seja X uma variá\'el aleatória cuja função de distribuição F é Suponha que X e Y tenham densidade conjunta /(x., y) = d Ix. y).
uma função contínua na reta. Prove que a distribuição de Y = F(X) (a) Determine o valor da constante c.
é C..: [0, I]. (Sugestão. Prove primeiro no caso de F estritamente (bl Calcule a distribuição de X, a de Y e a de Z =X+ Y
crescente. Observe que não é suficiente provar no caso absoluta- (c) ,\;' e Y são independente s'1 Por quê?
mente contínua; vale também quando F é a função de Cantor.l 42. Se X e Y são as coordenadas de um ponto selecionado, ao acaso,
do círculo unitário [(.x, y) : x + y :<==;I:. qual a distribuição da
2 2
38. (a) As variáveis X. } c Z são independente s, cada um a uniforme- 2
variável aleatória Z = X + Y '!
2
mente distribuída no intervalo [0. I]. Determine Pl X < Y < Zl
eP(X:<==;Y:<==;Z). 43. Sejam X e Y variáveis aleatórias independente s, tendo distribuição
. (b) Se X , Y e Z são independente s e identicament e distribuídas, c comum L' [0, I].
(a) Qual a densidade da variável aleatória Z = X + }' '
1
a função de distribuição comum F é contínua, qual é P(X <
(b) Ache a probabilidad e da equação quadrática Xt
2
+ }'t + Z =O
< Y < Z)'? Justifique sua resposta . (Sug<'stãn. Exercício anterior. I
ter raízes reais.
39. (a) Sejam X e }'independen tes com distribuições de Poisson tendo,
respectivame nte, parâmetros i. 1 e i.2 . Mostre que X+ Y~ Pois- 44. Dizemos que X tem distribuição de Weibull com parâmetros '1
son (i. 1 + ). 2 ). e i. se X tem densidade

(b) Mostre que se X I' .. . ' X n são independente s tais que X I - Pois- .fx(.x) = i,'lx.' - 1 e- '·"' / 10 . ,)xl,
son (i.iJ, i= I' ... 'n, então X I + ... + X n~ Poísson (i. I + ... + i.nl·
40. Certo supermercad o tem duas entradas, A e B. Fregueses entram onde '1 >O e ). >O. Suponha que a vida útil de certo tipo de má-
quina, i.e., o tempo que ele funciona até pifar, possua distribuição
pela entrada A conforme um processo de Poisson com taxa média
Weibull ('1, ),). Colocam-se em funcionamen to, simultaneam ente, n
de I 5 fregueses por minuto. Pela entrada B, entram fregueses con-
forme outro processo de Poisson, independente do primeiro, a dessas máquinas. Qual a distribuição do tempo de espera até
uma taxa média de 10 por minuto. alguma máquina pifar? (Suponha independênc ia das máquinas.)
94 Probabilidade: Um curso em Nível Intermediário Variáveis Alea~órias 95
45. SeJam X e }' varÜi\'eis aleatórias independentes. X tendo dislri- 53. Sejam X c Y variáveis aleatórias independente-; com distribu11;üu
buição de Poisson com parâmetro i.= 5, e Y tendo distribuição
uniforme em [O. 1]. Ache a densidade de Z = X + Y comum exp(_i.). Prove que Z = x-1- y- U [0, 1].
46 Lança-se um dado equilibrado dum vezes. independL~ntemenk. 54. (Extensão do método do jacobiano para o caso de k infinito.) Sej;;
Sejam X e }'as vanáveis ak:atórias que representam os números Y=g(X). onde X=(X 1 , ... ,Xnl e 1'=(1'1 •... , }~).Suponhamo'
obtidos em, respectivamente, o primeiro e o segundo lançamento. que c:--c,, G2 , -~sejam subregiões ;bertas do [q" tais que P(~ c
(ai Determine P(.\ = }). EU G") =I, e tais que fiiG,. seja uma correspondência biunívoca
(b) Descreva a distribuiçà:J dr:: W =' i X - }' j. n
entre G, e G. V n ~ L Demonstre o seguinte teorema: se a função
(c) Seja Z = \1 se X + Y ~ ~ar
11<" 1 a inversa de g I! c· satisfaz as condições da função h do T cu-
tO se X + Y e tmpar. ~ rn"~
rema 2.1, V 11 ;::: 1, então X tem densidade

Expliqut: por que X e Z sàv. c·u niic· são, indep.::ndentes.
47. Escolhe-se um ponto ac acaso (i.c._ conforme a distribuição um-
forme l dos lodos do quadrado ck \'érticc~ (I. I), (I, - I), (- I. - I)
. fÍ
.fr(_\') =
--
"' I
/W"\:)) IJ,.C~.l'll.
O
XE G
, y !F G,
e (- l. I j. SL:j<!In X e Y as coorduH•dao. de ponto escolhido.
(a) Determine a distribuição de X -+ r onde J ,.(x, y) é o jacobiano de h<" 1•
(b) Ache P( H> ÜJ. onde W é o m;.iximc de ,\ e 1: 55. Se X posilli densidade f(x), qual a densidade de Y = cos );' ·)
(Sugestão: Use o exercício 54.)
56. Sejam X e Yvariáveis aleatórias independentes, tendo distribuição
~2.7
comum U [0, 1], e sejam R= "/2Jog (11(1 -X)) e e= n(2 Y- I).
48 Sejam X e }' variáveis akabrias independentes com distribui· J
(a) Mostre que e- U[- n:,rr e que R tem distribuição de Rayleigh
\'+}' . X-Y . com densidade
ção comum N(O. I). Mostre que L , eI = ..::_ tambem
{re-~' ~ ~-
2
'\ - '\ -
1
/(r)= : :
são indcpendenks e ;\'(0, I).
4Y. Sejam X c }'variáveis aleatórias independentes com distribuição (b) Mostre que Z e u:
definidas por Z =R cos 8 e H'= R scn 8,
comum U [O, I J Ache a densidade conjunta de W e Z. onde W = são independentes com distribuição comum .'\'(0. I).
= X+ Y e Z =X- }' W e Z são independentes' 1 (Obserração. Este resultado é de interesse na simulação dt: varia-
50. Suponha que X seja uma variável aleatória com distribuição veis aleatórias independentes ~ normais. pois indica como trans-
,\'(0. 11. Calcule a densidade de r= X 4 c a de Z = I. X. }'e Z pos- formar números "pseudo-aleatórios" (simulações de variáveis alea:
suem densidade conjunta? Por que'? tórias independentes c L' [0, I]) gerados por computador.)
5 I. Seja X uma variável aleatória possuindo densidade j(x ). 57. (a) Se X e Y têm densidade conjunta f(x. y), ache a densidade con-
(a) Ache a densidade de }' = I X:
pelo método básico, obtendo a junta de W e Z, onde W =a X +b e Z = c Y + d. a >O, c >O.
função de distribuição de X e derivando-a. b E iR;, dE !R.
(b) Ache a densidade de }' pelo método do jacobiano. (b) Seja (X. Y) um vetor aleatório tendo distribuição normal biva-
52. Suponha que X. }'e Z possuam densidade conjunta riada com a densidade dada no exemplo 13 Hi2.5). Qual a den-
I
.
(X._\',::) =
J-I(I · - +6- y -+- .::f-
T X
se x > O, r > O e :: > O
.
sidade de ( W, Z) = (.\' ~ J.1 1 , y -
ai a2
J.1 2 )? Que distribuição é essa·)
l O caso contrário. (c) Se (X, Y) tem distribuição uniforme no círculo unitário l(x, rJ E
Obtenha a densidade da variável aleatória 11' =X + Y + Z de duas E [R 2 : x 2 + y 2 ::; 1 J. qual a distribuição conjunta de W e Z
· maneiras diferentes (método básico c método do jacobiano). (como definidas no item (a))?
96 Probabitid ade: Um curso em Nível Intermedi ário
58. Suponh a que X e Y sejam indepen dentes, com X~ r(::x 1 , 1)

c CAPÍTU LO I1I
Y~ f!:12, 1), onde 1
:1 >0 e :1 2 >0. Mostre que X+ Y e x :y são
indepen dentes e ache ?S suas distribui ções.
59. Suponh a que X 1 , ... , X n formem uma amostra aleatória de uma ESPERANÇA MATE MÁTI CA
distnbui ção com densidad e f(x). Mostre que P(X I < ... <X nl =
= 1/ n! e que P(X; = XJ para algum par (i,j) tal que i# j) =O.
(Veja o exercíci o 19.)
§2.8
60. Suponh a que X I ' . .. , X n sejam indepen dentes c identica mente dis-
tribuída s, com densidad e comum f Mostre que a densidad e con- §3 .1 Preliminares: a integral de Stieltjes
junta de U = min X; e V= max Xi é
1 :S i- ~ n 1 :., i·~ n
Não é necessár io ler esta seção primeiro para poder acompa nhar
I~ l(u, r)= {n(n- l) [F( r) - F(uJ]" - 2 j(uJ/11'). se li < r as seções seguinte s. O leitor que já tenha alguma familiar idade com
· · O . se li 2 r . as proprkd ades da integral de Riemann -Stieltjc s. que são parecida
s
com as da integral de Stieltjes, pode omitir esta seção e consultá -la
(Sugestão. Primeiro obtenha P(li s; U. V s; r). Depois, calcule a
-
derivada da função de distribu ição conjunt a) quando precisar . Ao leitor que não conheça a integral de Ricmann
Stieltjes, sugere-s e uma leitura rápida antes de prossegu ir à seção
61 . Sejam X 1 , ... , X, variávei s aleatóri as indepen dentes e identica-
mente distribuí das, com distribu ição uniform e em [O, O]. onde seguinte .
O> O. Sejam Se cp é uma função contínua definida no interval o [a, b] e F é
U = min Xi, J.'= max Xi . uma função de distribui ção, define-se a imegral de Riemann-Stieltjes
I :. i ::.: ti t ·.. i : " de cp em [a, b], em relação a F (ou pondera da por F), como o limite
(a) Prove que a densidad e conjunt a de (L '. J ) é de "somas de Rieman n" da forma
2
/(u. r)= {11(11- l)(r-u)" ,0", Os; u < r s; O
• · O caso contrári o . f cp(_r;) [ F(xh d - F(x;)], (3.1)
•
i l
(Sugestão. Exercíci o 60).
onde a= x 1 < x 2 < ... < xn +1 = b, .\'i é um ponto arbitrár io de [x;. x,. 1],
• (b) Prove que a densidad e de ~ · - C está dada por
e toma-se o limite quando a norma da partição tende a zero. (A par-
•• /(Ir) =
11(11-1)11'" - (
2
. . (J" - t - -- 1 - O . . O ~ 1r s; li
[
1\' ,) tição consiste nos pontos xi. e a sua norma é definida como a maior
distânci a entre seus pontos vizinhos, ou seja. max (xi + 1 - xi).) Tal
1 ~- i,..:;"
O , caso contrári o.
I
I
• 62 . Se X b .. . , X, são indepen dentes com distribu ição comum U[O. 1].
mostre que
onde Y é a média geométr ica das X i• definida por

r
limite existe e é finito sob as condiçõ es descritas . e é represen tado por
a
cp(x) dF(x) .
..•
A função cp é chamad a de integrando. F de integrador.
Y= (fi xi')l·". Não é preciso supor que F seja uma função de distribui ção: se
,
F é uma função monóto na, ou mais geralme nte, de variação limitada
1- I
.•
.
63. Mostre que se X~ t( I), então X tem distribu ição de Cauchy . o limite de (3.1) existe e é a integral de Riemann -Stieltje s. No entanto,
Esperança Matemática 99
limite das somas (3.1), pois quando zero não é um dos pontos da par-
o caso em que o integrador é uma função de distribuição será do maior
tição, de modo que.\;< O< X;+ 1 para algum i, com F 0 (.-..:i+ d- fll(x;) =· L
interesse para nós.
então o somatório assu~c como valor ou O ou I, dependendo do va-
A integral de Riemann-Sticltjes sobre a reta é uma integral im-
lor escolhido para .\'; ser menor que O. ou não.
própria definida da mesma maneira que a integral imprópria de Rie-
mann:
•I• Por causa desta deficiência da definição, a integral de Riemann-
J <p(x)df(x) = lim j I.{J(x)df(x), Stieltjes mostra-se insuficiente para nossos propósitos, e teremos que
utilizar uma integral mais geral, a saber, a de Lebesgue-Stieltjl!s, que,
a_,. f r!
b-+ + f
doravante, será chamada simplesmente integral de Stieltjes. Não da-
se o limite existe. Veremos adiante que para a definição de esperança remos a definição formal desta integral, pois depende de conceitos
de uma variável aleatória. a função I.{J(x) = x assume a maior impor- da Teoria da Medida. que não devem ser introduzidos a esta altura.
tância. Neste caso. pode-se mostrar que quando a integral imprópria Entretanto, faremos agora algumas observações sobre a integral de
de Riemann-Stieltjes existe. é um simples limik de somas da forma Stidtjcs que deverão proporcionar ao leitor condições para poder cal-
cular a integral em qtmse todos os casos de interesse. (Como caso
i
L'
-
r;[Hx,. d- Flx 1 l]. (3.2) particular, notemos que quanto ao exemplo acima, o item 6 abaixo
f
implica J~ 1 F 0 (x)dF(,(x) = 1.)
onde os pontos X; formam uma seqü~ncia crescente, lim .\, oc + Y, I\o que se segue, o intl~grando l.fJ é uma função real mensuráveL
c o integrador F é uma função de variação limitada, contínua à direita,
lim
,_, f
X;= - J. _ .\";E [x;. X;; 1 Je toma-se o limite quando i. e., a diferença entre duas funções monótonas crescentes, limitadas
c contínuas à direita (veja Rudin [16], Teorema 6.27). Na grande parte
sup (x; + 1 - x 1) --> O. dos casos em que usaremos a integral de Stieltj..;s, o integrador F será
J ~: j ~ j
uma função de distribuição.

A definição da integral de Riemann-Sticltjcs pode ser estendida ( ll .1\'otarõcs. J~ I.{Jdf significa J~ !.fJ(x)dF(x). Quando não apar..:cern
a outras funções 1.fJ além das contínuas. Para uma função - f ._ ü
b-- ~ f
como o limite das somas (3.1) quando a norma da partição tende
a zero. se o limite existe. O problema desta definição é que até fun-
ções bem simples deixam de possuir integrais, como vemos no se- (2) Quando o integrando é contínuo em [a. h]. a integral de
guinte exemplo.
Stieltje" torna-se uma simples integral de Riernann-Stieltjes, e pode-
EXEMPLO 1. Inexistência da integral de Riemann-Stieltjes para um mos utilizar as propriedades desta. tais como as descritas em Rudin [16].
caso '"simples'". Seja F 0 a função de distribuição de- Capítulo 6. Com efeito. estas facilitarão nossa discussão das proprie-
finida por dades da esperança, pois nesse caso o integrando será a função con-
se x 2 O, tínua m(x) = x e, além disso. a integral será o limite das somas (3.2),
se x <O, se existir tal limite.
(3) J~ dF(x) = F(b)- f(al, i. e., a diferença de F sobre um inter-
c consideremos a integral de f 0 em [- I, I J em relaçãü a F 0 , ou seja,
I valo é a integral da sua diferencial. Esta propriedade é análoga ap
F 0 é ao mesmo tempo integrador e integram.~o. Então. não existe o
I
I
1 00 Probabilidade: Um curso em Nível Intermediário Esperança Matemática 1 O1
teorema fundamental do cálculo: J~(p'(x)dx = q>(/J)- cp(a), onde cp'(x) = dessa restrição, no caso da esperança, veja a observação 3, logo abai-
dq>(x) xo da Definição 3.2.
podendo-se reescrever a igualdade formalmente como
dx ' (6) Quando F é a função de distribuição de uma variúvel
r
&.LI
cp'(x)dx = r dcp(x)
il
= cp(b) - cp(a).
aleatória discreta X, a integral de Stieltjes reduz-se a uma série. se
P(X = xi) = p(xj) >O e L
p(xj) =I, i. e .. se p é a função de probabi-
lidade de X. então p(xi) é o salto de F em xi e

(4) A integral de Stícltjes é linear, tanto no integrando quanto no
integrador. Em outras palavras, para cp(x) = cxf(x) + {Jg(x) temos
r cpdF = 'l r.fdF + {3 r gdF

f cpdF = J_' f cp(x)dF(x) = ~ cp(xj)p(xJ
a '' ''
Uma explicação-intuitiva desta propriedade resulta da interpretação
e da diferencial dF(x) como igual a p(xi) no ponto x, e zero nos pon-
f cpdF = ex JtdF + {J gdF. f tos x que não são pontos de salto de F (notemos que F cresce apenas
em seus pontos de salto).
Quando a região de integração é um intervalo finito, temos
+ {JG(x)
r r
e para H(x) = cxF(x) temos
a
cpdH = X
u
cpdF + /f r cpdG
u
r
• a
(pdF =ia<~,· o cp(.xi)p(xj),
e
como é explicado nos ítens 9 e I O abaixo.
f cpdH = X J cpdF + {f í cpdG.

(7) Quando F é a função de distribuição de uma variávd alea-
tória contínua tendo densidade j; então f é a derivada de F (em quase
toda parte), temos dF(x) = f(x)dx c, em analogia com uma proprie-
onde valem as equações acima desde que as integrais estejam bem dade da integral de Riemann-Stíeltjes (Rudin [16], Teorema 6.17).
definidas e as somas tenham sentido.
então
(5) A integral de Stieltjes é aditira. Por exemplo. se a< h< c r r cpdF = cp(x)f (x)dx.
r
.. u .. a
cpdF = .(' cpdF + { <pdF. J J

cpdF =
-
f
f
cp(x)f(x)dx.
J cpdF = r
Isto vale também quando os intervalos são infinitos. Por exemplo,
cpdF + J a
f cpdF.
(8) No caso de uma função de distribuição geral F. onde a de·
composição de F nas partes discreta. absolutamente contínua e singular
é dada por F= Fd + Fuc + Fc. temo~, por linearidade,
J
- f
Novamente, estas equações são válidas quando as integrais estão bem h cpdF í"
=. cpFd +. q>dFuc + íb J" q>dF,.
definidas e as somas têm sentido. Para ter uma idéia do significado a a a a
1 02 Probabilidade: Um curso em Nível Intermediário Esperança Matemática 1 03
Em particular, quando F não possui parte singular .(F 5 (x) =O Vx), como vemos pela definição da integral como limite das somas (3.1 ).
então Portanto, a integração leva em conta o salto em b e ·ignora o salto
r =r +r
cpdF cpdFd cpdFa,
em a. Como essa propriedade é também da integral de Stieltjes sobre
o intervalo (a, b] (veja o item seguinte), utilizaremos o símbolo para J:
r
a a a
+r
representar esta integral:
= i:a];;$ b cp(x;)p(x;) cp(x)l(x)dx cpdFd2f f cpdF, (3.3)

a
r·
e a (a. b]
onde o termo à direita é a integral de Stieltjes em (a, b].

fcpdF =fcpdFd +fcpdFac = ~ cp(x;)p(x;) + cp(x)f(x)dx, Desta maneira, quando a integral de Riemann-Stieltjes existir, será
-x igual à integral de Stieltjes e o termo à esquerda em (3.3) indicará
onde p(x;) é o salto de F em X; e .f é a derivada de F (fé também a de- as duas integrais.
(I O) .f. integral de Stieltjes de cp em um intervalo é definida como
. d d d . dF(x) . dF (x)
nva a e F a" e modo quc j(x) = - -e f(x) = ~- com as duas a integral sobre a reta toda do produto de cp com o indicador do in-
dx · dx '
igualdades valendo em quase toda parte). tervalo. (A integral de Riemann possui uma propriedade análoga,
(9) Já que F é contínua à direita, a integral de Riemann-Stieltjes
pois é fácil ver que a integral de Riemann de cp em [a, b] satisfaz
em [a, b], se existe, ignora um eventual salto de F no ponto a, ma~ J~ cp(x)dx = J'::"" cp(x)J[a,bJ(x)dx.)
leva em consideração um eventual salto de F no ponto b. Por exem- Consideremos, por exemplo, S1a,blcpdF. Já que 11a,bJ toma o va-
I plo, definamos lor I no intervalo (a, b] e O fora dele, temos
•
I
I
F,(x)~ F se x < a
sea::;x<b
se b ::; x.
t
cp(x)l 1a,bl(x)
·
=
{ O
cpx
se x ~(a, b].
( ) sexea,.
Tomando como exemplo a função de distribuição F 1 do item 9,
que é uma função de distribuição discreta, temos (veja o item 6)
( b]
( • Vemos que a função de distribuição F 1 , embora possua dois
•
I
pontos de salto pertencentes ao intervalo [a, b], salta somente uma
vez nesse intervalo: fa,b cpdF 1
= [
]ta,b]
cpdF 1 = fcp(x)l 1a,bJ(x)dF 1(x) = +cp(a)lla.bl(a) +
I I
I
J .------- +l cp(b)J(a,b](b) = lcp(b).
-----~ t_ ------------
I ..\nalogamente, temos
I
é Q b X
[ cpdF 1 = fcp(x)I[a,bJ(x)dF 1(x) = +[cp(a) + cp(b)],
I ]ta,b]
Gráfico de F 1 . em [a, b]
• Se cp for uma função contínua em [a, b], a integral de Riemann-
I Stieltjes de cp em [a, b], ponderada por F 1 , será
•
I f
b 1
c cpdF1 = 2 cp(b), f
(a.bl
cpdF 1 = f cp(x)l 1a:b 1(x)dF 1(x) = O. ·.
I I
I ~
I
1 04 Probabilidade: Um curso em Nível Intermediário
Portanto, vemos que no caso discreto a integral inclui ou não a Uma possível explicação ínt uitiva desta definição reside na in-
parcela qJ(.\:;)p(x;) dependendo de X; pertencer ou não ao intervalo de terpretação de probabilidade como limite de freqüências relativas :
integração. interpretando X novamente como um característico numérico do re-
sultado de um experimento, suponhamos que vamos repetir (pelo
Na Teoria da Medida estende-se esse conceito, definindo-se a
menos conceitualmente) o experimento n vezes, independentemente,
integral sobre um boreliano B qualquer por
e observar os valores desse característico numérico. Nesses n experi-
I cpdF =I cpla(iF,
mentos, se n é grande, as observações tomarão o valor X; com fre-
qüência relativa de aproximadamen te p(x;). para todo i, isto é, X; apa-
recerá mais ou menos np(x;) vezes nas n observações. Portanto, o va-
de maneira que no caso discreto, por exemplo, lor médio observado nesses n ensaios do experimento, i. e., a média
fB
cpdF = , ~ 13
cp(x;)p(x;).
aritmética dos n valores observados, será aproximadamen te igual a
-nI ·I [x; · np(x;)] = I x;p(x;).

i i
Notemos que a aditividade da integral (item 5) decorre agora da
linearidade (item 4). pois se a <h < c temos
Este valor será o limite quando n ~ x, i. e., o valor médio obti-
/la.c)(x) = lla.b](x) + /ib.c)(X) do em 11 ensaios do experimento convergirá para EX quando n---+ 'i...
(Esta é uma versão da Lei dos Grandes Números. Veremos mais so-
e, portanto,
bre essa lei no Capítulo 5.) Portanto, podemos dizer que "esperamos"
f cpdf =I cpJ(a. c)dF = Icp/la.b)df + J cp/ 1b.c)c/F =
obter a longo prazo um valor médio EX.
EXEMPLO 2. No exemplo do processo de Poisson (exemplo 8, 91.31.
•a
íb cpdF + fb
cpc/F.
foi dito que ). era o número médio de chegadas durante
um intervalo unitário de tempo. Verifiquemos isso agora, recordando
que o número de chegadas em tal intervalo possui distribuição de
Poisson de parâmetro ).. Em particular, temos X 1 ~ Poisson (i.). por-
tanto
§3.2 Esperança
Seja X uma variável aleatória discreta com função de probabi-
lidade p(x;). O leitor certamente conhece a definição de esperanra
matemática para o caso discreto: a esperança de X é definida por • Y. ).1
=(fazendoj= k - l)=ú-'· ') _: =/..
(3.4t j';;;"'O j!
Este valor está bem definido quando a soma não depende da ordem Observamos agora que quando X é discreta, o item 6 do ~3 . 1
dos termos, em particular quando a série converge absolutamente diz que EX = JxdF(x). É essa definição que adotaremos no caso ge-
I
(i. e.. jx;!p(x;) < x ). A esperança de X é também chamada média ral, mantendo assim EX como uma média dos valores possíveis de
i
X, ponderada conforme a distribuição de X. Para justificarmos o
de X , ou ralor esperado de X. Com efeito, EX é uma média ponde-
uso dessa definição, partindo de (3.4), vamos aproximar X por uma
rada, onde os pesos são as probabilidades p(.x';), i. e., EX é uma média
variá vcl aleatória discreta.
dos valores possíveis de X, ponderada conforme a distribuição de X.
Esperança Matemáti ca 107
1 06 Probabilid ade: Um curso em Nivellnter mediário
Calcula ndo o limite. temos

Conside remos uma partição da reta em pequeno s intervalos f;
centrado s em pontos x, . com extremos .\'; 1 e .\';: lim2..:x ;[Fx(1'; )-FI(I', _ 1 )j

EX= limix; P(I,- 1 <X:Sy ,)= M-----0
M -.o i i
= J, xdF,1 (x).
Y-3
.
x_2 Y-2
)(
/_1
•
X.J
}(
Y-t
.
xa
lo
](
Yo
.
I,
]( •
onde a integral de Stieltjcs é, de fato, de Riemann-Stieltzes (veja a
discussã o em torno da fórmula (3.2) ).
Os intervalos não precisam ser de mesma comprim ento:
suponha mos apenas que eles sejam uniform emente pequeno s, no sen- DEFINJ Ç,\ 0 3.1. Seja X uma variável aleatóri a qualque r c F sua
d•'/ .
.
t1do de que sup(l'; - .\';- 1 ) = M seJa pequeno . função de distribuição. A t'sp.:rwt~·a de .\.· é dcfi-
r'
nida por
Definamos uma variável aleatória discreta r como a variável alea-
tória que assume o valor X; quando X assume um valor em 1;. ou LX = xdF(x).
seja. em notação formaL
y ,__ ~x,/J .I · I . J· quando a integral imprópr ia de Riemann-Stieltjes está bem dcfimda.
i
Como [Y = x,J = [X E:/.]. que é um evento aleatório . }"é variável DEFIN IÇÃO 3.2. Se EX e finita. dizemos que X é i111eynírd
aleatória . É discreta . pois assume somente os valores X;. c sua esperanç a é
LT = I .\"' J>( }" "-"' X') = I i
.\ i P(){ E I;). Ohserrariie.\. (I) Para muitos autores (por exemplo . Gneden ko [li]).
i
a esperança existe" quer dizer "X é intcgrável" . !\l,ls.
Ocorre que LT é finita se. e somente se II -' )P(X E /;) < Y. . entretan to. admitire mos a "existência" de esperc~nças infinitas -- \e_la
a observa ção 3 a seguir.
. - "' . '}. - A"' I. S:: T
M (2) Na literatur a matemá tica. usam-se várias integrais
para re-
Mas } e. uma boa aproxtm açao para A, pots 1
presenta r a esperança, as mais comuns sendo

(para t'J E [X E /,]. X(t·J) E/, e Y(<l)) = \,. logo I l(I'J) -- X((!J) I :-:::;
:5: ( 1·, - 1' ; - - 1) 2 :S J\1,2).
A1
Já que os valores de Y e X têm uma diferença sempre :-: :; 1 .
e h<!m intuiti\l l requerer que nossa definição da esperanç a (=médi a) As duas últimas integrais são de Lebesgue: a última é uma integral
1 de Lebesgue no espaço de probabi lidaJe (Q. _,; , P). Vocl: não precisa
satisfaça IEX - E } 1 :S ~ . Em outras palavras, queremo s que EX
entende r essas integrais, mas no futuro poderá ser conveniente reco-
sc_1a o limite de E} quando M-. O. se o limite existir. i.e .. nhecê-las como equivale nks à esperança.
I x;P(X E /;). (3) A esperança estarà bem definida se Jt; xdF(x) ou J':_, xdF(x)
LX = lim
M~o ; fllf finita. 0..: falo, escrevendo
(Pode-se mostrar que existe o limite se I lx;!P(X E /,) < +f. para
"·
_" xdF x(x) = Io xdF x(x) + f .f.
xdF x(x) ~f
d
1 + li.
alguma partição com M <
partição.)
Y_. , ou seja, se Er é finita para alguma tal
I - J._,
0
Esperança Matemática 1 09
1 08 ProbabiNdade: Um curso em Nível Intermediário
EX = Jxdf(x) significa que a esperança é a integral da diferencial

kmos I ~ O. I I ~ O e
xdF(x). Mas xdf(x) é uma diferencial de área:
(il se I e I 1 são finitas. então X é integrável.
y ~ F(x)
üil se I é finita e 11 = + x. então EX= + :c
(iiil se I= - x. e I/ é finita, então EX= - y_ .
(ivl se I= - x e 11 = + x.. então E.\' não está definida .
Assim, X é integrável se. e somente se, J lxid.Fxlxl <-r__ Mais

tarde veremos que J lxldfx(.x)= EiX \. de modo que X é intcgrá-
vel-= E\ X I < x. .
(4) Se X tem densidade f(x), então pelo item 7 do 93.1.
I' .•
EX = jxdF$xl = jxt(x)d.\.
. .
Se a densidade f for integrável a Riemann (no sentido usual) então Para x ~O, xdf(x) é uma diferencial de área da região /.
esta última inkgral também será de Riemann (Rudin [Ió]. Teorema y • F [xl
6.17). Em outras palavras. H'Cê pode continuar a trabalhar com a
integral de Riemann nl) caso contínuo.
No caso discreto. já vimos que EX =L; X;p(x;l. Pelo item 6 do
~31. esta definição concorda com a Definição 3.1
No caso geraL suponha F\ = FJ -i- F.,,+ F,. Então
pelo item 8. ~J I. Como a parte singular costuma ser nula. na prá-

tica a esperança reduz-se a uma séne e:ou uma integral imprópna Para x ~O, - xdf(x) é uma diferencial de área da região I/.
lk (usualmentcl Ricmann.
Logo EX =área 1 -área 11. Mas ár..:a I= J,; I I - Ftx))J.\ e área
EXEMPLO 3. ~ejam X~ qo. 1]. r= min (x. ~) Então II = S0 , f(xtdx. logo deduzimos a seguinte
PROPOSIÇ ÃO 3.1. EX=J~ (1 - F(x)ldx-f' , f(x)d\.
f}' = Fdfl(Yl = FdFÚ(\') T FdF,,JI'l = Prom formal. Vamos pro\'ar que J~ xdFI.$ = J,; (I - Hx))dx. deixan-
do a outra parte (J ~ ,_xdF(x) = -- J~ 1 F(x)dx) para o leitor (a proya
( c r. I dl' = I + I 3
I (. I .) é análoga). Usaremos integração por partes, com a diferencial
2p2+L.
. · 4 s 8
d(xf(x)) = xdf(xl + f(xtdx (para uma justificação formal dessa inte-
·.
(Este exemplo é continuação do exemplo 8, 92.2.) gração, veja Rudin [16]. Teorema 6.30):
V h > O. fbxdF(x) = bf(h}-

(' F(x)dY = fb [Fihl -
L f( x)]dx.
Ocorre que a esperança de X é sempre igual a uma integral de •O O
O
R icmann . Para entendermos isso. consideremo s o seguinte argumento:
.
•. Esperança Matemática 111
. 11 O Probabilidade: Um curso em Nível Intermediário
• Como F(h) ::s; I t.: I -- F(x)? O, temos
I
Prora. Imediata. O
Quando se conhece F x ou P(X > x), esta fórmula pode simplifi-
•
h ,•h
J [F(h)- F(x)]dx s
• f o
xdF(x) =
() • ()
[I - F(x)]dx. V h> O, car o cálculo de EX. Por exemplo, se X- exp().), i.e .. X tem distribuição
exponencial de parâmetro ;,, então P(X > x) =e-'", x? O c
• de modo que
f' ~
I.'
EX= e-;.xdx =- e-;.xl'
•
I •o
xdf(x) = lim
h ..... f
I" xdf(x) ::s; J,•, [I
•o
' (J
- F(x)]dx . Jo A. o "-
O cálculo foi simplificado, pois evitou-se uma integração por partes
I Por outro lado, seja i >O. Se b >À, então
(o que, afinal, já foi feito na prova da proposição.)
~b ~A A fórmula do Corolário 1 possui uma forma simples no caso
J [f(b)- F(x)]dx ? J [F(b)- F(.x)]dx = de X ser discreta e assumir valores inteiros:
u u
COROLÁRIO 2. Se a rariávcl aleatória X assumir somente valores in-
= I' [f(b)- I ]dx + f;. [I - F(x)]dx =
teiros não-negatiros, então
~ "
~(} ~(J
I I
= i[f(b)- I]+ r
• (I
[I - F(x)]dx,
Prora.
EX =
n--O
P(X > n) =
n -' 1
P(X ? n).
F(x)
e portanto,
, ·"
lim ,. xdf(x) = lim I·" [F(b)- F(.x)]dx;::::
•or xdf(x) =
h_. f
•o
b--. I
•o
? f; [I - F(x)]dx +!i~ i.[F(b) -- I]= ~;[I - F(x)]dx.

o •. o 2 3
Pela proposição e pelo desenho,

Já que isto vale para todo ;. >O, temos
r
EX = área 1 = I - f(O) + 1 - F(l) + I - f(2J + ... =
í'
.. o
xdF(x)? li_:l;
.. o
[I - F(x)]dx = íf [i -
.. o
F(x)]dx. O
= I'
n =O
[I - f(n)] =
~
I
n~ O
P[X > n].
Como X assume apenas valores inteiros, temos

COROLÁRIO l. Se X tomar somente l·alorcs não-negativos, ou seja,
X(w)? O V w E Q então F xLx) =O para x <O c
P(X > n) = P(X? n + I),
EX = r o
[I - F x(x)]dx = r o
P(X > x)dx.
logo,
I
x_.
n-:::0
P(X > n) =
:f
I
n:::O
P(X ? n + I) = I
X
n·:::l
P(X >- n). O
Esperan ça Matemá tica 11 3
112 Probabi lidade: Um curso em Nlvef Interme diário
EXEM PLO 4. Lança r uma moeda indepe ndente mente

primei ra cara. Seja
cessári os e p a probab ilidade de
Então X toma apenas os valores
X
obter
I, 2,
o númer
cara
3, . ..
em
e P(X
o
um
de
~
lançam
dado
n) é
até obter a
a
entos ne-
lançam
probab
ento.
ili-
Então, pela prova da Propos ição 3.1,
E IX I = área I + área 11 = ro
xdF x(x) -
= ~Ix IdFx(.x) + Io I I.
f
... , n - I, i. e., a pro-
dade de não obter cara nos lançam entos I. 2,
( = (I - p)"- 1 ).
x IdF x(x) = Ix IdF x(x).
babilid ade de sair coroa nos lançam entos I até n- I -
o .y, - f
Logo, Defini ção 3.2)

Assim provam os que (veja a observ ação 3, abaixo da
EX = Í P(X ~ n) = Í (I - p)"
1
= Í (1 - p)" =
1
. . I I=
E X I
f~ "" jx dF xCx~ e que X é integrá vel se, c somen te se, E X < x. i I
n ~o p a fórmul a
n~l n o !
(Nota : daqui a pouco veremo s que
Notem os que o cálculo direto EX=

utiliza ndo a função de probab ilidade da distrib uição
f
L
n ·· I
nP(X = n) =
geomé trica, é
•
L n(l -
n :~ I
p)" 1
p,
Eq>(x) = f' f q>(x)dF x(x)
vale para q> geral.)

mais árduo.
até o pri-
Vemos , portan to. que a espera nça do tempo de espera
de ensaio s de Bernou lli é l,'p. onde
meiro sucess o em uma seqüên cia
p é a probab ilidade de sucess o em cada ensaio . §3.3 Propr iedad es da espe rança
Observação. Como IX I ~ O, o Corolá rio I implica que Et. Se X= c (i.e., X(w) =c V w E Q), _então EX= c.
= c) =
Proua. X é uma variáve l aleatór ia discret a e EX = cP(X
E IX I= f' P( i X I> x)dx =f'
o
[P(X > x) + P(X < - x)]dx =
=C· I= c. o
s.
E2. Se X s Y então EX s EY, se as esperanças estão bem definida
.. 0
f,
•o
[I - F x(x) + F x((- x) - )]dx. (Basta uma das espera nças ser finita, ou E Y
Prora. Ys::= Xsz, logo [Ysz ] c[Xs z]. Portan to,

= - x., ou EX
Fr(z)s Fx(z)
= + x. ).
x) -)é o limite da função F xl.r) quan- c I - F y(z)::?: I - F x(z). Pela Propos ição 3.1 .
É bom record ar que F x((-
do .ri (- x). Logo. Fx((- x)-) =F x(- x) quand o - x é ponto
contin uidade de F>.. Por isso,F x((-x )-)e Fx(-x ) são
em iguais, exceto em um númer
de
funçõe s mo-
o finito ou
EY =r (I - F y(:))d.:: - f,. F y(.::)dz ~ r (I - F x(z))d.:: -
-r,.
nótona s (decres centes x)
LJ F x((- x) - )dx = I:
enume rável de pontos . Daí conclu ímos que
F x(- x)dx = (muda nça de variáve l) =

Fx(z)dz =EX. O
=f • F x(x)dx.
E3. Linearidade.
(i) Se EX está bem definida, então E(aX + b) = aEX + b
a, b E IR (convenção: O· CXJ = 0).
para todo
Resum indo, temos (ii) E( a X + b Y) = a EX + bE Y, quando o termo à direita

da igual-
E! XI= J~· [I- Fx(.x)]dx +

Io Fx(x)dx. dade tem sentido. (Sobre a restriç ão: se, por exemp
então O= E(X- X) i' EX- EX, pois + x. - :y_. não
lo,
tem
EX =+x ,
sentido .)
o - ry
f
I
I Esperança Matemática 11 5
I
Prora. (i) Se a= O, então EtaX +h)= E h= h= a EX +h. Se a> O, então Prora. Dado x 0 e o ponto <p(x 0 ) do gráfico de <p, pela convcxidadc
existe uma reta L que passa por <p(x 0 ) c deixa a curva <p aci--
ma dela:
.p(x)
Jogo
E(aX +h)=
{'
I. (I - Fa.nb(x))dx- I( FaX+b(x)dx =
.. o .. - .t
= ., (.· I - f , x(-'-
- -- -- b').) dx - fo Fx (-'--h)
. - dx =
X
..1o \ ,ui/ -1_ \~.-1
Seja para algum i. E !ft y- <p(x 0 ) = i.(x -- x 0 ) a equação desta

reta L. Então
= a
r,
I (I - F xCrJ)dy - a
Í I·., Fx(_r)dy ='
<p(x) ~ L(x) = <p(\ 0 ) + i.(x - x 1,), 'r/x.
"-h,a .. - J Portanto,
,.., ,.o E<p(X) ~ EL(X) ~ <p(x 0 ) + i(EX - x 0 ).
= aJo (I - F x(y))dy - a I, F.\(y)dy +
Tomando-se x 0 =EX. vem E<p(X) ~ <p(EX). D
,.o ,..o (Exercício. Mostre que se <p é côncava, então E<p(X) ~ <p(EX).)
+ a j_ b " (I - F x(.V))dy + a J_I• Fxí_r)dy =
11
Comeqüências das propriedades. (I )E2 diz que X~ Y implica EX ~ E} .
•o Em particular, se X~ O então EX ~O.
= aEX + a J dy = aEX + b. Sejam X e Yvariáveis aleatórias tais que y ~O, ré integrável. e I X:~ r
- b a
Então O~ IX! ~ Y implica
o~ E: X I~ EY < + Y.,
O caso a <O é análogo, e (i) está provado. Para (ii), resta provar
i.c., X é integrável. Em outras palavras, se X é dominada por uma
E(X + Y) =EX+ EY se o termo à direita tem sentido. Veremos mais
variável aleatória integrável, então também X é integrável. Em par-
tarde quando consideramos esperanças de funções de vetores aleató-
ticular. se X é limitada, então ela é integrárel, pois IX I ~ b < + Y.
rios. D
implica E IX I ~ b < x.
E4. Desigualdade de J ensen. Seja <p uma função com·exa definida na (2) Critério para integrahilidade. Seia X uma rariâre/ aleatória qual-
reta. Se a l'ariát•el aleatória X é integrárel, então f 'l
quer. Então L P(IXI~n)~EIXI~I+ L P(\XI~n), e portanto

E<p(X) ~ <p(EX). n- 1 n -1
X é integrável se, e só se, L' P( I X I ~ n) < X.

(Notação: E<p(XJ =E: <p(X)).) n- I
116 Probabilidade : Um curso em Nlvellntermediário Esperança Matemática 11 7
Prova. Se x ~O, seja [x] a parte inteira de x (o maior inteiro menor §3.4 Esperanças de funções de variáveis aleatórias
que ou igual a x). Então a variável aleatória [I X I] assume
o valor k quando k ~ IX I < k + I e Seja X uma variável aleatória, <p(x) uma função real mensurável,
O~ [ I X I J ~ l X I ~ [lX I ] + I, Y = <p(X). Então Y é uma variável aleatória cuja esperança é dada por
logo, por E2 e E3.
EYd,1 f.vdFip(X)(y) =L" [I - Flp(XI(y)]dy- J:.,. F.,(X)(y}dy,
o~ E[ I X IJ ~ E I X I ~ I + E[ I X I ].
Mas pelo Corolário 2 da Proposição 3.1.
pela Proposição 3.1.
Para usar estas fórmulas, é preciso obter a distribuição de Y = <p(X).
X OC
E[ I XIJ= L P<[ I X I J~n)= nL= l P( I X I ~n),

n=l o.que às vezes não é fácil (estamos supondo que conhecemos a distri-
buição de X). Mas lembrando-se que a esperança de .Y é uma média
logo 1:
onde os "pesos" são determi-
ponderada dos valores possíveis de
I P( I X I ~ n) ~ E I X I ~ I + nt=l P( I X I ~ n). O nados pela distribuição de Y, surge uma pergunta natural: será que
n~l
a esperança de <p(X) é uma média ponderada dos valores de <p(X)
(3) A desigualdade de Jensen diz que E<p(X) ~ <p(EX), se <p é função para os valores possíveis de X, onde os pesos são determinados pela
convexa e EX é finita. Por exemplo : distribuição de X? Ou seja, será que fydF •<x1(y) =f <p(X) dF x(x)? A
resposta é afirmativa, como é fácil ver no caso discreto:
· (a) Seja <p(xJ= Ix l. Então E I X I ~ I EX I (o que é também con-
Seja X uma variável aleatória discreta com função de probabili-
seqüência de E2 e E3: - IX I ~ X ~ I X I ~ - E I X I ~ EX ~ E I X I ).
dade p(xi), onde L p(xi) = I. É óbvio que a variável aleatória Y = <p(X)
(b) Seja <p(x) = x 2 • Então EX 2 ~ (EX) •
2
i .
(c) Seja <p(x)= lx iP, onde p~ I. Então E I X I P~ IEX IP· Fazendo é também discreta e toma somente os valores <p(xi). Então sejam
Y = IX I e aplicando Jensen a Y, obtemos uma desigualdade mais y 1 , y 2 , ••• os valores possíveis de Y, supondo por conveniência que os
refinada: Yi sejam distintos, de modo que Yi = <p(x;) para pelo menos um i (é
E I X IP ~ (E I X I JP ~ (pelo item a) ~ I EX IP·
possível que exista apenas um YJ• como, por exemplo, se <p(x) = c
constante). Então temos
Observação. Para a validade da desigualdade de Jensen, basta que a
função cp seja convexa em um intervalo (a, b) tal que P(Y = y) = L p(xi).
i: •<·' ;I = y 1
P(a <X< b) = I (a prova é a mesma, mas veja o exercício 13). Por
Obtemos agora a esperança de Y:
exemplo, se X é uma variável aleatória positiva (X >O ou, mais geral-
. f -
mente, P(X >O)= 1), podemos aplicar Jensen a unçao <p(x) =
1 .x' EY = fydFr(Y) = ~yiP(Y =
J •
y) = ~(J'i. L
J I: .(Xj) =}';
p(xi)) =
com (a, b) = (0, x, ). Neste caso, a conclusão é que
= (substituindo) = L L <p(xi)p(xi) ~L <p(xi)p{x;) =
j i:op(Xj ) =Jj i
) > _1 .
E(_!_·
X -EX
=f <p(x)dF x(x),
Sob a mesma condição P(X > 0) = 1, podemos aplicar Jensen à fun-
ção côncava <p(x) = log x, obtendo onde a equação (*) é válida desde que a ordem dos termos. da série
não afete o valor da soma (e, em particular, se EY está bem definida).
E log X ~ log (EX).
Passaremos agora ao caso geral. ·
118 Probabilidade: Um curso em Nível Intermediário Esperança Matemática 119
TEOREMA 3.1. Seja X uma rariárel aleatória. cp(x) uma fimrão real Pelo método de prova da Proposição 3.1 (integração por partes).
mcmuráre/. Então temos
Ecp(X)d;;J J.rdFcp 1.\ 1(y) ••co I cp(x)dF,,.(x),

f~ xkdF(x) = LJ [I - F(x)]dxk -f, F(x)dxk =
onde a existência de uma das integrais implica a existência da o!/lru
e a igualdade das duas.
=k{fJ [I-F(x)]xk·ldx-J° F(x)xk- 1 dx}.
Prova (parcial). Prova-se o caso geral com a Teoria da Medida. Mas o - ,y
já provamos para cp(x) = l x l e podemos provar o teo-

rema para polinômios usando somente a integral de Riemann. ba-
seando-nos na Proposição 3.1. Mostremos que Logo EXk = Jx"dFx(x) para k par. Para k ímpar, a prova é análoga.
Portanto o teorema está provado se cp é polinômio, pela lineari-
dade da esperança e da integral de Stieltjes. O
EX" = Jx"dFx(x), para k = I. 2, ...
COROLÁRIO. EXk = k (J {J [I -F x(x)]xk I dx- s~ F x(X)Xk- I dx: . 7
para k = I, 2..... (É a fórmula (3.5).)

Para conveniência de notação. seja F= F\. Primeiro, seja k par. EXEMPLO 5. O corolário facilita muito na distribuição exponencial.
Então Se X~ exp(.lc), então P(X > x) =c-;_,, x 2': O, e
EX" = II" ·;
•o
P(X" > t)dt (pois x• 2': 0) = EXk = k { :k- 1 e-ü dx .
= J~f
o
P(X >+I'~.t)dt
.. ()
P(X <- ~ t)dt = Podemos calcular todos os momentos (veja o *3.5) por iteração, sem
I
integrar por partes. Com efeito, já vimos que EX = T; portanto.
= í.' [I- F(~.t)]dt +I'
•0 •U
f((- ~-t)-)dt =
EX 2 = 2
r
J
.o
• .
xe-·'-' dx =
~
2 ,.,
-:;-J
o
')
úe-ü dx = -~
~
i'o
xf(x)dx =
= (fazendo t = s•) =
= í.'
.. o
[1 - n~J]ksk I dl-r f'
.. ()
F((- s)- )ksk I ds .
Como as funções monótonas f((- s)-) e F(- s) são iguais exceto

em um número finito ou enumerável de pontos. podemos desprezar
o segundo sinal negativo. Fazendo u = - s na segunda integral, temos
Por indução,
EXk = f [I - F(s)]ksk 1
ds - f J F(u)ku•
1
du. (3.5)
.. ---- ·- - - - - - - - - - - -......

EXEMPLO 6. Voltando ao exemplo 3. suponha que X ~ U [O, I] É claro que o primeiro momento é a esperança c o primeiro mo-
mento central é nulo: E( X- EX)= O. O segundo momento central
c Y= min (X. ~} Então r= q>(X). onde é chamado variância de X:
Var Xd;;j E(X- EX) 2 = E(X 2 - 2XEX + (EX) 2 ) =
(x. n~[
X, se X<
2 = (por linearidade)= EX - 2EX EX + (EX)
2 2
=
q>(x) = min 2
2
= EX - (EX) .
"). se X~
2' 2
Notação. Var X= V(X) =ai= a (X). ax = v ' Var X é o desl'io-pa-
Calculemos a esperança de Y, usando o Teorema 3.1 e uma proprie- drào de X.
dade da integral de Stieltjes no caso contínuo ( ~3.1, item 7): Para c> O, EI X I' é chamado t-ésimo momento absoluto de X.
Os momentos absolutos possuem a seguinte propriedade de mono-
EY =I q>(x)dF x(x) =Iq>(x)/~(x)dx =f q>(x)dx = tonia:
PROPOSIÇÃO 3.2. Seja X uma variárel aleatória. A função
J ~ dx =
= (
2
xdx + ( 1 ,+ 1 3 /(t) = El /rl X I'
Jo 1.2 .!. 8 4 =, 8 ·
é não decrescente em c para c >0. (Notação : E ''1XI' = [E<IX I'l]l').
1
assim concordando com o resultado já obtido.

Prora. Se O< s <c, a função q>(y) = IYI' 1' é convexa, pois c/s > I. Se
Notemos que neste exemplo. a existência da densidade de X
Y é integrável, a desigualdade de Jensen implica que
simplificou os cálculos. É bom salientar o significado do teorema nos
casos discreto e contínuo: EI Yl' 1
' ~ IEYI'''.
Caso discreto . Se X til-er .função de probabilidade p(x;), então Faça Y = IX!·': se IX I' é integrável, então
Eq>(X) = I cp(x)p(x;). E IX I' ~ Er is I X I'-
E 'IXI'~E '[XI '.
1 1
Caso contínuo. Se X tirer densidade f(x). então 1.c .•
Se X!' não é integrávcl, então X I I' também não o é, pots
=I
J
Eq>(X) q>(x}f(x)dx. s < c => I X I' ~ I + I X I'

c, portanto
E IX !' = + X => + X :s; I + E I X I' => E I X I' = + y_.
Em todo caso, temos

§3.5 Momentos E 1 ' IX I' :S: E 11' 1X I' para O < s < t,
1. e., E 1 'I X I' e não-decrescente em c, para c > O. O
Seja X uma variável aleatória. O valor E(X - bt, se existe, é
chamado k-ésimo momento de X em torno de h, para h E R k = I, 2. 3. ... . COROLÁRIO. Se EIXI' éfinita para algum O<t < x, então EIXI'
O k-ésimo momento em torno de zero, EX\ é chamado sim- é finito para todo s tal que O < s < t. (Por exemplo,
plesmente de k-ésimo momento de X ou momento de ordem k de X. se EX 2 <a~ então X é integrável. Além disso, se o k-ésimo momento
Se X é integrável, então o k-ésimo momento em torno da média. é finito, então todos os momentos de ordem menor que k também
E(X - EX)k, se chama k-ésimo momenti:J central de X. são finitos.)
122 Probabilidade: Um curso em Nivel Intermediário
Seja Y = ).! 1x , "I. Então O~ Y s X. como vemo~; considerando os

Propriedades (da esperança variância. momentos- continuação).
eventos complementares [X~ À] e [O~ X< i.]:
E5. Se X= c. Var X= O (i. e., uma constallle não raria).
Prom. EX= c. V ar X= E(X- d = E(O) =O. O

E6. Var (X+ h)= h1r X e h1r (a X +h)= a 2 J!ar X, para toda a, h E IR:.
Prom. E(aX +h)= aEX +h,
J!ar(aX + = E(aX + b -· aEX-
b) h) 2 = E(a 2 (X- EX) 2 ) =
2
= a h:1rX. D
E7. Desigualdade "básica" (ou desigualdade generalizada de Tchebycher). Portanto, E Y ~EX. Mas }'é uma variável aleatória discreta e
Seja X uma variável aleatória não-negatiua (X ~ 0). Para todo EY =O· P( Y = 0) -t- i.P( Y = í.) = ),P(X ~ ).). Resumindo. temos
À> O, P(X ~À)~ ~ EX.
Á I.P(X ~ ).) s; EX ou P(X ~i.) s --~ EX. O
I.
Prova. Consideremos o seguinte desenho. admitindo a possibilidade
de um salto de F = Fx em /. : Algumas conseqüências são:
(a) Desigualdade (clássica) de Tchehycher (ou de Bienaymé-Jclze-
F(x) hycher). Se X é integrável,
VarX
P(\X-EXj~lc)s .2 V/.>0.
),
Prora. P( iX-EX\~).)= P((X- EX) 2 ~ í. 2 ) s }-2 2

E( X- EX) =
. Á
V ar X
o
(b) Desigualdade de Afarkor. Seja X uma wriárel aleatória qual-
Indicando com I a região hachurada. e como X~ O. temos quer. Então para todo t >O,
EX = íf P(X > x)dx =área I ~área (retângulo A)= P(j X I~).)~ E_!_:~
1.!
i~ Vi.> O.
• o
= í,P(X ~ í.),
Prom P(\X\~í.)=P(jXj'~).')s-~I. 1 E\X\'. 0
portanto
(c) Se Z ~O e EZ =O, então P(Z =O)= I (i. e., Z =O quase cer-
P(X ~À) s -~EX. O tamente).
Á
Obsen:açào. Eis uma prova alternativa, que será generalizada adiante Prora. P(z~ :I)snEZ=O. Mas [Z>ü]= y[z~-~Jlogo
na prova da desigualdade de Kolmogorov (Capítulo 5):
,-
( r
• 124 Probabilidade: Um curso em Nível Intermediário Esperança Matemática 125
• !~~ P !) = !J Prova. (X - d = (X- J.1 + J.1 - d = (X- J.1) 2 + 2(J.I - c)(X - J.l l+
• PIZ > 0) = ( Z;;::: O (notemos que os eventos [ Z ;;::: + (J.I- d. logo (pela linearidade da esperança)
• crescem com n). Portanto. P(Z = 0) = I - P(Z > 0) = I. O E(X - d = E(X- p) 2 + 2(Jl-
c)(EX - .J.I) +
• + (J.I - c) = Var X + (J.I - c) 2 .
2
• Observação. O item (c) implica que, quando Var X = O, temos

E(X - EX) 2 =0 e P((X - EX) 2 =0) = I, logo P(X = EX) = I .
Conclusão: EIX- d;;::: E( X . .:. . J.1) 2• Vc E IR. 0
•
lt
Em outras palavras, se Var X= O então X é constante, com proba-
bilidade I (é constante quase certamente).
PROPOSIÇÃO 3.4. Seja X u'ma variárel aleatória, e seja m uma me-
diana de X . Então m minimiza E IX - c j, c E IR, i. e.,
• E8. Se X e Y são variá reis aleatórias em (Q, .cl, .011) tais que E IX I' < x E IX - m I = min E I X - c I·
ce!HI
•
fi
e E! Yl' < ex. , então E IX + Yl ' < x .
Como EIX I' < oc óbviamente implica E laX I' < XJ, V a E IR, esta
Obserração. Por definição. m é uma mediana de X se P(X;;::: m) ;;::: 1/2
e P(X::;; m);;::: 1/2. Para obter uma mediana. basta consi-
[ •
I
propriedade diz que a classe das variáveis aleatórias em (0, s/, .P')
possuidoras de t-ésimo momento absoluto finito, é um espaço veto-
derar a função de distribuição de X . Por exemplo, consideremos as
seguintes funções de distribuição F:
rial ou espaço linear. (Com t substituído por p, estes são os espaços U'
de Análise.)
I I
Destaquemos dois casos particulares desta propriedade, os cor- - - - - --- - -- -- - -- ---
respondentes a t = I e t = 2: (i) se X e Y são integráveis, então X + Y
é integrável e (ii) se X e Y têm z•ariâncias .finitas. então X+ Y também
o tem (lembremos que X tem variância finita se, e somente se. EX 2 <·X:·).
Prora. IX + Y I ::;; I X I + I Y I ::;; 2 max ( I X 1. I Y I ). Portanto.
X '----y----' o X
medianas
IX + Yl' ::;;2'max( IX I', j Yj')::;;2'( 1X I' +I YI'l, 1
F(m> = z-
logo
I' ::;; 2'(E I X I' +
-------~
E IX + y E I y I'J. D
Consideremos agora dois resultados que são de interesse para i I
a Estatística. Suponhamos que se deseje escolher uma constante real c
para "predizer" o valor de uma variável aleatória X. Qual c é o me-
lhor preditor? Se queremos minimizar nosso erro absoluto médio (i. e .. o m X
I
a média de X - c j), o melhor predito r é a mediana (veja a definição
adiante). Mas se queremos minimizar o erro quadrático médio E(X -c) 2 ,
o melhor predito r é a média :
Prova da Proposição. Notemos que X é integrável se, e somente se.
PROPOSIÇÃO 3.3. Seja X integrável, J.1 =EX. Então J.1 minimi:a V c E IR, X - c também O é, pela linearidade da
E( X - c) 2, c E IR, i. e., esperança. Portanto, se E IX I = + oc. , então E IX - J.l l = + oc' Vc. E IR
Var X = E(X - J.1) 2 = min E(X - cf .
e a proposição vale trivialmente. Consideremos, então, caso de X o
CErR!: integrável.
,.
I
f
126 Probabilidade: Um curso em Nlvellntermediário Esperança Matemática 127
I
<c (o caso c < 111 é análogo): desejamos provar que
• Suponha 111
E IX - c I ; : : E IX - m I· Seja À. = c - m:
onde a última integral é uma integral n-dimensional de Stieltjes, assim
como a penúltima (notação compacta).
I
X>o Prova. Teoria da Medida. D
I
~
(
Observações. (1) Você não precisa entender a integral de Stieltjes no
•
11
m c IR" (a integração é feita em relação à medida de Lebes-
gue-Stieltjes gerada por F X• ou seja, em relação à distribuição de ~).
se x ~· m. Ix - c I= Ix - m I+ Â; se x > m. Ix - c I :2:: Ix - m I - ~.. Basta saber que a integraCse simplifica nos casos discreto e contínuo,
I
Então, como no caso unidimensional:
Jl
X~m=IX-c i- I X - m l = )., Caso discreto. Se X for discreto, tomando os valores X;= (x; ,, ... ,x;J
X>m =I X - cl- X - ml:e:: - À.. co~ probabilidade p(x;), onde
-
L p(xd =
i ......
I, então
~ m) :2:: ~ e P(X > m) = L. cp(x;)

Como m é mediana de X. temos P(X Ecp(X) =
. - I - p(~J
••
I!
=1- P(X ~ m) ~ 1
2
. Então a variável aleatória· r= IX - c 1-1 X - 111l
tem esperança não-negativa., pois toma o valor ), > O com probabili-

-
Caso contínuo. Se X for contínuo com densidade f(x 1 ,
.
. .. , xn), então
.II
r
, 111
dade ~ -~ , e com probabilidade ~ ~ toma valores ;;::: - ),. A prova
formal desse fato utiliza um argumento do tipo utilizado na prova (2) Podemos terminar agora a prova da propriedade E3, a linea-
.,
•· I
alternativa da desigualdade "basica":
Como Y;;:::. ), l[x " ml- À.ltx >mJ• temos
= ).P(X ~ m) -
ridade da esperança. Resta provar que E(X + Y) =EX+ EY, contanto
que o termo à direita tenha sentido. Por isso, sejam cp(x, y) = x + y,
q> 1(x, y) = x, cp 2 (x, y) = y. Pelo teorema,
•
• I
EY :2:: ),E ltx ,; mJ- ),E ltx >mJ
= À(P(X ~ m) - P(X > m)) ;;::: ), ( ~ -

),P(X >
~)=O.
m) =
E( X + Y) = Eq>(X, Y) = f
f(x + y)dF x. r(x, y) .
11 Portanto, pela definição de rea linearidade da esperança., temos
Agora aplicamos a linearidade da integral múltipla de Stieltjes.
• EIX-c l:e::EIX-m l. Ô
.,•
obtendo
í
§3 .6 Esperanças de funções de vetores aleatórios E( X + Y) = ff xdF x. r(X, y) + ffydF x. y(X, Y) =
li = EcpdX, Y) + Ecp 2 (X, Y) = EX + EY.
=(X 1 , . .• , X nl um vetor 'aleatório e cp: IR"--+ IR
'
.,
• !
TEOREMA 3.2. Seja X
mensurável a Borel. Então
Ecp(~) deff
= ydF '~><! 1 (y) = f cpdF!. =
(Exercício. Verifique a linearidade da esperança para combinações li-
neares de n variáveis: E( t a;X;) = •=t a;EX;.)

Rn· i= I I
(3) No caso da independência das X;, a integral n-dimensional

se simplifica, tornando-se integral iterada (n iterações, cada uma sendo
-~
'T
tI
128 Probabilidade : Um curso em Nlvellntermediário
~
uma integral de Stieltjes na reta). Consideremos primeiro o caso con-
tínuo :
- I o I
Sejam X I • ...• X n variáveis aleatórias independentes. com ~ =
= (X 1 , . .. , X.), e suponha que X 1 , ... , X 11 tenham (respectivament e) - 1 1/s o II5
densidades J;, ... , f~ . Então a densidade conjunta é o produto das
densidades };, e o o 1/s o
o
Eq>(~) =f -f q>(x 1 , •.• , x.) ft<x Jl .. . j~(x.)dx 1 .•• dx. = I 1/s 1/s
= f . [I q>(x 1 , ••• , J
x.) ft<x ddx 1 .f2(x 2) dx 2 ••• /.(x.)dx •.
Escrevendo _t;(.xildx; = dF x ;(X;). chegamos à seguinte fórmula que é Então,
I
I
válida para X 1 , ••• , X. independentes no caso geral :
Eq>(~) =f··I q>(x 1 , •• •• x.)dF x,(xd .. . dF x.(x.).

EX = (- I)· ~ + O• + + I•~ = O= E Y, e
1
I EXY=Lijp(i, j)= - (1-1- 1 + I +0)=0.
(Não provaremos a fórmula no caso geral.) i.j 5
Como conseqüência imediata temos que se as X ; são indepen-
Portanto, EX Y = EX · E Y. Mas X e Y não são independentes.
dentes, a esperança do produto é o produto das esperanças: Temos, por exemplo,
PROPOSIÇÃO 3.5. Se X 1 • ••• , X. são rariáreis aleatórias indepen-
dentes e integráreis, então n X ; é integrárel e
11
i= I
P(X = O, Y = 0) = p(O, 0) = + 5 + f(x
#-
2
1
= ~- · = = 0) · P( Y = 0).
E(X 1 X 2 ••• X.)= n EX; .

11
i "' I
A diferença entre os valores EX Y e EX · E Y será chamada co-
variância entre X e l': Formalmente, sejam X e Y variáveis aleatórias
I Prm'a. Basta provar para n = 2 (e completar com indução). Seja integráveis. Então a covariância entre X e Y é definida por
(
I q>(x, y) = xy, então a independência de X e Y implica Cov (X, Y) = E[(X- EX) ( Y- EY)].
EX Y = Eq>(X, Y) = II q>(x, y)dF x(x)dF rCrl = se esta esperança existe. Po r linearidade, temos
Cov(X, Y) = E(XY- YEX- XEY +EX· EY) = EXY- EX· E>;
=f[ fxdF x(x)]ydFr(Yl = f(EX)ydFl·(y) =EX. EY O de modo que existe a covariância entre duas variáveis integráveis se,
e somente se, existe a esperança EX Y.
Adl'ertência. EX Y =EX· EY não implica X e Y independentes, como Se Cov (X, Y) =O, dizemos q ue X e Y são não-corre/acionadas.
vemos no seguinte exemplo. Sejam X e Y variáveis alea- Se X e Y são independentes e integráveis, então são não-correlacion a-
tórias toma ndo os valores - I, O, I, com distribuição conjunta defi-
nida por p( - I, - I ) = p( .- I, I ) = p( I, - I ) = p( I, I ) = p(O, O) = +, i. e.,
das, pois neste caso EXY= EX· EYpela Proposição 3.5. Mas acaba-
mos de ver que a igualdade EX Y =EX· EY não implica a indepen-
dência, ou seja, covariância zero não necessariamente implica inde-
a fu nção· de probabilidade conjunta é a da seguinte tabela. pendência.
Obserração. Há certos casos especiais em que não correlação implica Suponhamos agora que X e Y sejam variáveis aleatórias integrá-
independência. Talvez o mais importante seja o da nor- veis, com variânc;..ts positivas e finitas (0 <ai < ·X.., O <a~ < :x. ). A
mal: se X e Y possuem distribuição conjunta normal bivariada e são X --EX
' . -
. ' I a Icatona
vanave . - de X (tam bém cha-
- e' uma padromzaçao
não-correlacionadas, então p =O (isto será visto no §4.5). E já vimos ax
no exemplo 15, §2.5, que X e Y são independentes se p = O. mada redução ou normalização de X), pois expressa o valor de X em
Para um outro exemplo de independência como conseqüência de unidades padronizadas, i. e., desvios-padrão. Notemos que esta va-
covariância zero, veja o exercício 26. riável aleatória padronizada possui esperança zero e variância um.
Além disso, não depende da escala nem da locação de X, no sentido
de que Z = aX + b possui a mesma padronização que X, se a >O
Vejamos agora que se as variáveis aleatórias X 1 , ... ,X. são não- e b E IR. No mesmo estilo, a covariância entre as variáveis padroniza-
-correlacionadas (2 a 2), então a variância da soma é a soma das va- das também não depende da escala nem da locação de X e Y; é uma
riâncias. espécie de covariância padronizada. Chama-se coejiciimte de correla-
PROPOSIÇÃO 3.6. Sejam X 1 , ••• , X" rariáveis aleatórias integrát~eis ção entre X e Y e indica-se com Px. y ou p(X, Y):
tais que Cot· (X;. X) = O para i#- j. Então
n Px.l d;;J, Cov (~. YL = E[(! - E_x_) ( y- E~-)]·
.. J.-ar(X 1 + ... + X.)= L
i= I
VarX ;. ax • al' ax Uy
•• 2
(Exercício. Verifique que p(X, Y) = p(aX + b. c Y + d) para a > O, c> O,
Provu. J.-ar(X 1 + ... +X.)= E(X 1 + ... +X.- E(X 1 + ... + X.)) = i. e., o coeficiente de correlação é independente da escala
li = E((X 1 - EX d + ... + (X.- EX.)) 2 = e locação das variáveis.)
I· = E[t (X;- EX;) 2 + 2 .L (X; - EX;)(X j- EX)] = Podemos dizer que em certo sentido, Px . y representa a depen-
J ZI ICJ
dência linear entre X e Y, como vemos pela seguinte proposição.
I! n
I!
=L VarX; +2 L Cov(X;,Xj) = L VarX ;.
i= I i<j i= I
O PROPOSIÇÃO 3.7. Sejam X e Y mriát•eis aleatórias com t•ariâncias
finitas e positit•as. Então :
I COROLÁRIO. Se X I• .... X n são independentes e integráveis, então
(a) - I ~ p(X, Y) :5: I.
I n
(b) p(X, Y) = I se, e somentese, P( Y = aX + b) = I paru algum
fi
"ar(X 1 + ... +X.)= L VarX;.
i= l a> O, IR.
bE
(c) p(X, }')= - 1-=P(Y=aX+b)= I para algum a<O. bE IR.
I
Obserrações. (I) Salientamos um resultado que aparece na prova Pror·a. (a) Como
I
acima: se . X 1 , ••• , X" são integrát•eis, então
I n
I
Var(X 1 + ... + X.)= L Var X;+ 2 L Cm•(X;, X).
i= 1 i<j
temos
I (2) Já vimos no §2.6 um exemplo da propriedade enunciada pela
proposição: se X 1 , ••• , X" são independentes e normais, com X; - O:5: E(X-axEX _ ~ EY) 2
= E(X- EX)
ax
2
+E( y- E ~)2
Gt·
Gy
- N(p;. atl, então a soma é também normal, e para obter os parâmetros
bas~a somar os parâmetros das parcelas: itl NCt ;t at}

2
X;- J1;,
1 ax
2- E[(X-EX)(Y - EY)]= Va~X + VarY
Gt·
2
_
ax a y
Sena bom você verificar agora, se ainda não o fez, que X"' N(p, a )=>
- ~~ov_0:, YJ = 2- 2 p(X, Y).
=>EX= J.i, Var X= a 2 • ax al'
132 Probabilidade: Um curso em Nível Intermediário Esperança Matemática 133
Logo p(X, Y) ~ I. rantc a falta de correlação sem ao mesm0 tempo garantir a indepen-
Substituindo o sinal "-" por "+" na expressão ac1ma, temos dência. É claro que o valor de Y não possui nem a tendência a acom-
O~ 2 + 2p(X, Y), i. e., p(X, Y) 2: - I.
panhar o de X, nem a tendência oposta.
(b) e (c). Se p(X, Y) = I , então (pela prova de (a))
2 Observação. Quando X e Y têm distribuição normal bivariada, p é
E(X - EX _ _l_- EY_) = O,
(Jx (J r
o coeficiente de correlação, como será mostrado no §4.5.
. e., P (X-
- EX
- - - EY)
= y- - = I (consequenc1a . lda de
... . (c ) da des1gua
1.
ax (Jr
§3.7 Teoremas de convergência
"básica" - propriedade E7). Em outras palavras, Y = ~ (X - EX) As provas desta seção podem ser omitidas em uma primeira lei-
ax
(JI" tura. Mas os dois teoremas- da Convergência Monótona e Domina-
quase certamente, o que prova a necessidade em (b), com a =-
(Jx
da- são de grande importância e utilidade na Probabilidade, Teoria
da Medida, e Matemática em geral. (Para exemplos da utilização de
e h = EY - a!.. EX . métodos probabilísticos na demonstração de resultados de Análise,
2
ax + Y - EY ) = O e veja as conseqüências 2 e 3 a seguir.)
Se p(X, Y) = - 1, então E( X - EX
(J x ar Os teoremas serão dados do ponto de vista probabilístico. Para
y = E Y - ~ (X - EX) com probabilidade 1. Neste caso, a = - ~..L tanto, sejam X, X 1, X 2 , ..• variáveis aleatórias definidas no mesmo
ax ax espaço de probabilidade (Q,d, P), e suponha que X. convirja para
X quando n -+ x . A convergência aqui é pontual (recorde que variáveis
e h= EY +!!.!.. EX . aleatórias são funções definidas no espaço amostrai), i.e., X.(w)-+X(w)
ax
Por outro lado, se P( Y = aX + h) = 1 para algum a =F O. temos para todo w EU. (Estudaremos outros tipos de convergência nos
Capítulos 5 e 6.) A questão é a seguinte: sob que condições a esperança
p(X, Y) = E[ (X ~xEX ) ( aX + ~~ 2:~X- h) J= do limite é o limite das esperanças? Isto é, queremos saber quando
EX = lim EX n· Não é verdade, infelizmente, que EX"-+ EX sempre.
n - oc
• = R E( X ~XEX r =ia~= sinal (a) = ± 1. o_ Um contra-exemplo simples é o seguinte: suponha que X- Cauchy-
-padrão e seja
Uma alta correlação entre X e }: i. e., Px. r próximo de 1, signi- X se - n < X < n
fica que o valor de Y tende a acompanhar o de X (quanto maior X, X.= X/l - ns x s nJ = { 0 se lXI-> n.-
maior também é, geralmente, Y). Por outro lado, uma correlação ne-
X,. é uma variável aleatória de Cauchy truncada.
gativa forte (P x. )' próximo de - 1) significa a tendência oposta, ou
seja, quanto maior X, menor Y, e vice-versa. Então X n-+ X , pois X .(w) = X(w) para n 2: I X(w) I· X n é inte-
11 Já vimos, nesta seção, um exemplo de um par de variáveis aleató- grável, porque limitada, e EX"= O, por simetria (veja o exercício I).
rias dependentes, mas que tinham covariância zero e, portanto, coeficien- Mas EX" não converge para EX, porque EX não existe. (Para um
I
I te de correlação zero. Nesse exemplo, em que a distribuição conjunta outro exemplo, em que X"-+ X e EX existe, mas EX" + EX, veja o
estava concentrada nos cinco pontos (- 1, - 1), (- l, l ), (0, 0), (I, - 1), exercício 37.)
Daremos duas respostas à questão colocada acima: a esperança
( 1, 1), cada um tendo probabilidade ~-, vemos que há uma simetria
do limite é o limite das esperanças (a) quando as variáveis são não-
da distribuição conjunta em relação aos dois eixos. Essa simetria ga- -negativas e a seqüência cresce monotonamente e (b) quando a se-
.•
134 Probabilidade: Uno curso em Nível Intermediário
qüência é uniformemente limitada ( i.t:., Jominad<c; por uma ,·ar i á vel

Portanto,
aleatória integrável.
" m
TEOREMA 3.3. 1eorema du Conrc•rçtên,·ic< .Htilli''ulhi
EXk 2 EYIA,
n
L ;;:0
ne P(B" n Ad 2 L
n "Ü
ne P(B. n Ad, 'r/m.
Sejam X. X 1 • X 2 •... variá rei:; uleatóriu.Hm (Q.,I. Fi. Sd):::;: X" I X. Mas P(B" nA.) i P(B,) quando k-> + Y~, logo
u· .. X.(e>)2:0 e X,.(ul)"j X((>JÍ para todo ('.J'é'Q, <'liÚ/,. L\.",~ L\.
m m
Prora. Pela propriedade E2. tcmus O~EX,<;EY c EX.,i. Logo lim EX k 2 lim
k-+y k-+Yn=O
L nc P(B. n A.) =
n=O
L m; P(B.), 'r/m.
lim EX n ~EX e basta provar q uc lim EX";:::: EX - 1: par<.~ todo c> O.
ll ·• J
Portanto,
Para isso. vamos aproxim:~r X por meio d:..: uma vari~m:l aleatória X
discreta Y tal que i X - Y i :5. 1:. omk 1: >O .: fíxo. lim EXk 2
k--+ J
LO nc P(B,) = EY
n=-:
O
Definamos o evento B" =-~ [n: < X ::; (I!+ 1} r], n ~' 0.. 1, 2.. . . . e 8
J TEOREMA 3.4. 1eorema da Conrergência Dominada.
v.uiá vcl aleatória } = I
11 (•
/li; 1h,. Em outr d~ palavra~
Sejam t X, X 1 , X 2 , .•. variáz·eis aleatórias em (0.. /~, P) tais que
y é integrárel, IXnl:::;: y 'r/n, e X,-> X (i.e., x.(w)->X(w)'r/w). Então
}(u;)
\•1·: :;.,' 111: < X(<!;):S(n-' ]);
X e X, são integráreis e EX,-+EX.
t 11 .i·~ X(t·Ji = O.
Logo .X --1: < Y< X c EX -1::::;: El"~ EX (>aie tambem caso EX= Prora. Como X, e X são dominadas por Y XI= lim jX,j:::;: i! }').
=+X). a integrabilidade delas é conseqüência da propriedade E2.
Vamos provar agora qu~: EY:;, limE.\"", i.t: .. hm EX,;:::: EX- 1:. Faça }~= inf Xk, então }~i X quando n-> x. (pois X(w)=
assim terminando a prova. Para tanto, st:ja L>n
= lim X,(w) = lim inf X"(w) = lim (inf Xk(w)) = lim }~, sendo óbvio
n---:r n-+.:t. k"".::'n n-+:t
que }~ cresce com n). Logo, temos ( Y" + Y) i (X+ Y) quando n _, x..
Observemos que .4, i O (pois X .twl 2: }(u;)cco> .\, .. d(>J);:::: }(t•>}. pela
Mas X";:::- Y'rln=Y,2- Y=l~+ Y20,eoTeoremadaCon-
monotonia de X,. portanto A, t. Mas a convergência de X 1 para X
vergência Monótona implica que E( Y, + Y) j E(X + Y}. Por linearida-
implica que X.((!)} 2 Y(t·;) para k suficicntt:menk grande: notemos
de e intcgrabilidade, temos
que Y(w\ <X((!)} a menos que X((l)} =O. Logo fl = ..__,A,= limA.,)
Portanto, · E}~ i EX. (3.6)
B" ,, A, t B, quando k _, x (1z fixo}. (Obserraçào: }~é variável aleatória, pois [Y, <a]= Í) [Xk <a].)
Ora, a variavel aleatória Y I A, e discreta e De modo análogo, se Z.(w) = sup x.(w) então Z,(w)
de f
l X(w)
k :• n
}'( UJ )/ A, (·}
(I)
_
-
{Y(~;) s Xk(w). se t!JEA, quando n-+ x, i.e., (Y- Z.) i (Y- X).
O :::;: X kfw), se w if A,,
Mas X,:::;: Y 'r/n = Z, s Y= Y- Z, 2 O, e pelo Teorema da
logo O:::;: H A, s X k e O:::;: E H A• s E.\· •· Para calcular E H A,, é pre- Convergência Monótona, E( Y- Z.) i E( Y - X), de modo que
ciso notar que
E Z, l EX. (3.7}
}'( )/ (
w A,wl=
[nr se w E B, n Ak, n = O, I, 2, ...
,
Já que
O se u; f U (B, n A.). Y,, = in f X k
k-~,1
:::;: X" :::;: sup X k
k·~n
= Z,,
n- b
136 Probabilidade: Um curso em Nlvellntermedijrio Eaperança Metemjtica 137
temos EY, ::5: EX. ::5: EZ., o que, combinado com (3.6) e (3.n implica (Para ver que EX.= J~.(x) dx, seja Z a variável aleatória iden-
EX.-+EX. ·o tidade: Z(w) = w. Então Z- U[a, b] e fz(x) = - -
1
11• btx). Como
b-a ·
Conseqüências dos teoremas de convergência. X.(w) = X.(Z(w)) = (b- a)J.(Z(w)), temos
I I (I) Seja X uma variável aleatória. Se E X I I'<
oo para algum EX. = (b- a) Ef.(Z) = (b- a) JJ,.(z)fz(z)dz = J:J,.(z)dz.) O
t >O, então a função g definida por g(s) =E IX 1• é contínua n) in- =
I (3) Convergência de séries. Se a.,.~ O para m, n l, 2, 3, ... , e se
tervalo (0, t]. r
a.,. a., quando n ..... 00, para todo m, então
I I
Prova. Suponha s...... s, onde s, s. E (0, t]. Então IX I"" -+I X 1". e para
I aplicar o Teorema da Convergência Dominada basta verificar se as
variáveis IX 1•" são dominadas por urna variável aleatória integrável.
Mas IXI"":5I XI'+ I e E(IXI'+ l)=EIX I'+ l <oo. Logo EIXI'"-+ 00
..... E IX 1•. 'Portanto, g(s.)-+ g(s) para toda seqüência (s.). ~ 1 que con-
Prova. Escolhamos Pm >o tal que L Pm = l . Definamos n = {1, 2, ... },
m=t
verge para s. Por isso, g é contínua em (0, t]. D
" p(m) = p.,, X .(m) = a"'" , X(m) = ~. Então
Pm Pm
(2) Teorema de Arzelà (Veja Aposto! [2], Teorema 13-17.)
Sejam j; f~> 12•... funções reais (mensuráveis a Borel) definidas O ::5: X.(m) r X(m) V m,
no intervalo [a, b], a < b, e integráveis a Riemann. Se/.-+f em toda
parte, e se I!. I
::5: M < oo para todo n (i.e., as f, são uniformemente logo o Teorema da Convergência Monótona implica EX. j EX.
limitadas), então a: a:. C(, ai
Mas EX.= L X.(m)p., = L a.,. e EX= L X(m)p., = L a.,. O

m=l m=l m=l m=l
[ J.(x)dx ..... [f(x)dx quando n-+ oc.
Prova. (O teorema é verdadeiro sem a hipótese de mensurabilidade EXERCÍCIOS DO CAPÍTULO 3

a Borel, mas a prova é mais difícil.) Sejam n =[a, b]. S/1 = ti1a.bJ = bo-
relianos de [a, b], . e P = probabilidade uniforme em [a, b], i.e., § 3.2
P(A) = comp~~e~to (A), A E.!il.
l. Dizemos que a distribuição de X é simétrica (em tomo de zero)
Definamos variáveis aleatórias X. e X: se P(X ~ x) = P(X ::5: - x) para todo x E IR, e que sua distribuição
é simétrica em torno de J1 se
X.(w) = (b- a)j.(w); X(w) = (b- a)f(w)
P(X ~ J1 + x) = P(X ::5: J1 - x) V x E IR.
(são variáveis aleatórias porque são mensuráveis). Então X .(w) ..... X(w),
Vw E n, e as X" são dominadas por (b- a)M, que é integrável. Pelo (a) Prove: se a distribuição de X é simétrica em torno de 11 e se X
Teorema da Convergência Dominada, EX.-+ EX. Mas EX.= é integrável, então EX= J-1. (Sugestão. Prove primeiro para
= J~J.(x) dx e EX = J:J(x) dx, logo J1 = 0.)
(b) Suponha que X possua densidadef(x). Mostre que sef(J-1 + x) =
f J.(x) dx -+ [f(x) dx.

= /(J-1- x) Vx, então a distribuição de X é simétrica em torno
de J-1. Enuncie e prove a propdedade análoga para o caso dis-
creto.
r 138 Probabilidade: Um curso em Nível Intermediário
(c) Qual o ponto de simetria das distribuições das seguintes va-

riáveis aleatórias? Dê a esperança de cada variável aleatória,
se existir.
Qual a esperança do número de lançamentos?
Esperança Matemática
7. Uma urna contém n bolas numeradas 1, 2, ... , n. Uma pessoa tira

139
uma bola e a devolve, tira outra e a devolve, continuando até

(i) X ,.... N(Ji., u 2 ). tirar uma bola pela segunda vez. Seja X o número total de retiradas
(ii) X - Cauchy (M, b), i. e., j(x) = n[b 2 + (! _
M) 2] , x E IR.
necessárias para obter essa repetição.
(a) Ache a distribuição de X. (Sugestão. Ache P(X > k).)
(iii) X- U[a, b]. (b) Mostre que
(i v) X - b ( n, ~). EX = 2 + ( 1- ~) + ( 1 - +) (
1- ~) + .:. +
(v) X tal que Fx é a função de Cantor.
(vi) X tendo distribuição de Laplace (ou exponencial dupla):
) -2À. e -).lx- 1'1 ,

.r( X= XEII'\.
IT1>
8. Sejam X e Y variáveis aleatórias. Se F x(x) ;:5; F y(x) para todo

2. Seja X uma variável aleatória tendo distribuição logística com x E IR, dizemos que X é estocasticamente maior que Y. Prove que se X
densidade éestocasticamentemaiorque Y, então EX~ EY(se EX eEYexistem).
e-x
I j(x) = (l +e x) 2
, x E IR. 9. Dois componentes eletrônicos vão ser testados simultaneamente.
Suponha que a "vida" em horas de cada componente é exponen-
l (a) Prove que a distribuição de X é simétrica em torno de zero cialmente distribuída com parâmetro À., e que as vidas dos com-
I (veja o exercício 1). ponentes são indei:>endentes. Calcule:
(b) Determine se X tem esperança finita. Se tiver, ache o valor. (a) A esperança do tempo até a primeira falha de um dos com-
(c) Obtenha a densidade de Y =ex e ache EY. ponentes.
3. Calcule EX se X possui densidade j(x), onde: (b) A esperança do tempo até ambos os componentes falharem.
(a) f é a densidade dada no exercício 6 do Capítulo 2. 1O. Dois jogadores lançam moedas simultaneamente até obterem o
1 primeiro casamento (i.e., ou duas caras ou duas coroas). Se os dois
(h) f(x) = , se x > O; j(x) = O, se x ;:5; O.
(1 + x) 2 lançam "cara" simultaneamente, ganha o jogador I; se ambos
4. (a) Se X- r(~X, {3), onde IX> O e f3 >O, qual é EX? lançam "coroa", ganha o jogador li. Por exemplo, se os dois
obtêm "cara" no primeiro lançamento, então o jogo termina e o
(h) Dizemos que X tem distribuição de Weibull se possui densidade
jogador I ganha o jogo. Suponha que a moeda do jogador I seja
À.Ilx•-l e-.l.x", x >0 honesta, mas que a moeda do outro não necessariamente o seja,
f(x) = { o , x ;:5; O. tendo probabilidade p de "cara", O< p < 1.
(a) Calcule a esperança do número de lançamentos (i.e, o número
Calcule EX neste caso.
(
'
I 5. Sejam X e Y variáveis aleiatórias independentes com distribuição
de vezes que o jogador I lança a moeda até terminar o jogo).
(h) Ache a probabilidade do jogador I ganhar o jogo (mais cedo
comum U[O, 1]. Calcule EZ e EW, onde Z = min(X, Y) e W = ou mais tarde).
=max(X, Y).
11. Jogadores I e 11 têm Cr$ 200 cada um. Lança-se uma moeda com
6. Um jogador vai lançando uma moeda honesta. Ele pára de~ois probabilidade p de dar cara (O < p < 1). Se der cara, o jogador I
de lançar ou duas caras sucessivas ou duas coroas sucessiVas. recebe Cr$ 100 do II; se der· coroa, I paga Cr$ 100 ao II. Con-
J '
Esperança Matemética 141
140 ProbabiHdade: Um curso em Nlvellntennediério
tinua-se lançando a moeda, independentemente, até um dos jo- l+xse - I ~x~O

gadores perder tudo, i.e., até um deles ficar com os Cr$ 400. De- f(x) = 1- x se O <x~I
termine EN, onde N é o número de lançamentos até terminar { O se X< -1 OU X> l.
o jogo.
Calcule EX e Var X.
§3.3
20. (a) Prove: se a variável aleatória X é limitada, então tem momentos
I2. Prove que o critério para integrabilidade ainda vale se "~" é finitos de toda ordem.
substituído por "> ", i.e., X é integrável se. e somente se, (b) Seja A um evento aleatório. Calcule todos os momentos ab-
oc
solutos da variável aleatória X= IA.
L P(l X I > n) <
n=l
oc.
(c) Demonstre: se X- N(Jl., u 2 ), então todos os momentos ab-
solutos de X são finitos.
I3. Verifique que a desigualdade de Jensen ainda vale se a função (d) Seja X- Cauchy (0, I). Quais são os momentos absolutos finitos
cp é convexa em um intervalo (a, b) tal que P(a <X< b) = l, onde de X?
admitimos a possibilidade de a = - XJ ou b = + oo. (Sugestão.
Para provar que a< EX< b -note que a propriedade E3 só 21. Obtenha as variâncias de Z e W no exercício 5.
implica a ~ EX ~ b - use o seguinte resultado do § 3.5 : se Z ~ O
e EZ =O, então P(Z = 0) = I.) 22. Através de experimentos estatísticos, determina-se que a duração
de um certo tipo de chamada telefônica satisfaz a relação P( T> t) =
14. Sejam X e Yvariáveis aleatórias com densidade conjunta j(x. y). ~ae - 1 '+(1-a)e -~'. t~O, onde O~a~ 1, À.>O, Ç>O. Ache
Verifique se E(aX + bY) = aEX + bEY para este caso. (Suponha a média e a variância de T
EX e EY finitas.)
23. Prove que se X assume valores somente no intervalo [a. b]. então
~ a)
2
a~ EX~ b e Var X~ (b
§3.4
. (Sugestão. Faça primeiro para
15. Suponha que X - U[O, 1]. Determine os valores de t (tE IR) tais
,' que E(X') é finita. Qual o valor da esperança nesse caso?
16. Calcule E( ex). onde X tem densidade logística j(x) = (1 : -; x) 2 ,

a = O, b = I). Exiba uma variável aleatória que atinge a variância
máxima.
l 24. Calcule a variância da variável aleatória X, sob as seguintes con-

(
x E IR, utilizando o Teorema 3.1. Compare com o resultado obtido dições:
I
no exercício 2(c). (a) X - Poisson ().), onde À. > O.
(b) X - b(n, p), onde O O.
18. Seja X o tempo de espera até o primeiro sucesso em uma seqüência (d) X - r(rx, fJ), onde rx > O e fJ > O.
de ensaios de Bernoulli tendo probabilidade p de sucesso em cada (e) X- U[a, b], onde a< b.
ensaio. Calcule EX 2 •
25. Demonstre que a desigualdade de Jensen é estrita, i.e., Ecp(X) >
t > cp(EX), se a função cp é estritamente convexa e X não é cons-
§3.5 tante. (Sugestão. Reveja a prova de E4 e use a conseqüência (c)
19. Suponha que a variável aleatória X tenha a seguinte densidade de E7. Observe que, pela convexidade estrita, as curvas cp e L
"triangular": da prova de E4 têm apenas um · ponto em comum.)
I •
142 Probabilidade: Um curso em Nlvel Intermediário Esperança Matemática 143
então prove que o coeficiente de correlação entre U e Jt; p(U, V),

é igual a
26. (a) Sejam X e Y variáveis aleatórias que só assumem os valores
O e I. Mostre que se EXY= EX· EY. então X e Y são mdc-
pendentes.
(b) Prove: se X assume apenas os valores a e b, Yassume apenas ..._, 1 ~ fm- l)p 1 v' 1 + (n- 1)p2
os valores c e d, e Cov (X, Y) =O, então X e Ysão independentes. 33. Seja (X, Y) uniformemente distribuído na seguinte região:
27. Sejam X 1 , ... ,X" variáveis aleatórias independentes com EX i= J1i

n
e Var X i= aJ. Considere combinações lineares Y= L piXi,
n j=l
onde Pi ~o e L Pi = I. Prove que VarY é minimizada pela es-
j=!
colha de X
28. Se X e Y são variáveis aleatórias independentes com variâncias

finitas, demonstre que Calcule Cov (X, Y).
Var( X Y) = Var(X) Var( Y) + (EX) 2 V ar( Y) + (EY) 2 Var(X). 34. Sejam X e Y variáveis aleatórias independentes com distribuição
comum U[O, 1], e sejam Xt 11 = min (X, Y), Xt 21 = max (X, Y).
29. Sejam X e Y variáveis aleatórias com variâncias finitas. Mostre Calcule o coeficiente de correlação p(Xt 11 , Xt 21 ) •
. que se Var X"# Var Y, então X+ Ye X - Ynão são independentes.
35. Sejam X, Y e Z independentes com distribuição comum U [0, I].
30. Seja X uma variável aleatória tendo distribuição b(n, p). Mostre Calcule a esperança e a variância de W= (X+ Y) · Z.
que X tem a mesma distribuição que X 1 + ... + X"' onde as X i 36. Seja p o coeficiente de correlação entre X e Y. Determine p(Z, W)
são variáveis aleatórias independentes e identicamente distribuídas em função de p, se Z = aX + b e W = c Y + d, onde a "# O, c "# O.
que assumem apenas os valores O e 1. (Qual é P(X i = I)?) Utilize
esse resultado para calcular a esperança e a variância de X. §3.7
31. Demonstre que a covariância é bilinear: 37. Exiba um exemplo de uma seqüência tal que X.(w)-+ X(w) 'Vw E n,
com EX e EX" finitas, mas EX" + EX. (Sugestão. Seja Y- U[O, 1]
Cov (t 1
a:xi, it biYi)
1
= itl itl aibi Cov(Xi, X i),
e defina Xn= nJI O<Y< lnJ·l
onde os ai e bi são números reais. (Suponha que as Xi e lj pos-

suam variâncias finitas.)
32. Seja (X 1, ... , X, Y~o ... , Y") um vetor aleatório (m + n)- dimen-
sional tal que Var(Xd =V ar (lj) = I, p(Xi, Xj) = p 1 e p(Y;, lj) = P2
e
'Vi#- j, e p(X, YJ) = p 3 'Vi,j. Se V= X 1 + ... X,.. V= Y1 + ... + Y",
Distribulçlo e Esperança Condicionais 145
CAPÍTULO IV Portanto, P(X E B I A), B E 91, define uma probabilidade em 91.

Podemos interpretar a distribuição condicional de X dado A
como a nova distribuição que se atribui a X quando se sabe da ocor-
DISTRIBUIÇÃO E ESPERANÇA CONDICIONAIS rência do evento A. Pensemos nas probabilidades dos eventos no
seguinte diagrama como proporcionais às suas áreas :
§4.1 Distribuição condicional de X dada Y discreta
Seja X uma variável aleatória no espaço de probabilidade (íl,d, P), Neste caso, P(X E B 1 I A), a probabilidade condicional de X per-
e seja A um evento aleatório tal que P(A) >O. Usando o conceito de tencer a B 1 dado A, é a proporção do evento A em que X E B 1, com
probabilidade condicional, podemos definir a distribuição condicional uma interpretação análoga para B 2 •
de X dado o ez•ento A por A função de distribuição associada ·à distribuição condicional
é chamada função de distribuição condicional de X dado A :
P(X E B I A) = P([XEB]nA)
P(A) ' P( [X ~ x]n A)
I = P(X -< x IA) =
F x(X A)
P(A)
, x E IR.
para B E Jl, a a-álgebra dos borelianos na reta. Isto realmente define
uma distribuição na reta, i.e., uma probabilidade nos borelianos, pois A esperança condicional de X dado A é a esperança . da distribuição
verificam-se os axiomas : condicional, definida por
Axioma I. P(X E B I A);;?: O é quociente de probabilidades). I
E( X A) = J xdF x< x IA).
Axioma 2. P(X EIR I A)=I (pois P(X EIR I Al = P(O n A)=I). se esta esperança existe.
P(A)
Axioma 3'. Se B 1 • B 2 , • •• são borelianos disjuntos 2 a 2, então
Agora suponhamos que os eventos aleatórios A 1, A 2 , ... formem
l,..
P(X E 1 B. I A) = I P(X E B. I A). (Pois
" uma partição (finita ou enumer~vel) de n, i.e., que os A. sejam dis-
juntos 2 a 2 e U A.= O. Pelo Teorema da Probabilidade Total,
P(X E u B11 I A) = ~([X EU B. ] n_ A) temos
n P(A) '
com P(X E B) = I P(A.)P(X E B I A.~ VB E iÂ,
[X E U B.] n A = !U [X E B.]l n A = U([X E B.] n A).
" F x(x) = P(X ~ x) = I P(A.) P(X ~ x I A.) = I P(A.) F x(x I A.), Vx,
Como os B. são disjuntos 2 a 2, os eventos [X E B.] n A também o
são, logo e se a esperança de X existe,
IP([XEB.] n A) EX = Jx dF x(x) = Jx d(I P(A.)F x(x I A.)) =
P(X EU Bn I A) = " = ~ "
P(A) = (pelalinearidade da integral de Stieltjes) =
=I P(X E B. I A).) = I {P(A.} JxdF x(x I A.)J = I P(A.) E( X I A,).
n
"
146 Probabilidade: Um curso em Nível Intermediário Distribuição e Esperança Condicionais 14 7
Em outras palavras. a distribuição dt: X (função de distribuição os eventos .1, = [Y=' r,J formam uma partição d·~ Q. Neste caso. a
de X, esperança de X) é uma media ponderada da distribuição con- dist ri buiç~i n
dicional (função de distribuição condicionaL esperança condicional)
P(.\' E B I Y= _\'li)"' P(X E B I A,J BE ::!4.
dado Ali. onde os pesos são as probabilidades dos membros Ali da
partição. é chamada dislrihui\·ào condicional de X dado cjue } =r,. e valem as
fónnulas
EXEMPLO I. Um exemplo simples é o seguinte: seja X~ Uf ~I, IJ
e sejam A 1 =[X zO], A 2 =[X <0] =A;. Qual a dis-
P(X" H) ~- I. P( r= Yn) f'( X E B! } =
n
Ynl· B E~-
tribuição condicional de X dado A 1 ? Em outras palavras. dado que
F!IL\l = 2., P( Y= y.,) Fxlx I Y= y,,), .\E R
X 2: O qual a nova distribuição que se atribui a X? A resposta in-
tuitiva é: uniforme em [0. 1]. Verifiquemos a resposta: jú que para L\ = 2:. P(1 ,= r,J E( X I>= y,).
todo boreliano B, P(X E BJ = -~ x comprimento (B r' [ ~ I, I ]I. temos
...
ond;.: vak a últiroa fórn1uia s, EX existe; em pariicuL:u. se X é in
P([XEBJn[X?O]) __ P(X•::Bn[O,:~_))
P( X E B I Ad
1
= - - tcgr:tvd.
P( X ?: O) ~ P( X 2: O) -
!\ct~m,-,s qw: par.t B ííxo. Pi.X E B: i'= _\n) é funçà0 Jt y.,.dJgamn,:
comprimento (B r [0. I ]I yj r,.). SL' definirmos y(i') = P( X E B ! Y c r) arbitrariamente pma
2
1 rt ;r,.: n :::-I:. por exemplo. g(l') = P(X E 8), então teremos
2 F'( X E B1 = jP(X E B; Y = r) dF 1(r) "" S!J(y) dF 1(r)
=comprimento (Bn [0. 1]1.
pelo item 6. ~JI (integral de Stidtj,~~ no caso discreto). As outras
satisfazendo assim a definição da distribuição L'l O. I]. Vamos usar fórmulas gozam de interpretações análoga,, logo temo;;
a notação X i A 1 ~ U[O. I] para indicar o fato da distribuição con-
PLXEB) = JP(XEBi }=,y)dfl(lt
dicional de X dado A 1 ser uniforme em [0, 1]. Podemos mostrar por
um método análogo que X A 2 ~ U[ ~ I, 0]. 1
Fy(\ I = JF$_\ I } = $ dFj(yl. (41)
Logo temos E( X ! A 1 ) = -~ , E( X ! A 2 ) = ~ ~ e. verificando a fór- EX = JE(X i Y = y) dFr(l').
mula que expressa a esperança como média ponderada da esperança Essas fórmulas vão v ale r também no caso geral (r não necessaria-
condicionaL mente discreta), como veremos adiante. Salientamos que a esperança
precisa existir para que valha a última fórmula. De fato, quando .\·
I I I
O = EX = • P( A d ~ PiA 2) = =O. for integrávcL cp(r)~E(X I Y =r) será finito. Nesse caso. a variá\el
2 1 4 4 aleatória cp( Y) scr'á chamada esperan1·a condicional de X dada Y e será
indicada por cp( Yi = E( X i Y). Notemos que E( X I Y =r) é um valor
Consideremos agora o caso em que a partição do espaço amostrai particular da variável aleatória E(X I Y): é o valor quando Y= y.
é gerada por uma variável aleatória discreta. Para tanto, seja Y uma Portanto, a última fórmula pode ser interpretada assim:
variável aleatória discreta em (Q.w. P). tomando somente os valores
EX= (pelo Teorema 3.1) = Erp(Y) =' EiE(X! YJ;.
Yt· y 2 , .. . , onde admitimos que esta seqüência dos valores possíveis
de Y seja finita ou enumerável. (Ressaltamos que estamos supondo Fm outras palavras. a e:-;pcrança de X é igual à esperançtJ da es-
que X e Y sejam definidas no mesmo espaço de probabilidade.) Então peran\ a condicional de X dada Y
r
148 Probabilidade: Um curso em Nlvellntermediário Distrlbuiçlo e Esperança Condicionais 149
EXEMPLO 2. Consideremos o seguinte experimento em que parti- EXEMPLO 3. De volta ao processo de Poisson. Consideremos par-
cipam dois jogadores, I e 11. Suponhamos que o jo- tículas que chegam a um contador segundo um pro-
gador I lance uma moeda honesta n vezes, obtendo k caras, onde cesso de Poisson com parâmetro À.> O. ·Recordemos as nossas variáveis
O~ k ~ n, e que depois disso o jogador li lance a mesma moeda k vezes. aleatórias ; X, é o número de particulas que chegam até o instante
Seja X o número de caras obtidas pelo jogador 11. t ~ O, 71 é o tempo de chegada da primeira partícula, T,. é o tempo
entre a chegada número n - I e a n-ésima.
Problema. Determinar a esperança de X , supondo independência de Já foi visto que X,- Poisson (À.t) e T1 - exp (À.). Ocorre que T1,
todos os lançamentos. T2 , • • • são independentes com a mesma distribuição exponencial de
parâmetro À. (não provaremos isto).
Solução. Seja ro número de caras nos n lançamentos do jogador I. Consideremos o seguinte problema: dado que exatamente uma
Decorre das condições do experimento que r- b ( n, ~) partícula chegou até o tempo t >O, qual a distribuição condicional
do seu tempo de chegada? Traduzindo em termos de variáveis alea-
tórias, temos o problema:
Qual a distribuição condicional de T1 dado que X,= 1? A res-
posta é : uniforme em [0, t ], i.e.,
Por isso, a esperança condicional de X dado que r = k é a esperança T, IX, =I- U[O, t].
da distribuição b ( k, ~) :
Verifiquemos esta solução, calculando a função de distribuição
k
E( X 1 r= kl = 2
• condicional. Como X,= I implica que a primeira partícula chegou
até o tempo t, temos [X,= I] C [O < T1 ~ t], logo P(O < T1 ~t I X,=
ou seja, = I) = I. Consequentemente, temos
r
E(X I Y) = 2 .
{
Oses~O
F 1 ,(s i X, =I )= t
Utilizando a fórmula. temos se s ~ t.
Se O< s < t.
EX= E{ E(X I Yl} =E
2
' = __!_2 Er = ~.
(y-) 4 P(T ~ s,X,=I)
F 1.(s X,=I)=P(T1 <s X,= I)=- -1 - -
I
I -
I -.
P(X, =I)
Neste exemplo, não era preciso calcular a distribuição condicional
de X dado que r= k, pois esta foi deduzida das condições do experi- Agora, T1 ~ s e X,= I significam que a primeira partícula chegou
mento. Tal método vale, em geral, para experimentos de duas etapas : até o instante se, já que só uma partícula chegou até o instante t, não
partindo do conhecimento da distribuiç~o do resultado da primeira chegou outra partícula até o instante t. Em outras palavras, home
etapa e da distribuição condicional do resultado da segunda etapa uma chegada em (0, s] e nenhuma em (s, t]. Estes intervalos são dis-
dado o resultado da primeira etapa, obtém-se a distribuição (ou a juntos, logo, por independência, temos
esperança) do resultado da segunda etapa.
Vejamos agora um exemplo em que há algumas . contas para P(T1 ~ s,X, = I}= P(X. =I, X, - X s =OI=
fazer na determinação da distribuição condicional. = P(Xs = l)P(X, - X s = 0).
r(
150 Probabilidade: Um curso em Nlvellntermediário Distribuição e Esperança Condicionais 1 51
Como o número de chegadas durante um período de duração r Veremos agora que é suficiente provar que
tem distribuição de Poisson de parâmetro Àt, segue-se que para
o< s < (, P((T1, T 1 + T2 ) E (a 1, h 1 ] x (a2, hz] I X,= 2) = (4.2)
2(h 1 - _(J_I]_(b_2_~ li_ 2) áre_aj~~n~ulo)
F I)s
·I X ' -_ 1) -_ _P~Ã'' =oiJ P(.~,_- -~'-=0)
P(X, = I)
t2 área A 2
lse · "' · e- '- 11 -' 1 s Isto é suficiente porque decorre de (4.2) que
- -;,,-('~-).1
área B
P((7~. TI+ T,)EBIX,=2) =~----A~
• arca 2
Uma vez que a função de distribuição condicional é a função de
distribuição da U[O, r], concluímos que T1 I X,= I ~ L'[O, t]. para todo B c A 2 , B boreliano. (Vale se B é união disjunta enumerável
Generalizando um pouco, podemos perguntar o seguinte: dado de retângulos do tipo descrito acima, por a-aditividade. Como todo
que chegaram exatamente duas partículas até o tempo t >O, qual a boreliano de A 2 pode ser aproximado por uma tal união disjunta,
distribuição dos dois tempos de chegada? Isto é. qual a distribuição segue-se o resultado.) Conseqüentemente.
condicional do retor (T1, T 1 + T2 ) dado que X,= 2'? (Deve ser óbvio
como definir a distribuição condicional de um vetor aleatório (X 1, X") (T~o T 1 + T2 ) I X,= 2 ~ U(A 2 ).
dada uma variável aleatória discreta } : Resta, então, provar a expressão (4.2), cujo primeiro termo é
igual a
PLf~_E_(a!., 1!~1.!J.±I~~-(a 2 .~2], x_, = 21

onde .dl 2 é a a-álgebra de Borel no plano.) A resposta à pergunta é P(X, = 2)
que(T1 • T 1 + T2 )fX,=2~ l'(A 2 ),ondeA 2 == [(x.y)EIR 2 :0~x<.r~tl. Como X,= 2 e T1 E (a 1. b 1 ] e T 1 + T2 E (a 2, h 2 ] se, e somente se, houve
i.e .. a distribuição condicional é uniforme em A 2 : uma chegada em (a ~o h 1 ], outra em (a 2 , b 2 ] e nenhuma nos outros
y /A2
intervalos que compõem (0, t]. a saber, (0. a 1 ], (b 1, a 2 ] e (bz, t], temos.
por independência,
P(T1 E (a 1, h 1]. T 1 + T2 E (a 2 , b2 ]. X,= 2) =
= P(X =Ü)P(Xbt -X a,= I)P(Xa,-Xb, =O)P(Xb,-Xa,= 1W(X,-Xb =0)

01 2
= e- ).a, ),(b! _a de- J.(b, -a ti e- ).(a, -b 1 : Ã(bz _ Gz)e- ).(b, -u21e- i(t· b 2 J =
o = ;_z(hl- ad (b2- az) e_;.,.
(Àt)2
Para provar isso. consideremos dois intervalos (a 1 • h 1] c (a 2 , b2 ] Como P(X, = 2) = - - e- Ál
, temos
tais que O< a 1 < b 1 < a 2 < b 2 < t. Então o retângulo (a 1• h 1] x (a 2• h 2 ] 2
está contido em A 2 :
e (4.2) está provada.

Um argumento análogo mostra que dado que X,= 11, a distribuição
condicional de (T1, T 1 + T2 , ••• , T 1 + T2 + ... + T,) é U(A,), onde
----~-+-4------L-------~
X A,= {(x~o ... ,X,) E IR": O~ x 1 < X2 < ... < x, s tl.
-~,
l'
f
A distribuição uniforme nesta pirâmide surge também nas seguintes

Distribulçio e Esperança Condicionais
Consideremos um processo de Poisson com parâmetro À. = I.

153
circunstâncias (daqui a pouco veremos a relação com nosso exemplo): Então x.~.,- Poisson (À. 1), X.1.,+.1. 2 - X.~.,- Poisson (À. 2 ) e X .~., e
I sejam Y1, ••• , Y. variáveis aleatórias independentes, cada uma tendo X;.,+.l. 2 - X.~. , são independentes.
t distribuição U[O, t], t >O. Então, pelo exemplo 22 do Capítulo 2.
U(A.) é a distribuição conjunta das estatísticas de ordem da amostra Problema. Qual a distribuiçãocondicional de X .1., dado que X.~., +.1. 2 = n?
r,..... }~ . pois a densidade de }; é t- 1 / to. rJ e. portanto. a densidade (Notemos que as variáveis aleatórias X e Y do problema
''
f
t
de ( 1'; 1 " ••• , 1';. 1) é
.fr 111 .···. l 1• 1 (y,, ... ,_r.) =

ll!
--;;-Se O=:;y,
t
<y 2 < ... <y,=:;t
original estão "mergulhadas" agora no processo de Poisson.)
Solução. Dado que XJ.,+). 2 = n, os tempos de chegada das primeiras n

{ O caso contrário. partículas possuem a distribuição das estatísticas de ordem de uma
t amostra aleatória de tamanho n da U[O, À. 1 + À. 2 ]. Portanto, a dis-
(Notemos que é possível concluir deste resultado que volume (A,) = tribuição do número de chegadas até o tempo À. 1 é a distribuição do
número de 1';;,::; ). 1 , onde 1'; 1 ,, ••• , 1';., são as estatísticas de ordem da
1 = ;,·;-) amostra ( Y1, ••• , Y.), ~ - U[O, )" + l 2 ]. Por isso, dado que X .1. 2 +.~., = n,
t Agora surge uma pergunta bem natural: há alguma relação entre a distribuição condicional de X .1., é a distribuição do número de
I as estatísticas de ordem Y111, ••• , ·1';, 1 e as variáveis condicionais T1, ••• , ~::; ). 1 • Como P(Y;::; À. 1 ) = ~. À.
trata-se de um caso de n en-
T, + ... + T, dado que X,= n'? Ou melhor, existe alguma explicação ~~.1 + 1L2
t intuitiva para os dois vetores terem a mesma distribuição? Uma pos- de sucesso (cha-
saios de Bernoulli cem probabilidade p = À.t
t sível explicação é a seguinte, baseada no resultado para 11 = I. Dado
1
~~., + IL2
1
que chegaram exatamente 11 partículas até o instante t, é razoável roemos o i-ésimo ensaio de sucesso se~::; À." fracasso se~ >ld. Logo
t pensar que cada partícula escolheria seu tempo de chegada unitorme- a distribuição é binomial, com parâmetros n e À.t , . (Observação:
~ mcnte no intervalo [0, t]. como no caso 11 = I, independentemente
1
llt + 11.2
para n =O, P(X .1., =O IX.~., +.1. 2 =O)=
~ das outras partículas. Então os tempos de chegada corresponderiam
a 11 variáveis aleatórias independentes. cada uma distribuída uniforme-
1.) O
mente em [0. t]. Mas os tempos 7~. T1 + T2 , • •• , T1 + ... ;- T,,. sendo

Pelo Teorema da Probabilidade Total (ou pelas fórmulas (4.1)),
os tempos de chegada ordenados. corresponderiam às estatísticas
a distribuição de X é determinada pela distribuição de Y e a distribui-
de ordem de uma amostra da distribuição U[O, t].
ção condicional de X dada Y. Então a solução do último problema
implica o seguinte resultado: se Y possui distribuição Poisson (À.) e a
Podemos utilizar este resultado para resolver o seguinte problema:
distribuição condicional de X dado que Y = n é b(n, p), 'Vn ~ O, então
se .\' ~ Poisson (i. r). r~ Poisson (i. 2 ) e X e Y são independentes, qual
X tem distribuição Poisson (),p). (Para ver isso, faça À. 1 = À.p e
a distribuição condicional de X dado que X + Y= n'? Poderíamos . À.
calcular a distribuição condicional diretamente, para obter À. 2 = À.(l- p), de modo que À. 1 + l 2 = ). e .,..----!--;- = p.) Vejamos um
ÁJ +11.2
exemplo.
X IX + }' = 11 - h (11. . i. 1
• ) • 11 ~ I
/., + 1.2
EXEMPLO 4. Consideremos outro jogo que conta com a participa-
(c também para 11 O. com a convenção h(O. p) = massa pontual em O, ção de dois jogadores, I e 11. Neste, o jogador I vai
i.c .. X - h(O. fl ) => P(.\ 0) I). Mas o seguinte argumento é mais fazer uma seqüência de lanç3;mentos independentes de uma moeda
interessante do ponto de vista probabilístico. que tem probabilidade p de dar cara, onde O < p < I. Antes do jogador
154 Probabilidade: Um curso em Nfvellntermediário Distribuiçlo e Esperança Condicionais 155
I começar, o jogador li observa uma variável aleatória N tendo dis- ximação para a probabilidade condicional de X pertencer a B dado
tribuição Poisson (À), onde À. > O. Supomos que 1\' seja independente que Y = y, a probabilidade condicional do mesmo evento dado que
da seqüência de lançamentos do jogador I. Se o jogador li observar YE /, ou seja,
N = n, ele vai parar o jogador I depois deste ter feito n lançamentos
(se N =O, o jogador 11 não permite nenhum lançamento). P(X E B yI = y) ~ P(X E B I YEI) = P(X E B, YE I) .
P(YE I)
Problema. Se S for o número de caras observadas até o jogador
parar, quais são a distribuição e a esperança de S? Se P(X E B I Y E I) converge para um limite quando L\y-+ O, cha-
memos o limite P(X E B I Y = y ). Se P( YE/) = O para alguma vizinhança
Solução. Como a seqüência de lançamentos é independente de N , I. então definamos arbitrariamente a probabilidade condicional.
a distribuição condicional de S dado que N = 11 é b(n, p), i.e., digamos P(X E B I Y = y) = P(X E B). Então nossa definição (informal,
SIN = 11 - h( li. p). por enquanto ; as definições formais serão dadas na seção seguinte)
será :
Isto vale ainda no caso em que 11 = O.
Como N ._ Poisson (Â), S tem distribuição Poisson ().p) e ES = À.p. Relação I. P(X E B I Y = y) = lim P(X E B I Y E /), onde I é em inter-
ây~o
Obserl'ação. Se quiséssemos determinar apenas o valor de ES, não valo que contém y, de comprimento L\y.
era preciso obter a distribuição de s.· Com efeito, já vimos que
ES=E[E<S INl l. Como SIN= II-h(tz.p). temos E<S IN = n) = llp. i.e..
Observação. O limite existe quase certamente, no sentido de que
E<S INJ = Np. Portanto.
existe para quase todos os valores possívei; de l: De
ES = E(Np) = pEN = pl.. fato. vert:mos que a Relação I dá o "valor certo" da pwbabilidade
condicional com probabilidade I (o "valor certo" é o valot dado pela
distribuição condicional regular, a ser definida no §4.3).
§4.2 Distribuição condicional de X dada Y: caso
geral Embora essa definição seja construtiva e dê uma receita para
Nosso objetivo nesta seção é definir distribuição condicional se calcular a distribuição condicional, ela não é muito prática (como
de X dado que Y = y para todo y E IR e todo par de variáveis aleatórias o leitor descobrirá lendo os exemplos e fazendo os exercícios). O que
X e Y definidas no mesmo espaço de probabilidade (Q .tl. P). se costuma fazer é conjeturar - ou, se quiser, "chutar" - a distri-
No §4.1 , definimos distribuição condicional dado que Y = y buição condicional e depois verificá-la. Mais adiante voltaremos a
quando P( Y = }') >O; portanto, nosso problema agora é como definir este assunto.
distribuição condicional quando P( Y = y ) =O. No caso discreto esta Essa definição não é a única existente. Há outra, baseada na
y
definição era arbitrária, pois o conjunto dos tais que P( Y = y) = O, Teoria da Medida, que é muito mais útil no sentido teórico (pode-se
i.e., o conjunto B 0 = {y. : 11 = I, 2, ... }', também tinha probabilidade provar muito mais com ela). Para termos uma idéia da base desta
zero, no sentido de que P( YE B0 ) = O. Mas é evidente que essa solução definição, consideremos novamente o caso discreto.
não serve para o caso geral, já que é bem possível que P( Y = y) =O Para Y discreta, as fórmulas (4.1 ) dizem que a distribuição (ou
para todo yE IR (por exemplo, no caso contínuo). função de distribuição, ou esperança) de X é determinada pela dis-
Mais uma vez, nossa solução será uma aproximação utilizando tribuição de Y e a distribuição (função de distribuição, esperança)
a definição do caso discreto. Para tanto. seja I um intervalo pequeno condicional de X dada Y. De fato, o Teorema da Probabilidade Total
de comprimento Óy e que contém o ponto y. Tomemos como apro- nos dá um resultado muito mais forte : a distribuição conjunta de X e Y
Distribuição e Esperança Condicionais 1 57
satisfaz uma das relações acima (Relação I ou Relação 2). Este é o

é ddcrminada pela distribuição de r c a distribuiçüo condicional de X
procedimento mais im.~;cado para o caso geraL Consideremos agora
dada r Para ver isso, basta notar que para todo X c y.
alguns casos simples em que a solução \em quase de imediato.
F.u(x, _ri= P(X::::; x, r::; r)=
'!: y,! '• Casos dt' júcil soh1~·iio.
Pt r= y,i Per s \, r= y,l Caso /. Y discreta. Neste caso já definimos a distribuição condicio-
n : \' 11 ~ .\
naL Para a seqüência finita ou enumerável de valores y 1 , y 2 , ...
:2:: P( r= r,) Fx(x: Y = y,) = tais que P( r= y,) >O. definimos
n: _r,l ·,r
,., pp; E BIy = \' ) = p( X E B. r = )'nl_ B E dd.
,. F\(.\; r== I) dFrUL ' ." Pl r = y,i '
. '
O conjunto dos outros valores de y tem probabilidade zero, no sen-
valendo a última passagem pela forma da integral de Sticltjcs no caso tido de que P( rE : y, : 11 = I' 2. ''':')=o. e admitimos a definição ar-
discreto (item 6, ~3. I). bitrária
Vemos, enLio. que no caso discreto a função de distribuição
conjunta é uma espécie de composta da fum;,\o de distribuição marginal P(X E B 1 r= _rl = P()(.:: BJ. B E~.
de }com a função de distribuiçãü condicional de X dada Y Mas ocorre
para todo r que nàG seja um dos y,. Desta maneira, definimos uma
que para todo par de variáveis aleatórias .\' e >: dcl1nidas no mesmo
distribuição condicional dado que Y = y para todo _\'E 1ft Verifiquemo~
espaço de probabilidade. existe uma. c somente uma família de fun-
que esta distribuição concorda com a dada pelas duas relações.
ções de distribuição condicional satisfazendo a condição acima
Relação 2 já foi verificada; de fato. foi derivada justamentL' no
ta prova não é fácil). Além disso. será \Isto no ~4.3 que esta família
caso discreto. Embora não seja necessário verificar a Relação I, bas-
está em concordância com a definição de distribuição condicional
tando verificar uma das duas definições, vamos fazê-lo para mostrar
com limite dada pela Relação I. Isto significa que a seguinte relação
a concordância entre as definições.
pode ser usada como dejiniclnra da distribuição condicional de X
Como basta verificar a Relação I para "quase todo" y, i. e., para
dada r:
um conjunto de y's que contém o valor de r com probabilidade um.
I'
Rela1·iio 2. F.uC\, y) = f' , F\(x r= t) dF 1 (I 1. (.\,r)"" R:
2
.
verificaremos para todo y,. Se y, E/, onde I é um intervalo de com-
primento ~y,, então
(É claro que a distribuição condicional scr:í a distribuição definida
pela função de distribuição condicionaL) P( r E/) -----> P( r = y,) quando ~y .. -----> O,
pela continuidade de probabilidade. Notemos que aqui o índice n é

fixo e o comprimento do intervalo contendo y, é que comcrge.
Entretanto, o resultado justificado a adoção da Rdação 2 como
(Obserraçào. A continuidade de probabilidade foi demonstrada para
uma segunda definição serve apenas para garantir a existência da
seqüências monótonas de eventos, enquanto que esta
distribuição condicional e não contribui para ensinar como achá-la.
convergência seja mais geraL Mas é conseqüência imediata do resul-
Reiteramos que a melhor maneira de se achar a distribuição condi-
tado anterior, pois esse implica que
cional é "chutar"- usando alguns princípios que serão introduzidos
adiante- c assim obter um "candidato" para a distribuição condicio-
naL Em seguida verifica-se se o candidato realmente e a distribuição P (_r,- m < Y < y, + ~)-----> P( Y = y,.) quando m---> x,
e
condicionaL Para tal verificação, suficiente conferir que o candidato
158 Probabilid ade: Um curso em Nível Intermediá rio DistribuiçA o e Esperança Condicion ais 159
1
~.\'" < m , temos 1 c (r"-
1
. y., + 1
)e Caso I li . X e Y possuem densidade conjunta f(.x, y). Pensemo s assim :
e quando
\
111 m. dado que Y = y, os valores possívei s do vetor (X, }') são
' I I ' os valores (x. y), x E IR, y fixo. Ora. a densida de f(x , y) represen ta a
P( }' = _\'.,) :$ P( };, E I) :$ P ( y., - < }' < y., + ) ) chance relatim de observa r o par (x, y). no sentido de que ames de
. m m . ·.
observa r os valores das variávei s aleatória s X e }'; j(x, y) fornece uma
Pela mesma continui dade de probahil idadc, temos idéia da chance relativa de observa r (x, y). Por exemplo . se /(x 1 • y) =
'""' 2f(x c. y). então. informa lmente. (x 1 • y) tem o dobro da chance de
P(X E B. } E/)--+ P(X E B. }'=r,.) quando ~.\'"-.O. (.\ > y) de ser observa do. Neste caso. é razoável pensar que. dado
que
} = y. x 1 mantenh a duas vezes a chance de x c. na distribu ição con-
Como P( Y = Ynl > O, segue-se que
dicional de X.
Portanto . nosso candida to para a distribu ição condicio nal de X
dado que Y =_I' manterá as chances proporc ionais a f(x, y), com _I'
fixo. Com efeito. vamos normali:::.ar f(x , y), x E R para que seja uma
como queríam os demons trar. nova densidad e, a densidad e da distribu ição condicio nal. Para tanto,
como ela já é uma função não-neg ativa basta dividir por sua integral
Portanto, as duas relações definido ras de distribu ição condicio -
sobre a reta . Então. nosso candida to para a densida de da distribu ição
nal são consiste ntes com a definiçã o vista no caso discreto.
condicio nal será
f(x I I') = /(x, _r) -- = f!x,__l'), x E IR.

Caso 11. X e Y independ!'ntes. Intuitiva mente, a distribu ição condicio - •
1
• f~ , .1 (x, y)dx .fr(_r)
nal de X dado que Y"" y não deveria depende r de r. Por-
tanto, nosso candida to (• · Se _f;(y) > O, então f(x I_r) é uma densida de (pois é não-neg ativa
e f ' , f(x Iy)dx = 1), chamad a densidade condicional de X dado que
P( X E Bi }' = ,1') = P(.\" E B). B E J1. ,1' E R Y = y. Notemo s que dado que Y = y, f(x jy) realmen te preserva chan-
- ces relativas , pois
ou seja. a distribu ição condicio nal é a própria distribu ição (não-con f(x 1. _\')
relações . f(xl ! ,1') _
dicional ) de X. Verifiqu emos as duas
Relação I : Pela indepen dência. P( X E B I }' .: : I} = P( X E B) para
f{,. 2. i _)~ - f(.~·;, -'~ .
todo interval o I c todo B t: .:1&. Logo. VB E J1. Esse é um exemplo de aplicaçã o do prin cípio da preserraçào de chan-
P(X E B ;}é {)--+ P(X E BJ quando ~.\' .... O. ces relatil'as ("odds·· em inglês). Adiante voltarem os a falar deste prin-
F · cípio.
,.., so can d 1'd ato para _1 (x;} = y) é F .11x). Substi-
Relaça-o , · "''os
Vejamos agora se nosso candida to realmen te satisfaz as duas
tuindo. temos
relações que definem a distribu ição condicio nal. Para a Relação l.
já que precisam os ·verifica r se nosso candida to f(x I_r) é realmen te a
r·
.. - f
F.\(x)dF r(t) = F 1(x)
..
~y
-
dF 1(f) = F 1 (x)F 1 (_rl = Fx.r(x. ,rL densidad e da distribu ição condicio nal, basta verificar que para cada
borelian o B.
f(x I y)dx = P(X B i Y = y) = lim P(X B I }'E/).

onde a penúltim a passagem segue da natureza da integral de Sticltjes E E
(item 3, ~3 . 1 I e a última é conseqü ência da indepen dência JH

.~r- O
.
Em resumo, nosso candida to satisfaz as duas relações e é a dis- Daremo s uma prova parcial desta relação; a pro\'a complet a neces-
tribuiçã o condicio nal. sita de conceito s da Teoria da Medida.
-~
P"
li
160 Probabilidade: Um curso em Nivellntermediário Distribuição e Esperança Condicionais 161
I I Sejam y fixo e I um intervalo de comprimento ~y contendo y. EXEMPLO 5. Suponha que o vetor (X, Y) possua distribuição nor-
Temos mal bivariada com densidade
P(X E B I y E 1) = P(X E B, Y E ll_ = f~f 8 f(~, t)dxdt .
P( YE 1) fi jy(t)dt f(x y) = -- I
~
exp { - 1
2(1 - p 2 )
[(x - 11 1 )
--
2
:
' 21lCT 1CT 2 0" 1
Se a densidade .fr é contínua no ponto y, sabemos do Cálculo que
f di·(t)dt -+f. ( ~·) quando ~v --+ O. _ 2p (X :;p~) e~ 2112) + (~~ 2 11~YJ} ·

(
,, . ~y l- •
Neste caso, já sabemos qual a densidade marginal de Y, pois

Se definimos g(t) = faf(x, t)dx, então, supondo g contínua em y, Y- N(11 2 , u~). Mas para obter a densidade condicional, não é neces-
sário calcular a densidade marginal, nem utilizá-la diretamente na fór-
fifiJj(!.!)dxd_!_ = l.!_Jl.~!}dt ~ g(l').
~.r ~.r ây~ • mula, pois para y fixo a densidade condicional é proporcional af(x, y).
Por isso, podemos tratar y como constante na densidade conjunta,
Tomando o quociente dos dois limites, temos
padronizar f(x, y) como função de x e assim obter a densidade con-
fi g(t)dt
= -- - - - -~ -g(y)
·- -- -- dicional.
P(X E I
B Y E J)
f di·(t)dt â.r~ /Y(J') Portanto, colocando em evidência todo fator que não dependa
de x, podemos escrever
= r~~r~x.yldx=i f(x,_rl dx = I f (x Iy)dx,
.fl·(J') H .fr(.r) J H . I
j(x y) = c(u 21,u 22,p,y)exp { -
20
_I p2) [(x-
~111)
2
-
como queríamos demonstrar.

(X : 1111) e· : 2112)J}·
ti
Quanto à Relação 2, nosso candidato para a função de distri- _ 2p
~I buição condicional é Fx(x IY = y) = Y f(s IY)ds. A relação está sa- f
,,
!' tisfeita pelo candidato, pois
f_. (fx
- OI. - Cf,
f<s l t)ds)dFy(t) = f.r (fx
-J -:J
[_(s,_!lds).fr (t)dt =
.fl(t)
onde a constante c(uf, u~, p, y) é determinada pela equação
Jf(x ly)dx = 1. É claro que essa densidade condicional é normal. Com
efeito, completando o quadrado obtemos
lH = ff -r. '7. f(s, t)dsdt = (pela definição de densidade) = ./

·(x I.r) = cI (u2'I u2,2 p, )') exp {- 2(
2
- _I -I --
p2)
[(x- Jll) -
(j 1
I! = F x. r(_x, y),
Vx, y. cda 11 a 2 ,p,y)exp { - l~TO I_ p 2 ) x
2 2
- p ( .\' ~
- --
Jlz)] }
Obserração. Se j)(y) =O, f(x Iy) pode ser arbitrariamente definida, di- 2 =
(
I
gamos f(x y) = fx(x). Isso é intuitivamente evidente, pois
os valores y tais que .fi(y) =O não são valores possíveis de Y. Formal-
x [x - 11 1 - jJ~I (y- I12)J}·
I mente,
{
P(YE {y :j).(y) =O })= P1 ((y :fi·(Y) = 0 })=
Esta é a densidade da distribuição normal com média 11 +
1
l
f + .P.f!.~ 2
I (y- jt 2 ) e variância af(t - p ). Por isso, escrevemos
i
ll
fdy)dy =
f
IJ' :JrO·l Oi
O· dy =O.
(j2
X I}' = y"' N (111 + P~1·-(y- Jlz), uf(l - p2)}

'rt Outras notações para a densidade condicional de X dada Y:
{
ou seja, a distribuição condicional de X dado que Y = y é a citada
I I I
f(x y) = fx Ir (x Y) = fx(x Y = y). I normal.
DistrfbuiçAo e Esperança Condicionais 163
162 Probabilidade : Um curso em Nlvellnterme diério
DEFINIÇ ÃO 4.2. Sejam y E IR e B E Jl. A probabilidade condicional

§4.3 Definições formais e teoremas de existência de que X E B dado que Y = y, é definida por
Nesta seção daremos os teoremas que justificam a nossa utiliza- P(X E B YI = y) = lim P(X E B I Y E/),
ção de Relação I e. Relação 2 como definições de distribuiçã o con- ây-o
dicional no caso geral. O leitor, se quiser, poderá pular esta parte onde I representa um intervalo de comprime nto Ay contendo y.
teórica e passar diretament e às observações gerais no final da seção. Esta definição correspond e, então, à Relação I .
DEFINIÇ ÃO 4.1. Sejam X e Yvariáveis aleatórias definidas no mes- TEOREM A 4.2. Para cada B E~ fixo, o limite na Definição 4.2 ex iste
mo espaço de probabilid ade (Q .Qf, P). Uma função quase certamente, i. e., P( Y E { y : limite existe em
P(X E B I Y = y ~ definida para B boreliano e .v E IR, será chamada uma y} ) = 1. Além disso, para cada B fix o, o limite é igual a P(X E B I Y = y)
distribuiçã o condiciona l (regular) para X dada Y se como definida na Definição 4.1 , quase certamente .
P(X E B I Y = y) define uma probabili-
(i) para todo y E IR fixo, Prora. Teórica. (Uma modificação do Teorema 8.6. de Rudin [17]). O
dade em ~. a a-álgebra de Borel na reta, e
(ii) para todo B E~ fixo, P(X E B I Y = y) é função mensuráve l COROLÁ RIO. Para se achar a distribuição condicional de X dada Y,
de y e, 'v' (x, y)E IR 2, basta obter Jim P(X E B I Y E I) para todo B em uma
ây-0
apropriada classe enumeráve l 'tff de borelianos que gera a a-álgebra de
f~ oc P(X ::5: X IY = t)dF y(t) = P(X ::5; X, Y ::5; y). Borel. Por exemplo, <t& 1 = {( - ·X!, r] : r racional} ou <t& 2 = {(r" r 2 ):
- r:N < r 1 < r 2 < oo, r 1 e r 2 racionais}.
cha~ada probabilidade c~ndicional de Prova. As classes C6 1 e 16 2 são ambas enumeráveis. Pelo teorema,
Linguagem . P(X E B I Y = y) é
para cada membro de 16 1 ou tt 2 , o limite acerta no valor da
X pertencer a B dado . que Y = y. A probabilid ade
distribuiçã o condicional regular com probabilid ade um. Como a in-
P(X E • I Y = y)
é a distribuição condicional de X dado que Y = y.
terseção de um número enumerável de eventos de probabilid ade um
(Observaç ão : o ponto". " representa o argumento da função, de modo
também é de probabilid ade um, o limite acerta no valor da distri-
que y é fixo.) A função F.\(· I Y = y)d:fl P(X ::5: · I Y = y) é a.fimção de dis-
tribuição condiciona l de X dado que Y = y. Então, a condição (ii) da
buição condicional regular simultaneamente para todos os membros
definição se escreve assim : de <t& 1 ou C6 2 , com probabilid ade um. Mas qualquer probabilid ade é
determinad a pelos seus valores em <t 1 ou 16 2 , logo segue-se o co-
t f"' F x(x I Y = t)dF r(t) = F x.dx, y) para todo x, y.

rolário. O
Observações gerais. Suponham os que desejemos achar a distribuiçã o
condiciona l de X dada Y. Se o problema não se
Esta é a Relação 2. enquadra em um dos casos simples I. II, III do §4.2, então nosso mé-
todo é chutar: aplicando certos princípios (por exemplo, preservação de
TEOREM A 4.1. Sejam X e Y t•ariáveis aleatórias em (Q .Qf, P). Então chances relativas, que conduziu à solução no caso 111), obtemos para
existe uma distribuição condicional regular para X cada y E IR uma probabilid ade P(B Iy ), B E :Â, que é nosso candidato
dada Y. Existe apenas uma, no sentido de que duas distribuições con- para a distribuiçã o condiciona l de X dado que Y = y. Então verifica-
dicionais são iguais quase certamente : se P 1(X EBI Y = y) e P AX EB I Y= y) mos se P(B Iy) = P(X E B I Y = y\ conferindo a Relação I ou a Re-
são ambas distribuições condicionais para X dada Y, então existe um lação 2, i. e., conferindo a Definição 4.2 ou 4.1 . Isto significa uma ve-
boreliano B 0 tal que P( Y E B 0 ) = I e P 1(X E B I Y = y) = P 2 (X E B I Y = y) rificação de que
'v'B E !11, 'v'y E B 0 .
P(B y) I = lim P(X E B I Y E /)
Prom. Teórica. Poderá ser tirada 'd o Breiman [5], Capítulo 4. O â~·- o
-~
164 Probabilidade: Um curso em Nfvellntermediário DistrlbuiçAo e Esperança Condicionais 165
ou de que tará para todos os intervalos racionais e, em particular, para os in-
F x. r(x, y) =f"' P((- x, x ] It)dF y(t). 'tx. y.

tervalos que contêm y. Isto quer dizer que para os "bons" valores y,
nosso candidato é igual à distribuição condicional regular. Como os
outros valores y têm, em conjunto, probabilidade zero, nosso candi-
Em geral, a Definição 4.2 é mais fácil de se verificar. Além disso, dato é a distribuição condicional. -
esta não precisa ser verificada para todo y e B; basta uma verificação
para quase todo y e para todo B intervalo aberto com extremos racio- Adt•ertência. Para B fixo, o limite na Definição 4.2 acerta com pro-
nais. O seguinte exemplo é talvez a aplicação mais simples deste método. babilidade I. Ocorre que (i) ainda no caso do limite existir,
EXEMPLO 6. Qual a distribuição condicional de Y dada Y? É fácil poderá errar no alvo e (ii) para y fixo, os limites para os vários bo-
obter o candidato, usando nossa intuição: dado que relianos B poderão ser incompatíveis. O problema é que o número
Y = y, então Y é igual a y( !). Por isso, nosso candidato será de borelianos é não-enumerável e os eventos de probabilidade zero
poderão acumular, formando em conjunto um evento até de proba-
P( y =)'I y = y) = I , bilidade 1. É por isso que recomendamos a obtenção do limite apenas
ou seja, a distribuição condicional de Y dado que Y = y é massa pon- para intervalos racionais.
tual em ~·. a distribuição que atribui probabilidade I ao ponto y. Para ilustrar o problema, vejamos de novo o exemplo 6. Como
Ver fiquemos a Definição 4.2. Seja y fixo, e seja B = (r 1 , r 2 ), onde nosso candidato para a -distribuição condicional, dado que Y = y,
r 1 e r 2 são racionais tais que r 1 < y < r 2 . Então era massa pontual em y, seria talvez natural tentar verificar isso di-
retamente, calculando P( Y = y I Y = )') como um limite. Então para
P(} E B I Y = y) = lim P( Y E B I Y E J) = lim P(_Y_E -~· y E 11 . J'o fixo, ponhamos B = Lvol e calculemos
A.r-o A.r-o P(YEI)
P( Y = .I' o I Y = y) = lim P( Y = y 0 I Y E /).
A_.--o
Para L\y pequeno, temos I C B e (}' E B, Y E J] = ( Y E/], logo
Se a distribuição de Y fosse contínua, digamos N(O, I), então
P( Y E B I Y = r) = lim P( r E !l = I. teríamos P( Y = y0 ) =O e
. â,r-0 P( y E I)
P( Y = y 0 I Y = y) = lim !_'( y = .l:!l2._!_~ l

1 = O.
Não é preciso obter o limite para outros borelianos B, pois a
( A)'-0 P(YE/)
distribuição condicional já está determinada: como a distribuição con-
dicional atribui probabilidade I a todo intervalo de extremos racio- A conclusão seria de que P(Y= .vol Y=y 0 )=0, para todo y0 , o que
I nais contendo y, atribui probabilidade I ao ponto y (basta fazer B contradiria nossa solução anterior, a solução certa.
I' diminuir para {y}l. de modo que P( Y =r 1 Y =ri= I. Assim, nosso O problema com esta tentativa é que, com B = {y0 }, o limite
candidato está confirmado. acerta na probabilidade condicional, dado que Y = y, para todo y
I
exceto para o ponto y 0 • (Notemos que não teríamos este problema
I O exemplo 6 mostra que. para y fixo, geralmente não precisa- no caso discreto.) Já que a probabilidade de Ytomar este valor é zero,
mos obter o limite para todo intervalo de extremos racionais. mas o resultado não contradiz a teoria. Contradiz. contudo, a nossa in-
apenas para um número suficiente à determinação da distribuição tuição, pois é justamente no ponto y 0 que nosso candidato assume
condicional. Neste exemplo, nosso candidato era massa pontual em o valor I.
y, por isso consideramos apenas intervalos contendo y. Em resumo, esta tentativa mostra a futilidade do cálculo de
Notemos que a teoria diz que o limite na Definição 4.2 dá o va- P( Y = Yl Y = y) como um limite no caso geral. Como o número de
lor certo para todos os intervalos racionais, para "quase todos" os pontos e não-enumerável, tal cálculo poderá resultar em contradições
valores }'· Portanto, se y for um desses "bons" valores, o limite acer- que dific~ltam a obtenção da distribuição condicional. -
I
r 166 Probabilidade: Um curso em Nlvellntermediário Dist ribuiçlo e Esperança Condicionais 16 7
I
§4.4 Exemplos PROPOSIÇÃO 4.1. (Princípio da substituição para distribuição condicio-
' '
I Nesta seção, vamos considerar alguns exemplos que não se en-
quadram nos casos I, li, III. Para obter as distribuições condicionais,
qJ(x, y) umafunção
nal.) Sejam X e Y t•ariát,eis aleatórias em (Q . !I/, P),
mensurável. Se a distribuição condicional de X dada Y é
usaremos dois principias importantes que enunciamos agora. P(X E B I y = y), B E~. y E IR,
então a distribuição condicional para ({)(X, Y) dada Y é
O princípio da preserl'ação de chances relat iras. Este principio diz que
condicionalmente, dada P(qJI X. Y) E B I y = y) = P(qJ(X, y) E B I y = y) =
a ocorrência de um evento A, os resultados possíveis (i. e., w E A) man- = P(X E {x: qJ(x, y) E B} I Y = y), B E .si, y E IR.
têm as mesmas chances relativas que tinham anterior à realização do
Obserração. A segunda probabilidade condicional acima deveria ser
experimento. interpretada como uma etapa transicional cujo objetivo
é ajudar a memória. Não é desejável calcular para cada y a distri-
Em termos de variáveis aleatórias, o principio da preservação de buição condicional da variável aleatória qJ(X . .r)- já que no caso
chances relativas pode ser expresso da seguinte forma: dado que Y = y, geral o número de y é não-enumerável, os erros podem se acumular
os valores possíveis de X mantêm as mcsmds chances relativas de antes e estragar o resultado final -mas sim utilizar a distribuição condi-
do experimento. Aqui, um valor possível de X é um x tal que (x, y) cional conhecida de X. Podemos colocar o resultado da proposição
era um valor possível de (X Y) antes do experimento. e o princípio em símbolos assim :
diz que estes pontos x mantêm. na distribuição condicional, as mes- ({)(X, }') I y = y - qJ(X I y = y, y),
mas chances relativas que os pontos (x, y) tinham na distribuição con-
junta de X e t: ou seja, a distribuição condicional de qJ(X, Y) dado que Y = y é a
Já vimos uma aplicação direta deste princípio quando obtive- mesma que a distribuição de qJ(X, y~ onde a variável aleatória X pos-
mos a densidade condicional no caso contínuo (caso lll, §4.2). A dis- sui a sua ·distribuição condicional.
tribuição condicional nos outros dois casos de fácil solução também Prora. Teoria da Medida para o caso geral. Provaremos para o caso
pode ser considerada como conseqüência deste princípio (exercício 21 ). de Y discreta. Suponha que P( Y = y.) = p(Jn) ~ O, onde
Além disso, o exemplo 6 é conseqüência imediata, pois dado que Y L p(y.) = I. Para B E 31, temos
I tomou o valor y, este mesmo valor tornou-se o único valor condi-
(
cionalmente possível de Y- notemos que os pares.(_r, y) eram os úni- P(qJ(X.' Y) E B I y = y.) = P(qJ(X, Y) E B, y = y.)
• cos valores possíveis do vetor aleatório ( Y. }'). p(y.)
O princípio da preservação de chances relativas poderá ser apli-
cado sempre. O seguinte princípio é aplicável, e indicado, nos casos
P(qJ(X, y.) E B, Y = y.)
p(y.)
em que queremos obter a distribuição condicional de uma função de
Y ou, mais geralmente, de uma função de Y e uma variável aleatória pois os eventos [ qJ(X, Y) E B, Y = y.] e [ qJ(X, y.) E B, Y = y.] são idên-
X cuja distribuição condicional já seja conhecida. ticos (você sabe explicar por quê?).
O princípio da substituição. Este principio diz que condicionalmente, Assim, a primeira equação da proposição está provada, para
dado que Y = y, a variável aleatória Ypode "quase todo" y. (Novamente, os outros valores y são desprezíveis ;
ser substituída pelo valor y sempre que Y aparecer em uma probabi- neste caso, y f: {y. : n ~ I }.) Para a segunda equação, temos
lidade (ou esperança) condicional. Mais geralmente, diz que para se P(X E {x: qJ(x, y.) E B}, Y = y.)
P( qJ(X, y.) E B, Y = y.)
obter a distribuição condicional de qJ(X, Y) dado que Y = y, bas~a
p(y.) p(y.)
substituir Y pelo valor y e X pela variável c<?ndicional. Formalmente,
temos a seguinte = P(X E {x: ({)(X, y.)E B ] I Y = y.). O
168 Probabilidade: Um curso em Nfvellntermediário DfstribuiçAo e Esperança Condicionais 169
EXEMPLO 7. Dado que Y = y, qual a distribuição condicional de Seja B = (r i> r 2 ), onde O < r 1 < y < r2 , r 1 e r2 racionais. Para I
Z = g( Y)? Já vimos que a distribuição condicional de Y pequeno tal que I C B, temos
é massa pontual em y, ou seja, a variável aleatória condicional.é cons- P(X E B, I X IE /) = P( X E /) = (pela simetria) =
tante e assume o valor y. Portanto, a distribuição condicional de Z
I I
é também massa pontual, desta vez em g(y). Em outras palavras. 2- { P(X E /) + P(X E - /) } = f P( X I IE /),
P(g(Y) = I
g(y ) y = y) = I ,
e
o que é intuitivamente óbvio. .
Notemos que na aplicação da proposição, identificamos X e Y, P(X E - B. l X IE I) = P(X E - /) = ~- P( I X IE 1).
pois Z é função somente de Y
Logo I C B implica
EXEMPLO 8. Seja X uma variável aleatória simétrica em torno de
zero, de modo que P(X ·: $ x) = P(X ~ - x), 't/x E IR. P(X E B I IX IE I) = -2I = P(X E - B I IX IE 1).
Qual a distribuição condicional de X dada a variável aleatória X I I?
Utilizemos o princípio da preservação de chances relativas para Portanto,
achar um candidato. Dado que I X I = y > O, então os únicos valores
1
possíveis de X são y e - y. De fato, IX I = J' se, e somente se. X = y P(X E B I I X I = y) = lim P(X E B I IX IE I) =
ou X = - y. Pela simetria de X. os dois valores y e - y tinham. antes ~-o 2
do experimento, a mesma chance de serem o valor de X . Portanto. nosso e
candidato é
1
••
I
P(X E - B I IX I = y) = lim P(X E - B I IX IE I) = .
y li X I = y), se y > O . 2
P(X = y li X I = y) = - = P X
2
=- A.r-o
Fazendo B decrescer para {y}, vemos que a distribuição condi-

Se y = O, nosso candidato é
cional atribui probabilidade } a cada um dos pontos y e - y. A pro-
= o11 X I= 0) = I ,
P(X
II I
va de que P(X =O X = 0) é deixada para o leitor (basta escolher
pois X = Oç:. I X I = O. Como I X I ~ O, não precisamos considerar os B =(r 1 ,r 2 ). onde r 1 < 0 <r 2 ).
J valores .1' < O. (Para satisfazer a definição formal. basta definirmos ar-
( Obserz·ação. Antes de prosseguirmos, notemos que as definições de
bitrariamente se y < 0.)
I distribuição condicional podem ser estendidas ao caso de
Supondo y > O, vamos verificar a Definição 4.2. Desta vez, a dis-
~ e .t' retores aleatórios. (No exemplo 3, do processo de Poisson, ~
t tribuição condicional estaria concentrada nos dois pontos y e - y,
foi o vetor (T~> T1 + T2 , ... , T1 + ... + T,.).) Em particular, se X=
de modo que é conveniente considerar pequenos intervalos racionais
= (X I> ... , X d e X = ( Y1, ... , Y.). então P(~ E B I X = y) é funçã~ de
' contendo esses pontos :
B E :11\ i. e., B boreliano no !Rk, e de y E IR". O Teorema-4.1 ainda vale
neste caso, no sentido de que a distribuição condicional (regular) existe
-I
,_..-..-., e é única. O Teorema 4.2 vale se Y é variável aleatória ; se Y é vetor,
( I ) ) vale caso I seja certo tipo de retângulo n-dimensional, e não vamos
o nos preocupar com este ponto. A Proposição 4.1 (princípio da substi-
tuição) também vale no caso geral.
Distribuição e Esperança Condiciona is 1 71
170 Probabilida de: Um curso em Nivellnterm ediário
EXEMP LO 9. No processo de Poisson, podemos obter a distribuição onde C é a circunferência do círculo :

condicional de r 1 dado que X,= n, onde n 2!: I, uti-
lizando o princípio da substituição. Vimos no exemplo 3 que os n >'
primeiros tempos de chegada, dado que X,= n, tinham a distribuição
das estatísticas de ordem de uma amostra aleatória de tamanho n c
Bnc
da distribuição U[O, t]. Então r 1 • sendo função desses n tempos, a
saber, o primeiro deles, possui condicionalmente a distribuição do X
mínimo de uma amostra de 11 uniformes em [0, t]. Portanto, para
11 2!: I,
O ses<O
I- S n
P(r1 :s; s I X,= n) = I- ( -- ) se O :s; s :s; I
Verifiquemos a Definição 4.2, obtendo, como limite, a probabi-
{ 1
I se s > t. lidade condicional de certos retângulos. Por conveniência, usaremo.s
coordenadas polares: sejam (} = B(x, y) e p = p(x, y) as coordenadas
polares do ponto (x, y), e seja B o "retângulo" polar {(x, y): :x 1 <e< :x 2,
(Exercício. Verifique esse resultado através de um cálculo direto, que Pi < p < P2 J. onde :x., :x2, p 1, p 2 são racionais tais que O:s; cx 1 < :x 2 :s;
não é mais dificil neste caso. Ache, também, a distribuição :s; 2n eO< r 1 < z < r 2 . Então B é a seguinte r~gião aberta:
condicional de r 1 dado que X,= 0.)
B >'
EXEMP LO IO. ·sejam X e Yvariáveis aleatórias independ2entes, cada
2
uma tendo distribuição N(O, cr ), onde cr >O. Qual
a distribuição condicional de (X, Y) dada J X + Y , a distância entre
2 2
(X, Y) e a origem?---=---=-
Para z >O, J X 2 + Y 2 = z se, e somente se, (X, Y) pertence à
circunferência do círculo de raio z. Logo a distribuição 2condicion al,
dado que X 2
+ J
Y 2
= ::, está concentr ada em {(x, y): x + y 2
= z 2
}.
Apliquem os, então, o princípio da preservaç ão de chances relativas:

B =região hachurada aberta
como a densidade conjunta de X e Y é
Seja Z = X + Y e consideremos P((X, Y) E B I Z E 1). onde 1

.J
2 2
I
,, é um intervalo contendo ::, de comprimento ~=. Quando ~= é sufi-
cientemente pequeno, de modo que I C (p., p 2 ), temos
a densidade é constante para todos os (x, y) na circunferência do cír- P((X Y)EB / Ze/)= P((X, Y)EB,Z EI)
culo d~.; raio ::. Por isso, antes do experimento todos esses (x, y) eram ' P(ZEI)
"equiprováveis", e nosso candidato será a distribuição uniforme na
circunferência do círculo.
H f(x, y)dxdy
B n [p e l]
2
Logo nosso candidato, para B E ~ e z > O, é
JJ f(x, y)dxdy '
[p e I]
P((X, Y)F B I JX 2
I
+ y 2 = z) = comprimento (B n C)
' 2nz
Distribuiçlo e Esperança Condicionais 173
Pela simetria circular da densidade conjunta (se quiser, poderá (Observação. Os outros valores de Y têm probabilidade zero, pois a
fazer uma mudança de variáveis, passando para coordenadas polares), probabilidade de pelo menos um empate é zero :
P((X, Y)E B IZ E I) = a2 ~ !Xt , P( u

i <j
[X i = Xj]l ::5: L P(X j =
i<j
X) ::5: L P(F(Xj) =
i< j
F(X)) =O,
quando I C (p 1 , p 2 ). Portanto, onde a última igualdade decorre do fato de F( X 1 ~ . •. , F(X.) serem

I I
P((X, Y) E B Z = z) = lim P((X, Y) E B Z E I) = - - - -
(X2 - (X 1
·•
independentes e U[O, I] - veja o exercício 37 do Capítulo 2.)
A:-o 2n Verifiquemos a Definição 4.2. Para tanto, seja A.= {(x 1 •• • , x.)E IR" :
li Fazendo com que B diminua para o arco da circunferência, com x 1 < x 2 < ... < x. } c seja B C A., B retângulo aberto racional conten-
do .!:: ("racional" quer dizer que todos os lados têm extremos racio-
~ !X 1e a 2 fixos, vemos que a distribuição condicional concentra-se na
(
., circunferência e é uniforme nela.
A distribuição condicional dado que Z = O é arbitrária. já que
nais). Suponha que I seja um pequeno retângulo contendo y, de modo
que yEI C B C A.. -
P(J X 2 + Y2 = 0) =O. Costuma-se adotar a definição intuitiva Para toda permutação n = (n , ••• , 1t ), definamos!,= (X" , ... , X" ).
• P((X, Y) = (O,Ol iJX 2 + Y2 = 0) = I,
É fácil de ver que ! c !.
1
possuem a
11
mesma distribuição, para toda

J permutação n. Então, os n! eventos [~,E/] são equip~ováveis e dis-
pois v ··-:-x.,.,2,-+--;-l',....
,2 = O se. e somente se. (X. Y) = (0. 0). juntos 2 a 2 em relação a n. (Por exemplo, se K!w) E/, então X 1(w) <
EXEMPLO 11. Consideremos agora a distribuição condicional de < X 2 (w) < ... < X.(w) e X"(w) ri/ para n #(I, 2, ... , n).) Mas YE I se,
X =(X 1 , ••• , X.) dadas as estatísticas de ordem (veja c somente se, K, E I par; algum n, logo os eventos [~,E J] furmam
if
o exemplo 22 do Capítulo 2). Sejam X 1 , ••• , X, variáveis aleatórias in- uma partição de L!' E J] e •
dependentes e identicamente distribuídas, com ~ = (X 1 ••• • , X.) e P(J: E /) = I . P(,c,E /) = n! P(~.E /), Vn.
{
X= (X(! )• x(2) • ... . x,.,), o vetor das estatísticas de ordem. Supo- n: p,·rmutuçm J
H nha que a função de distribuição F x, seja contínua. Queremos a dis- Portanto, para toda permutação n,
M\ tribuição condicional de ~ dado X Para tanto. consideremos y =
(
li = (.1'1 · ...• y,). onde .r i <r~< ... < y,,
É evidente que X= y se, e somente se, K é uma permutação de y.
- P(X E B I }' E I)
"""" """
= P~K" ~B, I
P([EI)
E I) jJl_K ,~ I)
PCt E/) n.
,.
li Apliquemos o princípio- da preservação de chances relativas: todã
I onde usamos o fato de que [~"E B. XE I]=[~, E/, XE /] = [~, E J].
permutação de y tinha. antes da observação das estatísticas de ordem. Mas quando K, E B. n é a permutação que coloca as coordenadas
' a mesma chance relativa de ser o valor de X, pois as Xi eram inde- de K em ordem. Neste caso, ~ E ri - 1 (B). onde n - é a permutação
1
pendentes e identicamente drstribuídas. Po; exemplo. suponha que inversa de n, ou seja, a permutação que recoloca os valores (n 1 , •.• , tt 11 )
n = 2 e que o valor observado de X foi l = (y 1 , }' 2 ), onde y 1 < J2. na ordem natural (1 , ... , n).
Então ou lf = (J 1 • y 2 ) ou~ = (y 2 • y 1 ) e os dois valores tinham a priori. Logo [~,E B] = [~ E n 1 (BJ] e temos
i. e., anterior à observação das l'/, a mesma chance de serem escolhi-
dos (pois (X 1 • X 2 ) - (X 2 , X 1 ), ou seja, os dois vetores possuem a
P(~ E n - 1(B) I.!'El) = P(~, E B i_YE 1) = ~f' Vn.
mesma distribuição). Logo é natural pensar que
Fazendo B diminuir para y, de modo que rr - (B) diminui para n - \
-v).
1
I
P(X . 1• .~·li
.._ =(r 2 . I . .I' 2 )) = P(X
Y =(r
.._ .._ =(I'. Y = (r.
.2 .rI l i .._ r))= 2
. I .2
temos
-.
Então. nosso candidato para n geral será P(X = n - 1 (y)l Y = y) = -~. Vn.
,..., - - - n!
I
P(X = l.r. · · · ·· J'r.J I Y = (yl, · · ·, Y.)) = 1' Y1 < Y2 < · ·· < Yn • . Como a classe das permutações inversas é igual à das permutações,
• IJ.
onde (rr 1 ..... n,) é uma permutação de 11. ... . n). o nosso candidato está verificado.
174 Probabilidade: Um curso em Nível Intermediário Distribuição e Esperança Condicionais 175
§4.5 EspPrança condicional Enunciaremos a seguir, sem provas, algumas importantes proprie-
dades da esperança condicional. Seja Yuma variável aleatória qualquer,
e sejam X, X 1 , X 2 , etc., variáveis aleatórias integrát,eis, todas defi-
DEFINIÇÃO 4.3. Sejam X e } variáveis aleatórias em (!1. ç). /-'). A
nidas no mesmo espaço de probabilidade.
esperança condicional de X dado IJII<' }' ~- y. é a es-
perança da distribuição condicional de X dado que }' = _\', se esta ECI. Propriedade básica. E:EIXI Y)} =EX.
esperança existir. Ou seja.
I
Propriedades de E(X l') análogas às propriedades da esperança
ordinária. Convenção: não distinguiremos variáveis aleatórias que se-
EIXIY=r)= JxdF,(xiY=,rl.
jam iguais quase certamente. Por exemplo. em EC2 basta 9ue X = c
quase certamente. i.e .. P(X = c)= 1. Além disso. os resultados enun-
TEOREMA 4.3. Se X (; integráz·d, emão E( X I Y = y) existe e éfinita
ciados são necessariamente válidos apenas quase certamente.
qzwsr certamente. i. e.. existe um horcliano B 0 tal iJIIC
P( }'E B 0 l =I e E( X I Y = y) é .finita para y E 8 0 . EC2. Se X= c. para alguma constante c. então E( X I }')=c (veja o
Prora. Teoria da Medida (decorre do Teorema de Radon-Nikodym). O exercício 26 ).
Se definimos cp(yl =E( X I y = _1'), a variável aleatória f{J( }')==f( X in EC3. Se X 1 :::; X 2 , então E(X 1l Y):::; E(X 2l }').
chama-se esperança condicional de X dada r (Sem perda de gene-ra- Casos particulares: (i) Se X ~O, então E( X I Y) ~O.
lidade. cp é mensurável no caso de .\· 'integrável.) (ii) Se a::::;; X :::; h, então a :::; E( X I Y):::; h.
A esperança condicional, sendo a esperança da distribuição con- (iii) E( X I Y):::; E( I X! I}') e. por EC4, I E( X I n I :::; E( I X I I n
dicional, possui (condicionalmente) todas as propriedades da espe-
rança ordinária já enunciadas. mais a propriedade importante de que EC4. Linearidade. E(aX 1 + hX 21 Y) = aE(X 1 I Y) + hE(X 21 n
f:E(X In:= E.Y. ou equivalentemente. EC5. Desigualdade de J ensen. Seja cp uma jimção conrcxa. Então
EX = rE(.\.'1 }' = rldf 1 (rl.

(/J :E( X 1 n: : :;
E:cp(XJI YJ.
.; EC6. Teorema da Conrergt!nciu Monótona. Se X,~ O e X, i X. entào
Esta equação já foi verificada no caso de }' discreta (fórmulas E(X,I }')j E(XI }').
(4.1 )). Vamos verificá-la quando X e } têm densidade conjunta!Lx. y): EC7. Teorema da Conzcergt!ncia Dominada. Se X,--+ X e se existe X 0
A densidade condici_onal é f(\' _1') =, j(x. ylf}(r). e segue-se que imegrárel tal que IX,I:::; X 0 , elltão
E( X i}'=_\')= r,dF\(xi y =_\')=f_'. xj(xl.rldx c~ ,~_,. X f(x. ,rl dx. I

lim E(X, Y) = E(X I}').
J . . . fr(r)
se fl(_rl >O. Logo, quando .>: é integrá\'el.

Antes de vermos exemplos, notemos que o princípio da substi-
E: E( X; n: = JE( X I r= ,r)df)(,l') =r' (.[, /(x. 1l

x·--.-·-dx
fr(_rl
·
)t
,·
1 (\')f/r=
tuição tem a seguinte forma para esperança condicional.
r
· ·
PROPOSIÇÃO 4.2. (Princípio da suhstituiç·ão pura esperança condi-
/(\,y)dl)xdx~ cional). Se cp(X, Y) é integrárel. emão
= rJ .xf(x,y)dxd_l=f'
... y
(f"
'"" E{cp(X. Yll Y=.\'}=E:cp(X,y)l Y=y) =Jcp(x,y)dFxlxl Y=y).
=r' .xf:tLx)dx =EX.

Prora. Pela Proposição 4.1, a distribuição condicional de cp(X, Y)
dadn que Y = y. é a distribuição condicional de cp(X, y) dado
176 Probabilidade: Um curso em Nlvellntermediário Distribuição e Esperança Condicionais 17 7
que Y= y, que é interpretada como a distribuição de qJ(X, y), onde Prora. Os vetores (X 1 ... ,X 11 ) c (Xj,X 2 , ... ,Xi I·XI.Xi+l··· .. .\.'")
X tem a sua distribuição condicional dado que Y = y. O têm a mesma distribuição (por quê'?). Por isso,(.\.' 1 • S) c(};·,. S)
possuem a mesma distribuição (use o seguinte fato: se ~ e l são ve-
Ohserração. O princípio da substituição vale também no caso de qJ tores aleatórios identicamente distribuídos, então f(~) e (([) tam-
ser função de vetores aleatórios ~ e l bém têm a mesma distribuição, onde a função f pode ser um vetor
EXEMPLOS (12). Como a distribuição condicional de X = g( Yl de funções reais).
dado que Y = y, é massa pontual em g(y), temos Como a distribuição condicional é determinada pela distribuição
E:g(Y)IY=y}=g(y), i.e., E{g(Y)I Yl=g(}'). conjunta, segue-se que X 1 e X i têm a mesma distribuição condicio-
( 13). Se X e Ysão independentes, então P(X E B I Y = y) = P(X E 8), nal dado que S = s, i. e.,
de modo que E(X I Y = y) =EX c E( X I Yl = EX. P(X 1 EBIS=s)= P(XjEBIS=s), i= 1.2, ... ,11.
( 14). Se X é integrável, a desigualdade de Jensen implica que
E 2(X In d!l :E(X i Yll 2 ::; E(X 2 1 A diferença entre as duas,
}').
Logo E(X 1 !S=s) e E(}.:"iiS=s), sendo esperanças da mesma
E(X 2 Y) - E 2 (X! Y), é chamada rariància condicional de X dada Y
1
distribuição, são iguais. Portanto.
(Veja o exercício 36(/J) para o resultado: variância de X é igual à soma E( X IS = s) = E(X 2 I S = s) = ... = E( X" IS = s),
1
da esperança da variância condicional e a variância da esperança
condicional.) e
11
( 15 ). Se X e Y são independentes c identicamente distribuídas, nE(.Yi I S = s) = I: E(Xi I S = s) =(por linearidade)='

com X - N (0, o- 2 ), então já vimos no exemplo I O que a distribuição i I
de (X, }')dado que " 1 X 2 + Y 2 = :, era uniforme na circunferência do =E (f X i iS = s\ = E(S l S = s) = s.

círculo de raio :. Pelo princípio da substituição, a distribuição con- \1 1 )
dicional de X dado que '\:X 2 + Y 2 = :. é simétrica em torno de zero,

Concluímos que E(X, i S = \) = ·', ou seja, E(.\', i S) = S O
pois tem a distribuição da primeira coordenada de um vetor distribuído 11 11
uniformemente na circunferência. Portanto. E(X I'\! X 2 + }' 2 ) =o C, Decorre do princípio da substituição que se X é intcprável e
análogamente, E(}' i'\ X 2 + }' 2 ) = O. X y( }') também o é, então
( 16). Sejam X e }'independentes e identicamente distribuídas. com
X~ U [0. 1], c sejam l' = min (X. }') e r= max (X, Y). Qual a espe-
E( X g( Y)! }' = ,1') = g(y) E( X I }' = y).
rança condicional de L' dada V'? Isso vale porque dado que Y = y, g( }') é igual à constante g(y) e, por
Neste caso. U c ~ · são as estatísticas de ordem da amostra de EC4, uma constante pode ser levada para fora da esperança Para
tamanho 2. Já sabemos que (L', V) possui distribuição uniforme em uma prova formal, notemos que
A 2 = [(LI. L'): O::; u <r::; I:. Pelo princípio da preservação de chances
relativas. ou simplesmente pelo fato da densidade condicional de U E(Xg( }')i Y = y) = E(Xy(y) i Y = y) = Jxg(y)df.\(x) Y = y) ~,
dado que I =r ser constante em [0, r], a distribuição condicional
de ['é uniforme em [O. r] (veja o exercício 17). Portanto, = g(y) Jx dF xLx I Y = _1') = g(y) E( X i Y = r).
E( Ui V= r) = J e E( L' I ~ ) = V
1
J .
Usaremos este resultado no seguinte exemplo.
( 17). Sejam X 1 •.•. , X" indêpendcntes. identicamente distribuídas (18) Seja (X, Y) de distribuição normal bivariada com parâme-
e integráveis, c seja S =X 1 + ... + X 11 •
tros p 1 , p 2 • o-i. o-~. p. Vimos no ~4.2 que
2) )·
!
Problema: demonstre que para tm1o i= I. .... 11. E(.\.' i I S) =

s X Iy = ,1'- N(llt + r;21 (_\'- )lz),(I'I(l- P
11
178 Probabilidade: Um curso am Nlvallntermadiârio Distribuiçlo e Esperança Condicionais 179
Portanto, Logo
E J XY J ~ ,./ ab= .J EX • EY
2 2
1 •
2
Se a= O. então P(X = 0) = l, P(X. = 0) = I e P(X Y = 0) = 1, logo
ou, equivalentemente, E( X I Y) = 11 1 + p~ ( Y- J.lz ). E JXYj = O e E JXl'j ~ v'ab =O (convenção : O· X• = 0). Se b =O, vale
(J2
Vamos calcular Cov (X, Y) = EXY- J.li J.lz sem mexer com a den- a mesma coisa. Se a = + x e b >O, a desigualdade é trivial: E IX YJ ~
sidade conjunta no cálculo de EX l: Supondo que X Y seja integrável ~ +X· . Idem se a >0 e b = + oc. O
(veremos isto no final deste exemplo), temos Sejam, agora, Y uma variável aleatória e A um evento aleatório.
Como A = [ 1A = I] e P(A IBl = P(J A= I IB) para B evento aleatório,
,, E(XYI Y = y) = yE(X I Y = y) =/li y + P(JL(y
G"z
2
- J.lzY~ é bem natural definir
P(A JY =y) = P( IA = 1IY=y)= lim flA= .IIYEI)=
logo ~y-0
lim P(A I Y El).

ly-0
Como a ~·ariá vel aleatória I A assume somente os valores O e I.

temos, pelo princípio da preservação de chances relativas,
P(lA = t i y = y) + PUA= o I y = y) = 1.
' Portanto, Cov (X, Y) = pa 1a 2 e p(X, Y) =
(Ti(J2
Cov (X, Y) = p,
(Exercício. Verifique, através da Definição 4.2 (Relação I~ que se
demonstrando assim que o parâmetro p é o coeficiente de correlação
P(X E B) = 1, então P(X E B j Y=y) = 1.)
entre X e Y.
Portanto,
A integrabilidade de X Y decorre da desigualdade de Cauchy-
-Schwarz, cuja formulação para variáveis aleatórias diz que E IX Yl ~ E(IA I y = y) = I . P(lA = ti y = y) +o. P(IA =o IT = y)
~ J EX 2 • EY 2 . Em outras palavras, se X e Y têm variâncias finitas,
= PUA = t 1 Y = y) = P(A r= y).
então X Y é integrá vel. Neste exemplo, X e Y são normais, logo X Y é
integrável. Notemos que X e Y têm momentos finitos de toda ordem Por nossa definição, então, a probabilidade condicional de um
(exercício 20(c) do Cap. 3), uma implicação disso send·) que todos erento é a esperança condicional de seu indicador: P(A I Y) = E(l A I Y).
os momentos "mistos", ou momentos-produto, são finitos: EXk ym é É an.alogia direta com o fato de que P(A) = EI A · De fato, como I A
finito para todo k,m~ I (pois EIXkY"'I~.JEX 2 k· EY 2 "'< ~ ). é integrável temos
Obserl'ação. A prova da desigualdade de Cauchy-Schwarz é quase P(Al = E14 = E{E(IA I Y) } = E{P(A I Y)},
idêntica à da Proposição 3.7, sobre o coeficiente de cor- ou seja, a probabilidade de um evento é a esperança de sua probabilidade
relação, que é realmente conseqüência de Cauchy-Schwarz. Prot>emos condicional dada Y, para qualquer Y.
Cauchy-Schwar:., i. e., provemos que EIXYI ~ JEX 2 • EY 2 para qual-
quer par de variáveis aleatórias definidas no mesmo espaço de pro- EXEMPLO 19. S!.!jam X e Y variáveis aleatórias. Calculemos a
babilidade: distribuição de Z = X + Y. Temos
Sejam EX 2 =a, EY 2 = b. Se O< a < x e O< b < oc , então
P(X + Y~z) = E{P(X + Y~z l Y)l = JP(X + Y ~ zj Y=.v)dFr(Y) =
o~ E (lJã~I_ - .fi
l ~)
2
= E (X~ -
a
2
.jab
1 X Yl + y~) = 2- 2
b Jab
E I X Yl. =(pelo princípio da substituição)= J P(X ~ z - y I Y = y) dFr(Y) =
= JFx(z- yj'r::::: y ) dFr(y). .
180 Probabilidade: Um curso em Nível Intermediário Distribuição e Esperança Condicionais 181
Se X e Y são independentes. então F 1( : : - r 1 Y = r)= F,(::- y) 4. Mostre que se X é uma variável aleatória tendo distribuição
e temos simétrica em torno de zero. e se P(X = 0) = O, então a distribuição
condicional de X 2 dado que X> O é igual à própria distribuição
Fzl::) = P(X + YS: ::) = JFx(::- y) dF 1 (y) =(trocando
de X 2 .
.Y por Yl = JF 1( : : - x) dFxCx).
5. Partículas radioativas chegam a um contador segundo um processo
Esta distribuição é a conro/uçào das distribuições de X e Y c, de Poisson com uma taxa média de três por segundo, mas o con-
como no caso da convolução de densidades, escrevemos l-z = F 1 *F x = tador registra somente cada segunda partícula (i.e., são registradas
=Fx*Fr. somente as partículas n." 2, 4, 6, ... ).
(a) Seja X, o número de partículas registradas até o tempo t.
É (X, : t ;:::: O: um processo de Poisson? Se for, qual o parâ-
EXERCÍCIOS DO CAPÍTULO 4 metro? Se não for, explique o porquê.
(b) Supondo que o contador registrou exatamente uma partícula
~.I durante o primeiro segundo. qual a probabilidade de que ele
não registre mais partícula alguma antes do tempo 2?
I. Sejam X 1 e X 2 variáveis aleatória' independentes, cada uma com
distribuição geométrica definida por 6. Cm contador recebe impulsos de duas fontes independentes. A e B.
Fonte A gera impulsos conforme um processo de Poisson com
P( X i = 111 = p( I - p !", 11 = O. L .? .... : i ~. L :::! :
parâmetro ). >O, enquanto a fonte B gera impulsos segundo um
onde OO. Suponha que o con-
trica corresponde à distribuição do número de fracassos antes tador registre todo impulso gerado pelas duas fontes.
do primeiro sucesso em uma seqüência de ensaios de Bernoulli.) (a) Seja X, o número de impulsos registrados pelo contador
(a) Calcule P()( 1 =X 2 ) e P(X 1 < .\.' 2 ) até o tempo t, t>O IX 0 =0). Explique porque (X,:r:::::o:
(b) Determine a distribuição condicional de X 1 dada X 1 + X 2. é um processo de Poisson (basta uma explicação intuitiva).
Qual o parâmetro'!
1 Uma certa lâmpada tem uma vida. em horas. tendo distribuição
(b) Qual a probabilidade de que o primeiro impulso registrado
exponencial de parâmetro I. Um jogador acende a lâmpada e.
seja da fonte A'?
enquanto a lâmpada ainda estiver acesa. lança um dado equili- (c) Dado que exatamente 100 impulsos foram contados durante
brado de quinze em quinze seywulos. Qual o número esperado de
a primeira unidade de tempo, qual a distribuição que você
3's lançados pelo jogador até a làmpada se apagar'?
atribuiria ao número emitido pela fonte A?
3. Partículas chegam em um contador segundo um processo de
7. Diz-se que ~=(X 1, .•• , X d tem distribuiç·ào multinomial com
Poisson com parâmetro X Em um determinado tempo I, produz-se k
uma voltagem. multiplicando o número de partículas que já en- parâmetros p 1, ... , Pk e 11, onde Pi :2: O e L Pi = I, se
traram no contador por um fator que é independente desse número i I
e que tem densidade:

P(~ = ub .... Jdl = . -, .~~·-' c, p~' p~' ... p{'.
={(I~
ll·h .... )k.
2, x;:::O
j(x) x)
para toda escolha de j 1, ... , .ik inteiros não-negativos tais que
o ' x <O. k
Ache a probabilidade da voltagem produzida ser menor que I.

L .it
f'= I
= n.
182 Probabilidade: Um curso em Nfvallntermediário
1 Distribuiçio e Esperança Condicionais 183
(a) Prove que X;- b(n, p;), i= I, ... , k. (b) Se T,. + 1 é o tempo transcorrido entre a n-ésima chegada e a
(b) Sejam O < s 1 < s 2 < ... < sk = t. Mostre que no processo de chegada número n + 1, qual a distribuição de T,. + 1 ? Deter-
Poisson, dado que X,= n, a distribuição condicional de mine a distribuição de W, = tempo que transcorre entre o
(X.,, X,, -X,,, ... , X,- X,k- ) é multinomial com parâmetros instante t e a próxima chegada.
-
·- nao (c) Mostre que Z, + W" o tempo entre as chegadas que "cercam"
-s 1, s 2 -st , ... , 1- - - e n. (N ote que essa d'1stn"b mçao
sk-1
t t t o instante t, é estocasticamente estritamente maior que T,. + t>
depende do parâmetro À. do processo.) i.e., P(Z, + W, ~ x) < P(T,. + 1 ~ x) Vx >O. (Esse é o "paradoxo
8. Uma exposição funciona pelo periodo de T horas. Visitantes do tempo de espera".)
chegam à exposição segundo um processo de Poisson com taxa
13. Seja X" X 2 , .. • uma seqüência de variáveis aleatórias inde-
À. visitantes/hora. Os visitantes permanecem na exposição até
pendentes e identicamente distribuídas tendo distribuição ex-
o fim do período. Calcule o tempo médio total gasto pelos visi-
tantes na exposição. (Sugestão. Dado que chegou um só visitante
durante as T horas, qual a média do tempo que ele permanece
ponencial com média T' onde À. > O. Para t > O fixo, seja
n
na exposição?) N = max {11 ~O: s. ~ t}, onde S 0 =O e s. = L X;, de modo que
i=l
9. Suponha que o número de passas num bolo inglês tenha distri-
N é o índice da última soma parcial menor ou igual a t. Mostre
buição de Poisson de parâmetro 60. Um jogador compra um bolo,
que N tem distribuição de Poisson com média À.t. (Sugestão. "Mer-
tira todas as passas uma por uma e reparte as passas entre ele e
gulhe" a seqüência no processo de Poisson.)
você da seguinte maneira: depois da extração de cada passa ele
joga uma moeda equilibrada, dando à passa para você se der
cara, comendo ele mesmo a passa se der coroa. Qual a distribuição §4.2
de número ·de passas que você recebe? A esperança ?
14. Suponha que Y possua densidade /r(Y) e que a distribuição con-
10. Sejam X e Y independentes tais que X- b(m, p) e Y- b(n, p).
dicional de X, dado que Y = y, possua densidade j(x Iy), para
Obtenha a distribuição condicional de X dada X + Y. Como se
todo y (ou pelo menos para "quase todo" valor possível de Y).
chama essa distribuição '?
Demonstre que·
li. Duas fontes radioativas, I e li, emitem partículas (independente-
mente) segundo processos de Poisson com. respectivamente, pa- /(x, y) = /r(YÍ /(x Iy)
râmetros i. e Ç. Seja Z, o número total de partículas emitidas até
o instante t. para t >O. Dado que Z, = k, onde k > O. qual a pro- é a densidade conjunta de X e Y. (Observação : foi provado no
babilidade condicional da última partícula emitida antes do instan- caso III que j(x Iy) = f(x, y) se existe uma densidade conjunta,
te r ter sido da fonte I '? ' (A resposta é igual à do exercício 6(b). /r(Y)
Um possível método de verificação : use o exercício 16(c) doCa- de modo que a distribuição conjunta determina /r(Y) e j(x Iy).
pítulo I, com A. o evento "n partículas emitidas até o instante t Este exercício diz que /r(Y) e j(x Iy) determinam /(x, y).)
pela fonte 1".) 15. Considere o seguinte experimento de duas etapas: primeiro, es-
12. Considere um processo de Poisson com parâmetro i. > O. colhe-se um ponto x de acordo com a distribuição uniforme em
(a) Para t > O fixo, seja Z, o tempo transcorrido até o instante t (0, I ); depois, escolhe-se um ponto y de acordo com a distribuição
desde a ocorrência ("chegada") imediatamente anterior. (Z, = t uniforme em (- x, x). Se o vetor aleatório (X, Y) representar o
se não houve nenhuma chegada e.m (0, t].) Calcule a distri- resultado do experimento, qual será a densidade conjunta de
buição de Z,. (Note que essa distribuição é aproximadamente X e Y? A densidade marginal de Y? A densidade condicion;:tl
I. exponencial quando r é grande). de X dada l'? (Sugestão. Exercício 14.)
Distribuiçlo e Esperança Condicionais 185
16. Observam-se duas lâmpadas durante suas vidas úteis. Suponha v X' _ . = {P(Z E B I X = x) se x. E,;. A4
E/1 1
1
P(Z E B, '" x)
as vidas independentes e exponenciais de parâmetro X Sejam X
-
0 se x 'F . .
o tempo de queima da primeira lâmpada a queimar c Y o tempo l

de queima da segunda a queimar (X::;; Y). (b) Mostre que se P(Z E B I X= x) 2: para todo x E A , então
2
(a) Qual a distribuição condicional de X dada Y')
(b) Qual a distribuição de Y dada X?
17. Suponha que (X, Y) possua distribuição uniforme em A, onde
(c) Sejam X e Y independentes tais que P( }' 2: 0) 2: Demons-
A é uma região de área positiva. Mostre que a distribuição con- 2
dicional de X dado que Y = y é uniforme em A.., a secção de A
por y, onde definimos A,= { x : (x, y) E A}. tre que P(X + Y 2':: a I X 2':: a) 2':: ~ .
18. Demonstre que se P(X E B I }' = y) = P(X E B) para todo B E Jd 24. (a) Seja X= (X 1, .. . , X") um vetor aleatório com densidade
e y E IR, então X e Y são independentes, de modo que X e Y são f(x 1, .~•• x"). Use o princípio da preservação de chances re-
independentes se, e somente se, a distribuição condicional não de- lativas para obter f(x 1 , ... , xk Ixk+ 1, ... , x"). a densidade con-
pende do valor de Y (Sugestão. Mostre que a função de distribuição dicional de (X I• ... , Xd dado que (Xk+ I · ... , X nl = (xk+ I • ... , Xnl-
conjunta fatora .) onde I ::;; k::;; n - L (Não é preciso demonstrar formalmente.)
(b) Sejam X 1• X 2 e X 3 independentes com distribuição comum
§4.4 U[O. 1]. com X I II· x(ll e xi3 J as estatísticas de ordem. De-
termine a distribuição condicional de Xw dadas XIII e xt3J ·
19. Seja X uma variável aleatória com densidade f(x), onde f é con-
tínua. Qual a distribuição condicional de X dada I X I? Verifique 25. Sejam X 1. . . . . X" variáveis aleatórias independentes e identica-
sua resposta. (Observação: a hipótese de continuidade de f não mente distribuídas. com distribuição contínua F Seja X = max X i·
1 ::O i·; n
é necessária. Tenk verificar a Relação 4.1 sem essa hipótese.)
2
(a\ Mostre que para todo k =I, 2, .. ., 11.
20. Sejam X e Y independentes, cada uma com distribuição N(O. a ).
(n- I) F(x)
Qual a distribuição condicional de X dada ..jX + Y ') (Suges-
2 2
se x < t
tão. Exemplo 10 c o princípio da substituição.) Determine P(X. :s: x i X=t)= 11F(l) ·
[
E(X I"' xz + }'2)_ . I , se x 2: t.
(Suyestão. x"- y" = (x- y) (x" - -r x" - y + .. . + xy" - + y" - ). )

1 2 1 2
21. Explique como as soluções nos casos I e 11 do li4.2 podem ser
consideradas conseqüências do princípio da preservação de (b) Suponha F diferenciável. Existe densidade condicional no
chances relativas. item (a)'?
22. Sejam X e Y o mínimo e o máximo de duas variáveis aleatórias

independentes com distribuição comum exp(i.), onde ;_ >O. Mostre
de duas maneiras que Y- X I X- exp(/.):
(a) A partir da densidade conjunta de X e Y- X . 26. Prove: se X é constante quase certamente, i.c., P(X = c)== L
(b) Utilizando o princípio da substituição e o resultado do exer- então P(X = c I Y = y) = 1. (Sugestão. Use a Relação 4.1.) Deduza
cício 16(b). a propriedade EC2.
23. Sejam X e Z variáveis aleatórias em (Q.w. PJ. 27. Sejam X e Y variáveis aleatórias tais que EX <
2
.y_ e EY 2 < y_ .
(a) Mostre que para A e B borelianos, Demonstre que Cov (X, Y) = Cov (X, E(}' I X)).
186 Probabilidade: Um curso em Nível Intermediário Distribuição e Esperança Condicionais 18 7
2
2!\. Suponha que X e Y possuam densidade conjunta \ >O, a distribuição condicional de Y dado que X = x é L'[O, x ]
.
I ,
, se x· +
,
1·· :;:; I
Em outras pala nas. X ~ cxp ( ~) e Y IX = x -1 U[O. x 2
J.
f (x, I') = n ·
(a) Qual ~ a distribuição de Z = Y;X '?
2
{
O , caso contníno. (b) Calcule EX, EY c Cov IX. }').
(a l Ache a distribuição condicional de r dada X. Calcule E( Y i X). y,_ Sejam X c }' variáveis aleatórias tai~ que } tem esperança finita.
(b) X e }' são independentes? Por quê'? (a) '\.1o~,trcque a variãncia condicional de Y dada X, como de-
(c) Prove que X e }' são não-correlacionadas. (Sugesliio. l'sc o finida no exemplo 14, é a variância da distribuição condicional
exercício anterior.) (b) Demonstre que Var Y = E[Var( Y! XJ] +V ar [EO'I Xl], i.e.,
29. Seja X uma variável aleatória. Cauchy-padrão. a variância de Y é a soma da esperança da variància condi·
(a) Conforme a Definição 4.3, qual é E( X !1 X I~' y)' 1 cional e a vari:mcia da esperança condicional (Para simpli·
(b) Deduza que E[E(X i IX!l] = O. ficar a i.kmonstração, podt.: supor que a variância de Y seja
(c) A propriedade basica E[ E( X I n] = EX não vale nc~)SC caso. finita. J
Existe uma contradição nisso'! 37. Sejam .\· e )' variáveis alcatorias com segundos momentos finitos,
30. Se X;::. O, ocorre que EX= E[E(X j } ' ) ] sem a hipótc~e de in-
,: seja Z uma outra va;·i:.'11·ci alcatc)ria. Demonstre a seguinte fór·
tegrabilidade de X (se EX = + Y. • então E[ E( X I })] c= , . f.. mula:
também). PrO\e esse resultado quando X e }' são discretas. Cu\ t.\.}) = E;Cov (( .\.·, }')] ZJ; + Cov (E( X' L), E( l: ZH
31. O número de acidentes que ocorrem em certa fábrica em uma omk Cm (IX. }) I LJ ~~~E( X} .! ZJ - E(.\ I ZJ E( Y I' Z).
semana é uma variável aleatória com média fl e variüncia rT 2 .
~~\. Suponha qw: em um temporal, o número X de gotas de chuv,J
Os números de indivíduos feridos nos diferentes acidcnlé,; são
que caem no IMPA durante um segundo tenha distribuição de
independentes c identicamente distribuídos com média :: c vari-
Poisson com parümetro i. >O, onde /. representa a inten.>idadc
ância r 2 , e são independentes do número de acidentes. D~tcrmine
de chuva. Suponha que o parâmetro i. seja uma variável aleatória
a média e a variância do número de indivíduos feridos em uma
que tcnhü distribuição gama com par[tmctros 'Y. >O c [3 = L i.e ..
semana. (Sugestão. Use o exercício 30. J
que sua densidade seja dada por
3~. Calcule E(XI21 i XIII'
xi31J' onde XII>· xl21 e xl31 são as estatística~
I .,
de ordem de uma amostra aleatória da U[O, I]. (Veja o exercíci.o
24(b).)
IW = r~'Y.J /.
{
i.< o.
33. Seja X uma variável aleatória com distribuição exponencial de
(a) Mostre que
parâmetro I. Seja 1 >O fíxo. Ache E( X I max (X, 1)) e E( X! min(X, 1)).
34. Mostre que se X e r são variáveis aleatórias, então P(X = kl = r(~;~~~ I) ( ~ )b', k =O, L 2, ...
F u(x. y) .:S: v Fx(x) F y(y).
(b) Usando métodos probabilísticos, demonstre que
(Sugestão. C se indicadores e Cauchy-Schwarz.)
f
.:..... (k + n - 1) -,kI -- _..,, , para· n -- I , 2, ....
35. Seja (X, YJ um vetor aleatório bidimcnsional. Suponha que (i)X • I ' I! ~
I
tem distribuição exponencial com parâmetro c (ii) para cada (Sugestiio. Calcule a esperança de X de duas maneiras diferentes).
2
-r-
Jl). Calcule E( X k i X = 1 J no exercício 25. CAPÍTULO V

40. Determin~.; EíX i }') e E(} I X) no exercício 15. (Você pode de-
terminá-las só olhando para a densidade conjunta')) Calcuk
Cov (X, nX c }' são independcnk';' 1 A LEI DOS GRANDES NÚMEROS
41. Seleciona-se ao acaso (i .c .. conforme a distribuição uniforme)
um número entre O e I. Se x é o número selecionado, lança~se 11
vezes (independentemente) uma moeda com probabilidade x de
dar "cara". Seja }'a variável aleatória que representa o número
de caras lançadas. § 5 .1 Introdução às Leis Fraca e Forte dos Gran-
(a) }' é variável aleatória discreta ou contínua '1 des r\lúmeros
(b) Calcule a esperança e a variância de r
42. (a) Demonstre que se X c Y são independentes. então A idéia em que se bas~::ia a Lei dos Grandes Números já foi abor-
dada no Capítulo 3. para o caso discreto (mas a idéia é a mesma para
P(X < }) = r·
. '
(I- F 1 t\})dF\L\l o caso geral): consideremos certo experimento básico, com a variável
aleatória X representando o valor de um característico numérico do
resultado. Pensemos na realização deste experimento 11 vezes (11 grande).
(bl Sejam X c }' indepcndenks. X exponencial dc parúmetro i. e }' de tal maneira que as realizações sejam independentes. Suponhamos
uniforme em lO. i.]. onde i.> O. Calcule PtX < Y). P(X > }') que depois de cada "ensaio" do experimento registre-se o valor do
e P(X = }'). caract.:rístico numérico do resultado; chamemos esie valor um ohser-
43. Fregueses entram em um supermercado conforme um processo radn. Em linguagem informal. usada às vezes na Estatística Aplicada.
de Poisson com parúmctro i.. Há luz no supermercado enquanto diz-se que os 11 observado formam "uma amostra aleatória da variável
não queima um fusível instalHdo no tempo 1 =O. e cuja vida útil aleatória X" ou "n observações sobre a variável aleatória X". A Lei
T tem di_stribuição exponencial com parúmetro ~· Qual o número dos Grandes Números afirma que a média aritmética dos 11 valores
esperado de fregueses que entram no supermercado enquanto observados é aproximadamente igual a EX quando n é grande: de
há luz'? (Suponha T independente do processo de Poisson .) fato. ela afirma que esta média aritmética das observações co11rerge.
em certo sentido. para a média EX, quando n-> x..
Tratemos agora d.: construir um modelo para o experimento re-
petido que contemplamos acima. É claro que o experimento que
consideramos é um exemplo de experimento composto. pois consiste
em realizar 11 experimentos sucessivos, a saber, 11 ensaios independentes
do experimento básico. Para experimentos desta natureza, um resul-
tado possível é uma seqüência de 11 resultados possíveis do experimento
básico. Portanto, se nu é o espaço amostrai do experimento básico.
então o espaço amostrai para o experimento composto é o conjunto
de seqüências de extensão n de elementos de no. i.e.,
n, = :(I'Jl, ... , w.): lO; Enu. i= L ... , n:.
OU seja, n, é O t'.\{)(1~'0 produto no X ... X no = n;;. O produto cartesiano
de no consigo mesmo n vezes.

190 Probabilidade: Um curso em Nivellntermediári<' A lei dos Grandes Números 191
Mas não é exatamente 0, em que cstam(h interessados para fazer

em 11 ensaios converge para EX(=EX 1 ) quando n-+ :~:_,temos a se-
nosso modelo, pois na realidade estamos considerando um experimen-
guinte versão da Lei dos Grandes Números em termos de variáveis
to global que consiste em realizar 11 ensaios do experimento, para n
aleatórias:
grande, e depois passar ao limite! para aplicar a convergência afirmada
Se X 1 • X 2 , ... são independentt:s. identicamt:nk distribuídas c
pela Lei dos Grandes Números. Por isso. o espaço amostrai do expe-
integráveis, então
rimento global consiste na~; seqüéncias infinitas dt: elementos de !1 0 , i.t:.,
Q = :(oJI• (1)2· ... ):("I; E n(l·

J<)
i= J. 2, ... : .x'l + ·_··_+_X~ -> EX I .
= no X nu X ... = n(~ . 11
Aqui, w" é o resultado do n-ésimo ensaio do experimento básico. (0 tipo de convergência será visto adiante.)
Não vamos completar o modelo probabilístico para o experimento
globaL pois utilizaria conceitos da Teoria da Medida t: fugiria dos EXEMPLO I. Se você jogar uma moeda honesta n vezt:s, indepen-
propósitos deste livro. (Poderíamos comph:tar o modelo utilizando dentemente, e contar o número de caras obtidas. sn
para .w a a-álgebra produto t: para P. pda hipótese de indept:ndência
então ~" , a freqüência relativa de caras, convergirá para I í2 quando
dos ensaios. a probabilidade produto. O ícitor interessado pode con- 11
sultar qualquer livro mais avançado de probabilidade, tal como Feller 11 _,x. Esta conseqüência da Lei dos Grandes Números é bastante
[9]. ~1\'.6. Para uma di~cussào mai:. dcmcntar. no caso discreto. veja intuitiva c todo mundo a aceita sem maiores problemas. E claro que
Feller [8].. ~\'.4. é conseqüência imediata da dt:finição de probabilidade como limik
Já que vamos registrar um ct:rto característico numérico do re- dt: freqüências relativas, mas essa dt:finição não é a adotada por nós:
sultado do 11-ésimo ensaio, para todo 11. estart:mos registrando os va- Portanto, vejamos agora que este resultado realmente decorre da Let
lores de uma seqüência de variáveis akatórias. Com efeito, como dos Grandes Números enunciada acima.
X(w 0 ) representa o valor do característico numérico do resultado do O espaço amostrai do experimento global é o conjunto de se-
experimento básico k!u E 0 0 ), então, quando o resuliado da seqüência qüências infinitas de caras e coroas:
de ensaios for w = (í'J 1 , uJ> ... ). os valores observados st:rào X(rnd.
Xlw 2 )•.... É t:onveniente representar por X" o observado do n-ésimo
ensaiO. Assim, X" é função do resultado uJ do experimento global. com
X"jeJ) = X(w").
O característico numerico do resultado básico (c m1 c~) em que estamos
interessados é o indicador da propriedade de ser cara, i.e., X (c)= L
e no decorrer do experimento serão registrados os valores das variáwis X(c~) =O. Portanto, com X "(w) = X(w"), temos X"= I se, e somente
aleatórias X 1 , X 2 , .... Notemos que X" tem a mesma distribuição se, o n-ésimo lançamento dá cara (com X"= O se dá coroa). Em outras
de X, pois trata-se dt: uma seqüência dl: repetições do mesmo expe- palavras, a variável aleatória X" é o indicador do evento "'cara no
rimento. n-ésimo lançamento". .
Como as X" dependem de ensaios independentes, elas são inde- Como a moeda é honesta, Xn tem distribuição binomial com
pendentes. Como têm todas a mesma distribuição, são idellticamellte parâmetros 1 e 1/2: X- b(l, 1/2). Recordemos que os lançamt:ntos
distribuídas. Na literatura de Probabilidade. é comum dizer que X 1 , da moeda formam uma seqüência de "'ensaios binomiais" ou "'ensaio~
X 2 , ... são i.i.d. (independentt:s c identicamente distribuídas. Recor- de Bernoulli": a variável aleatória X" é, portanto, o indicador de
demos que são independentes, por definição, se X 1 , ... , X" são inde- "'sucesso" no n-ésimo ensaio, e S" é o número de sucessos nos pri-
pendentes para todo n ~ 2.). Se X 1 é integrávcl. então todas elas o são, meiros 11 ensaios. (F oi Bernoulli quem provou a primeira Lei dos
pois possuem a mesma distribuição, e EX" = EX 1 Vn. N~:ste caso. Grandes Números. justamente para ocaso de ensaios binomiais. Veja
como a Lei dos Grandes Números diz qut: o valor médio observado o Corolário do Teorema 5.1.)
~
~'
111
192 Probabilidade: Um curso em Nlvellntermediário A Lei dos Grandes Números 193
(j
Então, X 1 , X 2 , ••• compõem uma seqüência de variáveis aleató- Notemos que convergência quase certa é convergência pontual.
I~
., rias independentes e identicamente distribuídas, com esperança comum
EX" = I /2, e a Lei dos Grandes Números diz que
com probabilidade I - costuma-se dizer que Y.(w) converge para Y(w)
para "quase todo'' (1). Interpretando (!)E n como um resultado possível
,; de um experimento, a seqüência Y.(w) de característicos numérícos
s. X..L± o o o + X_!!_ -+ EX I de w converge para Y(w) para quase todo resultado w do experimento.
11 11 2 quando Y.-+ Y quase certamente.
No exemplo I (lançamentos de uma moeda honesta), as variáveis
Observação. De um modo geral, na Teoria da Probabilidade o espaço aleatórias Y, = ~· formam uma seqüência de característicos numéri-
amostrai em si é de menor importância que as relações
entre as variáveis aleatórias consideradas. Isto vale porque as procos do resultado do experimento, pois se w = (w 1 , w 2 , •• • ) é uma se-
priedades de variáveis aleatórias são determinadas por suas distribui- qüência de caras e coroas (um resultado possível), então Y.(w) = I fn x
ções, inclusive distribuições conjuntas, independentemente do espaço (número de c's entre w 1 , ••• , w.). Será conseqüência da Lei Forte dos
amostrai no qual as variáveis são definidas. No exemplo I, o impor- Grandes Números que Y.-+ 1/2 quase certamente.
tante é que X 1 , X 2 , •.. são independentes e identicamente distribuídas Por outro lado, convergência em probabilidade não diz respeito
com distribuição comum b( L I /2). Poderíamos ter chegado imediata- à convergência pontual - apenas afitma que para valores grandes de
mente a essa seqüência sem ter passado pelo espaço n, através do 11 as· variáveis Y, e Y são aproximadamente iguais com probabilidade
'l seguinte argumento : bem alta. Convergência em probabilidade é mais fraca que conver-
Se X" é o indicador de sucesso (cara) no n-ésimo ensaio, então gência quase certa, já que
~ decorre diretamente das hipóteses (a moeda é honesta e os lançamentos
(.
convergência quase certa= convergênCia em probabilidade,
independentes) que as X n são independentes e identicamente distri- convergência em probabilidade =f convergência quase certa.
•
f
buídas. com x.- b(l , 1/2 ).
PR OPOSIÇÃO 5.1. Se Y.-+ Y quase certamente, então Y.~ Y.
A questão óbvia agora é a seguinte: de que tipo é a convergência Prora. Suponha que Y.-+ Y quase certamente e seja c >O fixo. Pre-
•.: afirmada pela Lei dos Grandes Números ? A resposta que será dada cisamos provar que
neste capítulo: convergência em probabilidade (a Lei Fraca de Khint- P<l Y.- y I;;::: f.)-+ o.
chin) e convergência quase certa (a Lei Forte de Kolmogorov). Con-
li sideremos, portanto, as definições dos dois tipos de convergência. Seja A 0 = {w: Y.(w)-+ Y(w)] . Por hipótese, P(A 0 ) =I. Para todo
I Sejam r. Y1 , Y2 , .•• variáveis aleatórias definidas em urn mesmo w E A 0 , I Y.(w)- Y(wll <c para todo n suficientemente grande. Seja
espaço de probabilidade (Q, .r;l, P) . A. o evento "para todo k ;;::: 11, l lk - Y I < r.", i.e.,
•
I D EFINIÇÃO 5.1. Y. converge para Y em probabilidade se para todo
A.= n [IYk -
'X
Y l<c ].
k =n
r c >0.
Se wEA 0 , 'então wE A. para algum n. Mas A. C An + l • logo
f Pli r. - y I ;;::: f. ) -+ o quando 11 -+ X o
A0 C U A. = n-tlim?' A •.
n ~ l
Notação. }'~.!.. Y
Portanto, I = P(A 0 )::;; P( U A.) e, por continuidade de probabilidade.
I' n? I
DEFI N IÇÃO 5.2. l;, converge para Y quase certamellte se PO;,-+ Y P(A.) i I.
• quandon-+ w ) = l.i.e.,sc oeventoA 0 = Y,,(w)-+ :w: Mas A. c [IY. - Y l<r. ], Jogo P( IY.- Yl <cl-+1 e P(IY. - Yl :<::
• -+ Y(w)J é de probabilidade I. ;;::: c)= I - P<l Y. - Y I <e)-+ O. D
•
•
-
t;
• 194 Probabilidade: Um curso em Nível Intermediário A Lei dos Grandes Números 195
• EXEMPLO 2. Uma seqüência de variáveis aleatórias que converge Dizemos que X 1, X2• ... satisfazem a Lei Fraca dos Grandn
• em probabilidade e não quase certamente. i\' úml·ro., se
'
f:
Seja X uma variável aleatória com distribuição uniforme no in-
tervalo [0. I]. e coloquemos os intervalos binários básicos de [0. I J
na seguinte ordem:
S., - ES,
11
-+ O em probabilidade,
t ou.. equivalentemente, s.:

/ 1 = [0, I]. / 2 = [0. I ;2]. I 3 =[I /2. I], / 4 = [0. I .A], .... / 7 = [3/4, I],
f
I~= [0,1/8], .... P(! x 1 + ... + """- (~~x 1 + .._._-+: .I:~,J I~ 1:) _..o. v,:> o.
11
de maneira que para m =O. L 2.... c i= O, L .... 2"'- L temos
Dizemos que X X 2 .... satisfazem a Lei Forte dos Grandes Nú-
I 1•
l f,.,
2 +1
·=[i_2m' i-i-IJ
2m ·
lllt'ros se
S, -- ES,
I -+O quase certamente.
Então os 2"' intervalos de comprimento I /2" cobrem o intervalo ll
l
[O, I]. ao mesmo tempo que seu comprimento fica cada vez menor. ou. eq uivalcn1emente. se
• Definamos l;, igual ao indicador do evento [X E:/,], ou seja,
I
I
y
"
={I se X E/,
O se X rfc 1,.
(X 1 - EX,)+ (X2 ~EX z) -r ... + (X,- E_X,,)_-+ O quase certamente.
11
Pela Proposição 5.1. se a seqüência X 1 • X 2 .... satisfaz a Lei

I
A seqüência } 1 , Y2 .... converge em probabilidade para a variável Forte, então satisfaz a Lei Fraca (logo a Lei Forte é realmente mais
I aleatória constante r= O. pois. se O< 1: s L "forte").
I Em termos intuitivos. este conceito mais geral da Lei dos Grandes
Números pode ser expresso assim: uma seqüência de variáveis alea-
I e esta probabilidade. que é igual ao comprimento de 1,. converge tórias satisfaz a Lei dos Grandes Números se, quando n é grande, a
t para zero quándo 11-+ y_. (Se 1: > L é impossível que [ l;,- O! ~ 1:, logo média aritmética dos primeiros 11 observados é aproximadamente igual
P(i }~-OI~ 1:) = P(0J = 0.) à média aritmética das suas médias (esperanças). ou seja. S,;n é apro-
'
I
Por outro lado. }~ não converge quase certamente para zero.
De fato. não converge em ponto algum: pois qualquer que seja o valor
ximadamente igual a ES,
11
E)( 1 + · :_· EX!2.
ll
de X, este valor pertence a um ou dois dos 2" intervalos de compri-
I
mento I 2", para todo n Logo. se r•J E n. }~(ti)) assume o valor I para
•
I
um número infinito de 11's, assim como assume o valor O também
para um número infinito de n's. Portanto. }~((f)) não converge. para
Ohserra~·ào. Se as variáveis aleatórias X, têm a mesma média finita
Jl, então elas satisfazem a Lei Fraca (ou Forte) se. e so-
cada (f) E fl.
I mente se. S,-+ 11 em probabilidade (ou quase certamente). Isto vale
11
• Agora formularemos a Lei dos Grandes Números de uma ma- .

pots neste caso
ES,
- = fi. e S,- p-+ O em probabilidade (ou quase cer-
•• neira mais geral do que foi feito no início deste capítulo:

Sejam X 1 , X 2 , ... variáveis aleatórias il1tegráPeis em (0, .rd, P), e tamentc) se. e somente se,
ll n
sn-+ fi em probabilidade (ou quase certa-
sejam S 1 • S 2 , ... as somas parciais, definidas por S, = X 1 + ... + X 11 • 11
• (Notemos que S 1 , S 2 , ... também são variáveis aleatórias em (O,.ci, P).) mente.)
•
•
196 Probabilidade: Um curso em Nível Intermediário A Lei dos Grandes Números 197
TEOREMA 5.1. (Lei Fraca de Tchebycher). Sejam X 1 , X 2 , ••• variáveis ou, equivalentemente,
aleatórias independentes 2 a 2 com t•ariâncias finitas
e unfformemente limitadas (i.e., existe c .finito tal que para todo n, s,
---+
p
p. o
Var X n::;;; c). Então X I ' X 2• . .. sati.vàzem a Lei Fraca dos Grandes n
Números: A hipótese de variâncias finitas foi eliminada por Khintchin, que
S - ES P conseguiu provar a Lei dos Grandes Números no caso de variáveis
-"---,-"-__.O. independentes e identicamente distribuídas, supondo apenas integra-
n
bilidade :
Prora. Precisamos mostrar que para e >O,
TEOREMA 5.2. (Lei Fraca de Khintchin). Se X~> X 2 , ... são indepen-
dentes, identicamente distribuídas e integráveis, com
média comum J1, então
n
!>_,_-+ J1 em probabilidade.
Como Var S, = Var(X 1 + ... + X,)= L Var X; ::;;; nc. a desigualdade de 11
i= I
Tchebychev implica Prova. Omitida, pois o teorema já não tem muita importância (é con-
seqüência da Lei Forte de Kolmogorov). Porém, o método de
prova (truncamento) utilizado por Khintchin, aparentemente introdu-
zido por Markov, será usado na prova da Lei Forte. O
Obserl'açào. Pela Proposição 3.6, basta que as X, sejam rião-correla-
cionadas em vez de independentes 2 a 2.
COROLÁRIO. (Lei dos Grandes Números de Bernoulli, publicada em § 5.2 Seqüências de eventos e o Lema de Borei-
Ars Conjectandi. 171 3). Consideremos uma sequência Cantelli
de ensaios binomiais independemes, tendo a mesma probabilidade p de
"sucesso" em Gada ensaio. Se S, é o . número de sucessos nos primeiros Neste parágrafo, consideraremos o lema de Borel-Cantelli, uma
11 ensaios, então ferramenta das mais úteis na Teoria da Probabilidade e uma peça
sn -+ p em probabilidade.
importante na prova da Lei Forte.
Se A 1 , A 2 , .. • é uma seqüência de eventos, i.e., se A, c n para·
11
11 = I , 2, ... , o limite superior da seqüência é definido por
Prora. Seja OC· 0:
X
"
= {I se o 11-ésimo ensaio é sucesso
O se o n-ésimo ensaio é fracasso.
lim sup A,
n-+ rr.
= () U Ak;
n=l k = n
o limite inferior é, por definição,
lim inf A, "' ()

= U "' Ak .
Então X 1 , X 2 • ••• são independentes. identicamente distribuídas e in- n- oc n :::: lk=n
tegráveis, com média J1 = p. Como Var X,= p( I- p), a Lei Fraca de
Tchebychev implica que Por conveniência, costuma-se indicar esses limites por lim sup A, e
lim in f A,, deixando implícito o qualificado r "n -+ rx; ".
O evento lim sup A, é o evento "ocorrência de um número infi-
nito dos A,". pelo segundo raciocínio :
198 Probabilidade: Um curso em Nlvellntermediário A Lei dos Grandas Números 199
Se r•JElimsupA 11 , então r·JE U A~..'rln. Comli 1•Jt: U .1 1 .r•JEA,, Obsrrraçào. O item (b) não vale necessariamente sem mdepcndência.
k rl t.. 1 Por exemplo, seja A"= A Vn, onde O < ?1 ·I) < I. Então
' l:P(A 11 ) = x mas o evento [A" infinitas vezes] = A e P(A" infinitas
para algum k 1 . Mas <o E L.J Ak~ logo (!) ~ AJ..: para algun1 k:~ > k 1 .
k k, .._ I vezes)= P(A) < I.
'
Continuando, temos rtJ E U 4k, logo I"!.=: ..Jk, para algum k 3 > k 2 • Prcwa. (a) Se l:P(A 11 )< x. então I"- P(Ad--+0 qu;jndo n--+·x. Mas
1\ k_, -r j
k::;n
etc. Desta maneira obtemos uma seqüência crescenk de inteiros po- ,,
sitivos k 1 <k 2 <k 3 < ... , que dependem de r·;, tais que uJEAk,.Vn. [ .4 11 infinitas vezes] C U Ak Vn,
k.:: n
logo
Portanto. w pertence a um número infinito dos A".
Reciprocamente, st: oJ pertence a um número infinito dos Ali.
'
P( 41i infinitas vezes) ::; P ( UAk) I
k n
<.::;
k.:: n
P(Ad--+ O.
então r•; E U,I Ak. Vn,
k
de modo que 1u f lim sup A 11 • Concluímos que
Portanto, P(A 11 infinitas vezes)= O.
;t; E lim sup A 11 se. c somente se, w pertence a um número infinito dos .4 11 •
(b) Basta provar que P (.ú,. Ak) I Vn (pois [Ali infinitas vezes] ='
i\'otação. lim sup A,.= [.4 11 infínita~; vezes]. (Salientamos aqui· o t:vcntc·
"A" infinitas vezes" é o evenio "'ocorr2Lci''· dt: um número Íl' '
U Ak e a interseção de um número enumerável de eventos de
infinito dos A 11 ". Cada 4, ocorre ou não. portantc' é importante não fl l k 11
cair no erro de pcns:u em infinitas ocorrências de. por exemplo. A 1 .) probabilidade um, é também de probabilidade um). Para tanto, seja
f n-r-m
O evento lim inf A,. também tem uma interpretação intuitiva: é B,. = U A,. Então B, contém U Ak para todo m, e
k -_ n k n
o evento "ocorrência de A" para todo n suficientemente grande". Para
ver isso. note que (tJ E lim in f A 11 se. e somente se. 1•1 E ( 1 Ak para algum
k TI()
11 0= n 0 (il)), ou st:_ia. rtJ E Ak para todo k suficientemente grande (k 2': n 0 ). Logo para todo 111.
Caso lim sup A,.= lim inf Ali ·~I A. este evento é chamado limite de
A 11 e escrevemos A= lim Ali ou A,.-> A. Neste caso. P(Aii) comerge I - P(B,.) = P(B~) s P ("(in A~) =(pela independência)=
\. li
para ?(A). se os eventos são aleatórios (exercício 7 do Cap. I). de modo

que probabilidade é contínua não somente para seqüéncias monóto- = n
-n+m
k~·n
?(.4~) =
n+m
O (I
k-~,n
- P(AdJ.
nas (a propriedade P6, ~1.1 ), como também para seqüências conver-
gentes neste sentido mais geral. (E.\crcicio. Mostre que se A,. i A ou Como I - p:::; e- P para O::; p::; I, temos
A"~ A. então A ~~ lim A,..)
n· ... .o
PROPOSIÇ.~O 5.2. (Lema de Borei-Cantel/i). Sejam A 1 • Ac- ... eren-

I - ?(8 11 ) ::; If. e- PtA 'l_' pois I P(Ak)---> + 'l_ quando m--+ cJ._. Logo P(Bnl o= I
(a) Se L P(.4 11
) < I. então P(Aii infinitas rc:::es) =O.
k --"
" I Vn, como queríamos demonstrar. O

co
(h) Se L P(A 11 ) = r e os A,. sào independentes. então PtAii in/i- COROLÁRIO. Consideremos urna sequência de ensaios binomiais in-
" I dependentes com probabilidade Pn de sucesso no n-ésimo
niws l'e:::es) =, 1. ensaio. Seja X"= I se o n-ésimo ensaio é sucesso, =O se éfracaso. Então,
200 Probabilidade: Um curso em Nível Intermediário A Lei dos Grandes Números 201
.!. O, pois Vr. > O,

mie o seguinte: se i p, =
li
+ x, então P ( Í
li
X,= x) = I: por outro
Então Y,
1
Y,l ~r.)= ~c log n)
n~ n~
P(i P(Xn = e-r.tven = --+ O.
lado, se ,ti p, <X, então p <

c~1 Xn XJ) = I.
n'
Para provar que }~-i+ O quase certamente, basta verificar que
Em outras palavras. P( Y, ~c infinitas vezes)= 1 para algum c> O, pois, nesse caso, tere-
mos Y" ~c infinitas vezes, com probabilidade 1, e este evento implica
l:.p" < oc => um número finito de sucessos, quase certamente,
que Y" não converge para zero. (Formalmente, seja An = [ Y" ~c]. Se
l:.p" = ex, => um número infinito de sucessos, quase certamente.
w E [A, infinitas vezes], então Yn(w) ~c l para um número infinito de
Prova. Seja A" o eve1 to "sucesso no n-ésimo ensaio"= [Xn = 1]. Então n's, logo Y"(w) não converge para zero. Se provarmos P(An infinitas
P(Anl = Pn e • s A" são independentes. Por Borel-Cantelli, vezes)= 1, teremos P(Yn-fO) = 1.)
Os eventos [ Y" ~ c] são independentes, pois as }~ o são, e
l:.p" < x =, P(A, infinitas vezes) = O(item (a))
l:.pn = oc. =:. P(An infinitas vezes) = 1 (item (b)) .
• Mas [A" infinitas vezes] = "um número infinito de sucessos entre
• todos os ensaios" e [A" infinitas vezes]'= "apenas um número finito
se O< c :5: 1. Pelo item (b) de Borel-Cantell~ P( Y" ~ c infinitas vezes)=
llt de sucessos entre todos os ensaios". Portanto,
=1, se Ü<c:5:1.
• [A" infinitas vezes] = [r. X" = oc ],
[A. infinitas vezes]' = [r. X" < x]. O
Observação. Para completar este exemplo, precisamos verificar a exis-
• EXEMPLO 3. (Este exemplo é clássico.) Colocar um macaco diante
de uma máquina de escrever, e é razoável supor que tência de variáveis aleatórias independentes com distri-
•
Jll
haja uma probabilidade positiva, embora reduzidíssima, dele bater as
obras completas de Shakespeare sem erro. Chamar o primeiro ensaio
buição comum exp(1). A justificativa dessa existência já apareceu na
introdução deste capítulo, quando falamos de um experimento básico
de sucesso se ele realiza essa façanha, .fi"acasso quando ele faz o pri- em que podíamos observar o valor de uma variável aleatória X e
• meiro erro. No final do primeiro ensaio. que provavelmente chegará consideramos uma seqüência de repetições independentes do experi-
• logo, dar-lhe comida (para garantir a independência dos ensaios) e

começar o segundo ensaio. Continuar assim até o infinito. ·
mento, com X" representando a observação da variável aleatória no
n-ésimo ensaio. De fato, podemos afirmar a existência de variáveis
• Pelo corolário, com p, = p >O Vn, há probabilidade 1 dele escre- aleatórias independentes X 1 , X 2 , ... tendo qualquer seqüência fixa de
• ver as obras completas de Shakespeare um número infinito de vezes. distribuições. A prova disso não será dada, mas o resultado é intuiti-
• EXEMPLO 4. Para complementar o exemplo 2, exibiremos outra

vamente razoável: basta pensar em realizar uma seqüência de experi-
mentos independentes, de maneira que uma variável aleatória X" com
• seqüência de variáveis aleatórias Y" que converge em
probabilidade mas não quase certamente.
a distribuição desejadá seja observada no n-ésimo experimento. Enun-
• Sejam X 1 , X 2 , ... independentes e identicamente distribuídas, com

ciamos esta afirmação na forma de uma proposição:
• X" "' exp( l ), i.e., PROPOSIÇÃO 5.3. Sejam F 1 , F 2 , ... funções de distribuição quaisquer.
• FxJx)={~ -e-x:::~~, Então existem um espaço de probabilidade (Q,síl', P)
e uma sequência de variáveis aleatórias independentes X 1 • X 2 , ... , defi-
• nidas neste espaço de probabilidade, tais que F, é a .função dt:> distri-
• e seJa \/1" = ---
Xn para n > 1.
log n buição de X".
•
•
202 Probabilidade: Um curso em Nlvellntermediá rio A lei dos Grandes Números 203
§5.3 A Lei Forte Fazendo B4 = [_L~ J_ ;?: k infinitas vezes J, temos
As provas desta seção são de natureza mais ou menos técnica c

poderão ser omitidas em uma primeira leitura. É recomendável. con-
tudo, que mais cedo ou mais tarde o leitor tente entender a prova do
Teorema 5.5 (a Lei Forte de Kolmogorov ). pois a interseção de um número enumerável de eventos de probabili-
Como mais uma aplicação de Borel-Cantelli, temos:
dade I também tem probabilidad e I. Mas o evento rl B 4 é o evento
TEOREMA 5.3. (Recíproca para a Lei Forte de Kolmogorov). Sejam k ~' I
X 1 , X 2 , • • • variáveis aleatórias independentes e iden- "J ~" l;?: k para um número infinito de n, para todo k", ou seja, é
ticamente distribuídas. Se E IX 1 I = + 'X.J, então, com probabilidade I,
a sequência
--- e' 1'I'1m1ta
... . - IX.!
o evento .. a sequenc1a
. 'fi1ca: w
. da. " (Isto s1gm E n B4 ~
n
n n .. ' .
~
IX.( -(l))-- I
------ ' . d a.)
e sequenc1a 1'J'1m1ta
não é limitada. n
Observação. A Lei Forte afirma que se as X" são integráveis, então Para terminar a prova, basta mostrar que se l X"n I é ilimitada,
§!!. converge para um limite finito (=EX 1 ) com probabili-
n então j ~.l também é ilimitada. Agora, com S 0 =O, temos
dade I. A recíproca diz que se as X" não forem integráveis, então, com n
probabilidad e 1, §..!'_ não convergirá para um limite finito.

n
Prot•a. Se E IX 1 I = + 'X.J , então IX.I e' 1·1·1m !ta .
para 11 = 1 . . . . Por t an.o.
I . ~. • se ---- ~
. da, entao -- e' 1·1·lml-
- -jS.j_
n
I~ J__) =
11
E( + 00' vk = I, 2, ....
,l e· 1·1·1m1ta
ls•.- -- •
· da (se as duas scqüencias
ta da ou -- fossem limitadas.
n
Pelo critério para integrabilida de ( §3.3 ), a sua soma também seria). Mas se n;?: 2,
I
n= 1
P (_g__J__;?: 11)-. =
k
::t:J, Vk. [§~ ::._l_L = _j~~- (n---: I)
n (n - I) 11
As variáveis X" são identicament e distribuídas, logo I n- I ls. -- ~1~ - e 1·1·1m1ta

c -1 - s -- - -- < 1, de mo do que ----
·
· da se. e somente
I
n=l
P (~I_
k
;?: n) =
n=!
I P (-l!J.
k
;?: n) =
n=l
Í, P (__I!_,J_
11
;?: k), Vk.
se,
-
_Is. L também
11 11
ISn - li_
o c. (notemos que -"- ----- • para
r
1 .orma
11;?: -· a
n n- 1
Por independênc ia das X"' os eventos A. = [I ~-·1 J;?: k são inde-
mesma seqüência que I~. i_,
11
11 ;?: I). O
pendentes, e Borel-Cantel li implica
P(l~~l;?: k infinitas vezes)= I, Vk.

Começaremo s agora a provar a Lei Forte. Primeiro, uma exten-
são da desigualdade de Tchebychev.
A Lei dos Grandes Números 205
PROPOSIÇÃO 5.4. (Desigualdade de 1\.olmogorol'). Sejam X 1 •..•• X"

rariáueis aleatórias independentes tais que EX • =O
Logo I A =
k
L" I
I
A, c
e ~ar X • < x. k = I ..... 11. Então, para todo ;, >O.

s; 2: s;I A =
k
L"
c I
s; I A.=
Es; 2: L" Es~ I A,. (5.1)

onde sk =XI+ ... + x •. k '' I
Prom. Recordemos a técnica usada na prova alternativa da desigual- Queremos substituir S~ por Sf no somatório (pois Sf 2: l- 2 em
dade generalizada de Tchebychev. que pode ser assim esque- A,. e não vale necessariamente 2: /. 2 ): o truque é escrever s;
matizada: S~ = (S, - S, + Sd 2 = (S" - Sd 2 + S~ + 2(S" - S.)S,
2: Sf + 2(S" - Sd S,.
Portanto.
Como sn- s. = x.+ I+ ... + Xn c s.IA. depende só de X I• .... x •.

~S,;, s'1
~ {sn-'
· ··1
;_.:j 2 /,- b11.: :_- ,.._-'j =-=!»
.>
as duas são funções de famílias disjuntas de variáveis independentes.
ES; 2: 1. Eit-.. ',.,, 1 = 1. 2 P(S,; 2: ;, 2 ) =
2 logo são independentes e a esperança fatora:
1 1 E[(S 11 Ski AJ E(S, - S.} E(Ski A.J.
P(IS"! 2: /.) s . , ES}, = . 2 VarS,. - Sk) =
' I. • I.
Como E(S, - Sd =O, temos
Agora queremos uma cota superior para P( max Sf 2: /. 2 ) Para
tantu. seja A= [ max S~ 2: /. 2 ]. \'amos decompor A conforme a pri- Es; I A. 2: ES~ 1A, 2: (pois Sf 2: /. 2 em A.J
t ._- k ~ "
2: E). 2 I A. = i 2 P( Ad.
meira vez que Sf 2: /. 2 : definamos
Por (5.1 ).
n
Es; 2: L 1.
k · I
2
P(Ad = i. 2 P(AJ.
11
logo
Então os Ak são disjuntos 2 a 2 e A =
k
U A.:I
I , I
P(A) s ~-2 ES~ = . 2 V ar S,. O
I. /,
TEOREMA 5.4. (Primeira Lei Forte de Kolmogoror). Sejam X 1 • X 2 • ...

rariáz,eis aleatórias independentes e illtegráreis. e su-
punha que
~· Var Xn
L., 2 < + X.
n .- I 11
I·
I'
{
I
• 206 ProbabiHdade: Um curso em Nivellntermed iário A lei dos Grandes Números 207
Então as X. satisfazem a Lei Forte dos Grandes Números, i.e., temos

X 1 + ... + X. (EX 1 + ... + EX.) O
I . - -+ quase certamente.
( n n
I
( Prova. Basta supor EX.= OVn. (No caso geral, seja Y. =X.- EX •.
t Então EY. =O, Var Y. = Var X. e as Y. satisfazem as condições
do teorema. Se o teorema vale para o caso El'~ =O, então
+Y. O quase certamente,
Y1+ ..._.:_....::.!!_-+
~_:__
n
Como
i.e.,
(X 1 - EX d + ... +(X.- EX.) O quase certamente.)
~~-_...!~-+
n
Queremos mostrar que

s
_!'_ -+O quase certamente, onde s. = X +
1
c
n "'
+ ... + X •. Para tanto, basta mostrar que n:2 " ' ' ? k
L 4" .
L 4"- n =j(k)
def ~ onde j(k) satisfaz 2iÚ<l+l ~ k > 2i(kl, temos
M" = max k -+ O quase certamente (quando n ...... oc ).
2" < k S 2" • I
, I 4 I . '(kl k 4 4 16
Provaremos isto em duas etapas : L 4" = -3 • 4j(k) ~ (pOIS .2J . ;;::::: I2) ~ -3• kl = 3k2 .
n: 1
2" • ? k
(1)· f
L..
n=l
P ( M.;;::::: - I) <
m
oc , Vm = I, 2, ... (usaremos a desigualdade Portanto,
16m 2
L"· P(A.) ~ - -
Var X
L-
'X.
-k <
2
oo (por hipótese).
de Kolmogorov). e n= I 3 k= I k
(ii) M.-+ O quase certamente (por Borcl-Cantelli).
Prom de (i). Seja m fixo. Então, para todo 11, Prora de (ii). Com a mesma notação de (i), temos P(A. infinitas ve-
zes)= O, por Borel-Cantelli. Em outras palavras, para
P
( max IS
I ;;::::: -
.EU I) ~ P ( max ISk I ; : : : 2")
- todo m fixo a probabilidade é O de que M. assuma um valor ; : : : 1/m
2"<k :S 2" ' ' k m 2" < k :S 2" ' • m infinitas vezes. Isto significa que para todo m, a probabilidade é I
de que M. assuma um valor ; : : : 1/m para somente um número finito
de n's. Fazendo
I . fi .
Bm = "M. assume um valor;;::::: - para somente um numero m1to
onde vale a última passagem pela desigualdade de Kolmogorov. Se m
definimos de n's",
A. = [ max
2U < k :S 2n + l
~- > _!__] = [M
k - m
>
ft-
_!__]
nt ~'
208 Probabilidade: Um curso em Nlvellntermediário A Lei dos Grandes Números 209
f
Para terminar a prova, basta observar que o evento Í) Bm é equi- LEMA 5.1. (Este lema será usado na prova do teorema a sc:guir.)
m I
Seja X uma wriát,el aleatória integrál'el com função de
valente ao evento [M,~OJ. Para ver essa equivalência. notemos que:
distribuição F. Então,
}\,f n 2 oe portanto: (I) E n Bm
I
~
m'- 1
n~ I
Í {-~I" 2
x dF(x)} < x.
~ Vm, M ,((I)) 2 I /m para somente um número finito de n's 11 -n
~ Vm. Os M,(w) Y~. D intervalo de integração e o extremo esquerdo não está,
COROLÁRIO. A Lei Forte é satisfeita por toda sequência de mriáreis ou seja, J"-, x 2 dF(x) = J1 _ n. , 1 x 2 dF(.x) (veja os itens 9 e I O do §3.1 ).
aleatórias indepe11dr11tes c unifórmrmelltc limitadas. o lema ainda vale quando a integral é substituída por St- n. n] x 2 dF(x),
e a prova é quase a mesma.
Prora. Se X 1 • X 2 •... são uniformemente limitadas. então existe c fi-
nito tal que IX ,.I~ c \111. Neste caso, Var X,~ EX;~ c 2 e. como Prrm1. Vamos utilizar o seguinte jàto: para j = I, 2, ... ,
as variâncias estão limitadas, a condição do teorema está satisfeita. D f I .,
L2 S~·
EXEMPLO 5. Consideremos uma seqüência de ensaios binomiais in- n • i 11 ./
dependentes, com probabilidade p,. de sucesso no n-ési- (Prova do fato: para 11 = 2. 3, ... ,
mo ensaio. Se X, é o indicador de sucesso no 11-ésimo ensaio, então
X I, X 2, ... são independentes e uniformemente limitadas X n i ~ I 11 ). (I v < -
Portanto. decorre da Lei Forte que n2 - 11(11 - I) 11 - I n
logo
P1 +- ··· + -p,. -->
-
U quase certam.:nte,
11
onde S, =X 1 + ... +X,.. Em outras palavras, a freqüência relativa de

sucessos em 11 ensaios independentes, menos a freqüência relativa
esperada. converge para zero quase certamente quando 11 ~ x. Como
Por exemplo. se você jogar uma· moeda honesta no 1." ensaio.
com sucesso igual a cara e p 1 = L2; lançar um dado equilibrado no
2." ensaio. com sucesso igual a 4 e p 2 = I 16: colocar um macaco diante
de uma máquina de escrever no 3." ensaio. com as obras completas
r 2
x df(x) =
1· ~
~
~
n +I
I}_
J I
x 2 df(x),
de Shakespeare como sucesso e p 3 = ~ (pequena mas positiva); etc .. temos

então para n grande a sua freqüência relativa de sucessos será apro-
ximadamente igual a
n
L -12 I"
f
I
{
11 ~n
.x 2 dF(x) = } L' _ Ln
no·IJ"-n+l
{ I
-i
11
il
J~l
_ x df(x)
2
} =
I /2 + I /6 + ~
11
+ + p, =
j
''{lij
L L
I n "' 1
--i .
11 1 I
.xz dF(x) ~ } f~ " f F
ÍI {~~fi
j [+ I 11 j- I
X
2
dF(x)l
f
(Com probabilidadr: I, a diferença entre estes dois valores convergirá
para zero quando n ~ x .)
~(pelo fato)~ 2 J' IJ1 1
.
1
xz
·j dflx) + 2
1
Lo
f,-I
j
~ .
\2
1 J,1 + I
~ - df(x).
21 O Probabilidade: Um curso em Nlvellntermediário A Lei dos Grandes Números 211
2
Como -'_ ::; x em U-1,j], parai 2: 1, e . ·: -::; lxi em U- l.j]. (b) -Y_1__ +__.._. _+___ }~ _ EY1 + .. _._+ _E_Y,'-~O
- ~ quase certamente ( L e-
J ,} 1
1 1 n 11
para j S: O, temos ma 5.1 e Teorema 5.4).
I~ { -12
n••1
f"
n .-n
2
x dF(x) } S: 2 I r}
f
jo1.J-1
xdF(x) + 2_
j
I() rj
.1
lxldF(x) =
nada).
(c) E + .-..- -+- -E- -Yn- - + O (pe Io T eorema da C onvergenc1a
-- Y1-----
n
' . D omJ-.
= 2it J f lxl 1
dF(x) = 2 .f." J lxl dF(x) = 2EIXI < x. 0 (a), (b) e (c) implicam o teorema pois basta somar os três termos
na interseção dos eventos quase certos de (a) e (b): sejam
TEOREMA 5.5. (A Lei Forte de Kolmoyoror). Seiwn X 1 • X 2 , ru- ...

A= lz ·+:_· ·_:
1
ll
+ z:~----> o] e B =-c [
-
Y~_ + .. ·_-f- }~ - E y 1 + · · · + ~-~' __. O~,
11 n -
riáreis aleatórias independentes, identicamente distri- então
buída.\ e integráreis, com EX,. = Jl. Então
X1+ ... +Xn
+ - X,.-----> Jl P(Al= 1, P(Bl= I, P(A r. Bl= 1 e -- - -- -• Oem A n B.
quase certamente. n
n
Prora de (a). Por dcfiniçcio, Z 11 # O-~~ }~ # X,.= X,. E ( -11, n]. Logo,
(Já vimos no Teorema 5.3 a recíproca deste teorema.)
P(Z" #- 0) = P(Xn1(-n, n])::; P(iX,.I 2: n).
Prom. Basta supor Jl O. (No caso geral. seja U,. = X,. - Jl. Então as
=
variáveis aleatórias U,. são independentes e identicamente dis- Mas os eventos A,.= [Zn #O] satisfazem
tribuídas e EU"= O. Se J f
I PL4 11 ) : : ; I (PjX"I 2: n) =(são identicamente distribuídas)=

UI+ ... + u ''- ----> O quase certamente,
"'- 1 n· 1
f
n
= L P( I X 1 ! 2: ll) <
n' l
X'
então
onde a última passagem é conseqüência da integrabilidade de X 1 .
+X,. Portanto decorre de Borel-Cantelli que P(A,. infinitas vezes)= O,
-- ----> Jl quase certamente. I
n ou seja
\'amos trzmc,lr as variáveis X,.: definamos
P(Z" # O infinitas vezes) = O.
}
"
= {X" se - n < X,. ::;
O caso contrário.
11 Isso significa
P(Z 11 # O para apenas um número finito de n) = I,
I.e., }~·= XnJ[-n<. ,\.,<nj·
Seja Z" =X,.- l~. de modo que X,.= Yn + Z,. e I. e ..
+ X,. P(Z,. = O para todo n suficientemente grande) = 1.

ll ll 11 Mas se Z,. =O para n suficientemente grande. então Z,. -• O e
A prova terá três partes:
(a ) z - +- -... -.+ Z,.------> Oquase certamenk

1 - I c· ante 11.I),
(usaremos Bore-
ll
212 Probabilidade: Um curso em Nivellntermediãrio
A Lei dos Grandes Números 21 3
"- X
= n~l ~ (quando houver duas expansÕes, tome a que termina, por
Prova de (b). Seja F a função de distribuição comum, F= F x"· Verifi-
quemos a condição da primeira Lei Forte de Kolmogorov
X
2
para as variáveis aleatórias Y•. exemplo 1/4 = 0,01 = 0,0100 ... ). Então x, + ... +x. é a freqüencia rela-
n
Como Y. =X. Jl - n<x",; "J' temos
ti va de I ' s entre os primeiros n algarismos da expansão. É evidente que
Var Y. ~ EY; = E(X; /l- n<x",;n1) = (pelo Teorema 3.1) = se x for racional binário, então x 1 + ···+ x.-+ O, pois a expansão ~'termi-
2
=fx 1< - n.nJ(x) dF(x) = f. 2
x dF(x),
n
na" e x. =O para todo n suficientemente grande (a escolha da outra
expansão implicaria convergência para 1). Mas se x não for racional
valendo a última igualdade pelo item 1O, §3.1. Logo binário?
Lrr Var Y.
--2-"- ~ Loc 1
-T
f" x 2 dF(x) < x,
Ocorre que o caso dos racionais é um tanto patológico, pois
n=l n n= l n
-n
x1 + ... +x. -+ _!___para quase todo x ("quase todo" em relação. à me-
n 2
pelo Lema 5.1. Segue-se da primeira Lei Forte de Kolmogorov que
as Y. satisfazem a Lei Forte, e (b) está provado. d1.da d e Lebe sgue, I.e.,
. .
o conjunto d os x tais
.
· que -
n
. +-x.- -1
x 1-+-..- +
2
Prm 1a de (c). É suficiente demonstrar que E}'~-+ O. Mas . N x 1 + ... +x.
tem compnmento zero). otemos que - - - - -+ - - se, e somente
1
. n 2
EY. = E(X.Jl - n<Xns nJl = (são identicamente distribuídas) =
= E(X,Jt - n<x, s nJ)-+ EX,= O, se, (1 - x d + ... + (1 - x.) -+ -1, dc mo d o que a frequenc1a
.. • · re 1ativa
· de
n 2 ·
pelo Teorema da Convergência Dominada. (0 teorema é aplicável, O's também converge a I /2 para quase todo x. Um x que tem essa pro-
pois j X,J 1 - n < x ,snJ I ~ f X 1 j integrável e X 1 / 1_n<x, s . 1-+X 1 em toda priedade é chamado de número (simplesmente) normal com relação à
parte. Notemos que [ - n < X.~ n] = :w: - n < X dw) ~ n}l O, de base 2 (x seria normal em relação à base k, para k inteiro ~ 2, se 1/k
modo que I, _ n<X, Sn)(w)-+ I 'v'w.) D fosse o limite da freqüência relativa de j na expansão de x na base k,
para j = O, 1, ... , k - 1). Provemos agora que quase todo número per-
Observação. Consideremos um evento aleatório A associado a um tencente a [0, 1] é normal com relação à base 2.
experimento E, tal que a probabilidade de ocorrência de A,
quando se realiza o experimento E, é p. Se o experimento é realizado Seja n = [0, 1], d =.sito. I)= borelianos de [0, 1], p = probabili-
independentemente 11 vezes, e se s. é o número de ocorrências do dade uniforme em [0, 1] (=medida de Lebesgue). Definamos uma
evento A nessas n realizações, então S. in-+ p quase certamente quando seqüência de variáveis aleatórias :
n-+ oc. S.Jn é a freqüência relativa de ocorrência de A nos n ensaios.
Esse resultado, um caso particular da Lei Forte de Kolmogorov e X ={O em [O, 1/2)
1
também da primeira Lei Forte de Kolmogorov (veja o exemplo 5), I em [ 1/2,. I ],
é devido a Borel, e pode ser formalmente enunciado da seguinte maneira : X ={O em [0, l/4)u [1 /2, 3/4)
2
I COROLÁRIO. (Lei Forte de Borel, 1909). Sejam X 1 , X 2 , ... indepen- 1 em [1/4, l /2)u [3/4, 1],
I dentes e identicamente distribuídas tais que P(X" = 1) = p,
(
P(X. = 0) = 1 - p. Então S./n-+ p quase certamente, onde S.= X 1 + etc. Então X .(x) = x. e é fácil ver que as X" tem mesma distribuição,
I
( + .. . + X •. com P(X. =O)= 1/2 = P(X. = n
I Além disso, elas são independentes, pois, por exemplo, P(X 1 = 1,
EXEMPLO 6. Números normais (Borel, 1909). Seja x E [0, I] e seja
O, x 1 x 2 x 3 ... a expansão binária de x, de modo que X l = lf=P([3f4, 1])= I/4 =P(X 1 =I) P(X 1. = I.). Como EX.= 1/2, de-
214 Probabilidade: Um curso em Nível Intermediário A Lei dos Grandes Números 21 5
corre d a L e1. F orte que X 1 + ... +X"- __, quase cer t amen t e. ou scp
· . finita o resultado vale para quase todo x. Como existe um número
11 2 enumerável de seqüências finitas de O's c I 's, segue-se que quase todo
x 1 + ... +x. x é inteiramente normal com relação à base 2. (Definição: se 1/2'" é o
· --- ----> I · para quase to d o x.
11 2 limite da freqüência relativa de b 1 ... bm na expansão binaria de x,
Agora perguntamos: qual o limite da freqüência relativa de "li" para toda seqüência ô 1 ... (i'" de O' s e 1's, e para todo m ;:::: I, então
na expansão binária de x? Queremos dizer: se .l'n = I quando x,. = I = dizemos que x é inteiramente normal com relação à base 2.) Para
. . qua I o 1·. r 1 + ... +l'"'l(0b ver isso. basta fazer A,,, "m = {x E [0. I]: 1.'2'" é limite da freqüência
= x.+ 1 e y,. = O caso contrano, Imite d c'""--·-······· · . serva-
li relativa de b 1 .•• Ôm na expansão binária de x}. Como P( A,, ,n,) = I
ção: se a expansão de x começa com 0,0111011 então y 1 =O, y 2 =I, Vô 1 ••. i5"' e Vm, temos P( n A,, ,J = I, logo quase todo x é intei-
y 3 = I, y 4 =0, y 5 =0, Yt.= 1.) Resposta: 114 para quase todo x! ramente normal com relação à base 2.
A prova disto é só um pouco mais complicada que a anterior: O mesmo resultado vale para qualquer base k;:::: 2: quase todo
definimos };, = X n' X"+ 1 , 11 = I, 2, .... Então as variáveis aleatórias };, x é inteiramente normal com relação à base k (i.e., a freqüência relativa
são identicamente distribuídas, com P(l> I )o= P(X,= L X n+ 1 =I)= I.A de b 1 ..• (\, tende a 1/k"' Vbi =O, I, ... ,k- I, Vj ~I, ... m, Vm;:::: 1). Se
e ?(}~=0)=3/4. mas não são inde~ndentes (por quê?). Porém. Y,. x é inteiramente normal à base k para todo inteiro k ;:::: 2, x é chamado
Y3 , Y5 , ... são independentes, como também o são }2. }~. }; ...... absolutamellle normal. Então o resultado de Borel é que quase todo
Logo x é absolutamente normal. (Não é fácil encontrar um tal x. Qualquer
racional não serve, pois a expansão se re~te. Exemplo de número
r1 + r_~ + r, -t ... + r211 i_ --> quase certamente inteiramente normal com relação à base 2: x = O,OIIIOOIOIIIOIIIIOOOI
ll 4
IOO! ! .... )
e
}2-r}~+
·· ··
...- +Y ,
·· ·· 2 · __.
I
quase certamente.
ll 4
Segue-se que
Y1+ Y.1+ ... + r211 _1 . . . . Y2 + r.. + ... + ~·211). ..... EXERCÍCIOS DO CAPÍTULO 5
2n 2 ( ll ll
. I
_... quase certamente. ~5.1
4
Como convergência da subseqüência correspondente aos números pa-
res já determina convergência de toda a seqüência (pois I. Seja A 1 • A 2 .... uma seqüência de eventos aleatórios em (Q, d, P),
com indicadores IA,• IA,, .... Mostre que P(A 11 )-->0 se, e somente
p
se, I An _... O.
., Sejam X 1 • X 2 •••• variáveis independentes com distribuição comum

Poisson (i.). Qual o limite em probabilidade da seqüência ( Y.), , 1 •
onde Yn = X i + .. · + X; ?
•
n
o resultado está provado.
Analogamente, o limite da freqüência relativa de "OI" é 1;'4, de 3. Seja (X.).~ 1 uma seqüência de variáveis aleatórias. Prove que se
"010" é 1/8, de "1101011" é 1/2 7 , etc., onde para cada tal seqüência EX"--> r:t. e Var(X.)--> O, então X"!. :x.
216 Probabilidade: Um curso em Nlvellntermediário A Lei dos Grandes Números 21 7
4. Sejam X 1 , X 2 , ... variá v eis aleatórias independentes tais que X 1 = O

Mostre que P ('-X" > I infinitas vezes) = I mas P ('- .:\',_ > 2 infi-
e para .i 2 2. xj é variável aleatória discreta satisfazendo log11 logl1
-~ se k = ± I, ± 2.... , ± i nitas vezes) = O.

P(X 1 =k)= I
2
{ I 2
se k =O. IO. (Exemplo de uma seqüência de variá veis aleatórias que converge
Prove que i quase certamente sem a convergência de momento algum.) Sejam
X 1 • X 2 , ... variáveis aleatórias tais que
Yx
L. .I
j 1 !'.o P(X, = 0) = I -
I I
, , P(X, = 11 2 ) = -2,
11' n- 11
quando11--> x,se'Y.>-~.
-
(Dado:
.
I
k' 1
k2 =.iU_+II~2 i!-Jl ·)·
6
para 11 =I, 2, ... , Demonstre que X, con•:::rge quase certamente
(ache o limite X 1. mas EX';+ EX'" quando n--> x, para todo
m = I, 2, ....
~5.2.
I I. Sejam X 1 , X 2 • . . . variá veis aleatórias.
5. Seja S uma seqüência finita de caras e coroas. Demonstre que se (a) Demonstre: se I
11"- I
P([X,[ > 11) < x, então lim sup [X,L
11
s
uma moeda não necessariamente honesta (com probabilidade de
quase certamente.
cara igual a p, O < p < I) for jogada independentemente um nú-
(b) Se as X, são identicamente distribuídas e integrá veis, demons-
mero infinito de vezes. então S sairá infinitas vezes na seqüência
obtida, com probabilidade I. tre que
lim sup -'X
1 I
- " - s I quase certamente.
6. Sejam X 1 , X 2 , ... variáveis aleatórias independentes tais que X,
11
tem distribuição U[O, u,] onde u, >O. Mostre:
(a) Se u, = 11 2 , então com probabilidade I. somente um número 12. Sejam X 1 , X 2 • . . . variáveis aleatórias independentes e identica-
finito das X, toma valores menores que I. mente distribuídas tais que X 1 - U[O, 1]. Prove que 11-x"-->Ü em
(b) Se a,= 11, então com probabilidade L um número infinito das probabilidade. mas 11-x" não converge quase certamente para O.
X, toma valores menores que I. (Sugestão para a parte quase certa: prove que ?(11- x "--> 0) = 0.)
13. Prove que para cada seqüência (X,),. 1 de variáveis aleatórias em
7. Sejam X 1 , X 2 , ... variáveis aleatórias independentes tais que (Q, .cl, P), existe uma seqüência (b,),, 1 de números reais positivos
P(X,= I)= 1;11, P(X,=O)= I -l;'n. Mostre que X,~O mas
P(X,-->0)=0. tal que X-"--->O quase certamente. (Sugestão. Mostre que para cad:1
b,
8. Observa-se uma seqüência infinita de lançamentos independentes 11 existe h, tal que P([x,[ > ~~-) < ~ 2 -)
de moedas. onde o 11-ésimo lançamento é duma moeda com pro-
babilidade p, de cair "cara". Determine a probabilidade de cara
sair infinitas vezes na seqüência observada. se ~5.3.
(a) lp, = + x: 14. Sejam X 1 , X 2 , ... independentes e identicamente distribuídas. com

(b) lp, < X. X 1 - U[O, I]. Ache o limite quase certo da média geométrica
9. Sejam X 1 , X 2 , ... variáveis aleatórias independentes e identica-
mente distribuídas, com distribuição exponencial de parâmetro I.
(Jl 1
X kY 1
". (Sugestão. Tome logaritmos.)
A Lei dos Grandes Números 219
I 5. Demonstre: se X 1 • X 2 , ... são independentes e identicamente dis- -, .. Uma massa radioativa emite partículas segundo um processo de
tribuídas, com EX 1 = I = V ar X 1 • então Poisson com parâmdro i. >O Sejam T 1 • 7~ .... os tempos trar~s
11 corridos entre emissões suc.:ssiva:;. Achl~ o lim

n+ +r;,
I
i' I
X,
f_ limite quase certo ou em probabilidadç'!
11-t f 11
I
--:======----> --;::_quase certamente
n i') ..' 1. Sejam X 1 , X 2 , ... independente~; com distribui;,:à() comum .'\'(0, li
jn L Xf v-
Qual o limite quase certo d,·
\ i 1
Xi -,- . + };·~ ')
16. Seja O< O< 1;2. Prove que se X 1 , X 2 , ... são independentes tais (X 1 ~- 1( + ... + (X, ·- I r'
que P(X, = 11°) = 1/2.= P(X, = -11 11 ), então
XI+ ... +){, o quase ' ' Sejam X 1 • X.' . ... variáveis aleatórias indq1L:ndenks tais que À, ·•
--'----~---> certamente. r· [O . f/ J• /1 = 1, -·.
L "' .. Cham~ l' n-ésim·:) ensaio de sucesso se X-,,> •
11
X 211 1 , ji·acu .. s<' Sé: X 2 , S:: X ê, 1 • pari! n = I. 2, . . Dcterr:1in,· a
17. Sejam X 1 • X 2 .... variáveis aleatórias independentes com densida- probabilidade d:: !'Javc:r st;ces·;,, no 11-ésimo ensaio e ache o limite
de comum ise exisiir) de S, n. onde S, númc:r·::~ de sucessos no:-; prin·;ciro~,
11 ensaios. Ess·:; limite l~ limite em probabilidade C/OU quac>c cato''
o-(.\
f._
o 1 2. 1 \
'.
> _ 1;'1
- /--
f(x) o= :'I. A Lei Fortepara varián:is akJtórüs indeperdcntes, idl:nticamenL.
{
0, .\ < 1/2.
c inttgrá vcis pode ser estendida ao caso de cspcr ança~.
distribuídas
infinitas. s~:
admitirmos limites infmiws Em particular. st~ X 1.
Demonstre que S,.-• +x quase certamenk. onde S,= X 1 + ... +X,.. X 2 , . . . são
independentes c iden! icamente distribuída-; tais que
l H. Sejam X 1 , X 2 • ... independentes e identicamente distribuídas com EX"= + r_. então 5 11 '/1-+ -t :r. quase certamentl~- (Compare cont
média p 1 e variáncia ai, e sejam 1'1 , Y2 • ... independentes c identi- o Teorema 53. Qual a difere'1Ça '')Prove esse resultado em 3 et<~pa~::
camente distribuídas com média 11 2 e variáncia a~. onde O< a f <·r. (a) Param inkiro positivo fixo. seja 1;, o truncamento de X,. em m
e O< a~< x. Defina-se uma seqüência de variáveis aleatórias
Z 1 , Z 2 • . • • da seguinte maneira: joga-se uma moeda honesta e . _{·x,. se
}" -· o
X,. S:: m
x· ,
define-se Z 1 = ),: 1 se dá cara e Z 1 = Y1 se dá coroa. Depois joga-se se > m.
a moeda de novo. definindo-se Z 2 = X 2 se dá cara e Z 2 = } 2 se
- }'I + + };, _:, EY1 quase certamente, onde
dá coroa, etc. (ad infinitum). Suponha que todas as X's e }''s são E ntao -
li
independentes e que os lançamentos da moeda não dependem das
X's e }"s. Explique se a seqüência Z 1 , Z > ... obedece à Lei Forte
dos Grandes Números. Se obedece. qual o limite de
- = zl
z, + ... + z,..1
11
(b)liminf "2>:
n ..... 1
s
11
I""'
.. - .1
xdF.\,(x)quasecertamente.(Sugestao:À,2':}wl
- ' .
(c)
s"-+ +:r. quase certamente. (Faça m-+ + :t_ em (b)\
19. Sejam X 1 ,X 2 • ... variáveis aleatórias independentes tais que.\.'.~ 11
~ h(n,, p), onde O distribuída~ c integráveis. Determine lim E{Xtl X 1 -J. -r >:,,i
rr ___.. r
k l
(b) Se n" S:: ".: k. mostre que a seqü~ncia satisfaz a Lei Forte. Qual o tipo de convagt:ncia '.'
Probabilidade : Um curso em Nlvellntermediá rio
CAPÍTULO VI
220
25. Seja (X nln ~ 1 uma seqüência de variáveis aleatórias. cada qual to-
mando valores O ou l. Suponha P(X 1 =I)= 1/2 e P(X. +1 =X. I FUNCÕES CARACTERÍSTICAS E CONVERGÊNCIA
I X I =X I, ... , X n = x.) = 1 -a.. para todo (X I ' .. . 'Xn). n = 1. 2..... . EM DISTRIBUIÇÃO
1 n
Faça-se Y. =-L X;. Discuta se Y. -+ 1/2 em probabilidade ou
n i=I
quase certamente quando
(a) a..= 1/2 Vn, e
(b) I:a.. converge.
26. Sejam X I' X 2 • ..• independentes tais que EX n =o Vn. Demonstre §6.1 Funções características
J:
que se L Var X.< oo. então E(sup IS.Il < 'l., onde s. = X + ...
1
Neste capítulo estudàremos o conceito de convergência em dis-
n=l n> t
... + X •. (Sugestão. Use o critério para integrabilidade do §3.3 e tribuição de seqüências dé variáveis e vetores aleatórias. Uma ferra-
a desigualdade de Kolmogorov.) menta de grande utilidade para este estudo é a função característica.
O resultado mais importante deste capítulo é que uma seqüência de
variáveis aleatórias converge em distribuição se, e somente se, a se-
qüência de suas funções características converge pontualmente para
·a função característica do limite. A definição de convergência em dis-
tribuição será dada no parágrafo 6.2; nesta seção, veremos a definição
e algumas propriedades básicas de funções características.
Embora funções características assumam valores complexos, não
· é preciso ter muita familiaridade com números complexos para poder
trabalhar com elas. Isto ficará claro durante o decorrer da discussão
desta seção. Neste capítulo, o símbolo i representará sempre o núme-
ro imaginário J'=T.
Se X e Y são variáveis aleatórias em (Q,.w', P), então Z =X+ iY é
chamada uma rariárel aleatória complexa. Notemos que Z é uma fun-
ção definida em n e que· assume valores complexos, com Z(w) =
= X(w) + iY(w) para w E Q. A esperança EZ é definida por lineari-
dade, EZ =EX + iEY, se EX e EY são finitas.
Pela formula de Euler eix = cos x + i sen x. x E IR, vemos que a
variável aleatória complexa e;x = cos X+ i sen X sempre possui espe-
·rança finita, para toda variável aleatória X, pois as variáveis aleatórias
cos X e sen X são limitadas. Assim, a esperança na definição seguinte
é finita, e garantimos que a função característica está bem definida.
DEFINIÇÃO 6.1. Seja x· uma variável aleatória. A função caracte-
. rística de X é a função cp : IR-+ C definida por
cp(t) = ({Jx(t) = Eeirx.
11
222 Probabilidade: Um curso em Nivellntermediério Funções Características e Convergência em Distribuição 223
•
I
(
onde definimos
• EeitX = Ecos( tX)+iEsen(tX), t E IR .
Prova. cos(- tX) = cos(tX) e sen(- tX) = - sen(tX), logo
• ({Jx(- t) = Ecos(- tX) + iE sen(- tX) = E cos(tX) - iE sen(tX)

= Eeirx. D
I
( Obsen·ação. Pelo Teorema 3.I (esperança de uma função de X), temos
( •
I
({Jx(t) = J cos(tx) dF x(x) + iJ sen(tx) dF x(x)
= J eitx dF x(x), t E IR.
FC4. (/Jx é uniformemente contínua na reta .
Prova. Uma função cp é uniformemente contínua, .por definição, se para
( todo e>O existe c5=c5(c)>0 tal que jcp(t)-cp(s)\ <e quando
I onde a última igualdade decorre da linearidade da integral de Stieltjes \t - s \ < éJ. Notemos que (> precisa depender apenas de e. Se uma
.
I
para o caso de integrandos complexos. A última integral acima é cha-
mada, em Análise, a transformada de Fourier-Stieltjes de F x. e fornece
função é uniformemente contínua, então é contínua em todo ponto .
A recíproca não vale: a função f(x) = x 2 é contínua na reta mas não
I
{ uma definição alternativa de função característica. Notemos que a função é uniformemente contínua. Ora,
I característica é determinada pela função de distribuição; se X e. Y são
jcp(t)- cp(s)\ = \J(eitx -eisx)dFx(x)\ ~ J \eitx- ei•xj dFx(x) =
identicamente distribuídas, então (/Jx = cp y. Mais adiante veremos que a
t = J \eisx\· \ei<t-s)x- I \ dF x(x) =
distribuição é determinada pela função característica (propriedade FC6 ).
= J\eHt -s)x - I\ dF x(x) d,1 h(t- s).
( •
~ Basta proviu que h(u)--+0 quando u--+0, pois, nesse caso, dado
Propriedades da função característica. e >O, 3 c5 > O tal que \u \ < c5 => \ h(u) \ <e, i. e., \t- s \ \ cp(t)- cp(s)\ s
li
r s h(t- s) <c.
I• Mas h(u)-+0 pelo Teorema da Convergência Dominada : h(u) =
FCl. A junção característica é limitada por I: \cpx(tl \ sI, 'v'tEIR.
=E jeiuX- I j, Os \ei~X- I \ s 2, 2 é integrável, .e lim jeiuX(wl- I\= O
Prova. O valor absoluto de um número complexo z = x + iy é I= I = u-o
= Jx 2 + yl, de modo que para todo w E n. (Tecnicamente, decorre do Teorema da Convergência
,-.--------~------
Dominada que h(u,)-+ O para toda seqüência (u,), ? 1 tal que u.--+ O.
1(/Jx(t)\ = IEeir XI = JE 2 cos(tX) + E 2 sen(tX) s (por Jensen) Logo lim h(u) = 0.) D
.-o
,, s JEcos 2 (tX) + Esen 2 (tX) = .JE{cos 2 (tX) + sen 2 (tX)] =I,
onde a última passagem usa o fato de que cos 2 x + sen 2 x = I. O FC5. Se X e Y são independentes, então cp x + r(t) = (/) x(t)· (/Jr(t) Vr E IR.
Observação. É propriedade da integral de Sticltjes para integrandos Pro!'a. Temo~

complexos que IJ g(x) dF x(xl l s J lo(x) l dF x(x). Usaremos (/Jx +r(tl = Eeit<X+Yl = E(eitXeirl·) =(pela independência)=
esta propriedade sem prová-la. Ela fornece uma prova alternativa = Ee;rx. Eeitl' = cp xU)· cpy(t),
para a propriedade FCI , pois implica que
pois a Proposição 3".5 vale também para variáveis aleatórias com-
I({Jx(t) j = \Jeitx dFx(x) \ s J \eitxl dFx(x) = plexas tais como eux e e;rr. Se você quiser, verifique o resultado usando
= J{cos 2 (tx) + sen 2 (rx)} 112 dFx(x) =I. seno e co-seno, como na prova da Proposição 6.2 adiante ( §6.3). D
FC2. A junção característica assume o valor I no ponto 0: ({Jx(O) = I. Observações. (l) Essa propriedade implica que o produto de duas
Prova. (/Jx(O) = Eei·o·x = EI "= I. O funções características também é função característica.
De fato, se X e Y são variáveis aleatórias, então (/Jx· (/Jr é a função
FC3. ({Jx(t) = ({J x(- t), onde c é o complexo conjugado de c. (Se c= característica de uma variável aleatória Z cuja função de distribuição
= x + iy. o seu complexo conjugado é c= x- iy.)
é a convolução F X* F Y· Como a função característica determina a
'
224 Probabilidade: Um curso em Nlvellntermedlário Funções Caracterf1tlcas e Convergência em Di1tribulçlo 225
t
(
distribuição (veja a propriedade a seguir), podemos afirmar que I
lf<z, t)J ~c~ J~. u~ oo lf<z, r) dF(z)} dt ~ cJ~uf~ a: 1 dF(z) dt=2uc),
( ' <Pz = ipx· <p 1· se, e somente se, F z = F x • F r.
é permitido trocar a ordem de integração :
t
n
=
oo {f" eit(z- x) _ eit(z - yl }
(2)Porindução, <Px ,+ .. ·+x"r n <Px. se as Xk são independentes.

k=I
/(u)
f-oo -u
.
I(
dt dF(z).
n cos(at) , _ , sen(at) ,
l
A equação significa <Px, +·· · +X"~t)= n <Px.(t), 'v' tER Para todo a E IR, - - - e funçao 1mpar e - - - e par, 1ogo
k~I t t
(
(
t
u cos(at) dt = O e f" sen(at) dt = 2 [" sen(at) dt, 'v'a E IR.
t
FC6. A função característica de uma variável aleatória X determina a
função de distribuição de X. Já vimos a recíproca: a função ca-
f-u t -u t t Jo
I ' racterística é determinada pela função de distribuição, pois ({Jx(t) = Por isso,
= J e1'x dF x(x). Como conseqüência, temos F x =Fx ~ (/)x = <py, de
modo que a função característica é uma representação da distribuição. /(u) =f~"' {2 J: senr(;- x) dt- 2J: senr(;- y) dt}df(z) =
I (Duas funções são iguais se, e só se, assumem valores iguais em cada
(
I ponto; então (/)x = (/Jr significa (/Jx(t) = <py(t) 'v't E IIH = (pelo teorema 3.1) = Eg.(X),
(
onde
Esta propriedade decorre da fórmula da inversão: seja X uma va-
riável aleatória, F sua função de distribuição, <p sua junção característica.
g.(z) =2
]o
[" sen t(z - x) dt - 2
t
r sen
Jo
t(z - y) dt.
t
Se x e )' são pontos de continuidade de F tais que x < y, então · Agora queremos aplicar o Teorema da Convergência Dominada
quando u-+ oo. Para isto, basta provar que existe uma variável aleató-
(
111
F(y)- F(x) = - li lim f" e - it x - e-ity
. <p(t)dt. ria X 0 tal que g.(X)-+ X 0 em toda parte, e que as variáveis aleatórias
tt 2nu- oc -u lt
( g.(X) são dominadas por uma variável aleatória YintegráveL Primeiro,
(Para x <v em geral este limite é igual a F(y)+ F(y-) _ (F(x)+ F(x- )) ) recordemos a integral clássica de Dirichlet:
. ' 2 2
Pro1-•a da fórmula da inversão. Sejam x e y pontos de continuidade
.
.
llmi"
·-oc. o
sen-t dt= -
-
t
n.
2
de F, x < y. Para u >O, a integral do termo à direita é uma integral
iterada:
Daí podemos calcular hm . i"
u-oc. O
sen-
- at dt para qualquer a E IR:
t
u-sen(ar)
- · d t = la• - l" -sen(ar)
Como
a >0~
iu
0
l
sen(ar) d
sen t d
-
O
l"
t
t~
sen( -at) d _
l"1m
u-oc· O
. - - dt = 2'
l
i-au sen
n
l l"
a<O~ ---t=- t-- t dt .
-- ~
( o t o t o t
. e - irx _ e -ity
I (6.1)
( hm . = y- x, . sen(at) d
r-o 11 ~ llm --- t n
= - 2'
u- oo O l
(
I
define-se o integrando como y - x quando t = O. Neste caso, o inte-
grando da integral dupla é limitado e _contínuo na região de integração
(z E IR, tE [ - u, u] ). Já que o integrando é integrável nessa região (pois
l.
a= O~1m
u- oo
l" O
- - -dt -
stm(at)
l
_ .
0
(
226 Probabilidade: Um curso em Nivellntermediário Funções Caracterlsticas e Convergência em Distribuição 227
Em outras palavras (recorde que x < y), (Ocorre que não costum·a ser prático obter-se a função de distri-
buição através da fórmula da inversão.)
/
~ :~ ~:;
lim gu(z) = ·2n se x < z < y
u- oc n se z = y FC7. A variável aleatória X tem distribuição simétrica em torno de zero
se, e somente se, tp x(t) é real para todo t. (Por definição, X tem
O se z > y.
distribuição simétrica em torno de zero se P(X :$ x) = P(X 2':: - x), Vx E IR.
Em termos de variáveis aleatórias, temos As vezes, dizemos neste caso que X é simétrica em torno de zero.)
Prova. X é simétrica em torno de zero' se, e somente se, P(X :$ x) =
= P(- X:$ x) Vx, i.e., F x = F _ x e X e -X são identicamente
distr:ibuídas. Mas F x = F_ x =- tp x = tp _ x, de modo que X é simétrica
Temos também que as integrais J~ (~en(at))/t dt são uniformemen- em torno de zero se, e somente se, para todo tE IR,
te limitadas em u e a: para todo .aE IR (veja as fórmulas (6.1)), IPxU) = IP - x(t) =(por FC3) = IP - x(- t) = Eeil tH x, = Eeirx = tpx(t).
dt I:$ supl r sen t dt I~ M

Como c= c se, e só se, c é real, X é simétrica em torno de zero =-
IJof" sen(at)
t Jo t
11 >0
< 00,
=- Vt, IPxUl é real. O
FC8. Se Y = a X+ b, então tpy(t) = eirb IPx(at).
pois a função j(u) = J~ (sen t)jt dt é contínua em [0, x) (j(O) = 0) e tende
Prova. tpy(t) = Eeit(aX+b) = eirb Eeiarx = eirb CfJx(at). O
a um número finito quando u-+ e~:.,, Logo, as funções 9u são limitadas
por 4M e as variáveis aleatórias g11(X) são dominadas pela variável FC9. Se E IX I" < x, então tp x possui n derivadas contínuas e
aleatória Y~ 4M. Aplicando o Teorema da Convergência Dominada,
temos
tp~ 1 (t) = J (ix)k eirx dF x(x), k = 1, 2, ... , n.
Em particular, tp~ 1 (0) = ikEX\ de modo que a função característica é
lim Eg..(X) = EX 0 = nP(X= x) + 2n P(x <X< y) + nP(X = y). uma espécie de função geradora de momentos.
u-+ o:
Dividindo por 2n, concluímos que

(Observação. cp~ 1 (0) = dkdtp~t)~ , a k-ésima derivada avaliada no ponto
. 1 l 1 t t=O
Itm - /(u) = -- P(X = x) + P(x <X< y) + - P(X = y), t =0.)
u-oc 2n 2 2
P.rova. Como IPx(t) = J eirx dF x(x), a diferenciação formal resulta em
como queríamos demonstrar. O
cp~'(t) = J (ix)k eirx dF x(x) e tp~ 1 (0) = J (ix)k dF x(x) = ikEXk. Resta
Obsert>ação. "cpx determina F x'' é o Teorema da Unicidade. É corolário justificar a diferenciação dentro da integral.
da. fórmula da inversão, pois esta implica que para todo Suponhamos primeiro que X seja integrável ; queremos provar que
ZE IR, tp'(t) = J ixeirx dF x(x). Como para h'# O,
li
li F x(z) = lim lim lim -
1 f" e
- itx
- e
- ity
IPxU) dt.
cp(t + h)
h
- cp(t)
=
fei(t +h)x - eitx
h
f itx eihx - l
dF(x) = e • h dF(x) =
y!z x-> -cx; 11 -.oc, 2n -u it
l)} '
(
tI = E { e;rx. (eihx h-
Portanto, a função de distribuição pode ser calculada a partir da
11
( função característica, e se X e Y têm a mesma função característic~.
ll então possuem a mesma. função de distribuição. vemos que o resultado decorre do Teorema da Convergência Dominada:
I•
Funções Caracteristicas e Convergência em Distribuição 22S
11
C oml~ (e; ' - I ); h --+ ix quando h --->O, 'r/x E lii, temos
com X ~ Poisson (I.J c Y = Poisson (sl. então X+ Y - Poisson (; + , l.
_ ) (;,+.::H c' r 1)
( il!.\ I) Basta aplicar a propriedade f·C5: Cf>x+rU)=<px(t)<pr(t =c ·
e;'x. e -_ _ -------+ iX e;rx
h /i-+0 . i.e., a função característica de X + Y é a da distribuição Pmsson (}_ + J_ s
Pelo Teorema da Unicidade, X+ Y- Poisson () + ~).
Mostremos que estas variáveis aleatórias estão uniformemente domi-
nadas. Já que para todo x. EXEMPLO 2. Seja X - N(O, I). Então
I
eihx- I
--- =
I I-s:')-ix-ej'-'-ds- li s:') cj'-'
= lx/· i' - -- ds I
5 /x!,
cr>xtc) = le;,, dFx(x) =
J
1
.,-
~n
f' _eirx-x>z d.x =(completando o
h I . h
(eih~ --:-_!ll S:: !X!.

' h I ;
quadrado) = e _ 1: ,• ·
v'
I
r:
f -.,-in·' '
= -r';2
1
'-) e ' · dx c .
pois /c;"'/= I, temos /e;'x. Como IX: é integrável. ,;_n
o Teorema da Convergência Dominada implica que onde verificamo~~ a última equação da seguintt: maneira:
<p '( t ) -- <p(t-+

I.Im - - h)-
--- <p(l) (eillx
- = I.Im E. { eir.\ · - - --- -
I)} . e;,x ) =
= E(lX "' c-:,-ill 2 dx = lim .í" e-,x-in'•:- dx =• (fazendo - - _\ - it) =·
h~o h h~o h J- f ll---+ f
~I/ - it
= J ix e;,, dF(x ).
tr .... 1 ., 1 __ n __ it
Decorre também desse teorema que <p'(t) é contínua em t, pois
ixe;,, = lim ix e;'-' e lix eisxl = /x/. onde o inkrvalo d;; integração nesta última integral (para 11 fixo t:
s -r
I> 0) é /1:
O restante da prova vem por indução em n, e é deixado para o
leitor. O
-n o n
Exemplos de .fimçôcs caract crísl i cas

~4
EXEMPLO I. Suponhamos X ~ Poisson (i). Então
-n- it n-it
Vamos obter a média c variância. utilizando FC9:

Como a função /(:)=e- z'' 2 é analítica no plano complexo C
iEX = <p'(O) = e'"'" 11
i.e;' · i/, = ii.
2 2
i EX = cp"(O) = d(iÀe-; e;'+ ie'\dl :, , =
0
iú-' e;,+'"'' (i+ i.e;'. i)/, _
o teorema de Cauchy diz que a integral de f sobre qualquer curva
0 0 fechada dá zero (veja_- por exemplo. Ahlfors [I]. Teorema 2 do Cap. 4).
= ii,e- ' e'(i + i.;) = i2 ),(1 + },),
Logo para 1 > O,
portanto EX = À, EX 2 = ), + ), 2 e Var X = EX 2 - (EX) 2 = i..
Outro resultado conhecido que podemos verificar facilmente por
meio de funções características é o seguinte: se X e Y são independentes I
• I I
--· ·' I~
~ e · ,.. d: -i-
.. 1 .'
e-z''cd: +f /.I
e z'Jldz-+- f 14
e·zlld: =O,
230 Probabilidade: Um curso em Nlvel Intermediário
231
Funções Caracterlsticas e Convergência em Distribuição
n- Íl
I. e.,
I · n - it
e- =2 / 2 d: = §6.2 Convergência em distribuiçã o
Como Consideremo s agora nosso terceiro tipo de convergência de va-

riáveis akatórias. Veremos adiante que é o mais fraco, no sentido de
~-~ . e - ''·' dt = que é conseqüência tanto da convergência em probabilidad e, como
I n ('_, _. ·'
-n
dt ---->
n-'
. .
basta provar que f 1,. - =.. o d-- e., .f1, c· --=--.· d:: tcndl:m a zero quando
'
21:. da convergência quase certa.
DEFINIÇÃO 6.2. Sejam X, X 1 , X 2 , ..• variáveis aleatórias com, res-
. .1.- pectivamente , funções de distribuição F, F 1 , F 2 , ••..
11-+ x (ass1m estara provado que q; -(I)= e- ' ' 2 1 > u p . .
método é :I , . . , . À • • ara t < 0, (_) x. converge em distribuição para X, quando n-+ Y.., , se F.(x)-+F(x)
. , ana o~o, a umca dtferença sendo qut: os inkrvalos 1. e 1._.
mvertem de sent1do · Aliás·. e' .sufi~.... 1· ~;·nt ~;, no 1ar
. .. . . . •· para todo x ponto de continuidade de F.
_ q uc ,\ simctnc:i = cp -(f)=
- <Px(- t). Para t =O, o resultado é óbvio.). .I
Notação: X • .!!. X ou X • .!!. F. Também dizemos que X. conrerge em
lei para X e escrevemos .Y'(X .J--+ i!'( X).
:rovaremos que L. e · =-'·' d:; __,O: a prov:1 de que 1· 1 , _.- , 1J- __, \·1
é anal o C · ,• - ' O seguinte exemplo ilustra por que a definição requer convergên-
ga. _ ?.11_1~ o compriment o do inter,·alo f;- é 1, bas!J prov<J:· cia apenas nos pontos de continuidade de F.
d
· que max /(' - -_-1 ..... () qlldl10/i-- tf.
=, I '
EXEMPLO 4. Seja (Q .>Y', P) um espaço de probabilidad e qualquer.
~ar~:::=n\Ín- O::::; s::::; r. temos:~= 11 ;- - - .,~ - -..,,J.~[· e• t • - =' Para todo n =I, 2, ... , seja X. a variável aleatória
(s· - n·) o c is. onde:
I .I constante ljn (i.e., X.(w)= 1/n VwEíl), e seja X igual à constante O.
=e -c·· orno ,e" I= I 1::/t, temos /e _".' )= e" · . ,.-,;-_ Portanto,
Intuitivamen te. X n teria que convergir para X segundo qualquer cri-
tério razoável de convergência . De fato, é fácil ver que X.-+ X quase
certamente e X"!. X.
A função de distribuição de X" é
~Segue-se da propriedade FC8 que se y =a X+ p. onde X ~ 'V((J· I)· I
, E m outras palavras. se }' --.. V( 2
entaocp (r)- e"um ( r) =e i,,, _,,,, -. se X~ - --
~ 1 - . 'f" X a .
entaocp(r)- 1' "~'-" '' ·· 2 N . Jl.a). F.(x) = 11
1 .- • · ovamente podemos obter os momentos da { I

O se X< -- -
~~rm~I denva~do a função característica . e ainda verificar que a soma n
c duas normais mdependente s também é normal.
e a de X é
EXEMPLO 3. Seja_ <p(t) = cos(~ll)~ onde a> O. Mostremos que cp é F(x) = {I se x ~O

O se x <O.
, funçao caractenstic a, achando a distribuição corres-
~on~ente. Ja q~e assume .v~Ior:s reais, se cp fosse função característica Portanto, x>O=F.(x) -+1 =F(x) e x<O=F.(x) -+O=f(x), de
~ a guma vanavel aleatona X, então X possuiria distribuição simé- modo que F.(x) converge para F(x) nos pontos de continuidade de F.
tnc~ em to:~o de_ z~r?. Com efeito, teríamos co.s(at) = cp(t) =E cos(tX). Porém, no ponto x =O temos F,(x)--+0 #I= F(O).
POis a parte Imagmana sena nula. Como cos(at) = cos( _ at) é evident,
que uma dtst_nb.Uição simétrica concentrada nos dois pon;os a e - : Observação. Notemos que convergência em distribuição foi definida
em termos das funções de distribuição; formalmente . não
corre~~ndena a função característic a <p. Portanto, cp é a função ca-
ractenstica de X se, e somente se, P(X =a)= I /2 = P(X = -a). é preciso que as variáveis aleatórias estejam definidas no mesmo es-
paço de probabilidad e.
232 Probabilidade: Um curso em Nível Intermediário Funções Características e Convergência em Distríbuiçllo 233
Se X n E. X, dizemos que FX converge fracamente para FX. Pode-

n pois F( a)+ 1 - F(b)-+ O quando a-+ - oo e b--+ + oo, e basta escolher
mos considerar o conceito de convergência fraca de funções de distri- a suficientemente pequeno e b suficientemente grande (os pontos de
buição sem levar em consideração qualquer variável aleatória: sejam continuidade são densos). Para esses valores de a e b, temos
F, F 1, F 2, .•. funções de distribuição. Então dizemos que F. converge
fracamente para F se F.(x)-+ F(x) para todo x ponto de continuida-
de de F.
I .s; r oc cdF. +L"' cdF. = c(F.(a) + 1- F.(b)) ~ c(F(a) + 1- F(b)),
logo I + I I I < 2e para n suficientemente grande.
Nosso objetivo nesta seção é provar que X" E. X se, e somente Para terminar a prova, basta provar I I < 3e 'v'n suficientemente
se, IPxJt)-+ <px(t) 'v' tE IR, ou seja, que Fx" converge fracamente para grande, pois neste caso temos IJ gdF n - J gdF I < 5c para todo n sufi-
Fx ~e, e somente se, <px.(t)--+<px(t) 'v' tER Primeiro, provaremos a ne- cientemente grande, para todo e, i.e., J gdFn--+ J gdF. Para tanto, sejam
cessidade. (Nota. As provas dos dois teoremas seguintes são técnicas a e b os pontos já escolhidos, e consideremos a integral I I.
e poderão ser omitidas em uma primeira leitura.) Já que g é uniformemente contínua em [a, b], podemos escolher
x 0 , x 1 , ••• , xN tais que (i) a= x 0 < x 1 < ... < xN = b, (ii) os X; sejam
TEOREMA 6.1. (Teorema de He/ly-Bray). Sejam F, F~> F 2 , ••• junções pontos de continuidade de F, e (iii) lg(x)- g(x;)l <c para todo x E
de distribuição. Se F. converge fracamente para F, E[x;,X;+ 1], i=O, 1, ... ,N-1. Então : ·
então
Xi+l
fg(x)dF.(x) ;;::;+ fg(x)dF(x)
para toda função g contínua e limitada (g: IR -+IR).
def
m.; = (g(x;)- e) {F.(x;+tl- F.(x;)} .S::
.S:: (g(x;) +e) {F.(x;+tl- F.(x;)} d::f M.;.

ix·
I
g(x)dF.(x) .S::
Observação. Se X n ~X, então decorre do teorema que Jg(x) dF X (x) ......

m; dg (g(x;) - e) {F(x;+ tl - F(x;)} .S:: lx;. 1
g(x) dF(x) .s;

--+ Jg(x) dF x(x) para toda g contínua e limitad;, i.e.,
I
def
I Eg(X .) --+ Eg(X). Em particular, como as funções cos(tx) e sen(tx) são .s; (g(x;) + e) { F(xi+ tl - F(x;) } = M;.
I contínuas e limitadas para t fixo, temos E cos(tX .) n-o- E cos(tX) e Portanto,
E sen(tX .) --+E sen (tX), de modo que IPx"(t)-+ IPx(t) 'v' tE IR.
'I
I Prol'a. Para - oc < a < b < oo,
m.;- M ; .s; {~ i+
1
gdF. -L~i+
1
gdF .s; M.;- m;,
para i = O, 1, ... , N - 1. Somando, temos

lfgdF.- fodFj.s:: lfodF.- ibgdF. , + libgdF.- ibodF I +
+ ltb gdF- fg~iF~d::·I + li + Ili.

Quando n--+ oo, temos m.;--+m; e M.;-+M;, porque os X; são
Seja c= sup lg(x)l < oo (por hipótese), e seja e> O. pontos de continuidade de F e F. converge fracamente a f. Logo,
X E !Ri N-1 N-.1
11
Como li I = IJ"- oo gdF + Jb' gdF I .s; f"- 00 cdF + Jb' cdF = c( F( a) + L (m.;- M;) n-oc- L (m;- M;) =- 2e(f(b)- F(a));;:: - 2e,
i=O i=O
+ I - F(b)), podemos escolher a e b pontos de continuidade de F tais que N-1 N- 1
11 I li .s; c( F( a) + I - F(b )) < e, L

i=l
(M.;- m;) "-"" L
i=O
(M;- m;) = 2e(F(b)- F(a)) .S:: 2e.
234 Probabilidade: Um curso em Nlvellntermediário Funções Caracterfsticas e Convergência em Distribuição 235
Daí, temos para todo n suficientemente grande. (=q>~ logo F=G e, em particular, F.,.(x)-+G(x)=F(x). Mas F.,(x)-+
- 3e < f f gdF. - gdF < 3e. O

~a #- F(x). Absurdo, logo F. converge fracamente para F.)
Provaremos que
(i) existem uma subseqüência F., F.,, .. . e uma função F : ~-+
A recíproca do Teorema 6.1 é válida, i.e., se JgdF.~JgdFVg ~ [0, l] tais que F é não-decrescente e contínua à direita e F •1(x)-+
contínua e limitada então F. converge fracamente a F, e às vezes toma- ~ F(x), quando j ~ oo, para todo x ponto de continuidade de F, e
se essa condição como definição de convergência fraca. (Nota. Con- (ii) a F do item (i) é função de distribuição.
vergência fraca de funções de distribuição nada tem a ver com a Lei Observação. O item (i) é o Teorema de Compacidade Fraca de Helly.
Fraca dos Grandes Números.) Mas ocorre que basta a convergência
das funções características associadas às funções de distribuição. É Prova de (i). Sejam r~> r2 , • •• os racionais da reta. Usando o método da
evidente como definir a função característica associada a uma função diagonal, escolhemos uma seqüência l s; n 1 < n2 < ... de
de distribuição F: define-se q>(t) = J eirx dF(x). Assim definida, q> é fun- inteiros positivos tais que F./rk) converge, quando j-+ oo, para cada
ção característica de alguma variável aleatória (por quê ?). k fixo. Chamemos o limite de F(rk~ de modo que F./rk)-;::-: F(rk) Vk .
É obvio que Os; F(rk) s; 1 e F é não-decrescente nos racionais.
TEOREMA 6.2. (Teorema da Continuidade de Paul Lévy). Sejam F 1 , Definamos F em x irracional por F(x) = lim F(r). F assim
F 2, ..• .funções de distribuição e q> 1 , q> 2 , . • . , respectiva- r ~ x . r racional
mente, suas funções características. Se q>. converge pontualmente para definida é não-decrescente, mas não é necessariamente contínua à
um limite q> e se q> é contínua no ponto zero, então direita. Temos, contudo, que F•1(x)-:---+
J-oc·
F(x) para todo x ponto de con-
(a) existe umafunção de .distribuição F tal que F.-+ F .fracamente e tinuidade de F. (Pois: suponha x ponto de continuidade de F e sejam
(b) q> é a função característica de F.
r', r" racionais tais que r' < x <r" e F(r")- e< F(x) < F(r') +e. Então,
F(x)- e< F(r') = lim F.}r') s; lim inf F.ix) s; lim sup F./x) s;
j -:s: j -+-=t. j-+ oc
Observação. Cabe destacar agora que os Teoremas 6.1 e 6.2 implicam
D s; lim F.}r") = F(r") < F(x) + e.
. que X.-+X <=> IPx. -+q>x. Mas o Teorema da Continuidade j-+ 'X.
~ ~ais forte do que a suficiência dessa proposição, porque diz que 0
hm1te de uma seqüência de funções características também é uma Como e é arbitrário, temos F.ix)--F(x) quando j~oo.)
função característica, contanto que seja contínuo no ponto zero. Podemos redefinir F, se necessário, nos seus pontos de descon-
tinuidade para torná-la contínua à direita. Assim, (i) esta provado.
Prova. Sob as hipóteses, (a) implica (b), por Helly-Bray. Para provar
que F. converge fracamente para alguma função de distribuição, Prova de (i i). Resta provar F( + oc) = 1, F( - oo ) =O. Para g uma fun-
vamos provar que para toda seqüência de funções de distribuição ção característica qualquer, definamos a função caracte-
satisfazendo as condições do teorema, existem uma subseqüência F. , tica integrada g: se G é a função de distribuição correspondente a g,
F.,, ... e . uma função de distribuição F tais que F., -+F fracament~ '
quan~do 1 ~ ~: (Para ver que é suficiente provar isso, suponha que
F•. n~~ convirJa fracamente para F, onde F.j ~F fracamente. Então,
g(t) = f'
O
g(s) ds = f' -oc
O
fa:. eisx dG(x) ds = f"'
-oc
f'
O
eisx ds dG(x) =
ex~shrao x, ponto de continuidade de F e uma subseqüência F I'• F z, ...

ta1s que F •• (x)~a #- F(x). Como essa subseqüência também satisfará = Joc eirx.- 1 dG(x),
IX
as condições do teorema, existirão .
uma subsequ··e·nci·a F 1", F 2"'. ... - a.
[subseqüência de F t'• F 2·, ••• ] e uma função de distribuição G tais que onde justifica-se a troca da ordem de integração pelo fato do inte-
F""-+ G fracamente. Mas F e G terão a mesma função característica grando ser limitado.
236 Probabilidade: Um curso em Nlvellntermediãrio Funções Características e Convergência em Distribuição 237
Para t fixo, a função (ei"- I) (ix) é limitada e contínua (definir interpretar a expressão "X"~ N(O, I)" como indicativa da COJ?Vergên-
igual a t em x = 0), e tende a zero quando x ~ + x ou x ~ - x. Um;1 cia fraca de Fx, para , a função de distribuição da N(O, I). E conve-
prova análoga à de Helly-Bray mostra que niente dizermos, neste caso, que X, com•erge em distribuição para u
'f -- f
eizx _1 dF (x)-.,---->
-- ---
ix n.l J ...... 'I
J' - f
l'izx -
ix
~ dF(x).
(distribuição) normal-padrão. Vale uma interpretação análoga para as
~
expressoes "X n ~
D p OISSOn
. (1t1 )", "X' n ~
D X'(l)"
- , e t C..
APLICAÇÃO. (0 Teorenw Central do Limite para Pariáveis aleatórias

Portanto, independentes e identicamente distribuídas.) Sejam X 1 ,
(' (/Jn,(s) ds
]o
;~,
Jo(' . - f' f
eisx dF(x) ds.
X 2 •... independentes e identicamente distribuídas. com médiu comum p
e variância comum () 2 , onde O < (J 2 < x. Seja Sn = X 1 + ... + X n. Então
Mas q>n,-+ q>, q> contínua em zero, implica que q> é limitada c S, - ES, E. 1\í(O, I), i.c.. Sn - np .!!,. N(O, I).
~s
.,_/v ar , ÍJyi n
mensurável, logo pelo Teorema da Convergência Dominada (ou pelo
teorema de Arzelà -- veja o *3.7 - aplicado às partes real c imagi- Prora. Podemos supor, sem perda de generalidade, qw:. p =O. Pele
nária das q>n) Teorema de Paul Lévy. basta mostrar que
j.o, iP, (.1) ds ]-:::7

Ju
r q>(s) ds.
Aplicando sucessivamente as propriedades FC8, FC5 e o fato de que

Dividindo os limites iguais por 1. temos
as variáveis X k são identicamente distribuídas, temos
I
t
f'() q>( ') ds = I
t
f'u •f' e'" dF( x) d.\, t =1 O.
Fazendo t ~O e usando a continuidade em s =O das duas funções

q>(s) e J ei" df(x) (esta é continua pelo Teorema da Convergência Do-
onde q> = ifJ x, .
minada), temos
Já que EXi < x, decorre de FC9 que q> possUI duas derivadas
q>(O) = f'
.. - ;I_
ldF(x) = F(+ x)- F(- x ). contínuas. Pela fórmula de Taylor,
2
q>(t) = q>(O) + q>'(O)· t + q>"(tl(t})· !i ,
Como q>(O) = lim q>"(O) =I, segue-se que F(+ x) =I, f(- x) =O. D
n--+ y_
onde [8(1)! ~ [t[. Portanto,
COROLÁRIOS. (a) Sejam X 1 , X 2 , ... mriáreis aleutórias. Se q>>...(tl ~
t2 12
~q>(t) VtE R e se q> é comínua no ponto ::.ero.-então q>(t) = q>(O) + q>'(O)· t + q>"(O)· + -- (q>"(8(t)J - q>"(O):,
q> é função característica de alguma rariárel aleatória, diqamos q> = (/>x. 2 2
D ,
e Xn ~X. com q>"(A(t))- cp"(O)-+ O quando t ~O. Como <P(Ü) = 1 e, por FC9.
(b) Se q>xJt) ~e - Vt, e mão X n E. :\(0, I). q>'(OJ = ip =O e q>"(O) = i 2 EX~ = - EX f = - CJ , temos
2
1212
Notação. "Xn E. N(O, I)" indica que X., converge em distribuição para
uma variável aleatória X que possui distribuição N(O, I). q>(t) = I
Mas não é necessário que X seja explicitamente definida, e podemos
238 Probabilidade : Um curso em Nlvel Intermediário
Funções Característica s e Convergência em Distrlbuiçilo 239
onde lim e( I)= O. Por isso, para 1 fixZJ.

r- o variável aleatória. Por exemplo, propriedad es FCI a FC4. FC7 e FC8
são válidas com as óbvias modificaçõ es (a reta é substituída por IR').
r"+ - r-'- e -1- )]n - Para FC5, supõe-se K e r sejam vetores de mesma dimensão, i.e ..
q> "(' ~ 1 ') =' [ ·J - -
2n 2--r~n_ IT' ~ - J
1
a .... · nt ~ { _ - X = (X 1 , •• • , X d e r= (Y1 , •• • , }~)- Sob esta condição, a independên cia
1 de K c 1 implica que (/)x + l-(1) = (/)x(tl (/)r(t) VJ.. E IR". (Dizemos que os
=[I - -
2n
I - 'e _ I_
a- (\ Oy_- )
11 ,
- --+e - ,_. 2
" -- ' · vetores K e .t são indep""en'de""ntes se- P(yE B I. XE B 2) = P(K E B d .
. PCX'= B:>.) VBI E~".B:>.E - M'.)
I (
~)---.I Quanto a FC6, existe uma fórmula da inversão para a função
1 -
pois - -- 2e quand o li-> Y. e. para números compkxos ,
característ ica multidimen sional (veja Gnedenko [I I]. ~- Teorema 4).
,. ~ '= ( + ~)'::~;, IV eja o ewdeio 121 O

Podemos usar essa fórmula, mais uma ve7, para provar o
Teorema da Unicidade: Se X e Yforem t•etores aleatórios k-dimensionais
tais-qu;-·q>x(t)=q>r(t)'<llEiR\ então Ke Y tt!m
COROLÁ RIO. (Tt!orema Centrul do Limit e de Dt! Afoirre c Lapluct'.)
Seja S" o número de sucessos em n t>nsaios binomiais a mesma distribuição . Em outras palavras~ ã função característi~ de--
independemes, com probab I., u. Jw1e p 11e sucesso em cada ensaio. onde termina a distribuiçã o. e podemos escrever: (/)x = q> 1 ~Fx = F 1- . (Uma
O< p < 1. Emão elegantc prova alternativa do Teorema da Unicidade é f~rnecida pelo
Teorema de Stone-Wei erstrass. Veja Billingsley [4]. Teorema 75.)
s"- -
.
nr_ I! \ ·o
---. - ( • r l- É possível, também, generalizar FC9 para o caso multivaria do.
, , np(l - p)
Neste caso, podemos obter momentos mistos, ou momentos -produto,
Prora. Seja, X" o indicador de sucesso no n-ésimo ensaio. Então s" = a partir da função característi ca multidimen sional; veja os exercícios
= À I + ... + X n c X I ' X 2 . . . são independe ntes e identica- 26 e 27(b) para um exemplo.
mente distribuída s com média Jl = p c variância a"= p( 1 _· p). 0 Outra propriedad e da função característi ca multivaria da é a se-
guinte :
FClO. Para obter a funç-ão característica de qualquer distribuição mar-
§ 6.3 Função característica de um vetor aleatório ginal, basta fa::.er todos os termos "extras" iguais a ::ero. 1 Por
1
exemplo. para as variáveis aleatórias X, Y e Z, temos Ee; 'x + " ) =
Ne~ta seção, daremos uma introdução bem abreviada às funções = Eeil x X +_ri + o- z\ i.e.,
caractenst icas multidimcn sionais. _
2
(/)x_r(x,y) = (/)x' 1 .z(x, y,O), (x, y)E!R;
DEFINIÇ ÃO 6.3. SeJ· a<';v = (v '-'
.'\. 1 •.. .• ,.._,) um vetor aleatório k-dimen-
sional. A junção característica de X é a função
q> : !R'---. f: definida por - A definição de convergênc ia em distribuiçã o de vetores aleatórios
é análoga à Definição 6.2:
q>( t 1 • · • • • tk l =
-
q> x(t 1 . .. - , t d = Ee' ::,_'
'
.I = Ee;!..~ ·
DEFINIÇ ÃO 6.4. Sejam .Y" =(X nl· •.. , X .d, ~ =(X o 1 •...• X ud veto-
onde L· ~ representa o produto interno (produto escalar) dos vetores res aleatórios k-dimensionais. K" converge para K
i= (t 1. - · .td e ~ = _(X 1. . X kl- q>?i. = (/)x, . x, é também chamadafu nção em distribuição se Fl)x 1 , ... , x.J ;;--:;7 F?i.(x 1 , ... , xd V~= (x 1 ... .. xd
caracterrst1 ca COI1)unta de X 1 _.. . _ X,.
ponto de continuida de de F~-- Notação : ~~~~ K-
A função ~aracterística ~ultivariada tem propriedad es análogas a
Como no caso unidimensi onal, temos convergênc ia em distribui-
todas as propnedad es enunciadas para a função característ ica de uma
ção se, e somente se. as funções característi cas convergem :
240 Probabilidade: Um curso em Nível Intermediário Funções Caracterfsticas e Convergência em Distribuição 241
TEOREMA 6.3 .L~K se, e somente se, ({J~,-+([J~, 1.e .. Agora, suponhamos que~ n!!. K Para (tI' ... 'td E IR\ queremos
k k
qJ::.,(t1, ... , td-+ ({J~Ú 1 .... , td 'v'(t 1, ... , tdE Rk. Provar que ) t JX ~ n)
~ )'-~ t 1X 01 . Para tanto, basta provarmos que
i I j I
Prora. Omitida. (Veja Billingsley [4J ~3 e Teorema 7.6.) D
({J\ .__
I X ftJ (t) ;;-:::;7 q>\ .:....
1 .•1.
· I
(t) v tE R
1
Em geral, não é fácil provar convergência de funções caracterís- Mas, utilizando a o~tra metade do Teorema 6.3, temos
ticas k-dimensionais, para k > 1 (e uma aplicação direta da Definição
_ (I)= E<,ul_.1.X,
(/);_,,,x. .
= Et,i LI" IX., =
6.4 é menos prática ainda). Mas há um artificío, devido a Cramér e
=([Jx 11(tt 1 , ,ttd;;-:::;-;+({Jx(tt 1 , ,ttd=({J;_,,,x,.. (t). D
Wold, que reduz o problema de convergência em distribuição ao caso
unidimensional. Para melhor entender esse artifício, observe primeiro
- ...
- ...
Veremos uma aplicação desta proposição no próximo capítulo.

que o Teorema da Unicidade diz que a distribuição de K =(X 1 , ... , X d na demonstração da versão multivariada do Teorema Central do Limite.
é determinada pela função característica de K Mas, por definição,
a função característica de K é determinada pelas distribuições das
k Terminaremos nossa discussão de funções características multi-
combinações lineares 2:: t1X,. Em outras palavras, a distribuição con- dimensionais considerando um critério para independência de (algu ..
i I
mas) coordenadas do vetor. Suponhamos primeiro que X e Y sejam
junta de X 1 , ... , X k é determinada pelas distribuições das combinações
k variáveis aleatórias. Então ocorre que X c Y são independentes se.
lineares I t 1 .'\" 1 : distribuições unidimensionais determinam a distrí- e só se, a função característica do vetor (X, Y) fatora: ({J x. t(x, y) =
J I
= ({J x(x) ({Jr(J') V (x, y) E IR: 2 . Novamente, temos a regra produto no caso
buição conjunta! Então é bem natural perguntar: será que convergência
de independência. Mais geralmente, temos o mesmo resultado quandc
em distribuição de vetores aleatórios equivale à convergência em dis-
?! e X são vetores (de possivelmente diferentes dimensões):
tribuição (unidimensional) de todas as combinações lineares das coor-
denadas'? A resposta é afirmativa: PROPOSIÇÃO 6.2. Sejam K =(X I' ... ' X,) e l = (ri' ... ' Ynl l•etores
aleatórios, onde m ?-:: 1, 11 ?-:: 1. ~ e {são indepen·
PROPOSIÇÃO 6.1. (Cramér-~liJ/d). Sejam ,!,=(X, 1 .... ,X,d e X= dentes se, e só se,
= (X 0 1 , ... , X od zetores aleatórios k-dimensionais. ({J 1 ... 1 r ... 1 (X 1 , ... ,X,,J'I, ... ,y.)=({Jx(XI, ... ,X,)Pt(.\'I•"·'Yn)
?! n ~?! se, e só se, V(.~:·•. ·.. :".~,~JE·~·"', (J'i• ... ,y.)EIR:". - -
k k
Obserra(·ào. Os vetores K e l são independentes, por definição, se
I t,X,, E. I I t,X 0 " quando n-+ x.
i 1 j
P(K E B I ' XE B 2) = P(K E B I ) PC[ E B 2)
para todo B 1 E !J"', B 2 E !J" (i.e., borelianos em IR:"' c IR:").
k k
Prow. Suponhamos primeiro que I t 1X 111 E. I t,X 01 Prora. Suponhamos primeiro que ~ e X sejam variáveis aleatórias
ic•1 i' I X e Y (m = 1, n = 1), com X e Y independentes. Então, temos
Então.
(/Jx.r(X, y) = Eei(x.\+rli = E(eixXei.rl) =
'
({Jx(tl,
,.,_n
... ,td=Ee',2.,'.x. =qJ\·,x
'- , "
(1) = E[{cos(xX) + i sen(xX)} ~cos(yY) + i sen(yY!l] =
n~ 7 ({J t 1 ,I , ( 1) = ({J :r_(t I • .. '. : f d, = E[cos(xX)cos(yY)- sen(xX)sen(yY)] +
+ iE[cos(xX)scn(yY) + sen(xX)cos(yY)]
= (por linearidade e independência)=
onde utilizamos o Teorema de Helly-Bray. Como ({J!_.,-+ ({Jf., decorre
= [Ecos(xX)+ iEsen(xX)} [Ecos(yY)+ iEsen(yY)]
do Teorema 6.3 que .K, E. K = EeixX • Eeirl = (J)x(x) (/Jr(y),
242 Probabilidade : Um curso em Nlvel Intermediário Funções Caracterfstices e Convergência em Distrlbuiçlo 243
para todo (x, y). Reciprocamente, suponha que C{)x . y(X, y) = C{)x(x)cp (y) Reciprocamente, se p.(k)--+ p(k) para todo k, então F x.(x)--+ F x(x)
1
para todo x E IR, y E IR. Então a independência dl! X e r é conseqüência
para todo x E IR, pois st: x ~O
do Teorema da Unicidade: se X e Y fossem independentes, elas teriam
(x} [x]
função característica conjunta C{)x. y(x, y) = cpx(x) cpy(y), pela parti! inicial
desta demonstração. Se não fossem independentes, elas teriam uma
Fx.(x) = L p.(k) ;;::;;+ ~ p(k) = F x(x),
k=O k-0
função característica diferente, o que seria absurdo (por hipótese, pos- onde [xJ é a parte inteira de x (se x <O, então F x.(x) = F x(x) = .0). O
suem a função característica desejada). Logo, são independentes.
A prova no caso geral é análogo, e é deixada para o leitor (exer- Nota. No caso geral. com k substituído por xk, a condição da rro-
cício 25). O
Um resultado semelhante vale para um número finito qualquer
posição 6.3 ainda é suficiente~ i.e., p.(xk).--+ _!'<x.k) V k =X
É necessária se os· valores possíveis das X" e X sao 1s~Iados. Nao. e
X: n-:
de vetores aleatórios (a prova é a mesma). Consideremos o caso mais necessária no caso geral: para um contra-exemplo, seJam X n = 11n.
simples em que X 1 , .•• , X" são variáveis aleatórias. Então, temos X=O.
X 1 , ••• , X 11 independentes se, . e só se, EXEMPL O 4. (Convergência da distribuição hipergeo~étrica p~ra .a
binomial.) Seja X N uma variável aleatóna com dlstn-
(/)x, .···. x.(t I' ... 'r.) = nn
j~ I
cpJr.)tj) v (li, ... ' 111) E IR". buição hipergeométrica tendo função de probabilid ade
(f)(~=-~)
P(X, ~ k) ~ -- -(~)-, k ~O, I, .. .• ~
§6.4 Observações e complem entos
(i) Com·ergência em distribuição nos casos discreto e colltínuo. onde N, D e n são inteiros não-negativos, D :::; N e n:::; N. Lembremos
Suponham os que as variáveis aleatórias X 1 , X 2 , •.• e X sejam que (f)= O se k > D. Tal distribuição serve de modelo, por exemplo,
todas discretas ou todas absolutam ente contínuas. Nestes casos, a para 0 número de itens defeituosos em uma amostra de tam~nho n,
convergência em distribuição de X. para X decorre da convergência extraída sem reposição de um lote de N itens contendo D defe1tu~sos.
pontual das funções de probabilid ade ou densidades. Consideremos Quando De N- D são grandes e n pequeno•. };_N t~~ aproxima-
primeiro o caso discreto. damente distribuição b(n, D/N). Este resultado e mtUJUvo, por~ue
nessas condições as retiradas são "quase" independentes. Com efeito,
PROPOSI ÇÃO 6.3. Sejam X ~o X 2 , ••• e X t'llriáreis aleatórias tomando suponham os que 11 seja fixo e D dependa de N devmodo que D/N--+ F
somente os t•alores O, I , 2, ... , e sejam p 1(k), p2 (k), ... quando N--+ x, onde O< p < 1. Neste caso, X 1\ __. b(n, p), como ven-
e p(k), respectil'amente, as.fimções de probabilidade (i.e., p.(k) = P(X = k)). ficaremos agora. Para k = O, 1, ... , n,
11
Então. X 11 E. X se, e somente se, p.(k)--+ p(k) quando n--+ x para todo
D! (N.-D)! .n!(N-n)!
k =O, 1,2, ... . P(X ~ = k) = ki(D-k}!' (n- k)!(N- D - n + k)! N!
Proru. Os pontos x = 1;2, 3;2. 5/2, ... são pontos de continuidade ) D(D-l) ... (D-k+ 1)· (N-D)(N -D-l) ... (N - D -n+k + I) =
11
de Fx. Portanto, se X.~ X, então FxJk + I /2) --+ F x(k + I /2) =( k N(N- I) ... (N - n + I)
quando n --+ •X· para k = O, I, 2, ... , e
'n%(* - ~J . ·(%-7)(1- %)(t- T) .. (t - D + n ~k -J.
p.(k) =F xJk + 1/2)- F x.(k- 1/2) ..... ,. F x(k + 1/2)- F x(k- 1/2)= p(k)
para k =O, I, 2, ... (quando k = 0, temos Fd - 1/2) = Fx< - 1/2) = 0). ~ u- -
1- (t -~) (t - '~') .
,.

Funçlies Características e Convergência em Dlstribuiçlo 245
C orno -D -+ p e n e, fitxo, temos EXEMPLO 7. A recíproca não vale necessariamente. Daremos um

N
exemplo de uma seqüência X" X 2 , ••• tal que
Xn E. V[O, 1] mas para quase todo xE [0, 1], fx ..(x)+ 1. Para tanto,
sejam n = [0, 1], .s;1 = aJ10 , 11 , P = probabilidade uniforme em [0, l ],
D
logo X N-+ b(n, p). i.e., P(A) =comprimento de A, para A boreliano em [0, 1]. Se x E [0, l].
seja O, x 1x 2 x 3 ... a sua expansão binária e definamos
Exercício. Suponha que X""' b(n, p11 ), onde np 11 -+ À., O<). < oc , Mostre,
f,(x) = {2X 11 , XE [0, l ~
de duas maneiras, que X n.!?. Poisson (}.), primeiro usando a 0 , X f (0, JJ.
Proposição 6.3, depois utilizando funções características.
Como JAfn(x) dx = 1, fn é uma densidade (é densidade da distri-
buição uniforme nos intervalos binários "pares" de ordem n). Para
PROPOSIÇÃO 6.4. (Teorema de Schejfé). Sejam X 1 , X 2 , ... e X va-
x normal com relação à base 2 e, portanto, para quase todo x (veja
riáveis aleatórias tendo, respectivamente, densida- o §5.3), a seqüência fn(x) oscila entre O e 2 e não converge.
des f1 ./2 , ••• ef. Sef11 (X)-+ f(x) quando n-+ oc para quase todo x relativa-
Mas se X n possui densidade J,., então X n.E. V [0, 1], como pode-
mente à medida de Lebesgue, então x • .!?. X. mos verificar assim: se r= j/2m é um racional binário em [0, 1], então
P(X 11 5,r)=Jófn(x)dx=r se n>m. Logo, FxJx)-+x se x é racional
Nota. A condição f,(x)-+f(x) para quase todo x, ou .fn-+ f em quase
binário em [0, l ], o que implica Fx..(x) -+ x para todo x E [0, l] e
toda parte, significa q ue o conjunto {x:j~(xJ + f(x)) tem medida
de Lebesgue nula, i.e., comprimento zero. X 11 ,E. V [0, l].
Prova. Omitida (usa conceitos da Teoria da Medida. Veja, por exemplo, (ii) Relação entre os tipos de convergência. Sejam X" X 2 , ... e X
Lehmann [13], p. 351.). O variáveis aleatórias definidas em um espaço de probabilidade (O,d, P).
Temos três tipos de convergência de X. para X: convergência quase
EXEMPLO 5. Suponha que X.- N(p 11 , cr;), n =I , 2, .... Se fl 11 -+ 11 c certa, em probabilidade e em distribuição. Já sabemos que conver-
2
cr; -+ cr quando n-+ x , onde 11 E IR e O < cr 2 < rx-, então gência quase certa implica convergência em probabilidade e que não
X n.!?. N(p, cr 2 ). É conseqüência imediata do Teorema de Scheffé, pois vale a recíproca. É razoável perguntarmos agora se há alguma relação
entre convergência em distribuição e os outros dois tipos de conver-
r (x ) =_ 1_ e-<x - lln)Jt2a.,l ---+ __ I- e- (x - 1')'.2a2 v X E IR gência. A resposta a ·esta pergunta é que _convergência em distribuição
JXn y'21t crn . n~Y ...;'21t cr ' . ' é a mais fraca das três convergências:
(Exercício. Verifique este resultado através de funções características.)

PROPOSIÇÃO 6.5. Se X.-+ X em probabilidade, então Xn.E.x.
EXEMPLO 6. Se X 11 "' V [0, a11 ], onde a11 -+ a, O < a < x , então Prova. Suponha que X".!. X e seja x um ponto de continuidade de F.\ .
Queremos provar que F x..(x)-+ Fx(x) quando n-+ oo .
X • .!?. V[O, a]. Pois temos Como para e > O, X n 5, X=> X 5, X + e ou X - X n> e, temos
[Xn 5, x] C [X 5, x + e] u [IXn- XI> e]. Logo,
fx..(x) = __!_ /(o. a.. J(x)
a.
~ 1
a
- I [O.aJ(x),
Fx..(x) = P(X 11 5, x) 5, Fx(X + e) + P(l X n - X > e).
J
para todo x E IR, exceto possivelmente para x = a. Logo o Teorema de Por outro lado, X 5, x- e=>X 11 5, x ·ou Xn- X> e, de modo que
Scheffé é aplicável.
Fx(x- e) 5, Fx ..(x) + P(IXn - XI> e).
246 Probabilidade: Um curso em Nfvellntermediário Funções Características e Convergência em Distribuição 24 7
Juntando as duas desigualdades. temos V 1: > O, V 11, com a proposição: todo tipo de convergência é preservado por fun-
fx(x- c)- P{jX,- X i> c) s Fx)x) s Fx(x + d + P(/X, - X ! >1:). ções contínuas.
Fazendo inicialmente 11---+ x e depois 1: ---+ O. temos primeiro (pois PROPOSIÇÃO 6.7. Sejam X 1 , X 2 , . . . e X variát>eis aleatórias e
g: IR: ---+ IR: uma junção cont í11ua. Então
X,~ X) (a) X,--+ X quase cercamente=g(X,)-+ g(X) quase certamente;
F ,\(x - r.) s lim inf F x)xl s lim sup Fx)x) s F,(x + 1:) (b) X,.f..X=g(X,).f.g(X ); e
n- 1 "- 1 (c) X, 1?. X= g(X nl ..!4 g(X).
e, portanto (x é ponto de continuidade de Fxl. F,(x) = Jim F xJx). O Prova. Provaremos em ordem crescente de dificuldade:
n ~'
(a) Se X"---+ X quase certamente, então existe A 0 Ltl tal que
P(Ao) = 1 e para todo w E Ao, X n(w)--+ X(w). Como g é contínua,
Embora a implicação recíproca não valha em geral, é válida g(X,(w))-+g(X(w))V wE A 0 , logo g(X")--+g(X) quase certamente.
quando X é constante: (c) Suponha que X" 1?. X . Para que g(X ") 1?. g(X), basta a conver-
gência das respectivas funções características. Por definição, cp 91 x)t) =
PROPOSIÇÃO 6.6. St> X,!:!. c co11stame, emào X,-.!'. c. = Eeitg(X,.i =E cos(tg(X nl) + i E sen(tg(X ")).
Prol'a. A função dt: distribuição de uma variá\·el aleatória constante c é Como as funções cos(tg(x)) e sen(lg(x)) são contínuas e limitadas
na reta, para 1 fixo, decorre do Teorema de Helly-Bray que
F((x) = {l se .x;:::: c
O se x < c.
cp 91 x" 1(t) ;;::;-;+ E cos(tg(X)) + iE sen(tg(X)) = cp 91 x1(t), tE IR:.
(b) Suponha que X" .f,. X, e seja c> O. Para todo m >O, g é uni-
Como x é ponto dt: continuidade de F .. se x =1 c, segue-se pela con-
vergência em distribuição que FxJx) ....... O quando n--+ x, se x <c. e formemente contínua em [- m, m]; escolhamos m suficientemente gran-
de tal que P(- m/2 s X s m!2) > I - c (isto é possível porque
FxJx)---+ 1 quando n--+ x, se x >c. Logo, para 1: >O,
P(j X I s m/2)---+ I quando m--+ ·X ). Pela continuidade uniforme, existe
P(j X"- r! s c)= P(c- c s X, s c+ e);;:::: P(c- c< X, s c+ 1:) = 6 tal que 0<6sm/2 e se lx l sm, lrlsm e jx-y/cl---+0 Vt: >0 c X,-.!'. c. O
,~ , P( j X ! s m/2) > 1 - <: (observe que se P(A")---+ 1, então P(A n A")--+
EXEMPLO 8. Em geral, x,l?.X=;t>X,-~X. Sejam X, XI, X2, ... in- ---+P(.4)). Mas
depcndentcs com distribuição comum N(O, 1 '2). Então i
[ IX S m/2, IX"- X I< 6] C [lXI S m, /X./ sm, IX"- XI< 6] C
X,~ X, pois todas as distribuições são iguais. Mas X,- X ~ .\'(0, 1) C [jg(X")- g(X)j <c],
e P( 1X,- X i ; : : .::)
= 2 - 2<l>(t:), onde <l> é a função de distribuição da
logo P(ig(X")- g(X)j <r. )> I-<: para n suficientemente grande.
normal-pad:ão. Logo, para <: >O, P( i X, - X I ; : : e) -f+ O c X, -!t. X.
Resummdo, temos que os tipos de convergência possuem a se- s
Por isso, se O < < c, então para n suficientemente grande,
guinte relação: P(jg(X")- g(X) j <e);;:::: P(jg(X.)- g(X)/ < Ç) >I - Ç.
com. quase certa~ conv. em probabilidade ~ conv. em distribuição. Em outras palavras, P(jg(X nl- g(Xll <f.)--+ 1 quando n---+ x, 1.e.,
(iii) O Teorema df! S/utsky. Nesta seção consideramos alguns casos g(X") .f,. g(X). 0
Como conseqüências desta proposição temos. por exemplo,
em ~ue convergência de variáveis aleatórias acarreta convergência de
X. 14 N(O, I )=X~ 14 X~ ; X.14 N(O, I J=cX".ll N(O, c 2 ); X • ..t. c> O=
funçoes, somas ou produtos das variáveis. Iniciaremos nosso estudo
= log X" .f. log c.
248 Probabilidade: Um curso em Nivellntermediârio Funções Caracterfstlcas e Convergência em Distribuição 249
Ohsermçãu. Quando g não é definida e contínua em toda a reta, por (Podemos provar que EZ.-+0 diretamente. sem apelar para o
exemplo, g(x) = log x ou g(x) = I /x, pode-se provar que Teorema da Convergência Dominada:
a proposição ainda vale se para algum conjunto aberto A c IR, g é
O :S: EZn = EZn/[Zn~"l + EZn/[Zn>EJ :S: E(c) + 2E J[Zn>'l =
contínua em A e P(XEA)= I. Se g(X.) não é finita com probabilida-
=e+ 2P(Z. > c) < 2e
de I, como é o caso se g(x)= I!x e P(X. =0) >0, g(X.) pode ser arbi-
trariamente definida quando não é finita, de maneira a convertê-la para n suficientemente grande, pois z• ...!'. 0.)
em variável aleatória. Analogamente, a condição de que P( Y. =1 O)= I (b) Conseqüência de (a). pois - }'~ ...!'. -c.
no item (d) do teorema seguinte não é necessário, se X .I Y. é arbitra- (c) Suponhamos primeiro que c =O. Queremos mostrar que
riamente definida quando }~=O, digamos X.IY. =O. Y.X n -º. O. Para tanto, basta provarmos que l~X • ...!'. O, pois conver-
gência em distribuição decorre da convergência em probabilidade.
TEOREMA 6.4. (Teorema de Slutsky). Sejam X, X 1 , X 2 , . .• e Y1 , Y2 , ...
Agora sejam c, (i >O e x <O < y pontos de continuidade de F x
variáveis aleatórias tais que X n-º. X e Y• ...!'.c, onde c
tais que F x(Y)- F x(x) = P(x <X :s; y) > 1 - b. Como X n-º. X, temos
é uma constante. Então
P(x <X n :s; y) = F x.{y)- F xJx) > I - b para n suficientemente grande.
Definamos M = max (y, - x); então a convergência em probabilidade
(a) X.+ Y.-º. X+ c;
de }~ para zero implic~ que P(! Y. I < E/ M) > I - t5 para n suficientemen-
(h) X.- Y.-º>X-c;
te grande. Logo, para n suficientemente grande (observação: P(A n B) ::2:
(c) Y. X.-º. eX; e
;:;::: 1 - P(A')- P(B')), temos
(d) se c =I O e PO~ =1 O)= 1, _X. -º. ~-
Y. c P (x < X n :S: y, I Y. I < -~ ) > I - 26.
Prova. A prova utilizará funções características. Para uma prova mais Como x <X.s;y e Il~l <c/M implicam IX.Y.I <c, temos P(IX.l~l <
"elementar" - partindo da definição de convergência em dis- <E) > 1 - 2() para n suficientemente grande. Portanto, para todo E >O,
tribuição - veja Bickel e Doksum [3], p. 461. Pil X n Y. I <E)-+ 1' i.e., X n Y• ...!'.O, como queríamos demonstrar._
Agora consideremos o caso de c geral. Como Y.X n =c X.+ ( l.- c)X.
(a) Pelo Teorema de Paul Lévy, basta provarmos que (/Jx"+dt)-+ e Y -c-.!'.0 segue-se da conclusão no caso c=O que (Y.-c)X.-.!'.0.
n ' . D
x, para todo tE IR. Temos
-+ (/Jx +c(tl quando n-+
Além disso, temos <p,xJt) = (/lxJct)-+ <px(ct) = <p,x(t), 'v' tE IR, 1.e. eX."""+
(/Jxn+l')t) = Eeir(Xn+Yn) = Eeil(Xn+c) + EeirX"(eill'n- ej"). -º.c X (este resultado decorre também da proposição anterior). Como
Y.X n é soma de dois termos, o primeiro dos quais convergente para
Como Ee;'x"=<p:~)t)-+<px(t), a primeira parcela do termo à direita c X em distribuição, e o segundo para zero em probabilidade. o resultado
tende a e;" (/Jx(t) = (/Jx+c(t). Logo, para terminarmos a prova basta que é conseqüência do item (a).
provemos a convergência para zero do segundo termo. Como (d) Pela proposição anterior, I/Y.-.!'.1/c. Agora basta aplicar o
IEe;'x"(e;'r" _ ei'c)/ :s; Ele;'x"(ei'l" _ ei'cJI = Ele;'r" _ e;''l, item (c). O
porque/ e;' x"/ = 1, basta provarmos que E/ e;' r"- eirc /-+O quando n-+ x. PROPOSIÇÃO 6.8. Sejam Y1 , Y2 , ... variáveis aleatórias tais que
Mas isto é conseqüência do Teorema da Convergência Dominada, .._ln( Y.- J.1.)-º. N(O, a 2 ). Se g(y) é uma junção deri-
que vale também no caso de convergência em probabilidade (não
Pável no ponto J.1., então jti(g( Y.)- g(J.1.))-º. N(O, a 2 (g'(J.1.)) 2 ).
provaremos esta extensão do teorema): como Y. ...!'.c implica que
z n def/
= eilYn - eire/ -'-+p O, peJa propos1çao
. _ . / . .
antenor com g(y) = e"Y- e"c ,
e como a seqüência é dominada pela constante 2, pois /Z./ /e;'r"l
:s; +
1
Observação. O resultado vale quando g'(J.1.) =O, se a distribuição N(O, O)
+ Ie'" I = 2, temos EZ.-+ O. Portanto, o item (a) está provado. é interpretada como massa pontual em O, ou seja, O~ N(O,O).
250 Probabilidade: Um curso em Nfvellntermediário Funções Caracteristicas e Convergência em Distribuiçlio 251
Prom. A idéia da prova é esta: sob as condições dadas, }~ ~ Ji em dividindo o numerador e o denominador por 11. A conclusão fica
probabilidade quando ~ Como g é derivávd em p e. na
11 f_.
vizinhança de p, g(y)- Y(JL) ~ g'(p)(y- p), temos "'n(g( }~)- Y(Jl)) ~

v n(I,:~~) 14 N(O. I).
~ ,/n g'(p)( }~- p). Esta última variável converge em distribuição para
ou ainda (pela Proposição 6.7 ou por Slutskyl
o produto de g'(p) com uma variável N(O, ()' 2 ). de modo que o iimite é
N(O, (J'2(g'(p))2). "'n(X,- t<) J.>. N(O. ()'
2
).
Verifiquemos primeiro que }~-.!'. p. Para tanto, sejam c> O e m

Pela Proposição 6.8. temos, por exemplo:
um inteiro positivo. Como
(a) Seja g(x) = x 2 . Entilo g'(p) = 2JL e
P(l l, - Pl <c)= P(knO~ - 1dl < ,:n 1:) 2': P(- m <v nt }~- p) s m)
para 11 suficientemente grande, temos

, nc\'; - p 2 ) J.>. N(O, 4(T 1 Jh
(b) Seja g(x)= l,x. Se p=O, g não é dcrivável em p c não pode-

lim inf P(l }~ - Pl < c) 2': $(m)- $(- m).
n~'
mos aplicar .a proposição. Mao. se JL =F O. então g'(p) = - I 11 2 e
2
onde <1> é a função de distribuição da .\'(0, I). Como isto vale para
todo m e o termo à direita converge para I quando m ~ x, segue-se "' n , x: - ~~. =
- ( i I ') D ('
N O, 114 .
()' )
que P(/}~-pl<c)~I quando n~x. para todo ~:>0, i.e .. l;,.E.,~,

(Para que o termo à esquerda seja uma variável aleatória. podemos
Já que g(y) -!Y(JL) = g'(p)(_r -fL) + t'(y)(y- p). onde lim e(y) =O,
y-Jl
definir I X, arbitrariamente quando X,= 0.)
temos Notemos que, no início da prova da Proposição 6.8, demonstra-
"'!n(g( }~) - g(p)) = (g'(p) + e(}~)) /n( }~ - p).

mos que se ,in(
l;,- p) 14 N(O, ()' 2 ), então l~-.!'. JL. Portanto, o 1corema
Central do Limite, 1w caso de t·ariát•eis indt>pendt>lltes c idt>llticamcnte
Agora basta provar que g'(p) + e(}~) 1'. g'(JL), ou equivalentemente. distribuídas, implica a Lei Fraca dos Grandes Números, te.,
e ( }~) -.!'. O. para poder aplicar Slutsky e terminar a prova.
v' nc\", - td 14 .\'(0. I)= x, -.!'. 11.
Para provar que d }~)-.!'.O. seja 1: > O e considere P(i e(}~) i < 1:).
Como lim e(y) =O, existe 6 >O tal que i e(y) i < 1; se i y- 11! < ô. Logo, (iv) Uma caractai:aç-ào das .fimçõt>s carat"terísticas. Suponha que
.r-+JJ.
temos uma função <p. definida na reta real e tomando valores com-
se ! }~ -11i < ô, então je(}~)J <c, de modo que P(i 1;,- < 6) s Pi plexos, ou seja, <p: íR: ~ ~•. Consideremos o problema de determinar
sP(ieO~JI<t). Como P(il~-pj<6)-+l. pois }~l'.p. a seqüência se <p é uma função característica. Partindo da suposição de que <p seJa
P(l e(}~) I <E) necessariamente converge para I quando n ~ :r_, como contínua e satisfaça <p(O) = I, há uma solução teórica geral para este
queríamos demonstrar. O problema, devida a Bochner c Khintchin: <p é característica se, e só
EXEMPLO 9. Sejam X 1 , X 2 , ... variáveis aleatórias independentes e se. é definida positiva.
identicamente distribuídas, com EX,= 11 e V ar X,= ()' 2 , DEFINIÇÃO 6.5. Uma função <p: R:->[, é chamada dt>/inida positiru
2
onde O< ()' < x. Então pelo Teorema Central do Limite, se para todo n = I. 2, . . . c toda 11-upla (c 1 , ..•• c,)
de números complexos temos
s,_ -;__tlf' 14 S(ü, 1'· n n
' / ll (J
L L ip(ti-tdcf,:?:O. l:/(t 1 , ... ,t,)EIR".
D emm v ,=
fi . d o ... s,--=-X --+ ...------
I +X n (x- ,eamediaamostral
' ' d aamostra
k' I j- I
ll ll Para ver que uma função característica é necessariamente definida

2
de tamanho n), podemos reformular o Teorema Central do Limite, positiva, e preciso recordar primeiro que se c é complexo, então('('= I c 1 •
252 Probabilidade: Um curso em Nivel lntermediério Funções Car11cterlsticas e Convergência em Distribuiçlo 253
Então, se qJ é a função característica da variável aleatória X temos EXERCÍCIO S DO CAPÍTULO 6

para t ~> .. . , '" reais e c ~< ... , c. complexos, '
§6.1
~ qJ(ti- tk) C/'k = L C/'k EeiUJ -tkiX =
~k ~k
1. (a) Se X "'b(n, p), qual a função característica de X ?
(b) Mostre, usando funções características, que se X- b(m, p),
Y - b(n, p), e X e Y são independentes, então X + Y - b(m + n, p).
2. Mostre que se X 1, ... , X" são independente s com, cada uma,

n
f' -
distribuição simétrica em torno de O, então I ai X i possui dis-
TEOREMA 6.5. (Bochner-Kh
,
intchin)• Seia
J
m· 11\\
, •
In· r
-+ \(.., uma . unçao con- ' j= I
. . _ tm~a .tal que qJ(0 ) = 1. qJ é uma função característica tribuição simétrica em torno de O, para toda escolha das constantes
(z.e., fu?çao c_aracten stzca de alguma variácel aleatória) se, e somente ai E IR.
, I
se, qJ e d~fimda positil'a. ·
3. Seja qJ uma função característica . Mostre que 1/!(t) = e;. • - ',
1 10 1
onde Â >O, também é função característica. (Sugestão. · Sejam

Prova. A necessidade da condição .foi demonstrada acima. Omitimos
N, X 1, X 2 , • . . independentes tais que N - Poisson (À.) e as Xn são
a prova da suficiência . Veja Fellcr [9] )(XIX.., ou Gnedenk
[11], §39. o '. o
:'1 ·- identicamente distribuídas com (/Jx. = qJ. Defina Y = SN, onde
Sn = X 1 + ... + X n: N é um "tempo de parada" para a seqüência
~a prá~i~a, costuma ser dificil verificar se uma dada função é de somas parciais. Então (/Jt· = 1/1. A distribuição de Y é chamada
:t defimda_ positiva. No entanto, o critério é de utilidade teórica como
no segumte exemplo. ' distribuição composta de Poisson. A distribuição comum de Poisson
11 corresponde ao caso x. = 1, i.e., P(X. = 1) = 1.)
\
lf EXEMPLO 10. Se!a~ qJ 1 , (/)2, ... funções característica s. Então toda 2
4. Calcule EX 3 e EX 4 , onde X- N(J1, a ). (Sugestão. Calcule pri-
li media ponderada das (/J" é também característica, onde meiro para a N(O, 1) e use linearidade.)
I por média ponderada entenda-se função qJ da forma
11 5. (a) Mostre que se X tem distribuição Cauchy-padr ão, então qJ2X(t)=
( qJ(t) =I Pm(/Jm(t),
ll m
= qJi(t).(Pode usar, sem provar: -
1
.
Joc
COS (xt)
2 dx = e
_
11 1.)
n - :r 1 + x
com Pm ~O e ~ Pm = I. I~to vale porque qJ(O) =I PmqJm(O) =L Pm = 1 Utilize esse resultado para provar que
m m
k
(/JxH( t) = (/Jx(t) (/Jt (t), V tE IR+ X e Y independente s,
e (/J é continua (m~J Pm(/Jm é contínua para todo k e tende uniforme-
mente a (/J quando k--+ ·XJ ). Resta verificar se tp é definida positiva : e portanto,
~ ({J(lj- tkkA =L (LPm(/Jm(t j- td) c_lk = F x + y(z) = F x • F y(z). V z E ~ + X e Y independentes.

~k ~k m
(F x • F t é a convolução de F x com F y.)
= (a série é absolutamen te convergente) = (b) Sejam X 1, ••• , Xn independentes e identicamente distribuídas,
= LPm(L({Jm(tj - tk) C/'k) ~ O, com distribuição comum Cauchy-padr ão. Demonstre que a
m j,k
me'd'1a amostra I -Sn = X I + ... + Xn tam bé me auc y-pa rao.
'C h d -
pois cada (/Jm é definida positiv<• n n ·
254 Probabilidade: Um curso em Nlvellntermediário funções Caracterlsticas e Converg6ncia em Distribuição 255
6. Sejam X c }' variáveis aleatórias com a mesma distribuição.

Demonstre: 11. O btenha a função geradora de momentos (definida no exercício
anterior) das variáveis aleatórias seguintes:
(a) Se X e Y são independentes. então X - Y tem distribuição
(a) X - Poisson (À), onde À >O.
simétrica em torno de zero.
(b) X - Cauchy-padrão.
ib) Se X e Y tomam só dois valores. então X -r tem distribuição (c) X _ exp (),), onde ). >O. Utilize o resultado para calcular os
simétrica em torno de zero. 1 . . . . C on fiIra com os momentos oh-
momentos EX",' k = I, ~,
7. (a) Suponha que X - exp (/.) e mostre que a função característica tidos no exemplo 5 do Capítulo 3 ( ~3.4).
2
de _,.v e. cp ( x- ) = ;.
-- = ) - + itl.-
. 1.-it ) 2 +t 2 . ~6.2
(b) Seja Y exponencial dupla com densidade 12. Verifique se c 1, c 2 , ... e c são números complexos tais que c,.-+c,
/ ··(\') =
. ) .
A
1
c·-.< Ir I, \'E
'
IR. então ( 1 + c~)" . . . e'. (Sugestão. Considere o logaritmo principal
Calcule a função característica de >:(Sugestão. Use simétria e o c

item (a)). de I + ".)
ll
(c) Demonstre: se Z e W são independentes e identicamente dis-
13. (a) Suponha que X,.~S(O,)), l~~N(O,I) e. par; tod~ n, X,.
tribui das, com Z- exp (/,), então Z- W é exponencial dupla.
seja independente de Y,.. Mostre que X,.+ Y,.-+ N(O, -l.
8. Use a função característica do exercício anterior para mostrar · (a), provan d o que se, X ,. -º> F e Y,. !!.. G, onde X " e
(b) Generalize
F G
que se X - r(n, fh então CfJxUl = (' __ f!__.)"· IJ
1';, são independentes Vn, então X,.+. Y,.--+ F* G. Aq~1,
.
e
/l-lt são funções de distribuição e F * G e sua convoluçao.
9. Demonstre:
(a) Se l.fJ é uma função característica e existe;,#- O tal que cp(/.) = I, 14. Qual a distribuição de X se X tem função característica CfJxUl =
então a distribuição correspondente a <p está concentrada = cos 2 (1)? (Veja o exemplo 3.)
15. Mostre que é possível para uma seqüênci~ de funções de d~s

1 '
nos pontos ± k (. ---~~ )- k = O, L ....
tribuição convergir em todo ponto sem o h~It.c ser u~a funçao
(b) Se l.fJ é uma funçã~ caracte.rística e existe ô >O tal que <p(t J = I de distribuição. (Sugestão. Considere as vanave1s aleatonas cons-
para todo t com : t! <á. então <p(t) = I Vt. (Qual a distribuição tantes X,.= n.)
correspondente a <p ?)
16. Prove: se F, ...... F fracamente c F é contínua. então F ,.(x) converge
IO. A .fímçào geradora de momentos de uma variável aleatória X é para F(x) uniformemente na reta.
definida por
!f x(l) = Ee"\ I E !R.
17. lltilize funções características para provar: se X n -+fiiJ N(O, I lt_ e
(a,.),. , é uma seqüência de números reais tal que a,.-+a 101to, en an
1
(É permitido a !f x assumir o valor + x .) Demonstre que se X,.+ a,. .!!. N(a, I).
E/' I x I< x para algum b >O, então:
(a) 1/J(t) é finito para tE [ - b, b];
,·
18. St:Jam x I• x 2• ... variáveis aleatórias, cada uma tendo distri-
v X
(b) todos os momentos de X são finitos: e buição simétrica em torno de zero. Demonstre que se X,. -+ .
(c) 1/1 possui derivadas contínuas de toda ordem em (- ô, b), e então x também tem distribuição simétrica em torno de zero.
ljJlk'(O) = EXk para k = I, 2, .... (Sugestão. Use o método de ·
19. ScJam I•
x x
2,...
independentes e identicamente .
distribuídas,
,
com
,
prova da propriedade FC9.) x,.-
U[O, 1]. e sejam Y,. = min(X 1 , ..• X,.), Z,. = max(.\: I• ... ,X,.),
256 Probabilidade: Um curso em Nfvellntermediário funções Caracteristlcas e Convergência em Olstribuiçllo 257
U. = 11 r.. v.= n( I - Z.). Mostre que, quando n--+ a::: 25. Prove a Proposição 6.2 para m e n quaisquer. (Pode us~~ o ~e
( (a) r• ..:. o e z • ..:. I. seguinte fato, sem prová-lo: se ! e são vetores aleatonos In-
dependentes, então g 1 (~) e g 2(.!:) são independentes, onde g, e 92
r
(b) U" E. W e v. E. U< onde W tem distribuição exponencial de
parâmetro 1. são funções reais mensuráveis.)
20. Seja (X.I.~ 1 uma seqüência de variáveis aleatórias ind~pendentes 26. (Propriedade FC9 para vetores). Seja =(X,, ... , Xk) um v~tor 2
aleatório. Sob condições de regularidade, o momento mtsto
e identicamente distribuídas, tais que P(X" = I) =+ = P(X" = - I), E(x m, vml xm•) onde os m . são inteiros não-negativos, poderá
I A2 •·· k ' J
e seja ser obtido derivando-se a função característica de 2:
r.= L" l
2k xk.
(lm• +··· +mk l
- - - . , - - - - q>X\( 1, ... , (k
) I = I·m· +··· +mk E(Xm'
I
... xm•).
k
u"'tm'
1 "'tm•
••• U k - .!..=Q.
k I
Demonstre este resultado no caso em que k = 2 ·e m, = m2 = l,
Mostre que r.!!. U[ -1,
1]. (Sugestão. Use a igualdade
sob a condição de que EX 1 , EX 2 e EX 1X 2 sejam finitas, i.e., de-
cosO= sen (20)/(2 scn 0).)
(
(
21. Sejam X 1, X 2 , ••. variáveis aleatórias cujas funções características
cp" cp 2 , •.. convergem pontualmente, Mostre que se existe <5 >O
monstre qu: iJ2"' Cf><x ,.x,) (tl, r2) I -EX ,X2.
ul 1 l ·l2 1,= 12 =o
tal que cp.(l)--+ I para todo t com ItI < <5, então X"__:. O. (Sugestão.
21. Suponha que X= (X 1, ••• , Xk) tenha distribuição multinomial ~o~
Use o resultado do exercício 9.)
(
parâmetros p 1 7...,
Pk e n (esta distribuição é definida no exerc1c10
7 do Capítulo 4).
(a) Mostre que a função característica de ~ é
§6.3
22. Dizemos que~= (X 1, ••. , Xd tem distribuição simétrica em torno
cp!(.t)= ( p1 eu 1 + ... + Pke i'")"• _t E u-..
~n~k
de zero se ~ e - ~ possuem a mesma distribuição. Demonstre (b) Utilize o exercício 26 para calcular a covariância entre X i e
( que ~ tem distribuição simétrica em torno de zero se, e somente X r,j #f.
( -
se, Cf>x(t) é real para todo tE ~k.
-
23. Sejam X, Y, U e V variáveis aleatórias definidas em um espaço
§6.4.
( 28. (Generalização da Proposição 6.3.) (a) Demonstre ~ue se
de probabilidade (Q,.crl, P). Suponha que os vetores (X. Y) e (U. V) X 1, X 2, ... e X tomam somente os valores : ~, x 2, .• :• en~ao con-
( sejam independentes, que X seja independente de r e que U vergência pontual das funções de probabthdade tmphca con-
( seja independente de V. Mostre que X, Y, V e V são coletivamente
independentes. Generalize esse resultado para o caso de 11 vetores
vergência em distribuição. i.e., demonstre que se p(xk) = I = f
(
aleatórios independentes, cada qual composto de componentes = i-
'\' p.(xd. Vn e p.(xd--+ p(xd, Vk, então X,. 14 X.
n-::o '
independentes. k N
(Sugestão. Para e >O, escolha N tal que t~l p(xk) > 1 - e e con-
( 24. Sejam X, Y, V e V variáveis . aleatórias, e sejam Z = X + i e r
W = V + i V. Demonstre: clua que para n suficientemente grande, e todo x E ~.
(a) Se os vetores (X, r) e (V, V) são independentes, então X e U
são independentes. -2e +F x(x) <-e+ L
k ~N: Xk ~ X
p(xk) <F x.(x) <
(b) Se (X, Y) e (V, V) são independentes e X, Y, U e V são inte-
gráveis, então E(ZW) = EZ • EW
< 2c + L p(xk) ~ 2e + Fx(x).)
k '$, N: Xk S x
258 Probabilidade: Um curso em Nlvellntermedlário Funç6es Caracterfsticas e Convergência em Dlstribulçlo 259
(b) Demonstre que vale a recíproca de (a) se os pontos x k são 34. Sejam X 1, X 2, ••• variáveis aleatórias independentes e identica-
isolados, i.e., se para todo k existe um intervalo aberto (ak, bd mente distribuídas tais que EX 1 =O e Var X 1 = u 2, onde O< u 2 < oo.
que contém xk e não contém outro xi. Sejam }'1, Y2 ,... variáveis aleatórias independentes e identica-
mente distribuídas tais que EY1 = Jl., onde J1 E llt Prove que
29. Cem mil passas são misturadas em uma massa que posteriormente
- r:: - n 2 d x- x ,+ ... +X,. Y.- Yt+ ... +Y,.
será dividida em partes iguais para fazer dois mil bolos tipo inglês. Y,. +v n X"-+ N(Jl., u ), on e ,. = n e "= .
n
Mais tarde, um bolo será escolhido ao acaso e será contado o
número de passas contidas nele. 35. Sejam X" ... , X n variáveis aleatórias independentes e identica-
(a) Explique porque você pode modelar esse experimento utili- mente distribuídas, com média Jl.x e variância ui < oo; Yt. ... , Y,.
zando a distribuição de Poisson. Qual o parâmetro ? variáveis aleatórias independentes e identicamente distribuídas,
(b) O modelo em (a) é uma aproximação. Qual seria a distribuição com média Jl.r e variância ui < oo. Suponha que as X i e Yk sejam
exata do resultado do experimento ? independentes e que Jl.x4= O. Ache o limite em distribuição de
(c) Qual a probabilidade de não encontrar passa alguma no
bolo, segundo cada um dos dois modelos? As duas proba-
Zn = fi ( Xn!n - _!!_!_)• onde
Jl.x
bilidades são realmente aproximadamente iguais ?
X = .!.!_~ .. +X,. e Y. = Yt + .. . + Y,..
30. Sejam X 1 • X 2•... independentes e identicamente distribuídas n n n 11
tais que X,. - U[O, 0], onde 8 > O. Demonstre que Y,. =
= .j'n :log (2 X,.) - log 8} converge em distribuição para a (Sugestão. Z,. = Jn (pxY,.- _!!rX") · Use o exercício 13.)
N (o' - 3~) ' on d·X-
\; n - X- , + ...
n + -X ,.-.
- Jl.xXn
36. (Este resultado é útil na Estatística Não-Paramétrica.) Sejam

( 31. Sejam X 1• X 2 , ... variávds aleatórias independentes e identica- T1, T2 , .. . e S 1, S 2, ... seqüências de variáveis aleatórias. Mostre
2
mente distribuídas tais que EX 1 = O. Ache o limite, quando 11-+ ·X, que se (i) T,- ET,. E. N(O, l) e (ii) E(T,.- S") -+ O, segue-se
da função característica de Y,. = cos (X 11 ) onde X,. =-~+ ... ± X ". J Var Tn Var T,
que - s_!!.~
- ES -+D N(O, l ). (Sugestao. Prove primeiro de (u)
.. que
11 -
32. Sejam X 1, X 2,... variáveis aleatórias independentes e identica- J VarS,.

mente distribuídas, com EX 1 =O e EX i.= 2. Ache o limite em
ETn _· ESn -+ 0 e ( T,- Sn) !. O. Depois, use a desigualdade do
distribuição das seguintes seqüências :
. jVar T, JVar T,
(a) Y1, Y2 , ... , onde Yn = ~~x_, + -{0..
._.._+
.
triângulo vánas vezes para provar que -V
Var S"
- T. -+ 1.)
X 1 + .. . + X,. ar "
37. (Continuação do exemplo 10). (a) Óê uma demonstração a lter-
nativa do fato de que I:.p.cp,. é função característica, provando
que I:.p,.F" é função de distribuição, onde F" é a função de dis-
tribuição correspondente a cp,..
33. Sejam X, X 1, X 2 , ... e Y1, Y2 , ... variáveis aleatórias tais que 1 + -t'!z . - ' . .
(b) Prove que cp(t) = e e uma funçao caractenstlca. Ext-
P(X n = O) = O = P(X = 0), X nE. X c Y,. !. c, onde c é constante. 2
}~ D C ba a função de distribuição correspondente. Essa distribuição
M ostre que X":" -+ X . é de que tipo ?
260 Probabilidade: Um curso em Nlvellntermediário CAPÍTULO VIl
(c) Mostre que <p definida por <p(t) = f .

- ca-
pn cos (a, t) e' funçao
.....,
n ;- 1 O TEOREMA CENTRAL DO LIMITE
racterística. onde a, E IR. p, :2: O e L.p, = 1.
38. O resultado do exemplo 10 e o exercício 37(a) pode ser ainda
dem.o nstrado ~o r u~ terceiro método : sejam X 1, x 2• . . . e x
vanaveis aleatonas mdependentes tais que x é discreta com
P(~ = .n) = Pn: :1 :2: 1, e X, possui função de distribuição F,, n :2: 1.
SeJa } a vanavel aleatória que é igual a X, quando X = n. de
modo que
}'=L n ,,. I
Xnfp nj· §7'1 O Teorema Central do Limite para seqüênci as
de variáveis aleatórias
Mostre que (p = L.p,<p, é a funçã o característica de l; usando
esperança condicional.
Consi::l~..~ rcmo-> uma seqü~n ci a de variúvcis akatórias indcpend ..~n
te.-;, X 1 • X 2 • .. . definidas no mc ~ mo espaço de probabilidade (Q (/, P!.
e se ja S 1 • S 2 , ... a seqüência d ~ somas parciai:;;, definida s por S, =
=-c X 1 + ... -+ X,. Recordemos que a Lei dos Grandes Número _; trdL ~
1
oJ a co nvcrgenCia
- ' d ;'! (S, - Eu' r) pa ra zero, quan d o n-+ ·f_ . supo n'j C>
11
que as X, sejam integráveis. Quando a seqüência obedi:ce

variá v ei~
<i Lei dos Grandes Números, existe uma tendência da variávd alea-
tória s,__
n
a média amostrai no caso de variáveis independentes .:. iden-
ticamente di stribuídas. pa ra concentrar-se em tomo de sua média.

\' eremos neste capítulo que sob certas hipóteses gerais. a sua distribui-
çã o quando padronizada tende à normal.
O problema central do limite trata da convl.!rgência em distribui-
. . norma 1·Iza d as, -S,-
- d as somas parciais . -
- , - - ES" . para a d'Istn'b uiçao
çao
v ' Var Sn
normal-padrão ;\' (0. I). Para tanto, supõe-se que todas as variánCia ~
sejam finita s e que pelo menos uma delas seja estritamente positi va .
O problema consiste em achar condições sob as quais
·~,::_ §Sn ~ N(O.' I) .

•,.1Var s.,
Já vimos uma solução para o problema central do limite no ca:;0
de variáveis independentes c identicamente distribuídas: se as X, po ;;-
262 Probabilidade: Um curso em Nfvellntermedié rio O Teorema Central do Limite 263
suem média 11 e variância rr 2 , onde O< rr 2 < x. então integração, pois os intervalos são abertos. Se X k for discreta, com
função de probabilidade pk(xi), então
S,- nJl v .
a fi
-+ N(O,l).
r
J~-ltk
2
(x - !1k) dF k(x) = i: ~<i_~ i>"'" (xi
2
- !1k) Pk(xJ
I>Esn
Notemos, então, a diferença entre o Teorema Central do Limite e Por outro lado, se X k tiver densidade fk(x), então
a Lei dos Grandes Números neste caso. A Lei dos Grandes Números
diz que a média amostrai ~
n
converge para Jl, em probabilidade ou L-~t•l>e•. (x- Jik)2dFk(x) =f~-··· (x- J1k)2f,.(x)dx +
quase certamente, i. e., a diferença ~- J1
tende para zero, e o Teo- + f+ oc. (x - J1k)2fk(x)dx.
n
rema Central do Limite diz que esta diferença, quando multiplicada IJk +t.:ln
pela raiz quadrada de n, converge em distribuição para uma normal : Notemos também que
Jil (- ~~ - J1) _!?. N (0, rr

2
). a;= f(x - J1k)2dFk(x)c= f (x- !1k)2dFk(x) +
1<-l'•i><•·
Enunciaremos agora o Teorema Central do Limite de Lindeberg,
que dá condições gerais para validade da convergência normal (a + r (x- /1k) 2 dFk(x~
prova será dada mais adiante). J1< - 1'• JS~:s.
de modo que a condição de Lindeberg pode ser escrita da seguinte
TEOREMA 7.1 . (Teorema Central do Limite de Lindeberg.) Sejam forma, utilizando-se o fato de que s; = af + ... + a~:
Fn =F x..
X 1 , X 2 , ... variáveis aleatórias independentes tais que
EX n = Jln e Var X n = a;,
onde a;
< x e pelo menos um
sn =X I+ ... + Xn e Sn = Var Sn = ar+ ... + .J
>O. Sejam
Então, .J
a;
a:.
Ve >O,__;-
Sn
I
k= I
f l .x- l'kl S ""
(x- J1k) 2 dFk(.x)-+ I quando n-+ oo.
para que
A condição de Lindeberg significa, basicamente, que as parcelas
s- ES -+
,.
D
N (0, I) quando
t _n_ _ _!!_
Sn
11 -+ x, X k - Jlk da soma S, - ES, são uniformemente pequenas para n
s, s,
é suficiente que a seguinte condição, chamada condição de Lindeberg, grande. Por exemplo, a condição de Lindeberg implica
. 2
fJt esteja satisfeita:
max a~ -+O quando n -+ oo,
~IJI Ve> O, lim
n- J.
~ I= f
S,. k 1 lx - JJk I> t.sn
(x- J1d 2 dFk(x) = O.
iSk S n S,
ou seja, para n grande, as variâncias das parcelas sã? uniformemente

( pequenas em relação à variância da soma. Para ver tsto, observe que
ltq Em outras palavras, se a condição de Lindeberg está satisfeita,
para todo k,
~!
vale a convergência normal.
Observação. A notação J ~<-"" i><s. significa que a integração é feita

( '1tt~
em {x: lx -pkl > esn} = (- rx., flk - t: s,)u (/1k + cs,, +<X> ).
l
Ui Lembre-se que os dois extremos não estão incluídos na região de
lU
lll
264 Probabilidade: Um curso em Nível Intermediário O Teorema Central do Limite 265
I (Referência: Feller [9]. Teorema 2 do §XV. 6. Notemos que a con-

< --
-
s-1
"
dição dada por F e!ler, a saber, s~ --+ x e O"~ I s; . . .
O, é equivalente à
1
condição sobre o máximo. Veja o exercício 6.)
<--
- 2
Sn
Observação histórica. A distribuição normal era chamada historica-

Este último termo não depende de k, pois a primeira parcela é igual
a ~: 2 . Portanto, temos mente de lei dos erros. Foi usada por Gauss
(Jf
max -T
!•,k<n Sn
s s2 + -.I2
5n
In
k= I
f
~\ IJ> k '>n
(x-
'
Jld"dFk(xl,
para modelar erros em observações astronômicas, e por isso é fre-
qüentemente chamada de distribuição gaussiana. Gauss derivou a dis-
tribuição normal, não como limite de somas de variáveis aleatórias
independentes, mas a partir de certas hipóteses consideradas naturais
que converge para 1: 2, pela condição de Lindebcrg. Como vah: para
para a distribuição de erros, entre elas a de considerar a média aritmé-
todo 1: >O, temos max (O"f js~)--+ O.
tica das observações o "valor mais provável'' da quantidade sob obser-
. - quer d.1zer que as parcelas X,- -. Jik
U ma vez que essa con d Içao vação (veja Maistrov [ 15], §li 1.1 0).
5i" Hoje em dia o T eoreina Central do Limite dá apoio ao uso da
possuem variâncias uniformemente pequenas quando n é grandL:, po- normal como distribuição de erros, pois em muitas situações reais
. S -- ES é possível interpretar o erro de uma observação como resultante de
demos d1zer que nenhuma parcela tem muito peso na soma " - "-
-,·~~ muitos erros pequenos e independentes. Há, também, muitas situa-
Do ponto de vista intuitivo, isso serve para justificar a afirmação: ções em que se pode justificar o uso da normal através do Teorema
a soma de um grande número de pequenas quantidades independentes Central do Limite, embora não necessariamente sejam casos sujeitos
e de média zero tem aproximadamente a distribuição normal. a erros de observações. Por exemplo, a distribuição de alturas de
Observemos que a condição de Lindeberg é formalmente mais homens adultos de certa cidade pode ser considerada aproximada-
forte que a mera condição dada acima sobre o máximo das variàncias mente normal, pois altura pode ser pensada como soma de muitos
n
efeitos pequenos e independentes.
Como s; = I
k' I
f(x- pd 2 dFdxl, a condição de Lindeberg diz que quan-
A distribuição normal não originou com Gauss. Apareceu, pelo
do n é grande, é pequena a parte da variâm:ia da soma devida às "caudas" menos discretamente, nos trabalhos de De Moivre, que provou o
das X k situadas a mais de 1: desvios-padrão s, das suas respectivas Teorema Central do Limite para o caso de ensaios de Bernoulli com
médias li•· I
É interessante, porém, que na presença da condição sobre má- o p = - - (parte do Teorema de De Moivre-Laplace).
2
ximo, a condição de Lindeberg torna-se necessária para a validade
do Teorema Central do Limite. Essa recíproca para o Teorema de
Lindebery deve-se a Fcller: se X 1 , X 2 , ... são independentes com ra- Antes de provar o Teorema de Lindeberg (não provaremos a re-
riâncias finitas O"T, O"~, ... , se pelo menos um O"; >O e se max (0"1 /s~ )--+O cíproca de Feller), consideremos dois corolários e um exemplo. Pri-
J:S:k~n
meiro, um resultado já provado diretamente no Capítulo 6.
quando n--+ x, então a condição de Lindebery é consequência da con-
t•eryência normal, i. e., COROLÁRIO I. Se X 1 , X 2 , ... são variáveis aleatórias independentes
e identicamente distribuídas com EX n = J1 e J!ar X" =
S,._=§S!!_ ~ N(O, I)= V 1: >O. 2 2
sn = 0" , onde O < 0" < x', então
Sn- nJl D
-~-- -;:::::::.- ____. N (0, 1) quando n --+ oc..
O"-..../ n
tobabiNdade: Um curso em Nlvel Intermediário O Teorema Central do Limite 267
Jva. Verifiquemos a condição de Lindeberg : s; = naz e, para e> O,
__!T
na
I
k= !
f
~< -· l'lst~,;n
(x- J1) 2 dFk(x) =(são identicamente
I n 6
'EIXk-J1ki2+ -+0quandon-+ oo. O
.,
( ' -
- ~6s2+6 ~
11 distribuídas)= ~2 f~< - l' l,"iJ ,m (x- J1) dF (x)
2
1
" • k 1
EXEMPLO I. Sejam X 1 , X 2 , independentes, X. - U [ - n, n].

••.
.
Mostraremos de duas maneiras que
s. - ES. -+D N(O, I),
J I s.
verificando as condições de Lindeberg e Liapunov.
!I onde a convergência decorre da definição da integral imprópria de
Primeiro, a condição de Lindeberg. Como J1k = EX k = O e crf =
• Riemann-Stieltjes. O
I fk
kz
x 2 dx = - , temos
• O segundo corolário é o Teorema de Liapunov; que pode ser
=V ar Xk = EXf = -
. 2k -k 3
• muito útil quando as variáveis X. possuem momentos finitos de ordem

maior que 2. Afirma este teorema que vale a convergência normal
• k2
L: - 3 •
•'
11
se a soma dos momentos centrais absolutos de ordem 2 + () é assin-
toticamente pequena em rehição a s; u.
k= I
Acontece que não precisamos lembrar, nem calcular, o valor desta
•
R
COROLÁRIO 2. (Teorema Central do Limite de Liapunov.) Sejam
X 1• X 2 •.•• variáveis aleatórias independentes. tais que
(
,.
soma e 1gual a
18
.
n(n+1)(2n+l)) . De fato, veremos que o tm~r-
tante é a ordem de s; e não o seu valor exato. Usaremos o segumte

I
I
EX. = J1. e Var X. = a;
< oo, com pelo menos um >O. Seja s; = a; lema, que trata da ordem de séries do tipo I:n":
Var s. =cri + ... +a;. Se existir () >O tal que · -
•
11
I
2"+6 f E Xk
~ I - J1k 12+6 -;;::::O, LEMA 7.1. Para Ã> 0,
Sn k=I
• l
então
I
;::;:y L" k"-+ - 1-I-- quando n-+ oo,
( n k=l 11. +1
I
~ s. - ES. E. N(O, I). L
n
k" é da ordem de n;, + 1 .
• s.
Prova. Verifiquémos a condição de Lindeberg, supondo satisfeita a
de maneira que
k=l
condição de Liapunov. Para e > O, se I x- J1k I > e s. então Prom do lemu. Como x" ~ k" se k - I ~ X ~ k e e ~X). se
Ix - J1k 16í(~> 41~) > I , de modo que k ~ x ~ k + 1, segue-se que
e, portanto. somando-se em k de I até n,
•
•
11
~ I
O Teorema Central do Limite 269
Logo, Aplicando o lema, temos que L" E! X,- p,[

k" I
3
é da ordem de
4
11 . Foi
11>T I n ' (11 + 1);. ~I - ) (11 + !);+I
visto acima que s, é da ordem de 11 3 2 , logo s~ é da ordem de n . Como
9 2
- -~- < ) k <----·--·-- < ---·---
), + 1 - k ..:...I - ). + I - ; + 1 s;,é de maior ordem que a soma dos momentos, a condição de Lia-
ou equivalentemente, punov está satisfeita. (Demonstração formal, utilizando o lema:
----
1
I < -·-- y" I · (~1
k' < - - )'+I n
It.:[X,-.uk\3
;_ + I - 11d I k~l -i+ I 11 I
k I
lim
+ 1' i.+ 1 16'
Como ( ~---) ---> I quando 11---> :r., o lema está provado. O
' I
Voltando ao exemplo, consideremos a parcela lim

n~ f
I (x-
2
!ld JFdxl = Í 2
x dFk(x). Portanto,
. Lx IJ.I-1 > ,,,.," J1.\1 ,.1:~,1
Como a densidade de X k toma o valor zero fora do intervalo [- k, k J
e c.s, > n para n suficientemente grande (pelo lema, s~ é da ordem
de 11 3 , logo s, é da ordem de 11 3 ' 2 ), temos que. para 11 suficientemente lim - ,
L E i• X k - fik
13
= 1·1m
s~
1
n ___..,. k 1
grande, a densidade assume o valor zero na região de integração, para f 11--+ f
todo k ~ n. Isto quer dizer que para todo 11 suficientemente grande,

todas as parcelas são nulas e a condição de Lindeberg está satisfeita.
Vejamos uma demonstração formal, utilizando propriedades da
integral de Stieltjes: para I ~ k ~ n, Ohst'rração. Podemos verificar a condição de Liapunov para todo ô.
neste exemplo. Mas basta verificar para um valor de ô,
,. _ x 2 JF.(x)= j"x 21:,..~ 1 , 1 >.,,.(x)dF.(xl=(pela e o valor 1 é muito conveniente .
.. I.\ I > I.S,I
k
1
' densidade) = -, 1:.--: I x 2 / :x-O<, ,,,,,:(xldx. Agora, provaremos o Teorema de L!ndeberg. Para facilitar a lei-
- J 1 -': /
k tura da prova, recordemos a condição de Lindeberg:

e esta última integral é nula se 11 < r s,. pois. nesk caso. o integrando
I
toma o valor zero em [- k. k]. Como o lema implica que s;,;n 3 ---> .
9
temos
' , Prora do Teorema de Lindebcrg. Mostraremos que as funções carac-
s~ s~
~, =~3•11--->+J.. terísticas das somas parciais padro-
n- I!
nizadas convergem para a função característica da N(O. I), i. e., Vr E IJ;l;,
de modo que n < 1: s, para n suficientemente grande.
Verificaremos. agora. a condição de Liapuno\' para ô = I. Temos qJ 1s .. ~:s .. 11,,. (r) = (por independência) =
E[Xk- J1,[ 3 = E[X,[ 3 = -_-
I r• [x[.ldx =
I k3
j,.k x 3- dx = ~. (7.1)
2k k (> 4
·- k •
270 Probabilidade: Um curso em Nível Intermediário O Teorema Central do Limite 271
Para tanto, fixemos tE IR:. Usaremos duas versões da fórmula

de Taylor aplicada à função g(x) = ei" (veja Fellcr [9]. Lema I do
~XV.4):
. (2.\2
e;,, = I + ltx + tidx) · , onde I 0 1(x) I :<S: L
2
e;,,= I + itx- l
(2\2 (3\3
+ 0 2 (x) (; , onde l11 2 (x) I :<S: I.
Seja 1: >O. Usando a primeira fórmula para I x ! > 1: c a segunda

Temos, então,
para lx I :<S: c, podemos escrever eu' da seguinte forma geral:
,,
k
I ~ 1
I en.k I :-s:
Pela condição de Lindeberg, a primeira parcela do termo à direita
onde
tende a zero quando n-+ x. .. Logo, para n suficientemente grande,
IJ n t: If 13
k
I Ien.k I :-s:
1
· 3 ·
rAx) = t
o
Vamos, então, escolher uma seqüência de c's que converge para

{ J n I ( 13
zero. Para 1: =
m
, existe n"' tal que para 11 ~ llm,
ko1
I 3m
I
í'n.k I :::::- ·- -,
Portanto, onde os restos en.k são os determinados pela fórmula baseada em
1
E- . Portanto, existe uma seqüência 11 1 < n2 < 11 3 < ... de intei-
m
ros positivos tal que
para 11"' ::; n<

onde para estes valores de 11 os restos e"· k são
11, + 1 ,
E(X JLk) _ t~ E(X k ~ llk ') 2
= (por linearidade) = I + it k - + 1
\ .~, / .... ·, s,l . baseados em c = - . Por economia de notação, a dependência de m
m
+ -t2
2
J..
lx·-p•l'·/:6.,
{I + fJ 1 ( -x -- -JLk- )}. (.· -x -- -llk- ·.). 2 dF d.x).
, Sn \ Sn ,
+
não será expressa, mas é importante lembrar durante o restante da
prova que o valor de c que determina o resto en.k depende da posi-
ção de 11 em relação aos 11"'. Temos, então,
n
k
I Ien.k I-+ O quando
~ 1
n-+ x. (7.2)
Como EXk=Jlk e Var Xk=a;, temos Substituindo em (7. I), vemos que
Eexp{ir(X, ~~ ..11 •)} =I-~~-~ -te.,,.

272 ProbabiHdade: Um curso em Nível Intermediário O Teorema Central do Limite 273
com os e,.k satisfazendo (7.2). Para provar que o termo à direita con- §7.2 A distribuição normal multivariada
verge para e -,. ', usaremos o seguinte lema sobre números complexos,
Antes de estendermos o Teorema Central do Limite ao caso de
que generaliza o resultado já utilizado para provar o Teorema Cen-
uma seqüência de vetores aleatórios independentes, consideremos a
tral do Limite no caso de variáveis independentes e identicamenk
extensão da definição de distribuição normal ao caso vetoriaL Por
distribuídas, de que c,-+ c implica que ( 1 + -~; )" __. e'. consistência de notação, trabalharemos somente com vetores-linha em
vez de coluna. Na literatura da análise multivariada, é comum o uso
ti
de vetores-coluna para representar vetores aleatórios, mas o leitor
LEMA 7.2. Sejam cn. k números complexos tais qu"'< L,~ c, , k-> c quan-
k c• I
não deverá sentir dificuldade na "tradução" : as modificações neces-
do n -> ·Y.... Se sárias deverão ser óbvias.
Diremos que um vetor aleatório tem distribuição normal multi-
max
I :.; k -::. n
Ic I --+ O quando
11 , k n --+ x
mriada se possui a mesma distribuição de uma transformação afim
de normais-padrão independentes. Isso significa o seguinte: se X 1 , • . . , X"
n são independentes com distribuição comum N(O. 1), então o vetor alea-
I
k' 1
I Cn.k I S M < W. tório X = ( Y1 , • •• , Y11 ), onde
onde M e uma cunstame que não depende de n. entàu Yi = a 1 iX 1 + ... +uni X"+ Jl ,.
para j = I, ... , n, possui distribuição normal n-variada. Aqui, as cons-
n (1 + c
11
ti. d -+ c' quando 11 -+ Y. .

tantes aii c JI J são números reais qua1squer.
k · I
Colocando as equações que definem l em forma matricial, es-
Prova do lema . \'cja Chung [7). §7. I. O crevendo Jl = (p 1 , . . . , P~~l e
Em nosso caso. sejam c,_k=- : r 2 1Tf ; (2 s~J: +e, _, e c =-t 2f2.
Por (7.2),
A
11
logo k~l I c"·' I é uniformemente limitado (i.e .. existe M < oo tal que temos
n
Y = XA + JL
'<in, I Ic,, I s
k ,- I
k Af ). Para aplicar o lema, resta verificarmos a con-
Notemos que
- - -
lj, sendo combinação linear de normms indepen-
dição sobre o máximo :
dentes, também é normaL De fato, é evidente que
Ic,_, l s
Y, ~ N (IIJ· ktl
max max
af.).
(2 (Jk2 "
<-
- 2 max ~ + '--
Y 1 t!,_ k 1 • Além disso, a ma triz de covariàncias de }' é ~ 1 = ~ = A' A, onde A
I ,, k ~ n 5, k- I
é a matriz transposta de A e a man·i: de co7-ariiil;cias de um vetor alea-
com o segundo termo tendendo a zero por (7.2). Como já foi visto tório I é, por definição, a matriz das covariàncias entre os compo-
que a condição de Lindeberg implica que max (!í} /s;)--+0, a prova
I ' · k ··, n
nentes de l:1. e.,
está terminada. O · ~;; = Cov ( Y; , l). 1 s i s 11, I s .i s n.

274 Probabilidade: Um curso em Nivellntermediério O Teorema Central do Limite 2 75
Verificando este resultado, temos (notemos que EX;X 1 = I ou O, de- é uma correspondência biunívoca entre IR" e IR". Neste caso, o ja-
pendendo de i ser ou não igual a j ) cobiano J(y, ~) = det (A) # O, e a transformação inversa é dada por
Cov ( Y;, Y1) = E(( Y, - /I; HY1 - p)) = x =(v - Jl)A - 1, de modo que
=E((aliX 1 + ... + a.;X.HauX 1 + ... + a.1X. )) = (linearidade) =
- :::... -n
n n n L xr = ~ . ~ = ~ ~~ = <~ - elA - '<A - In~ - er =
= L L aki ati
k= ! f = !
E(XkXr) = L aki akJ = (A'A )ii.
k =!
i= I
DEFINIÇÃO 7.1 . Sejam X 1 , •• • , X" independentes e identicamente Portanto, pelo método do jacobiano, l = ( Y1 , ••• , Y.) possui den-
distribuídas tais que X i - N(O, I), e seja lo vetor
sidade dada por
aleatório obtido de 2 = (X 1 , ... , X.) através da transformação
Y=XA
..... ..... + .....
Jl, fr(J
-
'
1, ·· · • Ynl-
-(-1 -)" -
..j2rr. - e - -
(.Y - I')(A' A) -I (y - 1' )' ! 2 •
- - 1
I
det (A) 1
1
onde A é uma matriz real n x n e Jl é um vetor real n-dimensional.

Então dizemos que Y tem distribuição normal n-variada com média 11
e matriz de covariâ;;-cias ~= A' A. Notação : Y- N(Jl, +J. -
- .....
A matriz de covariâncias é szmetnca e d~finida não-negativa. A para y = (y 1 , ••• , .v.) E IR", onde a última passagem é conseqüência do
primeira propriedade decorre do fato de que Cov ( Y,, lj) = Cov ( lj, Y,). fato de que ~r= A' A e det(+rl = det(A'A) = (det(A)) 2 > O.
Para verificar a segunda, basta observar ·que se ~ E IR", então Se A é ortonormal, i. e., A' A = I. = matriz identidade 11 x 11, então
+r = I"' det <+rl = 1 e a densidade conjunta de Y1 , ••• , Y. torna-se
~ ~ ~~ = ~ A'A ~~ =(~A')(~ A')' = I ~ A' 12 ;;::.: O,
l
= ( J2rr.
)" - (.- - 1')( \'-l' l ' l _
estando satisfeita a definição de matriz definida não-negativa. (Nota : /!_(J'I• . .. ,y.) e ;... -:....- -
a propriedade de ser simétrica e definida não-negativa não é apenas 1
l )" -
= ( -]2rr.
2
da matriz de covariâncias de um vetor com distribuição normal mul- e
- oflr-1')
2 .~ ' ', (Y I' ... , J'nl E IR .
n
tivariada, mas também de toda matriz de covariâncias finita. Veja o

exercício 13.)
Se uma matriz n x 11 + é definida não-negativa, então ela possui Neste caso, a densidade é fatorável e vemos que Y1 , •••• , };, são inde-
a representação ~=A ' A para alguma matriz 11 x 11 A. Portanto, che- pendentes, com Y,- N(p ;, 1).
gamos à conclusão de que toda matriz definida não-negativa é matriz
de covariâncias de um vetor normal multivariado, pois basta utilizar EXEMPLO 2. Sejam f!. = (0, 0) e
a matriz A na Definição 7.1. Resumindo, então, temos a seguinte
A= ( 1/..j2 I ;~)
PRO POSIÇÃO 7. 1. Uma matri::: n x 11 ~ é matri::: de covariâncias de l'fi - 1/...;2,
·algum vetor normal n-rariado se, e somente se, é
dt:finida não-negatira, de maneira que A é ortonormal. Então se X 1 e X 2 forem indepen-
. x, X x, X 2
dentes e N(O l) Y1 = - - + - -2 e Y2 = n- ;;f tam em se-
b'
Quando o posto da matriz A é igual a 11 e, portanto, A é invertível, , , ..j2 J2
y2 y2
sabemos de Álgebra Linear que a transformação rão independentes e N(O, I). Logo X 1 + X 2 e X 1 - X 2 serão inde-
pendentes e identicamente distribuídas, com distribuição comum
y
......
= 7l.x)
.... = X
......
A + 11
...... N(O, 2).
l 276 Probabilidade: Um curso em Nível Intermediário
Analogamen te, se A é ortogonal, i. e., A' A é uma matriz diagonal ou seja, t A'X' ..... N(O, t;: t').
q~e a- função c~ra~eristica da N(O,
2 2
com elementos diagonais d 1 , ••• , d", todos eles positivos (di > O, Já (1'
2
) é q>(t) = exp( _ r ; ).
I s is n~ então det (;:r) =

- i~I
n di e a densidade conjunta torna-se
n
temos
Ee......itAX- ' _ , 11 (l) -_e -a> 2 -·/ e-r"'t' /2
fi9') =
<fo)" n di
n
de modo que a função característica de

-
--
Y'IAX '
r é.
- ..... t_ '
i=!
I
n
q>z(_~) = exp .U;~' - {i Li L'}· !, E IR".
<,/2n)" n di i=l
onde utilizamos o fato de que +r também é matriz diagonal, Observação. Pelo Teorema da Unicidade, a função característica de-
1 tendo
: . 1 1- termina a distribuição. Logo a distribuição de um vetor
eIementos d1agona1s d":' ... ,-d.--;· Neste caso, vemos que Y 1 , ... , }~
normal n-variado é determinada pela média J1 e pela matriz de cova-
são independente s, com Y; - N(J1i , di). riâncias ;:. A matriz A entra na distribuição sÕmente através da matriz
Se a matriz A não é invertível, o jacobiano é nulo e não há den- ;: = A'A, e duas matrizes A 1 e A 2 tais que A'1 A 1 = AíA 2 dão origem
sidade. Nesse caso a imagem da transformaçã o y = T(x) = x A + ~~ à mesma distribuição normal multivariada. Assim, justifica-se o uso
é um hiperplano no IR", de dimensão menor que e di"iemo~ que Y n, da notação N(J1, ;:) na Definição 7.1.
tem distribuição normal n-variada degenerada. (Veja o exercício 14
para um exemplo.) §7.3 O Teorema Central do Limite caso
Calculeu10s agora a junção característica de um vetor normal multivariado
n-variado X Para tanto, sejam X 1 , ••• , X" variáveis aleatórias inde-
pendentes e N(O, 1), de modo que Xpossui a mesma distribuição de O clássico Teorema Central do Limite do caso univariado diz que
uma transformaçã o afim de ! = (X 1 , ••• , X"), ou seja, a soma de um grande número de variáveis aleatórias independente s
e identicamente distribuídas, com variância comum finita e estritamente
r - ! A +~· positiva, tem distribuição aproximadam ente normal. A versão apre-
Então, a função característica de ..... Yé sentada no exemplo 9 do §6.4, que diz respeito à normalidade assin-
il. }' - E itl'' = E e--
. ' da me' d'1a amostra I x- " = X I+ ... + X n, e' a versao
totlca
. usa da
- ma1s
.,...! (t I• ..• , t n ) -- E e---
{fi
e-- - =
it(XA+Jll'
n
= e!!.!'.:. E ei!..A'~·. na prática. Essa versão diz que quando X 1 , X 2 , ••• são independente s
Notemos que se uma variável aleatória Z é combinação linear e identicamente distribuídas com média comum 11 e variância comum
n
a 2 , onde a 2 < XJ, e!ltão
das Xi , digamos Z = L biXi, então Z possui distribuição normal
j= I
n "/n(X"- J1) ~ N(O, a 2 ).
com média J1 = O e variância (1'
2
= L bJ = E~'. Por isso, a variável
(Se =O, interpretamo s N(O, (1' 2 ) como massa pontual em 0.)
(1'
2
j=l
aleatória !. A'!; sendo combinação linear das Xi com coeficientes Ocorre que vale uma versão análoga desse resultado para uma
n
seqüência de vetores aleatórios independentes e identicamente distri-
bi = (!,A')i = L t ;Aii• tein distribuição normal com média O e va-
buídos. Neste caso, a média amostrai, agora um vetor, quando apro-
i= I
riância priamente normalizada através da subtração da média J1 seguida da·
multiplicaçã o pela raiz de n, converge em distribuição pãra a normal
a2 = -- ...... - = t;: -r;
bb' = (t A')(t A')'= t A'At'
...... ...... ......
278 Probabilidade : Um curso em Nível Intermediário
multivariada com média O e matriz de covariâncias ~. onde ~ é a ma- Prova. Pelo Teorema 6.3, basta provar que a função característica
(
triz de covariâncias (sup-;;sta finita) comum aos vetores. k-dimensional de Jn <8, - p) converge para a função carac-
( Como no caso de variáveis aleatórias, dizemos que os vetores terística da N(!b ~) em todo ponto} E IR:k, ou seja. basta provar que
aleatórios X I, X 2' ... são independentes se X I ' ...• X n são indepen- 1~1'/l "'
cp-<x - 111 (t)---+e - - - , vtE~. IT"bk
dentes par; todo n ~ 2; eles são identicam~te distribuídos se pos- ' " ....... " .....
.............. n- :r
suem a mesma distribuição, e para tanto. é evidente que os vetores Pelo método de Cramér e Wold (Proposição 6.1), basta provar
precisam ser de mesma .dimensão. Portanto, se ~ 1 , ~ 2 , ••• são vetores que temos a apropriada convergência em distribuição para toda com-
aleatórios k-dimensionais, definidos no mesmo espaço de probabili- binação linear das coordenadas do vetor Jn <E. -
J.!]. Especificamente,
dade (0.4. P). eles são independentes e identicamente distribuídos se. basta provar que se ~ = (X~> ... , X kl possui distribuição N(Q, ~).
e somente se, então '</L E IR!k,
Pi )v~
P(~ 1 E Bl, ... ,~~~E Bn) = jD P(! jE Bj), J-~ i=l n
.;
- ·+· ... + - X "-'--
n '--ti (XIL _...i...
i= I
ti X iquan don_. •Y.o. (7.3)
(
para todo n = 2, 3, . . . e para toda escolha dos borelianos k-dimen- Agora, o termo à direita de (7.3) possui distribuição normal uni-
variada. De fato, é fácil obterm~s a sua distribuição a partir da de-
(
sionais B ~> ... , Bn (i. e., '</ Bi E dl\ '</ j S:: n, '</ 11 ~ 2).
Se X = (X 1 , •••• X d é um vetor aleatório k-dimensional, dizemos finição de distribuição normal multivariada. Para tanto, notemos que
que tem-média finita se EX i = pi finito para j s; k, e neste caso !:! = existe uma matriz k x k, A, tal que !! tem a mesma distribuição que
(p 1 , ••• , !Jk) é chamado média de X. Dizemos que X tem variância XA, onde A' A = ~ e X = (Y1 , ... , Yd. com as lj independentes e
finita se a sua matriz de covariâncTas ~ é finita, i. e.,-se Cov (Xj, X) N(O, I). Isto significa ~ ....., XA e
é finita para todo par (i, j), I s; i s; k. I s; j s; k. Então, uma condi- k
ção necessária e suficiente para X possuir variância finita é que a va- 't·X·=
~ J )
tX'....., .......tA'Y'
-- _,
riância de X i seja finita Vj, I s; j ~ k, e é óbvio que neste caso ! tam- j= I
k
bém possui média finita.
Quando a matriz de covariâncias ~ for finita, ela será definida
de maneira que L ti X i tem distribuição normal com média zero
j=l
não-negativa (exercício 13), e pela discussão da última seção, existirá e variância igual à soma dos quadrados das coordenadas do vetor
a distribuição normal k-variada N(O, ~). Assim, estará garantida a .f. A', i. e.,
existência da distribuição limite no teorema que se segue.
Var( .± tixi) =!A'(! A')'= !A'At
TEOREMA 7.2. (Teorema Central do Limite para retores.) Sejam ;=I
vetores aleatórios k-dimensionais, indepen-
~ 1 , ~ 2 , •••
Como 4'A = ~. temos, então,
dentes e identicamente distribuídos. Suponha que !! 1 tenha rariância fi-
nita, e sejam Jl a média e ~ a matri= de cot•ariâncias de ~ 1 • Seja a g,. k
_L tiXi....., N(O,!~!'l·
média amostrãt, definida como a média aritmética dos retores!! 1 • ·... , ~ ,. ;=I
Então Rearranjando as parcelas do termo à esquerda de (7.3), obtemos

.Jii<%.- !:!) ~ N(Q: ~). quando n ~ x.
Obserl'ação. Se l{ i = (X i I, ... , X ik), para j = I, 2, ... , então
O Teorema Central do limite 281
(a) Utilizando o Teorema Central do Limite. ache um número

são independente s c identicament e distribuídos.
Como~ 1• ~ 2 •.. .
entre O e I que seja aproximadam ente igual à probabilidad e
as variáveis aleatórias Zm também o são. pois são obtidas dos ~~~~
do milésimo freguês chegar depois de I 00 minutos.
através da mesma função g(x) = t(x- Jl)'. Além disso. as Z, possuem
(b) Como você calcularia o valor exato da probabilidad e no item
média zero (pois EX mi = JIJ c -;,~riância t 1- t'. como verificaremos 1000
.J
(a)? (Não se aceita uma integral em JR
agora:
VarZ 1 = EZf =E[(~ ti(X

k
1
k
i - Jii)) ct 1
tp•i,;- JI))]=
3. Seja (X .1. :- 1 uma seqüência de variáveis aleatórias independente s
tais que X" tem distribuição uniforme em [-O, 11], V11. Mostre
que.: a condição de Lindeberg está satisfeita e enuncie o Teorema
Central do Limite resultante. (Calcule os parâmetros!)
= (linearidade) = I I 1ir 1E[(X 1 i - Jli)( X u- Jl)] =
i· I 1 I
4. Suponha que X X 2 . . . . sejam variáveis aleatórias independente s
1,
k k
k k 1
I I lit;Cov(X 1;.Xu)= I L 1 /; 1-u=~1-t tais que P(X" = - 11) = · = P(X" = 11). Mostre que a seqüência sa-
2
i- 1 i I i I i ··· l
tisfaz o Teorema Central do Limite mas não obedece à Lei Forte
Aplicando o Teorema Central do Limite (univariado). temos dos Grandes Números.
-z I-+---=-----
... + Z, D "
,\ ·'(0.!_ +-!) quami o n-> I . 5. Usando o Teorema Central do Limite para variáveis aleatl1rias
v· ll de Poisson. mostre que
Assim, (7.3) está verificada. D " I
lim e " I k! 2
6. (Duas condições equivalentes no enunciado do Teorema do

Fdler.) Sejam O'i. a~ .... números não-negativo s tais que pelo
menos um a~ >O, e seja s~ = af + ... + a~ . Mostre que
EXERCÍCIO S DO CAPÍTULO 7 a2 a1
max -} --->O quando 11---> x se. e somente se . .~~---> z e * --->O
I ~ k ' · n S~ ·'~
§7.1
(Sugestão. Para a necessidade da primeira condição. mostre que
I . Na geração de números aleatórios por computador, o objetivo o limite não depende dos primeiros N termos. para qualquer
do programado r é conseguir que os números satisfaçam as con- }- .)
: ; -0'2
dições (i) cada número tem distribuição uniforme em [O. I] e (ii) os
N fixo, e use o fato de que ---f-
0'2
sn sk
números são independente s. Sejam X 1• X 2 .. . variáveis aleatórias
7. Sejam X 1• X 2, ... variáveis aleatórias independente s. X" tendo
representand o uma seqüência de números aleatórios gerados por
densidade
computador (números "pseudo-alea tórios"). Supondo que as con-
dições estejam satisfeitas, enuncie versões da Lei dos Grandes
/~(X)= _.!__ e-lxl:n, XE IA:.
· 2n
Números e do Teorema Central do Limite para este caso. Dê uma
explicação intuitiva do significado dos dois teoremas neste caso. Seja Sn =X I + ... +X n· Demonstre que
2. Fregueses chegam em certo supermercad o segundo um processo S,- E_S....::."-I--->1 N(O. I).
de Poisson com intensidade média de dez por minuto. Sejam -./ Var S"
T 1, T2 , .•• os tempos entre chegadas de fregueses, de modo que
(Sugestiio. Use Liapunov.)
T1 + ... + T,, é o · tempo de chegada do 11-ésimo freguês .
282 Probabilidade: Um curso em Nlvellntermedi6rio
8. Sejam X 1, X 2 , ••• variáveis aleatórias independentes tais que §7.2

13. Seja X=(X 1, ... ,Xk) um vetor aleatório tal que Var X i < :r...
P(X. = n2 ) = P(X. = -n") = l_ , para}= 1, .. ., k.
2 (a) Prove que a matriz de covariâncias de 2' é finita.
Mostre que se !X > - + então \'ale o Teorema Central do Li-

(b) Seja~ a matriz de covariàncias de X. Mostre que~ é simétrica
e definida não-negativa. (ObservaÇão. ~ é definida não-ne-
gativa, por definição, se V x E !Rk x ~ x' 2::: 0.)
mite. (Sugestão. Use Liapunov.) - - -
f 14. Sejam X e r independentes e identicamente distribuídas, com
9. Seja X 1, r 1, X 2, r2 , X 3 , .. . uma seqüência de variáveis aleatórias distribuição N(O, 1).
independentes, as X" sendo identicamente distribuídas com dis- (a) Mostre que o vetor (X, X) possui distribuição normal bi~
tribuição U[O, 1] e as r. sendo identicamente distribuídas com variada degenerada. (Sugestão. Qual a matriz A neste caso?)
distribuição U[O, 2j. Seja s. a soma dos n primeiros termos da Qual o hiperplano (aqui é uma reta) que contém os valores
seqüência, de modo que SI= XI. s2 =XI+ ri. s3 =XI + do vetor?
+ r 1 + X 2, etc. (b) Mostre que (X - Y, 2X - 2 r + 2) tem distribuição normal
(a) Mostre que ~.!!.converge quase certamente e ache o seu limite. bivariada degenerada. Qual a reta contendo os valores do vetor?
n
I5. Mostre que um vetor aleatório com distrihuição N(p 1, p 2 , af, a~, p),
(b) Mostre que s.- ES. ---.!!... N(O, I). como definida no exemplo I5 do Capítulo 2 (§2.5~ possui dis-
JVar s. tribuição normal bivariada segundo a· Definição 7.1. ·
10. Sejam X 1, X 2 , ... variáveis aleatórias independentes e identica- I6. Demonstre que se X= (r 1, • • •, r.) é normal n-variada e a matriz
mente distribuídas tais que EX 1 = Jl e Var X 1 = a , onde
2 de covariâncias ~r é diagonal, então Y1o ... , r. são independentes.
2
O< a < oc . Seja (a.). ,. 1 uma seqüência qualquer de números Portanto, se Y1, .. ~ Y. têm distribuição conjunta normal n-variada
reais. Mostre que +
e Cov ( Y;, r) = O para i j, então Y~o .. ., r. são independentes.
(Sugestão. Função característica.)
p( s:7. ~ a.) - Cl>(a.)--> o. quando n--> XJ, 17. Se ?S e Xsão vetores aleatórios k-dimensionais tais que ?S e X são
independentes com ~ "" N(J!! ~x), !:: "" N({. ~!), qual a distri-
!. onde ci> é a função distribuição da N(O, I ). Note que esse resultado
buição de Z = X + Y? Generalize esse resultado para a soma de
n vetores i'iide.;ndentes.
é valido até no caso de não convergência de (a.). 2 1 • (Sugestão.
Use o resultado do exercício I 6 do Capítulo 6.) ; 8. Sejam X e r variáveis aleatórias independentes, cada uma com
distribuição normal. Prove que X + r .e X - r são independentes
l i. Sejam X 1• X 2, .. . variáveis aleatórias independentes tais que se, e somente se, Var X= Var Y. (Compare com o exercício 29
Xk-b(nk,p), onde O<p< I (pfixo). Vale o Teorema Central do do Capítulo 3.)
Limite neste caso? Por quê? (Sugestão. Não tente verificar a con- 1 9. Seja r= (r 1, •• •, r.) um vetor aleatório tendo distribuição normal
dição de Lindeberg.)
n-variãda com média ~ e matriz de covariânciàs ~I= A' A.
(a) Se B é uma matriz real n x k e .( um vetor real k-dimensional,
12. Explique se a seqüência Z ~o Z 2 , ... do exercício 18 do Capítulo 5
satisfaz o Teorema Central do Limite. Se satisfaz, calcule todos mostre que o vetor aleatório Z definido por Z = rB + ~ tem
os parâmetros. - Z
distrib.uição normal k-variada c~m média JJB + e m-;.triz de co:
-
(
(
O Teorema Central do Umite 285
variâncias ;:z = B'A 'AB. (Sugestão. Obtenha a função carac- (c) Suponha que N = (N 1, .... Nk) possua distribuição multi-
terística de tJ. nomial com par1metros p 1, ••• , Pk e n. Calcule a covariância
entre N . e N t• onde j =I= {, utilizando o item (b) e a bilinearidade
(b) Partindo do item (a), obtenha a distribuição de Yi, para
j = 1, ... , n. Confira sua solução com a obtida no inicio do da cov~riância. (Compare com o resultado obtido no exercício
§7.2. 27 do Capítulo 6.)
(c) Mostre que todo vetor de dimensão m < n, cujos componentes (d) Enuncie· um Teorema Central do Limite para os vetores alea-
são componentes diferentes de Y. tem distribuição normal tórios §_1 • §_ 2 , ... definidos no item (b).
m-variada (por exemplo, (Y2 , Y5 ) é"i-tormal bivariada), e mostre
que sua matriz de covariâncias é uma submatriz de ;r.
20. Mostre que um vetor aleatório X possui distribuição normal
multivariada se. e somente se, tod; combinação linear dos com-
ponentes de X tem distribuição normal univariada (i.e.,
- k
~=(X 1, ... , Xn) é normal multivariada ~
k=l
L ak Xk é normal
(
V (a 1, ... , an) E !Rn).
§7.3
21. Seja (X Jl , ... , X Jd· j = I, ... , 11, uma amostra aleatória de tamanho
n de uma distribuição k-dimensional com média Jl = (p 1, ... , Jld
finita e matriz de covariâncias ~ = (aii). Seja (.X 1, ..~.X d o vetor
de médias (média amostrai). Demonstre que se 6i >O, j = I, ... , k,
temos
P(J xj- Jlj 1 < 6j. j = 1. .... kJ ~ 1 - _!_ (

11
t
j: I
~~j):
J
22. (0 Teorema Central do Limite para a distribuição multinomi~l.)

Seja ~ = (X 1, ... , Xd um vetor aleatório tal que os componentes
k
X i assumem somente os valores O e I, com L X J = I. Seja
j= I
Pi= EXi , j= l, ... ,k.

(a) Mostre que Cov (X i, Xtl = - PiPt- se j #- t .
(b) Prove que se ~ 1, ... , ~n são vetores aleatórios independentes
e identicamente distribuídos, cada um tendo a mesma dis-
tribuição que ~. então .§.n = ~ 1 + ... + ~n tem distribuição
multinomial com parâmetros p 1, ... , Pk e n.
'
286 Probabilidade: Um curso em Nível Intermediário ÍNDICE DE NOTAÇÕES
O símbolo "-" significa "tem como distribuição" ou "está distnbuído como" (por
exemplo: X - N(O, 1)).
REFERÊNCIAS n 1 N(p,J.1 2 , a~, a~,p) 63, 283
IR I Ic 65
(I] AHLFORS, L. V.- Complex Analysis, 2~ edição. McGraw-Hill, N. York, 12! 3 U(G) 65
1%6. . .9/ 5 g·'(B) 67
(2] APOSTOL, T.M. - Mathematical Analysis. Addison-Wesley, Reading, A- B 6 - exp(>..) 68
2
Massachusetts, 1957. .-?'(Q) 7 X (n) 85
(3] BICKEL, P.i. E DOKSUM, K.A.- Mathematical Statistics. Holden-Day, dfJ ]o, I]
8 EX 107
S. Francisco, 1977. . 8 Var X 121
(4] BILLINGSLEY, P. - Convergence of Probability Measures. Wiley, N. .142
8 ax 121
York, 1968. JR2 8 Cov(X, Yl 129
(5] BREIMAN, L. - Probability. Addison-Wesley, Reading, Massachusetts, .Jin 9 p(X, Y) 131
1968. P(A) 9 Fx(xlA) 145
(6] BREIMAN, L. - Probability and Stochastic Processes. Houghton Mifflin, An t ÇÍ li E(XlA) 145
Boston, 1969. , AntA,An-1-A 13 Fx(xlY = y) 147, 162
(7] CHUNG, K.L. - A Course in Probability Theory, 2~ edição. Academic P(A lB) 14 E(X l Y = y) 147, 174
Press, N. York, 1974. logx (= log,x) 24 E(X l Y) 147. 174
(8] FELLER, W ..- lntrodução à Teoria das Probabilidades e Suas Aplicações, lim supAn 29. 197 P(X E B I Y = y) ISS, 162
Parte 1. Edgard Blücher, São Paulo, 1976. Tradução parcial do Volume I, 3~ lim infAn 29, 197 f(xly) !59
edição americana (1968). Traduzido por Flávio Wagner Rodrigues. e Maria limAn 29, 198 192
35 Yn f. Y
Eliza Fini. c, c [A n infinitas vezes] 198
(9] FELLER, W. - An lntroduction to Probability Theory and lts Applica- #A 35 2~1
eix
tions, Volume 11. Wiley, N. York, '1966. [X ~ x) 36 221
37 '{!x
(lO] FERNÁNDEZ, P .J. - Introdução à Teoria das Probabilidades. Livros Fx c 222
Técnicos e Científicos, Rio de Janeiro; 1973. Coleção Elementos de Ma- F(x-) 38, 112 229
I[
temática, IMPA. N(O, I) 40, 50
40 Xn .Q. X 231
(li] GNEDENKO, B. - The Theory oj Probability. Mir, Moscou, 1976. Tra- [x)
dução para o inglês de Kurs Teoriia Veroiatnostei. U[O, I) 43 Xn .Q. N(O I) 236
(12] KOLMOGOROV, A.N.- Foundations ojthe Theory oj Probability. Chel- [XEB) 47 23g
.Px
sea, N. York, 1950. Tradução para o inglês de Grundbegriffe der Wahrs- N(J.l, a2 ) 51 (y 273
cheinlichkeits rechnung (1933). f(o:, il) 52 274
NÍJ!, ~)
(13] LEHMANN, E.L. - Testing Statistic Hypotheses. Wiley, N. York, 1959. b(n,p ) 53
(14] LIMA, E.L.- Curso de Análise, Volume 1. Projeto Euclides, CNPq, 1976. Fx 55
(15] MAISTROV, L.E. - Probability Theory: A Historical Sketch. Academic
Press, N. York, 1974. Tradução para o inglês de Teoriia Veroiatnostei /stori-
cheskii Ocherk (1967).
(16] RUDIN, W. - Princfpios de Análise Matemática. Ao Livro Técnico, Rio de
Janeiro, 1971. Traduzido por Eliana Rocha Henriques de Brito da 2~ edição
l (17]
americana (1964).
RUDIN, W. -Real and Complex Analysis. McGraw-Hill, N. York, 1966.
li
I
'
288 Probabilidade: Um curso em Nivel lntermediério indice Alfábetico 289
de Kolmogorov 204 gaussiana 265

ÍNDICE ALFABÉTICO de Markov 123 geométrica 54, 180
de Tchebychev, clássica 123 esperança de 112
generalizada 122 hipergeométrica 243
Absolutamente continua 41, 42, 58 em probabilidade 192 Desvio-padrão 121, 131 convergência para a binomial 243
Aditividade implica convergência em distribuição Discreto 41, 59 logistica 138
da integral de St ieltjes I00 245 Distribuição multinomial 181
finita 10 não implica convergência quase certa binominal 53 função característica de 257
Álgebra 5 194 como distribuição condicional de Pois- Teorema Central do Limite para 284
propried.ades de 5 fraca de funções de distribuição 233 sons 153 normal 50-51
Amostra aleatória 82, 96 preservada por funções contínuas 247 como limite de hipergeométricas 243 bivariada 63, 64, 71
da distribuição uniforme quase certa 192 convergência para a Poisson 244 coeficiente de correlação em 178
densidade conjunta de 84 implica convergência em probabilidade convolução de 255 densidade condicional em 161
densidade conjunta de 83 193 condicional convolução de 71
Ao acaso 4 .. 91, 94 Convolução como limite 155, 163 média de 130
Axiomas de probabilidade 9 de binomiais 253 dada Y discreta 147 multivariada 273
satisfeitos pela distribuição 49 de densidades 71 dado que Y ; y 162 caracterização de 284
satisfeitos pela distribuição condicional de funções de distribuição 180, 225 como achar 163 o-variada 274
.,44 de gamas 85 dado um evento 144 degenerada 276
de um vetor dada Y discreta 150 função característica de 276
sistemas equivalentes de 12 de normais 71
de Poissons 92 existência de 156, 162 -padrão (N(O,l)) 50
Bayes, fórmula de 17 Coordenadas 36 para vetores 169 função característica de 229
Bernoulli 191 Covariância 129 regular 162 simulação de 95
ensaios de 54, 191 bilinearidade de 142 conjunta 59 variância de 130
Lei dos Grandes Números de 196 condicional 187 de Cauchy 52, 138 qui-quadrado 85
como quociente de duas normais 81 como uma gama 53
Bienaymé-Tchebychev, desigualdade de 123 matriz de 273
Binominal, veja distribuição binomial Cramér-Wo1d, artifício de 240 padrão 52 simétrica 137
Bochner-Khintchin, Teorema de 252 Critério função característica de 253 critério para 227
Bonferroni, desigualdades de 30, 32 para independência 60 de Laplace 138 de vetores 256
Borel, Lei Forte de 212 no caso continuo 62 de Poisson 40 t de Student 85
números normais de 212 no caso discreto 89 como limite de binomiais 244 uniforme 65
( Borel-Cantelli, Lema de 198 para integrabilidade 115, 140 composta 253 distribuição condicional em 184
Borelianos 8 convolução de 92 em [a,b] 88
( esperança de 104 em [0,1] 43
Decomposição da função de distribuição 46
função característica de 228 como distribuição de F(x) 92
Carathéodory, Teorema da Extensão de 6 Definida
função de probabilidade de 53 estatísticas de ordem de 84, 152
Casamentos; problema de 30 não-negativa (matriz) 274, 283
Cauchy, veja distribuição de Cauchy positiva (função) 251 de Rayleigh 91 singular 66
Cauchy-Schwarz, desigualdade de 178 De Moivre 265 taxa de falha de 87
Coeficiente de correlação 131 De Moívre-Laplace, Teorema Central do Limi- de um vetor aleatório 59 Ensaios 9, 54
no caso contínuo 59 binomiais 54, 191, 196, 208
da normal bivariada 64, 178 te de 238
Complexo conJugado 222 no caso discreto 59 de Bernoulli 54, 191
Densidade 42
Condição de Lindeberg 262 como derivada 42, 84 de uma variável aleatória 49 Erro
forma alternativa de 263 condicional 159, 183 no caso contínuo 49 absoluto médio 124
Continuidade para vetores 185 no caso discreto 49 quadrático médio 124
à direita 38, 56 conjunta 58 representações de 50 Espaço
de probabilidade 13 pelo método de jacobiano 76, 79 de Weibull93 amostra! I
no vazio li taxa de falha de 87 condições satisfeitas por 2
critério para f ser 42, 84
exponencial 41 de probabilidade 13
uniforme 223 da soma de duas variáveis aleatórias 71
como uma gama 53 LP 124
da função característica 223 de um vetor aleatório 58
Convergência esperança de 111 produto 189
estelar 33
falta de memória de 86 Esperança 107
de séries 137 marginal 63, 64
função característica de 254 como esperança da esperança condicional
em distribuição 231 não unicidade de 64
mínimo também é 92 147, 175, 186
de vetores aleatórios 239 Desigualdade
momentos de 119 como integral de Riemann 108
não implica convergência em probabili- "básica" 122
exponencial dupla 138 condicional 145, 147, 174
·dade 246 de Bonferroni 30, 32
F 85 princípio da substituição para 175
no caso continuo 244 de Cauchy-Schwarz 178
gama 52 propriedades de 175
no caso discreto 242, 257 de Jensen 114, 116, 141
convolução de 85 de uma con~tante 113
para a. normal-padrão 237 estrita 141
em lei 231 ·função característica de 254 de uma distribuição condicional 145, 174
para esperança condicional 175
r
290 Probabilidade: Um curso em Nlvel Intermediário indice Alfabético 291
de uma função de X 118 de uma variável aleatória 37 Jensen, desigualdade de 114, 116, 141 Método do jacobiano 74-84, 95
no caso contínuo 120 exemplos de 40-41 para esperança condicional 175 · Mínimo de uma amostra aleatória 82
no caso discreto 120 marginal 63, 64 densidade conjunta de, com máximo 96
de uma função de X 127 n-dimensional 58 Khintchin , Lei Fraca de 197 Modelo probabilístico 13
no caso contínuÕ 127 propriedades de 38, 56, 58 veja Bochner-Khintchin Momento 120-121
no caso de independência 128 de freqüência 41 Kolmogorov 9 absoluto 121
no caso discreto 127 de probabilidade 41 desigualdade de 204 de ordem k 120
de uma variável discreta 104 definida positiva 251 Lei Forte de 210 k-é•imo 120
de variáveis não-negativas li O -escada 22 recíproca para 202 central 120
e assumindo valores inteiros 111 gama 52 primeira Lei Forte de 205 em torn o de b 120
do produto (se independentes) 128 geradora de momentos 227, 254 propriedades de 122-124
infinita 107 identidade 36 Laplace, veja De Moivre-Laplace Multinomial, veja distribuição multinomial
propriedades de 113-116, 122-124 Lebesgue, integral de 42, 107 Mutuamente exclusivos 4, lO
indicadora 65
Estatlsticas de ordem 82 mensurável 36, 67 medida de (nula) 42
densidade conjunta de 83 Lebesgue-Stieltjes, integral de 99 Não-correlacionadas 129
distribuição condicional quando dadas 172 Gama, veja distribução gama Lei ( = distribuição) 50 condições para implicar independência 142
Estocasticamente maior 139 Gauss 265 dos erros 265 · Normal, veja distribuição normal
Evento(s) 2, 3 dos Grandes Números 105, 189, 195 Normalização de uma variável aleatória 131
Geométrica, veja distribuição geométrica, pro-
aleatório 5 de Bernoulli 196 Números
( babilidade geométrica
normais 21 2
álgebra de 5 Fol'te dos Grandes Números 195
certo 3 de Borel 212 "pseudo-aleatórios" 95, 280
( Helly, Teorema de Compacidade Fraca de 235
disjuntos 10 Helly-Bray, Teorema de 232 de Kolmogorov 210
elementar 3 primeira 205 Observado 189
( Hipergeométrica, veja distribuição
impossível 3 hipergeométrica recíproca para 202
incompatíveis 4 estendida 219 Padronização de uma variável aleatória 131
independentes 18, 21 Fraca dos Grandes Números 195 Parâmetro
Identicamente distribuídos 82, 190
linguagem de 4, 27 de Khintchin 197 de configuração 53
vetores aleatórios 278
( mutuamente exclusivos 4, 10 i.i .d. 190 de Tchebychev 196 de e'cala 51
Experimento Lema de Borei-Cantelli 198 de locação 51
Incrementos
( composto 17, 189 Levy, Paul, Teorema da Continuidade de 234 do processo de Poisson 27
estacionários 22
de duas etapas 17, 148, 183 Liapunov, Teorema Central do Limite de 266 Partição do espaço amostrai 16, 145
independentes 23
( modelo matemático para 13 Limite de uma seqüência de eventos 29, 198 Permutações, invariância para 89
Independência
inferior 29, 197 Poisson , veja distribuição de Poisson, proces-
Exponencial, veja distribuição exponencial a pares 20
superior 29, I 97 so de Poisson
( critério para 60
Preditor, melhor 124
Feller, Teorema Central do Limite (recíproca) no caso continuo 62 Lindeberg, condição de 262, 263
264, 281 Teorema Central do Limite de 262 · Princípio
( no caso discreto 89
Linearidade da indiferença 4
Fórmula de eventos 18, 21
da esperança 113 127 da preservação de chances relativas I 59,
( da inversão 224, 239 de variáveis aleatórias 60
de Bayes 17 da esperança condicional 175 166
de vetores aleatórios 239, 241, 278
Freqüência relativa 9, 15 da integral de Stieltjes 100 da substituição 166
( critério para 241
Função para distribuição condicional 167
2 a 2 20
Markov 197 para esperança condicional 175
absolutamente contínua 42 hereditariedade de 60, 72
( característica 221 Indicador 65 desigualdade de 123 Probabilidade 10
caracterização de 251 Massa pontual 164 "a príori" 18
esperança condicional de 179
( como função geradora de momentos "Infinitas vezes" 198 Matriz de covariâncias 273 axiomas definidores de 9
227 é simétrica e definda não-negativa 274, 283 condicional 14
lntegrabilidade
Máximo de uma amostra aleatória 82 como esperança condicional 179
para vetores 257 critério para 115, 140
densidade conjunta de, com mínimo 96 de que X • B dado que Y = y 162, 163
conjunta 238 Integrador 97
( de um evento 9
continuidade uniforme de 223 Integral
Média 104 como esperança de probabilidade con-
de um vetor aleatório 238 de Lebesgue 42, 107
amostrai 85, 252 dicional 179
( definição alternativa de 222 de Lebesgue-Stieltjes 99
finitamente aditiva 10
coordenada 36 de Riemann-Stieltjes 97-99, 103 da normal n-variada 274
de um vetor aleatório 278 geométrica 4
( de Cantor 44-45 de Stieltjes 99-103
ponderada 104, 117, 252 "posterior" 18
de densidade de probabilidade 42 múltipla 127
Mediana 52, 125 t7 -aditiva 10
de distribuição 39 · Integral 107
( Medida Problema central do limite 261
acumulada 37 se limitada 115
de Lebesgue (nula) 42 · Processo de Poisson 22-27, 105, 149-152, 170
( condicional 145, 162
de probabilidade 10 análogo espacial 33
conjunta 55 Jacobiano 75
(
(
I de um vetor aleatório 55 método do 74-84, 95 Mensurável 36, 67 fluxo de tráfego como 32
t
(
r 292 Probabilidade: Um curso e m Nível Intermediário
hipóteses para 22 de Lindeberg 262

parâmetro (taxa) de 27 prova de 271
probabilidades de e~~entos em 27 recíproca de (Feller) 264, 281
soma de dois independentes 181 para variáveis i.i.d. 237, 250, 265
( variáveis aleatórias de 37 implica Lei Fraca 251
para vetores 278
Quartil 52, 87 da Continuidade de Paul Lévy 234
Quase da Convergência Dominada 135
certamente ( = com probabilidade I) 123 para esperança condicional 175
toda parte 42 da Convergência Monótona 134, 137
Qui-quadrado, veja distribuição qui-quadrado para esperança condicional 175
(
da Extensão de Carathéodory 6
Resultado~ da Multiplicação 16
( equiprováveis 4 da Probabilidade Composta 16
favoráveis 2 da Probabilidade Total 17
( possíveis I da Unicidade 226, 239
Riemann, somas de 97 de Arzelà 136
( Riemann-Stieltjes, integra! de 97-99 de Bochner-Khintchin 252
de Compacidade Fraca de Helly 235
( Scheffé, Teorema de 244 de Helly-Bray 232
Seqüência de Scheffé 244
de variáveis aleatória~ independentes de Slutsky 248
(existência) 201
decrescente para o vazio li Uniforme, veja distribuição uniforme
( u-aditividade 10
u-álgebra 6 Valor esperado I 04
( das partes de n 7 Variância 121
de Borel amostrai 85
( em [0,1]8 condicional 176, 187
ha reta 8 de um produto 142
( no plano 8 de uma constante 122
110 1/;\ "9, 59 de uma soma 130
( exemplos de 7-8 propriedades 122, 123
gerada 6, 28 Variável aleatória (variáveis aleatórias) 36
( Simetria de uma distribuição 137 complexa 221
relação com função característica 227 contínua ( = absolutamente contínua) 41
Simulação distribuição de 49
de normais-padrão 95 discreta 41
de uniformes 95, 280 distribuição de 49
Singular 45, 66 função de distribuição de 37
Slutsky, Teorema de 248 identicamente distribuídas 82, 190
( Somas independentes 60
de Riemann 97 integrável 107
( parciais 194 n-dimensional 55
Stieltjes, integral de 99-104 não-correlacionadas 129
( integral múltipla de 127 não-negativa 110
''mista'' 43
( Taxa de falha 33, 87 padronização de 131
Tchebychev, desigualdade de 122, 123 simétrica 168 ·
( Lei Fraca de 196 singular 45
Tempo truncada 133, 210
( de espera 54 Vetor(es) aleatório(s) 55
paradoxo de 183 contínuo ( = absolutamente continuo) 58
( de parada 255 discreto 58
Teorema função de distribuição de 55
Central do Limite
( de De Moivre-Laplace 238
identicamente distribuídos 278
independência de 239, 241, 278
de Liapunov 266 von Mises 9
(
(
~

BARRY R. JAMES. Probabilidade Um Curso em Nível Intermediário. (Projeto Euclides) - CNPq. 1981 (O.C.R.) - 2

Enviado por

Direitos autorais:

Formatos disponíveis

Você também pode gostar

BARRY R. JAMES. Probabilidade Um Curso em Nível Intermediário. (Projeto Euclides) - CNPq. 1981 (O.C.R.) - 2

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

BARRY R. JAMES. Probabilidade Um Curso em Nível Intermediário. (Projeto Euclides) - CNPq. 1981 (O.C.R.) - 2

Enviado por

Direitos autorais:

Formatos disponíveis

(

barry r. james dificilmente sairá daqui.

·® CNPq Conselho Nacional de De...-imento Cienlffico e léc"""

Instituto de Matemática Pura e Aplicada - CNPq

r Copyright © , by Barry R. James

Impresso no Brasil / Printed in Brazil

Capa: Gian Cal vi Criação Visual Ltda.

Exercícios.................. ............................... ............................... . 180

CAPÍTULO 6 FUNÇÕES CARACTERÍSTI CAS E CONVERGf!NCIA

§ 7.1 O Teorema Central do Limite para seqüências de variáveis

Este livro surgiu de notas de aulas usadas no curso básico de Probabi-

§ 1 .1 Modelo matemático para um experimento

Suponhamos que um experimento seja realizado sob certas con-

Às vezes, o conjunto de resultados possíveis não é tão fácil de

4 Probabilid ade: Um curso em Nlvel lntermedi ério Definiçõe s Básicas 5

P(A) = ~rea A = ~rea :i_,

álgebra", veja o exercício 6.)

dução para mostrar que o Axioma 3 está satisfeito (para

tuamente exclusivos). então pelo diagrama:

PROPOSIÇ ÃO 1.3. O Axioma 3' implica o Axioma 3, i.e., se P é

portanto a série é convergente e

logo Caso particular importante: P(0) = I - P(O) =O.

e pela aditividade finita.

Pro1·a de P6. Vamos supor que A" 1 A, i. e .. que A,) An+ 1 V n e

DEFINIÇÃO 1.6. Um espaço dl:' probabilidade é um trio (Q si. P),

§ 1.2 Probabilidade condicional -

..I' DEFINIÇÃO 1.7. Seja (Q, .>#, P) um espaço de probabilidade. Se

Se A e B são desenhados de modo que as áreas de A, B e A n B sejam c

(i) P(A n B) = P(A)P(B IA) == P(B)P(A IB), V A, B E.Sil,

Seja A; o evento "tirar rei na i-ésima extração". Então (com A =

Logo temos o seguinte

I . I Prova. Supor A, B independentes. Então P(A n Bc) = P(A)- P(A n B) =

experimentos em que o resultado final fosse cara. P(Ac n B) = I

.I probabilidades "a posteriori". menos que um deles tenha probabilidade zero).

DEFINIÇÃO 1.8. Seja (!l, .91, P) um espaço de probabilidade. Os even-

'i de A, de B. e que A e B sejam independentes (i. e., que os três eventos

Seja P(w) = ~, V w E O. Então P(A) = P(B) = P(C) = ~ e

P(A n B) = ! = P(A n C)= P(B n C). Logo A, B. C sã~ independen-

independentes de probabilidade +· n precisaria conter pelo menos

PROPOSIÇÃO 1.7. Se os el'entos A;, i E I, são independentes, então

Então, Conseqüentemente, P 0(t) = e-;.•para t ~O e P0 é contínua em [0, OC·).

Podemos supor O < P0 ( I) < I, para evitar um caso trivial (P 0 ( I)= I)

de maior interesse na prática. Por outro lado, se P0 ( I) fosse igual

(O, ~ J e pelo menos um em ( T' J r (este evento também seria de

Agora, indicaremos com P~(s) a derivada a direita de P, em s: Fazendo

P~(s) = lim P~(s+t)_-_ P.(sl_ =

r-o I temos Q(O) =O e Q'(t) =i.. de modo que Q(t) =i.! e

= lim r:~: Pk~i~ + Pk

r-o I A solução geral, para k = O, I. 2, .. . . é

Aplicando as três fórmulas acrma, temos {_.'./) k

I. Sejam A, B e C eventos aleatórios. Identifique as seguintes equa-

(d) (A u B u C) - (Bu C') = A

7. Sejam A 1 , A 2 • ... eventos aleatórios em um espaço de probabili-·

re da de "B ou C". lim sup A, =

2. A partir dos axiomas, prove a propriedade P5:

p(.01A.) ~ .~~ P(A,). lim in f A, =

(Veremos uma interpretação intuitiva desses eventos no §5.2.) Se

(a) Se P(A,) = O para 11 = I, 2, .... então P~·~1 A,) = O. ganhar?