Você está na página 1de 180

Cálculo de Probabilidades II

para Estatı́stica, Ciências Atuariais e Matemática Aplicada

Código: MAD352

Oferecido pelo:

Departamento de métodos estatı́sticos - DME


Instituto de Matemática - UFRJ
Introdução à disciplina

Professor: Hugo T. de Carvalho


E-mail: hugo@dme.ufrj.br
Site do curso im.ufrj.br/∼ hugocarvalho (todas as informações
sobre a disciplina)
Bibliografia:
Marcos N. Magalhães - Probabilidade e Variáveis Aleatórias. Edusp,
2006
Barry R. James - Probabilidade: um curso em nı́vel intermediário.
IMPA, 2015
Henk Tijms - Probability: A Lively Introduction, Cambridge
University Press, 2017

DME - IM - UFRJ Prob II Informes iniciais 1


Ementa do Curso

Unidade I: Espaços de probabilidade


Unidade II: Variáveis aleatórias e vetores aleatórios
Unidade III: Funções univariadas das componentes de um vetor
aleatório
Unidade IV: Distribuição conjunta de funções de variáveis
aleatórias
Unidade V: Distribuições Especiais
Unidade VI: Esperança
Unidade VII: Lei dos Grandes Números
Unidade VIII: Funções caracterı́sticas, convergência em
distribuição

DME - IM - UFRJ Prob II Informes iniciais 2


Método de avaliação
Três provas:
P1: 12/04 P2: 22/05 P3: 24/06
PF: 03/07
P2Ch: 08/07
Três testes antes de cada prova, valendo 15% da nota de cada
prova. Ao final do semestre, o menor teste será descartado.
Teste de revisão de Prob I: 15/03 (Não vale nota!)
Testes da P1: 22/03, 29/03 e 05/04
Testes da P2: 26/04, 03/05 e 10/05
Testes da P3: 31/05, 07/06 e 14/06
Os testes serão feitos no AVA UFRJ (Ambiente Virtual de
Aprendizado), terão inı́cio às 17h da sexta-feira e término às 13h
da segunda-feira seguinte
Listas de exercı́cios postadas periodicamente na página oficial do
curso
Pelo menos uma aula de revisão antes de cada prova
DME - IM - UFRJ Prob II Informes iniciais 3
Método de avaliação

P1 + P2 + P3
≥ 7 ⇒ aprovado
3
P1 + P2 + P3
< 3 ⇒ reprovado
3
P1 + P2 + P3
3≤ < 7 ⇒ PF
3
 ,
P1 + P2 + P3
+ PF 2 ≥ 5 ⇒ aprovado
3
 ,
P1 + P2 + P3
+ PF 2 < 5 ⇒ reprovado
3
O aluno pode faltara somente uma avaliação, e fará a PF para
substituı́-la. Se necessário, fará a P2Ch como prova final
Caso o aluno falte à PF, a P2Ch a substituirá

DME - IM - UFRJ Prob II Informes iniciais 4


Monitoria

Monitor: Helder Jorge


Horário: Segunda e quarta 15h30 – 17h00
Obs.: A monitoria de quarta está condicionada na não ocorrência
de Seminários da Pós-Graduação em Estatı́stica. Será informado
por e-mail aos estudantes quando não haverá monitoria.
Local: Laboratório de Sistemas Estocásticos (LSE): I-044b

DME - IM - UFRJ Prob II Informes iniciais 5


História

Por séculos, acreditou-se que deuses regiam eventos incertos, que


estavam além da compreensão humana
Gerolamo Cardano (1501–1575), fı́sico e viciado em apostas
italiano: primeiro estudo sistemático de probabilidades, inspirado
por jogos de azar
Definiu probabilidade como “eventos favoráveis”/“eventos totais”,
óbvio hoje em dia porém um grande avanço na sua época
1654, inı́cio do estudo de Probabilidade, segundo historiadores:
correspondências entre Pierre de Fermat (1601–1665) e Blaise
Pascal (1623–1662). Abordagem mais sistemática, ainda inspirada
em jogos de azar!

DME - IM - UFRJ Prob II Aula 1 1


História

1657, astrônomo holandês Christiaan Huygens (1629–1695) tomou


ciência dessas correspondências, introduziu o conceito de valor
esperado e aprimorou a abordagem deles
1713, matemático suı́ço Jakob Bernoulli (1654–1705) publica Ars
Conjecturandi, primeira teoria geral para cálculo de probabilidades
1812, matemático francês Pierre Simon Laplace (1749–1827)
publica Théorie Analytique des Probabilités. Aplica ideias de
probabilidade a problemas práticos. Grande avanço na
Probabilidade e Estatı́stica.
Porém, até então sabia-se calcular probabilidades, e não o que é
probabilidade!
Definição aceitável de Probabilidade, 1933 com o matemático
russo Andrey Nikolaevich Kolmogorov (1903–1987). Seus axiomas
serão o ponto de partida para nosso curso!

DME - IM - UFRJ Prob II Aula 1 2


Aplicações

Mercado de ações (o maior cassino do mundo)


Call centers e companhias aéreas, previsão de demanda
Engenharia, construção de estruturas
Até juı́zes e médicos podem se valer de Probabilidade para tomar
melhores decisões!
C. Colmez, L. Schneps - A matemática nos tribunais: Uso e abuso
dos números em julgamentos
S. Senn - Dicing with Death: Chance, Risk And Health

DME - IM - UFRJ Prob II Aula 1 3


Porque “eventos favoráveis”/“eventos totais” não
funciona?

Paradoxo de Bertrand: Considere um triângulo equilátero


inscrito em um cı́rculo. Suponha que uma corda é escolhida ao
acaso. Qual é a probabilidade de que a corda escolhida seja maior
que o lado do triângulo?
A resposta é... depende!
Importância filosófica em Probabilidade
Logo, a noção de “eventos favoráveis”/“eventos totais”, se
aplicada ingenuamente, leva a interpretações dúbias, inaceitável
em Matemática!
Veja a página na Wikipedia sobre o assunto!

DME - IM - UFRJ Prob II Aula 1 4


Conceitos básicos

Experimento: Qualquer processo, real ou hipotético, no qual os


resultados podem ser identificados ao longo do tempo
Espaço amostral: É a coleção de todos os possı́veis resultados de
um experimento. Usualmente denotado pela letra Ω. Elementos
do espaço amostral são usualmente denotados pela letra ω.
Eventos: São sub-conjuntos do espaço amostral

ATENÇÃO! Em Prob I qualquer sub-conjunto do espaço amostral era


considerado um evento. Essa mentira aqui será desfeita!

DME - IM - UFRJ Prob II Aula 1 5


Conceitos básicos

Exemplo: Uma rede de computadores está em operação contı́nua, mas


pode sofrer avaria a qualquer momento. Na ocorrência de falha, o
tempo de colocar a rede novamente em operação depende de vários
fatores envolvendo a extensão e a causa da falha, entre outras.
Experimento: Observar número de falhas em um dia
Espaço amostral: Ω = {0, 1, 2, 3, . . . }

Experimento: Observar a hora do dia na qual a primeira falha


ocorre
Espaço amostral: Ω = {w ∈ R | 0 ≤ w ≤ 24}

DME - IM - UFRJ Prob II Aula 1 6


Teoria de conjuntos

Objetos que importam: Espaço amostral Ω e certos sub-conjuntos


A, B, C, · · · ⊂ Ω
∅, conjunto vazio
Ac , complementar
n
[
A1 ∪ . . . ∪ An = Ai , união
i=1
n
\
A1 ∩ . . . ∩ An = A1 A2 . . . An = Ai , interseção
i=1
A − B = A ∩ B c , diferença
A∆B = (A ∩ B c ) ∪ (Ac ∩ B), diferença simétrica

DME - IM - UFRJ Prob II Aula 1 7


Teoria de conjuntos

A e B são disjuntos se A ∩ B = ∅
A1 , . . . , An formam uma partição de Ω se são disjuntos e sua união
[n
é Ω, ou seja, Ai ∩ Aj = ∅, se i 6= j, e Ai = Ω
i=1
O conjunto de todos os sub-conjuntos de Ω é chamado de conjunto
das partes e é denotado por 2Ω . Porque?!
Observação: No Magalhães, o conjunto das partes de Ω é
denotado por Ωp .

DME - IM - UFRJ Prob II Aula 1 8


Teoria de conjuntos - Leis de de Morgan

Seja A1 , A2 , . . . uma famı́lia de sub-conjuntos de Ω. Então vale que



!c ∞
[ \
i Ai = Aci
i=1 i=1

!c ∞
\ [
ii Ai = Aci
i=1 i=1

DME - IM - UFRJ Prob II Aula 2 1


Porque nem todos os subconjuntos de Ω podem ser
eventos? - Motivo 1

Lançamento de uma moeda


Espaço amostral Ω = {K, C}
Se a moeda é honesta, sabemos calcular todas essas
probabilidades:
P(∅) = 0
1
P({K}) = P({C}) = 2
P({K, C}) = 1
Ou seja, sabemos calcular P(A), para todo A ⊂ 2Ω .
Porém, se não sabemos se a moeda é honesta, não sabemos
calcular P({K}) nem P({C})!
Nesse cenário, só sabemos calcular P(∅) = 0 e P(Ω) = 1.

DME - IM - UFRJ Prob II Aula 2 2


Porque nem todos os subconjuntos de Ω podem ser
eventos? - Motivo 2

Questionário para saber idade de indivı́duos


Espaço amostral Ω = [0, ∞)
Resposta da forma: “entre 0 e 18 anos”, “entre 18 e 25 anos”,
“entre 25 e 34 anos”, etc...
Matematicamente, [0, 18), [18, 25), [25, 34), etc...
Nos permite inferir informações sobre intervalos da forma [18, 25),
[0, 18) ∪ [25, 34), etc...
Porém, nada podemos dizer sobre o intervalo [20, 30), por exemplo!

⇒ Sub-conjuntos de 2Ω que são considerados eventos devem codificar


informações conhecidas sobre o experimento em questão.

DME - IM - UFRJ Prob II Aula 2 3


Porque nem todos os subconjuntos de Ω podem ser
eventos? - Motivo 3

Razão bastante técnica...


Nem todos os sub-conjuntos de Rn têm “volume” bem definido!
Paradoxo (Teorema) de Banach-Tarski: Dada uma bola
sólida de raio 1 em R3 , existe uma decomposição dela em um
número finito de conjuntos disjuntos que, se adequadamente
reordenados, geram duas bolas sólidas de raio 1!
https://en.wikipedia.org/wiki/Banach-Tarski paradox para mais
detalhes.
Veja também o vı́deo sobre isso no canal Vsauce do YouTube.

⇒ Sub-conjuntos de 2Ω que são considerados eventos devem ser


minimamente razoáveis!

DME - IM - UFRJ Prob II Aula 2 4


σ-álgebra (sigma álgebra) - motivação

Experimento: Lançar um dado honesto


Espaço amostral: Ω = {1, 2, 3, 4, 5, 6}
Obviamente sabemos calcular P(∅) = 0 e P(Ω) = 1
Se sabemos que P({1, 2}) = 2/6, então obviamente
P({1, 2}c ) = P({3, 4, 5, 6}) = 1 − 2/6 = 4/6
Finalmente, se sabemos que P({1}) = 1/6 e P({2}) = 1/6, devemos
saber que P({1} ∪ {2}) = P({1, 2}) = 2/6

DME - IM - UFRJ Prob II Aula 2 5


σ-álgebra - definição

Seja Ω o espaço amostral de um determinado experimento. Uma


coleção F de sub-conjuntos de Ω é dita uma σ-álgebra se satisfaz as
seguintes propriedades:
Ω∈F
Se A ∈ F então Ac ∈ F

[
Se Ai ∈ F, para i = 1, 2, 3, . . . , então Ai ∈ F
i=1
Dado um espaço amostral Ω de um determinado experimento, uma
σ-álgebra conterá os conjuntos aos quais saberemos associar uma
probabilidade. Chamaremos tais conjuntos, elementos de uma
σ-álgebra, de eventos.

A motivação anterior nos mostra que tais propriedades são razoáveis de


se esperar!

DME - IM - UFRJ Prob II Aula 2 6


σ-álgebra - exemplos

1 Considere Ω = {1, 2, 3} e as coleções de sub-conjuntos abaixo:

F1 = {∅, Ω, {1}, {2, 3}}


F2 = {∅, Ω, {1}, {2}, {1, 3}, {2, 3}}.

Ambas são σ-álgebras?


2 Para qualquer conjunto Ω, 2Ω é sempre uma σ-álgebra.
3 Seja A ⊂ Ω. Quem é uma σ-álgebra que contenha o conjunto A?
4 Considere o experimento “escolher um número real ao acaso,
segundo uma distribuição normal de média 0 e variância 1”. Quem
é uma σ-álgebra razoável?

DME - IM - UFRJ Prob II Aula 2 7


σ-álgebra - propriedades

Teorema: Seja Ω um espaço amostral e F uma σ-álgebra de eventos.


Sejam também A1 , A2 , A3 , . . . eventos em F. Então:
1 ∅∈F

\
2 Ai ∈ F
i=1
∞ [
\ ∞
3 lim sup An := Ak ∈ F
n=1 k=n
∞ \
[ ∞
4 lim inf An := Ak ∈ F
n=1 k=n
Observação: A1 , A2 , A3 , . . . é dita uma sequência de eventos em F, e
também a denotaremos por (An )n∈N .

DME - IM - UFRJ Prob II Aula 3 1


Mais um pouco de teoria de conjuntos

O que significa os conjuntos lim sup An e lim inf An definidos


acima?
Tais conjuntos serão de extrema importância ao longo do curso!
Teorema: Seja Ω um espaço amostral e F uma σ-álgebra de eventos.
Sejam também A1 , A2 , A3 , . . . eventos em F Então:
∞ [
\ ∞
1 O evento lim sup An := Ak representa “ocorrência de
n=1 k=n
infinitos dos eventos An ”
[∞ \

2 O evento lim inf An := Ak representa que “todos os eventos
n=1 k=n
An ocorrem, para n suficientemente grande”.

DME - IM - UFRJ Prob II Aula 3 2


Mais um pouco de teoria de conjuntos

Seja (An )n∈N uma sequência de eventos em F.


Dizemos que seu limite existe se os limites superior e inferior
coincidem. Nesse caso, denotamos

lim inf An = lim sup An = lim An .

Se An ⊂ An+1 , então dizemos que a sequência é monótona


não-decrescente, e denotamos esse fato por An ↑.
Se An ⊃ An+1 , então dizemos que a sequência é monótona
não-crescente, e denotamos esse fato por An ↓.

DME - IM - UFRJ Prob II Aula 3 3


Mais um pouco de teoria de conjuntos

Exercı́cio: Prove que:



[
Se An ↑, então lim An = An
n=1
\∞
Se An ↓, então lim An = An
n=1
Exercı́cio: Considere Ω = [0, 1]. Encontre uma sequência (An )n∈N tal
que lim inf An 6= lim sup An .

DME - IM - UFRJ Prob II Aula 3 4


Noções primitivas de probabilidade
Ω finito com elementos equiprováveis (e.g., lançamento de dado
honesto), A ⊂ Ω evento ⇒
número de elementos em A “eventos favoráveis”
P(A) = =
número de elementos em Ω “eventos totais”
Técnicas de combinatória e contagem
Ω intervalo de R, distribuição uniforme, A ⊂ Ω intervalo ⇒
comprimento de A
P(A) =
comprimento de Ω
Seja nA número de ocorrência de A em n repetições independentes
do experimento em questão ⇒
nA
P(A) = lim
n→∞ n

Apesar de intuitivas, essas definições nos dizem como calcular


probabilidades, não o que é probabilidade!
DME - IM - UFRJ Prob II Aula 4 1
Probabilidade - axiomas de Kolmogorov

Seja Ω um espaço amostral, munido de uma σ-álgebra F. Uma


probabilidade é uma função P : F → R satisfazendo:
1) P(Ω) = 1
2) Para todo evento A ∈ F, P(A) ≥ 0
3) Para toda sequência A1 , A2 , · · · ∈ F de eventos disjuntos temos
∞ ∞
!
[ X
P Ai = P(Ai )
i=1 i=1

A trinca (Ω, F, P) é dita um espaço de probabilidade.


P também é chamada de medida de probabilidade.

DME - IM - UFRJ Prob II Aula 4 2


Um exemplo simples

Um dado honesto é lançado duas vezes. Considere os eventos:

A = {“a soma dos resultados é ı́mpar”}


B = {“o resultado do primeiro lançamento é ı́mpar”}
C = {“o produto dos resultados é ı́mpar”}.

Construa um espaço de probabilidade adequado para esse problema e


calcule as probabilidades dos eventos acima.

DME - IM - UFRJ Prob II Aula 4 3


O óbvio acontece!

Teorema: Se Ω é finito, munido da σ-álgebra das partes, então


quantidade de elementos em A
P(A) = , para A ⊂ Ω é uma medida de
quantidade de elementos em Ω
probabilidade.

Teorema: Se Ω = [a, b] ⊂ R, munido da σ-álgebra dos borelianos


“tamanho” de A
B([a, b]), então P(A) = , para A ∈ B([a, b]) é uma
b−a
medida de probabilidade.

DME - IM - UFRJ Prob II Aula 4 4


Exemplo: O problema dos aniversários
Num grupo de r pessoas, qual é a probabilidade de que pelo menos
duas delas façam aniversário no mesmo dia?

Para resolver esse problema iremos utilizar alguns conceitos vistos


anteriormente em Cálculo das Probabilidades I, que serão provados
mais adiante.
A tabela abaixo mostra alguns valores em função de r:

r P(E)
10 0,1169
20 0,4114
30 0,7063
40 0,8912
50 0,9704
60 0,9941

DME - IM - UFRJ Prob II Aula 4 5


Exemplo: O Paradoxo de Bertrand revisitado

Considere um triângulo equilátero inscrito em um cı́rculo (suposto


unitário, para simplificar). Suponha que uma corda é escolhida ao
acaso. Qual é a probabilidade
√ de que a corda escolhida seja maior que
o lado do triângulo ( 3)?
Para cada solução apresentada, temos um espaço amostral Ω
diferente
Consequentemente, temos σ-álgebras diferentes para cada
resolução
Não há paradoxo algum! A noção de “escolhida ao acaso”, por si
só, é mal formulada e ambı́gua!
Exercı́cio: Verifique que as funções definidas na resolução do
paradoxo são de fato probabilidades.

DME - IM - UFRJ Prob II Aula 4 6


Propriedades da probabilidade
Teorema: Seja (Ω, F, P) um espaço de probabilidade e sejam
A, B, A1 , A2 , · · · ∈ F eventos. Temos que:
1) P(∅) = 0
n n
!
[ X
2) Se A1 , . . . , An são disjuntos, então P Ai = P(Ai )
i=1 i=1
3) P(Ac )= 1 − P(A)
4) A ⊂ B ⇒ P(A) ≤ P(B)
5) 0 ≤ P(A) ≤ 1
6) P(A ∩ B c ) = P(A) − P(A ∩ B)
7) P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
∞ ∞
!
[ X
8) Se A1 , A2 , . . . são quaisquer, então P Ai ≤ P(Ai )
i=1 i=1
9) Se An ↑ A, então P(An ) ↑ P(A)
10) Se An ↓ A, então P(An ) ↓ P(A)
DME - IM - UFRJ Prob II Aula 4 7
Probabilidade condicional

Intuição:
Ao acordar, antes de olhar pela janela, a probabilidade de chover
no dia é de 50%
Porém, após ouvir um trovão, provavelmente essa probabilidade
será modificada

⇒ Como que informações preliminares podem alterar a probabilidade


de eventos de interesse?

Experimento associado ao espaço de probabilidade (Ω, F, P)


É sabida a ocorrência de um elemento ω ∈ B ∈ F
Como incorporar essa informação na σ-álgebra e na medida de
probabilidade de modo adequado?

DME - IM - UFRJ Prob II Aula 5 1


Probabilidade condicional

Definição: Seja B ∈ F um evento tal que P(B) > 0. Definimos a


probabilidade condicional de A dado B como

P(A ∩ B)
P(A|B) = .
P(B)

Note que P(A|B), considerando A ∈ F também é uma medida de


probabilidade.

Proposição (Regra do Produto): Para eventos A1 , A2 , . . . , An ∈ F


n
!
\
com P Ai > 0, vale que
i=1

P(A1 ∩ . . . ∩ An ) = P(A1 )P(A2 |A1 ) . . . P(An |A1 ∩ A2 ∩ . . . ∩ An−1 ).

DME - IM - UFRJ Prob II Aula 5 2


Probabilidade condicional

Teorema (Lei da Probabilidade Total): Suponha que os eventos


C1 , . . . , Cn ∈ F formem uma partição de Ω e todos têm probabilidade
positiva. Então para qualquer evento A ∈ F vale que
n
X
P(A) = P(A|Ci )P(Ci ).
i=1

Teorema (Teorema de Bayes): Suponha que os eventos


C1 , . . . , Cn ∈ F formem uma partição de Ω e todos têm probabilidade
positiva. Então para qualquer evento A ∈ F com P(A) > 0 vale que

P(A|Cj )P(Cj ) P(A|Cj )P(Cj )


P(Cj |A) = = Pn .
P(A) i=1 P(A|Ci )P(Ci )

DME - IM - UFRJ Prob II Aula 5 3


Interpretação do Teorema de Bayes

P(A|Cj )P(Cj ) P(A|Cj )P(Cj )


P(Cj |A) = = Pn
P(A) i=1 P(A|Ci )P(Ci )

Cada Ci representa uma causa no resultado de um experimento


aleatório
Probabilidades a priori de ocorrências P(Ci ), para i = 1, . . . n
Evento A é observado na realização do experimento
Reavaliar quanto cada causa Ci é responsável pela ocorrência do
evento A
Probabilidades a posteriori P(Ci |A), para i = 1, . . . , n

DME - IM - UFRJ Prob II Aula 5 4


Exemplo

Um avião desapareceu e presume-se que seja igualmente provável que


ele tenha caı́do em qualquer uma das três regiões possı́veis. Denote por
1 − βi , i = 1, 2, 3, a probabilidade de que o avião seja encontrado após
uma busca na região i quando ele de fato está nessa região (as
constantes βi são ditas probabilidades de negligência, pois representam
a probabilidade de não encontrar o avião; em geral são atribuı́das às
condições climáticas e geográficas da região). Qual é a probabilidade de
que o avião esteja na região i dado que a busca na região 1 tenha sido
mal-sucedida?

DME - IM - UFRJ Prob II Aula 5 5


Exemplo

DME - IM - UFRJ Prob II Aula 5 6


Falácia do Procurador

Em 1999, Sally Clark foi condenada pelo assassinato dos seus dois
filhos, ambos recém nascidos. A decisão foi tomada com base no
depoimento de um especialista. Segundo ele, a probabilidade de uma
bebê recém nascido morrer da sı́ndrome de morte súbita infantil
(SMSI) era de 1/8500, de forma que a probabilidade de duas mortes
devida a SMSI na mesma famı́lia era (1/8500)2 ≈ 1/(73 × 106 ). Com
base nisso, o especialista conclui que a probabilidade da inocência de
Clark era de 1/(73 × 106 ). Qual é o problema com a linha de raciocı́nio
do especialista?
Hipótese de independência não justificada
Usou incorretamente P(“evidência”|“inocência”) ao invés de
P(“Inocência”|“evidência”).

Mensagem: não confunda P(A|B) com P(B|A)!

DME - IM - UFRJ Prob II Aula 6 1


Independência entre eventos
(Ω, F, P) espaço de probabilidade, A e B eventos em F
Intuitivamente, A e B são independentes se a ocorrência de B não
altera a probabilidade de ocorrência de A e vice-versa
Matematicamente,
P(A|B) = P(A) e P(B|A) = P(B)
Equivalente a
P(A ∩ B) = P(A)P(B)
Definição: Dizemos que os eventos A e B em F são independentes se
P(A ∩ B) = P(A)P(B).

Definição: Dizemos que os eventos A1 , A2 , . . . , An ∈ F são


independentes se para toda escolha de ı́ndices
1 ≤ i1 < i2 < · · · < ik ≤ n, e 2 ≤ k ≤ n tivermos
P(Ai1 ∩ Ai2 ∩ . . . ∩ Aik ) = P(Ai1 )P(Ai2 ) . . . P(Aik ).
DME - IM - UFRJ Prob II Aula 6 2
Exemplo
Considere um alfabeto que tem um total de n letras. Dentre todas as
palavras formadas com 3 letras escolhemos uma delas, ao acaso. Seja s
uma particular letra desse alfabeto. Defina os eventos
A = “palavra escolhida começa com a letra s
B = “palavra escolhida tem a letra s no meio”
C = “palavra escolhida tem exatamente duas letras iguais”
Provemos que esses eventos são dois a dois independentes, porém não
são (coletivamente) independentes

É possı́vel construir também um exemplo onde


P(A ∩ B ∩ C) = P(A)P(B)P(C) porém eles não são independentes dois
a dois (tente!)

É realmente necessário verificar independência para toda sub-coleção


de eventos de interesse!

DME - IM - UFRJ Prob II Aula 6 3


Exemplo
A confiabilidade de um sistema ou componente é a probabilidade
que ele funcione. Considere um sistema com dois sub-sistemas em
série S1 e S2 com, respectivamente m1 e m2 componentes idênticos
em paralelo.

O evento em que o componente j do sub-sistema Si funciona é


representado por Aij , para i = 1, 2 e j = 1, 2, . . . , mi .
Suponha que a probabilidade de funcionamento de cada
componente dentro de um mesmo sub-sistema seja igual, ou seja,
P(Aij ) = αi , para todo j.
Quantos componentes devemos ter em cada sub-sistema para
garantir uma confiabilidade de pelo menos γ?
DME - IM - UFRJ Prob II Aula 6 4
Exemplo - nem sempre é fácil construir o espaço
amostral...

Ana e Bia jogam um jogo com uma moeda honesta. Cada uma
lança a moeda duas vezes, sucessivamente, e aquela que obtiver
dois resultados iguais primeiro ganha.
Ana começa jogando, e se não vencer, passa a moeda para Bia, e
continuam assim, alternando as jogadas, até alguém vencer.
Bia desconfia da honestidade do jogo, e diz que Ana tem mais
chances de ganhar, pois ela começa o jogo...
...Ana contra-argumenta, dizendo que o número de jogadas pode
ser infinito, de modo que tanto faz quem começa jogando.
Quem está certa?
Claramente o jogo era desonesto, e Ana tinha mais chances de
ganhar!
Tal problema poderia ser resolvido com a utilização de uma moeda
não balanceada?
DME - IM - UFRJ Prob II Aula 6 5
Lemas de Borel-Cantelli

Teorema: Seja (Ω, F, P) um espaço de probabilidade e sejam


A1 , A2 , . . . eventos em F. Temos então que
X ∞
i) Se P(An ) < ∞, então P(lim sup An ) = 0
n=1
X∞
ii) Se P(An ) = ∞, e os eventos An são independentes, então
n=1
P(lim sup An ) = 1
∞ [
\ ∞
Lembrete: lim sup An = Ak representa “ocorrência de infinitos
n=1 k=n
dos eventos An ”
Observação: Os lemas de Borel-Cantelli são um exemplo particular
de leis zero-um em Probabilidade.

DME - IM - UFRJ Prob II Aula 7 1


Lemas de Borel-Cantelli - exemplos

1) Um macaco imortal (e muito paciente!) bate em teclas ao acaso


em um teclado, por tempo indefinido. Qual a probabilidade de que
ele eventualmente digite a obra inteira de Shakespeare?
Apesar disso, tal evento é bastante improvável...
Hamlet tem 130.000 caracteres
A probabilidade do macaco digitar tal obra é de aproximadamente
4,4 × 10360.783 , considerando pontuação e maiúsculas
Se cada próton do universo observável for um macaco digitando,
incessantemente, 2.000 caracteres por minuto, desde o Big Bang
até o fim (estimado) do Universo, para termos uma chance em um
trilhão de observar Hamlet digitada por inteiro (1 em 1012 ),
deverı́amos ter 10360.641 universos formados por macacos atômicos!
Em um desses universos, a chance de um documento de meros 79
caracteres ser digitado corretamente é de menos de 1 em um
trilhão!
DME - IM - UFRJ Prob II Aula 7 2
Lemas de Borel-Cantelli - exemplos

2) Considere um jogo infinito, onde na rodada n o jogador perde 2n


1
reais com probabilidade n ou ganha 1 real com probabilidade
2 + 1
2n
. O que podemos falar sobre o patrimônio do jogador ao
2n + 1
“final” do jogo?
3) Suponha que lançamos uma moeda independentemente infinitas
vezes, de modo que a probabilidade de observar cara no n-ésimo
lançamento é 1/n. Qual a probabilidade de observarmos infinitas
caras? E se essa probabilidade fosse 1/n2 ? Como você explica isso?
Observação: Note que a independência não pode ser removida na
segunda afirmação!

DME - IM - UFRJ Prob II Aula 7 3


Variáveis aleatórias - motivação
Às vezes, nosso espaço amostral pode ser bem complicado...
Gás com 1028 partı́culas movendo-se livremente em R3
28
Ω = posição e momento de todas as partı́culas = R6×10 !
Impossı́vel medir posição e momento de todas as partı́culas!
Além disso, fazer contas nesse espaço é virtualmente inviável.
Porém, é fácil observarmos, por exemplo, pressão e temperatura
desse gás
Para cada configuração ω ∈ Ω, temos uma pressão e temperatura
diferentes, ou seja, temos funções
X :Ω → R
ω 7→ X(ω) = temperatura associada à configuração ω
Y :Ω → R
ω 7→ Y (ω) = pressão associada à configuração ω
X e Y são resumos numéricos de Ω. Tornemos isso mais rigoroso!
DME - IM - UFRJ Prob II Aula 8 1
Variáveis aleatórias - definição

Definição: Seja (Ω, F, P) um espaço de probabilidade. Uma variável


aleatória é uma função X : Ω → R satisfazendo

X −1 (I) := {ω ∈ Ω | X(ω) ∈ I} ∈ F,

para todo intervalo I ⊂ R.

Intuitivamente, a informação na σ-álgebra F deve ser compatı́vel com


cálculo de probabilidades sobre intervalos.

Observação: Esse nome é infame! X não é variável (pois é função),


nem aleatória (pois tem uma regra de formação bem definida)!

DME - IM - UFRJ Prob II Aula 8 2


Exemplo

Lançamento de um dado...
...porém somos informados somente a paridade do número
Ω = {1, 2, 3, 4, 5, 6}
F = {∅, Ω, {1, 3, 5}, {2, 4, 6}}
Considere as funções abaixo:

X :Ω → R
ω 7→ X(ω) = 1 se o número é par e 0 se é ı́mpar
Y :Ω → R
ω 7→ Y (ω) = valor observado no lançamento

Ambas são variáveis aleatórias?

DME - IM - UFRJ Prob II Aula 8 3


Notação

Para todo x ∈ R, escrevemos {X = x}, {X ≤ x}, {X ≥ x} e {X ∈ I},


para I ⊂ R intervalo, para denotar respectivamente os eventos

{ω ∈ Ω | X(ω) = x}
{ω ∈ Ω | X(ω) ≤ x}
{ω ∈ Ω | X(ω) ≥ x}
{ω ∈ Ω | X(ω) ∈ I}

⇒ Jamais escreveremos P({ω ∈ Ω | X(ω) ≤ x}), mas sim P(X ≤ x)

DME - IM - UFRJ Prob II Aula 8 4


Função de probabilidade acumulada

Definição: Seja X uma variável aleatória em (Ω, F, P). Definimos sua


função de probabilidade acumulada (também chamada de função de
distribuição) como

FX (x) = P(X ∈ (−∞, x]) = P(X ≤ x), para x ∈ R.

Teorema: A função de probabilidade acumulada nos permite obter


qualquer informação probabilı́stica sobre X, ou seja, P(X ∈ B) pode
ser obtida a partir de FX , para todo B ∈ B(R).

DME - IM - UFRJ Prob II Aula 8 5


Função de probabilidade acumulada

Teorema (Propriedades): Uma função de probabilidade acumulada de


uma variável aleatória X satisfaz às propriedades abaixo:
1) lim FX (x) = 0 e lim FX (x) = 1
x→−∞ x→∞
2) FX é contı́nua à direita, ou seja, se xn ↓ x então FX (xn ) ↓ FX (x)
3) FX é não decrescente, ou seja, se x ≤ y então FX (x) ≤ FX (y)

Teorema: Se uma função F : R → R satisfaz às propriedades 1), 2) e


3) acima então existe um espaço de probabilidade (Ω, F, P) e uma
variável aleatória X nesse espaço tal que F é a função de probabilidade
acumulada de X.

⇒ Para fins práticos, basta informar FX !

DME - IM - UFRJ Prob II Aula 9 1


Variáveis aleatórias discretas

Definição: Uma variável aleatória X definida sobre um espaço de


probabilidade (Ω, F, P) é dita discreta se a função X assume apenas
uma quantidade enumerável de valores.

X(Ω) = {x1 , x2 , . . . } ⊂ R.

Definição: Definimos a função de probabilidade de X como sendo a


probabilidade de X assumir algum valor em particular, ou seja,

p(xi ) = P(X = i) = P({ω ∈ Ω | X(ω) = xi }).

DME - IM - UFRJ Prob II Aula 9 2


Variáveis aleatórias discretas
Proposição: A função de probabilidade de X em (Ω, F, P) satisfaz:
1) 0 ≤ p(xi ) ≤ 1, ∀i = 1, 2, . . .
X
2) p(xi ) = 1
i

Podemos relacionar as funções de probabilidade acumulada e de


probabilidade como:
X
FX (x) = p(xi )
{i | xi ≤x}

p(xi ) = FX (xi ) − FX (x−


i ),

onde FX (x−
i ) = lim FX (x).
x→x−
i

Exemplo: Considere o lançamento de uma moeda honesta duas vezes


e estude a variável aleatória que conta o número de caras nos dois
lançamentos.
DME - IM - UFRJ Prob II Aula 9 3
Variáveis aleatórias contı́nuas

Definição: Uma variável aleatória X definida em um espaço de


probabilidade (Ω, F, P) é dita contı́nua se existe uma função fX
não-negativa tal que a função de probabilidade acumulada de X,
denotada por FX , pode ser escrita como
Z x
FX (x) = fX (t) dt, ∀x ∈ R.
−∞

A função fX é dita a função densidade de probabilidade de X.

DME - IM - UFRJ Prob II Aula 9 4


Variáveis aleatórias contı́nuas

Proposição: A função densidade de probabilidade fX de uma variável


aleatória X satisfaz:
1) fX (x) ≥ 0, ∀x ∈ R
Z +∞
2) f (t) dt = 1
−∞
3) FX0 (x) = fX (x); em particular, FX é uma função contı́nua

Conforme bem lembramos, vale que:

P(a < X < b) = P(a < X ≤ b) = P(a ≤ X < b) = P(a ≤ X ≤ b)


Z b
= fX (x) dx = FX (b) − FX (a).
a

DME - IM - UFRJ Prob II Aula 9 5


Variáveis aleatórias... wtf?!

É possı́vel construir uma função de probabilidade acumulada F que é


contı́nua tal que F 0 (x) = 0, “para todo” x ∈ R ⇒ variável aleatória
singular
Teorema: Toda função de probabilidade acumulada F pode ser
decomposta como a ponderação de uma contı́nua, uma discreta e uma
singular, ou seja,

F (x) = αd F d (x) + αc F c (x) + αs F s (x),

com αd + αc + αs = 1 e αd , αc , αs ≥ 0.

DME - IM - UFRJ Prob II Aula 9 6


Variáveis aleatórias mistas

Exemplo: Estude a variável aleatória cuja função de probabilidade


acumulada é dada por



 0, se x < 0

x/4, se 0 ≤ x < 1
FX (x) =


 1/2, se 1 ≤ x < 2

1, se x ≥ 2.

DME - IM - UFRJ Prob II Aula 10 1


Função de probabilidade acumulada condicional

Definição: Seja X uma variável aleatória em (Ω, F, P) e considere um


evento A ∈ F, com P(A) > 0. A função de probabilidade acumulada
condicional de X, dada a ocorrência de A é definida por:

P({X ≤ x} ∩ A)
FX (x|A) = P(A ≤ x|A) = .
P(A)

Mais geralmente, dado B ∈ B(R), podemos calcular

P({X ∈ B} ∩ A)
P(X ∈ B|A) = .
P(A)

DME - IM - UFRJ Prob II Aula 10 2


Exemplo
O desempenho diário de um certo conjunto de ações pode ser medido
como a porcentagem de crescimento do preço de venda em relação ao
dia anterior. Suponha que esse desempenho é uma variável aleatória
contı́nua X com função densidade de probabilidade dada por



 0, se x ≤ −3 ou x > 0
 1 x + 1 , se − 3 < x ≤ 0

fX (x) = 12 1
4


 4 x, se 0 < x ≤ 2
1,

se 2 < x ≤ 4.
16
Desempenho negativo indica que as ações perderam valor de um dia
para o outro.
a) Qual é a probabilidade de um dia com desempenho excepcional
(superior a 3%) dado que o desempenho foi positivo?
b) O desempenho é dito regular se não há alteração superior a 1% em
relação ao dia anterior. Supondo um desempenho não-positivo,
qual a probabilidade de termos um dia regular?
DME - IM - UFRJ Prob II Aula 10 3
Distribuição de uma variável aleatória

(Ω, F, P) ⇒ (R, B(R), PX )

DME - IM - UFRJ Prob II Aula 10 4


Distribuições discretas - exemplos

São medidas de probabilidade em (R, B(R)) induzidas por variáveis


aleatórias discretas.
Bernoulli: Dizemos que X ∼ Bern(p) se
(
P(X = 0) = 1 − p
P(X = 1) = p

Binomial: Dizemos que X ∼ Binom(n, p) se


 
n k
P(X = k) = p (1 − p)n−k , k = 0, 1, . . . , n.
k

Conta o número de sucessos (observações iguais a 1) em n repetições


independentes de Bernoulli.
Observação: X e Y com a mesma distribuição ; X e Y iguais!
DME - IM - UFRJ Prob II Aula 10 5
Distribuições discretas - exemplos

Geométrica: Dizemos que X ∼ Geo(p) se

P(X = x) = p(1 − p)x , x = 0, 1, . . .

Conta número de fracassos antes do primeiro sucesso em n repetições


independentes de Bernoulli.
Poisson: Dizemos que X ∼ Poi(λ) se

λx
P(X = x) = e−λ , x = 0, 1, . . . .
x!

Conta... um monte de coisa!

DME - IM - UFRJ Prob II Aula 10 6


Distribuições contı́nuas - exemplos
São medidas de probabilidade em (R, B(R)) induzidas por variáveis
aleatórias contı́nuas.
Em geral, nesses casos, Ω = R e X = id.
Uniforme: Dizemos que X ∼ Unif[a, b] se
1
fX (x) = , para a ≤ x ≤ b.
b−a

Exponencial: Dizemos que X ∼ Exp(λ) se

fX (x) = λe−λx , para x ≥ 0.

Normal: Dizemos que X ∼ N (µ, σ 2 ) se


2
1 1 (x−µ)
fX (x) = √ e− 2 σ2 , para x ∈ R.
2πσ 2
DME - IM - UFRJ Prob II Aula 11 1
Distribuições contı́nuas - propriedades

Teorema: Sendo X variável aleatória contı́nua, X tem a propriedade


da perda da memória (P(X ≥ t + s | X ≥ s) = P(X ≥ t), ∀t, s ≥ 0) se e
somente se X é exponencial.

k
⇒ Distribuição de Weibull: fX (x) = λkxk−1 e−λx , para x ≥ 0.

Exemplo (Relação entre Poisson e Exponencial): Seja X o número de


ocorrências de um determinado evento em uma unidade de tempo, e
seja Y o tempo entre duas ocorrências sucessivas de tal evento. Então
X é Poisson e Y é exponencial.

DME - IM - UFRJ Prob II Aula 11 2


Distribuições contı́nuas - propriedades

X −µ
Teorema: Se X ∼ N (µ, σ 2 ) então Z = ∼ N (0, 1).
σ
Teorema: Se fX (x) é a função densidade
Z +∞ de probabilidade de uma
distribuição normal padrão, então fX (x) dx = 1.
−∞

DME - IM - UFRJ Prob II Aula 11 3


Vetores aleatórios
Definição: Dado um espaço de probabilidade (Ω, F, P), um vetor
aleatório é uma função X : Ω → Rm , representada por

X(ω) = (X1 (ω), . . . , Xm (ω)),

onde cada componente Xi é uma variável aleatória.


Note que a definição acima é equivalente a dizer que
m
\ m
\
{ω ∈ Ω | Xi (ω) ≤ xi } = Xi−1 (−∞, xi ] ∈ Ω,
i=1 i=1

para todo x = (x1 , . . . , xm ) ∈ Rm .


Analogamente, podemos definir a função de probabilidade acumulada
do vetor aleatório X como

FX (x) = Fx (x1 , . . . , xm ) = P(X1 ≤ x1 , . . . , Xm ≤ xm ), ∀x ∈ Rm .

DME - IM - UFRJ Prob II Aula 13 1


Vetores aleatórios discretos
Se as componentes do vetor aleatório X são discretas, temos um vetor
aleatório discreto. Sua função de probabilidade conjunta é definida por

pX (x) = p(x1 , . . . , xm ) = P(X1 = x1 , . . . , Xm = xm ).

Decompondo x = (y, z), com y ∈ Rk e z ∈ Rm−k , podemos definir a


função de probabilidade marginal de y como
X
pY (y) = pX (y, z),
z

ou seja, somamos pX somente nas coordenadas que não desejamos.


Teorema: A função de probabilidade conjunta de um vetor aleatório
discreto X satisfaz às propriedades
i) pX (x) ≥ 0, ∀x ∈ Rm
P
ii) x pX (x) = 1
DME - IM - UFRJ Prob II Aula 13 2
Exemplo
A tabela abaixo mostra a função de probabilidade conjunta entre os
números diários de crianças com alergia (X) e com pneumonia (Y )
atendidos diariamente em um determinado posto de saúde:
X\Y 0 1 2 P(X = x)
0 1/16 1/16 1/8 1/4
1 1/8 1/8 0 1/4
2 1/16 1/8 1/8 5/16
3 0 1/8 1/16 3/16
P(Y = y) 1/4 7/16 5/16 1
Através dessa tabela, podemos calcular facilmente probabilidades
como:
P(X = Y )
P(X > Y )
P(X > 1)
P(Y = 2)
DME - IM - UFRJ Prob II Aula 13 3
A distribuição multinomial

Considere um experimento com m possı́veisP resultados, cada um com


probabilidade pi ≥ 0, para i = 1, 2, . . . , m e m i=1 pi = 1. Tal
experimento é repetido n vezes, de forma independente e observamos as
variáveis X1 , X2 , . . . , Xm , que correspondem ao número de ocorrências
de cada um dos possı́veis resultados dessas repetições. O vetor
aleatório X = (X1 , . . . , Xm ) segue o modelo multinomial de parâmetros
n e p = (p1 , . . . , pm ). Sua função de probabilidade conjunta é dada por

n!
pX (x) = P(X1 = x1 , . . . , Xm = xm ) = px1 . . . pxmm ,
x 1 ! . . . xm ! 1
Pm
sendo que i=1 xi = n, para 0 ≤ xi ≤ n.
Exemplo: Considere 10 lançamentos independentes de um dado
equilibrado, e seja Xi o número de ocorrências da face i, para
i ∈ {1, 2, 3, 4, 5, 6}.

DME - IM - UFRJ Prob II Aula 13 4


Vetores aleatórios contı́nuos
Definição: O vetor aleatório X é dito contı́nuo se existe uma função
fX : Rm → R, dita a função densidade de probabilidade conjunta, tal
que Z x1Z xm
FX (x) = ··· fX (t) dtm . . . dt1 .
−∞ −∞

Atenção! NÃO é verdade que se as componentes de um vetor


aleatório X são variáveis aleatórias contı́nuas, então X será um vetor
aleatório contı́nuo!
Teorema: A função densidade de probabilidade conjunta de um vetor
aleatório contı́nuo X satisfaz às propriedades:
i) fX (x) ≥ 0, ∀x ∈ Rm
Z +∞ Z +∞
ii) ··· fX (t) dtm . . . dt1 = 1
−∞ −∞
∂m ∂m
iii) fX (x) = FX (x) = FX (x1 , . . . , xm )
∂x ∂x1 . . . ∂xm
DME - IM - UFRJ Prob II Aula 13 5
Vetores aleatórios contı́nuos

Seja B ∈ B(Rm ) um boreliano de Rm . Então podemos calcular


Z Z
P(X ∈ B) = · · · fX (x) dxm . . . dx1 .
B

Ou seja, probabilidades são calculadas com integrais múltiplas.

Decompondo x = (y, z), com y ∈ Rk e z ∈ Rm−k , podemos definir a


função densidade de probabilidade marginal de y como
Z Z
fY (y) = · · · fX (y, z) dzm−k . . . dz1 ,
Rm−k

ou seja, integramos fX somente nas coordenadas que não desejamos.

DME - IM - UFRJ Prob II Aula 13 6


Exemplo

Exemplo: Considere a função abaixo:


(
cx2 y, se x2 ≤ y ≤ 1
f (x, y) =
0, caso contrário.

a) Encontre c de modo que f seja uma função densidade de


probabilidade conjunta
b) Calcule P(X ≥ Y )
c) Encontre as marginais em X e Y .

DME - IM - UFRJ Prob II Aula 13 7


Um breve exemplo

Um ponto (X, Y ) é escolhido ao acaso dentro do disco x2 + y 2 ≤ 9.


Determine a função densidade de probabilidade conjunta de X e Y .

DME - IM - UFRJ Prob II Aula 14 1


Independência
Definição: Dizemos que as variáveis aleatórias X1 , . . . , Xm são
independentes se

P(X1 ∈ B1 , . . . , Xm ∈ Bm ) = P(X1 ∈ B1 ) . . . P(Xm ∈ Bm ), ∀Bi ∈ B(R).

Teorema: Denote por FX a função de probabilidade acumulada do


vetor aleatório X = (X1 , . . . , Xn ), fX a função densidade probabilidade
ou função de probabilidade de X, Fi a função de probabilidade
acumulada de Xi e fi a função densidade probabilidade marginal ou
função de probabilidade marginal de Xi , para i = 1, . . . , n. Então
temos que X1 , . . . , Xn são independentes se e somente se vale alguma
das condições abaixo:
FX (x1 , . . . , xm ) = F1 (x1 ) × · · · × Fm (xm ), ∀x ∈ Rm
fX (x1 , . . . , xm ) = f1 (x1 ) × · · · × fm (xm ), ∀x ∈ Rm
fX (x1 , . . . , xm ) = h1 (x1 ) × · · · × hm (xm ), ∀x ∈ Rm , onde hi é uma
função não-negativa dependendo somente de xi
DME - IM - UFRJ Prob II Aula 14 2
Exemplo

A tabela abaixo mostra a função de probabilidade conjunta entre os


números diários de crianças com alergia (X) e com pneumonia (Y )
atendidos diariamente em um determinado posto de saúde:

X\Y 0 1 2 P(X = x)
0 1/16 1/16 1/8 1/4
1 1/8 1/8 0 1/4
2 1/16 1/8 1/8 5/16
3 0 1/8 1/16 3/16
P(Y = y) 1/4 7/16 5/16 1

Note que X e Y não são independentes, pois

P(X = 1, Y = 2) = 0 6= P(X = 1)P(Y = 2) = 5/64.

DME - IM - UFRJ Prob II Aula 14 3


Exemplos

1) A função densidade de probabilidade conjunta do vetor aleatório


(X, Y ) é dada por
 −(x+2y)
ke para x ≥ 0 e y ≥ 0
f (x, y) =
0 caso contrário.

Encontre o valor adequado de k, as distribuições marginais e diga


se X e Y são independentes.
2) A função densidade de probabilidade conjunta do vetor aleatório
(X, Y ) é dada por

24xy para x ≥ 0, y ≥ 0, e x + y ≤ 1
f (x, y) =
0 caso contrário.

As variáveis aleatórias X e Y são independentes?

DME - IM - UFRJ Prob II Aula 14 4


Distribuições condicionais

Seja X um vetor aleatório em Rm . Decomponha x = (y, z), com


y ∈ Rk e z ∈ Rm−k .

Se X é discreto, podemos calcular a função de probabilidade


condicional de Z, condicionado na observação que Y = y:

pX (y, z) pX (y, z)
pZ|Y (z|y) = =P .
pY (y) z pX (y, z)

Se X é contı́nuo, então definimos a função densidade de


probabilidade condicional de Z, condicionado na observação que
Y = y:

fX (y, z) fX (y, z)
fZ|Y (z|y) = =R R .
fY (y) · · · Rm−k fX (y, z) dzm−k . . . dz1

DME - IM - UFRJ Prob II Aula 14 5


Exemplo

Considere o vetor aleatório (X, Y ) cuja função densidade de


probabilidade conjunta é dada por

24xy para x ≥ 0, y ≥ 0, e x + y ≤ 1
f (x, y) =
0 caso contrário.

Calcule a distribuição condicional fY |X (y|x).

DME - IM - UFRJ Prob II Aula 14 6


Exemplo

O número de pessoas N que entra em uma loja em um determinado


dia segue uma distribuição de Poisson de parâmetro λ. Sabe-se que
uma proporção p dos clientes é homem e uma proporção 1 − p é
mulher. Seja X o número de clientes homens e Y o número de clientes
mulheres que entram na loja em um determinado dia, de modo que
X + Y = N . Encontre a função de probabilidade conjunta de X e Y .

Isso prova o seguinte...


Teorema: Se N ∼ Poi(λ) e X|(N = n) ∼ Bin(n, p), então
X ∼ Poi(pλ), Y ∼ Poi((1 − p)λ) e X e Y são independentes.

DME - IM - UFRJ Prob II Aula 14 7


DME - IM - UFRJ Prob II Aula 14 8
DME - IM - UFRJ Prob II Aula 14 9
Funções de vetores aleatórios

Se X é um vetor aleatório em Rm e g : Rm → Rk é uma função, então


podemos estar interessados na distribuição de Y = g(X):
Se D é o diâmetro de um rolamento esférico, então seu volume é
πD3
dado por
6
Se V é a voltagem em um circuito elétrico onde passa uma corrente
i (valor fixo conhecido), então a potência é dada por W = V i
Se X e Y são peso e altura, respectivamente, de indivı́duos em
uma população, então o IMC é dado por X/Y 2

DME - IM - UFRJ Prob II Aula 15 1


Relembrar: funções de variáveis aleatórias (g : R → R)

Exemplo: Seja X a taxa com a qual consumidores chegam em uma


fila, e seja T = 1/X o tempo médio de espera. Quem é a distribuição
de T , a partir da distribuição de X?

Podemos calcular também de outra forma...


Teorema: Seja X uma variável aleatória contı́nua tomando valores no
intervalo (a, b), e seja Y = g(X), onde g é uma função bijetiva e
diferenciável. Denote por (α, β) a imagem de (a, b) através de g, e por
h = g −1 a função inversa de g. Então Y é uma variável aleatória
contı́nua cuja função densidade de probabilidade é dada por
(
fX (h(y)) dh(y) para α < y < β,

fY (y) = dy
0 caso contrário

DME - IM - UFRJ Prob II Aula 15 2


Exemplo

1
No caso particular em que X ∼ Exp(1), temos que fT (t) = 2 e−1/t ,
t
para t > 0:

DME - IM - UFRJ Prob II Aula 15 3


Aplicação: transformação integral de probabilidade
Teorema: Seja X uma variável aleatória contı́nua. Então Y = FX (X)
tem distribuição uniforme em [0, 1]. Reciprocamente, se U ∼ Unif[0, 1],
então F −1 (U ) tem a mesma distribuição de X.

DME - IM - UFRJ Prob II Aula 15 4


Funções de vetores aleatórios I (g : Rm → R)

Exemplo: Seja Xi o tempo que leva para o consumidor i ser atendido


em uma fila, para i = 1, 2, independentes e identicamente distribuı́dos
com distribuição Exp(2). Seja Y = X1 + X2 o tempo total de
atendimento. Qual é a distribuição de Y ?

Mais geralmente, temos...


Teorema: Seja X um vetor aleatório em Rm e Y = g(X), onde
g : Rm → R. Para cada y ∈ R defina Ay = {x ∈ Rm | g(x) ≤ y}. Então
temos que Z Z
FY (y) = ··· fX (x) dx.
Ay

DME - IM - UFRJ Prob II Aula 15 5


Função linear de duas variáveis aleatórias

Teorema: Seja (X1 , X2 ) um vetor aleatório contı́nuo, e seja


Y = a1 X1 + a2 X2 + b. Então Y é uma variável aleatória contı́nua com
função densidade de probabilidade dada por
Z ∞  
y − b − a2 x2 1
fY (y) = f(X1 ,X2 ) , x2 dx2
−∞ a1 |a1 |

Corolário: Se a1 = a2 = 1 e b = 0, então
Z ∞
fY (y) = fX1 (y − z)fX2 (z) dz.
−∞

A fórmula acima é chamada de convolução de X1 e X2 .

DME - IM - UFRJ Prob II Aula 15 6


Aplicação

DME - IM - UFRJ Prob II Aula 15 7


Produto e quociente de duas variáveis aleatórias

Teorema: Seja (X1 , X2 ) um vetor aleatório contı́nuo. Então o produto


X1 X2 e o quociente X1 /X2 são variáveis aleatórias contı́nuas, cujas
respectivas função densidade de probabilidade são dadas por
Z ∞
1  z
fX1 X2 (z) = f(X1 ,X2 ) x, dx
|x| x
Z−∞

fX1 /X2 (z) = |y|f(X1 ,X2 ) (zy, y) dy
−∞

Exemplo: Sejam X1 e X2 variáveis aleatórias normais padrão


independentes. Então X1 /X2 tem distribuição de Cauchy.

DME - IM - UFRJ Prob II Aula 15 8


Um pequeno lembrete de Cálculo III

Exemplo: Seja T o paralelogramo limitado por y = 2x, y = 2x − 2,


y = x e y = x + 1. Calcule
ZZ
xy dxdy.
T

DME - IM - UFRJ Prob II Aula 16 1


DME - IM - UFRJ Prob II Aula 16 2
Funções de vetores aleatórios II (g : Rm → Rm )
Teorema: Seja X = (X1 , . . . , Xm ) um vetor aleatório contı́nuo
tomando valores em S ⊂ Rm , e seja Y = g(X), onde g : Rm → Rm é
uma função bijetiva e diferenciável, ou seja,
Yi = gi (X1 , . . . , Xm ) , i = 1, . . . , m. Denote por T a imagem de S
através de g, e denote a inversa de g da seguinte forma:
xi = hi (y1 , . . . , ym ), i = 1, . . . , m.
Então o vetor aleatório Y é contı́nuo, com função densidade de
probabilidade conjunta dada por

fX (h1 (y), . . . , hm (y)) |J| para y ∈ T
fY (y1 , . . . , ym ) =
0 caso contrário,
onde J é o determinante
∂h1 ∂h1
···
 
∂y1 ∂ym
J = det  .. .. ..
.
 
. . .
∂hm ∂hm
∂y1 ··· ∂ym

DME - IM - UFRJ Prob II Aula 16 3


Exemplo

1) Considere o vetor aleatório X = (X1 , X2 , X3 ) com função


densidade de probabilidade conjunta dada por

fX (x) = λ3 e−λ(x1 +x2 +x3 ) , para x1 , x2 , x3 ≥ 0.

Encontre a função densidade de probabilidade conjunta de


Y = (Y1 , Y2 , Y3 ), onde

Y1 = X1
Y2 = X1 + X2
Y3 = X1 + X2 + X3 .

DME - IM - UFRJ Prob II Aula 16 4


Exemplo

2) Considere o vetor aleatório X = (X1 , X2 ) com função densidade de


probabilidade conjunta dada por

fX (x) = 4x1 x2 , para 0 < x1 , x2 < 1.

Encontre a função densidade de probabilidade conjunta de


Y = (Y1 , Y2 ), onde
Y1 = X1 /X2
Y2 = X1 X2 .

DME - IM - UFRJ Prob II Aula 16 5


Exemplo

3) Sejam X1 e X2 variáveis aleatórias com distribuição normal padrão


independentes. Encontre a distribuição de X1 + X2 e X1 − X2 .

O surpreendente desse resultado, é que vale a recı́proca:


Teorema: Sejam X1 e X2 variáveis aleatórias independentes e
identicamente distribuı́das com variância finita. Se X1 + X2 e
X1 − X2 são independentes, então X1 e X2 têm distribuição
normal.

DME - IM - UFRJ Prob II Aula 16 6


Exemplo (Gerador de Box-Muller)

4) Sejam U1 e U2 variáveis aleatórias independentes com distribuição


uniforme em [0, 1] e defina
p
X1 = −2 ln(U1 ) cos (2πU2 )
p
X2 = −2 ln(U1 ) sin (2πU2 ) .

Encontre a distribuição conjunta de (X1 , X2 ).

DME - IM - UFRJ Prob II Aula 17 1


DME - IM - UFRJ Prob II Aula 17 2
Aplicações
1) O tempo Xi de atendimento do consumidor i em uma fila, medido
em minutos, tem distribuição exponencial, para i = 1, . . . , n. Cada
consumidor leva em média 1/λi minutos para ser atendido.
Assuma independência entre os tempos de atendimento de
consumidores distintos. Encontre a distribuição das variáveis
aleatórias abaixo:
a) O menor tempo de atendimento dentre os n consumidores
b) O maior tempo de atendimento dentre os n consumidores
c) O tempo de atendimento total dos n consumidores (assumindo
λ1 = · · · = λn = λ)
Portanto, temos que:

Y = min Xi ∼ Exp(λ1 + · · · + λn )
1≤i≤n
Z = max Xi ∼ distribuição sem nome
1≤i≤n
W = X1 + · · · + Xn ∼ Γ(n, λ) assumindo λ1 = · · · = λn = λ

DME - IM - UFRJ Prob II Aula 17 3


Aplicações

DME - IM - UFRJ Prob II Aula 17 4


Aplicações

2) Considere agora que a fila tem somente dois consumidores, cujos


tempos de atendimento X e Y , em minutos, são independentes e
com distribuição exponencial de mesmo parâmetro λ. Considere as
X
variáveis aleatórias V = X + Y e W = . Note que V
X +Y
representa o tempo total de atendimento de ambos os
consumidores e W representa a proporção do tempo total gasto no
primeiro atendimento. Encontre a distribuição conjunta de V e W .

DME - IM - UFRJ Prob II Aula 17 5


Aplicações

3) Seja X o tempo de atendimento de um consumidor em uma fila,


em minutos, e seja Y a taxa de atendimento do prestador de
serviço, medida em consumidores por minutos. Um modelo
popular para relacionar essas variáveis aleatórias é dizer que

X|(Y = y) ∼ Exp(y).

Note que Z = XY mede quão rápido, em comparação com a


média, o consumidor é atendido. O que podemos dizer da
distribuição de Z|Y ?

DME - IM - UFRJ Prob II Aula 17 6


Aplicações

4) Um ponto (V, W ) dentro do cı́rculo de raio 1 centrado na origem é


escolhido da seguinte forma:
Primeiramente, um número R é escolhido ao acaso entre 0 e 1
Em seguida um ângulo Θ é escolhido ao acaso entre 0 e 2π
Finalmente, é feita a transformação
(
V = R cos(Θ)
W = R sin(Θ)

Encontre a distribuição conjunta do vetor aleatório (V, W ) e diga


se tal distribuição é uniforme no cı́rculo unitário.

DME - IM - UFRJ Prob II Aula 17 7


Aplicações

DME - IM - UFRJ Prob II Aula 17 8


Média, valor esperado, esperança, etc...
Jogo no qual n resultados distintos podem ser obtidos ⇒ cada com
retorno xi ao jogador, i = 1, . . . , n
Mesa cobra C para participar de uma rodada ⇒ a mesa está
levando vantagem?
Jogar N vezes, resultado xi tem probabilidade pi de ocorrer ⇒ xi
acontece aproximadamente N pi vezes
n n
!
X X
xi p i N − N C = N xi pi − C ≈ lucro aproximado do
i=1 i=1
jogador após jogar N vezes
Xn
xi pi N ≈ quanto a mesa dá ao jogador apos N rodadas
i=1
n
X
N =1⇒ xi pi ≈ quanto a mesa dá em uma única rodada
i=1
n
X
⇒ xi pi será chamado o retorno esperado do jogo
i=1
DME - IM - UFRJ Prob II Aula 18 1
Média, valor esperado, esperança, etc...
Definição: Definimos a média, esperança ou valor esperado de uma
variável aleatória X como

X Z +∞
E[X] = xn P(X = xn ) = xfX (x) dx,
n=−∞ −∞
| {z } | {z }
se X é discreta se X é contı́nua

quando o somatório ou a integral existirem.

DME - IM - UFRJ Prob II Aula 18 2


Cap. IV: Uma Nova Esperança
Porém, essa definição só vale no caso restrito onde X é discreta ou
contı́nua...
Teorema: Seja X uma variável aleatória positiva, discreta ou
contı́nua. Se E[X] existe, então
Z ∞ Z ∞
E[X] = P(X > x) dx = 1 − FX (x) dx
0 0

DME - IM - UFRJ Prob II Aula 18 3


Cap. IV: Uma Nova Esperança

No caso discreto onde X assume os valores 0, 1, 2, . . . tal expressão


pode ser simplificada para
Z ∞ ∞
X
E[X] = P(X > x) dx = P(X > k)
0 k=0

Intuição:

P(X = 1) P(X = 2) P(X = 3) P(X = 4) P(X = 5) ···


P(X = 2) P(X = 3) P(X = 4) P(X = 5) ···
P(X = 3) P(X = 4) P(X = 5) ···
P(X = 4) P(X = 5) ···
P(X = 5) ···

DME - IM - UFRJ Prob II Aula 18 4


Cap. IV: Uma Nova Esperança

Intuição no caso contı́nuo:

DME - IM - UFRJ Prob II Aula 18 5


Cap. IV: Uma Nova Esperança
Definição: Seja X uma variável aleatória positiva, não
necessariamente discreta ou contı́nua. Definimos
Z ∞ Z ∞
E[X] = P(X > x) dx = 1 − FX (x) dx.
0 0
Agora, no caso geral,
( onde X pode assumir qualquer valor...
X, se X ≥ 0
Seja X + = a parte positiva de X...
0, se X < 0
(
− −X, se X < 0
eX = a parte negativa de X
0, se X ≥ 0
Definimos então E[X] = E[X + ] − E[X − ], se ambas quantidades
existem
Teorema: Seja X uma variável aleatória. Se E[X] existe, então
Z ∞ Z 0
E[X] = 1 − FX (x) dx − FX (x) dx.
0 −∞

DME - IM - UFRJ Prob II Aula 18 6


Exemplos

1) A voltagem de uma corrente elétrica tem distribuição exponencial


com média de 2V. Um voltı́metro usado para medi-la está com
problema, e qualquer medição acima de 3V é registrada como 3V.
Em média, qual valor é registrado pelo voltı́metro?

DME - IM - UFRJ Prob II Aula 18 7


Exemplos

2) Seja X a variável aleatória com função de probabilidade


acumulada dada por



 0, x < −2
1 2 + 4x + 4 ,
 



 24 x −2 ≤ x < 0
 1 (x + 2),

0≤x<1
FX (x) = 16


 6 (x + 3), 1≤x<2
1 2 + 8x + 8 ,
 



 24 −x 2≤x<4

1, x ≥ 4.

Calcule E[X].

DME - IM - UFRJ Prob II Aula 18 8


Coisas que já sabı́amos mas sempre é bom relembrar :-)

X ∼ Bern(p) ⇒ E[X] = p
X ∼ Poi(λ) ⇒ E[X] = λ
1−p
X ∼ Geo(p) ⇒ E[X] =
p
1
X ∼ Exp(λ) ⇒ E[X] =
λ
a+b
X ∼ Unif([a, b]) ⇒ E[X] =
2
X ∼ N (µ, σ 2 ) ⇒ E[X] = µ
X ∼ Cauchy ⇒ E[X] = ??

DME - IM - UFRJ Prob II Aula 18 9


Propriedades

1) Se P(X = c) = 1, então E[X] = c


2) E[aX + b] = aE[X] + b
" n # n
X X
3) E ai Xi + b = ai E[Xi ] + b
i=1 i=1
4) Se X ≤ Y , então E[X] ≤ E[Y ]
n n
" #
Y Y
5) Se X1 , . . . , Xn são independentes, então E Xi = E[Xi ]
i=1 i=1

DME - IM - UFRJ Prob II Aula 19 1


Exemplos

1) X ∼ Bin(n, p) ⇒ E[X] = np
2) Considere uma urna com b bolas brancas e v bolas vermelhas.
Qual é o número médio de bolas brancas se fizermos n extrações
com reposição? E se as extrações forem sem reposição? Considere
n < b + v.

DME - IM - UFRJ Prob II Aula 19 2


Lei do Estatı́stico Preguiçoso

Teorema: Seja X uma variável aleatória. Temos que



X Z +∞
E[g(X)] = g(xn )P(X = xn ) = g(x)fX (x) dx,
n=−∞ −∞
| {z } | {z }
se X é discreta se g(X) é contı́nua

caso E[g(X)] exista.

Tal resultado nos diz que não é necessário encontrar a distribuição


de g(X) para calcularmos seu valor esperado!
Em geral, E[g(X)] 6= g(E[X])!

DME - IM - UFRJ Prob II Aula 19 3


Exemplo: Paradoxo de São Petersburgo

Suponha que uma moeda honesta é jogada repetidamente até que a


primeira cara apareça. O jogo paga 2n reais se a primeira cara aparecer
na n-ésima jogada. Qual o lucro médio ao jogar esse jogo? Qual o
preço que um indivı́duo pagaria para entrar neste jogo?

DME - IM - UFRJ Prob II Aula 19 4


Lei do Estatı́stico Preguiçoso para vetores aleatórios

Seja agora X um vetor aleatório em Rm , g : Rm → R uma função e


Y = g(X)
Se quisermos calcular E[Y ] = E[g(X)], também não precisamos
encontrar a distribuição de Y primeiro!
Teorema: Seja X um vetor aleatório. Temos que
X Z +∞ Z +∞
E[g(X)] = g(x)P(X = x) = ... g(x)fX (x) dx1 . . . dxm ,
x −∞ −∞
| {z } | {z }
se X é discreto se g(X) é contı́nua

caso E[g(X)] exista.

DME - IM - UFRJ Prob II Aula 19 5


Exemplo

Vimos
" n no#começo que se X1 , . . . , Xn são independentes, então
Y n
Y
E Xi = E[Xi ]. Porém, vejamos que a recı́proca não é
i=1 i=1
verdadeira.

Exemplo: Uma moeda equilibrada é lançada duas vezes, e denotamos


por Xi o resultado observado, para i = 1, 2, onde Xi = 0 representa
coroa e Xi = 1 representa cara. O par aleatório (U, V ) é definido como

U = X1 + X2
V = X1 − X2 .

Encontre a distribuição conjunta de U e V e calcule E[U ], E[V ] e


E[U V ]. Podemos afirmar que U e V são independentes?

DME - IM - UFRJ Prob II Aula 19 6


Aplicação: Entropia de variáveis aleatórias

Seja A um evento em um espaço de probabilidade (Ω, F, P)


Queremos medir quão “surpresos” ficamos ao ver a ocorrência de A
 
1
Será que S(A) = log é uma boa quantidade? Vejamos um
P(A)
gráfico:

Ou seja, se P(A) = 0 ficamos bastante surpreso de ver sua


ocorrência; e se P(A) = 1 nossa surpresa é nula.
DME - IM - UFRJ Prob II Aula 20 1
Entropia de variáveis aleatórias

Além disso, valem as propriedades abaixo:


Se P(A) ≤ P(B) então S(A) ≥ S(B)
Se A e B são independentes, então S(A ∩ B) = S(A) + S(B)
Dada uma variável aleatória discreta X com função de
probabilidade fX , definimos a sua entropia como a surpresa média
das suas observações, ou seja,
  
1
H(X) = E log
fX (X)
DME - IM - UFRJ Prob II Aula 20 2
Entropia de variáveis aleatórias
Abreviando fX (xn ) = P(X = xn ) = pn , Podemos reescrever tal
quantidade como
 
X 1 X
H(X) = pn log =− pn log(pn )
n
pn n

Exemplo: Seja X ∼ Bern(p). Calcule H(X).

DME - IM - UFRJ Prob II Aula 20 3


Aplicações do conceito de entropia

Introduzido por Claude Shannon em 1948, no trabalho A


Mathematical Theory of Communication
Teorema da codificação: N variáveis aleatórias i.i.d., cada com
entropia H(X) podem ser comprimidas em pelo menos N H(X)
bits com risco essencialmente nulo de perda de informação, se
N →∞
Nos permite estudar distribuições de probabilidade mais
“aleatórias” possı́veis, dadas algumas restrições.
Princı́pio da máxima entropia: Suponha que X assume os
valores 1, . . . , n com probabilidades p1 , . . . , pn , respectivamente.
Então H(X) é máxima quando p1 = · · · = pn = 1/n

DME - IM - UFRJ Prob II Aula 20 4


Aplicações do conceito de entropia
Finalmente... quantas perguntas o gênio precisa fazer para
descobrir em quem você está pensando?

Matematicamente, podemos formular: Um valor X é sorteado de


acordo com uma variável aleatória que pode assumir qualquer um
de n valores possı́veis 1, . . . , n com respectivas probabilidades
p1 , . . . , pn . Através de perguntas do tipo “sim” ou “não” (por
exemplo, “X é igual a x?” ou “X é igual a x1 , x2 ou x3 ?”) qual é o
número médio de questões que você precisará fazer para
determinar o valor de X? ⇒ H(X), calculada com log2 !
DME - IM - UFRJ Prob II Aula 20 5
Desigualdade de Jensen

Em geral, não há uma relação óbvia entre E[g(X)] e g(E[X])


Porém, sabemos relacionar tais quantidades em um caso particular
Definição: Dizemos que uma função g : R → R é convexa se para todo
ponto (x, g(x)) existe uma reta que passa por tal ponto de modo que o
gráfico de g está sempre acima de tal reta.

Teorema (Desigualdade de Jensen): Seja X uma variável aleatória


com média finita e g uma função convexa. Então

E[g(X)] ≥ g(E[X]).

DME - IM - UFRJ Prob II Aula 21 1


Desigualdade de Jensen

DME - IM - UFRJ Prob II Aula 21 2


Aplicação: Divergência de Kullback-Leibler

Sejam X e Y variáveis aleatórias discretas, assumindo valores


x1 , x2 , x3 , . . . , com respectivos valores pi e qi . Assuma que
qi = 0 ⇒ pi = 0. Uma maneira de medir a distância entre X e Y é
através da divergência de Kullback-Leibler, definida como
   
X pn X qn
D(X||Y ) = pn log =− pn log
n
qn n
pn

Seria conveniente que essa quantidade fosse sempre não-negativa! De


fato, a desigualdade de Jensen nos permite mostrar que isso é verdade.

Exemplo: Calcule as divergências de Kullback-Leibler D(X||Y ) e


D(Y ||X), se X ∼ Bin(2, 1/2) e Y ∼ Unif({0, 1, 2}).

DME - IM - UFRJ Prob II Aula 21 3


Desigualdade de Markov

Às vezes, por conta de termos pouca informação sobre X, não


conseguimos calcular probabilidades a ela associadas, mas somente
estimar alguns valores
Podemos também estar interessados em estudar quanto que uma
variável aleatória se desvia de um determinado valor (em
particular a sua média)
Chamaremos resultados nessa direção de desigualdades de
concentração
A desigualdade de concentração mais clássica é a desigualdade de
Markov:
Teorema: Seja X uma variável aleatória positiva e considere
t > 0. Então
E[X]
P(X ≥ t) ≤
t

DME - IM - UFRJ Prob II Aula 21 4


Desigualdade de Markov

Exemplo: Numa empresa com 100 funcionários, o número médio de


conexões simultâneas na Internet, em um certo perı́odo do dia, é de
aproximadamente 30. Sabendo-se que atualmente a rede suporta no
máximo 30 usuários simultaneamente, deseja-se avaliar a necessidade
de aumentar esse número.

t 30 50 70 90
E[X]/t 1 0,60 0,43 0,33

Exemplo: (Porque a desigualdade de Markov não é tão boa assim...)


Considere X ∼ Exp(1/2). O que podemos dizer de P(X ≥ t) para
t = 1, 2 e 3?
Apesar disso, ela é a porta de entrada para outras desigualdades de
concentração, bastante emocionantes, que veremos na terceira parte do
curso! :-)

DME - IM - UFRJ Prob II Aula 21 5


Momentos

Motivação: Dada uma função f : R → R, as suas derivadas f (x0 ),


f 0 (x0 ), f 00 (x0 ), . . . , f (n) (x0 ), . . . nos dizem tendências de
comportamento de f em torno de x0 . Conseguimos pensar em uma
quantidade análoga para variáveis aleatórias?

Definição: Seja X uma variável aleatória e considere k > 0. Note que


não estamos nos restringindo a valores de k inteiros!
O momento de ordem k de X é definido como E[X k ], desde que
essa quantidade exista.
Se E[X] = µ < ∞, definimos o momento central de ordem k de X
como E[(X − µ)k ], desde que essa quantidade exista.
O momento absoluto de ordem k de X é definido por E[|X|k ].

DME - IM - UFRJ Prob II Aula 22 1


Variância

Definição: Se E[X] = µ existe e é finita, definimos a sua variância


como o momento central de ordem 2, ou seja,

V(X) = E[(X − µ)2 ].

A raiz quadrada da variância é denominada o desvio padrão de X.

Teorema: Se X é uma variável aleatória tal que sua média e variância


existem e são finitos, então:
1) V(aX + b) = a2 V(X)
2) V(X) = E[X 2 ] − E[X]2

DME - IM - UFRJ Prob II Aula 22 2


Assimetria, curtose, etc...

Pergunta: Como interpretamos momentos centrais de ordem superior?

E[(X − µ)k ] = E[(X − µ)(X − µ)k−1 ]

Pela expressão acima, faz sentido interpretá-los como desvios


ponderados de X em relação à sua média.

Definição: Os coeficiente de assimetria e coeficiente de curtose de X


são definidos como
E[(X − µ)3 ] E[(X − µ)4 ]
α3 = α4 =
σ3 σ4
supondo a existência do terceiro e quarto momento de X,
respectivamente.
Pergunta: O que essas quantidades medem, especificamente?

DME - IM - UFRJ Prob II Aula 22 3


Um exemplo

Considere X uma variável aleatória contı́nua, com função densidade de


probabilidade dada por
2 /2
f (x) = ce−(x−3) , para x ∈ R.

Calcule a média de X e todos seus momentos centrais.

Observação: Note que, nesse caso particular, não precisamos da


constante normalizadora de X! Porém, isso não é regra geral.

DME - IM - UFRJ Prob II Aula 22 4


Covariância e correlação

Definição: Sejam X e Y variáveis aleatórias definidas no mesmo


espaço de probabilidade, cujas respectivas médias µX e µY existem e
são finitas. Definimos a covariância entre X e Y como

Cov(X, Y ) = E[(X − µX )(Y − µY )].

Se os respectivos desvios-padrão σX e σY existem e são finitos,


definimos a correlação entre X e Y como

Cov(X, Y )
ρX,Y = .
σX σY

DME - IM - UFRJ Prob II Aula 22 5


Covariância e correlação - propriedades

1) Cov(X, Y ) = E[XY ] − E[X]E[Y ]


2) X e Y independentes =⇒ Cov(X, Y ) = 0 (porém a recı́proca não
é verdadeira!)
n n
!
X X X
3) V Xi = V(Xi ) + 2 Cov(Xi , Xj )
i=1 i=1 i<j
4) |ρX,Y | ≤ 1
5) |ρX,Y | = 1 se e somente se uma variável for função linear da outra

DME - IM - UFRJ Prob II Aula 22 6


Função geradora de momentos

Definição: A função geradora de momentos de uma variável aleatória


X é definida como

ψX (t) = E[etX ], para t ∈ (−ε, ε) onde tal quantidade seja finita.

Uma das principais importâncias da função geradora de momentos é


que ela, tal como a função de probabilidade acumulada, caracteriza a
distribuição de uma variável aleatória de modo único. Mais
precisamente:
Teorema: Se duas variáveis aleatórias X e Y têm funções geradoras
de momento satisfazendo ψX (t) = ψY (t), para t ∈ (−ε, ε), para algum
ε > 0, então a distribuição de X e Y é a mesma.
Usaremos esse resultado para encontrar distribuições de variáveis
aleatórias de interesse.

DME - IM - UFRJ Prob II Aula 23 1


O que significa “gerar momentos”?
Teorema: Suponha que a função geradora de momentos de X exista
para t ∈ (−ε, ε), para algum ε > 0. Então E[X k ] existe, para
k = 0, 1, 2, . . . e temos que

dk

k (k)
E[X ] = ψX (t) = k ψX (t) .

t=0 dt t=0

Para utilizá-lo, precisamos calcular algumas funções geradoras de


momentos:
X ∼ Bern(p) =⇒ ψX (t) = pet + 1 − p, para t ∈ R
X ∼ Bin(p) =⇒ ψX (t) = (pet + 1 − p)n , para t ∈ R
t
X ∼ Poi(p) =⇒ ψX (t) = e−λ(1−e ) , para t ∈ R
1 2 2
X ∼ N (µ, σ 2 ) =⇒ ψX (t) = etµ+ 2 σ t , para t ∈ R
λ
X ∼ Exp(λ) =⇒ ψX (t) = , para t < λ
λ−t
X ∼ Cauchy =⇒ ψX (t) não existe!
DME - IM - UFRJ Prob II Aula 23 2
O que significa “gerar momentos”?
Com esses resultados, podemos provar muito mais facilmente certos
momentos já calculados:
X ∼ Bin(p) =⇒ E[X] = np, V(X) = np(1 − p)
X ∼ Poi(p) =⇒ E[X] = V(X) = λ
X ∼ N (µ, σ 2 ) =⇒ E[X] = µ, V(X) = σ 2
Porém, nem sempre é mais fácil calcular momentos usando a função
geradora de momentos:
Exercı́cio: Seja X ∼ U[a, b]. Calcule a média e variância de X usando
a sua função geradora de momentos.
Porém, podemos calcular momentos até de distribuições cuja função
densidade de probabilidade não nos é conhecida:
Exemplo: Dizemos que X tem distribuição log-normal de parâmetros
µ e σ 2 se ln(X) tem distribuição N (µ, σ 2 ). Encontre a média e
variância de X.
DME - IM - UFRJ Prob II Aula 23 3
Um resultado importante
Usaremos a função geradora de momentos também para encontrar mais
facilmente distribuição da soma de variáveis aleatórias independentes.
Mais precisamente:
Teorema: Sejam X1 , . . . , Xn variáveis aleatórias independentes com
respectivas funções geradoras de momentos ψ1 (t), . . . , ψn (t), para
t ∈ (−ε, ε) e seja Y = X1 + · · · + Xn . Então a função geradora de
momentos de Y existe e é dada por
n
Y
ψY (t) = ψi (t), para t ∈ (−ε, ε).
i=1

Como a função geradora de momentos caracteriza a variável aleatória


de modo único, “basta” fazemos o processo inverso:
X1 , . . . , Xn ∼ Bern(p) =⇒ X1 + · · · + Xn ∼ Bin(n, p)
X1 , . . . , Xn ∼ Poisson(λ) =⇒ X1 + · · · + Xn ∼ Poisson(nλ)
X1 , . . . , Xn ∼ N (µ, σ 2 ) =⇒ X1 + · · · + Xn ∼ N (nµ, nσ 2 )
DME - IM - UFRJ Prob II Aula 23 4
Função geradora de momentos multidimensional

Podemos estender a noção de função geradora de momentos para


vetores aleatórios. Seja X = (X1 , . . . , Xm ) um vetor aleatório em Rm .
A função geradora de momentos do vetor aleatório X é definida por

ψX (t) = ψX (t1 , . . . , tm ) = E[eht,Xi ] = E[et1 X1 +···+tm Xm ],

para t ∈ (−ε, ε)m onde tal quantidade seja finita.

Exemplo: Considere o vetor aleatório X = (X1 , X2 , X3 ) com


distribuição multinomial de parâmetros n e (p1 , p2 , p3 ). Estude a função
geradora de momentos de X, identifique as suas distribuições marginais
e calcule a covariância e correlação de pares de componentes de X.

DME - IM - UFRJ Prob II Aula 23 5


Uma caracterização da independência

Teorema: Seja X = (X1 , . . . , Xm ) um vetor aleatório em Rm com


função geradora de momentos ψX (t). Suponha que suas componentes
são variáveis aleatórias com funções geradoras de momentos dadas por
ψ1 (t1 ), . . . , ψm (tm ), respectivamente. Então as variáveis aleatórias
X1 , . . . , Xm são independentes se e somente se
m
Y
ψX (t1 , . . . , tm ) = ψi (ti ).
i=1

Exemplo: Sejam X e Y variáveis aleatórias independentes normais


padrão. Verifiquemos, de outra forma, que o par aleatório U = X + Y e
V = X − Y também tem marginais normais e é independente.

DME - IM - UFRJ Prob II Aula 23 6


Função caracterı́stica
O fato da função geradora de momentos nem sempre existir (ou não
existir para todo t ∈ R) tem impactos positivos e negativos na teoria de
probabilidades. Uma maneira de contornar os impactos negativos é
definir uma quantidade análoga, que sempre existe:
Definição: A função caracterı́stica de uma variável aleatória X é
definida como
φX (t) = E[eitx ], para t ∈ R.

Teorema: A função caracterı́stica satisfaz às seguintes propriedades:


1) |φX (t)| ≤ 1, ∀t ∈ R
Yn
2) φX1 +···+Xn (t) = φj (t), se X1 , . . . , Xn são independentes
j=1
3) φX (t) também gera momentos:
dn

= in E[X n ], n = 1, 2, . . . , se E[|X|n ] < ∞

φX (t)
dtn t=0
DME - IM - UFRJ Prob II Aula 24 1
Exemplos

1 2 2
X ∼ N (µ, σ 2 ) =⇒ φX (t) = eitµ− 2 σ t , t ∈ R
λ
X ∼ Exp(λ) =⇒ φX (t) = ,t ∈ R
λ − it
X ∼ Cauchy =⇒ φX (t) = e−|t| , t ∈ R

DME - IM - UFRJ Prob II Aula 24 2


Desigualdade de Markov

Relembremos a desigualdade de Markov:


Teorema (Desigualdade de Markov): Seja X uma variável aleatória
positiva e considere t > 0. então

E[X]
P(X ≥ t) ≤ .
t
Note que tal desigualdade somente é interessante para valores de t
suficientemente grandes, em particular, t > E[X].
Exemplo: Seja X uma variável aleatória com E[X] = 1. Quanto é, no
máximo, P(X ≥ 100)? Existe alguma variável aleatória X que atinja
esse valor?

DME - IM - UFRJ Prob II Aula 25 1


Desigualdade de Chebyshev
Intuitivamente, se a variável aleatória X tiver variância finita, podemos
refinar a desigualdade de Markov, incorporando também tal
informação. Temos então:
Teorema (Desigualdade de Chebyshev): Seja X uma variável aleatória
cuja variância existe e é finita. Então, para t > 0, vale que

V(X)
P(|X − E[X]| ≥ t) ≤ .
t2

Exemplo: Qual é, no máximo, a probabilidade de uma variável


aleatória com variância finita se desviar de mais de 3 desvios padrão de
sua média?
Exemplo: Ao estimar a média de uma variável aleatória com variância
finita através da média amostral, qual é, no máximo, a probabilidade
de obtermos uma estimativa que diste mais de t unidades do valor
verdadeiro?
DME - IM - UFRJ Prob II Aula 25 2
Desigualdade de Chernoff e além
Aparentemente, quanto mais informações temos sobre a variável
aleatória X, melhores desigualdades obtemos. Motivemos a
desigualdade de Chernoff com um exemplo:
Exemplo: Seja X ∼ Bin(n, 1/2). Queremos estudar quanto X/n se
desvia da sua média 1/2. Mais especificamente, queremos estimar a
probabilidade  
X 1 1
P − ≥
.
n 2 10

A técnica usada no exemplo acima é um caso particular da


desigualdade de Chernoff abaixo:
Teorema (Desigualdade de Chernoff ): Seja X uma variável aleatória
cuja função geradora de momentos ψX (t) exista em uma vizinhança de
0. Então
P(X ≥ t) ≤ min[e−st ψX (s)].
s>0

DME - IM - UFRJ Prob II Aula 25 3


Desigualdade de Chernoff e além
Exemplo: Seja X uma variável aleatória normal padrão. Estude a
probabilidade P(X ≥ t), para qualquer valor positivo de t.

Desigualdades que têm o mesmo espı́rito da desigualdade de Chernoff


são úteis para estimarmos a probabilidade das caudas de somas de
variáveis aleatórias independentes, como ilustrado abaixo:

Exemplo: Sejam Xi ∼ Bern(p Pni ) variáveis aleatórias independentes,


para i = 1, . . . , n. Seja X = i=1 Xi e denote por µ = ni=1 pi a média
P
de X. Note que X NÃO tem distribuição Binomial, pois os parâmetros
de Xi podem ser distintos! Mostre que

P(X ≥ cµ) ≤ e−(c ln(c)−c+1)µ , para c ≥ 1.

Mostre que podemos também obter a seguinte cota:


1 2
P(X ≥ (1 + δ)µ) ≤ e− 3 δ µ , para 0 < δ < 1.

DME - IM - UFRJ Prob II Aula 25 4


Uma aplicação interessante

Desigualdades “tipo” Chernoff pode ser usada para analisar algoritmos


randomizados em Computação. Tais classes de algoritmos têm se
mostrado bastante eficientes hoje em dia na solução de problemas
outrora muito difı́ceis ou custosos. Em particular, sua aplicação em
problemas de Data Science está bastante em alta.
A fim de simplificação, descreveremos algoritmos randomizados em sua
forma abstrata, em termos de colocar bolas em urnas.
Exemplo: Suponha que m bolas são colocadas ao acaso em b urnas,
uma de cada vez e independentemente. Como podemos estimar a
probabilidade da urna com mais bolas ter pelo menos uma certa
quantidade de bolas? Mais precisamente, qual é a probabilidade de que
alguma urna contenha pelo menos e m
b bolas, assumindo que
m ≥ 2b ln(b)?

DME - IM - UFRJ Prob II Aula 25 5


Esperança condicional: motivação
Dadas variáveis aleatórias X e Y , é possı́vel calcular a distribuição
condicional de X dado que Y = y:

f(X,Y ) (x, y) = 2, para x > 0, y > 0 e x + y ≤ 1


1
=⇒ fX|Y (x|y) = , para 0 < x < 1 − y < 1.
1−y
Sendo X|Y = y uma variável aleatória com distribuição conhecida,
podemos calcular seu valor esperado:

1−y
1−y
Z
1
E[X|Y = y] = x
dx = .
0 1−y 2
Podemos calcular também, a sua variância:

(1 − y)2
V(X|Y = y) = E[X 2 |Y = y] − E[X|Y = y]2 = .
12
DME - IM - UFRJ Prob II Aula 26 1
Esperança condicional
Definição: Dadas variáveis aleatórias X e Y , a esperança condicional
de X dado que Y = y é denotada por E[X|Y = y], e é calculada como o
valor esperado usual da variável aleatória X|Y = y. Analogamente, a
variância condicional de X dado que Y = y é denotada por
V(X|Y = y), e é calculada como a variância usual da variável aleatória
X|Y = y.
Considere a função que a cada valor de Y = y associa E[X|Y = y]
Repare que isso é uma função da variável aleatória Y , que denotaremos
por E[X|Y ] Portanto, a esperança condicional E[X|Y ] também é uma
variável aleatória!
Exemplo: Um conjunto de n pacientes, em um mesmo hospital, é submetido
a um tratamento que pode curar ou não uma doença, com certa probabilidade.
Essa probabilidade, por sua vez, depende das condições hospitalares de
aplicação do tratamento, e pode ter três valores possı́veis, p1 , p2 e p3 , com
respectivas probabilidades 1/2, 1/3 e 1/6. Dado um valor de probabilidade de
cura, a cura de um paciente não interfere na de outros e vice-versa. Estamos
interessados no valor esperado do número total de curados.
DME - IM - UFRJ Prob II Aula 26 2
Lei da esperança iterada
O exemplo acima nos motiva ao seguinte resultado:
Teorema (Lei da esperança iterada): Sendo X e Y variáveis aleatórias
no mesmo espaço de probabilidade, temos que E[E[X|Y ]] = E[X],
desde que tais quantidades existam.
Exemplo: Um número Y é escolhido ao acaso no intervalo [0, 1]. A seguir,
outro número X é escolhido ao acaso, no intervalo [0, Y ]. Qual é a média de
X?
Uma aplicação interessante é no cálculo de esperança de uma soma de um
número aleatório de variáveis aleatórias.
Exemplo: Suponha que o número de pessoas que entram em uma loja de
departamentos em determinado dia seja uma variável aleatória com média 50.
Suponha ainda que as quantias de dinheiro gastas por esses clientes sejam
variáveis aleatórias independentes com média comum de R$ 80,00.
Finalmente, suponha também que a quantia gasta por um cliente seja
independente do número total de clientes que entram na loja. Qual é a
quantidade esperada de dinheiro gasto na loja em um dado dia?
DME - IM - UFRJ Prob II Aula 26 3
Lei da esperança iterada

Podemos também usar a lei da esperança iterada para calcular mais


facilmente o valor esperado de funções de vetores aleatórios.
Teorema: Seja (X, Y ) um vetor aleatório e f : R2 → R uma função.
Então temos que

E[f (X, Y )] = E[E[f (X, Y )|X]].

Exemplo: Considere um cı́rculo de raio unitário com centro na origem


do plano cartesiano. Defina o par aleatório (X, Y ) como sendo um
ponto do primeiro quadrante escolhido ao acaso nesse cı́rculo. Seja Z a
área do retângulo formado pelos pontos (±X, ±Y ). Assim, Z = 4XY .
Qual é a área média desse retângulo?

DME - IM - UFRJ Prob II Aula 26 4


Lei da variância iterada

Lembremos que V(X|Y = y) é calculada como a variância usual da


variável aleatória X|Y = y
Porém, da mesma forma que E[X|Y ] é variável aleatória, V(X|Y )
também o é!
A proposição abaixo nos dá uma fórmula análoga à lei da
esperança iterada:
Teorema (Lei da variância iterada):

V(X) = E[V(X|Y )] + V(E[X|Y ]).

Exemplo: Suponha que o número de pessoas que chegam em uma


estação de trem em qualquer instante t seja uma variável aleatória de
Poisson com média λt. Se o primeiro trem chega na estação em um
instante de tempo que é uniformemente distribuı́do ao longo de (0, t0 ) e
independente do instante de chegada dos passageiros, quais são a
média e a variância do número de passageiros que entram no trem?
DME - IM - UFRJ Prob II Aula 26 5
Aplicação: predição e regressão linear

Situação comum em Estatı́stica: uma variável aleatória X é


observada, e queremos prever o valor de outra variável aleatória Y
Denote por g(X) o preditor de Y . Ou seja, se X = x é observado,
então g(x) é uma predição para o respectivo valor de Y
Obviamente queremos escolher uma “boa” função g, de modo que
g(X) se aproxime de Y
Mais precisamente, parece razoável buscarmos g que minimize
E[(Y − g(X))2 ], o erro quadrático médio
Temos o seguinte resultado:
Teorema: O preditor para Y que minimiza o erro quadrático
médio é E[Y |X], ou seja,

E[(Y − g(X))2 ] ≥ E[(Y − E[Y |X])2 ]

DME - IM - UFRJ Prob II Aula 26 6


Aplicação: predição e regressão linear

Um modelo simples para relacionar duas variáveis aleatórias é

Y = β0 + β1 X + ε,

onde E[ε] = 0 e ε é independente de X e Y .


Portanto, se X é observado, a melhor previsão possı́vel para Y é

E[Y |X] = E[β0 + β1 X + ε|X]


= β0 + β1 X + E[ε|X]
= β0 + β1 X,

conforme nos é intuitivo!


Isso justifica toda a modelagem via modelos lineares em Estatı́stica
A grande questão é: como estimar β0 e β1 a partir de dados
observados?
DME - IM - UFRJ Prob II Aula 26 7
Convergência de variáveis aleatórias: motivação
Pergunta central: Dada uma sequência de variáveis aleatórias
X1 , X2 , . . . (também denotada por (Xn )n∈N ) no mesmo espaço de
probabilidade (Ω, F, P), o que acontece no limite quando n → ∞?
Razões para considerar essa pergunta:
Estimadores em Estatı́stica: Estimar parâmetro de distribuição f (x|θ)
através de um estimador θ̂n = T (X1 , . . . , Xn ). Gostarı́amos de garantir
que θ̂n ≈ θ, se n é “grande”
Aproximações de distribuições: Se n é “grande” e p é “pequeno”, então
Bin(n, p) ≈ Poi(λ = np) ≈ N (np, np(1 − p))
Teorema Central do Limite: Seja S = X1 + · · · + Xn , onde as variáveis
aleatórias Xi são independentes entre si, com médias finitas e variâncias
finitas e positivas. Então, se n é “grande”
S − E[S]
p ≈ N (0, 1).
V(S)
=⇒ Mas o que significa duas variáveis aleatórias serem “parecidas”?
DME - IM - UFRJ Prob II Aula 27 1
Tipos de convergência de variáveis aleatórias: motivação
Dois números x e y estão próximos se
|x − y| < ε,
para uma tolerância ε escolhida
Duas funções f, g : R → R estão próximas se
|f (x) − g(x)| < ε, ∀x ∈ R,
para uma tolerância ε escolhida
Dadas duas variáveis aleatórias X e Y , definidas no mesmo espaço
de probabilidade (Ω, F, P), como dizemos que uma está “próxima”
da outra?
P(X ∈ A) ≈ P(Y ∈ A), ∀A ∈ B(R)?
X(ω) ≈ Y (ω), ∀ω ∈ Ω?
X e Y têm momentos “parecidos”?
E[(X − Y )2 ] ≈ 0?
=⇒ Veremos que podemos definir esse conceito de várias formas
diferentes, e também como se relacionam entre si!
DME - IM - UFRJ Prob II Aula 27 2
Convergência em distribuição

Definição: Dizemos que uma sequência de variáveis aleatórias


(Xn )n∈N converge em distribuição para uma variável aleatória X se

lim Fn (x) = FX (x), ∀x ∈ R onde FX é contı́nua,


n→∞

onde Fn é a função de probabilidade acumulada de Xn e FX é a função


d
de probabilidade acumulada de X. Denotamos esse fato por Xn → X.
Intuição: As funções de probabilidade acumulada de Xn se
aproximam cada vez mais da função de probabilidade acumulada de X.
Porque é razoável? Como a função de probabilidade acumulada nos
diz toda a informação sobre a distribuição de uma variável aleatória,
tal convergência parece razoável, para propósitos de cálculos de
probabilidades.

DME - IM - UFRJ Prob II Aula 27 3


Convergência em distribuição: exemplos

Considere a sequência de variáveis aleatórias cujas funções de


probabilidade são dadas por
( nx
1 − 1 − n1 , se x > 0
Fn (x) =
0, se x ≤ 0.

d
Mostre que Xn → X, onde X ∼ Exp(1).
d
Considere Xn ∼ U[0, 1/n]. Mostre que Xn → 0.
Teorema Central do Limite: Sejam X1 , X2 , . . . variáveis
aleatórias independentes e identicamente distribuı́das, com média
µ√e variância σ 2 , e seja X a média amostral. Então
n d
(X − µ) → X, onde X ∼ N (0, 1).
σ

DME - IM - UFRJ Prob II Aula 27 4


Convergência em probabilidade

Motivação: A convergência em distribuição nada diz sobre as variáveis


aleatórias em si, mas somente sobre suas distribuições! Sabemos que
variáveis aleatórias diferentes podem ter a mesma distribuição!
Definição: Dizemos que uma sequência de variáveis aleatórias
(Xn )n∈N converge em probabilidade para uma variável aleatória X,
todas definidas no mesmo espaço de probabilidade, se

lim P(|Xn − X| > ε) = 0, ∀ε > 0.


n→∞

p
Denotamos esse fato por Xn → X.
Intuição: Fixada uma tolerância ε, a probabilidade dos eventos ω ∈ Ω
tais que |Xn (ω) − X(ω)| > ε torna-se cada vez menor, a medida que n
cresce. Ou seja, eventos “não usuais”, com respeito a X, ocorrem cada
vez “menos”.

DME - IM - UFRJ Prob II Aula 27 5


Convergência em probabilidade: exemplos

Consistência da média amostral, ou lei fraca dos grandes


números: Sejam X1 , X2 , . . . variáveis aleatórias independentes e
identicamente distribuı́das, com média e variância finitas. Então
p
X n → µ, pela desigualdade de Chebyshev.
d
Considere Xn ∼ U[0, 1/n]. Provamos que Xn → 0. Mostre que
p
Xn → 0.
Histogramas: Sejam X1 , X2 , . . . variáveis aleatórias
independentes e identicamente distribuı́das, e sejam a < b
constantes. Defina Yi = 1 se a ≤ Xi < b, e Yi = 0, caso contrário.
p
Então Y n → P(a ≤ X1 < b).

DME - IM - UFRJ Prob II Aula 27 6


Convergência quase certa

Motivação: Como variáveis aleatórias são funções de Ω em R,


podemos considerar a proximidade entre tais funções, em vez de
considerar a probabilidade delas estarem “distantes”.
Definição: Dizemos que uma sequência de variáveis aleatórias
(Xn )n∈N converge quase certamente para uma variável aleatória X,
todas definidas no mesmo espaço de probabilidade, se
  n o
P lim Xn = X = P ω ∈ Ω | lim Xn (ω) = X(ω) = 1.
n→∞ n→∞

qc
Denotamos tal fato por Xn → X.
Intuição: É o tipo mais restrito de convergência. Diz que o conjunto
de eventos ω ∈ Ω para os quais Xn (ω) não se aproxima de X(ω) tem
probabilidade zero.

DME - IM - UFRJ Prob II Aula 27 7


Convergência quase certa: exemplos

Considere uma sequência X1 , X2 , . . . de variáveis aleatórias


Bernoulli, cada uma com sua própria probabilidade de sucesso.
p qc
Qual é a diferença de afirmarmos que Xn → 0 e que Xn → 0?
Lei forte dos grandes números: Sejam X1 , X2 , . . . variáveis
aleatórias independentes e identicamente distribuı́das com média
qc
finita. Então X n → µ.
Suponha que n pontos são escolhidos ao acaso em um cı́rculo de
raio 1. Seja Xn a variável aleatória representando o comprimento
do maior arco que não contém nenhum ponto escolhido. Mostre
qc
que Xn → 0.

DME - IM - UFRJ Prob II Aula 27 8


Convergência em média r

Motivação: Dado r > 0, a quantidade E[|X − Y |r ] pode ser uma


medida de distância entre as variáveis aleatórias X e Y .
Definição: Dizemos que uma sequência de variáveis aleatórias
(Xn )n∈N converge em média r para uma variável aleatória X, todas
definidas no mesmo espaço de probabilidade, se

lim E[|Xn − X|r ] = 0.


n→∞

r
Denotamos tal fato por Xn → X.
Intuição: Quanto maior r, mais peso damos aos desvios de Xn de X,
de modo que r controla a “velocidade” com a qual Xn se aproxima de
X.
d
Exemplo: Considere Xn ∼ U[0, 1/n]. Provamos que Xn → 0 e
p r
Xn → 0. Provemos agora que Xn → 0, ∀r ≥ 1.

DME - IM - UFRJ Prob II Aula 28 1


Relação entre os tipos de convergência

Os quatro tipos de convergência que já vimos relacionam-se da seguinte


forma:
s r
→ =⇒ →
s≥r≥1

qc p d
→ =⇒ → =⇒ →

Porém, em geral, as recı́procas não são verdadeiras, ou seja,


d p qc p r
→ =⇒
6 → =⇒
6 → e ainda → =⇒
6 →

Vejamos alguns exemplos e condições para valerem as recı́procas.

DME - IM - UFRJ Prob II Aula 28 2


Relação entre os tipos de convergência

d p
Exemplo que → 6
=⇒ →: Seja Ω = {a, b}, F = 2Ω e P uniforme.
Defina as variáveis aleatórias
( (
1, se ω = a 0, se ω = a
Xn (ω) = , ∀n ∈ N e X(ω) =
0, se ω = b 1, se ω = b

d
Temos que Xn → X mas não vale a convergência em probabilidade.
p qc
Exemplo que → =⇒ 6 →: Seja Xn ∼ Bern(1/n), para n ∈ N.
p
Temos que Xn → 0 mas não vale a convergência quase certa.
p r
Exemplo que → =⇒ 6 →: Seja Xn tal que P(Xn = n2 ) = 1/n e
p
P(Xn = 0) = 1 − 1/n. Temos que Xn → 0 mas não vale a convergência
em média r, para qualquer r ≥ 1.

DME - IM - UFRJ Prob II Aula 28 3


Relação entre os tipos de convergência
Porém, em algumas situações especiais, valem as recı́procas:
d p
Quando → implica →: Se a sequência (Xn )n∈N converge em
p
distribuição para uma constante c, então Xn → c.
p qc
→ “quase” implica →: Se a sequência (Xn )n∈N converge em
probabilidade para X, então existe uma sub-sequência (Xnk )k∈N que
converge quase certamente para X.
Um importante resultado que facilita aferir a convergência em
distribuição é o seguinte:
Teorema: Seja (Xn )n∈N uma sequência de variáveis aleatórias e X
uma variável aleatória, onde φn e φX denotam as respectivas funções
caracterı́sticas e ψn e ψX denotam as respectivas funções geradoras de
momentos, supondo suas existências em torno de 0. Então:
d
Xn → X se e somente se limn→∞ φn (t) = φ(t), ∀t ∈ R.
d
Xn → X se limn→∞ ψn (t) = ψ(t) para todos t onde tais funções
existam.
DME - IM - UFRJ Prob II Aula 28 4
Relação entre os tipos de convergência
Finalmente, os dois resultados abaixo serão úteis ao trabalharmos com
as leis dos grandes números:
Teorema: Seja (Xn )n∈N uma sequência de variáveis aleatórias e X
uma variável aleatória, todas definidas no mesmo espaço de
probabilidade, e seja também g : R → R uma função contı́nua. Então
se Xn converge para X quase certamente, em probabilidade ou em
distribuição então g(Xn ) converge da mesma forma para g(X).
Teorema (Teorema de Slutsky): Sejam (Xn )n∈N e (Yn )n∈N sequências
de variáveis aleatórias e X uma variável aleatória, todas definidas no
mesmo espaço de probabilidade tais que valem as convergências
d p
Xn → X e Yn → c, com c constante. Então:
d
i) Xn + Yn → X + c
d
ii) Xn Yn → cX
Xn d X
iii) Se c 6= 0, então → , desde que P(Yn = 0) = 0, ∀n.
Yn c
DME - IM - UFRJ Prob II Aula 28 5
Um exemplo

A fim de ilustrar esses últimos resultados, vejamos um exemplo.


Exemplo: Sejam X1 , X2 , . . . variáveis aleatórias independentes e
identicamente distribuı́das, com distribuição N (µ, σ 2 ). Estude o
comportamento assintótico dos estimadores média e variância amostral,
dados respectivamente por
n
1X
Xn = Xi
n
i=1
n
1 X
Sn2 = (Xi − X n )2 .
n−1
i=1

DME - IM - UFRJ Prob II Aula 28 6


Leis dos Grandes Números: introdução histórica

Importantes para o desenvolvimento da teoria das Probabilidades.


Estão intimamente ligadas à sua interpretação frequentista
Século XVI Cardano afirmou, sem provas, que a acurácia de
estatı́sticas empı́ricas tende a melhorar com o aumento no número
de amostras
Primeira versão de uma Lei dos Grandes Números: provada no
século XVIII por Jacob Bernoulli em seu trabalho “Ars
Conjecturandi”
Primeira utilização do nome “Lei dos Grandes Números”: através
dos trabalhos de Poisson (século XIX)
Transição entre os séculos XIX e XX: trabalhos de Chebyshev,
Markov, Borel, Cantelli, Kolmogorov e Khinchin

DME - IM - UFRJ Prob II Aula 29 1


Leis dos grandes números: intuição

(Ω, F, P) espaço de probabilidade, Ω = possı́veis resultados de um


experimento
Dado A ∈ F seja nA o número de ocorrências de A dentre n
realizações do experimento
nA
Intuitivamente, lim = P(A), porém como provamos a validade
n→∞ n
desse limite?
Após a axiomatização de Kolmogorov, no inı́cio do século XX,
temos as ferramentas necessárias para torná-lo rigoroso!
Sejam X1 , X2 , · · · ∼ Bern(p = P(A)) variáveis aleatórias
nA
independentes e identicamente distribuı́das =⇒ = X n.
n
p qc
É verdade que X n → p? Ou ainda que X n → p?

DME - IM - UFRJ Prob II Aula 29 2


Leis dos grandes números: formulação
Sejam X1 , X2 , . . . variáveis aleatórias definidas no mesmo espaço de
probabilidade, cujas esperanças existem e são finitas.
Dizemos que a sequência (Xn )n∈N satisfaz a lei fraca dos grandes
números se
p
X n − E[X n ] → p
Dizemos que a sequência (Xn )n∈N satisfaz a lei forte dos grandes
números se
qc
X n − E[X n ] → p

Portanto, queremos responder a seguinte pergunta:

Dada uma particular sequência de variáveis aleatórias (Xn )n∈N , sob


quais condições ela satisfaz a lei forte ou fraca dos grandes números?

Desde o século XVIII até o inı́cio do século XX temos várias respostas


para essa pergunta!
DME - IM - UFRJ Prob II Aula 29 3
Algumas leis dos grandes números

Lei Fraca de Bernoulli: (Xn )n∈N iid com distribuição Bern(p)


Lei Fraca de Chebyshev: (Xn )n∈N independentes dois-a-dois, com
variância finita e uniformemente limitadas
Lei Fraca de Khintchine: (Xn )n∈N iid com média finita
Lei Forte de Borel: (Xn )n∈N iid com distribuição Bern(p)
1a. Lei Forte de Kolmogorov: (Xn )n∈N independente, com média
+∞
X V(Xn )
finita e satisfazendo < +∞
n2
n=1
Lei Forte de Kolmogorov: (Xn )n∈N iid com média finita

DME - IM - UFRJ Prob II Aula 29 4


Uma importante aplicação

Seja X1 , X2 , . . . uma amostra aleatória de uma variável aleatória


X, cuja função de probabilidade acumulada denotamos por FX .
Como estimamos FX a partir das amostras? Quão boa é essa
estimativa?
Definimos a função de probabilidade acumulada empı́rica como
1
Fn (x) = [quantidade de observações abaixo de x].
n
qc
Provemos que, fixado x0 ∈ R, então Fn (x0 ) → F (x0 ).

DME - IM - UFRJ Prob II Aula 29 5


Uma importante aplicação

Porém, tal resultado pode ser muito melhorado! O Teorema de


Glivenko-Cantelli ou Teorema Fundamental da Estatı́stica afirma
que tal convergência é uniforme em todo R, ou seja,
qc
sup |Fn (x) − F (x)| → 0.
x∈R

Tal resultado é fundamental em testes como o teste de


Kolmogorov-Smirnov e o teste de Shapiro-Wilk
Porém, é um resultado assintótico, ou seja, só vale no limite
quando n → ∞! Felizmente temos também o Teorema de
Dvoretzky–Kiefer–Wolfowitz–Massart, que nos dá uma estimativa
para a velocidade de convergência:
 
2
P sup |Fn (x) − F (x)| > ε ≤ 2e−2nε , ∀ε > 0
x∈R

DME - IM - UFRJ Prob II Aula 29 6


Teorema Central do Limite: motivação

Considere (Xn )n∈N uma sequência independente e identicamente


distribuı́da de variáveis aleatórias de média zero e variância 1
As leis fraca e forte dos grandes números nos dizem,
respectivamente, que
p qc
Xn → 0 e Xn → 0

Porém, para fazer um teste de hipótese ou construir um intervalo


de confiança, precisamos saber como se dá essa convergência!
O Teorema Central do Limite nos diz uma resposta para essa
pergunta:
√ d
n X n → N (0, 1)
Analogamente às Leis dos Grandes Números, há toda uma classe
de Teoremas Centrais do Limite, ou seja, condições na sequência
de interesse tais que se dá a convergência em distribuição para
uma variável aleatória normal
DME - IM - UFRJ Prob II Aula 30 1
Teorema Central do Limite: história

As primeiras versões datam do século XVIII, onde DeMoivre o


postulou para o caso de variáveis com distribuição de Bernoulli
Trabalho quase 100 anos esquecido, resgatado no inı́cio do século
XIX por Laplace, ainda não recebendo a devida atenção
Sua importância foi discernida somente na transição entre os
séculos XIX e XX, com os trabalhos de Lyapunov
O nome “Teorema Central do Limite” aparece pela primeira vez
em 1920, em um trabalho de G. Pólya, onde o termo “central”
deriva da sua importância em teoria das Probabilidades
Porém, a escola francesa de Probabilidade interpreta o termo
“central” no sentido de descrever o comportamento do centro da
distribuição, em oposição à sua cauda, chamando tal resultado de
“Teorema do Limite Central”
Outros personagens importantes: Cauchy, Bernstein, Lindberg,
Lévy, Kolmogorov, Feller, etc.
DME - IM - UFRJ Prob II Aula 30 2
Dois Teoremas Centrais do Limite

Teorema (TCL para variáveis aleatórias iid): Seja (Xn )n∈N uma
sequência de variáveis aleatórias independentes e identicamente
distribuı́das, com média µ e variância 0 < σ 2 < ∞. Então temos que

n d
(X − µ) → N (0, 1).
σ

Provemos uma versão menos geral, onde assumimos que as variáveis


aleatórias têm função geradora de momentos definidas em torno de
zero.

DME - IM - UFRJ Prob II Aula 30 3


Dois Teoremas Centrais do Limite

Podemos enfraquecer a hipótese das variáveis aleatórias serem


identicamente distribuı́das, a um pequeno custo de uma hipótese
adicional
Teorema (TCL de Lyapunov): Seja (Xn )n∈N uma sequência de
variáveis aleatórias independentes, P
com respectivas médias µn e
variâncias 0 < σn2 < ∞. Seja s2n = nk=1 σk2 . Assuma que a condição de
Lyapunov é satisfeita:
n
1 X
∃ δ > 0 lim 2+δ E[|Xk − µk |2+δ ] = 0.

n→∞ sn
k=1

Então vale que


n d
(X − E[X]) → N (0, 1).
sn

DME - IM - UFRJ Prob II Aula 30 4


Teorema de Berry-Esseen
Assim como as Leis dos Grandes Números, o Teorema Central do
Limite é um resultado assintótico! Felizmente temos como saber algo
sobre a “distância” para o limite.
Teorema: Seja (Xn )n∈N uma sequência variáveis aleatórias
independentes e identicamente distribuı́das, de média zero e variância
0 < σ 2 < ∞. Assuma que E[|Xi |3 ] < ∞ e seja Z ∼ N (0, 1). Então
temos que
√
C E[|Xi |3 ]

n
P Y n ≤ x − P(Z ≤ x) ≤ √ ,
σ σ3 n

onde C é uma constante positiva.

Esseen 1942 ⇒ C < 7, 59


Shevstova 2012 ⇒ C < 0, 4748
Esseen 1956 ⇒ C ≥ 0, 4097.
DME - IM - UFRJ Prob II Aula 30 5