Probabilidade e Processos Estocásticos na Pós-Graduação em Atuária

Pós-Graduação em Atuária
Probabilidade e Processos Estocásticos
Professor Glauco Valle
Universidade Federal do Rio de Janeiro

Departamento de Métodos Estatísticos
e-mail: glauco.valle@im.ufrj.br
Professor Glauco Valle Departamento de Métodos Estatísticos Universidade Federal do Rio de Janeiro
Pós-Graduação - Especialização em Atuária
Referências complementares:
M. DeGroot, M. Schervish: Probability and Statistics, 4o edição, Pearson,

2011.
S. Ross: Probabilidade, um curso moderno com aplicações, 8o edição,
Bookman, 2010.
W. Bussab, P. Morettin: Estatística Básica, 9o edição, Editora Saraiva,
2017.
Conceitos Básicos sobre Probabilidades
Motivações:
Jogos de Azar: Qual é a chance de ganhar a Mega Sena com uma cartela
com 8 números marcados? (Resposta teórica)
Mercado Financeiro: Qual é a chance da cotação do dólar ter um au-

mento superior a 20% no período de uma semana? (Necessidade de um
modelo teórico compatível com a realidade)
Aplicações do modelo: Apreçamento de contratos nanceiros.
Sondagem de opinião: Na boca de urna do segundo turno de uma eleição

presidencial, se 3000 eleitores são entrevistados, qual é a probabilidade da
pesquisa errar por mais de 2 pontos percentuais? (Amostragem + modelo
teórico + Resultados em Teoria da probabilidade)
aleatório = causado pelo acaso, indeterminado.
Experimentos ou fenômeno aleatório: sorteio de um resultado da loteria,

evolução do mercado nanceiro durante uma semana no futuro, resultado
de uma eleição futura.
O conjunto de resuldados possíveis de determinado experimento ou fenô-

meno aleatório é chamado de Espaço amostral. Será denotado pelo sím-
bolo Ω.
Exemplos:
I Lançamento de uma moeda. Resultados possíveis: Ca = Cara ou
Co = Coroa. Espaço Amostral = Ω = {Ca, Co}.
I Resultado no sorteio da Megasena. Resultados possíveis:
qualquer combinação de seis números entre 60 disponíveis. Espaço
Amostral: Ω = coleção dos60subconjuntos de tamanho 6 no conjunto
{1, ..., 60}. |Ω| = 60
6 = !
6!54! .
I Valor da cotação de uma moeda estrangeira em certo instante
no futuro. Resultados possíveis: Qualquer número real positivo.
Espaço Amostral: Ω = R+ = [0, ∞) = {x ∈ R : x ≥ 0}.
n! = n fatorial = número de formas de ordenar n objetos diferentes

n n!
= = combinação "simples"de k objetos entre n disponíveis
k k!(n − k)!
= número de grupos de k objetos entre n disponíveis
Qualquer subconjunto do espaço amostral é chamado de evento (Serão
denotados por letras maiúsculas A, B, C).
Exemplos
I Obtenção de Cara no lançamento de uma moeda: A = {Ca}.
I As dezenas 20 e 31 fazem parte dos números sorteados na

Megasena: A = Subconjuntos de tamanho 6 de {1, ..., 60} que
contém 20 e 31 como elementos.
I Cotação da moeda estrangeiras em certo instante futuro se encontra
entre 2 e 3 reais: A = [2, 3].
Como quanticar a chance de ocorrência de eventos?
Para cada evento A associamos um valor P(A) chamado de probabilidade
de A de forma que
chance de ocorrência de A = P(A)x 100%
Se Ω é nito e todo evento unitário possui a mesma chance de ocorrência,

então a "probabilidade"de um evento "A"é
|A|
P(A) = .
|Ω|
Eventos unitários são eventos com um único elemento.
Exemplos:
I No lançamento de uma moeda: P({Ca}) = 12 .
I No lançamento de uma dado: P({1}) = 16 ,

P(resultado par) = P({2, 4, 6}) = 36 = 12 .
I No sorteio da Megasena, se A for como no exemplo anterior:
58
4
P(A) = 60 ≈ 0.00847
6
R: choose(58,4)/choose(60,6)
Nem sempre é possível considerar que todo evento unitário tem a mesma
chance de ocorrência.
Exemplos:
I Um pequeno imã é instalado na face de uma moeda e lançado sobre
uma superfície metálica. Verica-se que 2/3 dos lançamentos
resultam em Cara. Então, o modelo probabilístico relacionado ao
lançamento desta moeda resultaria em
2 1
P({Ca}) = e P({Co}) = .
3 3
I Um estudo constatou que metade das pessoas que usam
determinado medicamento sofrem de arritmia cardíaca. Duas
pessoas que usam o medicamento são escolhidas ao acaso, quantas
sofrem de arritmia cardíaca? O espaço amostral neste caso pode ser
Ω = {0, 1, 2} e as probabilidades associadas seriam
1 1 1
P({0}) =, P({1}) = e P({2}) = .
4 2 4
Você saberia dizer porque estes valores?
Probabilidades se caracterizam como funções denidas sobre classes de
eventos. Que condições essas funções devem satisfazer?
Denição: Seja Ω um conjunto. Uma função com valores reais P denida
sobre uma classe de eventos de Ω é dita uma probabilidade se:
I P está sempre denida em ∅ e Ω como P(∅) = 0 e P(Ω) = 1.
I 0 ≤ P(A) ≤ 1 para todo evento aleatório A.
I Seja (Aj )N j=1 , N ∈ {2, 3, 4, ...} ou N = ∞, uma coleção de eventos
mutuamente exclusivos (disjuntos), isto é Ai ∩ Aj = ∅ para todo
i 6= j , então j=1 Aj é um evento e
SN
N
[ XN
P Aj = P(Aj ) .
j=1 j=1
Exemplo: Considere Ω = [0, 1] e para A ⊂ [0, 1] dena
P(A) = comprimento de A .
Então P é uma probabilidade. De fato,

I P(Ω) = P([0, 1]) = comprimento de [0, 1] = 1 e P(∅) = 0 pois
claramente ∅ tem comprimento zero.
I Para A ⊂ [0, 1]
0 = P(∅) ≤ P(A) = comprimento de A ≤ P([0, 1]) = 1

I Claramente o comprimento da união de intervalos disjuntos é a soma
dos comprimentos dos intervalos na união. Isto pode ser
generalizado para qualquer união disjunta.
Propriedades de funções de probabilidade:
(1) Denimos B − A := B ∩ Ac .
P(B − A) = P(B) − P(A ∩ B)
Prova: B = (B ∩ A) ∪ (B ∩ Ac ) (união disjunta). Assim
P(B) = P(B ∩ A) + P(B ∩ Ac ),
que é equivalente ao enunciado.
Em particular para A ⊂ Ω
P(Ac ) = 1 − P(A) .
(2) Se A ⊂ B , então P(A) ≤ P(B).

Prova: P(B) = P(A ∩ B) + P(B − A) = P(A) + P(B − A) ≥ P(A).
(3) P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
Prova: A ∪ B = A ∪ (B − A) (união disjunta). Assim
P(A ∪ B) = P(A) + P(B − A) = P(A) + P(B) − P(A ∩ B) .
Exemplo: Entre pacientes de determinado grupo, 60% não são nem hi-
pertensos nem diabéticos, 30% são hipertensos e 20% são diabéticos. Se
um paciente do grupo é escolhido aleatoriamente, qual é a probabilidade
de que ele
(a) tenha pelo menos uma das doenças?
(b) tenha ambas as doenças?
(c) seja diabético, mas não hipertenso?
Para começar a responder as perguntas acima dena os eventos A =
{paciente escolhido é hipertenso} e B = {paciente escolhido é diabético}.
O enunciado fornece
P(A) = 0.3 P(B) = 0.2 P(Ac ∩ B c ) = 0.6 .
No item (a) queremos P(A ∪ B).

P(A ∪ B) = 1 − P( (A ∪ B)c )
= 1 − P(Ac ∩ B c ) = 1 − 0.6 = 0.4 .
No item (b) queremos P(A ∩ B)

P(A ∩ B) = P(A) + P(B) − P(A ∪ B)
= 0.3 + 0.2 − 0.4 = 0.1 .
No item (c) queremos P(Ac ∩ B)

P(Ac ∩ B) = P(B) − P(A ∩ B)
= 0.2 − 0.1 = 0.1 .
Exemplo: Temos um baralho usual com 52 cartas e 4 naipes. São sorte-
adas 3 cartas sem reposição. Considere os eventos A = {pelo menos um
Ás ou pelo menos um Valete} e B = {exatamente um Ás ou exatamente
um Valete}. Calcule P(A).
Cálculo de P(A): Note que A = {nenhum Ás e nenhum Valete} e
c
44 × 43 × 42
P(Ac ) = ≈ 0.599 .
52 × 51 × 50
Logo P(A) = 1 − P(Ac ) ≈ 1 − 0.599 = 0.401.
Cálculo de P(B): Seja B1 = {exatamente um Ás} e B2 = {exatamente
um Valete}. Então
3 × 4 × 48 × 47
P(B1 ) = P(B2 ) = ≈ 0.204
52 × 51 × 50
e
2 × 3 × 4 × 4 × 44
P(B1 ∩ B2 ) = ≈ 0.032 .
52 × 51 × 50
Portanto, P(B) = P(B1 ∪ B2 ) = P(B1 ) + P(B2 ) − P(B1 ∩ B2 ) ≈ 0.204 +
0.204 − 0.032 = 0.376.
(4) Princípio da inclusão-exclusão:
k
X X

P A1 ∪ ... ∪ Ak = P(Aj ) − P(Aj1 ∩ Aj2 )
i=1 j1 <j2
X
+ P(Aj1 ∩ Aj2 ∩ Aj3 )
j1 <j2 <j3
−... + (−1)k−1 P(A1 ∩ ... ∩ Ak )
(5) Sejam (Aj )Nj=1 , N ∈ {2, 3, 4, ...} ou ∞, eventos aleatórios. Então

N
[ XN
P Aj ≤ P(Aj ) .
j=1 j=1
Exemplo: Um sorteio de amigo oculto entre 4 pessoas é realizado. Qual
é a probabilidade de nenhuma pessoa retirar seu próprio nome? Seja A o
evento em questão e Bj = {pessoa j tira o seu próprio nome}, j = 1, 2, 3, 4.
Temos que Ac = B1 ∪ B2 ∪ B3 ∪ B4 . Calculamos
3! 1 2! 1
P(Bj ) = = P(Bj ∩ Bj ) = =
4! 4 4! 12 1 2
1 1
P(Bj ∩ Bj ∩ Bj ) = P(B1 ∩ B2 ∩ B3 ∩ B4 ) = =
1 2 3
4! 24
Daí pelo princípio de inclusão-exclusão temos que
P(Ac )

= P B1 ∪ B2 ∪ B3 ∪ B4
4
X X
= P(Bj ) − P(Bj1 ∩ Bj2 )
j=1 j1 <j2
X
+ P(Bj1 ∩ Bj2 ∩ Bj3 ) − P(B1 ∩ B2 ∩ B3 ∩ B4 )
j1 <j2 <j3
1 1 1 1 1 1 1
= 4× −6× +4× − =1− + − ≈ 0.625
4 12 24 24 2 6 24
Portanto P(A) = 1 − P(Ac ) ≈ 1 − 0.625 = 0.375.
Um curiosidade é que a probabilidade de nenhum participante tirar o pró-

prio nome se aproxima de e −1 ≈ 0.368 quando aumentamos arbitraria-
mente o número de participantes.
(6) Sejam (Aj )Nj=1 eventos. Se P(Aj ) = 0 para todo j , então
N
[
P Aj = 0 .
j=1
(7) Sejam (Aj )Nj=1 eventos. Se P(Aj ) = 1 para todo j , então

N
\
P Aj = 1 .
j=1
Probabilidades Condicionais Informações sobre o experimento ou fenô-
meno aleatório estudado modicam a forma de quanticar chances.
Por exemplo, no lançamento de um dado a probabilidade do resultado ser
1 é 1/6 e ser 2 também é 1/6. Entretanto, se for de nosso conhecimento
a informação de que o resultado é ímpar, diremos que a probabilidade
do resultado ser 1 é 1/3 e ser 2 é 0. Estas últimas probabilidades são
chamadas de probabilidades condicionais de {1} e {2} dado que o evento
{1, 3, 5} ocorre.
Denição: Sejam A e B eventos aleatórios de (Ω, P). A probabilidade

condicional de A dado B é dada por
P(A ∩ B)
P(A|B) = , se P(B) > 0 .
P(B)
No exemplo dos dados

P({1}) 1/6 1
P({1}|resultado é ímpar) = P({1}|{1, 3, 5}) = = = .
P({1, 3, 5}) 1/2 3
Pela denição acima, temos a chamada fórmula da multiplicação:
P(A ∩ B) = P(A|B)P(B) = P(B|A)P(A) .
Exemplo: Para avaliar o risco associado a certo tipo de atividade indus-

trial são levantadas as seguintes informações: 30% dos acidentes no setor
possuem vítimas e 20% dos acidentes com vítimas são severos, isto é, im-
plicam no afastamento do trabalhor acidentado. Qual é a probabilidade de
que um acidente seja classicado como severo?
Aqui devemos nos preocupar, não apenas com acertar a resposta, mas
também com a formalização dos passos para obtê-la. Dena os eventos
A = {acidente possui vítima} e B = {acidente é severo}. Nosso objetivo
é encontrar P(B). Observe que conhecemos P(A) = 0.3 e P(B|A) = 0.2.
Portanto
P(B) = P(B|A)P(A) = 0.2 × 0.3 = 0.06 ,
ou seja, quando ocorre um acidente há 6% de chance dele ser severo.
Uma partição de Ω é uma coleção {Cj }Nj=1 , N ∈ {1, 2, ...} ou N = ∞, se
subconjuntos de Ω mutuamente exclusivos, tais que Ω = Nj=1 Cj .
S
Decomposição em Probabilidade Total: Seja {Cj }Nj=1 , N ∈ {2, 3, ...}

ou N = ∞, uma partição de Ω em eventos aleatórios. Então, para todo
evento aleatório A
N
X
P(A) = P(A|Cj )P(Cj ) .
j=1
Fórmula de Bayes: Seja {Cj }Nj=1 , N ∈ {2, 3, ...} ou N = ∞, uma partição

de Ω em eventos aleatórios. Então, para todo evento aleatório A e 2 ≤
k ≤N
P(A|Ck )P(Ck )
P(Ck |A) = PN .
j=1 P(A|Cj )P(Cj )
Exemplo (dados ctícios): Uma seguradora de automóveis divide os se-
gurados em dois grupos: Grupo 1 é um grupo considerado de alto risco,
Grupo 2 é um grupo considerado de baixo/médio risco. É de interesse ava-
liar a probabilidade de um segurado do grupo 1 sofrer acidente ao longo
de um ano e comparar com a mesma probabilidade com respeito a um
segurado do grupo 2. Para isto, a seguradora dispõe da informação de
uma agência de pesquisa que estima em 1% a chance de um automóvel se
envolver em acidente ao longo de um ano. Com base nos seus segurados,
ela também conta com os seguintes dados
Grupo 1 Grupo 2 Total
com acidente 80 100 180
sem acidente 720 2100 2820
Total 800 2200 3000
Vamos dar nomes aos eventos de interesse. Sejam
G1 = {segurado pertence ao grupo 1} ,
G2 = {segurado pertence ao grupo 2} ,

A = {segurado sofreu acidente ao longo de um ano} .
Estamos interessados em obter P(A|G1 ) e P(A|G2 ). Uma primeira abor-
dagem neste caso seria calcular
P(A ∩ G1 ) 80
P(A|G1 ) = = = 0.1
P(G1 ) 800
e
P(A ∩ G2 ) 100
P(A|G2 ) = = = 0.045
P(G2 ) 2200
Este cálculo leva em conta o fator especíco da classicação da seguradora,
mas ca restrito a um universo muito limitado de automóveis. Uma forma
adequada de contornar o problema é através da fórmula de Bayes
P(G1 |A)P(A)
P(A|G1 ) =
P(G1 |A)P(A) + P(G1 |Ac )P(Ac )
onde P(A) = 0.01 é fornecido pelo estudo da agência de pesquisa. Então

80 720
P(G1 |A) = = 0.444 , P(G1 |Ac ) = = 0.255 ,
180 2820
e
0.444 · 0.01
P(A|G1 ) = = 0.017 .
0.444 · 0.01 + 0.255 · 0.99
Analogamente,
(1 − 0.444) · 0.01
P(A|G2 ) = = 0.013 .
(1 − 0.444) · 0.01 + (1 − 0.255) · 0.99
Uma das noções básicas mais importantes em probabilidade é a de inde-
pendência. Dois eventos são independentes se a ocorrência de um deles
não afeta a chance de ocorrência do outro. De forma mais precisa, A e
B são independentes, se P(A|B) = P(A) e P(B|A) = P(B). Segue da
denição de probabilidade condicional que A e B são independentes, se e
somente se, P(A ∩ B) = P(A) P(B), e é essa condição que é usada como
denição.
Denição: Dois eventos aleatórios A e B de (Ω, P) são independentes

se
P(A ∩ B) = P(A) P(B) .
Se A e B são independentes, então Ac e B , A e B c , Ac e B c são pares de

eventos independentes.
Exemplo: Eventos relacionados a resultados em sorteios distintos são in-
dependentes: em Lançamentos consecutivos de um dado os eventos {
primeiro resultado é ímpar }, {segundo resultado é par}, são independen-
tes; em sorteios distintos da Megasena os eventos {resultado no primeiro
sorteio contém as dezenas 01 e 10} e {resultado no segundo sorteio contém
as dezenas 01 e 10} são independentes.
Denição Um coleção de eventos aleatórios {Aj }Nj=1 , N ∈ {2, 3, ...} ou

N = ∞, em (Ω, P) são independentes se para todo 2 ≤ m ≤ N e
1 ≤ k1 < k2 < ... < km < N temos

P Ak1 ∩ ... ∩ Akm = P Ak1 · ... · P Akm .
Exemplo: Considere o lançamento de um dado. Seja A = {resultado é
par} e B = {1, 2, 3, 4}. Então P(A) = 1/2, P(B) = 2/3 e P(A ∩ B) =
P({2, 4}) = 1/3. Portanto, P(A ∩ B) = P(A) P(B), ou seja, A e B são
independentes (mesmo dependendo do mesmo lançamento do dado).
Exemplo: Se A e B são eventos independentes então a probabilidade da
união é calculada pela expressão:
P(A ∪ B) = P(A) + P(B) − P(A) P(B) .
Por exemplo, se A e B são eventos independentes com P(A) = 1/3 e

P(B) = 1/4, então
1 1 1 7 1 6 1
P(A ∪ B) = + − = − = = .
3 4 3 × 4 12 12 12 2
Se A e B são disjuntos com P(A) = 1/3 e P(B) = 1/4 (não poderiam ser
independentes), então teríamos P(A ∪ B) = 1/3 + 1/4 = 7/12.
Denição: Sejam A, B e C eventos. Dizemos que A e B são condicio-
nalmente independentes dado C se
P(A ∩ B|C ) = P(A|C ) P(B|C ) .
Exemplo: Voltemos ao lançamento do dado. Considere os eventos A =

{1, 2}, B = {2, 3} e C = {1, 2, 3, 4}. Observe que A e B não são inde-
pendentes:
1 1
6= = P(A ∩ B) .
P(A) P(B) =
9 6
Entretanto A e B são condicionalmente independentes dado C .
11 1
P(A|C ) P(B|C ) = = = P(A ∩ B|C ) .
22 4
Variáveis aleatórias
A soma dos resultados no lançamento de dois dados, o máximo da cotação

de uma moeda estrangeira ou do preço de um ativo nanceiro em período
fututo, o consumo de combustível/km de determinado automóvel ao fazer
determinado trajeto, o número de seguros contratados em determinada
seguradora em período futuro. Todos estes são exemplos de funções reais
denidas sobre resultados de um experimento ou fenômeno aleatório.
Variáveis Aleatórias: Em um experimento ou fenômeno aleatório com

espaço amostral Ω, uma variável aleatória é uma função X : Ω → R. Ou
seja, A cada resultado possível ω ∈ Ω do experimento é atribuído um valor
real X (ω).
Variáveis aleatórias serão denotadas por letras maiúsculas X, Y, Z.
Notação: {a < X ≤ b} = {ω ∈ Ω : a < X (ω) ≤ b}.
Denição: Seja X uma variável aleatória sobre (Ω, P). A função
FX (z) = P(X ≤ z) , z ∈ R ,
é chamada de função de distribuição (acumulada) de X .
A função de distribuição de uma variável aleatória contém toda informação

probabilística de interesse sobre a variável. Observe que
P(a < X ≤ b) = FX (b) − FX (a) .
Resultado: Sejam X e Y duas variáveis aleatórias. Se FX = FY , então X

e Y possuem a mesma distribuição. Neste caso dizemos que X e Y são
identicamente distribuídas.
Exemplo: Considere o lançamento consecutivo de dois dados. Seja X o
resultado no primeiro lançamento, Y o resultado no segundo lançamento
e W = X + Y a soma dos resultados. Então, X , Y e W são variáveis ale-
atórias. X e Y são identicamente distribuídas e sua função de distribuição
é dada por
 0 , z <1


 1/6 , 1 ≤ z < 2



 2/6 , 2 ≤ z < 3


FX (z) = FY (z) = 3/6 , 3 ≤ z < 4
 /6 , 4 ≤ z < 5
4



 5/6 , 5 ≤ z < 6



1 , z ≥ 6.

Observação: Pelo exemplo ca claro que serem identicamente distribuídas

não signica serem iguais.
O conceito de função de distribuição é usado para construir distribuições.
Isto é baseado na seguinte caracterização: Um função F : R → [0, 1] é
uma função de distribuição, F = FX para alguma variável aleatória X , se
e somente se,
1. F é não-decrescente, ou seja, F (z1 ) ≤ F (z2 ) se z1 ≤ z2 ;
2. F é contínua à direita (Se zn se aproxima de z pela direira, isto é,
zn ≥ z , então F (zn ) se aproxima de F (z);
3. limz→−∞ F (z) = 0 e limz→∞ F (z) = 1;
Exemplo: Vamos vericar que a função
 0 , x < 0,

F (x) = x , 0 ≤ x < 1,
1 , x > 1.

do exemplo anterior é uma função de distribuição. Seu gráco é da forma

0.0 0.2 0.4 0.6 0.8 1.0
F(x)
−1.0 −0.5 0.0 0.5 1.0 1.5 2.0
Claramente vemos pelo gráco que a função é não-decrescente, contínua

com limx→−∞ F (x) = 0 e limx→∞ F (x) = 1.
Continuação do exemplo:
Daí podemos calcular
P 0.5 < X < 1.5 = FX (1.5) − FX (0.5) = 1 − 0.5 = 0.5 .

Exemplo: A função
0 , x < 0,


F (x) = 3x − 2x 2 , 0 ≤ x < 1 ,
1 , x > 1.

não é função de distribuição. Pelo gráco abaixo podemos ver que não
temos uma função não-decrescente:1.0
0.8
0.6
F(x)
0.4
0.2
0.0
−0.5 0.0 0.5 1.0 1.5
Variáveis aleatórias discretas:
Denição: Dizemos que uma variável aleatória X é discreta se exite
j=1 , com N ∈ {1, 2, 3, ...} ou N = ∞, tal que
{xj }N
P(X = xj ) > 0 , para todo j ,
e X
P(a < X ≤ b) = P(X = xj ) .
j:a<xj ≤b
Os xj 's são chamados de valores possíveis da variável aleatória X e a

coleção de probabilidades {pj }nj=1 , onde pj = P(X = xj ), é chamada de
função de probabilidade de X .
Para que uma coleção de números reais (pj )Nj=1 , N ∈ {1, 2, 3, ...} ou N =
∞, seja função de probabilidade de alguma variável aleatória é necessário
que ter 0 < pj ≤ 1 para todo j e
N
pj = 1 .
X
j=1
A função de distribuição de uma variável aleatória discreta é uma função

que só cresce por saltos nos valores possíveis da variável (o valor da função
aumenta de pj no ponto xj ). Como exemplo, veja a função de distribuição
da variável aleatória que representa o resultado no lançamento de um dado.
Voltemos ao exemplo do lançamento consecutivo de dois dados, onde X é
o resultado no primeiro lançamento, Y o resultado no segundo lançamento
e W = X + Y a soma dos resultados.
As variáveis X , Y e W só podem assumir um número nito de va-
lores possíveis. X e Y assumem valores em {1, 2, 3, 4, 5, 6} e W em
{2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}. Então a distribuição dessas variáveis é de-
terminada pelas probabilidades com que elas assumem seus valores possí-
veis.
No caso de X e Y estas probabilidades aparecem na tabela abaixo:
z 1 2 3 4 5 6
P(X = z) 1/6 1/6 1/6 1/6 1/6 1/6
Para W as probabilidade podem ser calculadas usando o fato de que para
todo i, j ∈ {1, ...,6} temos que {X = i} e {Y = j} são independentes e
1
P (X , Y ) = (i, j) = P(X = i) P(Y = j) = 36 . Assim, por exemplo
P(W = 4) = P (X , Y ) ∈ {(1, 3), (3, 1), (2, 2)}

= P (X , Y ) = (1, 3) + P (X , Y ) = (3, 1) + P (X , Y ) = (2, 2)

3
= .
36
Obtemos a seguinte tabela
z 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
P(W = z) 36 36 36 36 36 36 36 36 36 36 36
Denição: O valor esperado (ou valor médio, ou média) de uma
variável aleatória discreta X é a média de seus valores possíveis ponderada
por sua função de probabilidade e será denotada E [X ], ou seja,
N
X
E [X ] = xj · p j .
j=1
A variância de uma variável aleatória discreta X é a média dos desvios

quadráticos em torno do valor esperado ponderada por sua função de pro-
babilidade e será denotada Var (X ), ou seja,
N
(xj − E [X ])2 · pj .
X
Var (X ) =
j=1
O desvio padrão de X é a raiz quadrada da variância de X e será denotado

por DP(X ).
Valor esperado, variância e desvio padrão são medidas que ajudam a en-
tender certas características da distribuição da variável aleatória X . O
valor esperado é uma medida de posição. A variância é uma medida de
dispersão em torno da média. O desvio padrão tem uma interpretação
análoga a da variância como medida de dispersão, entretanto quando X
tem uma unidade associada (metros, kilos, unidade monetária), o desvio
padrão tem a mesma unidade associada.
Exemplo: Considere X como sendo o resultado no lançamento de um
dado. Então
6
1 21
= 3.5 ,
X
E [X ] = j· =
j=1
6 6
N
1
(j − 3.5)2 ·
X
Var (X ) =
j=1
6
(1 − 3.5)2 + (2 − 3.5)2 + ...(6 − 3.5)2
= = 2.917 ,
6
Var (X ) = 1.708 .
p
DP(X ) =
Funções de variáveis aleatórias discretas são variáveis aleatórias discretas.
Por exemplo, se X e Y são variáveis aleatórias discretas, então |X |, X 2 ,
X 3 , (X − E [X ])2 , e X , X + Y , X e Y são variáveis aleatórias discretas.
Seja f : R → R uma função e X uma variável aleatória discreta. Se
Z = f (X )
N
X
E [Z ] = E [f (X )] = f (xj ) · pj .
j=1
Por exemplo, se X é o resultado no lançamento do dado

6
1 1 + 8 + 27 + 64 + 125 + 216
E [X 3 ] = j3 · = 73.5 .
X
=
j=1
6 6
Alguns tipos de distribuições de váriáveis aleatórias discretas
Distribuição Bernoulli: Para 0 < p < 1, dizemos que uma variável

aleatória tem distribuição Bernoulli de parâmetro p , X ∼ Bern(p) se
P(X = 1) = p e P(X = 0) = 1 − p .
Neste Caso,
E [X ] = p e Var (X ) = p(1 − p) .
Aplicação: No lançamento de uma moeda honesta dena X = 1 se o re-
sultado for Cara e X = 0 se o resultado for Coroa, então X ∼ Bern(1/2)
e (1 − X ) ∼ Bern(1/2). Em contexto mais geral, considere experimen-
tos com dois resultados possíveis, digamos sucesso ou fracasso, onde a
probabilidade de sucesso é 0 < p < 1. Dena X = 1 se o resultado
for sucesso e X = 0 se o resultado for fracasso, então X ∼ Bern(p) e
(1 − X ) ∼ Bern(1 − p).
Distribuição Binomial: Seja n ≥ 1 e 0 < p < 1, dizemos que uma variável
aleatória tem distribuição binomial de parâmetros n e p , X ∼ Bin(n, p) se
o conjunto de valores possíveis de X é {0, 1, 2, ..., n} e

n k n!
P(X = k) = p (1 −p)n−k = p k (1 −p)n−k , k = 0, 1, ..., n.
k k!(n − k)!
Neste Caso,
E [X ] = n p e Var (X ) = n p(1 − p) .
Note que Bin(1, p) = Bern(p).
Aplicação: Em n lançamentos de uma moeda honesta dena X como o
número de lançamentos onde foram obtidos Cara. Então X ∼ Bin(n, 1/2)
e (1 − X ) ∼ Bin(n, 1/2). Em contexto mais geral, considere n repetições
independentes de um mesmo experimento com dois resultados possíveis,
sucesso ou fracasso, onde a probabilidade de sucesso em cada repetição
do experimento é 0 < p < 1. Dena X como o número de repetições com
resultado igual a sucesso, então X ∼ Bin(n, p) e (1 − X ) ∼ Bin(n, 1 − p).
R: Comece digitando
par(mfrow = c(1, 5))
para abrir uma janela para compartilhar 5 grácos. Primeiro plotamos a
função distribuição da binomial. Fixe valores para n e p e digite
k = seq(-1,n+1,by=1)
plot(k,pbinom(k,n,p),type='s')
depois plotamos a função de probabilidade da binomial em um gráco de
barras. Digite
k = seq(0,n,by=1)
plot(k,dbinom(k,n,p),type='h',lwd=10)
em seguida plot 3 histogramas da distribuição binomial
hist(rbinom(N,n,p),freq=FALSE)
para valores N = 10, N = 100, N = 1000. Compare os plots!
Exemplo: Baseado em uma tábua de mortalidade a probabilidade de uma
pessoa com 65 anos completos falecer antes de completar 66 anos é de
0.015. Considere uma grupo de 80 pessoas de 65 anos completos tal que
todos nesse grupo possuem seguro de vida com indenização no valor de
100000 reais. Seja Y a v.a. que representa o valor total de indenizações
que será pago no próximo ano devido a falecimentos de pessoas no grupo.
Calcule:
1. O valor médio e o desvio padrão de Y .
2. Calcule a probabilidade de Y ser maior ou igual a 200000 reais.
3. Use o R para plotar um histograma para a v.a. Y .
4. Se cada uma das 80 pessoas paga 2000 reais para ter direito ao
seguro, qual é a probabilidade da administradora dos recursos ter
prejuízo (sem considerar a aplicação dos recursos).
Distribuição Geométrica: Seja 0 < p < 1, dizemos que uma variável
aleatória tem distribuição geométrica de parâmetro p , X ∼ Geom(p) se o
conjunto de valores possíveis de X é {1, 2, 3, ...} e
P(X = k) = p(1 − p)k−1 , k = 1, 2, 3, ... .
Neste Caso,
1 1
E [X ] = e Var (X ) = .
p p2
Aplicação: Em lançamentos consecutivos de uma moeda honesta dena

X como o número de lançamentos até a ocorrência do primeiro resultado
Cara. Então X ∼ Geom(1/2). Em contexto mais geral, considere re-
petições independentes de um mesmo experimento com dois resultados
possíveis, sucesso ou fracasso, onde a probabilidade de sucesso em cada
repetição do experimento é 0 < p < 1. Dena X como o número de
repetições até a ocorrência do primeiro successo, então X ∼ Geom(p).
Duas denições?
Alguns autores consideram uma denição diferente da distribuição geomé-
trica. Nesta denição a geométrica conta o número de fracassos até o
primeiro sucesso. Ou seja, X − 1 onde X ∼ Geom(p) conforme a nossa
denição. Esta é a denição utilizada também no software R . Então se
X ∼ Geom(0.2) cálculo de probabilidades para X no R devem ser feitos
conforme os exemplos abaixo:
P(X = 2) = dgeom(1, 0.2)

e não
P(X = 2) = dgeom(2, 0.2)
P(X ≤ 5) = pgeom(4, 0.2)

e não
P(X ≤ 5) = pgeom(5, 0.2)
R: Comece digitando
função distribuição da geométrica. Fixe o valor de p e um valor auxiliar m
sucientemente grande e digite
k = seq(-1,m,by=1)
plot(k,pgeom(k-1,p),type='s')
depois plotamos a função de probabilidade da geométrica em um gráco
de barras. Digite
k = seq(1,m,by=1)
plot(k,dgeom(k-1,p),type='h',lwd=10)
em seguida plot 3 histogramas da distribuição binomial
hist(rgeom(N,p)+1,freq=FALSE)
Exemplo: Quanto sorteios em média são necessários para obter 01 02 03 04
05 06 como combinação sorteada na mega-sena? Esse número de sorteios
tem distribuição geométrica de parâmetro
1
60
6
cuja média é
60

= 50063860 .
6
Portanto, em média serão necessários mais de 50 milhões de sorteios.
Distribuição Poisson: Seja λ > 0, dizemos que uma variável aleatória
tem distribuição Poisson de parâmetro λ, X ∼ Poisson(λ) se o conjunto
de valores possíveis de X é {0, 1, 2, 3, ...} e
λk −λ
P(X = k) = e , k = 0, 1, 2, ... .
k!
Neste Caso,
E [X ] = λ e Var (X ) = λ .
Aplicação: A distribuição de Poisson tem importantes propriedades que
a tornam muito importante como distribuição de variáveis de contagem,
isto é, variáveis que representam número de ocorrências de um evento em
determinado período de tempo. Uma dessas propriedades é que a Poisson é
limite (em certo sentido) de distribuições binomiais. Sendo mais especíco,
se n · pn converge para λ, então
λk −λ

n k
pn (1 − pn )n−k → e .
k k!
Ou seja, se np ≈ λ e n é sucientemente grande, a probabilidade da

Bin(n, p) ser igual a k é aproximadamente a probabilidade da Poisson(λ)
também ser igual a k .
Exemplo: Queremos sugerir uma distribuição de probabilidade para o nú-
mero de automóveis X entre 1000 cadastrados que estarão envolvidos em
algum acidente durante um período de um ano. Usaremos uma estimativa
de que a probabilidade de um automóvel se envolver em um acidente no pe-
ríodo de um ano é 0.01. Podemos pensar em X como uma Bin(1000, 0.01).
Entretanto, uma alternativa seria usar a distribuição Poisson(10). Isto po-
deria simplicar o cálculo de probabilidades.
Suponha agora que sabemos que em média 10 automóveis em determinado
grupo de interesse se envolvem em acidentes por ano. Entretanto não
conhecemos o número de automóveis (por exemplo, todos os automóveis
de moradores de determinado bairro). Então é razoável declarar X ∼
Poisson(10).
R: Comece digitando
para abrir uma janela para compartilhar 2 grácos. Vamos plotar om
grácos de barras a função de probabilidade da Bin(n, p) e da Poisson(np).
Fixe n e p . Primeiro plotamos a função de probabilidade da binomial
k = seq(0,n+10,by=1)
plot(k,dbinom(k,n,p),type='h',lwd=10)
depois plotamos a função de probabilidade da poisson

plot(k,dpois(k,np),type='h',lwd=10)
Compare os plots!
Uma pesquisa indica que 1 entre cada 5 carros sai de fábrica com algum
defeito de fabricação. Suponha que X represente o número de carros
novos com algum defeito de fabricação em um grupo de 10 carros novos
selecionados aleatoriamente. Responda:
1. Qual é a distribuição de X ?
2. Qual é a probabilidade de que dois ou menos carros tenham defeitos?
3. Forneça a média e a variância de X e construa o seu histograma.
4. Suponha que 1250 lotes de 15 carros sejam distribuídos entre
diversas concessionárias. Calcule aproximadamente a probabilidade
de que 4 ou mais lotes tenham 8 ou mais carros com defeitos de
fábrica. Usando porcentagem explique o signicado da probabilidade
obtida.
5. Sob as hipóteses do item anterior, calcule qual é o menor valor k tal
que a chance de ter k ou menos lotes com oito ou mais carros
defeituosos seja maior ou igual a 50%.
(1) X é uma binomial de parâmetro 10 e probabilidade p = 1/5 = 0.2.
É razoável supor que um carro apresenta defeito independentemente
de qualquer outro carro. Então, o problema de contar carros com
defeitos é análogo ao problema de contar sucessos em repetições de
um experimento tipo sucesso-fracasso onde sucesso ocorre com
probabilidade 0.2.
(2) Sendo X ∼ Bin(10, 0.2)
P(X ≤ 2) = P(X = 0) + P(X = 1) + P(X = 2)

10 10 10

= 0.810 + 0.89 0.2 + 0.88 0.22 ≈ 0.68
0 1 2
(3) E [X ] = 10 · 0.2 = 2, Var (X ) = 10 · 0.2 · 0.8 = 1.6. O histograma
pode ser obtido usando o R.
(4) Aqui seja Y ∼ Bin(15, 0.2) o número de carros defeituosos em um
único lote. Então P(Y ≥ 8) = 0.00423975. Seja Z o número de
lotes com 8 ou mais carros defeituosos. Então
Z ∼ Bin(1250, 0.00423975) e queremos P(Z ≥ 4). Usaremos a
aproximação pela Poisson de parâmetro 1250 · 0.00423975 ≈ 5.3.
Então
(5.3)2
P(Z ≥ 4) = 1−P(Z ≤ 3) ≈ 1−e −5.3 −5.3 e −5.3 − e −5.3 = 0.7745 .
2
Portanto, a chance de que 4 ou mais lotes possuem 8 ou mais carros
defeituosos é de 77.45%.
(5) Queremos k tal que P(Z ≤ k) ≥ 0.5 e P(Z ≤ k − 1) < 0.5. Ou
seja, k é o quantil de Z a 50%. Usando o R achamos o quantil
usando o comando qbinom(0.5,1250,0.00423975). A resposta é 5.
Variáveis aleatórias contínuas:
Nem sempre as variáveis aleatórias são simples como as acima que só

tem uma coleção de valores possíveis que pode ser escrita em uma lista.
Por exemplo, variáveis aleatórias que representam peso/altura, erros em
medidas de comprimento/área/volume, preços, tempos entre ocorrências
consecutivas de um fenômeno aleatório.
Exemplo: Seja X o tempo de duração de um tipo de lâmpada que em

média dura 1 unidade de tempo. Uma distribuição usual para X (depois
veremos porque) é determinada pela função de distribuição
0 , z ≤ 0,

FX (z) =
1 − e −z , z > 0.
Neste caso, todo número real positivo é um valor possível para a variável
aleatória X .
Dizemos que uma variável aleatória é contínua se existe uma função f :
R → R tal que f (x) ≥ 0 para todo x ∈ R e
Z b
P(a < X ≤ b) = f (x)dx , para todos a, b ∈ R .
a
A função f é chamada de densidade de X e será denotada fX .
Observação: É útil recordar que pelo Cálculo
Z b
f (x)dx = area entre o graco de f e o eixo das abcissas.
a
Como devemos ter P(−∞ < X < ∞) = 1,

Z ∞
fX (x)dx = 1 .
−∞
Portanto, uma função f : R → R tal que f (x) ≥ 0 para todo x ∈ R é

densidade de alguma v.a., se e somente se,
Z ∞
f (x)dx = 1 .
−∞
A pergunta natural aqui é: Qual a diferença entre os casos discreto e
contínuo? Para uma v.a. X contínua, qualquer que seja o valor a
Z a
P(X = a) = fX (x) dx = 0
a
Logo, a chance de uma variável aleatória assumir um valor especíco é zero.

Um comportamento completamente oposto ao de uma variável aleatória
discreta.
O fato de P(X = a) = 0 não signica que X não está bem-denida. De
fato, isto está em acordo com importantes interpretações de fenômenos
reais. Por exemplo, uma medida física nunca é perfeita. Quando medidos
comprimento ou peso de um objeto sempre paramos em determinada casa
decimal e não podemos continuar por limitação dos instrumentos para tirar
as medidas. Se fosse possível continuar seria razoável dizer que nunca
terminaríamos a medida chegando no valor exato. Daí devemos pensar em
medidas físicas como variáveis aleatórias contínuas.
Dizemos que x é um valor possível da variável aleatória contínua X se
fX (x) > 0. Observe que se f (x1 ) < f (x2 ), então é mais provável que a
variável assuma valores mais próximos de x2 do que de x1 . Formalmente,
se u é sucientemente pequeno
P(x1 − u < X < x1 + u) < P(x2 − u < X < x2 + u) .
Seja X uma variável aleatória contínua. Temos que
Z z
FX (z) = fX (x) dx .
−∞
Então FX0 = fX (FX é contínua, não tem saltos!).

Cálculo: Se Z z
G (z) = g (x) dx ,
−∞
então G é diferenciável e G 0 = g .
Exemplo: Suponha
0 , z ≤ 0,

FX (z) =
1 − e −z , z > 0.
Então X é uma v.a. contínua com densidade

0 , z ≤ 0,

fX (z) =
e −z , z > 0.
Denição: O valor esperado (ou valor médio, ou média) de uma
variável aleatória contínua X é a média de seus valores possíveis ponderada
por sua densidade e será denotada E [X ], ou seja,
Z ∞
E [X ] = x fX (x) dx .
−∞
A variância de uma variável aleatória discreta X é a média dos desvios

quadráticos em torno do valor esperado ponderada por sua densidade e
será denotada Var (X ), ou seja,
Z ∞
Var (X ) = (x − E [X ])2 fX (x) dx .
−∞
O desvio padrão de X é a raiz quadrada da variância de X e será denotado

por DP(X ).
Voltamos ao exemplo da v.a. contínua X com densidade
0 , z ≤ 0,

fX (z) =
e −z , z > 0.
Então
Z ∞ Z ∞ Z ∞
−∞
−x
−xe −x x=0 −x
e −x dx = 1

E [X ] = xe dx = + e dx =
0 0 0
Z ∞ Z ∞
Var (X ) = (x − 1)2 e −x dx = x 2 e −x dx − 1 (3)
0 0
Z ∞
2 −x −∞
= −x e x=0 + 2 x e −x dx − 1 = 2 − 1 = 1. (4)

0
Cálculo: Integração por partes:

Z b Z b
G (x) h(x) dx = G (b)H(b) − G (a)H(a) − g (x) H(x) dx .
a a
Como no caso discreto. O valor esperado pode não ser nito ou mesmo
não estar bem denido. Por exemplo,
1
f (x) = , x ∈ R.
π(1 + x 2 )
é uma densidade conhecida que é simétrica, isto é, f (x) = f (−x). Isto,

nos levaria a considerar E [X ] = 0. Porém,
Z ∞
x f (x)dx = ∞ ,
0
e se X é uma v.a. contínua e fX = f , então

Z ∞ Z ∞ Z ∞
E [X ] = x f (x)dx = x f (x)dx − x f (x)dx
−∞ 0 0
= ∞ − ∞ = indeterminado .
Neste caso, E [X ] não está bem denida.
Assim como no caso discreto, uma função de uma v.a. contínua é uma
v.a., ou seja, seja X v.a. contínua e G : R → R, então G (X ) é v.a..
Entretanto, G (X ) pode ser discreta ou pode ser contínua. Por exemplo,
Se G só assume os valores 0 ou 1, então G (X ) é discreta e tem distribuição
Bernoulli, por outro lado, se X é contínua X 2 também é contínua.
Seja X v.a. contínua, então

Z ∞
E [G (X )] = G (u) fX (u) du .
−∞
Algumas propriedades úteis do valor esperado (válidas nos casos discreto
e contínuo):
1. Se P(X = c) = 1 (variável aleatória constante), então E [X ] = c .

2. Se P(X ≥ 0) = 1, então E [X ] ≥ 0.
3. Se P(X ≥ 0) = 1 e E [X ] = 0, então P(X = 0) = 1.
4. E [c X ] = c E [X ].
5. E [X + Y ] = E [X ] + E [Y ].
6. Var (X ) = E [X 2 ] − E [X ]2 .
Exercício: Seja V a velocidade, medida em m/s, de um objeto de 5 kg
em movimento retilíneo. Suponha que V é uma variável aleatória contínua
com densidade
3
f (x) = e −3|x| , x ∈ R .
2
2
(a) Calcule o valor esperado da energia cinética W = mV2 .
(b) O objeto permanece com velocidade V durante 8 segundos,
percorrendo X = 8V metros. Calcule a variância de X.
Solução:
(a)
5 2
+∞
15 +∞ 2 −3|x|
Z Z
E [W ] = x f (x)dx = x e dx
−∞ 2 4 −∞
5 +∞ 2 −3x 5
Z
= 3x e dx = (Var (Y ) + E [Y ]2 ) ,
2 0 2
onde Y é uma exponencial de parâmetro 3 (ou integração por partes).
Logo Var (Y ) = E [Y ]2 = 19 e
52 5
E [W ] = = .
29 9
(b) Seja X a distância percorrida pelo objeto, então
E [X ] = E [8V ] = 8E [V ] = 8 · 0 = 0 ,
já que a densidade de V é simétrica em torno de 0 (E [|V |] < ∞). Assim,
2 128 5 128
Var [X ] = 82 Var [V ] = 64 E [V 2 ] = 64 E [W ] = = .
5 5 9 9
Alguns tipos de distribuições de váriáveis aleatórias contínuas
Distribuição Exponencial: Dizemos que uma variável aleatória contínua
X tem distribuição exponencial de parâmetro λ se
0 , z ≤ 0,

fX (z) =
λe −λz , z > 0.
Notação: X ∼ Exp(λ).
Neste caso,
0 , z ≤ 0,

FX (z) =
1 − e −λz , z > 0.
e
1 1
E [X ] = e Var (X ) = .
λ λ2
Aplicação: A distribuição exponencial tem um papel fundamental na teoria
de processos estocásticos a tempo contínuo. Uma das razões é que a ex-
ponencial é a única distribuição com a propriedade de perda de memória,
isto é, X tem distribuição exponencial, se e somente se,
P(X > t + s|X > t) = P(X > s) .
P(X > t + s) e −λ(t+s)
P(X > t + s|X > t) = = = e −λs = P(X > s) .
P(X > t) e −λt
Por essa razão também a exponencial é indicada em vários modelos para re-
presentar tempos entre ocorrências consecutivas de um mesmo fenômeno:
duração de lâmpada ou de um certo componente eletrônico, intervalo de
tempo entre a chegada de dois pacientes consecutivos à emergência de
determinado hospital, etc.
R: Comece digitando
função distribuição da exponencial. Fixe valores para λ e digite
k = seq(0,1000,by=1)/100
plot(k,pexp(k,λ),type="l")
Ou podemos usar o comando "curve"no lugar de "plot"que simplica a

geração do gráco. Depois plotamos a densidade da exponencial, digite
curve(dexp(x,λ),from=0,to=10)
em seguida plot 3 histogramas da distribuição exponencial
hist(rexp(N,λ),freq=FALSE,breaks=32)
Digite
amostra = rexp(1000,2)
e tecle enter. Depois
sum((amostra − 0.5)2 )/1000
Interprete o resultado.
Distribuição Normal: Dizemos que uma variável aleatória contínua X tem
distribuição Normal (ou Gaussiana) de parâmetros µ e σ 2 , para µ ∈ R e
σ 2 ∈ (0, +∞), se
1 (x−µ) 2
fX (x) = √ e− σ , x ∈ R .
2 2
2πσ 2
Notação: X ∼ N (µ, σ 2 ).
Neste caso,
E [X ] = µ e Var (X ) = σ 2 .
Por isto é comum dizer que N (µ, σ 2 ) é a distribuição normal de média
µ e variância σ 2 . A distribuição N (0, 1) costuma ser chamada de normal
padrão.
A função de distribuição de uma distribuição normal
z
1
Z 2
(x−µ)
Φ(z) = √ e − σ dx ,
2 2
−∞ 2πσ 2
não pode ser escrita em termos de funções elementares (problema relacio-

nado ao cálculo de integrais). Seus valores são obtidos por aproximações
numéricas e costumam ser encontrados em tabelas, ou ainda, podem ser
obtidos em programas como R.
Aplicação: A distribuição normal tem um papel fundamental em teoria das

probabilidades. Principalmente devido ao Teorema Central do Limite que
aparece nos mais variados contextos. Em modelagem, é comum usar a
distribuição normal na modelagem de erros aleatórios.
R: Comece digitando
função distribuição da normal. Escolha µ e σ 2 e digite
curve(pnorm(x,mean=µ,sd=σ ),from=?,to=?)
em seguida plot 3 histogramas da distribuição normal
hist(rnorm(N,mean=µ,sd=σ ),freq=FALSE,breaks=32)
para valores N = 100, N = 1000, N = 10000.
R: Vamos comparar o gráco de densidades de distribuições normais com
diferentes parâmetros. Começamos com a densidade da N (0, 0.25),
curve(dnorm(x,mean=0,sd=0.5),from=-10,to=10,col="red")
Depois incluímos no mesmo plot a densidade da N (0, 1),
curve(dnorm(x),from=-10,to=10,col="blue",add=TRUE)
e por m a densidade da N (2, 4),
curve(dnorm(x,mean=2,sd=2),from=-
10,to=10,col="green",add=TRUE)
Resultado: Se X ∼ N (µ, σ 2 ) e Y = aX + b, para a, b ∈ R, então
Y ∼ N (aµ + b, a2 σ 2 ).
Pelo resultado anterior, se X ∼ N (µ, σ 2 ), então
X −µ
Z= ∼ N (0, 1) .
σ
Em particular, qualquer distribuição normal pode ser obtida como combi-
nação linear de uma distribuição normal padrão.
Denotaremos a função de distribuição da Normal padrão por Φ. Para
X ∼ N (µ, σ 2 )
X − µ z − µ z − µ
FX (z) = P(X ≤ z) = P ≤ =Φ .
σ σ σ
Logo, basta saber calcular probabilidades com respeito a distribuição nor-
mal padrão para saber calcular probabilidades com respeito a qualquer
outra distribuição normal.
Exemplo: X ∼ N (2, 4)
5 − 2 1 − 2
P(1 ≤ X ≤ 5) = FX (5)−FX (1) = Φ −Φ = Φ(1.5)−Φ(−0.5) .
2 2
R:
pnorm(5,mean=2,sd=2) - pnorm(1,mean=2,sd=2)
é igual a
pnorm(1.5) - pnorm(-0.5)
Compare também
hist(rnorm(10000),freq=FALSE,breaks=32)
com
hist((rnorm(10000,mean=2,sd=2)-2)/2,freq=FALSE,breaks=32)
Exercício
Uma variável aleatória X ∼ N (µ, σ 2 ) representa o desempenho de um

certo equipamento. Ele será considerado fora de controle se estiver afas-
tado de µ por mais de 2σ unidades. Todo o dia, o equipamento é avaliado
e, caso esteja fora de controle, será desligado e enviado para manutenção.
Admita independência entre as avaliações diárias. Determine:
I a probabilidade de no primeiro dia o equipamento ser desligado;
I a probabilidade da primeira manutenção ocorrer no décimo dia.
Distribuição Uniforme: Dizemos que uma variável aleatória contínua X
tem distribuição Uniforme no intervalo [a, b], a < b, se
1
b−a , a < z < b,
fX (z) =
0 , caso contrário .
Notação: X ∼ U[a, b].

X tem distribuição uniforme se todo valor possível tem a mesma densidade.
Neste caso,
x−a

b−a , a < z < b,
FX (z) =
0 , caso contrario .
e
b+a (b − a)2
E [X ] = e Var (X ) = .
2 12
R: Comece digitando
função de distribuição da uniforme. Para U[2, 6] digite
curve(punif(x,min=2,max=6),from=0,to=7)
em seguida plotamos 3 histogramas da distribuição uniforme
hist(runif(N,min=2,max=6),freq=FALSE,breaks=32)
para valores N = 100, N = 1000, N = 10000. Observe que o histograma
se aproxima do gráco da densidade da uniforme quando N cresce. Digite
lines(c(2,6),c(0.25,0.25),type="l",col="red")
Distribuição Gama: Dizemos que uma variável aleatória contínua X tem
distribuição Gama de parâmetros α e β , para α, β ∈ [0, +∞), se
0 , x ≤ 0,
(
fX (z) = β α x α−1 e −βx
Γ(α) , x > 0.
onde Γ(α) é uma constante de normalização que só depende de α. Nota-

ção: X ∼ Gama(α, β).
Neste caso,
α α
E [X ] = e Var (X ) = .
β β2
Observe que Gama(1, β) = Exp(β).
Aplicação: É uma família de distribuições que apresenta boa variedade
de comportamentos muito útil em modelagem probabilística. Assim como
com a exponencial, uma das aplicações da Gama está na modelagem de
tempos entre ocorrências consecutivas de um mesmo fenômeno aleatório.
R: Vamos comparar o gráco de densidades de distribuições gamas com
diferentes parâmetros. Começamos com a densidade da Gama(0.8, 1),
curve(dgamma(x,shape=0.8,rate=1),from=0,to=10,col="red")
Depois incluímos no mesmo plot a densidade da Gama(0.8, 2),
curve(dgamma(x,shape=0.8,rate=2),from=0,to=10,col="blue",add=TRUE)
da Gama(2, 1),
curve(dgamma(x,shape=2,rate=1),from=0,to=10,col="green",add=TRUE)
e da Gama(2, 2),
curve(dgamma(x,shape=2,rate=2),from=0,to=10,col="magenta",add=TRUE)
Distribuição Beta: Dizemos que uma variável aleatória contínua X tem
distribuição Beta de parâmetros a > 0 e b > 0, se
x a−1 (1−x)b−1
(
, 0<x <1
fX (z) = β(a,b)
onde β(a, b) é uma constante de normalização. Notação: X ∼ Beta(a, b).

Neste caso,
a ab
E [X ] = e Var (X ) = .
a+b (a + b + 1)(a + b)2
Observe que Beta(1, 1) = U[0, 1].
Aplicação: Assim como a Gama, a família de distribuições beta apresenta
grande variedade de comportamentos, só que representando valores no
intervalo [0, 1]. Também é muito útil em modelagem probabilística, prin-
cipalmente na representação de proporções.
R: Vamos comparar o gráco de densidades de distribuições betas com
diferentes parâmetros. Agora plotamos a densidade da beta com diferentes
valores dos parâmetros a e b no mesmo gráco,
curve(dbeta(x,1,1),from=0,to=1,col="red")
curve(dbeta(x,2,2),from=0,to=1,col="blue",add=TRUE)
curve(dbeta(x,0.5,0.5),from=0,to=1,col="magenta",add=TRUE)
Compare os grácos.
Agora digite
curve(dbeta(x,4,2),from=0,to=1,col="red")
curve(dbeta(x,4,0.5),from=0,to=1,col="blue",add=TRUE)
curve(dbeta(x,2,4),from=0,to=1,col="magenta",add=TRUE)
curve(dbeta(x,0.5,4),from=0,to=1,col="green",add=TRUE)
Compare os grácos.
Exercício
Considere uma variável aleatória X ∼ U[0, 1] e seja Z = max(1/3, min(2/3, X )).

Responda:
I Forneça a função de distribuição da variável aleatória Z desenhando
o seu gráco.
I Z é uma variável aleatória discreta? Porque?
I Z é uma variável aleatória contínua? Porque?
I Encontre uma contante α ∈ (0, 1) e duas funções de distribuição F1
e F2 , sendo F1 discreta e F2 contínua, tal que FZ = αF1 + (1 − α)F2 .
I Calcule a esperança de Z .
6 s
1
2/3 c
=
1/3 s
c -
0 1/3 2/3 1
6 6
1 1
2/3 s 2/3
+
1/3 s c 1/3
c - -
0 1/3 2/3 1 0 1/3 2/3 1
A variável Z do exercício anterior não é nem contínua nem discreta. Ela
é chamada de variável aleatória de tipo misto. No futuro daremos uma
caracterização mais apropriada das distribuições de tipo misto.
Para o cálculo do valor esperado de Z , basta ver que Z é limitada e que a

distribuição de Z é simétrica em torno de 0.5. Logo E [Z ] = 0.5.
De forma geral podemos calcular o valor esperado de uma variável de tipo
misto como uma média dos valores esperados de sua parte discreta e de
sua parte contínua.
Plotando densidades de misturas de normais no R
Vamos considerar mistura de uma N (0, 1) e uma N (2, 0.5). Primeiro con-
sidere que ambas as distribuições são escolhidas com igual probabilidade.
Digite
curve((0.5*dnorm(x))+(0.5*dnorm(x,2,sqrt(0.5))),xlim=c(-2,3),col="red")
curve((0.6*dnorm(x))+(0.4*dnorm(x,2,sqrt(0.5))),add=TRUE,col="blue")
curve((0.8*dnorm(x))+(0.2*dnorm(x,2,sqrt(0.5))),add=TRUE,col="green")
Distribuições Conjuntas:
Dadas duas variáveis aleatórias X e Y , podemos estar interessados em

probabilidades da forma
P(a < X ≤ b, c < Y ≤ d) .
O conjunto dessas probabilidades é a distribuição conjunta das variáveis

aleatórias X e Y . Esta distribuição conjunta é determinada pela função
de distribuição conjunta que é denida como
FX ,Y (x, y ) = P(X ≤ x, Y ≤ y ) .
Funções de distribuição conjuntas são objetos muito mais complicados do

que funções de distribuição de variáveis aleatórias (caso univariado). Mas
existem outras formas de caracterizar a distribuição conjunta.
Quando X e Y são variáveis aleatórias discretas com valores possíveis
j=1 . A distribuição conjunta de X e Y é
respectivamente {xi }Ni=1 e {yj }M
determinada pela função de probabilidade conjunta
pX ,Y (xi , yj ) = P(X = xi , Y = yj ) .
Observação: Analogamente, podemos denir a distribuição conjunta de

qualquer coleção nita de variáveis aleatórias.
Exemplo: Considere o lançamento consecutivos de dois dados. Seja X o
primeiro resultado e W a soma dos resultados. Representamos a função
de probabilidade conjunta na tabela abaixo:
X=1 X=2 X=3 X=4 X=5 X=6 Total

W=2 1/36 0 0 0 0 0 1/36
W=3 1/36 1/36 0 0 0 0 2/36
W=4 1/36 1/36 1/36 0 0 0 3/36
W=5 1/36 1/36 1/36 1/36 0 0 4/36
W=6 1/36 1/36 1/36 1/36 1/36 0 5/36
W=7 1/36 1/36 1/36 1/36 1/36 1/36 6/36
W=8 0 1/36 1/36 1/36 1/36 1/36 5/36
W=9 0 0 1/36 1/36 1/36 1/36 4/36
W=10 0 0 0 1/36 1/36 1/36 3/36
W=11 0 0 0 0 1/36 1/36 2/36
W=12 0 0 0 0 0 1/36 1/36
Total 1/6 1/6 1/6 1/6 1/6 1/6 1
Quando analisamos conjuntamente uma coleção de variáveis aleatórias X1 ,
... , Xn , as distribuições individuais das variáveis X1 , ... Xn , são chamadas
de distribuições marginais.
É fundamental ter em mente que as distribuições marginais não determi-
nam a distribuição conjunta. Vamos ver um exemplo. Qualquer que seja
α ∈ [0, 1], a tabela
Y=0 Y=1 Total
1−α
X=0 α
2 2 0.5
1−α
X=1 2
α
2 0.5
Total 0.5 0.5 1
representa a distribuição conjunta de duas variáveis aleatórias X e Y iden-
ticamente distribuídas como Bern(0.5). Portanto, existem innitas distri-
buições conjuntas cujas marginais são Bern(0.5).
Dizemos que X e Y são conjuntamente contínuas se existe uma função
(contínua por partes) f : R2 → [0, ∞) tal que
Z d Z b
P(a < X < b, c < Y < d) = f (x, y )dxdy .
c a
A função f é chamada de densidade conjunta de X e Y e será denotada

fX ,Y .
Observações:
I A densidade conjunta possui toda informação probabilística sobre o
par de variáveis aleatórias.
I Como no caso de uma variável, P(X = x, Y = y ) = 0 para todo
(x, y ) ∈ R2 .
I Se fX ,Y (x1 , y1 ) > fX ,Y (x2 , y2 ), então é mais provável (X , Y ) assumir
valores próximos de (x1 , y1 ) do que de (x2 , y2 ).
A denição acima se generaliza para uma coleção nita de variáveis alea-
tórias. Assim, X1 , X2 , ... , Xn , são variáveis aleatórias conjuntamente
contínuas se existe uma função fX ,...,Xn : Rn → [0, ∞) tal que
1
Z bn Z b1
P(a1 < X1 ≤ b1 , ..., an < Xn ≤ bn ) = ... f (x1 , ..., xn )dx1 ...dxn .
an a1
Para uma função f : Rn → R ser uma densidade, basta que ela só assuma
valores maiores ou iguais a zero e que
Z ∞ Z ∞
... f (x1 , ..., xn )dx1 ...dxn = 1 .
−∞ −∞
Exemplo: Seja
1 , 0 ≤ x ≤ 1, 0 ≤ y ≤ 1 ;

f (x, y ) =
A função f é uma densidade. Ou seja, existem X e Y tais que f = fX ,Y .

Então
1Z 1
1
1 1 1 1
Z 2
Z
P(0 ≤ X ≤ 1/2, 1/2 ≤ Y ≤ 1) = 1 dxdy = dy = × = .
1
2
0 1
2
2 2 2 4
Se X e Y tem distribuição conjunta contínua, então X e Y são variáveis
aleatórias contínuas e as densidades marginais são obtidas das integrais
Z ∞
fX (x) = fX ,Y (x, y )dy ,
−∞
e Z ∞
fY (y ) = fX ,Y (x, y )dx .
−∞
Exemplo: Duas variáveis aleatórias tem densidade conjunta
4e −2y , 0≤x ≤y;

f (x, y ) =
Vamos obter as densidades marginais de X e Y . Usamos as fórmulas do

último slide para obter
0, x < 0,
(
fX (x) = − y y =∞
2
4 x e −2y dy = −4 e 2 = 2e −2x , x ≥ 0.
R∞
y =x
e
0 R, x < 0 ,

fY (y ) =
4 0 e −2y dx = 4ye −2y .
y
Daí, vemos que X ∼ Exp(2) e Y ∼ Gama(2, 2).
Sejam X1 ,...,Xn , variáveis aleatórias e H : Rn → R, então H(X1 , ..., Xn )
também é uma variável aleatória. Exemplo: soma de variáveis aleatórias,
produto de variáveis aleatórias, X34 + X2 e X , etc. 1
Para o cálculo da esperança de H(X , Y ) considere os dois casos possíveis:
i=1 e {yj }j=1 ,

I Se X e Y são discretas com valores possíveis {xi }N M
então
N X
X M
E [H(X , Y )] = H(xi , yj ) pX ,Y (xi , yj ) .
i=1 j=1
I Se X e Y são conjuntamente contínuas

Z ∞Z ∞
E [H(X , Y )] = H(x, y ) fX ,Y (x, y ) dxdy .
−∞ −∞
Exemplo: Sejam X e Y conjuntamente contínuas com densidade
4e −2y , 0≤x ≤y;

f (x, y ) =
Vamos calcular E [XY ]. Temos

∞ y ∞
3 3
Z Z Z
−2y
E [XY ] = x y (4e ) dxdy = 2 y 3 e −2y dxdy = 2 × = .
0 0 0 8 4
A última integral acima é calculada por sucessivas aplicações de integração
por partes.
Um dos conceitos mais importantes em teoria das probabilidades é o de
independência. Já sabemos o signicado de eventos independentes e agora
denimos variáveis aleatórias independentes.
Denição: Duas variáveis aleatórias X e Y são independentes se para

todos a < b e c < d os eventos {a < X ≤ b} e {c < Y ≤ d} são
independentes, ou seja,
P(a < X ≤ b, c < Y ≤ d) = P(a < X ≤ b)P(c < Y ≤ d) .
X e Y independentes signica que a chance de ocorrência de eventos
relacionados a X não são inuenciadas por eventos relacionados a Y , e
vice-versa. Muitas vezes, em modelos probabilísticos, a interpretação do
fenômeno modelado é suciente para sabermos dizer se X e Y são inde-
pendentes ou não. Por exemplo, se X e Y são denidas em função de
resultados de sorteios distintos, então X e Y são independentes.
Exemplo: No lançamento de dois dados, seja X o resultado no primeiro
lançamento, Y o resultado no segundo lançamento e W a soma dos resul-
tados. Então X e Y são variáveis aleatórias independentes, mas X e W
não são independentes (note que se X e W fossem independentes, não po-
deria haver entradas nulas na tabela descrevendo a função de probabilidade
conjunta dessas variáveis).
Exemplo: Sejam X e Y discretas com função de probabilidade conjunta

dada pela tabela
Y=0 Y=1 Total
1−α
X=0 α
2 2 0.5
1−α
X=1 2
α
2 0.5
Total 0.5 0.5 1
Temos que X e Y são independentes, se e somente se, α = 0.5.
Exemplo: No caso em que X e Y tem densidade conjunta
4e −2y , 0≤x ≤y;

f (x, y ) =
temos que
P(X < Y ) = 1 .
A igualdade acima representa uma clara relação de dependência entre as
variáveis X e Y que não são independentes. Para vericar a ausência de
independência pela denição, veja que
Z ∞ Z 1
P(X > 1, Y < 1) = 0 6= 2e −2x dx 4ye −2y dy = P(X > 1) P(Y < 1) .
1 0
A denição de independência se generaliza para qualquer coleção nita de
variáveis aleatórias: X1 , ... , Xn são independentes se para todos aj < bj ,
j = 1, ..., n, os eventos {aj < Xj ≤ bj } são independentes, ou seja,
n
\ Yn
P {aj < Xj ≤ bj } = P(aj < Xj ≤ bj ) .
j=1 j=1
Observação: Um dos conceitos básicos da estatística é o de amostra. Em
inferência, uma amostra de tamanho n é uma coleção de variáveis aleatórias
independentes e identicamente distribuidas. A expressão "independentes e
identicamente distribuídas"é muito comum e geralmente aparece abreviada
pela sigla "iid".
Exemplo: Suponha que cada um dos resultados em n sorteios distintos

seja usado separadamente para gerar uma variável aleatória, então essas
variáveis são independentes. Por exemplo, em 10 sorteios da Megasena
dena Xj como a soma das dezenas sorteadas no j -ésimo sorteio.
Resultado: Seja X1 ,...,Xn uma colação de variáveis aleatórias discretas e
independentes. Então a função de probabilidade conjunta de X1 ,...,Xn se
fatora no produto das funções de probabilidade marginais.
Resultado: Seja X1 ,...,Xn uma coleção de variáveis aleatórias. As mar-
ginais são contínuas e independentes, se e somente se, X1 ,...,Xn são con-
juntamente contínuas e a densidade conjunta se fatora no produto das
densidades marginais, ou seja,
fX1 ,...,Xn (x1 , ..., xn ) = fX1 (x1 ) ... fXn (xn ) .
Resultado Sejam X e Y variáveis aleatórias independentes com valor es-
perado nito, então
E [XY ] = E [X ] E [Y ] .
Exemplo: Sejam X ∼ Exp(2) e Y ∼ Gama(2, 2) v.a's independentes,

então X e Y são conjuntamente contínuas com densidade conjunta
8 y e −2(x+y ) , x ≥ 0 e y ≥ 0 ;

fX ,Y (x, y ) = fX (x)fY (y ) =
Além disso,
1 2 1
E [XY ] = E [X ] E [Y ] = × = .
2 2 2
Exemplo: Sejam X ∼ Poisson(λ1 ) e Y ∼ Poisson(λ2 ) v.a's independen-
tes. Vamos vericar que X + Y ∼ Poisson(λ1 + λ2 ).
k
X k
X
P(X + Y = k) = P(X = j, X + Y = k) = P(X = j, Y = k − j)
j=0 j=0
k k
X X λj1 e −λ1 λ2k−j e −λ2
= P(X = j) P(Y = k − j) =
j! (k − j)!
j=0 j=0
k
−(λ1 +λ2 ) X
e k!
= λj λk−j
k! j!(k − j)! 1 2
j=0
k
(λ1 + λ2 )k e −(λ1 +λ2 ) X k! λ
1
j λ
2
k−j
=
k! j!(k − j)! λ1 + λ2 λ1 + λ2
j=0
k −(λ1 +λ2 )
(λ1 + λ2 ) e
= = P(Poisson(λ1 + λ2 ) = k) .
k!
Como no caso de distribuições univariadas, existem algumas classes im-
portantes de distribuições conjuntas que são úteis de serem conhecidas.
Vamos apresentar aqui apenas duas dessas classes. As distribuições mul-
tinomial e normal multivariada.
Distribuição Multinomial: Dizemos que X1 , ... ,Xk , possuem distribuição

conjunta multinomial de parâmetros n e (p1 , ..., pk ), onde (p1 , ..., pk ) é uma
função de probabilidade em {1, ..., k}, se
, se
Pk
n!
p1n1 ... pknk

P(X1 = n1 , ..., Xk = nk ) = n1 !...nk ! j=1 nj = n ,
Notação: X1 , ... ,Xk , tem distribuição Multinom(n, (p1 , ..., pk )).
Aplicação: Considere:
I n repetições independentes de um mesmo experimento;
I O experimento possui k resultados possíveis;
I A probabilidade do resultado do experimento ser do tipo j é pj .
I Seja Xj o número de resultados do tipo j nas n repetições.
Então X1 ,...,Xk tem distribuição conjunta Multinom(n, (p1 , ..., pk )).
Como consequência dessa interpretação, note que Xj ∼ Bin(n, pj ).
Exemplo: Uma pesquisa considera a idade do condutor como fator de
risco em acidentes automotivos. Condutores são divididos em três grandes
grupos: grupo 1 = condutores com menos de 30 anos, grupo 2 = condu-
tores entre 30 e 50 anos e grupo 3 = condutores com mais de 50 anos.
A pesquisa conclui que condutores do grupo 1 são responsáveis por 40%
dos acidentes, condutores do grupo 2 por 32% e condutores do grupo 3
por 28%. Suponha que as idades dos condutores responsabilizados por
acidentes diferentes possam ser consideradas independentes. Sejam X , Y
e Z o número de acidentes, com condutores respectivamente nos grupos
1, 2 e 3, entre 10 relatados a determinada seguradora no período de um
dia. Então (X , Y , Z ) ∼ Multinomial(10, (0.4, 0.32, 0.28)) e
P(X = max(X , Y , Z )) ≈ 0.5612
for (i in 0 : 10){for (j in 0 : i){for (k in 0 : i){ if (i + j + k == 10){p =

p + dmultinom(c(i, j, k), prob = c(0.40, 0.32, 0.28))}}}}
Distribuição Normal Bivariada: Dizemos que X e Y possuem distribui-
ção normal bivariada se são conjuntamente contínuas com densidade
h 2 2 i
1 x−µX y −µY x−µX
y −µY
1
− 2(1−ρ2) σX + σY −2ρ σX σY
fX ,Y (x, y ) = e ,
2πσX σY 1 − ρ2
p
(x, y ) ∈ R2 , onde µX , µY , σX , σY e ρ são parâmetros que satisfazem às

seguintes condições: µX , µY ∈ R, σX > 0, σY > 0 e −1 ≤ ρ ≤ 1.
Propriedades:
I X ∼ N (µX , σX2 ) e Y ∼ N (µY , σY2 ).
I ρ é a correlação entre X e Y (medida de correlação será denida na
sequência).
Aplicação: Em nanças, usualmente considera-se que o logarítmo dos pre-

ços de ativos nanceiros tem distribuição normal multivariada.
O tipo de dependência mais forte entre duas variáveis aleatórias X e Y
ocorre quando Y é uma função de X , ou seja, Y = H(X ) para alguma
função H .
Exemplo: Y = 2X + 5, Y = log(X ) ou Y = 3X 2 .
Na maioria das aplicações, não temos Y = H(X ), mas temos Y "proba-
bilisticamente próximo"de H(X ). O problema é como denir e medir a
proximidade entre Y e H(X ). Para isto, geralmente são usadas medidas
de dependência.
Aqui somente estudaremos a dependência linear entre variáveis aleatórias.
Nos perguntamos se existem números reais a e b tais que Y está "proba-
bilisticamente próxima"de aX + b. A medida que utilizaremos para fazer
esta comparação é a chamada correlação (linear) entre X e Y .
Sejam X e Y variáveis aleatórias com variâncias nitas. Denimos a co-
variância entre X e Y como
Cov (X , Y ) = E [(X − E (X ))(Y − E [Y ])] .
Note que Cov (X , X ) = Var (X ).
A covariância entre X e Y também pode ser calculada pela fórmula
Cov (X , Y ) = E [XY ] − E [X ]E [Y ] .
Sejam X e Y com variâncias nitas. Denimos a correlação (ou coeci-

ente de correlação) entre X e Y como
Cov (X , Y )
Corr (X , Y ) = .
DP(X ) DP(Y )
As principais propriedades da correlação são as seguintes:

I −1 ≤ Corr (X , Y ) ≤ 1 .
I Corr (X , Y ) = 1, se, e somente se, existe a > 0 e b ∈ R tais que
Y = aX + b .
I Corr (X , Y ) = −1, se, e somente se, existe a < 0 e b ∈ R tais que
Y = aX + b .
I Se X e Y são independentes, então Corr (X , Y ) = 0.
A correlação mede dependência linear. Se |Corr (X , Y )| = 1, então Y é
uma função linear de X . Quanto mais próximo de 1 (−1) for a correlação,
maior é a força da dependência linear positiva (negativa) entre X e Y .
Quanto mais próximo de 0 for a correlação, mais fraca é a dependência
linear entre X e Y .
Se a Corr (X , Y ) = 0 dizemos que X e Y são não correlacionadas. Variá-
veis aleatórias independentes são não correlacionadas, entretanto existem
variáveis aleatórias não correlacionadas que não são independentes.
Exemplo: Considere duas variáveis aleatórias discretas X e Y cuja função
de probabilidade conjunta é descrita na tabela abaixo
X=-1 X=0 X=1 Total
Y=-1 0 1/4 0 1/4
Y= 0 1/4 0 1/4 1/2
Y= 1 0 1/4 0 1/4
Total 1/4 1/2 1/4 1
Veja que E [X ] = E [Y ] = E [XY ] = 0, logo X e Y são não correlacionadas.
Entretanto X e Y não são independentes.
Exemplo: Considere X e Y com densidade
4e −2y , 0<x <y,

fX ,Y (x, y ) =
Calculamos E [XY ] = 3/4. Além disso, E [X ] = 1/2 e E [Y ] = 1. Logo,

3 1 1
Cov (X , Y ) = E [XY ] − E [X ]E [Y ] = − = .
4 2 4
Como
√ X ∼ Exp(2) e Y ∼ Gama(2, 2), então DP(X ) = 1/2 e DP(Y ) =
2/2. Obtemos
1 √
Cov (X , Y ) 4√ 2
Corr (X , Y ) = = = ≈ 0.707 .
DP(X ) DP(Y ) 1 2 2
2 2
Portanto, podemos dizer que há uma correlação linear razoavelmente forte

entre X e Y .
2.5
2.0
1.5
Y
1.0
0.5
3.0
0.0
0.0 0.5 1.0 1.5 2.0 2.5
2.0
Y
X
amostra de tamanho 100 de (X,Y) com densidade como no exemplo anterior
1.0
0.0
0.0 0.5 1.0 1.5 2.0 2.5
X
amostra de tamanho 100 de X~Exp(2) e Y~Gama(2,2) independentes
1.0
0.5
0.0
Y
−0.5
−1.0
−1.0 −0.5 0.0 0.5 1.0
X
amostra de tamanho 100 de (X,Y) não correlacionadas
Uma fórmula útil é a da variância da soma de variáveis aleatórias. Sejam
X1 ,...,Xn variáveis aleatórias, então
n
X Xn
Var (Xj ) + 2
X
Var Xj = Cov (Xi , Xj ) .
j=1 j=1 i<j
Assim, se as variáveis X1 ,...,Xn são não correlacionadas (ou independentes)

n
X n
X
Var Xj = Var (Xj ) .
j=1 j=1
Considere X e Y com distribuição normal bivariada de parâmetros µX , µY ,
σX , σY e ρ. Pode-se mostrar que ρ = Corr (X , Y ). Ou, equivalentemente,
que Cov (X , Y ) = σX σY ρ. A matriz
σX2

Var (X ) Cov (X , Y ) σX σY ρ
Σ= =
Cov (X , Y ) Var (Y ) σX σY ρ σY2
é a chamada matriz de covariâncias da normal bivariada. Junto com o

vetor de médias, a matriz de covariâncias parametriza a normal bivariada
que costuma ser denotada N ((µX , µY ), Σ).
Uma consequência da interpretação de ρ e da fórmula da normal bivariada
é a de que as marginais da normal bivariada são independentes, se, e
somente se, são não correlacionadas.
Exemplo: Estima-se que a cotação de dois ativos nanceiros X e Y em um
instante futuro tenha distribuição normal bivariada de parâmetros µX = 2,
µY = 3, σX2 = 0.09, σY2 = 0.16, e ρ = 0.6. Se a médias µX e µY são
os valores atuais das variáveis, calcule a probabilidade de ambos os ativos
terem um aumento superior a 10% e compare com a mesma probabilidade
caso os valores dos ativos fossem independentes.
A probabilidade que queremos é
P(X > 2.2 , Y > 3.3)
Podemos obter esta probabilidade usando o R.
pmvnorm(lower=c(2.2,3.3),upper=c(Inf,Inf),mean=c(2,3),sigma=
matrix(nrow=2,ncol=2,c(0.09,0.6*sqrt(0.09*0.16),0.6*sqrt(0.09*0.16),0.16)))
Pelo modelo teórico a chance de ambas terem um aumento superior a 10%

é de 12.65%.
No caso das cotações serem independentes, isto é , ρ = 0, teríamos
P(X > 2.2 , Y > 3.3) = P(X > 2.2) P(Y > 3.3) = 0.057
Distribuições condicionais
Probabilidades condicionais são usadas para modicar chances de ocorrên-

cias de eventos quando temos como certa a ocorrência de determinado
evento A. Sendo X uma variável aleatória e A tal que P(A) > 0, podemos
considerar as probabilidades condicionais
P({a < X ≤ b} ∩ A)
P(a < X ≤ b|A) = .
P(A)
Estas probabilidades formam a chamada distribuição condicional de X

dado A. Para enfatizar o condicionamento nos referimos a X como X |A.
A função de distribuição condicional de X dado A é denida como
P({X ≤ z} ∩ A)
FX (z|A) = P(X ≤ z|A) =
P(A)
Observação: Iremos condicionar apenas com respeito a eventos A da
forma {Y ∈ I }, onde Y é uma variável aleatória e I é um intervalo ou um
conjunto unitário. Neste caso, probabilidades como P(X ≤ z|c < Y ≤ d)
podem ser calculadas usando a distribuição conjunta de X e Y .
Se X for discreta com valores possíveis (xj )Nj=1 , então X |{Y ∈ I } é discreta
e a função de probabilidade condicional de X dado {Y ∈ I } é
P(X = xj , Y ∈ I )
pX (xj |Y ∈ I ) = P(X = xj |Y ∈ I ) = (5)
P(Y ∈ I )
para todo j = 1, ..., N . O valor esperado condicional de X dado {Y ∈

I } é o valor esperado de X |{Y ∈ I }, ou seja,
N
X
E [X |Y ∈ I ] = xj pX (xj |Y ∈ I ) ,
j=1
e a variância condicional de X dado {Y ∈ I } é a variância de X |{Y ∈ I },

ou seja,
N
(xj − E [X |Y ∈ I ])2 pX (xj |Y ∈ I ) .
X
Var (X |Y ∈ I ) =
j=1
Importante: Fixado o evento ao qual estamos condicionando, todas as
fórmulas para valor esperado e variância continuam válidas. Por exemplo:
E [X1 + X2 |Y ∈ I ] = E [X1 |Y ∈ I ] + E [X2 |Y ∈ I ]
e
Var (X |Y ∈ I ) = E [X 2 |Y ∈ I ] − E [X |Y ∈ I ]2 .
Exemplo: X e Y são duas variáveis aleatórias que representam índices
nanceiros. Sua distribuição conjunta é normal bivariada de parâmetros
µX = 2, µY = 3, σX2 = 1, σY2 = 1.5 e ρX ,Y = 0.5 Um investidor tem a
informação de que o valor de Y > 4, mas sua opção de investimento é
baseada no indicador X ser maior ou menor que 2.
(i) Calcule P(X ≥ 2|Y ≥ 4) e P(X ≥ 2). Seria razoável para o
investidor ignorar a informação sobre Y ?
(ii) Faça em um mesmo plot no R um gráco da função de distribuição
condicional de X dado {Y ≤ 4} e outro da distribuição de X .
Cálculo de P(X ≥ 2, Y ≥ 4) no R.:

pmvnorm(lower=c(2,4),upper=c(Inf,Inf),mean=c(2,3),
sigma=matrix(nrow=2,ncol=2,c(1,0.5*sqrt(1.5),0.5*sqrt(1.5),1.5)))
Se Y = X
0
(
P(X ∈ I ∩ {xj }) , xj ∈
/I,
pX (xj |X ∈ I ) = = P pX (xj ) , xj ∈ I .
P(X ∈ I ) k:x ∈I pX (xk )
k
Neste caso, P
k:xk ∈I xk pX (xk )
E [X |X ∈ I ] = P .
k:xk ∈I pX (xk )
Se Y 6= X , a diferença com o caso anterior é que o numerador em (5)

depende da distribuição conjunta de X e Y .
Exemplo: Seja X ∼ Geom(1/3), então
pX (k|X > 4) = 0
para 1 ≤ k ≤ 4, e
k−1
2 1
pX (k) 3 3
pX (k|X > 4) = P = j−1
j≥5 pX (j) 2 1
P
j≥5 3 3
k−5
2 1 2 k−5 1
3 3
= l−1 = ,
P 2 1 3 3
l≥1 3 3
para k > 4. Podemos resumir o resultado da seguinte forma (X − 4)|{X >

4} ∼ Geom(1/3) (Esta é a propriedade de perda de memória discreta da
distribuição geométrica).
Se X for contínua, então X |{Y ∈ I } é contínua e a densidade condicional
de X dado {Y ∈ I } é
d 1 d
fX (x|Y ∈ I ) = FX (x|A) = P(X ≤ x, Y ∈ I ) .
dx P(Y ∈ I ) dx
Se Y = X
1 d
fX (x|c < X < d) = P(X ≤ x, c < X < d)
P(c < X < d) dx
0
(
, x∈/ (c, d) ,
= Rd
fX (x)
, c <x ≤d.
f (u)du
c X
Neste caso, Rd
x fX (u)du
E [X |c < X < d] = Rc d .
c X
f (u)du
Exemplo: Seja X ∼ Exp(3), então
fX (x|X > 4) = 0
para x ≤ 4, e
fX (x) 3e −3x
fX (x|X > 4) = = −12 = 3e −3(x−4)
P(X > 4) e
para x > 4. Podemos resumir o resultado da seguinte forma (X − 4)|{X >

4} ∼ Exp(3) (Esta é a propriedade de perda de memória da distribuição
exponencial).
1 13
E [X |X > 4] = E [X − 4|X > 4] + 4 = +4= .
3 3
Importante: Em qualquer resultado sobre condicionamento temos que ter
em mente que o está do lado direito da barra de condionamento é uma in-
formação sobre o fenômeno modelado de um evento cuja ocorrência é dada
como certa. Assim, podemos pensar em condicionamento como um ltro
que re-estrutura o modelo probabilístico em função de uma informação
sobre o seu resultado.
Sejam X e Y variáveis aleatórias. Suponha que Y seja discreta com
valores possíveis (yk )M
k=1 . Agora, pensemos em um experimento aleatório
onde Y é uma quantidade que podemos observar enquando que X não
pode ser observado. Por exemplo, no mercado nanceiro Y pode ser
determinado indicador (taxa de juros, cotação de uma moeda estrangeira,
preço de um ativo) e X pode ser o valor de um derivativo a ser negociado
de forma privada (preços de contrados, seguros ou serviços nanceiros).
Neste sentido, nos interessamos pelo conjunto de distribuições condicionais
X |{Y = yk } (ou simplesmente X |Y = yk ), k = 1, ..., M . Este conjunto
de distribuições é denotado simplesmente X |Y (lê-se "X dado Y").
Notação: Se X for discreta pX (xj |Y = yk ) = pX |Y (xj |yk ). Se X for
contínua fX (xj |Y = yk ) = fX |Y (xj |yk ).
Consideremos o caso X e Y discretas. Neste caso, X |Y também é discreta
e a função de probabilidade condicional pode ser calculada como
pX ,Y (xj , yk ) P(X = xj , Y = yk )
pX |Y (xj |yk ) = = .
pY (yk ) P(Y = yk )
Esta relação também tem como consequência que
pX ,Y (x, y ) = pX |Y (x|y )pY (y ) .
Ou seja, a distribuição conjunta de X e Y é determinada pela condicional

X |Y e pela marginal de Y .
Vamos tratar abaixo de um exemplo bastante empregado em modelagem.
Exemplo: Sejam X ∼ Poisson(λ1 ) e Y ∼ Poisson(λ2 ) independentes e

seja N = X + Y . Vamos obter a distribuição condicional X |N . O cálculo
segue abaixo:
P(X = k, N = n)
pX |N (k|n) = P(X = k|N = n) =
P(N = n)
P(X = k, Y = n − k) P(X = k) P(Y = n − k)
= =
P(N = n) P(N = n)
λk1 e −λ1 λn−k
2 e −λ2
k! (n−k)!
= (λ1 +λ2 )n e −(λ1 +λ2 )
n!
n! λ k λ n−k
1 2
=
k!(n − k)! λ1 + λ2 λ1 + λ2
λ1
= P Bin n, =k .
λ1 + λ2
Dessa forma, abusando da notação, podemos escrever
λ1
X |N ∼ Bin N, .
λ1 + λ2
Isto não signica que existe uma distribuição binomial de parâmetro ale-
atório, signica
que
se N assume, por exemplo, o valor 5, então X |N =
5 ∼ Bin 5, λ +λ .
λ
1
1
2
Neste caso,
λ1 λ1 λ2
E [X |N] = N e Var [X |N] = N.
λ1 + λ2 λ1 + λ2 λ1 + λ2
Ambas E [X |N] e Var [X |N] são variáveis aleatórias.
Exemplo: Determinado seguro residencial cobre três tipos de riscos: tipo
1 = Roubo/Furto; tipo 2 = incêncio; tipo 3 = catástrofe natural (ris-
cos homogêneos e independentes). Estamos interessados no número de
reclamações de segurados durante um ano em determinada região.
Em um estudo, com apoio de especialistas e uso de uma base de dados
de anos anteriores, foi apontado que o número de reclamações dos tipos
1, 2 e 3 poderiam ser modeladas por variáveis aleatórias independentes,
X ∼ Poisson(10), Y ∼ Poisson(4) e Z ∼ Poisson(0.5).
1. Qual a distribuição do número total de reclamações recebidas em
um ano?
2. Dado que uma reclamação ocorre, forneça as probabilidades dela
estar associada aos riscos dos tipos 1, 2 ou 3.
3. Dado que 10 reclamações são feitas, calcule a probabilidade de mais
de 8 dessas reclamações serem do tipo 1.
Agora vamos considerar o caso X e Y conjuntamente contínuas. Neste
caso, X |Y também é contínua e a densidade condicional é calculada como
fX ,Y (x, y )
fX |Y (x|y ) = .
fY (y )
Esta relação também tem como consequência que
fX ,Y (x, y ) = fX |Y (x|y )fY (y ) .
Ou seja, a distribuição conjunta de X e Y é determinada pela condicional

X |Y e pela marginal de Y .
Importante: Temos que pensar em fX |Y (x|y ) como uma função de x ,

onde y é xo. Ou seja, para cada y valor possível de Y (fY (y ) > 0),
temos que fX |Y (x|y ), como função de x , é uma densidade.
O valor esperado condicional (esperança condicional) E [X |Y ] é uma função
de Y , logo é uma variável aleatória.
Propriedades:
1. E [cX |Y ] = cE [X |Y ].
2. E [X1 + X2 |Y ] = E [X1 |Y ] + E [X2 |Y ]
3. E [E [X |Y ]] = E [X ]
4. Se X e Y são independentes E [X |Y ] = E [X ].
Exemplo: Considere novamente o caso X e Y conjuntamente contínuas
com densidade
4e −2y , 0 ≤ x ≤ y ≤ ∞;

f (x, y ) =
Vamos calcular as densidades condicionais Y |X e X |Y . Primeiro, X |Y .

Fixamos x > 0 valor possível de X , então
0

fX ,Y (x, y ) , y < x;
fY |X (y |x) = = 4 e − 2y −2(y −x)
fX (x) 2 e − 2x = 2e , y ≥x.
Agora, Y |X . Fixamos y > 0 valor possível de Y , então
0 , x > y ou x < 0;
(
fX ,Y (x, y )
fX |Y (x|y ) = = 4e −2y 1
fY (y ) 4ye −2y = y , 0≤x ≤y.
Ou seja, X |Y ∼ U[0, Y ]. Em particular, E [X |Y ] = Y /2.
Seja X e Y variáveis aleatórias com distribuição normal bivariada. As
distribuições condicionais também são normais:
σ
(y − µY ), σX2 (1 − ρ2 )

X
X |Y = y ∼ N µX + ρ
σY
σ
(x − µX ), σY2 (1 − ρ2 )

Y
Y |X = x ∼ N µY + ρ
σX
Voltar ao exemplo do investidor teremos:

X |Y = y ∼ N 0.4082 y − 3.2247, 0.75)
Y |X = x ∼ N (0.6124 x − 4.2247, 1.125)
Regra de Bayes
Sejam X e Y variáveis aleatórias conjuntamente contínuas. Vimos que o

conhecimento das distribuições de X |Y e de Y implicam o conhecimento
da distribuição conjunta de X e Y . Em particular, também implicam o
conhecimento da distribuição condicional de Y |X . Temos que
fX ,Y (x, y ) fX |Y (x|y )fY (y )

fY |X (y |x) = = .
fX (x) fX (x)
Como nosso objetivo é obter fY |X como função de densidade na variável y ,

pensamos em x como um valor xo. Assim, fX (x) no denominador acima é
apenas uma constante de normalização. Portanto, fY |X (y |x), como função
de y é proporcional a fX |Y (x|y )fY (y ). Resumimos esta informação com a
notação:
fY |X (y |x) ∝ fX |Y (x|y )fY (y ) .
A regra de Bayes se aplica mesmo quando X ou Y são discretas, mas
mesmo nestes casos não temos densidades e sim funções de probabilidades.
Para X discreta e Y contínua temos
fY |X (y |x) ∝ pX |Y (x|y )fY (y ) .
Para X contínua e Y discreta temos
pY |X (y |x) ∝ fX |Y (x|y )pY (y ) .
Para X e Y discretas temos
pY |X (y |x) ∝ pX |Y (x|y )pY (y ) .
Exemplo: Suponha que o número de contratos de risco feitos em um banco
no período de 1 mês sejam independentes e identicamente distribuidos com
distribuição Poisson(Y ) quando o indicador nanceiro Y é conhecido. O
indicador Y é calculado como
Z1 + Z2 + Z3
onde Z1 , Z2 e Z3 são outros indicadores independentes com distribuições

respectivamente χ22 , χ22 , χ21 (χ2n ∼ Gama( n2 , 12 )).
(a) Use a noção de esperança condicional para calcular a esperança do
número total de contratos de risco feitos no banco em determinado
mês.
(b) Use a regra de Bayes para calcular a probabilidade de que o
indicador nanceiro Y seja inferior a 3 sabendo que no bancos foram
feitos 4 novos contratos.
Solução:
(a) Seja N o número de contratos de risco feitos no banco j. Note que

E [N] = E E [N|Y ] = E [E [Poisson(Y )]] = E [Y ] .
Temos
E [Y ] = E [Z1 ] + E [Z2 ] + E [Z3 ] = 2 + 2 + 1 = 5 .
Assim,
E [N] = 5 .
Solução:
(b) Primeiro usamos o fato de que soma de Gamas independentes de
parâmetros (α1 , β) e (α2 , β) é uma gama de parâmetros (α1 + α2 , β).
Logo Y ∼ Gama( 52 , 21 ) Pela regra de Bayes
5 1
r
y n e −y 3 y
fY |N (y |n) ∝ pN|Y (n|y ) fY (y ) = 5 y e−
2 2
n! 2 Γ( 2 )
3 3y
∝ y n+ 2 e − 2 ∝ fGama(n+ 12 , 32 ) (y )
Portanto Y |N = n é uma Gama(n + 52 , 32 ). Em particular Y |N = 4 é uma

Gama( 13 3
2 , 2 ) e a probabilidade P(Y ≤ 3|N = 4) pode ser calculada no R
como
pgamma(3, shape = 13/2, rate = 3/2) = 0.2271.
Exemplo: Costuma-se adotar uma distribuição N (10, Y −1 ) como distri-
buição da quantidade X de uma determinada substância no organismo
humano quando o nível Y ∼ Gama(2, 2) de um determinado hormônio é
conhecido. Qual é a distribuição condicional de Y se X = 8?
Solução: Primeiro obtemos Y |X = 8.
fY |X (y |8) ∝ fX |Y (8|y )fY (y )
1 (8−10)2
e 2y − 1 (22 ye −2y )
−
=
2πy −1
p
y 2 e −4y .
3
∝
A função acima é proporcional a densidade de uma Gama(5/2, 4). Portanto

Y |X = 8 ∼ Gama(5/2, 8).
Lei dos Grandes Números
Lei dos Grandes Números: Seja (Xj )∞

j=1 uma sequência de variáveis
aleatórias iid com valor esperado nito µ, então
n
1X
P lim Xj = µ = 1 .
n→∞ n
j=1
Observação: Seja (Xj )∞

j=1 é uma sequência de v.a.'s iid e uma função
H : R → R. Então H(X1 ), H(X2 ), H(X3 ), ... são v.a.'s iid e se E [H(X1 )]
está bem denida
n
1X
P lim H(Xj ) = E [H(X1 )] = 1 .
n→∞ n
j=1
Aplicação: Em inferência estatística, dizemos que uma função de uma
amotra X1 ,...,Xn , é estatística da amostra. Algumas estatísticas são
usadas para estimar parâmetros de interesse da amostra, neste caso, a
estatística usada é chamada de estimador do parâmetro. Por exemplo,
n
1X
X̄ = Xj
n
j=1
é usualmente usado como estimador da média (valor esperado) das variá-

veis na amostra, assim como
n
1X
S2 = (Xj − X̄ )2
n
j=1
é usado como estimador da variância. Quando um estimador converge

para o parâmetro estimado ao fazermos o tamanho da amostra tender a
innito, dizemos que este parâmetro é consistente. Pela Lei dos Grandes
números X̄ é um estimador consistente da média e S 2 é um estimador
consistente da variância.
A Lei dos Grandes Números arma que a média amostral X̄ está próxima
da média µ com probabilidade próxima de um se o tamanho da amostra é
sucientemente grande. Note que
n
h1 X i 1X n
E [X̄ ] = E Xj = E [Xj ] = µ ,
n n
j=1 j=1
uma forma de medir a concentração em torno de µ é através da variância.

Seja σ 2 a variância comum das Xj 's. Como as variáveis X1 , ..., Xn são
independentes, a variância da soma é a soma das variâncias. Então
nσ 2 σ2
n
1 X n
1 X
Var Xj = 2 Var (Xj ) = 2 = .
n n n n
j=1 j=1
Ou seja, a variância de X̄ converge para zero com o tamanho da amostra.
Já zemos algumas vezes pequenos testes no R de que a média amostral
de fato converge. Vamos repetir estes testes em alguns casos. Procure
prever o resultado antes de executar o comando no R. Por exemplo, execute
algumas vezes os comandos abaixo
sum(rexp(1000,0.5))/1000
sum(rexp(100000,0.5))/100000
sum((rexp(1000,0.5)-2)∧ 2)/1000
sum((rexp(100000,0.5)-2)∧ 2)/100000
Agora, vamos gerar 200 valores para a média amostral e fazer o histograma.
Execute os comandos em ordem
par(mfrow=c(1,2))
mediaamostral = sum(rexp(1000,0.5))/1000
for(j in 1:199){ mediaamostral =

cbind(mediaamostral,sum(rexp(1000,0.5))/1000) }
hist(mediaamostral,breaks=31,freq=FALSE)
curve(dnorm(x,mean=2,sd=2/sqrt(1000)),add=TRUE,col="blue")
mediaamostral = sum(rexp(500000,0.5))/500000
for(j in 1:199){ mediaamostral =

cbind(mediaamostral,sum(rexp(500000,0.5))/500000) }
hist(mediaamostral,breaks=51,xlim=c(1.95,2.05))
Teorema Central do Limite
No exercício anterior no R, observa-se que os histogramas de X̄ come-

çam a se aproximar de histogramas de distribuições normais de média µ e
variância σ 2 /n. Se fazemos uma renormalização de X̄ obtemos que
Pn
X̄ − µ j=1 Xj − µ n
√ = √
σ/ n σ n
deve ter distribuição aproximadamente normal. Este resultado formalmente

estabelecido é o chamado Teorema Central do Limite.
Teorema Central do Limite Seja (Xj )∞
j=1 uma sequência de variáveis
aleatórias iid com valor esperado µ e variância σ 2 bem-denidos, então
para todos a < b em R temos que
Pn

j=1 Xj − µ n
lim P a ≤ √ ≤b =P a≤Z ≤b ,
n→∞ σ n
onde Z ∼ N (0, 1).
Exemplo: Um estudo aponta que o desperdício mesal de água em m2 por
residência de determinado bairro tenha média de 4.5 e variância 10. For-
neça um valor aproximado para a probabilidade de que em um condomínio
de um conjunto residencial com 200 apartamentos o desperdício chegue
a um valor acima de 800m3 em determinado mês. Neste caso, a ideia é
pensar nos apartamentos enumerados, denindo Xj como o consumo do
apartamento j . É razoável supor que X1 , ... , X200 são variáveis aleató-
rias iid com média µP= 4.5 e variância σ 2 = 10. Assim queremos uma
aproximação para P( 200j=1 Xj ≥ 800). Usamos o TCL
200
800 − 4.5 × 200
Xj ≥ 800) ≈ P Z ≥ √
X
P(
j=1
10 × 200
= P Z ≥ −2.236 = 0.987 .

Ou seja, em cada mês há aproximadamente 98.7% de chance do desperdício

no condomínio superar os 800m3 .
Aplicação: (Modelos de Reclamações de prejuízos agregadas) Supo-
nha que sejam feitos um número N (aleatório) de reclamações de prejuízos.
Seja Xj o valor do prejuízo reclamado pelo j-ésimo segurado, então o valor
total de prejuízos reclamados é
N
X
S= Xj .
j=1
Assumindo que X1 , X2 , ... são iid e também independentes de N , temos o

chamado modelo de reclamações de prejuízos agregadas. A distribuição de
N é "frequência de reclamações"e a distribuição comum de X1 , X2 ,... é a
"severidade das reclamações". Nosso interesse se encontra na distribuição
de S .
Exemplo: Suponha que o número de reclamações de prejuízos tenha uma
distribuição Poisson de parâmetro 100 e que cada reclamação individual
tenha como valor uma uniforme no intervalo (0,1000) reais.
1. Calcule o valor esperado do total de prejuízos reclamados.
2. Suponha que exatamente 100 reclamações foram feitas e forneça um
valor aproximado para a probabilidade do total de prejuízos
reclamados seja superior a R$70.000, 00.
Aproximação da binomial pela Normal: A binomial de parâmetros n e
p pode ser considerada como a soma de n variáveis aleatórias iid Bern(p).
Sendo assim, pelo Teorema Central do Limite se X ∼ Bin(n, p), então
para n sucientemente grande
X − np
np(1 − p)
p
tem distribuição aproximadamente normal padrão. Ou seja,

k − np k̃ − np
P k ≤ X ≤ k̃ ≈ P p ≤Z ≤ p .
np(1 − p) np(1 − p)
Observação: Geralmente se aplica a correção de meio ponto, isto é

P k ≤ X ≤ k̃ = P k − 0.5 ≤ X ≤ k̃ + 0.5
(k − 0.5) − np (k̃ + 0.5) − np
≈ P ≤Z ≤ p .
np(1 − p) np(1 − p)
p
Exercício:
Uma revista estabelece a seguinte promoção: Para cada exemplar vendido

o comprador tem direito de optar por adquirir um determinado DVD por
um desconto adicional no seu preço. Por experiências passadas a empresa
que comercializa a revista estima que a probabilidade de um exemplar da
revista ser vendido junto com o DVD é de 0.2. Responda:
(a) São fabricados 10000 exemplares da revista e 2040 DVDs
promocionais. Suponha que todos os exemplares sejam vendidos e
forneça um valor aproximado para a probabilidade dos DVDs
promocionais serem insucientes para todos os compradores que
desejam aproveitar a promoção?
(b) Quantos DVDs devem acompanhar os 10000 exemplares para que a
chance do número de DVDs ser insuciente seja de 2%?
Processos Estocásticos
Um Processo Estocástico é simplesmente uma coleção de variáveis ale-

atórias (Xα )α∈I , onde I é um conjunto de índices.
Os conjuntos de índices mais comuns são Z+ = {0, 1, 2, ...} ou o intervalo

[0, ∞). No caso I = Z+ = {0, 1, 2, ...}, (Xj )∞
j=1 , que é simplemente
uma sequência de variáveis aleatórias, é dito um Processo Estocástico
a tempo discreto. No caso I = [0, ∞), (Xt )t≥0 é dito um Processo
Estocástico a tempo contínuo.
Outras escolhas comuns para I são subconjuntos de R2 ou R3 . Nestes

casos, temos os Processos Estocásticos Espaciais usados por exemplo
na modelagem de fenômenos geológicos ou ambientais.
Realizações de um processo estocástico são chamadas de Séries Tempo-
rais. O termo é comum em inferência estatística.
Aqui estudaremos alguns dos principais tipos de processos estocásticos.
Processo de Poisson
Denição: Um processo estocástico a tempo contínuo (N(t))t≥0 é um

Processo de Poisson de parâmetro (ou taxa) λ > 0 se
1. N(0) = 0.
2. Para todo s < t
N(t) − N(s) ∼ Poisson(λ(t − s)) .
3. Para todo n e 0 < t1 < t2 < ... < tn
N(t1 ) , N(t2 ) − N(t1 ) , ... , N(tn ) − N(tn−1 ) ,
são variáveis aleatórias independentes.
Aplicação: Em modelos probabilísticos atuariais, geralmente o número
de reclamações de prejuízos por unidade de tempo é modelado por um
Processo de Poisson.
Seja (N(t))t≥0 um Processo de Poisson de taxa λ > 0. Podemos pensar

que N(t) representa o número de ocorrências de determinado evento no
intervalo de tempo [0, t].
Seja Tn o tempo decorrido entre a (n-1)-ésima e a n-ésima ocorrência
do evento. A seguinte propriedade pode ser vericada: T1 , T2 , ... são
variáveis aleatórias iid com distribuição exponencial de parâmetro λ > 0
(ou seja, média 1/λ).
O tempo de espera até a ocorrência do n-ésimo evento é a soma
Sn = T1 + T2 + ... + Tn .
Temos que Sn ∼ Gama(n, λ).
Exemplo: Suponha que pessoas imigram para determinado território con-
forme um Processo de Poisson de taxa λ = 2 por dia.
1. Qual é o tempo esperado até a chegada do centésimo imigrante?
Resposta: Neste caso, o tempo é uma Gama(100, 2) e portanto sua média
100
é 2 = 50 dias.
2. Qual é a probabilidade de que o tempo decorrido entre a chegada do
centésimo imigrante e do próximo exceda 2 dias?
Resposta: Neste caso, o tempo é uma exponencial de parâmetro 2, diga-
mos T ∼ Exp(2). Queremos
P(T > 2) = 1 − FT (2) = 1 − e −2·2 = 1 − e −4 = 0.9817 .
3. Qual é a probabilidade de que cheguem mais de 600 imigrantes no
período de um ano? Você pode aproximar esta probabilidade usando uma
distribuição normal (assuma que o ano tem 365 dias).
Resposta: O tempo até a chegada de 800 imigrantes é uma Gama(800, 2),
vamos representar esse tempo por S . Queremos P(S ≤ 365). Podemos
usar o Teorema Central do Limite para estimar essa probabilidade. De
fato, se Tj é o tempo entre a chegada do (j-1)-ésimo e j-ésimo imigrante,
temos
800
X
S= Tj .
j=1
Temos Tj ∼ Exp(2) que tem média µ = 0.5 e variância σ 2 = 0.25. Então

P800 Tj − 800 × µ 365 − 400
j=1
P(S ≤ 365) = P √ ≤√
σ 800 0.25 × 800
≈ P(N (0, 1) ≤ −2.47) = 0.0068 .
(Este é um exemplo de uso desnecessário da aproximação. O valor
exato da probabilidade é aprox. 0.0056)
Considere dois Processos de Poisson independentes (N1 (t))t≥0 e (N2 (t))t≥0
de taxas respectivamente λ1 e λ2 . Então o processo (N(t))t≥0 denido
pela soma
N(t) = N1 (t) + N2 (t) ,
é um Processo de Poisson de parâmetro λ1 + λ2 .
Por outro lado, dado um Processo de Poisson (N(t))t≥0 que conta nú-
mero de ocorrências de eventos que podem ser de dois tipos: tipo 1 com
probabilidade p e tipo 2 com probabilidade 1 − p . Cada ocorrência é do
tipo 1 ou 2 independentemente das demais. Se N1 (t) e N2 (t) denotam
respectivamente o número de ocorrências dos tipos 1 e 2 no intervalo [0, t]
então
N(t) = N1 (t) + N2 (t) ,
e (N1 (t))t≥0 e (N2 (t))t≥0 são Processos de Poisson independentes de taxas
respectivamente pλ e (1 − p)λ.
Os resultados acima se extendem para soma de um número nito de Pro-
cessos de Poisson independentes, ou ainda, para um número nito qualquer
de tipos de ocorrências.
Exercício
Considere uma companhia de seguros que oferece dois tipos de apólices,

digamos apólices A e B . A companhia recebe reclamações de prejuízo de
acordo com um Processo de poisson de taxa 8 por dia. Suponha que uma
reclamação de prejuízo tenha 1/3 de probabilidade de ser referente a uma
apólice do tipo A.
1. Calcule a probabilidade de que o número de reclamações referentes a
apólices B seja inferior a 50 em determinada semana.
2. Calcule a probabilidade de que o total de reclamações seja inferior a
50 em determinada semana.
3. Qual é o tempo médio entre o recebimento de reclamações distintas
referentes a apólices do tipo A?
4. Se em dois dias 20 reclamações são recebidas, qual é a probabilidade
de pelo menos 6 serem do tipo A?
Movimento Browniano
Denição: Um processo estocástico a tempo contínuo (X (t))t≥0 é um

Movimento Browniano de variância σ 2 > 0 começando em x0 se
1. X (0) = x0 .
2. Para todo s < t
X (t) − X (s) ∼ N (0, σ 2 (t − s)) .
3. Para todo n e 0 < t1 < t2 < ... < tn
X (t1 ) , X (t2 ) − X (t1 ) , ... , X (tn ) − X (tn−1 ) ,
são variáveis aleatórias independentes.

Um Movimento Browniano de variância um começando em x = 0 é cha-
mado de Movimento Browniano Padrão.
Abaixo apresentamos algumas realizações obtidas por simulações do Mo-
vimento Browniano padrão:
0.5
0.4
0.0
posição
posição
0.0
−1.0 −0.5
−0.6
0.0 0.4 0.8 0.0 0.4 0.8
tempo tempo
0.6
0.5
0.2
posição
posição
0.0
−0.2
−0.5
−0.6
0.0 0.4 0.8 0.0 0.4 0.8
tempo tempo
Aplicação: O Movimento Browniano é vastamente usado em modelagem
probabilística. Aqui destacamos que a Teoria Moderna de Finanças tem
sua base estruturada em modelos onde preços de ativos ou índices nan-
ceiros (como preços de ações e taxas de juros) evoluem segundo funções
do Movimento Browniano. Um exemplo é o Movimento Browniano Geo-
métrico, isto é
X (t) = e σ B(t) + µ t+x , t ≥ 0 , 0
onde (B(t))t≥0 é um Movimento Browniano Padrão. O Processo (X (t))t≥0

é chamado de Movimento Browniano Geométrico de tendência µ e variân-
cia (ou volatilidade) σ .
Seja X (t)t≥0 um Movimento Browniano Geométrico com tendência µ = 3
e variância σ = 9. Se X (0) = 10, encontre
1. E [X (2)];
2. Var (X (2));
3. P(X (0.5) > 10);
4. Cov (X (0.5), X (2).
Tanto o Processo de Poisson quanto o Movimento Browniano são processos
com a seguinte propriedade:
P Xt+s = x Xu = xu , 0 ≤ u ≤ t = P Xt+s = x Xt = xt

para todo x e xu , 0 ≤ u ≤ t . Esta propriedade é consequência da propri-

edade de incrementos independentes e pode ser resumida dizendo que "o
futuro condicionado ao presente é independente do passado". Isto é o que
chamamos de Propriedade de Markov. Assim, o Processo de Poisson e
o Movimento Browniano são Processos de Markov à tempo contínuo.
Os tipos mais simples de Processos de Markov são Processos à tempo dis-

creto. Estes são as Cadeias de Markov à tempo discreto que apresentamos
na sequência.
Cadeias de Markov:
Uma Cadeia de Markov (C.M.) a tempo discreto com espaço de estados

nito é um Processo Estocástico (X (n))∞ n=1 , com um mesmo conjunto de
valores possíveis S ⊂ R, que satisfaz a Propriedade de Markov. O conjunto
S é chamado de espaço de estados da Cadeia de Markov.
Toda C.M. pode ser descrita a partir de uma regra de transição probabilís-
tica que permite obter a distribuição de X (n+1) conhecido o valor de X (n).
Ou seja, temos uma C.M. bem denida se conhecemos as probabilidades
de transição
pX (n+1)|X (n) (y |x) = P(X (n + 1) = y |X (n) = x) .
Em geral, supomos homogeneidade temporal, isto é,

pX (n+1)|X (n) (y |x) = pX (1)|X (0) (y |x) = p(x, y ) .
A coleção (p(x, y ))x,y ∈S é chamada de função de probabilidades de

transição.
Suponhamos que S seja nito ou enumerável.
A sequência (Xn )n≥1 é gerada da seguinte forma. Sorteamos um valor
inicial x0 para X0 (ou seja X0 pode ser aleatório). Operamos a transição
X (0) = x0 7→ X (1) = x1 ,
com probabilidade p(x0 , x1 ). Com x1 já conhecido, operamos a transição
X (1) = x1 7→ X (2) = x2 ,
com probabilidade p(x1 , x2 ). Continuamos recursivamente este procedi-

mento, de forma que, com xn−1 já conhecido, operamos a transição
X (n − 1) = xn−1 7→ X (n) = xn ,
com probabilidade p(xn−1 , xn ).
Seguindo o procedimento acima e como as transições são independentes
(pela propriedade de Markov) obtemos a função de probabilidade do vetor
(X (1), ..., X (n))
P(X (1) = x1 , X (2) = x2 , ..., X (n) = xn |X (0) = x0 ) =

= p(x0 , x1 ) · p(x1 , x2 ) · ... · p(xn−1 , xn ) .
Se x0 é escolhido com probabilidade p(x0 ), então
P(X (0) = x0 , X (1) = x1 , X (2) = x2 , ..., X (n) = xn ) =

= p(x0 ) p(x0 , x1 ) · p(x1 , x2 ) · ... · p(xn−1 , xn ) .
Exemplo: Uma central de distribuição de chamadas telefônicas consegue
manter até duas chamadas em espera. Suponha que a central é atualizada
após intervalos de tempo de mesmo tamanho. Durante estes intervalos
uma única chamada em espera pode ser atendida com probabilidade q > 0
ou uma única nova chamada pode chegar na central com probabilidade p >
0, esses eventos são independentes. Assim teremos uma C.M. (X (n))n≥0
com espaço de estados {0, 1, 2} tal que X (n) indica o número de chamadas
em espera no servidor após n intervalos de tempo.
A C.M. (X (n))n≥0 possui a seguinte função de probabilidades de transição.
p(0, 0) = P(nenhuma chamada chega) = 1 − p
p(0, 1) = P(chega nova chamada) = p

p(1, 0) = P(nenhuma chamada chega) × P(uma chamada é atendida) = (1 − p)q
p(1, 2) = P(chega nova chamada) × P(nenhuma chamada é atendida) = p(1 − q)
p(1, 1) = 1 − p(1, 0) − p(1, 2) = 1 − (1 − p)q − p(1 − q) = 1 − p − q + 2pq
p(2, 1) = P(uma chamada é atendida) = q
p(2, 2) = P(nenhuma chamada é atendida) = 1 − q
p(0, 2) = p(2, 0) = 0
Como exemplo pegue p = 0.5 e q = 0.4. Então
p(0, 0) = 0.5 , p(0, 1) = 0.5 , p(0, 2) = 0 ,
p(1, 0) = 0.5 × 0.4 = 0.2 ,

p(1, 1) = 1 − 0.5 − 0.6 + 2 × 0.5 × 0.6 = 0.5 ,
p(1, 2) = 0.5 × 0.6 = 0.3 ,
p(2, 0) = 0 , p(2, 1) = 0.4 , p(2, 2) = 0.6 ,
É comum colocar estas informações em uma matriz chamada matriz de
transição
0.5 0.5 0
 
P =  0.2 0.5 0.3  .

0 0.4 0.6
Agora podemos calcular probabilidades relacionadas a C.M. (X (n))n≥0 .
Por exemplo, qual é a probabilidade da central estar com duas chamadas
em espera no tempo n=3 dado que não haviam chamadas em espera em
n=0. Este evento pode ser descrito como
E = {X0 = 0, X1 = 1, X2 = 2, X3 = 2}∪{X0 = 0, X1 = 0, X2 = 1, X3 = 2} .
Como a união é disjunta
P(E ) = P(X1 = 1, X2 = 2, X3 = 2|X0 = 0) +

P(X1 = 0, X2 = 1, X3 = 2|X0 = 0)
= p(0, 1)p(1, 2)p(2, 2) + p(0, 0)p(0, 1)p(1, 2)
= 0.5 × 0.3 × 0.6 + 0.5 × 0.5 × 0.3 = 0.09 + 0.075 = 0.165 .
Se existe uma escolha π(x) = P(X0 = x) tal que
X
P(X1 = y ) = π(x)p(x, y ) = π(y ) = P(X0 = y )
x
dizemos que π é uma distribuição invariante para a C.M.

Se π é invariante então P(Xn = x) para todo n ≥ 0, ou seja, as variáveis
aleatórias Xn são identicamente distribuídas.
No contexto de espaço de estados nito π é um vetor de probabilidade que
satisfaz
πP = π
onde P é a matriz de transição.
Exemplo: Consideremos o exemplo anterior da central de chamadas com
p = 0.5 e q = 0.4. Neste caso,
0.5 0.5 0
 
(π(0), π(1), π(2))  0.2 0.5 0.3  = (π(0), π(1), π(2)) ,

0 0.4 0.6
com π(0) + π(1) + π(2) = 1. Resolvemos o sistema para obter

8 20 15
(π(0), π(1), π(2)) = , , .
43 43 43
Uma questão central na teoria das C.M é a questão de convergência para
distribuição invariante. Aqui só iremos enunciar o resultado de convergên-
cia em um caso particular.
Dizemos que uma C.M. é irredutível se para todo par de estados x e y
é possível começar no estado x e visitar o estado y com probabilidade
positiva. Ou seja,
P(X (n) = y para algum y |X (0) = x) > 0 .
Dizemos que uma C.M. é periódica de período d ≥ 2 se existem conjuntos
disjuntos A1 , A2 , ... ,Ad tais que, para todo n ≥ 0
X (0) ∈ A0 7→ X (n+1) ∈ A1 7→ ... 7→ X (n+d−1) ∈ Ad 7→ X (n+d) ∈ A0 .
Caso contrário, dizemos que a C.M. é aperiódica (seria o caso de período

d=1). Se existe x ∈ S tal que p(x, x) > 0, então a C.M. é aperiódica.
Resultado: Se (X (n))n≥0 é uma C.M irredutível e aperiódica com número

nito de estados, então a distribuição inicial invariante π existe e é única.
Além disso, quaisquer que sejam x e y
lim P(Xn = y |X0 = x) = π(y ) .

n→∞
Exemplo: Voltamos novamente ao exemplo da central de chamadas. Pela
denição a cadeia é claramente irredutível pois é possível deixar um es-
tado e chegar em qualquer outro. Como p(0, 0) > 0 a cadeia também é
irredutível. Portanto a cadeia converge para sua distribuição invariante.
8 20 15
(π(0), π(1), π(2)) = , , .
43 43 43
Ou seja, para n sucientemente grande a chance da central estar total-
mente ocupada com duas chamadas em espera é de aproximadamente
34.9%.
Problema da Ruína do Jogador
Considere um jogo que é jogado em rodadas consecutivas por dois jo-

gadores: jogador A e jogador B. Cada rodada só possui dois resultados
possíveis: vitória do jogador A ou vitória do jogador B. A cada rodada
ambos os jogadores apostam um real e o ganhador da rodada ca com as
apostas. Os jogadores permanecem jogando até que um deles que sem
dinheiro para apostar.
Fixamos p ∈ (0, 1) e supomos que a probabilidade do jogador A ganhar
uma rodada é p e que os resultados de diferentes rodadas são independen-
tes.
Problema da ruína do Jogador: Se o jogador A tem inicialmente K reais
e o jogador B tem L reais, qual é a probabilidade do jogador A ir a falência,
ou seja, perder todo o seu dinheiro?
Para responder a pergunta, vamos denir Xn como a "riqueza"(dinheiro)
do jogador A após n rodadas. Dena ainda N = K + L que é a riqueza
total disputada.
A sequência {Xn }n≥0 é uma cadeia de Markov com espaço de estados
{0, 1, 2, ..., N − 1, N} com X0 = K . Sua função de probabilidades de
transição é fácil de ser obtida. De fato, quando a cadeia chega no 0
ou no N ela não troca mais de valor. Além disso, se a cadeia esta em
x ∈ {1, 2, ..., N − 1} então ela troca de valor para x + 1 com probabilidade
p (jogador A ganha a rodada) e para x − 1 com probabilidade 1 −p (jogador
A perde). Assim
p(0, 0) = p(N, N) = 1
p(x, x + 1) = p , p(x, x − 1) = 1 − p , 1 ≤ x ≤ N − 1 .
Com a notação acima a probabilidade de interesse pode ser escrita como
= P Xn = 0 para algum n ≥ 1X0 = K

P(N, K )
= 1 − P Xn = N para algum n ≥ 1X0 = K .

Usando a propriedade de Markov, podemos escrever relações entre as pro-

babilidades acima para diferentes valores de K que nos levam ao seguinte
resultado: Para N ≥ 1 e 0 ≤ K ≤ N
 N−K 1
 K N N , p= 2
1−p 1−p
P(N, K ) = p − 1
 pN , p 6= 2 .
1− 1−p
p
Vamos interpretar as probabilidades calculadas acima.
Primeiro considere o caso p = 1/2. Neste caso, P(N, K ) é proporcional a

L = N − K , ou seja, a riqueza do jogador B. Enquanto que 1 − P(N, K ) =
K /N , probabilidade de B ir a falência, é proporcional a K . Isto seria
esperado, pois neste caso ambos os jogadores possuem o mesma habilidade
no jogo e de fato somente a riqueza inicial de cada um poderia inuenciar
em chances de ocorrência sobre o resultado nal do jogo.
Agora suponha p > 1/2, ou seja, o jogador A é mais habilidoso que o
jogador B . Neste caso, 1−p
p < 1. Considere N divergindo a innito, ou
seja, suponha que o jogador B tem uma riqueza cada fez maior tendendo
a innito (B poderia ser uma banca de apostas). Neste cenário, teremos
como probabilidade limite
1 − p K
P(K ) = lim P(N, K ) = .
N→∞ p
Isto signica que jogador A teria uma probabilidade positiva de nunca ir a

falência e neste caso podemos mostrar que sua riqueza também vai para
innito.
Como último caso suponha p < 1/2, ou seja, o jogador A é menos habili-
doso que o jogador B . Neste caso, 1−p
p > 1. Aqui temos
P(K ) = lim P(N, K ) = 1.

N→∞
Isto signica que jogador A vai necessariamente a falência se a riqueza de

B é innita.

Probabilidade e Processos Estocásticos na Pós-Graduação em Atuária

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Probabilidade e Processos Estocásticos na Pós-Graduação em Atuária

Enviado por

Direitos autorais:

Formatos disponíveis

Pós-Graduação em Atuária

Probabilidade e Processos Estocásticos

Professor Glauco Valle

Universidade Federal do Rio de Janeiro

M. DeGroot, M. Schervish: Probability and Statistics, 4o edição, Pearson,

Mercado Financeiro: Qual é a chance da cotação do dólar ter um au-

Sondagem de opinião: Na boca de urna do segundo turno de uma eleição

Experimentos ou fenômeno aleatório: sorteio de um resultado da loteria,

O conjunto de resuldados possíveis de determinado experimento ou fenô-

n! = n fatorial = número de formas de ordenar n objetos diferentes

I Obtenção de Cara no lançamento de uma moeda: A = {Ca}.

I As dezenas 20 e 31 fazem parte dos números sorteados na

Se Ω é nito e todo evento unitário possui a mesma chance de ocorrência,

Eventos unitários são eventos com um único elemento.

I No lançamento de uma dado: P({1}) = 16 ,

Então P é uma probabilidade. De fato,

0 = P(∅) ≤ P(A) = comprimento de A ≤ P([0, 1]) = 1

(2) Se A ⊂ B , então P(A) ≤ P(B).

No item (a) queremos P(A ∪ B).

No item (b) queremos P(A ∩ B)

No item (c) queremos P(Ac ∩ B)

−... + (−1)k−1 P(A1 ∩ ... ∩ Ak )

(5) Sejam (Aj )Nj=1 , N ∈ {2, 3, 4, ...} ou ∞, eventos aleatórios. Então

Um curiosidade é que a probabilidade de nenhum participante tirar o pró-

(7) Sejam (Aj )Nj=1 eventos. Se P(Aj ) = 1 para todo j , então

Denição: Sejam A e B eventos aleatórios de (Ω, P). A probabilidade

No exemplo dos dados

P(A ∩ B) = P(A|B)P(B) = P(B|A)P(A) .

Exemplo: Para avaliar o risco associado a certo tipo de atividade indus-

Decomposição em Probabilidade Total: Seja {Cj }Nj=1 , N ∈ {2, 3, ...}

Fórmula de Bayes: Seja {Cj }Nj=1 , N ∈ {2, 3, ...} ou N = ∞, uma partição

G1 = {segurado pertence ao grupo 1} ,

G2 = {segurado pertence ao grupo 2} ,

onde P(A) = 0.01 é fornecido pelo estudo da agência de pesquisa. Então

Denição: Dois eventos aleatórios A e B de (Ω, P) são independentes

Se A e B são independentes, então Ac e B , A e B c , Ac e B c são pares de

Denição Um coleção de eventos aleatórios {Aj }Nj=1 , N ∈ {2, 3, ...} ou

P(A ∪ B) = P(A) + P(B) − P(A) P(B) .

Por exemplo, se A e B são eventos independentes com P(A) = 1/3 e

Exemplo: Voltemos ao lançamento do dado. Considere os eventos A =

A soma dos resultados no lançamento de dois dados, o máximo da cotação

Variáveis Aleatórias: Em um experimento ou fenômeno aleatório com

é chamada de função de distribuição (acumulada) de X .

A função de distribuição de uma variável aleatória contém toda informação

P(a < X ≤ b) = FX (b) − FX (a) .

Resultado: Sejam X e Y duas variáveis aleatórias. Se FX = FY , então X

Observação: Pelo exemplo ca claro que serem identicamente distribuídas

do exemplo anterior é uma função de distribuição. Seu gráco é da forma

−1.0 −0.5 0.0 0.5 1.0 1.5 2.0

Claramente vemos pelo gráco que a função é não-decrescente, contínua

P 0.5 < X < 1.5 = FX (1.5) − FX (0.5) = 1 − 0.5 = 0.5 .

−0.5 0.0 0.5 1.0 1.5

P(X = xj ) > 0 , para todo j ,

Os xj 's são chamados de valores possíveis da variável aleatória X e a

A função de distribuição de uma variável aleatória discreta é uma função

P(W = 4) = P (X , Y ) ∈ {(1, 3), (3, 1), (2, 2)}

= P (X , Y ) = (1, 3) + P (X , Y ) = (3, 1) + P (X , Y ) = (2, 2)

A variância de uma variável aleatória discreta X é a média dos desvios

O desvio padrão de X é a raiz quadrada da variância de X e será denotado

Por exemplo, se X é o resultado no lançamento do dado

Distribuição Bernoulli: Para 0 < p < 1, dizemos que uma variável

Note que Bin(1, p) = Bern(p).

P(X = k) = p(1 − p)k−1 , k = 1, 2, 3, ... .

Se Ω é nito e todo evento unitário possui a mesma chance de ocorrência,

Denição: Sejam A e B eventos aleatórios de (Ω, P). A probabilidade

Denição: Dois eventos aleatórios A e B de (Ω, P) são independentes

Denição Um coleção de eventos aleatórios {Aj }Nj=1 , N ∈ {2, 3, ...} ou

Observação: Pelo exemplo ca claro que serem identicamente distribuídas

do exemplo anterior é uma função de distribuição. Seu gráco é da forma

Claramente vemos pelo gráco que a função é não-decrescente, contínua

Aplicação: Em lançamentos consecutivos de uma moeda honesta dena

Ou seja, se np ≈ λ e n é sucientemente grande, a probabilidade da

Logo, a chance de uma variável aleatória assumir um valor especíco é zero.

Neste caso, E [X ] não está bem denida.

Ou podemos usar o comando "curve"no lugar de "plot"que simplica a

Observação: Analogamente, podemos denir a distribuição conjunta de

Denição: Duas variáveis aleatórias X e Y são independentes se para

Aplicação: Em nanças, usualmente considera-se que o logarítmo dos pre-

Sejam X e Y com variâncias nitas. Denimos a correlação (ou coeci-