Probabilidade 1

Probabilidade 1
José Carlos Fogo
Junho 2014
Teoria da Probabilidade Sumário
Sumário
1 Conceitos Básicos e Definições 3
1.1 Relações entre conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Algumas definições em probabilidade: . . . . . . . . . . . . . . . . . . . . . 6
1.3 Medidas de probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.1 Axiomas de Kolmogorov e espaço de probabilidade . . . . . . . . . 9
1.4 Propriedades das probabilidades . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5 Probabilidade condicional e teorema de Bayes . . . . . . . . . . . . . . . . 15
1.5.1 Probabilidade condicional . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.2 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5.3 Independência de eventos . . . . . . . . . . . . . . . . . . . . . . . . 24
1.6 Contagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.6.1 Amostras ordenadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.6.2 Permutações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.6.3 Amostras Desordenadas . . . . . . . . . . . . . . . . . . . . . . . . . 33
1.6.4 Partições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2 Variáveis Aleatórias 42
2.1 Variáveis Aleatórias Discretas . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.2 Principais modelos de discretos . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.2.1 Variável Aleatória Constante . . . . . . . . . . . . . . . . . . . . . . . 48
2.2.2 Distribuição uniforme discreta . . . . . . . . . . . . . . . . . . . . . . 49
2.2.3 Distribuição de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.2.4 Distribuição binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.2.5 Distribuição geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.2.6 Distribuição binomial negativa . . . . . . . . . . . . . . . . . . . . . . 60
2.2.7 Distribuição hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . 62
2.2.8 Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 67
2.2.9 Distribuições discretas no R . . . . . . . . . . . . . . . . . . . . . . . 73
3 Valor esperado e momentos de uma v.a. discreta 76

3.1 Valor esperado de uma v.a. discreta . . . . . . . . . . . . . . . . . . . . . . . 76
3.2 Propriedades de Esperança . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.3 Variância de uma v.a. discreta . . . . . . . . . . . . . . . . . . . . . . . . . . 82
3.3.1 Propriedades de Variância . . . . . . . . . . . . . . . . . . . . . . . . 83
3.3.2 Covariância e coeficiente de corelação . . . . . . . . . . . . . . . . . 85
2
Teoria da Probabilidade Conceitos Básicos e Definições
1 Conceitos Básicos e Definições

Estudos de fenômenos ou experimentos aleatórios
⇓
Busca-se avaliar a probabilidade
de ocorrência desses fenômenos.
APLICAÇÕES:
• teoria dos jogos • evolução de doenças

• controle de defeitos • evolução do crescimento populacional
• teoria da decisão • indústria bélica
1.1 Relações entre conjuntos
i) UNIÃO: Notação A ∪ B ,
sejam A e B eventos quaisquer, a união entre A e B é dada pelos elementos que
pertencem a A ou a B ;
ii) INTERSECCÃO: Notação A ∩ B ou AB ,

sejam A e B conjuntos quaisquer, a intersecção entre A e B é dada pelos elementos
que pertencem simultaneamente a A e a B ;
iii) COMPLENTAR: Notação Ac ;

sejam A e B conjuntos tais que A ⊂ B , então, o evento complementar Ac de A, em
relação à B , é dado pelos elementos de B que não pertencem a A, ou seja, A∪Ac = B ;
iv) DIFERENÇA: Notação B − A;

sejam A e B conjuntos quaisquer, então, a diferença B − A é dada pelos elementos de
B que não pertencem a A, ou seja, B − A = B ∩ Ac = BAc ;
Nota: Se B ⊃ A, então, B − A = Ac ;
v) DIFERENÇA SIMÉTRICA: Notação A M B ;

é dada pelos elementos que pertencem exclusivamente a A ou a B , ou seja,
A M B = (A ∩ B c ) ∪ (Ac ∩ B)
= (A − B) ∪ (B − A);
3
vi) CONJUNTOS DISJUNTOS: dois conjuntos A e B são disjuntos, ou mutuamente exclu-

sivos, se a intersecção entre eles é vazia, ou seja, A ∩ B = ∅;
vi) PARTIÇÃO: os conjuntos A1 , A2 , . . . , Ak ⊂ Ω formam um partição de Ω se são disjuntos

dois-a-dois e se a união entre eles é igual a Ω, ou seja
– Ai ∩ Aj = ∅, ∀ i 6= j ;
k
[
– Ai = Ω.
i=1
vi) LEIS DE MORGAN: considere uma sequência qualquer de eventos A1 , A2 , . . ., então,

segundo as leis de Morgan, valem as relações
∞
!c ∞
[ \
Ai = Aci ;
i=1 i=1
∞
!c ∞
\ [
Ai = Aci .
i=1 i=1
DEMONSTRAÇÃO VISUAL DAS LEIS DE MORGAN:
Ω
A B
AUBUC
C
(AUBUC)c
Figura 1.1: Diagrama de Venn para a união ( A ∪ B ∪ C )c
Ω Ω Ω
Cc
A B
Ac Bc C
Figura 1.2: Eventos complementares Ac , B c e C c , respectivamente
4
Ω
A B
Figura 1.3: Diagrama de Venn para a intersecção Ac ∩ B c ∩ C c
DEMONSTRAÇÃO FORMAL DAS LEIS DE MORGAN: 1a parte (Magalhães ou Hoel)

IDEIA: mostrar que
∞
!c ∞
[ \
i) Ai ⊂ Aci ;
i=1 i=1
∞
!c ∞
[ \
ii) Ai ⊃ Aci .
i=1 i=1
RESULTADO: Sejam A e B conjuntos quaisquer, então, se A ⊂ B e A ⊃ B =⇒ A = B .
Prova da parte (i):
∞
[ ∞
[
Seja w ∈ ( Ai )c =⇒ w ∈
/ Ai =⇒ w ∈
/ Ai , ∀ i = 1, 2, . . .
i=1 i=1
∞
\
Desta forma, w ∈ Aci , ∀i = 1, 2, . . . =⇒ w ∈ Aci ,
i=1
o que prova a parte (i).
Prova da parte (ii):
∞
\
Seja w ∈ Aci =⇒ w ∈ Aci =⇒ w ∈
/ Ai , ∀ i = 1, 2, . . .
i=1
∞
[ ∞
[
Desta forma, w ∈
/ Ai , ∀ i = 1, 2, . . . =⇒ w ∈ ( Ai )c ,
i=1 i=1
5
o que prova completa a prova.
1.2 Algumas definições em probabilidade:
a) EXPERIMENTO ALEATÓRIO: é um experimento no qual
– todos os resultados possíveis são conhecidos antecipadamente;

– uma realização do experimento resulta num dos possíveis resultados;
– pode ser repetido em condições idênticas.
Exemplo: Considere uma caixa com b bolas numeradas de 1 a b. Uma bola é retirada e
seu número é anotado.
b) ESPAÇO AMOSTRAL: é o conjunto dos resultados possíveis para um experimento ale-

atório. É denotado por Ω.
Pode ser:

Finito: formado por um conjunto finito de pontos;
i) Discreto
Infinito: conjunto infinito e enumerável de pontos;
ii) Contínuo: formado por um conjunto não enumerável de pontos.
Exemplo: No experimento da retirada de uma bola de uma da caixa, Ω é um espaço

amostral finito dado pelo conjunto com b pontos, no caso Ω = { 1, 2, . . . , b }.
c) EVENTO: um evento é qualquer subconjunto do espaço amostral Ω, associado a um

experimento.
Notas:
1) Os eventos serão identificados por letras de fôrma e maiúsculas do algarismo ará-

bico, por exemplo A, B, C, . . ..
2) Aos eventos é que serão associadas probabilidades;
Exemplo: Na retirada de uma bola da caixa seja o evento A definido por:

A = {o resultado é um número par}.
Casos Especiais:
6
i) Evento Complementar: Seja um evento qualquer A ⊂ Ω, então, seu evento com-

plementar Ac será definido pelos elementos de Ω que não estão em A.
Um evento A e seu complementar Ac são tais que A ∪ Ac = Ω.
ii) Eventos Disjuntos: Dois eventos quaisquer A e B são disjuntos, ou mutuamente

exclusivos se A ∩ B = ∅.
iii) Eventos Elementares: Seja um espaço amostral finito Ω = {ω1 , ω2 , . . . , ωN }, em

que ωi , i = 1, 2, . . . , N são resultados elementares.
Um evento formado por um resultado elementar é chamado evento elementar.
Neste caso,
Ai = {ωi }, i = 1, 2, . . . , N ,
são eventos elementares.
Notas:
1) Sejam dois eventos elementares Ai e Aj , i 6= j , então, Ai ∩ Aj = ∅;
2) Qualquer evento pode ser escrito como uniões de eventos elementares.
Particularmente, Ω = A1 ∪ A2 ∪ . . . ∪ AN .
Como o espaço amostral é finito, será associada uma probabilidade pi = 1/N para
cada ωi , i = 1, 2, . . . , N .
É intuitivo que 0 ≤ pi ≤ 1 e que p1 + p2 + . . . + pN = 1.
Se, além disso, o espaço amostral for equiprovável (ou homogêneo), então,
1
pi = ∀ ωi ∈ Ω, i = 1, 2, . . . , N .
N
d) σ -ÁLGEBRA:
Seja uma coleção não vazia A de subconjuntos de Ω aos quais desejamos associar
probabilidades. Então A deve ser tal que, se A e B ∈ A , faz sentido calcular probabi-
lidades de que
i) A ou B ocorra, ou seja, (A ∪ B);

ii) A e B ocorram, ou seja, (A ∩ B);
iii) não ocorra A, ou seja, Ac .
Portanto, para A e B ∈ A , se A atender às propriedades:
7
i) Ω ∈ A ;
ii) se A ∈ A =⇒ Ac ∈ A ;
iii) se A ∈ A e B ∈ A =⇒ (A ∪ B) ∈ A .
então A é dita ser uma álgebra de subconjuntos (eventos) de Ω.
Além disso, deseja-se que A seja fechada também para um número infinito e enumerável
de operações (uniões e intersecções).
Definição: A é uma σ -álgebra de subconjuntos (eventos) de Ω se, e só se
i) Ω ∈ A ;
ii) se A ∈ A =⇒ Ac ∈ A ;
∞
[
iii) se A1 , A2 , . . . ∈ A =⇒ Ai ∈ A .
i=1
Notas:
1) toda σ -álgebra é uma álgebra, porém, nem toda álgebra é uma σ -álgebra;
∞
\
2) Seja A uma σ -álgebra de Ω, então, se A1 , A2 , . . . ∈ A =⇒ Ai ∈ A .
i=1
Exemplo: 1) Considere o lançamento de uma moeda, então Ω = { cara, coroa }
• A1 = { ∅, Ω } → menor σ -álgebra;
• A2 = { ∅, {cara}, {coroa}, Ω } → σ -álgebra, classe de todos os subconjuntos de Ω.
Exemplo: 2) Considere o espaço amostral Ω = { 1, 2, 3 }
• A1 = { ∅, Ω, {1}, {2, 3} } → é uma σ -álgebra

(todos os complementares e uniões estão presentes).
• A2 = { ∅, Ω, {1}, {2}, {1, 3}, {2, 3} } → não é σ -álgebra pois: {1} ∪ {2} ∈
/ A2
(todos os complementares estão presentes, mas não todas as uniões).
8
1.3 Medidas de probabilidade
a) EM ESPAÇOS FINITOS: número de resultados favoráveis a um evento, dividido pelo

número de resultados possíveis, assumindo que todos os resultados seja equiprováveis
card(A)
P (A) =
card(Ω)
em que Ω é o conjunto de resultados possíveis (espaço amostral).
b) GENERALIZAÇÃO PARA ESPAÇOS INFINITOS: se Ω é uma região com uma medida

bem definida, então
medida de A
P (A) =
medida de Ω
Exemplo: Um indivíduo realiza um tiro ao acaso num alvo circular de raio R. Qual a pro-
babilidade de que acerte o círculo central de raio r (r < R)?
R área central (A)

P (A) =
área do alvo (Ω)
Ω
r
A
πr2 r 2
P (A) = =
πR2 R
1.3.1 Axiomas de Kolmogorov e espaço de probabilidade
A definição a seguir é conhecida como Axiomas de Kolmogorov (Kolmogorov, 1933) e

define uma medida de probabilidade.
MEDIDA DE PROBABILIDADE: Seja Ω um espaço amostral e A uma σ -álbegra de even-

tos de Ω. P (.) é uma medida de probabilidade em (Ω, A ) se satisfaz
i) P (A) ≥ 0, ∀ A ∈ A ;
ii) P (Ω) = 1;
9
∞
! ∞
[ X
iii) se A1 , A2 , . . . formam uma seqüência disjunta, então P Ai = P (Ai ).
i=1 i=1
A trinca formada por (Ω, A , P ) é chamada de ESPAÇO DE PROBABILIDADE.
Um espaço de probabilidade é formado por um espaço amostral Ω, uma σ -álgebra de

eventos de Ω e uma medida de probabilidade P (A) ∀ A ∈ A .
Exemplo: 1) Número de ocorrências de um fenômeno.
Espaço amostral: Ω = { 1, 2, 3, . . . };
σ -álbegra: A = classe dos subconjuntos de Ω;
1
Medida de probabilidade: P (k) = , k = 1, 2, . . .
2k
Checar os axiomas:
i) P (A) é dada pela soma de probabilidades de eventos elementares ωi ∈ A, i = 1, 2, . . .

=⇒ P (A) ≥ 0, ∀ A;
∞
X 1/2
ii) P (k) = = 1 =⇒ P (Ω) = 1;
i=1
1 − 1/2
iii) A união de eventos disjuntos, forma um conjunto ao se aplica o resultado (i), que equi-
vale à soma das suas probabilidades individuais.
Exemplo: 2) Tempo de vida de pacientes.
Espaço amostral: Ω = { T ∈ R | 0 ≤ T < ∞ };
σ -álbegra: A = σ -álbegra de Borel;

Z
Medida de probabilidade: P (A) = e−x dx, em que A ⊆ Ω são intervalos no conjunto
A
dos reais.
10
1.4 Propriedades das probabilidades
Considere que os conjuntos abaixo seja, eventos no espaço de probabilidade (Ω, A , P ).

Então, tem-se que
a) P (A) = 1 − P (Ac );
Nota: caso especial P (∅) = 1 − P (Ω) = 0.
b) Sejam A e B eventos quaisquer, então P (B) = P (B ∩ A) + P (B ∩ Ac ).
PROVA: i) para todo conjunto A tem-se que A ∪ Ac = Ω.

ii) Como B = B ∩ Ω = B ∩ (A ∪ Ac ) = (B ∩ A) ∪ (B ∩ Ac )
iii) e como (B ∩ A) e (B ∩ Ac ) são disjuntos, segue-se que
P (B) = P (B ∩ A) + P (B ∩ Ac ).
Nota: Se A ⊂ B , então A ∩ B = A e P (B) = P (A) + P (B ∩ Ac ).
c) Se A ⊂ B , então P (A) ≤ P (B).

PROVA: Sai direto da relação anterior e dos axiomas.
d) Se A e B são eventos quaisquer, então P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
A B
A ∩ Bc A∩ B Ac ∩ B
Figura 1.4: (A ∪ B ) como união de conjuntos disjuntos
11
PROVA:
i) Os conjuntos (A ∩ B c ), (A ∩ B) e (Ac ∩ B) são disjuntos, logo.
→ A ∪ B = (A ∩ B c ) ∪ (A ∩ B) ∪ (Ac ∩ B),
→ P (A ∪ B) = P (A ∩ B c ) + P (A ∩ B) + P (Ac ∩ B).
ii) Tem-se, ainda, que
→ P (A) = P (A ∩ B c ) + P (A ∩ B) e
→ P (B) = P (Ac ∩ B) + P (A ∩ B).
iii) Somando-se as probabilidades em (ii) obtem-se

P (A) + P (B) = P (A ∩ B c ) + P (Ac ∩ B) + P (A ∩ B) + P (A ∩ B), e, de (i) tem-se que
P (A) + P (B) = P (A ∪ B) + P (A ∩ B), de onde se conclui que
=⇒ P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Notas: 1) Da relação (d) segue-se que P (B ∪ A) ≤ P (A) + P (B);

2) Se A e B são disjuntos, então P (B ∪ A) = P (A) + P (B).
n
[ n
X
e) Das propriedades (c) e (d) tem-se P ( Ai ) ≤ P (Ai ).
i=1 i=1
PROVA: Por indução.
g) Das leis de Morgan tem-se que
n
! n
!
[ \
P Ai =1−P Aci .
i=1 i=1
∞
[
g) PARTE 1: Se A1 ⊂ A2 ⊂ . . . e A = Ai ou
i=1
∞
\
PARTE 2: Se A1 ⊃ A2 ⊃ . . . e A = Ai ,
i=1
então segue-se que lim P (An ) = P (A).

n→∞
PROVA: (PARTE 1)
→ seja B1 = A1 ;
12
→ para n ≥ 2, seja Bn o conjunto de pontos que estão em An mas não estão em An−1 ,
ou seja Bn = An ∩ Acn−1 ;
→ os conjuntos Bn , n = 1, 2, . . . são todos mutuamente exclusivos e, ainda
[n [∞
An = Bi e A = Bi ;
i=1 i=1
→ conseqüentemente:
n
X
a) P (An ) = P (Bi ) ,
i=1
∞
X
b) P (A) = P (Bi ) .
i=1
Desta forma, aplicando-se o limite para n → ∞ em (a), tem-se
n
X
lim P (An ) = lim P (Bi )
n→∞ n→∞
i=1
∞
X de (b)
= P (Bi ) = P (A) ,
i=1
o que completa a prova.
PROVA: (PARTE 2) Exercício.

→ observar que A1 ⊃ A2 ⊃ . . . ⇒ Ac1 ⊂ Ac2 ⊂ . . ..
Exemplo: 1) Um dado equilibrado é lançado k = 2 vezes e os resultados anotados.

O espaço amostral para o experimento é:
Ω = ω = (i, j) ∈ R2 | i = 1, . . . 6 e j = 1, . . . , 6

Sejam:
A = classe de todos os subconjuntos de Ω e
1
P = probabilidade uniforme para todos os pontos de Ω, ou seja, P ({ω}) = .
card(Ω)
O número de eventos elementares w’s é dado por card(Ω) = nk , em que

→ n total de resultados possíveis em uma realização do experimento, no caso n = 6,
→ k é o número de realizações do experimento, no caso k = 2.
1
Nesse caso, tem-se: card(Ω) = 36 ⇒ P ({ω}) = , ∀ ω ∈ Ω.
36
Considere os eventos:
A = a soma dos resultados é um número ímpar;
13
B = o resaultado do primeiro lançamento é um número ímpar;

C = o produto é um número ímpar.
Encontrar P (A ∪ B) e P (A ∪ B ∪ C).
Pontos favoráveis a cada um dos eventos:

A = { (1,2), (1,4), (1,6), (3,2), (3,4), (3,6), (5,2), (5,4), (5,6),
(2,1), (4,1), (6,1), (2,3), (4,3), (6,3), (2,5), (4,5), (6,5) };
B = { (1,1), (1,2), (1,3), (1,4), (1,5), (1,6), (3,1), (3,2), (3,3),
(3,4), (3,5), (3,6), (5,1), (5,2), (5,3), (5,4), (5,5), (5,6) };
C = { (1,1), (1,3), (1,5), (3,1), (3,3), (3,5), (5,1), (5,3), (5,5) }.
Resultados:
18 1
I card(A) = 18 =⇒ P (A) = = ;
36 2
18 1
I card(B) = 18 =⇒ P (B) = = ;
36 2
9 1
I card(C) = 9 =⇒ P (C) = = .
36 4
Intersecções:
1
i) A ∩ B = { (1,2), (1,4), (1,6), (3,2), (3,4), (3,6), (5,2), (5,4), (5,6) } ⇒ P (A ∩ B) = ;
4
ii) A ∩ C = { ∅ } ⇒ P (A ∩ C) = 0;
1
iii) como C ⊂ B , segue-se que B ∩ C = C, ⇒ P (B ∩ C) = P (C) = ;
4
iv) de (ii), tem-se que A ∩ B ∩ C = { ∅ } ⇒ P (A ∩ B ∩ C) = 0;
Da propriedade (d), tem-se que:
1 1 1 3
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = + − =
2 2 4 4
Para encontrar P (A ∪ B ∪ C) utiliza-se, ainda, a propriedade (d) fazendo:
P (A ∪ B ∪ C) = P [(A ∪ B) ∪ C] = P (A ∪ B) + P (C) − P [(A ∪ B) ∩ C]

= P (A) + P (B) − P (A ∩ B) + P (C) − P [(A ∩ B) ∪ (B ∩ C)]
= P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C)
1 1 1 1 1 3
= + + − − =
2 2 4 4 4 4
14
Esse problema pode ser resolvido escolhendo-se um outro espaço amostral.

O lançamento de um dado pode ser representado por p se o resultado for par e por i se o
resultado for ímpar. Assim sendo, o novo espaço amostral pode ser escrito por:
Ω1 = { (p, p), (p, i), (i, p), (i, i) }
Como o espaço amostral original Ω é um espaço equiprovável, é fácil verificar que:

1
P [(p, p)] = P [(p, i)] = P [(i, p)] = P [(i, i)] = .
4
Pontos favoráveis a cada um dos eventos:
2 1
A = {(p, i), (i, p)} =⇒ P (A) = = ;
4 2
2 1
B = {(p, i), (i, i)} =⇒ P (B) = = ;
4 2
1
C = {(i, i)} =⇒ P (C) = .
4
1.5 Probabilidade condicional e teorema de Bayes
Em muitas situações, conhecimentos passados podem influenciar as probabilidades dos

eventos.
Por exemplo, a probabilidade de chuva num determinado dia pode ser influenciada se
choveu no dia anterior.
Sejam A e B eventos quaisquer associados ao espaço de probabilidade (Ω, A , P ), então,
para todo ω ∈ Ω,
→ se ω ∈ B , então ω ∈ A ⇐⇒ ω ∈ (A ∩ B).
Em outras palavras, sabendo que o evento B ocorreu, então, o evento A ocorre se, e só
se, ocorre a intersecção A ∩ B .
Nesse caso, tem-se um novo espaço amostral dado pelo evento B , uma nova σ -álgebra
AB e uma nova medida de probabilidade PB , aplicada em subconjuntos de AB , satisfazendo
os axiomas de Kolmogorov
P (A ∩ B)
PB = .
P (B)
Portanto, (B , AB e PB ) formam um novo espaço de probabilidade.
Prova: A prova fica como exercício para o leitor.
15
Esquematicamente:
A A∩ B B
Figura 1.5: Evento condicional.
1.5.1 Probabilidade condicional
Sejam os eventos A e B tais que P (B) > 0, então, define-se a probabilidade condicional
de B dado que ocorreu A por
P (A ∩ B)
P (A|B) = .
P (B)
Notas: 1) Se P (B) = 0 =⇒ P (A|B) = P (A) (Magalhães, 2004);

2) Da definição de probabilidade condicional tem-se a relação P (A∩B) = P (A|B)P (B),
conhecida como regra do produto das probabilidades.
Exemplo 1) Uma caixa comtém r bolas vermelhas numeradas de 1 a r e b bolas brancas,

numeradas de 1 a b. Uma bola é extraída, sua cor observada. Sabendo que a bola é vermelha,
qual a probabilidade de que seja a de número 1?
1
A caixa contém (r + b) bolas logo, a probabilidade de uma bola qualquer é .
(r + b)
Censidere os eventos:
r
A = { a bola extraída é vermelha }, logo, P (A) =
(r + b)
2
B = { a bola extraída é a de número 1 }, logo, P (B) =
(r + b)
16
1
Como P (B ∩ A) = , então,
(r + b)
P (B ∩ A) 1/(r + b) 1
P (B|A) = = = .
P (A) r/(r + b) r
Exemplo 2) Duas moedas idênticas são lançadas. Determine:
a) A probabilidade de se obter 2 caras sabendo que se obteve cara na primeira moeda.
Espaço amostral =⇒ Ω = {(c, c); (c, c̄); (c̄, c); (c̄, c̄)}, em que c = cara e c̄ = coroa.
Sejam os eventos:
2
C1 = { cara na 1a moeda } =⇒ P (C1 ) = P [(c, c); (c, c̄)] = ;
4
2
C2 = { cara na 2a moeda } =⇒ P (C2 ) = P [(c, c); (c̄, c)] = .
4
1
Como P (C2 ∩ C1 ) = P [(c, c)] = ,
4
logo,
P (C2 ∩ C1 ) P [(c, c)] 1/4 1
P (C2 |C1 ) = = = = .
P (C1 ) P [(c, c); (c, c̄)] 2/4 2
b) A probabilidade de se obter 2 caras sabendo que se obteve pelo menos uma cara.
Neste caso os eventos são definidos por:

=⇒ {sair duas caras} = C1 ∩ C2 ;
=⇒ {sair ao menos um cara} = C1 ∪ C2 ;
Desta forma:
P (C1 ∩ C2 ) P [(c, c)] 1/4 1

P (C1 ∩ C2 |C1 ∪ C2 ) = = = = .
P (C1 ∪ C2 ) P [(c, c); (c, c̄); (c̄, c)] 3/4 3
Exemplo 3) (Urna de Polya) Uma caixa comtém r bolas vermelhas e b bolas brancas. Uma
bola é extraída, sua cor observada e, a seguir, a bola é recolocada na caixa com mais c > 0
bolas da mesma cor. Esse procedimento é repetido m vezes.
O interesse aqui consiste em saber qual a probabilidade de se extrair uma bola vermelha
(ou branca) em cada uma das m retiradas.
17
Sejam:
i) Rj : a j -ésima bola retirada é vermelha;
ii) Bj : a j -ésima bola retirada é branca, 1 ≤ j ≤ m.
Então:
⇒ Rj e Bj são disjuntos e
⇒ na j -ésima extração tem-se [b + r + (j − 1) c] bolas na urna.
Para j = 1:
r
i) P (R1 ) = ,
b+r
b
ii) P (B1 ) = .
b+r
Para j = 2:
(r + c)
i) P (R2 |R1 ) = ;
(b + r + c)
ii) P (R1 R2 ) = P (R1 )P (R2 |R1 );
r (r + c)
⇒ P (R1 R2 ) = .
(b + r) (b + r + c)
De maneira análoga,
b r
⇒ P (B1 R2 ) = .
(b + r) (b + r + c)
Logo, a probabilidade de que se extraia uma bola vermelha na segunda retirada é:
P (R2 ) = P (R1 R2 ) + P (B1 R2 )

r r+c b r
= +
b+r b+r+c b+r b+r+c

r r+c b
= +
b+r b+r+c b+r+c

r r+c+b
=
b+r b+r+c

r
=
b+r
Portanto:
18
r
i) P (R2 ) = P (R1 ) = ,
b+r
b
ii) P (B2 ) = P (B1 ) = .
b+r
Para j = 3:
Qual a probabilidade de vermelha na 3a extração?
Possibilidades:
i) R1 R2 R3 ⇒ P (R1 R2 R3 ) = P (R3 |R1 R2 )P (R2 |R1 )P (R1 );
ii) R1 B2 R3 ⇒ P (R1 B2 R3 ) = P (R3 |R1 B2 )P (B2 |R1 )P (R1 );
iii) B1 R2 R3 ⇒ P (B1 R2 R3 ) = P (R3 |B1 R2 )P (R2 |B1 )P (B1 );
iv) B1 B2 R3 ⇒ P (B1 B2 R3 ) = P (R3 |B1 B2 )P (B2 |B1 )P (B1 ).
Com um pouco de esforço algébrico obtêm-se:

r
i) P (R3 ) = P (R1 ) = ,
b+r
b
ii) P (B3 ) = P (B1 ) = .
b+r
Enfim, pode-se provar por indução que, P (Rj ) = P (R1 ) e P (Bj ) = P (B1 ), ∀ 1 ≤ j ≤ m.
1.5.2 Teorema de Bayes
Sejam os eventos E1 , E2 , . . . , Em em (Ω, A , P ) formando uma partição em Ω tal que todos

têm probabilidades positivas, ou seja, P (Ei ) > 0, ∀ i = 1, 2, . . . , m. Considere, ainda, um
evento A qualquer, P (A) > 0, ocorrendo sobre a partição de Ω.
O objetivo, nesta situação, consiste em determinar a probabilidade de ocorrência de uma
das partes de Ω dado que ocorreu o evento A, ou seja, P (Ek |A), k = 1, 2, . . . , m.
Cmo pode-se observar pela Figura (1.6), o evento A pode ser escrito como união de partes
disjuntas, formadas pela intersecção de A com as partes de Ω, ou seja
6
[
A = (A ∩ E1 ) ∪ (A ∩ E2 ) ∪ (A ∩ E3 ) ∪ (A ∩ E4 ) ∪ (A ∩ E5 ) ∪ (A ∩ E6 ) = (A ∩ Ei )
i=1
19
Figura 1.6: Ocorrência de um evento A sobre uma partição de Ω com m = 6.
Para um m qualquer,
m
[
A = (A ∩ E1 ) ∪ (A ∩ E2 ) ∪ . . . ∪ (A ∩ Em ) = (A ∩ Ei ),
i=1
logo, a probabilidade do evento A é dada por

"m # m
[ X
P (A) = P (A ∩ Ei ) = P (A ∩ Ei ).
i=1 i=1
Pela regra do produto, tem-se que

"m # m
[ X
P (A) = P (A ∩ Ei ) = P (A|Ei )P (Ei ).
i=1 i=1
O resultado acima é conhecido como lei da probabilidade total.
Para um Ek qualquer, k = 1, 2, . . . , m, pode-se escrever P (A ∩ Ek ) = P (A|Ek )P (Ek ),

logo, a probabilidade de ocorrência de Ek dado que ocorreu A, é dada por:
P (Ek ∩ A)
P (Ek |A) =
P (A)
P (A|Ek )P (Ek )
P (Ek |A) = m , k = 1, 2, . . . , m, (1.1)
X
P (A|Ei )P (Ei )
i=1
o resultado em (1.1) é conhecido como teorema de Bayes. Foi obtido pelo Reverendo Thomas
Bayes e publicado em 1763, sendo um dos teoremas mais importantes da teoria estatística.
Exemplo 1) Numa população adulta 40% são homens e 60% mulheres. Sabe-se, ainda,
que 50% dos homens e 30% das mulheres são fumantes. Determine:
20
a) A probabilidade de que uma pessoa escolhida ao acaso nesta população seja fumante.
Partição do espaço amostral =⇒ sexo = {H, M }.

Sejam os eventos:
H = { a pessoa escolhida é do sexo masculino (homem) } =⇒ P (H) = 0.40;
M = { a pessoa escolhida é do sexo feminino (mulher) } =⇒ P (M ) = 0.60;
F = { a pessoa escolhida é fumante };
F c = { a pessoa escolhida não é fumante }.
Como P (F |H) = 0.50 e P (F |M ) = 0.30, então, pela regra da probabilidade total:
P (F ) = P (F ∩ H) + P (F ∩ M )
P (F ) = P (F |H)P (H) + P (F |M )P (M )
P (F ) = 0.50 · 0.40 + 0.30 · 0.60
P (F ) = 0.38
b) A probabilidade de que seja um homem sabendo que é um fumante.

Pelo teorema de Bayes, tem-se a relação:
P (H ∩ F )
P (H|F ) =
P (F )
P (F |H)P (H)
P (H|F ) =
P (F )
0.20
P (H|F ) =
0.38
P (H|F ) = 0.5263,
portanto, a probabilidade de ser um homem dado que é fumante é de 0.5263.
Uma forma conveniente para se representar as probabilidades acima é através da ”arvore

de probabilidades”, nas quais representamos as probabilidades das partes e probabilidades
condicionais em ramos, conforme Figura (1.7). Nesse esquema, as probabilidades conjuntas
(das intersecções) são obtidas percorrendo-se os ramos e multiplicando-se as probabilidades.
21
Figura 1.7: Diagrama de árvore para o exemplo (1).
Exemplo 2) Sabe-se que numa população 8% das pessoas são infectadas por um vírus
causador de uma doença muito grave. Um teste para detecção do vírus é eficiente em 99%
dos casos nos quais os indivíduos são infectados, mas resulta em 2% de resultados positivos
para os não infectados (falsos positivos).
Se o teste de uma pessoa dessa população der resultado positivo, qual a probabilidade
de que ela seja da fato infectada?
Defindo-se: I ⇒ grupo das pessoas infectadas;
I c ⇒ grupo dos não infectados;
T + ⇒ o resultado do teste é positivo;
T − ⇒ o resultado do teste é negativo;
tem-se as probabilidades: P (I) = 0.08; P (I c ) = 0.92; P (T + |I) = 0.99 e P (T + |I c ) = 0.02.
Porém, deseja-se calcular a probabilidade: P (I|T + )
P (I ∩ T + )
que pela regra da probabilidade condicional é dada por P (I|T + ) = .
P (T + )
As probabilidades podem ser representadas na seguinte tabela:
Tabela 1.1: Probabilidades

Resultado do teste Totais das
+ −
Grupo T T linhas
I P (I ∩ T ) P (I ∩ T − )
+
0.08
Ic P (I c ∩ T + ) P (I c ∩ T − ) 0.92
Totais das colunas P (T + ) P (T − ) 1.00
22
Pela regra do produto e pela lei da probabilidade total, encontra-se P (T + ) de:
P (T + ) = P (I ∩ T + ) + P (I c ∩ T + )
= P (T + |I)P (I) + P (T + |I c )P (I c )
= 0.99 · 0.08 + 0.02 · 0.92
= 0.0792 + 0.0184
= 0.0976
e, pelo teorema de Bayes, tem-se
P (T + |I)P (I) 0.0792

P (I|T + ) = +
= = 0.8115.
P (T ) 0.0976
Qual seria a confiança no teste se o resultado fosse negativo, ou seja, qual a probabilidade
de o teste sendo negativo a pessoa de fato não seja infectada?
P (I c ∩ T − )
Deseja-se: P (I c |T − ) = .
P (T − )
Como: P (T − ) = P (I ∩ T − ) + P (I c ∩ T − ) = 0.01 · 0.08 + 0.98 · 0.92 = 0.9024,
P (T − |I c )P (I c ) 0.9016
então, P (I c |T − ) = −
= = 0.9991,
P (T ) 0.9024
portanto, se o teste for negativo a pessoa pode se sentir segura.
Na Figura (1.8) é apresentada o diagrama de árvore para o resultado acima.
Figura 1.8: Diagrama de árvore para o exemplo (2).
23
1.5.3 Independência de eventos
Sejam o espaço de probabilidade (Ω, A , P ) e sejam os eventos A e B ∈ A , tal que

P (B) > 0. Pela regra da multiplicação pode-se escrever
P (A ∩ B) = P (A|B) P (B).
Em alguns casos, no entanto, informações prévias a respeito do evento B não afetam a

probabilidade de ocorrência de A, isto é, a probabilidade concicional de A dado B é igual à
P (A), ou seja
P (A|B) = P (A).
Definição: Sejam dois eventos A e B , com probabilidades maiores do que zero, tais que
a ocorrência de um deles não altera a probabilidade de ocorrência do segundo, então, esses
eventos são ditos indepententes.
Da regra da multiplicação das probabilidades, portanto, se dois eventos A e B são inde-
pendentes então a probabilidade de ocorrência conjunta dos dois é dada pelo produto das
probabilidades individuais, ou seja,
P (A ∩ B) = P (A) P (B). (1.2)
Seja A1 , A2 , . . . , Ak , k eventos independentes, então, de (1.2)
P (A1 ∩ A2 ∩ . . . ∩ Ak ) = P (A1 ) · P (A2 ) · . . . · P (Ak )
Exemplo 1) Duas moedas idênticas são lançadas separadamente.

Ω = {(c, c); (c, c̄); (c̄, c); (c̄, c̄)}, em que c = cara e c̄ = coroa.
Sejam os eventos:
1
A = { cara no 2º lançamento } =⇒ P (A) = P [(c, c); (c̄, c)] = ;
2
1
B = { cara no 1º lançamento } =⇒ P (B) = P [(c, c); (c, c̄)] = .
2
Determine P (A|B).
P (A ∩ B) 1/4 1
P (A|B) = = = = P (A).
P (B) 1/2 2
24
Portanto, conclui-se que A e B são independentes, ou seja, a ocorrência de cara no

primeiro lançamento não altera a probabilidade de que saia cara no segundo lançamento.
Propriedades de independência:
a) Seja um evento A tal que P (A) = 0, então A é independente de todo evento E ∈ A ,

em que P (E) > 0;
Prova: Se P (A) = 0
=⇒ P (E ∩ A) = P (E|A)P (A) = 0 = P (E) · P (A), ∀ E∈A
b) Se A ∈ A é um evento qualquer tal que P (A) > 0, então A é independente de ∅ e Ω;

Prova:
i) A prova de que A e ∅ são independentes sai direto de (a), já que P (∅) = 0;
ii) Para a prova de que A e Ω são independentes, considere que A = A ∩ Ω, logo
=⇒ P (Ω ∩ A) = P (A) = P (A) · (1) = P (A)P (Ω)
c) Se os eventos de A e B forem independentes, então A e B c ; Ac e B ; Ac e B c também

o são;
Prova: A seguir será apresentada apenas a prova de que A e B c também são indepen-
dentes. As demais ficam como exerício para o leitor.
O evento A pode ser escrito por A = (A ∩ B) ∪ (A ∩ B c ), (A ∩ B) e (A ∩ B c ) disjuntos,
logo
P (A) = P (A ∩ B) + P (A ∩ B c )
P (A) = P (A)P (B) + P (A ∩ B c )
P (A) − P (A)P (B) = P (A ∩ B c )
P (A)[1 − P (B)] = P (A ∩ B c )
P (A)P (B c ) = P (A ∩ B c )
Definição: Seja A1 , A2 , . . . , Ak , k eventos independentes. Se, para qualquer subconjunto

A1 , A2 , . . . , Ar , tal que r ≤ k , os eventos forem independentes, ou seja,
P (A1 ∩ A2 ∩ . . . ∩ Ar ) = P (A1 ) · P (A2 ) · . . . · P (Ar ),
então A1 , A2 , . . . , Ak são chamados mutuamente independentes.
25
Em outras palavras, os eventos A1 , A2 , . . . , Ak são mutuamente independentes se forem

independentes dois-a-dois, três-a-três, e assim por diante . . .
Exemplo 2) A probabilidade de que um homem esteja vivo daqui a 10 anos é de 3/4 e de

sua esposa, é de 5/6. Qual é a probabilidade de que, daqui a 10 anos:
a) Ambos estejam vivos?
Considere os eventos:
H = { homem vivo daqui a 10 anos } =⇒ P (H) = 3/4 logo P (H c ) = 1/4;
M = { mulher viva daqui a 10 anos } =⇒ P (M ) = 5/6 logo P (M c ) = 1/6.
Espaço amostral Ω = {HM, HM c , H c M, H c M c }

Assumindo independência entre os eventos H e M , a probabilidade de que ambos
estejam vivos daqui a 10 anos é dada por
3 5 5
P (HM ) = P (H)P (M ) = · =
4 6 8
b) Ao menos um esteja vivo?
Ainda assumindo independência entre H e M , a probabilidade de ao menos um esteja

vivo daqui a 10 anos é dada por
P (HM, HM c , H c M ) = P (H)P (M ) + P (H)P (M c ) + P (H c )P (M )
3 5 1 5 3 1
P (HM, HM c , H c M ) = · + · + ·
4 6 4 6 4 6
15 5 3 23
P (HM, HM c , H c M ) = + + =
24 24 24 24
A solução acima é simplificada com a aplicação do evento complementar
1 1 23
P (HM ) = 1 − P (H c M c ) = 1 − · =
4 6 24
Exemplo 3) Aplicação em confiabilidade de sistemas.
26
Um sistema de componentes é determinado por um conjunto de itens associados numa

dada configuração. As configrações mais simples são os sistemas em série e em paralelo. A
associação de ambas as configurações são chamadas de sistemas série-paralelo.
Neste sentido, a confiabilidade de um sistema num dado instante t é dada pela probabili-
dade de que este esteja funcionando normalmente.
Considere um componente tal que a probabilidade de que esteja funcionando num ins-
tante t dada por p, 0 ≤ p ≤ 1. Dois destes componentes são colocados em funcionamento
segundo as configurações abaixo. Assumindo que os componentes funcionem de maneira
independente, determine a confiabilidade do sistema em cada um dos casos.
Sejam os eventos:
S = { o sistema funciona no tempo t } =⇒ confiabilidade do sistema = P (S)
Ci = { o componente i funciona no tempo t } =⇒ P (Ci ) = p
a) Sistema em série: na configuração em série, o sistema funciona se os dois componen-

tes funcionarem simultaneamente, desta forma
P (S) = P (C1 ∩ C2 ) = p2
Figura 1.9: Sistema em série
b) Sistema em paralelo: o sistema funciona se pelo menos um dos componentes estiver

funcionando, logo
P (S) = P (C1 ∪ C2 ) = p + p − p2 = 2p − p2
Figura 1.10: Sistema em paralelo
27
c) Sistema série-paralelo: o sistema série-paralelo, com a configuração dada pela Figura

1.11, funciona se C1 funcionar e, (C2 ou C3 funcionar).
Obd: Fica para o leitor mostrar que a confiabilidade deste sistema é dada por
P (S) = 2p2 − p3
Figura 1.11: Sistema série-paralelo
Exemplo 4) Uma moeda equilibrada é lançada tês vezes. Dê o espaço amostral:

i) Ω = {(c, c, c); (c, c, c̄); (c, c̄, c); (c̄, c, c); (c, c̄, c̄); (c̄, c, c̄); (c̄, c̄, c); (c̄, c̄, c̄)},
em que c = cara e c̄ = coroa.
ii) Verifique se os eventos {ocorrem pelo menos duas caras} e {ocorre coroa no 1º lança-
mento} são independentes.
A = { ocorrem pelo menos duas caras } =⇒ A = {(c, c, c); (c, c, c̄); (c, c̄, c); (c̄, c, c)}
B = { ocorre coroa no 1º lançamento } =⇒ A = {(c̄, c, c); (c̄, c, c̄); (c̄, c̄, c); (c̄, c̄, c̄)}
No lançamento de uma moeda P (c) = P (c̄) = 1/2, logo, os eventos elementares de Ω
têm todos probabilidade 1/8. Desta forma, verifica-se facilmente que
1
P (A) = P (B) = .
2
3
Ainda, A ∩ B = {(c̄, c, c̄); (c̄, c̄, c); (c̄, c̄, c̄)} =⇒ P (A ∩ B) = ,
8
portanto,
3/8 3
P (A|B) = = 6= P (A)P (B).
1/2 4
Logo, os eventos A e B não são independentes.
28
1.6 Contagem
Considere um espaço amostral finito e equiprovável Ω, no qual cada evento elementar tem
probabilidade
1
P ({ωi }) = , i = 1, 2, . . . , card(Ω).
card(Ω)
Considere um evento A pertencente ao espaço de probabilidade (Ω, A , P ), então, a pro-

babilidade do evento A é definida por
card(A)
P (A) =
card(Ω)
Assim sendo, a determinação de P (A) resume-se num problema de contagem do número

de elementos de A e de Ω, o que é um procedimento simples quando tanto Ω tem poucos
pontos, mas pode ser, trabalhoso, ou até mesmo impraticável, quando o número de pontos é
grande (ou mesmo moderado).
1.6.1 Amostras ordenadas
Considere dois conjuntos S e U , com m e n elementos, respectivamente. Ao serem sele-

cionados um elemento de cada conjunto, podem-se formar (m × n) duplas do tipo (xi , yj ), i =
1, 2, . . . , m; j = 1, 2, . . . , n, conforme mostra a Figura 1.12.
Figura 1.12: Seleção alatória em dois conjuntos finitos.
Considere, agora, n conjuntos distintos S1 , S2 , . . . , Sn , de tamanhos s1 , s2 , . . . , sn , respec-

tivamente. Se selecionarmos um elemento de cada conjunto teremos (s1 × s2 × . . . × sn )
n−uplas do tipo (x1 , x2 , . . . , xn ).
29
Se, no entanto, os n conjuntos forem o mesmo conjunto S , com s pontos, então existirão
n
s n−uplas do tipo (x1 , x2 , . . . , xn ) para as quais xi , i = 1, 2, . . . , n, é um ponto de S .
Esta situação, em que o número de elementos de S permanece constante, caracteriza
uma ”amostra aleatória com reposição”. Com a condição inicial de que o espaço amostral é
equiprovável, todas as sn n−uplas têm igual probabilidade de serem selecionadas, sendo
essa probabilidade igual a
1
. (1.3)
sn
Exemplo 1) Uma moeda equilibrada é lançada n vezes. Determine a probabilidade de se

obter ao menos uma cara nos n lançamentos.
Nessa situação, o conjunto S é dado por: S = {c, c̄}, sendo que P ({c}) = P ({c̄}) = 1/2.
Como s = 2, então, o número de n−uplas possíveis é igual a 2n .
Seja o evento de interesse A = { ao menos uma cara nos n lançamentos }.

Definindo Ai = { o evento cara no i−ésimo lançamento }, então,
n
[
A= Ai ,
i=1
cuja probabilidade é dada por:
P (A) = 1 − P (Ac )
" n
!c #
[
P (A) = 1 − P Ai
i=1
Das leis de Morgan, tem-se que
n
!
\
P (A) = 1 − P Aci
i=1
n
Y
P (A) = 1 − P (Aci )
i=1
Portanto, a probabilidade desejada é dada por:

n
1
P (A) = 1 − .
2
30
1 1023
Se, por exemplo, n = 10, P (A) = 1 − = .
1024 1024
Considere, agora, o conjunto S , contendo s elementos distintos, sendo que o elemento

escolhido não é recolocado no conjunto após a seleção. Neste caso, a amostra alatória é do
tipo ”sem reposição”.
Repetindo o procedimento n vezes, o número de n−uplas possíveis, sem que nenhum xi ,
i = 1, 2, . . . , n, seja repetido, é dado por:
As,n = s × (s − 1) × . . . × (s − n + 1), (1.4)
sendo que a quantidade As,n representa um arranjo de s elementos tomados n-a-n.
Exemplo 2) Seja um conjunto S com s elementos distintos. Considerendo uma amostra-

gem aleatória com reposição, qual a probabilidade de que nenhum elemento de S apareça
repetido na amostra.
Seja o evento E = { nenhum elemento repetido na amostra }, então
total de amostras para as quais nenhum elemento apareça repetido

P (A) = .
total de amostras possíveis
Desta forma, de (1.3) e (1.4), temos que a probabilidade acima é dada por
As,n s(s − 1) . . . (s − n + 1)
P (E) = n
=
s sn
s (s − 1) (s − n + 1)
P (E) = ...
s s s

1 2 n−1
P (E) = 1− 1− ... 1 −
s s s
n−1
Y
k
P (E) = 1− . (1.5)
k=1
s
Como na maioria das situações práticas o número de elementos do conjunto S (ou ”popu-
lação”) é muito grande, calculando o limite em (1.5), tem-se
"n−1 #
Y k
lim P (E) = lim 1− = 1,
s→∞ s→∞
k=1
s
ou seja, quando as populações são muito grandes, as amostras aleatórias “com” e “sem”
31
reposição se equivalem.
Exemplo 3) Qual a probabilidade de que, num grupo com n pessoas, não existam duas
com aniversário na mesma data?
(este problema é muito popular, sendo conhecido como “problema dos aniversários”)
Seja: S = {1, 2, 3, . . . , 365}, então S é definido como sendo os dias do ano e, s = 365.
Considerando que uma data de nascimento é uma seleção aleatória de um elemento de

S , então, para E = { nenhuma coincidência de datas de aniversário no grupo }:
n−1
Y
k
P (E) = 1− .
k=1
365
Por exemplo, para um grupo de n = 4 pessoas

1 2 3
P (E) = 1− 1− 1− = 0.9836.
365 365 365
Desta forma, a probabilidade de que, num grupo de quatro pessoas, pelo duas delas
façam aniversário na mesma data, é de 1 − 0.9836 = 0.0164.
1.6.2 Permutações
Considere n caixas e n bolas distintas, numeradas de 1 a n. De quantas meneiras diferen-

tes podem-se colocar as n bolas nas n caixas, de modo que cada caixa contenha exatamente
1 bola?
O número de bolas possíveis para se colocar na primeira caixa é n, na segunda caixa é
(n − 1), na terceira (n − 2), e assim por diante, sendo que, para a n−ésima caixa, só restará
uma bola. O número de possibilidade, assim definido, é dado pela permutação das n bolas
Pn = n (n − 1) (n − 2) . . . 1 = n!
Na permutação, uma número n de objetos ou items são reorganizados em n posições

distintas, tal que, cada posição seja ocupada por apenas um item.
Assim sendo, uma compsição específica de bolas nas caixas tem probabilidade de ocor-
rência
1 1
=
Pn n!
32
Qual é a probabilidade de que a bola i seja colocada na caixa j , i, j = 1, 2, ...n?

Fixando uma bola e uma caixa restam (n − 1) bolas para serem permutadas nas (n − 1)
caixas, logo, o número de possibilidade tal que a bola i esteja na caixa j é dado por Pn−1 =
(n − 1)!. Desta forma, a probabilidade do evento A = { a bola i seja colocada na caixa j } é
Pn−1 (n − 1)! 1
P (A) = = = .
Pn n! n
Por sua vez, a probabilidade de que, permutando-se n bolas em n caixas, exatamente k

bolas caiam em k caixa específicas é dada por:
Pn−k (n − k)! 1
= = .
Pn n! An,k
Exemplo 4) Numa festa de final de ano, n = 8 casais concordam em participar de uma

brincadeira na qual, todos os casais participantes são separados e novos pares são formados
por sorteio para dançarem pelo menos uma música. Qual é a probabilidade de que exata-
mento 4 casais sejam mantidos, ou seja, 4 garotas fiquem com seus respectivos namorados?
Defindo o evento A = { 4 casais sejam mantidos }, então, n = 8 e k = 4, logo
(8 − 4)! 1
P (A) = = = 0.000595.
8! A8,4
1.6.3 Amostras Desordenadas
Considere o conjunto S , com s elementos, logo existem As,n amostras distintas de ta-
manho n, n < s, extraídas sem reposição. Nesta situação, considera-se a ordem das ob-
servações na amostra, ou seja, amostras com os elementos em diferentes ordenações são
consideradas distintas.
Em muitas situações, no entanto, o interesse recai nos elementos da amostras, indepen-
dente da ordem em que são selecionados. É o caso de amostras desordenadas. Neste
sentido, uma amostra sem reposição {x1 , x2 , . . . , xn } pode ser reordenada de n! maneiras di-
ferentes (todas com os mesmos elementos), fato este, que deve ser considerado no momento
da contagem.
Portanto, dividindo o número de amostras sem reposição pelo total de reordenações,
obtem-se o número de amostras possíveis, sem reposição e sem considerar a ordem dos
33
elementos, ou seja,
As,n
n!
Multiplicando-se o numerador e denominador por (s − n)!, tem-se
As,n s(s − 1) · · · (s − n + 1) (s − n)! s!

= =
n! n! (s − n)! n! (s − n)!
O termo As,n /n! é conhecido

! como coeficiente binomial ou combinação, podendo ser re-
s
presentado por Cs,n ou . Logo, a combinação de s elementos, tomados n-a-n é dada
n
por
!
s s!
= , n < s.
n n! (s − n)!
Exemplo Considere a amostra {3, 1, 7}. como n = 3, o número de reordenações dos seus
elementos é 3! = 6:
{3, 1, 7}, {3, 7, 1}, {1, 3, 7}, {1, 7, 3}, {7, 3, 1} {7, 1, 3}
Notas:
!
a
a) O coeficiente é bem definido para a ∈ R e x ∈ N, por exemplo, se a = −π e
x
x = 3, então
!
−π −π(−π − 1)(−π − 2) π(π − 1)(π − 2)
= =− = −11.1497.
3 3! 6
b) Por definição, 0! = 1 e Aa,0 = 1.

!
p.def. a
c) Para a inteiro positivo, se x > a ou x < 0 =⇒ = 0;
x
Exemplo 5) Considere S = {1, 2, . . . , s}, um conjunto finito. Qual a probabilidade de se

extrair k < s elementos de S tal que os valores estejam em ordem crescente, ou seja, tal que
1 ≤ x1 < x2 < . . . < xk ≤ s?
34
O número de amostras de tamanho k < n que podem ser retiradas de S tal que não hajam
repetições é An,k = n(n − 1) . . . (n − k + 1).
Dessas As,k existem k! reordenações, das quais apenas uma contém os valores em
sequência.
Portanto, a probabilidade desejada é:
k! 1
P (A) = =
As,k Cs,k
Assumindo S = {1, 2, 3, 4, 5}, então s = 5 e k = 3 (amostras de tamamho 3 de um

conjunto com 5 elementos).
A seguir são apresentadas todas as amostras possíveis, com destaque em negrito para
as amostras nas quais os valores estão em ordem crescente.
1 2 3 1 2 4 1 2 5 1 3 4 1 3 5
1 3 2 1 4 2 1 5 2 1 4 3 1 5 3
2 1 3 2 1 4 2 1 5 3 1 4 3 1 5
2 3 1 2 4 1 2 5 1 3 4 1 3 5 1
3 1 2 4 1 2 5 1 2 4 1 3 5 1 3
3 2 1 4 2 1 5 2 1 4 3 1 5 3 1
1 4 5 2 3 4 2 3 5 2 4 5 3 4 5
1 5 4 2 4 3 2 5 3 2 5 4 3 5 4
4 1 5 3 2 4 3 2 5 4 2 5 4 3 5
4 5 1 3 4 2 3 5 2 4 5 2 4 5 3
5 1 4 4 2 3 5 2 3 5 2 4 5 3 4
5 4 1 4 3 2 5 3 2 5 4 2 5 4 3
. Amostras possíveis A5,3 = 60
. Reordenações 3! = 6
. Probabilidade do evento A = { extrair uma amostra de tamanho 3 com os valores em

ordem crescente }:
6 1
P (A) = = = 0.10
60 10
Exemplo 6) Qual é a probabilidade de se obter um royal straight flush numa mão de pôquer,
antes da troca de cartas?
Um royal straight flush é uma sequência com as maiores cartas (A, K, Q, J, 10), sendo
todas do mesmo naipe.
35
. Antes da troca de cartas tem-se A52,5 mãos possíveis.
. Reordenações: 5! = 120 possibilidades de se obter a mesma mão.
. Probabilidade do evento A = { obter a mão (A, K, Q, J, 10) com todas as cartas do

mesmo naipe }
4 × 5! 4 ∼
P (A) = = = 1.54 × 10−6
A52,5 C5,5
Fica como exercício para o leitor calcular as probabilidades de se obter as demais mãos
no jogo no pôquer (antes da troca das cartas).
. Straight flush (cinco cartas do mesmo naipe, em sequência);
. Quadra (quatro cartas do mesmo valor);
. Full house (uma trinca e um par);
. Flush (as cinco cartas do mesmo naipe);
. Straight (cinco cartas em sequência, sem consideração de naipes);
. Trinca (três cartas do mesmo valor);
. Dois pares (pares com cartas de valores distintos);
. Par (duas cartas do mesmo valor).
Exemplo 7) No jogo da megasena o que mais vantajoso:

A = { escolher d = 10 dezenas e jogar todas as combinações possiveis de 6 dezenas } ou
B = { fazer 210 jogos distintos de 6 dezenas }?
Espaço amostral Ω = {1, 2, 3, . . . , 60}
60!
Total de possibilidades com jogos de 6 dezenas: C60,6 = .
54! 6!
10!
Total de jogos possíveis de 6 dezenas dentre as d = 10 escolhidas: C10,6 = = 210.
4! 6!
Portanto, as chances de se ganhar na megasena são iguais para os dois casos visto que:
210
P (A) = P (B) = ≈ 4.2 × 10−6
C60,6
1.6.4 Partições
Seja uma população S , de tamanho s, dividida em k subpopulações S1 , S2 , . . . , Sk com

s1 , s2 , . . . , sk elementos, respectivamente.
Considerando o caso de amostras desordenadas e sem reposição, a probabilidade de
que, numa amostra de tamanho n sejam selecionados exatamente n1 , n2 , . . . , nk elementos
36
de S1 , S2 , . . . , Sk , tal que ni < si , i = 1, 2, . . . , k , é dada por

! ! !
s1 s2 sk
···
n1 n2 nk
P (n1 , n2 , . . . , nk ) = ! ,
s
n
k
X k
X
em que si = s e ni = n.
i=1 i=1
Exemplo 7) Num grupo de com 12 professores e 5 alunos do curso de Estatística, devem

ser escolhidas n = 5 pessoas para formar uma comissão para falar com o Reitor. Quantas
comissões podem ser formadas de tal forma que, dos escolhidos, 3 sejam professores e 2
sejam alunos?
O grupo tem um total de N = 12 + 5 = 17, desta forma, o total de comissões é dado por
!
17 17!
= = 6188 comissões.
5 12! 5!
O número de copmissões com exatamente 3 professores e 2 alunos é dado por

! !
12 5
= 2200 comissões com 3 prof. e 2 alunos.
3 2
Desta forma:
! !
12 5
3 2 2200
P (comissão com 3 professores e 2 alunos) = ! = = 0.355,
17 6188
5
Exemplo 8 - Captura e recaptura) Num lago há uma população de peixes de tamanho N .

Uma rede é lançada, m peixes são capturados e marcados, após o que, são devolvidos à
água.
A rede é lançada uma 2ª vez e um total de n peixes são capturados. Qual é a probabilidade
do evento:
A = { exatamente x, dentre os n peixes capturados no 2º lançamento, são marcados }
37
Após a primeira captura tem-se N peixes no lago, dos quais m são marcados.
Da partição da população desejamos que no segundo lançamento da rede sejam captu-
rados x peixes marcados e (n − x) não marcados, logo
! !
m N −m
x n−x
P (A) = ! (1.6)
N
n
Uma situação prática envolvendo o problema da captura e recaptura refere-se à estimação

do tamanho da população N .
Conhecendo m da primeira captura e tendo observado n e x do segundo lançamento da
rede, como podemos estimar o tamanho da população de peixes N ?
Da inferência estatística tem-se que uma estimativa para o tamanho da população é dada
pelo valor de N que maximiza a probabilidade em (1.6).
Assumindo, por exemplo, m = 50 e n = 30, qual é a probabilidade de que exatamente x

peixes do segundo lançamento da rede sejam marcados?
! !
50 N − 50
x 30 − x
P (A) = ! . (1.7)
N
30
Portanto, dado o número de peixes marcados na segunda captura, ou seja, dado x, o

tamanho da população de peixes no lago é estimado pelo valor de N que maximiza (1.7).
Simplificando ainda mais, considere m = 10 e n = 5. A probabilidade de que x = 1 peixe

do segundo lançamento da rede seja marcado é
! !
10 N − 10
1 4
P (A) = ! .
N
5
38
Com um pouco de álgebra, obtem-se
50(N − 10)(N − 11)(N − 12)(N − 13)

P (A) = , N > 13.
N (N − 1)(N − 2)(N − 3)(N − 4)
A seguir são apresentados a tabela com os cálculos para a obtenção de N e a curva com
o valor de P (A) versus N . Pelos valores apresentados, verifica-se que valor de N pode ser
estimatido em N = 49 ou N = 50.
N P (A)
14 0.0050
20 0.1354
30 0.3400
40 0.4165
48 0.4311
49 0.4313
50 0.4313
51 0.4311
60 0.4217
80 0.3814
100 0.3394
120 0.3029
Exemplo 9 - Jogo da Megasena) Retomando o problema da megasena, considere que

o apostador escolha um número d de dezenas e aposte todos os jogos possíveis com 6
dezenas. Se o apostador conseguir acertar as 6 dezenas sorteadas, além de ganhar na
sena, de quebra, ele consegue algumas quinas e quadras.
Quantas quinas e quadras o apostador consegue ao acertar as seis dezenas sorteadas?
De maneira geral, apostando nos Cd,6 jogos possíveis e acertando as 6 dezenas sortea-
das, tem-se
39
. ou seja, são 6 dezenas sorteadas, dentre as d escolhidas e (d − 6) não sorteadas;
. Q acertos dentre as 6 dezenas sorteadas e (6 − Q) erros, dentre as dezenas não

sorteadas;
! !
6 d−6
(1.8)
Q 6−Q
. se o apostador acertar as 6 dezenas, então Q = 6 e o número de senas é igual a

! ! ! !
6 d−6 6 d−6
= =1
6 6−6 6 0
Este resultado é óbvio, uma vez que o procedimento de escolha implica a inexistência de
repetições, logo, haverá apenas um jogo de seis dezenas coincidindo com as dezenas sorte-
adas. Mas, acertando a sena, quantas quinas e quadras são, também, obtidas?
O raciocínio é o mesmo que no caso anterior, isto é, tendo feito a sena, sendo Q acertos
dentre as 6 dezenas sorteadas e (6 − Q) erros dentre as não sorteadas, então
. fazendo Q = 5, o número de quinas obtidas é dado por

! ! ! !
6 d−6 6 d−6
= = 6(d − 6), d > 6
5 6−5 5 1
. da mesma forma, para Q = 4, o número de quadras é

! ! ! !
6 d−6 6 d−6 15 (d − 6)(d − 7)
= = , d > 6.
4 6−4 4 2 2
. Se d = 10, como no exercício anterior, então, além de ganhar na megasena, o apostador

conseguirá
! !
6 4
= 24 quinas e
5 1
! !
6 4
= 90 quadras
4 2
Pode-se generalizar o resultado em (1.8) para os casos em que o apostador acerte 5

dezenas (faz a quina) ou apenas 4 dezenas (faz a quadra). Desta forma, substituindo-se os
40
valores 6 na primeira linha de (1.8) por 5 e 4, respectivamente, pode-se calcular o número de

quinas e quadras, possíveis, para as duas situações.
i) Se o apostador acertar 5 das dezenas sorteadas:

! !
5 d−5
Q 6−Q
. com Q = 5, serão (d − 5) quinas, d > 6,

5(d − 5)(d − 6)
. com Q = 4, o número de quadras é igual a , d > 6.
2
ii) Acertando-se 4 dezenas: ! !

4 d−4
Q 6−Q
(d − 4)(d − 5)
. com Q = 4, consegue-se , quadras d > 6.
2
Na Tabela 1.2 são apresentados os números de senas, quinas e quadras se acertar 6, 5

ou 4 dezenas, dentre as d escolhidas, com todas as Cd,6 apostas possíveis.
Tabela 1.2: Número de senas, quinas e quadras na megasena nos jogos com d dezenas
escolhidas e combinadas.
Dezenas Acertos número
apostadas 6 5 4 de
d senas quinas quadras quinas quadras quadras jogos
6 1 0 0 1 0 1 1
7 1 6 0 2 5 3 7
8 1 12 15 3 15 6 28
9 1 18 45 4 30 10 84
10 1 24 90 5 50 15 210
11 1 30 150 6 75 21 462
12 1 36 225 7 105 28 924
13 1 42 315 8 140 36 1716
14 1 48 420 9 180 45 3003
15 1 54 540 10 225 55 5005
41
Teoria da Probabilidade Variáveis Aleatórias
2 Variáveis Aleatórias
Dado um fenômeno aleatório, definido num espaço de probabilidade (Ω, A , P ), tem-se o

interesse em conhecer a estrutura probabilística de quantidades associadas a esse fenômeno.
Para isso, se faz necessário a introdução do conceito de variável aleatória e a especificação
de modelos para tais variáveis.
Definição 2.1. Seja o espaço de probabilidade (Ω, A , P ), então, define-se por variável alea-
tória, ou simplesmente v.a., qualquer função X : Ω → R tal que:
n o
X −1
(Ω) = ω ∈ Ω : X(ω) ∈ I ∈ A ,
para todo intervalo I ⊂ R.

Uma variável aleatória é uma função que leva os elementos do espaço amostral Ω a um
subconjunto dos reais R (Figura 2.1).
Figura 2.1: Variável aleatória X : Ω → R.
Exemplo 2.1. As variáveis aleatórias são classificadas em dois tipos:
i) VA discreta: é aquela para a qual o conjunto I é um conjunto finito ou infinito enumerável,

por exemplo:
n o
a) I = 1, 2, 3, 4, 5, 6 ;
42
n o
b) I = N = 0, 1, 2, 3, 4, ... .
ii) VA contínua: é aquela para a qual o conjunto I é um conjunto infinito não enumerável,
ou seja, é uma v.a. que assume valores em intervalos de números reais, por exemplo:
a) I = R = (−∞, ∞);
b) I = [0, 1] ⊂ R.
Notas:
a) Para v.a.’s contínuas, a função que normalmente associa pontos de Ω ao conjunto I ⊆

R, é a função identidade;
b) Para v.a.’s discretas, a função que normalmente associa pontos de Ω ao conjunto I ⊆ R,

é uma contagem ou soma.
2.1 Variáveis Aleatórias Discretas
X é uma v.a. discreta, num espaço de probabilidade (Ω, A , P ), é uma n função com do- o
mínio em Ω e cujo contradomínio é um conjunto finito ou infinito enumerável x1 , x2 , x3 , . . .
n o
dos números reais R, tal que, ω ∈ Ω : X(ω) = xi é um evento para todo i e, portanto,
pode-se calcular a sua probabilidade de ocorrência
h i
P {ω ∈ Ω : X(ω) = xi } , i = 1, 2, 3, . . . .
Notas:
n o n o
a) Por simplicidade, representamos o evento ω ∈ Ω : X(ω) = xi por X = xi e as
probabilidades são simplificadas por:
h i
P {ω ∈ Ω : X(ω) = xi } = P (X = xi )
n o
∗ ∗
b) Se x ∈
/ I, então ω ∈ Ω : X(ω) = x = ∅, que também é um evento. Nesse caso,
h i
∗
P ω ∈ Ω : X(ω) = x = P (X = x∗ ) = 0
43
c) Se o conjunto I de possíveis valores de uma v.a. discreta X é formado por valores

inteiros, ou inteiros não negativos, então, X é uma v.a. inteira, ou uma v.a. interia não
negativa. A maioria das v.a.’s discretas são inteiras não negativas.
Definição 2.2. Função de probabilidade de uma v.a. discreta X é uma função p(x) que
o de X .
atribui probabilidade a cada um dosnpossíveis valores
Seja X assumindo valores I = x1 , x2 , x3 , . . . , então, para todo x ∈ I
p(x) = P (X = x).
Propriedades: A função p(x) de X em (Ω, A , P ) satisfaz:
a) 0 ≤ p(xi ) ≤ 1, ∀ xi ∈ I;
X
b) p(xi ) = 1.
i
Prova:
a) Como p(x) é uma medida de probabilidade, por definição, 0 ≤ p(x) ≤ 1;

n o
b) Como, por definição, os eventos w ∈ Ω : X(ω) = xi , i = 1, 2, . . . são disjuntos, então
X X
p(xi ) = P (X = xi )
i i
" #
[n o
=P w ∈ Ω : X(ω) = xi
i
= P (Ω) = 1.
Definição 2.3. Função de distribuição, também chamada de função de distribuição acu-

mulada (fda) de uma v.a. discreta X é uma função F (x) que retorna a probabilidade de X
assumir valores até o ponto x. n o
Seja X assumindo valores I = x1 , x2 , x3 , . . . , então, para todo x ∈ I
F (x) = P (X ≤ x).
Propriedades: F (x) apresenta as propriedades:
44
a) F (x) é uma função do tipo escada, ou seja, para os pontos xi , xi+1 ∈ I e x tal que
xi ≤ x < xi+1 ,
F (x) = F (xi ),
isto é, F (x) é constante no intervalo [xi , xi+1 ) (ver Figura 2.2).
b) Dada F (x), para xa e xb ∈ I, tal que xa < xb ,
P (xa < X ≤ xb ) = F (xb ) − F (xa ).
Desta forma, para um valor qualquer xi ∈ I, tem-se
p(xi ) = F (xi ) − F (xi−1 ),
ou seja, a probabilidade num ponto xi é dada pela altura do “degrau” em F (xi ).
Exemplo 2.2. Seja a v.a. X discreta, com distribuição de probabilidade dada por:
x p(x) F (x)
0 0.15 0.15
1 0.28 0.43
2 0.26 0.69
3 0.18 0.87
4 0.08 0.95
5 0.05 1.00
Assim, temos:
a) p(3) = P (X = 3) = 0.18;
b) F (2) = P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2) = 0.69;
c) P (1 ≤ X < 5) = P (0 < X ≤ 4) = F (4) − F (0) = 0.80,

4
X
Ainda: P (1 ≤ X < 5) = P (X = x) = 0.28 + 0.26 + 0.18 + 0.08 = 0.80;
x=1
d) P (2 ≤ X ≤ 4) = F (4) − F (1) = 0.52.
Exemplo 2.3. Considere 2 lançamentos independentes de uma moeda

n equilibrada. oDefinindo
X como sendo o número de caras nos 2 lançamentos, temos Ω = cc; cc̄; c̄c; c̄c̄ .
Logo:
45
h i
p(0) = P { c̄c̄ } X( c̄c̄ ) = 0 = 1/4

h i
p(1) = P { cc̄ } ∪ { c̄c } X( cc̄ ) = X( c̄c ) = 1 = 1/2

h i
p(2) = P { cc } X( cc ) = 2 = 1/4

Portanto, a função de probabilidade de X , é dada por:
x 0 1 2
p(x) 1/4 1/2 1/4
A função de distribuição da v.a. X , é dada por:



 0, x < 0;

 1/4, 0 ≤ x < 1;
F (x) =


 3/4, 1 ≤ x < 2;
x ≥ 2.

1,
Figura 2.2: Função distribuição acumulada da v.a. X
Exemplo 2.4. Seja uma v.a. X assumindo os valores { 3, 4, 5, 6 }. Obter k ∈ R de modo que
p(x) seja uma função de probabilidade:
p(x) = k (x − 2)2
46
X
Das propriedades da função de probabilidade, p(x) = 1, portanto:
x
k [(3 − 2)2 + (4 − 2)2 + (5 − 2)2 + (6 − 2)2 ] =1

k [1 + 22 + 32 + 42 ] =1
30k =1
1
k= .
30
(x − 2)2
Desta forma, a função de probabilidade de X é dada por p(x) = , x ∈ {3, 4, 5, 6}.
30
Exemplo 2.5. Considere o jogo no qual um alvo circular de raio 1 é dividido em n regiões
anelares concêntricas de raio 1/n, 2/n, . . . , 1. Lança-se um dardo ao acaso e, se ele atingir a
região Ai , delimitada pelos raios (i − 1)/n e i/n, i = 1, 2, . . . , n, ganha-se (n − i) reais (ver
Figura 2.3)
An 0
An−1 1
R=1
A2 n − 2
A1
n−1
Figura 2.3: Regiões anelares identificadas em vermelho e ganho obtido em azul.
Seja a v.a. X = importância ganha em um lançamento, obtenha a função de probabilidade

de X .
Aqui, o espaço de probabilidade (Ω, A , P ) é o espaço uniforme sobre o disco de raio 1.
X é uma v.a. discreta definida neste espaço, assumindo os valores {0, 1, 2, . . . , n − 1}.
Ainda, Ai = {X = n − i} é um evento que ocorre se, e só se, o dardo atinge a região
delimitada pelos círculos de raios (i − 1)/n e i/n.
47
A probabilidade para o evento Ai são dadas por:
área de Ai
P (X = n − i) =
área total
2 2
i i−1
π −π
n n
P (X = n − i) =
π
i2 − (i2 − 2i + 1)
P (X = n − i) =
n2
2i − 1
P (X = n − i) = , i = 1, 2, . . . , n.
n2
Com x = n − i, então, a função de probabilidade de X é:
2(n − x) − 1


 , x ∈ {0, 1, 2, . . . , (n − 1)}
n2

p(x) =


0, c.c.

Com p(x) assim definida:
i) Certifique-se de que p(x) é de fato uma função de probabilidade;
ii) Calcule a probabilidade de se acertar a região mais central do alvo (mosca).
2.2 Principais modelos de discretos
2.2.1 Variável Aleatória Constante
Seja uma v.a. X que associa um único valor k ∈ R para todo ω ∈ Ω.

Então {ω ∈ Ω | X(ω) = k} é todo o espaço amostral Ω e, X(ω) = k é uma v.a. discreta
com função de probabilidade: (
1, x = k
p(x) =
6 k.
0, x =
A função de probabilidade de uma v.a. é também chamada de degenerada em k e sua
48
função de distribuição é dada por

(
0, x < k
F (x) =
1, x ≥ k.
Na Figura (2.4) são apresentadas as funções de probabilidade p(x) e de distribuição F (x)

para o modelo degenerado num ponto.
●
1
1
F(x)
p(x)
k k
X X
Figura 2.4: Funções de probabilidade (esquerda) e de distribuição (direita) do modelo dege-

nerado num ponto
2.2.2 Distribuição uniforme discreta
Considere a v.a. X assumindo valores em I = {x1 , x2 , . . . , xn }. X tem distribuição uni-

forme discreta se cada elemento de I tiver mesma probabilidade, ou seja
1

 n, x∈I


p(x) = P (X = x) =


0, x ∈
/I

Notação: X ∼ Ud (I)
Notas:
i) O modelo uniforme discreto considera que os elementos x1 , x2 , . . . , xn de I são equi-

prováveis.
49
ii) Normalmente I é um subconjunto dos naturais (I ⊂ N) definido por limites [a, b], em que
a < b são os parâmetros do modelo. Neste caso
X ∼ Ud (a, b).
A função de distribuição acumulada da v.a. da uniforme discreta é definida por

P
i I[xi |xi ≤x]
F (x) = x ∈ {x1 , x2 , . . . , xn },
n
em que I[xi |xi ≤x] = 1, se xi ≤ x e I[xi |xi ≤x] = 0, caso contrário.
Exemplo 2.6. Considere o lançamento de um dado equilibrado e seja a v.a. X = valor

observado, então, I = {1, 2, 3, 4, 5, 6} e X ∼ Ud (1, 6)
1
p(x) = , x = 1, 2, 3, 4, 5, 6;
6
x
F (x) = x = 1, 2, 3, 4, 5, 6.
6
Na Figura (2.5) são apresentadas as funções de probabilidade e de distribuição acumulada

para o exemplo.
1/6
●
1
● ●
● ●
F(x)
p(x)
● ●
● ●
● ●
1 2 3 4 5 6 1 2 3 4 5 6
X X
Figura 2.5: Funções de probabilidade (esquerda) e de distribuição (direita) do modelo Ud (1, 6)
50
2.2.3 Distribuição de Bernoulli
Considere, agora, um evento A ⊂ Ω, tal que, X(ω) = 1, se ω ∈ A e X(ω) = 0, se ω ∈ Ac ,

então, A ocorre se, e só se, X(ω) = 1.
A v.a. X é uma variável indicadora de A, pois o valor de X indica a ocorrência de A e,
P (A) = P [{ω ∈ Ω | X(ω) = 1}] = P (X = 1)
Normalmente, o evento A é chamado de sucesso e Ac de fracasso e a v.a. assim de-

finida, é chamada de v.a. de Bernoulli, em que p = P (A) é a probabilidade de sucesso e
(1 − p) = P (Ac ) é a probabilidade de fracasso.
Notas:
i) Uma realização da v.a. de Bernoulli recebe o nome de “ensaio de Bernoulli ”.
ii) Ensaio de Bernoulli é todo experimento com apenas dois resultados possíveis, denota-
dos por sucesso e fracasso. Esses resultados são representados pelos valores 1 e 0 da
v.a. X , com probabilidades de corrência p e (1 − p), respectivamente. Assim,

X = 1, representa um sucesso,
X = 0, representa um fracasso.
iii) A probabilidade de sucesso p é o parâmetro do modelo de Bernoulli.
Seja X uma variável de Bernoulli com probabilidade de sucesso p, então, sua função de
probabilidade é definida por

 1 − p, x = 0

p(x) = p, x=1

0, x 6= 1 e x 6= 0.

Notação: para indicar que uma v.a. tem distribuição de Bernoulli, usamos a seguinte
notação:
X ∼ Bernoulli(p).
A função de probabilidade para o modelo de Bernoulli pode ser mais elegantemente re-
presentada por:
p(x) = px (1 − p)1−x , x = 0, 1.
51
A função de distribuição para o modelo de Bernoulli, por sua vez, é dada por


0, x<0
F (x) = 1 − p, 0 ≤ x < 1

1, x ≥ 1.

A Figura (2.6) apresenta as funções de probabilidade e de distribuição acumulada para o

modelo de Bernoulli com parâmetro p.
Nota: Como veremos no restante da seção, a v.a. de Bernoulli serve de base para a
definição de grande parte dos modelos discretos de probabilidade.
1−p
1
1−p
● ●
F(x)
p(x)
0 1 0 1
X X
Figura 2.6: Funções de probabilidade (esquerda) e de distribuição (direita) do modelo

Bernoulli (p)
2.2.4 Distribuição binomial
Exemplo 2.7. Considere o experimento no qual uma moeda honesta é lançada três vezes,
sendo que a probabilidade de se obter cara em um lançamento é p e de se obter coroa é
(1 − p), 0 ≤ p ≤ 1.
Para este experimento, o espaço amostral é dado por
Ω = {(c, c, c), (c, c, c̄), (c, c̄, c), (c̄, c, c), (c, c̄, c̄), (c̄, c, c̄), (c̄, c̄, c), (c̄, c̄, c̄)}
em que c = cara e c̄ = coroa.

Definindo a v.a. X = número de caras obtidos nos três lançamentos, determinar a função
de probabilidade de X .
52
Para cada elemento do espaço amostral, a v.a. X assume os valores:
ω = (c, c, c) ⇒ X(c, c, c) = 3

ω = (c, c, c̄) 

ω = (c, c̄, c) ⇒ X(c, c, c̄) = X(c, c̄, c) = X(c̄, c, c) = 2

ω = (c̄, c, c)


ω = (c, c̄, c̄) 

ω = (c̄, c, c̄) ⇒ X(c, c̄, c̄) = X(c̄, c, c̄) = X(c̄, c̄, c) = 1

ω = (c̄, c̄, c)

ω = (c̄, c̄, c̄) ⇒ X(c̄, c̄, c̄) = 0
Uma vez que os lançamentos da moeda são independentes, a v.a. X tem a seguinte
função de probabilidade:
x p(x)
0 (1 − p)3
1 3p(1 − p)2
2 3p2 (1 − p)
3 p3
Os três elementos de Ω para os quais X = 2, resultam das possíveis combinações nas

quais são obtidas duas cara e uma coroa, implicando que a probabilidade individual p2 (1 − p)
seja multiplicada por 3. Desta forma, a probabilidade P (X = 2) pode ser escrita como

3 2
p(2) = p (1 − p).
2
O mesmo acontece com X = 1, resultado das possíveis combinações nas quais se obtem
uma cara nos três lançamentos da moeda, sendo a probabilidade P (X = 1) escrita por

3
p(1) = p(1 − p)2 .
1
Como podemos observar, p(x) é uma função de probabilidade discreta, pois:
i) p(x) ≥ 0 ∀ x = 0, 1, 2, 3, uma vez que 0 ≤ p ≤ 1;

3
X
ii) p(x) = [p + (1 − p)]3 = 1.
x=0
53
Considerando que a moeda é honesta, ou seja p = 1/2, temos
x 0 1 2 3
p(x) 1/8 3/8 3/8 1/8
A distribuição de probabilidade acima, como veremos pela definição (2.4), é a distribuição

binomial com parâmetros n = 3 e p = 0.5.
Definição 2.4. Considere n repetições independentes de um ensaio de Bernoulli cuja proba-
bilidade de sucesso é P (sucesso) = p e seja a v.a. X que conta o número de sucesso nas n
realizações independentes do ensaio, então, X tem distribuição binomial com parâmetros n
e p e a sua função de probabilidade é dada pela expressão

n x
p(x) = p (1 − p)n−x , x = 0, 1, . . . , n.
x
Notação: X ∼ binomial(n, p).
●
1
0.3
● ●
0.8
0.2
0.6
F(x)
p(x)
● ●
0.4
0.1
0.2
● ●
● ●
●
0
0 1 2 3 4 0 1 2 3 4
X X

binomial (4, 0.6)
Notas:
i) A distribuição de Bernoulli é um caso especial da binomial para o qual n = 1.
ii) A função de distribuição acumulada F (x) não tem uma forma explicita, sendo definda
por
X
F (x) = P (X = xi ).
xi ≤x
54
iii) Se a v.a. X conta os sucessos em n ensaios independentes de Bernoulli, X ∼ binomial(n, p).

Então, se nos mesmos n ensaios, a v.a. Y contar o número de fracassos:
Y ∼ binomial(n, 1 − p).
Exemplo 2.8. Uma indústria que produz placas para componentes eletrônicos, usadas na fa-
bricação de celulares, afirma que no processo de produção dessas placas 1% sai com defeito
nas furações. Considerando que na inspeção dessas placas, 10 unidades são selecionadas
aleatoriamente e avaliadas:
Defina uma v.a. para esse caso e determine a sua função de probabilidade p(x).
Uma vez que p(x) seja definida, qual é a probabilidade de que a inspeção encontre:
a) exatamente uma placa com defeito?
b) pelo menos uma placa com defeito?
c) no máximo três placas com defeito?
A inspeção de cada uma das placas resulta em um, dentre dois resultados possíveis (placa
com defeito ou placa boa), o que caracteriza um ensaio de Bernoulli no qual o resultado
de interesse (sucesso) é dado pela placa com defeito. Alé disso, como as inspeções são
independentes, a probabilidade de uma placa ser defeituosa (dada pelo índice de defeitos da
produção, ou seja, p = 0.01) é comum a todos os ítens produzidos.
Portanto, definindo a v.a. X = número de placas com defeito encontradas na inspeção das
n = 10 placas selecionadas, X tem distribuição binomial com parâmetros n = 10 e p = 0.01
e sua função de probabilidade é dada por

10
p(x) = P (X = x) = (0.01)x (0.99)10−x , x = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.
x
As probabilidades solicitadas nos itens (a), (b) e (c) são, portanto, calculadas por

10
a) p(1) = P (X = 1) = (0.01)1 (0.99)9 = 0.09135.
1
b) Pelo evento complementar temos que:
P (X ≥ 1) = 1 − P (X = 0) = 1 − (0.99)10 = 0.09562
c)
F (3) = P (X ≤ 3) = P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3)
= 0.90438 + 0.09135 + 0.00415 + 0.00011 = 0.99999
55
Exemplo 2.9. Uma indústria vende um produto em embalagens de ½ kg. O processo de

empacotamento tem como limite inferior o peso de 495 g , sendo que, os pacotes devem ter
peso superior a este limite. Apesar da automação, o processo produz 6% de pacotes abaixo
do limite, o que preocupa o dono da indústria numa possível inspeção.
Nas inspeções, os fiscais do órgão competente costumam recolher 20 pacotes do produto
das prateleiras dos supermercados e pesar cada um deles. Desta forma, qual é a probabili-
dade de que:
a) apenas um pacote esteja abaixo do limite de peso?
b) no máximo dois pacotes estejam abaixo do limite de peso?
Seja a v.a. X = número de pacotes, da amostra, abaixo do limite de peso.

Então, X ∼ binomial(20, 0.06).
Respostas:
a)
20
P (X = 1) = (0.06)(0.94)19 = 0.3703;
1
b)
F (2) = P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2)

20 20
= (0.94) + 0.3703 + (0.06)2 (0.94)18
2
= 0.2901 + 0.3703 + 0.2246 = 0.8850.
2.2.5 Distribuição geométrica
Definição 2.5. Considere uma sequência de ensaios independentes de Bernoulli com proba-
bilidade de sucesso igual a p e seja a v.a. X que conta o número de fracassos até a ocorrência
do primeiro sucesso. Então, X tem distribuição geométrica com parâmetro p e a sua função
de probabilidade é dada pela expressão
p(x) = p(1 − p)x , x = 0, 1, 2, . . .
Notação: X ∼ geométrica(p).
Exemplo 2.10. Num jogo de cassino, dois dados são lançados por um jogador que aposta
uma certa quantia de dinheiro antes do lançamento. O jogador dobra o valor apostado se
obter soma 11 ou 12 nos dados. Para tentar dobrar a posta, porém, o jogador tem até 3
tentativas, após as quais, ele perde o que apostou e precisa apostar novamente para continuar
jogando.
56
Qual é a probabilidade do jogador dobrar a aposta numa rodada de lançamentos?

Seja a v.a. X = número de lançamentos com somas diferentes de 11 ou 12, até que o
jogador ganhe.
Então, X ∼ geométrica(p).
Mas, qual deve ser o valor de p?
Para isso precisamos do espaço amostral para os lançamentos dos dados:
Ω = {(i, j) ∈ N2 | 1 ≤ i ≤ 6 e 1 ≤ j ≤ 6}, (Ω é equiprovável)
Seja o evento A = { valores favoráveis ao jogador }, então, A = {(6, 5), (5, 6), (6, 6)}.
Logo, a probabilidade de sucesso p é igual a P (A), isto é:
3 1
p= = .
36 12
Assim, o jogador dobra o valor apostado se:
I sair soma 11 ou 12 no primeiro lançamento dos dados;
I sair soma 11 ou 12 no segundo lançamento, não tendo saído no primeiro;
I sair soma 11 ou 12 no terceiro lançamento, não tendo saído no primeiro nem no se-
gundo lançamentos.
Desta forma, temos que calcular P (X ≤ 2), uma vez que X conta os fracassos até o
primeiro sucesso. Portanto:
F (2) = P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2)
0 1 2
1 11 1 11 1 11
= + +
12 12 12 12 12 12
" 2 #
1 11 11
= 1+ +
12 12 12
= 0.2297.
Priopriedades:
i) A função de distribuição acumulada F (x) é de fácil obtenção, sendo calculada a partir
57
do resultado
∞
X
P (X ≥ x) = P (X = k)
k=x
= p(1 − p)x + p(1 − p)x+1 + p(1 − p)x+2 + . . .

(1 − p)x
=p
1 − (1 − p)
= (1 − p)x .
Desta forma, temos que a função distribuição acumulada F (x) é dada por
F (x) = P (X ≤ x)
F (x) =1 − P (X ≥ x + 1)
F (x) = 1 − (1 − p)x+1 .
No exemplo acima, p = 1/12 e, portanto:

3
11
F (2) = P (X ≤ 2) = 1 − = 0.2297.
12
ii) A v.a. geométrica pode, ainda, ser definida como Y = número de ensaios até o primeiro
sucesso. Neste caso, Y assume valores a partir do 1, ou seja, y ∈ {1, 2, 3, . . .} e, em
função disto, a sua função de probabilidade passa a ser escrita como
p(y) = P (Y = y) = p(1 − p)y−1 , y ∈ N∗ ,
em que N∗ é o conjunto dos naturais, excluindo-se o zero, ou seja, N∗ = N − {0}.
Nota: Se a v.a. X conta o número de fracassos até o primeiro sucesso e a v.a. Y conta
o número de ensaios até o primeiro sucesso, então, a relação1 entre elas é dada por:
Y = X + 1 e:


 p(y) = P (Y = y) = P (X + 1 = y) = P (X = y − 1) = p(1 − p)y−1 ;





P (Y ≥ y) = (1 − p)y−1 ;





 F (y) = P (Y ≤ y) = 1 − P (Y ≥ y + 1) = 1 − (1 − p)y .

1
A relação entre duas v.a. discretas será vista em mais detalhes na seção funções de v.a.’s.
58
iii) Uma propriedade importante da v.a. geométrica é a falta de memória, representada

pela relação
P (X ≥ x + k | X ≥ x) = P (X ≥ k).
Ou seja, dado que X já atingiu o valor x, a probabilidade de alcançar o valor x + k só

depende de k , reiniciando-se a contagem.
Prova:
P [(X ≥ x + k), (X ≥ x)]

P (X ≥ x + k | X ≥ x) =
P (X ≥ x)
P (X ≥ x + k)
=
P (X ≥ x)
(1 − p)x+k
=
(1 − p)x
= (1 − p)k = P (X ≥ k)
Exemplo 2.11. Considere um processo de produção cuja proporção de defeitos é de 0.03.
No processo de produção os itens são inspecionados um-a-um até que apareça o primeiro
com defeito quando, então, o processo é interrompido e ajustado.
a) Determine a probabilidade de que o processo seja ajustado sómente após o 40º item
produzido.
Seja X = número de itens bons até o primeiro com defeito.
Então: X ∼ geométrica(0.03).
Temos que calcular:
P (defeito no item 41 ou defeito no item 42 ou . . .) = P (X ≥ 40)

= (1 − 0.03)40
= (0.97)40 = 0.2957.
b) Sabendo que já foram produzidos 25 itens, não havendo nenhum defeito, qual é a pro-
babilidade de que o primeiro item com defeito apareça após o 35º item produzido?
P (X ≥ 35 | X ≥ 25) = P (X ≥ 35 − 25)
= (0.97)10 = 0.7374.
59
c) Qual deve ser o intervalo de manutenção preventiva k se desejamos que nenhum item
com defeito ocorra entre duas manutenções consecutivas com probabilidade de pelo
menos 0.50?
Devemos obter k tal que P (X ≥ k) ≥ 0.50.
Tomando a igualdade, temos P (X ≥ k) = 0.50 = (0.97)k , logo, o valor de k é dado por
(0.97)k = 0.50
k ln(0.97) = ln(0.50)
ln(0.50)
k= = 22.8
ln(0.97)
Ainda:
I se k = 22 =⇒ P (X ≥ 22) = (0.97)22 = 0.5117.

I se k = 23 =⇒ P (X ≥ 23) = (0.97)23 = 0.4963.
Logo, as manutenções devem ser feitas a cada 22 itens produzidos.
2.2.6 Distribuição binomial negativa
Definição 2.6. Considere uma sequência de ensaios independentes de Bernoulli com proba-
bilidade de sucesso igual a p. A v.a. X que conta o número de fracassos até a ocorrência do
r−ésimo sucesso tem distribuição binomial negativa com parâmetro r > 0 e p e sua função
de probabilidade é dada por

x+r−1 r
p(x) = p (1 − p)x , x = 0, 1, 2, . . . (2.1)
r−1
Notação: X ∼ BN (r, p).

x+r−1
Nota: O termo refere-se ao número de combinações possíveis para os
r−1
(x + r − 1) ensaios, anteriores ao r−ésimo sucesso, dos quais x são fracassos e (r − 1)
são sucessos.
Exemplo 2.12. Numa linha de montagem de uma grande indústria os parafusos são forne-
cidos em caixas com 50 unidades cada, sendo que a compra dos parafusos é feita em lotes
de 250 caixas. No recebimento dos parafusos o setor competente retira uma caixa do lote e
realiza uma inspeção, aceitando o lote se até a inspeção da metade da caixa, no máximo 2
60
parafusos tiverem a rosca “espanada” (aceitando o lote a empresa arca com o prejuízo dos
demais parafusos que vierem a espanar). Por outro lado, se até a inspeção da metade da
caixa, três ou mais parafusos espanarem, o lote todo é devolvido ao fornecedor. Considerando
que o fabricante dos parafusos afirma que 9% dos parafusos produzidos acabam espanando
na hora do uso, cacule a probabilidade de que a devolução do lote ocorra exatamente ao se
testar a metade da caixa de parafusos.
Seja X = número de parafusos bons até o 3º ruim.
Note que, o lote será devolvido se ao se testar o 25º parafuso, aparecer o 3º ruim, logo
I x = 25 − 3 = 22 parafusos bons e
I r = 3 parafusos espanados.
Desta forma, X tem distribuição X ∼ BN (3, 0.09).

22 + 3 − 1
P (X = 22) = (0.09)3 (0.91)22
3−1

24
= (0.09)3 (0.91)22
2
= 0.0253.
Exemplo 2.13. Uma linha de produção adota-se como critério de parada para regulagem das
máguinas a observação do k−ésimo item com defeito. Sabendo que a proporção de defeitos
é 0 ≤ p ≤ 1, qual é a probabilidade de que a produção tenha que ser interrompida para
regulagem na n−ésima peça produzida?
Se X = número de peças boas até a k−ésima com defeito, X ∼ BN (k, p).

(n − k) + k − 1 k
P (X = n − k) = p (1 − p)n−k
k−1

n−1 k
= p (1 − p)n−k .
k−1
Notas 2.1. Das relações entre as combinações, temos uma forma alternativa da binomial
61
negativa. Considere

x+r−1 x+r−1 x −r
= = (−1) ,
r−1 x x

−r x (−r)(−r − 1) · · · (−r − x + 1)
em que: (−1) = .
x x!
Portanto, a função de probabilidade da binomial negativa, em (2.1), pode ser escrita na

forma alternativa
x−r r
p(x) = (−1) p (1 − p)x , x = 0, 1, 2, . . .
x
Exemplo 2.14. Considere X ∼ BN (4, 0.25), calcular P (X = 5).

x + r − 1 = 5 + 4 − 1 = 8 e r − 1 = 3, logo

8
i) p(5) = (0.25)4 (0.75)5 = 0.0519;
3
(−4)(−5)(−6)(−7)(−8) 6720
ii) p(5) = (−1)5 (0.25)4 (0.75)5 = (0.25)4 (0.75)5 = 0.0519.
5! 5!
2.2.7 Distribuição hipergeométrica
Definição 2.7. Considere uma população de tamanho N , sendo que m indivíduos (ou ele-
mentos) desta população apresentam uma crarcterística de interesse e (N − m) não apre-
sentam a tal característica, portanto, a população é particionada em duas subpopulações.
Uma amostra de tamanho n é retirada ao acaso e sem reposição desta população, sendo
que, para cada elemento da amostra é observada a presença, ou não, da característica de
interesse.
Nota: A característica de interesse pode ser a presença de uma doença, um hábito de
comportamento, uma característica física, um defeito ou falha ou até o resultado de uma
mensuração classificado por um ponto de corte. Com a população particionada em duas, a
observação individual de cada elemento da amostra caracteriza um ensaio de Bernoulli.
A diferença da situação aqui apresentada com o modelo binomial é que, neste caso, a
amostra é retirada sem reposição, fazendo com que os ensaios de Bernoulli não sejam mais
independentes.
Seja a v.a. X = número de elementos na amostra que apresentam a característica de

interesse.
62
Então, X tem distribuição hipergeométrica com parâmetros m, N e n
Notação: X ∼ HG(m, N, n).
A função de probabilidade do modelo hipergeométrico é dada por:

m N −m
x n−x
p(x) = P (X = x) = , max{0, n − (N − m)} ≤ x ≤ min{m, n}.
N
n
Exemplo 2.15. Sabe-se que um gene recessivo, responsável por uma doença, aparece em
16% da população sem que a mesma se manifeste. Se, de uma população de tamanho 500,
selecionamos ao acaso uma amostra sem reposição com 20 pessoas, qual é a probabilidade
de que encontremos 3 portadoras do gene?
Seja X = número de pessoas na amostra com o gene.
Se, da população 16% apresentam o gene, então m = 500(0.16) = 80, logo:
X ∼ HG(80, 500, 20).
Como, n − (N − m) = 20 − (500 − 80) = −400, temos que
I max{0, n − (N − m)} = max{0, −400} = 0;
I min{m, n} = min{80, 20} = 20,
então 0 ≤ x ≤ 20.
Calculando a probabilidade:

80 420
3 17 (82160)(7.9737 × 1029 )
p(3) = = = 0.2456.
500 2.66720 × 1035
20
Calcule a probabilidade de que seja encontrado apenas uma pessoa portadora do gene.

80 420
1 19 (80)(3.77718 × 1032 )
p(1) = = = 0.1133.
500 2.66720 × 1035
20
63
Os cálculos foram feitos no R com o comando choose(n,k) (ver Quadro 1).
Quadro 1: Cálculo da hipergeométrica no R

1 > ##
> choose (80 ,3)
3 [1] 82160
> choose (420 ,17)
5 [1] 7.973741 e +29
> choose (500 ,20)
7 [1] 2.667199 e +35
> p3 <- choose (80 ,3)* choose (420 ,17)/ choose (500 ,20)
9 > round ( p3 ,4)
[1] 0.2456
11 > ##
> choose (80 ,1)
13 [1] 80
> choose (420 ,19)
15 [1] 3.777175 e +32
> p1 <- choose (80 ,1)* choose (420 ,19)/ choose (500 ,20)
17 > round ( p1 ,4)
[1] 0.1133
19 > ##
Exemplo 2.16. Quatro peças com defeito foram acidentalmente misturadas num lote com ou-
tras 16 peças boas. Selecionando-se 5 peças sem reposição, qual é a probabilidade de que
2 sejam defeituosas? E pelo menos 2?
Seja X = número de peças com defeito na amostra.
X ∼ HG(4, 20, 5).
Condição:
I max{0, n − (N − m)} = max{0, −11} = 0;
I min{m, n} = min{4, 5} = 4,
então 0 ≤ x ≤ 4.
Calculando
as probabilidades:

4 16
2 3 (6)(560)
p(2) = = = 0.2167.
20 15504
5
64
P (X ≥ 2) = 1 − F (1) = 1 − [P (X = 0) + P (X = 1)] = 1 − (0.2817 + 0.4696) = 0.2487.
Relação entre a hipergemométrica e binomial

m N −m
x n−x
p(x) =
N
n
m! (N − m)!
×
x!(m − x)! (n − x)! [(N − m) − (n − x)]!
p(x) =
N!
n!(N − n)!
n!(N − n)! m! (N − m)!

p(x) = × ×
N! x!(m − x)! (n − x)! (N − m − n + x)!
n! (N − n)! m! (N − m)!
p(x) = × × × (2.2)
x!(n − x) N! (m − x)! (N − m − n + x)!
Desenvolvendo cada um dos três últimos termos da expressão (2.2), obtem-se
(N − n)! (N − n)!
=
N! N (N − 1) (N − 2) · · · (N − n)!
1
=
N (N − 1) (N − 2) · · · (N − n + 1)
1
= 1
2
n−1

N N 1− N
N 1− N
···N 1 − N
1
= Qn−1 i
(2.3)
Nn i=1 1− N
65
m! m (m − 1) (m − 2) · · · (m − x)!
=
(m − x)! (m − x)!
= m (m − 1) (m − 2) · · · (m − x + 1)

1 2 x−1
=mm 1− m 1− ···m 1 −
m m m
x−1
Y
x j
=m 1− (2.4)
j=1
m
(N − m)! (N − m) (N − m − 1) (N − m − 2) · · · [(N − m − n + x)]!

=
[(N − m − n + x)]! [(N − m − n + x)]!
= (N − m) (N − m − 1) (N − m − 2) · · · [(N − m) − (n − x) + 1]

1 n−x−1
= (N − m) (N − m) 1 − · · · (N − m) 1 −
N −m N −m
n−x−1
Y
n−x k
= (N − m) 1− (2.5)
k=1
N −m
Substituindo-se os resultados em (2.3), (2.4) e (2.5) em (2.2), p(x) pode ser reescrita
como:
! " Qx−1 j Qn−x−1 #
k

n x
m (N − m) n−x
j=1 1− m
× k=1 1− N −m
p(x) = Qn−1
Nn i

x i=1 1− N
m
Aplicando o limite para N → ∞, então m → ∞, tal que → p.
N
i j k
Assim sendo: → 0, →0 e → 0.
N m N −m
66
Portanto,
!
n m x N − m n−x
p(x) ∼
=
x N N
!
n
p(x) ∼
= px (1 − p)n−x .
x
Ou seja, para N grande, a distribuição hipergeométrica se comporta como uma binomial

com parâmetros n e p = m/N .
Na prática isso significa que, se N for grande (N → ∞), não há diferença entre as amos-
tragens “com” e “sem” reposição.
Exemplo 2.17. Sabe-se que, numa população de tamanho 5000 proprietários de veículos,
apenas 130 são proprietários de Ferrari. Se uma amostra aleatória de 20 proprietários de
veículos é retirada sem reposição desta população, determine as probabilidade de que:
a) Exatamente 1 seja proprietário de ferrari;
b) Nenhum seja proprietário de ferrari;
c) No máximo 2 sejam proprietários de ferrari;

Seja a v.a. X = proprietário de ferrari na amostra, então, X ∼ HG(130, 5000, 20).
N = 5000 e m = 130, assim, proporção de proprietários de ferrari é igual a p = 0.026.
Como N é grande a distribuição de X pode ser aproximada pela binomial(20, 0.026). Na

Tabela (2.1) são apresentados os resultados obtidos com a distribuição hipergeométricae com
a aproximação pela binomial.
2.2.8 Distribuição de Poisson
Considere a situação na qual se observe a ocorrência de um determinado evento, como,

por exemplo, chamadas telefônicas; acessos a um sistema via web; chegadas de pessoas
numa fila de banco; microorganismos (bactérias ou coliformes) em amostras de água, etc...
Definição 2.8. Seja a v.a. X que conta a ocorrência de um evento por unidade de medida
(tempo, área, volume, etc...), então, X tem distribuição de Poisson com parâmetro λ e sua
função de probabilidade é da forma:
λx e−λ
p(x) = P (X = x) = , x = 0, 1, 2, . . . .
x!
67
Tabela 2.1: Aproximação da HG(130, 5000, 20) pela binomial(20, 0.026).

calculado pela Aproximado pela erro
Cálculo hipergeométrica binomial relativo

130 4870

1 19 20
a) P (X = 1) = 0.3161 (0.026)1 (0.974)19 = 0.3152 0.28%
5000 1
20

130 4870

0 20 20
b) P (X = 0) = 0.5898 (0.026)0 (0.974)20 = 0.5904 0.10%
5000 0
20

130 4870

2 18 20
c) P (X = 2) = 0.0798 (0.026)2 (0.974)18 = 0.0799 0.13%
5000 0
20
então, P (X ≤ 2) = 0.9857 P (X ≤ 2) ≈ 0.9855 0.20%
68
X ∼ P oisson(λ).
Notas:
i) O parâmetro λ é a taxa de ocorrência do evento.
ii) O modelo de Poisson também aparece na forma
(λ∆t)x e−λ∆t
p(x) = P (X = x) = , x = 0, 1, 2, . . . , (2.6)
x!
em que ∆t é o intervalo de ocorrência (na maioria das vezes o tempo).
Exemplo 2.18. Na fila de um banco, em horário de pico, os clientes chegam a uma taxa de
2.5 por minuto. Qual é a probabilidade de que, em um minuto:
a) Chegue apenas um cliente?
b) Cheguem no máximo 3 clientes?
c) cheguem pelo menos 3 clientes?
d) Qual é a probabilidade de que, em 5 minutos, 10 clientes entrem na fila?
Seja a v.a. X = número de clientes que chegam na fila do banco por minuto, então, λ = 2.5
clientes/min e X ∼ P oisson(2.5).
A função de probabilidade de X é dada por:
2.5x e−2.5
p(x) = P (X = x) = , x = 0, 1, 2, . . . .
x!
a)
2.51 e−2.5
p(1) = P (X = 1) = = 0.2052
1!
b)
2.50 e−2.5 2.51 e−2.5 2.52 e−2.5 2.53 e−2.5

F (3) = P (X ≤ 3) = + + +
0! 1! 2! 3!
= = 0.0821 + 0.2052 + 0.2565 + 0.2138 = 0.7576
69
c)
P (X ≥ 3) = 1 − P (X ≤ 2) = 1 − (0.0821 + 0.2052 + 0.2565) = 0.4562
d) Seja a v.a. Y = número de clientes que chegam na fila em 5 minutos, então ∆t = 5,

λ∆t = 12.5 e Y ∼ P oisson(12.5).
Assim, utilizando a relação dada em (2.6), temos2 :
12.510 e−12.5
pY (10) = P (Y = 10) = = 0.0956.
10!
Nota: Na prática ocorre que, se X tem distribuição de Poisson com taxa λ = 2.5 clien-
tes/min, então, em 5 minutos, a taxa será de λ = 5 × 2.5 = 12.5 clientes/5min.
1
● ●
●
● ●
● ●
0.8
0.2
● ●
0.6
F(x)
p(x)
● ●
0.4
0.1
● ●
0.2
● ●
●
0
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7
X X
P oisson (2.5)
Exemplo 2.19. Uma oficina recebe microcomputadores para concerto segundo uma distri-
buição de Poisson com taxa de 3 equipamentos/dia. Qual a probabilidade de que num dia
comum cheguem 6 microcomputadores para concerto?
X = número de equipamntos que chegam para conserto em um dia, X ∼ P oisson(3).
36 e−3
p(6) = P (X = 6) = = 0.0504.
6!
2
O índice na função de probabilidade pY (10) indica que a probabilidade deve ser calculada, agora, a partir
da distribuição de probabilidade da v.a. Y .
70
Considere que a oficina tem bancadas para atender no máximo 5 equipamentos/dia e que
os equipamentos além desses 5 fiquem na espera ou desistam do serviço. Sendo assim, o
proprietário planeja ampliar as instlações para poder atender a demanda diária em até 99%
dos dias. De quanto ele deve ampliar suas instalações?
O que o dono da oficina deseja encontrar o valor de k tal que P (X ≤ k) ≥ 0.99, ou seja:
k
X 3x e−3
≥ 0.99
x=0
x!
Com uma tabela de probabilidades acumuladas temos:
x p(x) F (x)
0 0.0948 0.0948
1 0.1494 0.1992
2 0.2240 0.4232
3 0.2240 0.6472
4 0.1680 0.8152
5 0.1008 0.9160
6 0.0504 0.9664
7 0.0216 0.9880
8 0.0081 0.9961
Portanto, com k = 8 bancadas, ele consegue atender toda a demanda em 99% dos dias,
ou seja, ele precisa ampliar suas instalações em 3 bancadas.
Aproximação da binomial pela Poisson Seja X ∼ binomial(n, p), então, para n grande
e p pequeno, tal que λ = np é constante, a distribuição binomial pode ser aproximada pela
Poisson.
n!
Prova: p(x) = px (1 − p)n−x
x!(n − x)!
Para λ = np, então, p = λ/n e,

x n−x
n(n − 1)(n − 2) . . . (n − x)! λ λ
p(x) = 1−
x!(n − x)! n n
71
−x n
x n(n − 1)(n − 2) . . . (n − x + 1) λ λ
p(x) = λ 1− 1−
x! nx n n
−x n
λx

n n−1 n−x+1 λ λ
= ··· 1− 1−
x! n n n n n
−x n
λx

1 2 x−1 λ λ
= 1− 1− ··· 1 − 1− 1−
x! n n n n n
"x−1 # −x n
λx
Y k λ λ
= 1− 1− 1− (2.7)
x! k=1
n n n
Aplicando o limite para n → ∞ em cada uma das parcelas de (2.7), temos que:
"x−1 #
Y k
lim 1− =1 (2.8a)
n→∞
k=1
n
−x
λ
lim 1 − =1 (2.8b)
n→∞ n
n
λ
lim 1 − = e−λ (limite fundamental) (2.8c)
n→∞ n
Desta forma, substituindo (2.8a),(2.8b) e (2.8c) em (2.7), p(x) pode ser aproximada por:
λx e−λ
p(x) ≈
x!
Para n grande e p pequeno, tal que λ = np, a binomial se comporta como uma P oisson(λ).
Exemplo 2.20. O número de fraudes com cartões de crédito/débito tem aumentado ultima-
mente, mas ainda a proporção é baixa, sendo igual a 0.25%. Considerando que o gerente de
uma agência bancária possui 4000 clientes com cartões, qual é a probabilidade de ocorrência
de:
a) Uma única fraude.
b) Cinco freudes
72
c) Dez fraudes.
d) Não mais do que 15 fraudes.
Seja X = número de fraudes dentre os clientes do banco, X ∼ binomial(4000, 0.0025).
Com a aproximação pela P oisson, λ = 4000 × 0.0025 = 10 fraudes, logo:
10x e−10
p(x) ≈
x!
101 e− 10
a) p(1) ≈ = 0.000454
1!
105 e− 10
b) p(5) ≈ = 0.0378
5!
101 0e− 10
c) p(10) ≈ = 0.1251
10!
15
X 10k e− 10
d) F (15) = P (X ≤ 15) ≈ = 0.9513
k=0
k!
Nota: Valores calculados pelo R considerando a distribuição binomial (erro relativo entre
parênteses):

4000
a) p(1) = (0.0025)1 (0.9975)3999 = 0.000449, (1.01%)
1

4000
b) p(5) = (0.0025)5 (0.9975)3995 = 0.0377, (0.25%)
5

4000
c) p(10) = (0.0025)10 (0.9975)3990 = 0.1253, (0.13%)
10
15
X 4000
d) F (15) = P (X ≤ 15) = (0.0025)k (0.9975)4000−k = 0.9515, (0.023%)
k=0
k
2.2.9 Distribuições discretas no R
O software R tem funções programadas para o cálculo das distribuições de probabilidades

discretas. Cada uma delas é identificada pelo nome da distribuição, conforme mostra a Tabela
(2.2), precedido pelos prefixos d, p e q, indicando, respectivamente, se o cálculo é da função
de probabilidade (aqui identificada como densidade), função de distribuição ou do quantil.
Por exemplo, considere a distribuição binomial(n, p), então, temos os camandos:
a) dbinom(x,n,p) que retorna p(x) = P (X = x),
73
c) pbinom(x,n,p) que retorna F (x) = P (X ≤ x) e,
q) qbinom(q,n,p) que retorna o quantil associado à probabilidade q , ou seja, x = F −1 (q).
Nota: os prefixos d, p e q funcionam da mesma maneira para os demais modelos, mu-

dando apenas os parâmetros de cada um deles (Tabela 2.2).
Tabela 2.2: Modelos discretos de probabilidade no R

Modelo F. probabilidade F. distribuição (f.d.a.) Quantil
p(x) q = F (x) x = F −1 (q)
binomial dbinom(x,n,p) pbinom(x,n,p) qbinom(q,n,p)
geométrica dgeom(x,p) pgeom(x,p) qgeom(q,p)
binomial negativa dnbinom(x,r,p) pnbinom(x,r,p) qnbinom(q,r,p)
hipergeométrica dhyper(x,m,N,n) phyper(x,m,N,n) qhyper(q,m,N,n)
Poisson dpois(x,λ) ppois(x,λ) qpois(q,λ)
Exemplo 2.21. Obter, no R :
i) p(5) = P (X = 5), F (9) = P (X ≤ 9) e o ponto x tal que P (X ≤ x) = 0.05, em que

X ∼ BN (4, 0.25);
ii) p(5) = P (Y = 5), P (2 < Y ≤ 6) e o ponto y tal que P (Y ≤ y) = 0.25, em que,

Y ∼ P oisson(3)
iii) p(2) = P (Z = 2) e o ponto z tal que P (Z ≤ z) = 0.975, em que Z ∼ HG(10, 80, 12).
No Quadro (2) são apresentados os valores obtidos no R .
Quadro 2: Modelos discretos de probabilidade no R

1 > ###
> ## binomial negativa
3 > dnbinom (5 ,4 ,0.25)
[1] 0.0519104
5 >
> pnbinom (9 ,4 ,0.25)
7 [1] 0.415747
>
9 > qnbinom (0.05 ,4 ,0.25)
[1] 3
11 >
> ## Poisson
13 > dpois (5 ,3)
[1] 0.1008188
15 >
> ppois (6 ,3) - ppois (2 ,3)
17 [1] 0.5433014
74
>
19 > qpois (0.25 ,3)
[1] 2
21 >
> ## hipergeométrica
23 > dhyper (2 ,10 ,80 ,12)
[1] 0.2705104
25 >
> qhyper (0.975 ,10 ,80 ,12)
27 [1] 4
>
29 > ##
75
Teoria da Probabilidade Valor esperado e momentos de uma v.a. discreta
3 Valor esperado e momentos de uma v.a. discreta
3.1 Valor esperado de uma v.a. discreta
Definição 3.1. O valor esperado de uma v.a. discreta X , definida no espaço de probabilidade
(Ω, A , P ) é dado por
X
E(X) = X(ω) · P (ω),
ω∈Ω
E(X) é, ainda, chamado de esperança ou média de X .
Lema 3.1. Considere uma v.a. discreta X , com função de probabilidade p(x), tal que
∞
X
|xi |p(xi ) < ∞,
i=1
se a v.a. assume valores num subconjunto I ⊆ R, então, a esperança de X é dada por

X
E(X) = µx = x p(x).
x∈I
Prova: Livro Carlos A. Dantas, p. 78
∞
X
Por outro lado, se |xi |p(xi ) = ∞ (não converge), então, X não tem esperança finita.
i=1
Exemplo 3.1. Seja uma v.a. discreta X com função de probabilidade
1
p(x) = , x = 1, 2, 3, . . .
x (x + 1)
Verificando se p(x) é uma função de probabilidade:
∞ ∞
X X 1
p(x) =
x=1 x=1
x (x + 1)
76
∞ ∞
X X 1 1
p(x) = −
x=1 x=1
x x+1

1 1 1 1 1
= lim 1 − + − + ··· + −
k→∞ 2 2 3 k k+1

1
= lim 1 − = 1,
k→∞ k+1
portanto, p(x) é uma função de probabilidade discreta, porém,
∞ ∞
X |x| X x
=
x=1
x(x + 1) x=1
x(x + 1)
∞
X 1
= = ∞ (não converge),
x=1
x+1
ou seja, X não tem esperança finita.
Interpretação física de valor esperado
Seja uma va discreta X assumindo valores {x1 , x2 , . . . , xn } com probabilidades p(x1 ),

p(x2 ), . . ., p(xn ). Considere, ainda, G como sendo o centro de gravidade (ou centro de
massa) dos valores de X , então:
n
X
(xi − G)p(xi ) = 0
i=1
n
X n
X
xi p(xi ) − Gp(xi ) = 0
i=1 i=1
n
X
G= xi p(xi ) = E(X),
i=1
portanto, a média E(X) é o centro de massa dos valores de X .
77
3.2 Propriedades de Esperança

Seja uma v.a. discreta X , com esperança finita E(X)
i) Se a é uma constante, então, E(a) = a;
ii) Sejam a e b constantes, então, E(aX + b) = aE(X) + b;
iii) Se Y é uma v.a. discreta tal que E(Y ) < ∞, então, para a e b constantes
E(aX + bY ) = aE(X) + bE(Y );
Prova: (resultado: desigualdade triangular |a + b| ≤ |a| + |b|)

I 1ª parte: mostrar que E(a X + b Y ) existe.
X X
|aX(ω) + bY (ω)| P (ω) ≤ [|aX(ω)| + |bY (ω)|] P (ω) =
ω∈Ω ω∈Ω
X X
= |a| |X(ω)| P (ω) + |b| |Y (ω)| P (ω)
ω∈Ω ω∈Ω
X X
= |a| |X(ω)| P (ω) + |b| |Y (ω)| P (ω) < ∞.
ω∈Ω ω∈Ω
=⇒ E(a X + b Y ) existe.
I 2ª parte:
X
E(aX + bY ) = (aX + bY ) (ω)P (ω)
ω∈Ω
X
= [aX(ω) + bY (ω)] P (ω)
ω∈Ω
X X
=a X(ω)P (ω) + b Y (ω)P (ω)
ω∈Ω ω∈Ω
= a E(X) + b E(Y )
∞
X
iv) Seja a v.a. Y = g(X) tal que |g(xi )|p(xi ) < ∞, então
i=1
X
E(Y ) = E[g(X)] = g(x) p(x).
x
78
Prova:
Seja Y = g[(X)], então, se E[g(X)] existe, considere ω ∈ Ω para os quais y = g[X(ω)].
Assim, para todos g[X(ω)] com valores iguais a y tem-se:
X X
g(x)p(x) = g[X(ω)]P (ω)
x ω
X X
= yP (ω)
y ω:g[X(ω)]=y
X X
= y P (ω)
y ω:g[X(ω)]=y
X
= yP (Y = y) = E[g(X)]
y
Exemplo 3.2. Seja uma va discreta X com função de probabilidade
p(x) = 0.1|x − 1|, x ∈ {−2, −1, 0, 2, 4}
Então, o valor esperado de X é:

X
E(X) = xp(x)
x
= (−2)0.3 + (−1)0.2 + (0)0.1 + (2)0.1 + (4)0.3

= 0.6
Ainda, se g(X) = X 2 , temos

X
E[g(X)] = E(X 2 ) = x2 p(x)
x
= (−2)2 0.3 + (−1)2 0.2 + (0)2 0.1 + (2)2 0.1 + (4)2 0.3
= (4)(0.3 + 0.1) + (1)0.2 + (16)0.3
= 6.6
v) Se a v.a. X é tal que a ≤ X ≤ b, então,
a ≤ E(X) ≤ b;
79
vi) Sejam X e Y v.a.’s discretas com esperanças finitas E(X) e E(Y ), respectivamente.
a) Se X e Y são tais que X ≥ Y , então, E(X) ≥ E(Y );

b) Se X e Y são independentes, então, E(XY ) = E(X)E(Y ).
Teorema 3.1. Seja uma v.a. X , inteira não negativa. Então, X tem esperança finita se, e
∞
X
somente se, a série P (X ≥ x) converge e, neste caso,
i=1
∞
X
E(X) = P (X ≥ x).
i=1
Prova: Se X é inteira não negativa, então, X ∈ {0, 1, 2, . . .}, da definição de esperança:
∞
X ∞
X
E(X) = xP (X = x) = xP (X = x),
i=0 i=1
ou seja,
∞
X
E(X) = 1P (X = 1) + 2P (X = 2) + 3P (X = 3) + · · · (3.1)
i=1
E(X) = P (X = 1)
+ P (X = 2) + P (X = 2)
+ P (X = 3) + P (X = 3) + P (X = 3)
+ P (X = 4) + P (X = 4) + P (X = 4) + P (X = 4)
.. .. .. ..
+ . + . + . + .
Portanto, redefindo a soma em (3.1), temos
E(X) = P (X ≥ 1) + P (X ≥ 2) + P (X ≥ 3) + P (X ≥ 4) + · · ·
∞
X
E(X) = P (X ≥ x).
i=1
Exemplo 3.3. Seja uma v.a. X , com distribuição de probabilidade:
80
x p(x) F (x)
0 0.15 0.15
1 0.20 0.35
2 0.40 0.75
3 0.25 1.00
Então, pelo teorema (3.1), o valor esperado de X é calculado pela soma das áreas desta-
cadas na figura 3.1
Figura 3.1: Valor Esperado de uma v.a. como soma das áreas sobre F (x)
Verificando: E(X) = (0)0.15 + (1)0.20 + (2)0.40 + (3)0.25 = 1.75.
Exemplo 3.4. Valor esperado do modelo geométrico:
Seja X ∼ geométrica(p) com função de probabilidade p(x) = p(1 − p)x , x = 0, 1, 2, . . .,

então, seu valor esperado é dado por:
∞
X
E(X) = xp(1 − p)x
x=0
∞
X
= p(1 − p) x(1 − p)x−1
x=1
∞
X d
= p(1 − p) − [(1 − p)x ]
x=1
dp
81
" ∞ #
d X
E(X) = p(1 − p) − (1 − p)x
dp
x=1
d 1−p
= − p(1 − p)
dp p
−1
= − p(1 − p) 2
p
1−p
Portanto: E(X) = .
p
A partir de (3.1), com P (X ≥ x) = (1 − p)x , temos
∞
X ∞
X
P (X ≥ x) = (1 − p)x
x=1 x=1
1−p
=
1 − (1 − p)
1−p
= = E(X).
p
Exemplo 3.5. Calcular o valor esperado dos principais modelos discretos: Bernoulli, binomial,
binomial negativo, Poisson, hipergeométrico. (resolução, ver slides)
3.3 Variância de uma v.a. discreta

Definição 3.2. Seja uma v.a. discreta X , assumindo valores num subconjunto I ⊆ R e tendo
esperança finita E(X), então, a variância de X é definida por
σx2 = V ar(X) = E{ [X − E(X)]2 },
ou seja,
X
V ar(X) = [x − E(X)]2 p(x).
x∈I
Notas 3.1. A variância de uma v.a. pode, ainda, ser escrita nas seguintes formas:
i) V ar(X) = E(X 2 ) − [E(X)]2 ;
ii) V ar(X) = E[X(X − 1)] + E(X) − [E(X)]2 .
82
Exemplo 3.6. Variância do modelo de Poisson

Seja uma v.a. discreta X ∼ P oisson(λ), então:
λx e−λ
p(x) = , x = 0, 1, 2, . . . ;
x!
E(X) = λ.
Para o cálculo da variância de X , temos que calcular E(X 2 ):
∞
2
X λx e−λ
E(X ) = x2
x=0
x!
∞
X λx−1 e−λ
=λ x
x=1
(x − 1)!
Fazendo y = x − 1 ⇒ x = y + 1 e, segue-se que,

∞
X λy e−λ
E(X 2 ) = λ (y + 1)
y=0
y!
∞ ∞
!
X λy e−λ X λy e−λ
=λ y +
y=0
y! y=0
y!
| {z } | {z }
=E(Y )=λ =1

= λ λ + 1 = λ2 + λ
Portanto, a variância do modelo de Poisson é dada por:
V ar(x) = E(X 2 ) − [E(X)]2 = λ2 + λ − [λ]2 = λ
Ou seja, se X ∼ P oisson(λ), então, V ar(X) = E(X) = λ.
3.3.1 Propriedades de Variância
Seja uma v.a. discreta X , com variância finita
i ) Se a é uma constante, então, V ar(a) = 0;
ii ) Sejam a 6= 0 e b constantes, então, V ar(aX + b) = a2 V ar(X);
83
iii ) Se Y é uma v.a. discreta com variância finita, então,
+ +
V ar(X −
Y ) = V ar(X) + V ar(Y ) −
2Cov(X, Y );
em que:
Cov(X, Y ) = E{[X − E(X)][Y − E(Y )]} = E(XY ) − E(X)E(Y ).
iv) De (i ) e (ii ), para a 6= 0 e b 6= 0 constantes
+ +
V ar(aX −
bY ) = a2 V ar(X) + b2 V ar(Y ) −
2abCov(X, Y );
+
v) Se X e Y forem independentes: V ar(X −
Y ) = V ar(X) + V ar(Y ).
Prova: As provas das propriedades de variância ficam como exercícios.
Resultado 3.1. Variância da soma de v.a.’s:

Sejam X1 , X2 , . . . , Xn , v.a.’s definidas em (Ω, A , P ), tais que E(Xi ) e V ar(Xi ) existem
∀i = 1, 2, . . . , n, então
" n
# n n−1 X
n
X X X
V ar Xi = V ar(Xi ) + 2 Cov(Xi , Yj ).
i=1 i=1 i=1 j=i+1
Como resultado direto, se X1 , X2 , . . . , Xn , forem independentes, segue-se que

" n
# n
X X
V ar Xi = V ar(Xi ).
i=1 i=1
Prova: O resultado acima é extensão das propriedades (iii ) e (iv) e a prova é feita por
indução (Magalhães, pag. 252).
84
3.3.2 Covariância e coeficiente de corelação
Definição 3.3. Covariância entre duas v.a.’s

Sejam X e Y , v.a.’s definidas em (Ω, A , P ), com variâncias finitas, então, a covariância
entre X e Y é definida por:
n o
σx,y = Cov(X, Y ) = E X − E(X) Y − E(Y ) . (3.2)
Mostra-se facilmente que (3.2) pode ser escrita como:
Cov(X, Y ) = E(XY ) − E(X)E(Y ).
Definição 3.4. Coeficiente de corelação entre duas v.a.’s

O coeficiente de correlação entre duas v.a.’s X e Y , por sua vez, é definido por:
Cov(X, Y ) σx,y
ρx,y = Corr(X, Y ) = p =
V ar(X) V ar(Y ) σx σy
em que: σx e σy são os desvios padrões de X e Y , respectivamente.
Resultado 3.2. Sejam X e Y v.a.’s com coeficiente de correlação ρx,y , então, valem as se-
guintes relações
i ) | ρx,y | ≤ 1; (3.3a)
ii ) se | ρx,y | = 1, então a relação entre X e Y é linear; (3.3b)
A prova dos resultados acima utiliza da desigulda de Cauchy-Schwarz, apresentada a se-

guir como teorema.
Teorema 3.2. Desigualdade de Cauchy-Schwarz

Sejam X e Y , com variâncias finitas e não nulas, então
2
E(XY ) ≤ E(X 2 )E(Y 2 ).

(3.4)
Além disso,
2
E(XY ) = E(X 2 )E(Y 2 )

⇐⇒ Y = aX. (3.5)
A prova da desiguldade de Cauchy-Schwarz é dada em Hoel,Port & Stone, pag 100 ou

Magalhães, pag 258.
85
Prova: De (3.3a):
Sejam µx = E(X) e µy = E(Y ). Aplicando a desigualdade de Cauchy-Schwarz à (X−µx )
e (Y − µy ), tem-se
n o2
≤ E (X − µx )2 E (Y − µy )2 .

E (X − µx )(Y − µy )
Do lado esquerdo da igualdade temos o quadrado da covariância e, do lado direito as

variâncias de X e Y , ou seja,
2
Cov(X, Y ) ≤ V ar(X)V ar(Y ).
Dividindo ambos os lados por V ar(X)V ar(Y ), tem-se

2
Cov(X, Y )
= ρ2x,y ≤ 1,
V ar(X)V ar(Y )

o que implica que ρx,y ≤ 1.
Prova: De (3.3b):
Se ocorre a igualdade, ou seja, se ρ2x,y = 1, então vale a igualdade em Cauchy-Schwarz
e, segundo (3.5)
(Y − µy ) = a(X − µx )
(ver prova em Dantas, pag. 121).
86

Probabilidade 1

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Probabilidade 1

Enviado por

Direitos autorais:

Formatos disponíveis

Probabilidade 1

José Carlos Fogo

3 Valor esperado e momentos de uma v.a. discreta 76

1 Conceitos Básicos e Definições

• teoria dos jogos • evolução de doenças

1.1 Relações entre conjuntos

ii) INTERSECCÃO: Notação A ∩ B ou AB ,

iii) COMPLENTAR: Notação Ac ;

iv) DIFERENÇA: Notação B − A;

v) DIFERENÇA SIMÉTRICA: Notação A M B ;

vi) CONJUNTOS DISJUNTOS: dois conjuntos A e B são disjuntos, ou mutuamente exclu-

vi) PARTIÇÃO: os conjuntos A1 , A2 , . . . , Ak ⊂ Ω formam um partição de Ω se são disjuntos

vi) LEIS DE MORGAN: considere uma sequência qualquer de eventos A1 , A2 , . . ., então,

DEMONSTRAÇÃO VISUAL DAS LEIS DE MORGAN:

Figura 1.1: Diagrama de Venn para a união ( A ∪ B ∪ C )c

Figura 1.2: Eventos complementares Ac , B c e C c , respectivamente

Figura 1.3: Diagrama de Venn para a intersecção Ac ∩ B c ∩ C c

DEMONSTRAÇÃO FORMAL DAS LEIS DE MORGAN: 1a parte (Magalhães ou Hoel)

RESULTADO: Sejam A e B conjuntos quaisquer, então, se A ⊂ B e A ⊃ B =⇒ A = B .

Prova da parte (i):

Prova da parte (ii):

o que prova completa a prova.

1.2 Algumas definições em probabilidade:

a) EXPERIMENTO ALEATÓRIO: é um experimento no qual

– todos os resultados possíveis são conhecidos antecipadamente;

b) ESPAÇO AMOSTRAL: é o conjunto dos resultados possíveis para um experimento ale-

ii) Contínuo: formado por um conjunto não enumerável de pontos.

Exemplo: No experimento da retirada de uma bola de uma da caixa, Ω é um espaço

c) EVENTO: um evento é qualquer subconjunto do espaço amostral Ω, associado a um

1) Os eventos serão identificados por letras de fôrma e maiúsculas do algarismo ará-

Exemplo: Na retirada de uma bola da caixa seja o evento A definido por:

i) Evento Complementar: Seja um evento qualquer A ⊂ Ω, então, seu evento com-

ii) Eventos Disjuntos: Dois eventos quaisquer A e B são disjuntos, ou mutuamente

iii) Eventos Elementares: Seja um espaço amostral finito Ω = {ω1 , ω2 , . . . , ωN }, em

são eventos elementares.

i) A ou B ocorra, ou seja, (A ∪ B);

Portanto, para A e B ∈ A , se A atender às propriedades:

então A é dita ser uma álgebra de subconjuntos (eventos) de Ω.

Definição: A é uma σ -álgebra de subconjuntos (eventos) de Ω se, e só se

Exemplo: 1) Considere o lançamento de uma moeda, então Ω = { cara, coroa }

• A2 = { ∅, {cara}, {coroa}, Ω } → σ -álgebra, classe de todos os subconjuntos de Ω.

Exemplo: 2) Considere o espaço amostral Ω = { 1, 2, 3 }

• A1 = { ∅, Ω, {1}, {2, 3} } → é uma σ -álgebra

1.3 Medidas de probabilidade

a) EM ESPAÇOS FINITOS: número de resultados favoráveis a um evento, dividido pelo

b) GENERALIZAÇÃO PARA ESPAÇOS INFINITOS: se Ω é uma região com uma medida

R área central (A)

1.3.1 Axiomas de Kolmogorov e espaço de probabilidade

A definição a seguir é conhecida como Axiomas de Kolmogorov (Kolmogorov, 1933) e

MEDIDA DE PROBABILIDADE: Seja Ω um espaço amostral e A uma σ -álbegra de even-

A trinca formada por (Ω, A , P ) é chamada de ESPAÇO DE PROBABILIDADE.

Um espaço de probabilidade é formado por um espaço amostral Ω, uma σ -álgebra de

Exemplo: 1) Número de ocorrências de um fenômeno.

σ -álbegra: A = classe dos subconjuntos de Ω;

i) P (A) é dada pela soma de probabilidades de eventos elementares ωi ∈ A, i = 1, 2, . . .

Exemplo: 2) Tempo de vida de pacientes.

Espaço amostral: Ω = { T ∈ R | 0 ≤ T < ∞ };

σ -álbegra: A = σ -álbegra de Borel;

1.4 Propriedades das probabilidades

Considere que os conjuntos abaixo seja, eventos no espaço de probabilidade (Ω, A , P ).

b) Sejam A e B eventos quaisquer, então P (B) = P (B ∩ A) + P (B ∩ Ac ).

PROVA: i) para todo conjunto A tem-se que A ∪ Ac = Ω.

Nota: Se A ⊂ B , então A ∩ B = A e P (B) = P (A) + P (B ∩ Ac ).