Probabilidade, Capítulo 3

Machine Translated by Google
3
Variáveis aleatórias e suas distribuições
Neste capítulo, apresentamos variáveis aleatórias, um conceito extremamente útil que simplifica a
notação e expande nossa capacidade de quantificar incertezas e resumir os resultados de experimentos.
As variáveis aleatórias são essenciais ao longo do restante deste livro e em toda a estatística, por isso
é crucial pensar no que elas significam, tanto intuitivamente quanto matematicamente.
3.1 Variáveis aleatórias
Para ver por que razão a nossa notação actual pode rapidamente tornar-se difícil de manejar, considere
novamente o problema da ruína do jogador do Capítulo 2. Neste problema, podemos estar muito
interessados em quanta riqueza cada jogador possui num determinado momento. Portanto, poderíamos
criar uma notação como deixar Ajk ser o evento em que o jogador A tem exatamente j dólares após k
rodadas e, de forma semelhante, definir um evento Bjk para o jogador B, para todos j e k.
Isso já é muito complicado. Além disso, também podemos estar interessados em outras quantidades,
como a diferença em suas riquezas (o jogador A menos o jogador B) após k rodadas, ou a duração do
jogo (o número de rodadas até que um jogador vá à falência). Expressar o evento “a duração do jogo
é de r rodadas” em termos de Ajk e Bjk envolveria uma longa e estranha sequência de uniões e
interseções.
E então, e se quisermos expressar a riqueza do jogador A como o montante equivalente em euros e
não em dólares? Podemos multiplicar um número em dólares por uma taxa de câmbio, mas não
podemos multiplicar um evento por uma taxa de câmbio.
Em vez de ter uma notação complicada que obscurece a forma como as quantidades de interesse
estão relacionadas, não seria bom se pudéssemos dizer algo como o seguinte?
Seja Xk a riqueza do jogador A após k rodadas. Então Yk = N ÿ Xk é a riqueza do jogador B

após k rodadas (onde N é a riqueza total fixa); Xk ÿYk = 2Xk ÿN é a diferença de riquezas após k
rodadas; ckXk é a riqueza do jogador A em euros após k rodadas, onde ck é a taxa de câmbio de
euros por dólar após k rodadas; e a duração é R = min{n: Xn = 0 ou Yn = 0}.
A noção de variável aleatória nos permitirá fazer exatamente isso! Porém, precisa ser introduzido com
cuidado, para torná-lo conceitual e tecnicamente correto.
Às vezes é dada uma definição de “variável aleatória” que é apenas parafraseada
103
104 Introdução à Probabilidade
versão de “uma variável aleatória é uma variável que assume valores aleatórios”, mas uma tentativa tão
débil de definição falha em dizer de onde vem a aleatoriedade. Nem nos ajuda a derivar propriedades
de variáveis aleatórias: estamos familiarizados com o trabalho com equações algébricas como x = 1,
2
mas quais são as operações matemáticas 2válidas
+e se x e y são variáveis aleatórias? Para tornar precisa
a noção de variável aleatória, definimos-a como uma função que mapeia o espaço amostral para a reta
real. (Veja o apêndice matemático para revisão de alguns conceitos sobre funções.)
s1 s2 s3
X
s4 s5 s6 0 1 4
FIGURA 3.1 Uma
variável aleatória mapeia o espaço amostral na reta real. O rv X representado aqui é definido em um espaço amostral
com 6 elementos e tem valores possíveis 0, 1 e 4. A aleatoriedade vem da escolha de uma pedra aleatória de acordo
com a função de probabilidade P para o espaço amostral.
Definição 3.1.1 (Variável aleatória). Dado um experimento com espaço amostral S, uma variável aleatória
(rv) é uma função do espaço amostral S para os números reais R. É comum, mas não obrigatório,
denotar variáveis aleatórias por letras maiúsculas.
Assim, uma variável aleatória X atribui um valor numérico X(s) a cada resultado possível s do
experimento. A aleatoriedade vem do fato de termos um experimento aleatório (com probabilidades
descritas pela função de probabilidade P); o mapeamento em si é determinístico, conforme ilustrado na
Figura 3.1. O mesmo rv é mostrado de forma mais simples no painel esquerdo da Figura 3.2, onde
inscrevemos os valores dentro das pedras.
Esta definição é abstrata mas fundamental; uma das habilidades mais importantes a serem desenvolvidas
ao estudar probabilidade e estatística é a capacidade de alternar entre ideias abstratas e exemplos
concretos. Da mesma forma, é importante trabalhar no reconhecimento do padrão ou estrutura essencial
de um problema e como ele se conecta
Variáveis aleatórias e suas distribuições 105
para problemas que você estudou anteriormente. Discutiremos frequentemente histórias que envolvem
atirar moedas ou tirar bolas de urnas porque são cenários simples e convenientes de trabalhar, mas
muitos outros problemas são isomórficos: têm a mesma estrutura essencial, mas sob uma aparência
diferente.
Para começar, vamos considerar um exemplo de lançamento de moeda. A estrutura do problema é

que temos uma sequência de tentativas onde existem dois resultados possíveis para cada tentativa.
Aqui pensamos nos resultados possíveis como H (Cara) e T (Coroa), mas poderíamos muito bem
pensar neles como “sucesso” e “fracasso” ou como 1 e 0, por exemplo.
Exemplo 3.1.2 (Lançamento de moeda). Considere um experimento em que lançamos duas vezes
uma moeda honesta. O espaço amostral consiste em quatro resultados possíveis: S = {HH, HT, TH,
TT}. Aqui estão algumas variáveis aleatórias neste espaço (para praticar, você pode pensar em
algumas de sua preferência). Cada RV é um resumo numérico de algum aspecto do experimento.
• Seja X o número de Caras. Esta é uma variável aleatória com valores possíveis 0, 1 e 2. Vista como
uma função, X atribui o valor 2 ao resultado HH, 1 aos resultados HT e TH e 0 ao resultado T T. Ou
seja,
X(HH) = 2, X(HT) = X(TH) = 1, X(TT) = 0.
• Seja Y o número de coroas. Em termos de X, temos Y = 2 ÿ X. Em outras palavras,

Y e 2 ÿ X são iguais rv: Y (s) = 2 ÿ X(s) para todos s.
• Seja I 1 se o primeiro lançamento der Cara e 0 caso contrário. Em seguida, atribuo o valor 1 aos resultados
HH e HT e 0 aos resultados TH e T T. Este rv é um exemplo do que é chamado de variável aleatória
indicadora, pois indica se o primeiro lançamento dá cara, usando 1 para significar “ sim” e 0 para significar
“não”.
Também podemos codificar o espaço amostral como {(1, 1),(1, 0),(0, 1),(0, 0)}, onde 1 é o código para
Cara e 0 é o código para Coroa. Então podemos fornecer fórmulas explícitas para X, Y, I:
X(s1, s2) = s1 + s2, Y (s1, s2) = 2 ÿ s1 ÿ s2, I(s1, s2) = s1,
onde, para simplificar, escrevemos X(s1, s2) como significando X((s1, s2)), etc.
Para a maioria das RVs que consideraremos, é tedioso ou inviável escrever uma fórmula explícita dessa
maneira. Felizmente, geralmente é desnecessário fazer isso, já que (como vimos neste exemplo) existem
outras maneiras de definir um rv, e (como veremos ao longo deste livro) existem muitas maneiras de estudar
as propriedades de um rv a não ser fazendo cálculos com uma fórmula explícita para o que ele mapeia cada
resultado.
Como nos capítulos anteriores, para um espaço amostral com um número finito de resultados
podemos visualizar os resultados como seixos, com a massa de um seixo correspondendo à sua
probabilidade, de modo que a massa total dos seixos seja 1. Uma variável aleatória simplesmente
rotula cada pedra com um número. A Figura 3.2 mostra duas variáveis aleatórias
definido no mesmo espaço amostral: as pedras ou resultados são os mesmos, mas o

os números reais atribuídos aos resultados são diferentes.
1 0 1 5.3 -2 2
s1 s2 s3 s1 s2 s3
0 4 1 9 3 0
s4 s5 s6 s4 s5 s6
FIGURA 3.2
Duas variáveis aleatórias definidas no mesmo espaço amostral.
Como mencionamos anteriormente, a fonte da aleatoriedade em uma variável aleatória é

o experimento em si, no qual um resultado amostral s ÿ S é escolhido de acordo com um
função de probabilidade P. Antes de realizarmos o experimento, o resultado s não
ainda não foi realizado, então não sabemos o valor de X, embora pudéssemos calcular o
probabilidade de que X assuma um determinado valor ou intervalo de valores. Depois de realizarmos o
experimento e o resultado foi alcançado, a variável aleatória se cristaliza
no valor numérico X(s).
Variáveis aleatórias fornecem resumos numéricos do experimento em questão. Esse

é muito útil porque o espaço amostral de um experimento é muitas vezes incrivelmente complicado ou
altamente dimensional, e os resultados s ÿ S podem ser não numéricos. Para
Por exemplo, o experimento pode consistir em coletar uma amostra aleatória de pessoas em um determinado
cidade e faça várias perguntas, que podem ter números (por exemplo, idade ou altura)
ou respostas não numéricas (por exemplo, partido político ou filme favorito). O fato de que os trailers
assumir valores numéricos é uma simplificação muito conveniente em comparação com ter que
trabalhar com toda a complexidade de S em todos os momentos.
3.2 Distribuições e funções de massa de probabilidade
Existem dois tipos principais de variáveis aleatórias usadas na prática: rvs discretas e
rvs contínuos Neste capítulo e no próximo, nosso foco está nos rvs discretos. Os rvs contínuos são
apresentados no Capítulo 5.
Definição 3.2.1 (Variável aleatória discreta). Dizemos que uma variável aleatória X é
discreto se houver uma lista finita de valores a1, a2, . . . , uma ou uma lista infinita de valores
a1, a2, . . . tal que P(X = aj para algum j) = 1. Se X é um rv discreto, então o
conjunto finito ou contável infinito de valores x tal que P(X = x) > 0 é chamado de suporte de X.
Mais comumente em aplicações, o suporte de um rv discreto é um conjunto de números inteiros.

Em contraste, um rv contínuo pode assumir qualquer valor real num intervalo (possivelmente até mesmo
toda a linha real); tais rvs são definidos com mais precisão no Capítulo 5. Também é possível ter um rv que
seja um híbrido de discreto e contínuo, como jogar uma moeda e, em seguida, gerar um rv discreto se a
moeda cair Cara e gerar um rv contínuo se a moeda dá coroa. Mas o ponto de partida para entender tais
RVs é entender RVs discretos e contínuos
Dada uma variável aleatória, gostaríamos de poder descrever seu comportamento usando a linguagem da
probabilidade. Por exemplo, podemos querer responder a questões sobre a probabilidade de que o VR caia
num determinado intervalo: se L é o rendimento vitalício de um graduado universitário dos EUA escolhido
aleatoriamente, qual é a probabilidade de que L exceda um milhão de dólares? Se M for o número de grandes
terremotos na Califórnia nos próximos cinco anos, qual é a probabilidade de M ser igual a 0?
A distribuição de uma variável aleatória fornece as respostas a estas questões; ela especifica as
probabilidades de todos os eventos associados ao rv, como a probabilidade de ser igual a 3 e a probabilidade
de ser pelo menos 110. Veremos que existem várias maneiras equivalentes de expressar a distribuição de
um rv Para um rv discreto, a maneira mais natural de fazer isso é com uma função de massa de probabilidade,
que definimos agora.
Definição 3.2.2 (Função de massa de probabilidade). A função de massa de probabilidade (PMF) de um rv X

discreto é a função pX dada por pX(x) = P(X = x). Observe que isso é positivo se x estiver no suporte de X e
0 caso contrário.
3.2.3. Ao escrever P(X = x), estamos usando X = x para denotar um evento, consistindo em todos os
resultados s aos quais X atribui o número x. Este evento também é escrito como {X = x}; formalmente, {X =
x} é definido como {s ÿ S : X(s) = x}, mas escrever {X = x} é mais curto e mais intuitivo. Voltando ao Exemplo
3.1.2, se X é o número de caras em dois lançamentos justos de moeda, então {X = 1} consiste nos resultados
amostrais HT e TH, que são os dois resultados aos quais X atribui o número 1. Uma vez que {HT, TH} é um
subconjunto do espaço amostral, é um evento. Portanto, faz sentido falar sobre P(X = 1), ou mais
genericamente, P(X = x). Se {X = x} fosse outra coisa senão um evento, não faria sentido calcular sua
probabilidade! Não faz sentido escrever “P(X)”; só podemos calcular a probabilidade de um evento, não de
um RV
Vejamos alguns exemplos de PMFs.
Exemplo 3.2.4 (Continuação do lançamento da moeda). Neste exemplo, encontraremos os PMFs de todas
as variáveis aleatórias no Exemplo 3.1.2, o exemplo com dois lançamentos justos de moeda.
Aqui estão os RVs que definimos, juntamente com seus PMFs:
• X, o número de Caras. Como X é igual a 0 se TT ocorrer, 1 se HT ou TH ocorrer,

e 2 se HH ocorrer, o PMF de X é a função pX dada por
pX(0) = P(X = 0) = 1/4,

pX(1) = P(X = 1) = 1/2,
pX(2) = P(X = 2) = 1/4,
e pX(x) = 0 para todos os outros valores de x.
• Y = 2 ÿ X, o número de coroas. Raciocinando como acima ou usando o fato de que
P(Y = y) = P(2 ÿ X = y) = P(X = 2 ÿ y) = pX(2 ÿ y),
o PMF de Y é
pY (0) = P(Y = 0) = 1/4,

pY (1) = P(Y = 1) = 1/2,
pY (2) = P(Y = 2) = 1/4,
e pY (y) = 0 para todos os outros valores de y.
Observe que X e Y têm o mesmo PMF (ou seja, pX e pY são a mesma função)
mesmo que X e Y não sejam o mesmo rv (ou seja, X e Y são dois valores diferentes
funções de {HH, HT, TH, TT} para a linha real).
• I, o indicador do primeiro lançamento que acertou Cara. Como I é igual a 0 se TH ou TT

ocorre e 1 se ocorrer HH ou HT, o PMF de I é
pI (0) = P(I = 0) = 1/2,

pI (1) = P(I = 1) = 1/2,
e pI (i) = 0 para todos os outros valores de i.

1,0
1,0
1,0
PMF
PMF
PMF
0,5
0,5
0,5
0,0
0,0
0,0
ÿ1 0 1 2 3 ÿ1 0 1 2 3 ÿ1 0 11 2 3
x e eu
FIGURA 3.3
Da esquerda para a direita: PMFs , e eu, com X o número de caras em duas moedas justas
de X, Y lançamentos, Y o número de Coroas e I o indicador de Caras no primeiro lançamento.
Os PMFs de X, Y , e I estão representados na Figura 3.3. Barras verticais são desenhadas para
facilitam a comparação das alturas de diferentes pontos.
Exemplo 3.2.5 (Soma dos lançamentos de dados). Lançamos dois dados justos de 6 lados. Seja T = X + Y
será o total dos dois lançamentos, onde X e Y são os lançamentos individuais. A amostra
O espaço deste experimento tem 36 resultados igualmente prováveis:
S = {(1, 1),(1, 2), . . . ,(6, 5),(6, 6)}.
Por exemplo, 7 dos 36 resultados são mostrados na tabela abaixo, juntamente com os
valores correspondentes de X, Y e T. Após a realização do experimento, observamos
valores para X e Y e então
, o valor observado de T é a soma desses valores.
s XYX + Y
(1, 2) 1 (1, 2 3
6) 1 6 (2, 5) 2 (3, 1) 7
3 1 (4, 3) 4 5 7
3 (5, 4) 5 4 (6, 6) 6 4
6 7
9
12
Como os dados são justos, o PMF de X é
P(X = j) = 1/6,
distribuição de 6 (e P(X = j) = 0 caso contrário); dizemos que X tem uma Uni-discreta para j = 1, 2,. . . ,
formulário em 1, 2,. . . , 6. Da mesma forma, Y também é uniforme discreto em 1, 2,. . . , 6.
Observe que Y tem a mesma distribuição que X, mas não é a mesma variável aleatória
como X. Na verdade, temos
P(X = Y) = 6/36 = 1/6.
Mais dois rvs neste experimento com a mesma distribuição de X são 7 ÿ X e

7ÿY . Para ver isso, podemos usar o fato de que para um dado padrão, 7 ÿ X é o valor em
na parte inferior se X for o valor na parte superior. Se o valor superior tiver a mesma probabilidade de ser qualquer
dos números 1, 2, . . . , 6, então o valor inferior também será. Observe que mesmo que 7ÿX
tem a mesma distribuição que X, nunca é igual a X na execução do experimento!
Vamos agora encontrar o PMF de T. Pela definição ingênua de probabilidade,
P(T = 2) = P(T = 12) = 1/36,

P(T = 3) = P(T = 11) = 2/36,
P(T = 4) = P(T = 10) = 3/36,
P(T = 5) = P(T = 9) = 4/36,
P(T = 6) = P(T = 8) = 5/36,
P(T = 7) = 6/36.
Para todos os outros valores de t, P(T = t) = 0. Podemos ver diretamente que o suporte de T
é {2, 3,. . . , 12} apenas olhando os totais possíveis para dois dados, mas como verificação,
Observe que
P(T = 2) + P(T = 3) + · · · + P(T = 12) = 1,
o que mostra que todas as possibilidades foram contabilizadas. A propriedade de simetria

de T que aparece acima, P(T = t) = P(T = 14ÿt), faz sentido, pois cada resultado
{X = x, Y = y} o que faz com que T = t tenha um resultado correspondente {X = 7 ÿ x, Y =
7 ÿ y} da mesma probabilidade que faz T = 14 ÿ t.
0,20
•
0,15
• •
• •
PMF
0,10
• •
• •
0,05
• •
0,00
2 3 4 5 6 7 8 9 10 11 12
t
FIGURA 3.4
PMF da soma de dois lançamentos de dados.
O PMF de T está representado graficamente na Figura 3.4; tem uma forma triangular e a simetria
mencionado acima é muito visível.
Exemplo 3.2.6 (Crianças num agregado familiar nos EUA). Suponha que escolhemos uma família
aleatoriamente nos Estados Unidos. Seja X o número de filhos no escolhido
doméstico. Como X só pode assumir valores inteiros, é um rv discreto. A probabilidade de X assumir o
valor x é proporcional ao número de domicílios em
os Estados Unidos com x filhos.
Utilizando dados do Inquérito Social Geral de 2010 [23], podemos aproximar a proporção de agregados
familiares com 0 filhos, 1 filho, 2 filhos, etc., e assim aproximar o PMF de X, que está representado na
Figura 3.5. .
Iremos agora declarar as propriedades de um PMF válido.
Teorema 3.2.7 (PMFs válidos). Seja X um rv discreto com suporte x1, x2, . . .
(suponha que esses valores sejam distintos e, para simplificar a notação, que o suporte seja
contávelmente infinito; os resultados análogos são válidos se o suporte for finito). O PMF pX
de X deve satisfazer os dois critérios a seguir:
• Não negativo: pX(x) > 0 se x = xj para algum j, e pX(x) = 0 caso contrário;

ÿ
• Soma para 1: pX(xj ) = 1.
j=1
0,5
0,4
0,3 •
PMF
0,2
•
• •
0,1
•
• • • •
0,0
0 1 2 3 4 5 6 7 8
x
FIGURA 3.5
PMF do número de crianças em um domicílio nos EUA selecionado aleatoriamente.
Prova. O primeiro critério é verdadeiro, pois a probabilidade não é negativa. A segunda é verdade
já que X deve assumir algum valor, e os eventos {X = xj} são disjuntos, então
ÿ
ÿ ÿ
ÿ
P(X = xj ) = P {X = xj} = P(X = x1 ou X = x2 ou. . .) = 1.
j=1
ÿj=1 ÿ
Por outro lado, se valores distintos x1, x2, . . . são especificados e temos uma função que
satisfaz os dois critérios acima, então esta função é o PMF de algum rv; nós vamos mostrar
como construir tal RV no Capítulo 5.
Afirmamos anteriormente que o PMF é uma forma de expressar a distribuição de um

rv discreto Isso ocorre porque, uma vez conhecido o PMF de X, podemos calcular o
probabilidade de que X caia em um determinado subconjunto dos números reais somando
os valores apropriados de x, como mostra o próximo exemplo.
Exemplo 3.2.8. Voltando ao Exemplo 3.2.5, seja T a soma de dois lançamentos justos de dados.
Já calculamos o PMF de T. Agora suponha que estamos interessados no
probabilidade de que T esteja no intervalo [1, 4]. Existem apenas três valores no intervalo
[1, 4] que T pode assumir, ou seja, 2, 3 e 4. Conhecemos a probabilidade de cada um dos
esses valores do PMF de T, então
P(1 ÿ T ÿ 4) = P(T = 2) + P(T = 3) + P(T = 4) = 6/36.
Em geral, dado um rv X discreto e um conjunto B de números reais, se conhecermos o PMF

de X podemos encontrar P(X ÿ B), a probabilidade de que X esteja em B, somando o
alturas das barras verticais nos pontos de B no gráfico do PMF de X. Conhecendo
o PMF de um RV discreto determina sua distribuição.
3.3 Bernoulli e Binomial
Algumas distribuições são tão onipresentes em probabilidade e estatística que têm seus próprios nomes.
Apresentaremos essas distribuições nomeadas ao longo do livro, começando com um caso muito simples,
mas útil: um rv que pode assumir apenas dois valores possíveis, 0 e 1.
Definição 3.3.1 (distribuição Bernoulli). Diz-se que um rv X tem a distribuição de Bernoulli com parâmetro p
se P(X = 1) = p e P(X = 0) = 1 ÿ p, onde 0 < p < 1. Escrevemos isso como X ÿ Bern(p ). O símbolo ÿ é lido
como “é distribuído como”.
Qualquer rv cujos valores possíveis são 0 e 1 tem uma distribuição Bern(p), com p a probabilidade de o rv
ser igual a 1. Este número p em Bern(p) é chamado de parâmetro da distribuição; determina qual
distribuição específica de Bernoulli temos.
Assim, não existe apenas uma distribuição de Bernoulli, mas sim uma família de distribuições de Bernoulli,
indexadas por p. Por exemplo, se X ÿ Bern(1/3), seria correto, mas incompleto, dizer “X é Bernoulli”; para
especificar completamente a distribuição de X, devemos dizer seu nome (Bernoulli) e seu valor de
parâmetro (1/3), que é o ponto da notação X ÿ Bern(1/3).
Qualquer evento tem um rv de Bernoulli que está naturalmente associado a ele, igual a 1 se o evento
acontecer e 0 caso contrário. Isso é chamado de variável aleatória indicadora do evento; veremos que tais
RVs são extremamente úteis.
Definição 3.3.2 (Variável aleatória indicadora). A variável aleatória indicadora de um evento A é o rv que é
igual a 1 se A ocorrer e 0 caso contrário. Denotaremos o indicador rv de A por IA ou I(A). Observe que IA
ÿ Bern(p) com p = P(A).
Muitas vezes imaginamos os RVs de Bernoulli usando o lançamento de moeda, mas esta é apenas uma
linguagem conveniente para discutir a seguinte história geral.
História 3.3.3 (julgamento de Bernoulli). Um experimento que pode resultar em “sucesso” ou “fracasso”
(mas não em ambos) é chamado de ensaio de Bernoulli. Uma variável aleatória de Bernoulli pode ser
considerada o indicador de sucesso em uma tentativa de Bernoulli: ela é igual a 1 se ocorrer sucesso e 0
se ocorrer falha na tentativa.
Por causa dessa história, o parâmetro p é frequentemente chamado de probabilidade de sucesso da

distribuição Bern(p). Quando começamos a pensar nos julgamentos de Bernoulli, é difícil não começar a
pensar no que acontece quando temos mais de um julgamento.
História 3.3.4 (distribuição binomial). Suponha que sejam realizadas n tentativas de Bernoulli independentes,
cada uma com a mesma probabilidade de sucesso p. Seja X o número de sucessos. A distribuição de X é
chamada de distribuição binomial com parâmetros n e p. Escrevemos X ÿ Bin(n, p) para significar que X
tem a distribuição Binomial com parâmetros n e p, onde n é um número inteiro positivo e 0 < p < 1.
Observe que definimos a distribuição Binomial não pelo seu PMF, mas por uma história
sobre o tipo de experimento que poderia dar origem a uma variável aleatória com distribuição binomial. Todas
as distribuições mais famosas em estatística têm histórias que explicam por que são tão frequentemente
usadas como modelos de dados ou como blocos de construção para distribuições mais complicadas.
Pensar nas distribuições nomeadas antes de mais nada em termos de suas histórias traz muitos benefícios.
Facilita o reconhecimento de padrões, permitindo-nos ver quando dois problemas são essencialmente
idênticos em estrutura; muitas vezes leva a soluções mais limpas que evitam completamente os cálculos de
PMF; e nos ajuda a entender como as distribuições nomeadas estão conectadas entre si. Aqui fica claro que
Bern(p) é a mesma distribuição que Bin(1, p): o Bernoulli é um caso especial do Binomial.
Usando a definição de história do Binômio, vamos encontrar seu PMF.
Teorema 3.3.5 (PMF binomial). Se X ÿ Bin(n, p), então o PMF de X é
n k Aproximadamente
P(X = k) = p (1 ÿ p)
k
para k = 0, 1,. . . , n (e P(X = k) = 0 caso contrário).
3.3.6. Para economizar escrita, muitas vezes fica implícito que um PMF é zero sempre que não for
especificado como diferente de zero, mas em qualquer caso é importante entender qual é o suporte de uma
variável aleatória e uma boa prática para verificar se os PMFs são válidos . Se dois RVs discretos tiverem o
mesmo PMF, eles também deverão ter o mesmo suporte.
Portanto, às vezes nos referimos ao suporte de uma distribuição discreta; este é o suporte de qualquer RV
com essa distribuição.
Prova. Um experimento que consiste em n tentativas independentes de Bernoulli produz uma sequência de
sucessos e fracassos. A probabilidade de qualquer sequência específica de k suceder
k n-k .
(1 ÿ p) pois só Há
processos e n ÿ k falhas são p tais sequências, precisamos selecionar
como onde estão os sucessos.
Portanto, sendo X o número de
sucessos,
n k Aproximadamente
P(X = k) = p (1 ÿ p)
k
para k = 0, 1,. . . , n e P(X = k) = 0 caso contrário. Este é um PMF válido porque não é negativo e soma 1 pelo
teorema binomial.
A Figura 3.6 mostra gráficos do PMF Binomial para vários valores de n e p. Observe que o PMF da distribuição
Bin(10, 1/2) é simétrico em relação a 5, mas quando a probabilidade de sucesso não é 1/2, o PMF é distorcido.
Para um número fixo de tentativas n, X tende a ser maior quando a probabilidade de sucesso é alta e menor
quando a probabilidade de sucesso é baixa, como seria de esperar da história da distribuição Binomial.
Lembre-se também de que em qualquer gráfico PMF, a soma das alturas das barras verticais deve ser 1.
Usamos a História 3.3.4 para encontrar o Bin(n, p) PMF. A história também nos dá uma prova direta do fato
de que se X é binomial, então n ÿ X também é binomial.
Caixa (10, 1/2) Caixa (10, 1/8)

0,4
0,4
•
0,3
0,3
•
• •
PMF
PMF
• •
0,2
• • 0,2
0,1
0,1
•
• •
• • •
0,0
0,0
• • ••••••
0 2 4 6 8 10 0 2 4 6 8 10
x x
Caixa (100, 0,03) Caixa (9, 4/5)

0,4
0,4
0,3
0,3
••
••
PMF
PMF
0,2
0,2
• •
• •
0,1
0,1
•
•
• •
• •
0,0
0,0
••• ••••
0 2 4 6 8 10 0 2 4 6 8 10
x x
FIGURA 3.6
Alguns PMFs binomiais. No canto inferior esquerdo, plotamos o Bin(100, 0.03) PMF entre 0
e apenas 10, pois a probabilidade de mais de 10 sucessos é próxima de 0.
Teorema 3.3.7. Sejam X ÿ Bin(n, p) e q = 1 ÿ p (frequentemente usamos q para denotar a probabilidade de

falha de uma tentativa de Bernoulli). Então n ÿ X ÿ Bin(n, q).
Prova. Usando a história do Binômio, interprete X como o número de sucessos em n tentativas independentes
de Bernoulli. Então n ÿ X é o número de falhas nessas tentativas. Trocando os papéis de sucesso e fracasso,
temos n ÿ X ÿ Bin(n, q).
Alternativamente, podemos verificar que nÿX tem o PMF Bin(n, q). Seja Y = n ÿ X. O PMF de Y é
n n-kk pq n kn-k qp
= ,
P(Y = k) = P(X = n ÿ k) =
n-k k
para k = 0, 1,. . . , n.
Corolário 3.3.8. Seja X ÿ Bin(n, p) com p = 1/2 e n par. Então a distribuição de X é simétrica em relação a n/2,
no sentido de que P(X = n/2 + j) = P(X = n/2 ÿ j) para todos os inteiros não negativos j.
Prova. Pelo Teorema 3.3.7, n ÿ X também é Bin(n, 1/2), então
P(X = k) = P(n ÿ X = k) = P(X = n ÿ k)
para todos os inteiros não negativos k. Deixando k = n/2 + j, segue-se o resultado desejado. Isso explica por
que o PMF Bin(10, 1/2) é simétrico em relação a 5 na Figura 3.6.
Exemplo 3.3.9 (continuação do lançamento da moeda). Voltando ao Exemplo 3.1.2, agora sabemos que X ÿ
Bin(2, 1/2), Y ÿ Bin(2, 1/2) e I ÿ Bern(1/2). Consistente com o Teorema 3.3.7, X e Y = 2 ÿ X têm a mesma
distribuição, e consistente com o Corolário 3.3.8, a distribuição de X (e de Y ) é simétrica em relação a 1.
3.4 Hipergeométrico
Se tivermos uma urna cheia com w bolas brancas e b bolas pretas, então retirar n bolas da urna com reposição
produz uma distribuição Bin(n, w/(w + b)) para o número de bolas brancas obtidas em n tentativas, já que os
sorteios são tentativas de Bernoulli independentes, cada uma com probabilidade w/(w+b) de sucesso. Se, em
vez disso, amostrarmos sem reposição, como ilustrado na Figura 3.7, então o número de bolas brancas segue
uma distribuição hipergeométrica.
História 3.4.1 (Distribuição hipergeométrica). Considere uma urna com w bolas brancas e b bolas pretas.
Retiramos aleatoriamente n bolas da urna sem reposição, de modo que todas as amostras sejam igualmente
prováveis. Seja X ow+b
número de bolas brancas na amostra. Então diz-se que X tem a distribuição hipergeométrica
n
com parâmetros w, b e n; denotamos isso por X ÿ HGeom(w, b, n).
FIGURA 3.7 História
hipergeométrica. Uma urna contém w = 6 bolas brancas e b = 4 bolas pretas. Amostramos n = 5 sem reposição. O
número X de bolas brancas na amostra é hipergeométrico; aqui observamos X = 3.
Tal como acontece com a distribuição binomial, podemos obter o PMF da distribuição
hipergeométrica a partir da história.
Teorema 3.4.2 (PMF hipergeométrico). Se X ÿ HGeom(w, b, n), então o PMF

de X é
Em
bknÿk w+b
P(X = k) = ,
n
para inteiros k satisfazendo 0 ÿ k ÿ w e 0 ÿ nÿk ÿ b, e P(X = k) = 0 caso contrário.
Prova. Para obter P(X = k), primeiro contamos o número de maneiras possíveis de retirar
exatamente k bolas brancas e n ÿ k bolas pretas da urna (sem distinguir entre diferentes ordenações
para obter o mesmo conjunto de bolas). Se k > w ou n ÿ k > b, então o empate é impossível. Caso
b
contrário, existem n ÿ k maneiras de desenhar k branco eEm
k
w+b
n ÿ k bolas pretas pela regra da multiplicação, e há um total de maneirasn
de tirar n bolas. Como
todas as amostras são igualmente prováveis, a definição ingénua de probabilidade dá
Em
bknÿk w+b
P(X = k) =
n
para inteiros k satisfazendo 0 ÿ k ÿ w e 0 ÿ nÿk ÿ b. Este PMF é válido porque pela identidade de
w+b
somado a todos os k, é igual a 1.5.3), então n
Vandermonde (numerador do exemplo,
o PMF soma 1.
A distribuição hipergeométrica surge em muitos cenários que, superficialmente, têm pouco em comum com as
bolas brancas e pretas numa urna. A estrutura essencial da história hipergeométrica é que os itens de uma
população são classificados usando dois conjuntos de etiquetas: na história da urna, cada bola é branca ou
preta (este é o primeiro conjunto de etiquetas), e cada bola é amostrada ou não amostrado (este é o segundo
conjunto de tags).
Além disso, pelo menos um desses conjuntos de etiquetas é atribuído de forma completamente
aleatória (na história da urna, as bolas são amostradas aleatoriamente, com todos os conjuntos do
tamanho correto igualmente prováveis). Então X ÿ HGeom(w, b, n) representa o número de itens
marcados duas vezes: na história da urna, bolas que são brancas e amostradas.
Os próximos dois exemplos mostram cenários aparentemente diferentes que, no entanto, são
isomórfico à história da urna.
Exemplo 3.4.3 (captura-recaptura de alces). Uma floresta tem N alces. Hoje, muitos dos alces são
capturado, marcado e solto na natureza. Posteriormente, todos os alces são recapturados
aleatoriamente. Suponha que os alces recapturados tenham a mesma probabilidade de ser qualquer conjunto de n
do alce, por exemplo, um alce que foi capturado não aprende como evitar ser
capturado novamente.
Pela história do Hipergeométrico, o número de alces marcados no recapturado

a amostra é HGeom(m, N ÿ m, n). Os alces marcados com m nesta história correspondem ao
as bolas brancas e os N ÿ m alces não marcados correspondem às bolas pretas. Em vez de
amostrando n bolas da urna, recapturamos alguns alces da floresta.
Exemplo 3.4.4 (Ases numa mão de pôquer). Em uma mão de cinco cartas sorteadas aleatoriamente de um
baralho padrão bem embaralhado, o número de ases na mão tem o HGeom(4, 48, 5)
distribuição, que pode ser vista pensando nos ases como bolas brancas e nos não ases como bolas
pretas. Usando o PMF hipergeométrico, a probabilidade de a mão
tem exatamente três ases é
4 48
3 2 ÿ 0,0017.
52
5
A tabela a seguir resume como os exemplos acima podem ser pensados em termos
de dois conjuntos de tags. Em cada exemplo, o rv de interesse é o número de itens
caindo na segunda e na quarta colunas: branco e amostrado, marcado
e recapturado, ás e na mão.
História Primeiro conjunto de tags Segundo conjunto de tags
urna branca amostradapreto

não amostrada
alce marcado sem etiqueta recapturado não recapturado
cartas não estão não ás
ásem mãos em mão
O próximo teorema descreve uma simetria entre duas distribuições hipergeométricas

com parâmetros diferentes; a prova segue a troca dos dois conjuntos de tags em
a história hipergeométrica.
Teorema 3.4.5. As distribuições HGeom(w, b, n) e HGeom(n, w + b ÿ n, w)

são idênticos. Ou seja, se X ÿ HGeom(w, b, n) e Y ÿ HGeom(n, w + b ÿ n, w),
então X e Y têm a mesma distribuição.
Prova. Usando a história do Hipergeométrico, imagine uma urna com w branco

bolas, b bolas pretas e uma amostra de tamanho n feita sem reposição. Seja X ÿ
HGeom(w, b, n) é o número de bolas brancas na amostra, pensando em branco/preto
como o primeiro conjunto de tags e amostrado/não amostrado como o segundo conjunto de tags. Deixar
Y ÿ HGeom(n, w + b ÿ n, w) seja o número de bolas amostradas entre as brancas
bolas, pensando em amostrado/não amostrado como o primeiro conjunto de tags e branco/preto como
o segundo conjunto de tags. Tanto X quanto Y contam o número de bolas brancas amostradas,
portanto têm a mesma distribuição.
Alternativamente, podemos verificar algebricamente que X e Y têm o mesmo PMF:
Em
bknÿk w+b = w!b!n!(w + b ÿ n)! k!

P(X = k) =
(w + b)!(w ÿ k)!(n ÿ k)!(b ÿ n + k)!,
n
n w+bÿnwÿk
k w+b = w!b!n!(w + b ÿ n)! k!
P(S = k) =
(w + b)!(w ÿ k)!(n ÿ k)!(b ÿ n + k)!.
Em
Preferimos a prova da história porque é menos tediosa e mais memorável.
3.4.6 (Binomial vs. Hipergeométrico). As distribuições binomial e hipergeométrica são

frequentemente confundidas. Ambas são distribuições discretas que assumem valores inteiros
entre 0 e n para algum n, e ambas podem ser interpretadas como o número de sucessos em n
tentativas de Bernoulli (para a Hipergeométrica, cada alce marcado na amostra recapturada
pode ser considerado um sucesso e cada alce não marcado é um fracasso). No entanto, uma
parte crucial da história do Binomial é que os ensaios de Bernoulli envolvidos são independentes.
Os testes de Bernoulli na história hipergeométrica são dependentes, uma vez que a amostragem
é feita sem reposição: saber que um alce da nossa amostra está marcado diminui a
probabilidade de o segundo alce também ser marcado.
3.5 Uniforme Discreto
Uma história muito simples, intimamente ligada à definição ingénua de probabilidade, descreve
a escolha de um número aleatório de um conjunto finito de possibilidades.
História 3.5.1 (distribuição uniforme discreta). Seja C um conjunto finito e não vazio de números.
Escolha um desses números uniformemente e aleatoriamente (isto é, todos os valores em C
são igualmente prováveis). Chame o número escolhido de X. Então diz-se que X tem a
distribuição Uniforme Discreta com parâmetro C; denotamos isso por X ÿ DUnif(C).
O PMF de X ÿ DUnif(C) é
1
P(X = x) =
|C|
para x ÿ C (e 0 caso contrário), uma vez que um PMF deve somar 1. Tal como acontece com as
questões baseadas na definição ingénua de probabilidade, as questões baseadas numa distribuição
uniforme discreta reduzem-se a problemas de contagem. Especificamente, para X ÿ DUnif(C) e
qualquer A ÿ C, temos
|A|
P(X ÿ UMA) = .
|C|
Exemplo 3.5.2 (Pedaços de papel aleatórios). Há 100 tiras de papel em um chapéu, cada uma
com um dos números 1, 2, . . . , 100 escrito nele, sem nenhum número aparecendo mais de uma
vez. Cinco dos boletos são sorteados, um de cada vez.
Primeiro considere a amostragem aleatória com reposição (com probabilidades iguais).
(a) Qual é a distribuição de quantas cartas sorteadas têm um valor de pelo menos 80 escrito nelas?
(b) Qual é a distribuição do valor do j-ésimo sorteio (para 1 ÿ j ÿ 5)?
(c) Qual é a probabilidade de o número 100 ser sorteado pelo menos uma vez?
Agora considere a amostragem aleatória sem reposição (com todos os conjuntos de cinco tiras com igual
probabilidade de serem escolhidos).
(d) Qual é a distribuição de quantas cartas sorteadas têm um valor de pelo menos 80 escrito nelas?
(e) Qual é a distribuição do valor do j-ésimo sorteio (para 1 ÿ j ÿ 5)?
(f) Qual é a probabilidade de o número 100 ser sorteado na amostra?
Solução:
(a) Pela história do Binomial, a distribuição é Bin(5, 0,21).
(b) Seja Xj o valor do j-ésimo sorteio. Por simetria, Xj ÿ DUnif(1, 2, . . . , 100).

Não existem certos boletos que adoram ser escolhidos no jº sorteio e outros que evitam ser
escolhidos nesse momento; todos são igualmente prováveis.
(c) Tomando complementos,
P(Xj = 100 para pelo menos um j) = 1 ÿ P(X1 = 100, . . . , X5 = 100).
Pela definição ingênua de probabilidade, isso é
1 ÿ (99/100)5 ÿ 0,049.
Esta solução utiliza apenas a nova notação para os conceitos do Capítulo 1. É útil ter esta nova notação,
uma vez que é compacta e flexível. No cálculo acima, é importante ver por que
P(X1 = 100,..., X5 = 100) = P(X1 = 100). . . P(X5 = 100).
Isto decorre da definição ingénua neste caso, mas uma forma mais geral de pensar sobre tais declarações
é através da independência de RVs, um conceito discutido em detalhe na Secção 3.8.
(d) Pela história da Hipergeométrica, a distribuição é HGeom(21, 79, 5).
(e) Seja Yj o valor do j-ésimo sorteio. Por simetria, Yj ÿ DUnif(1, 2, . . . , 100).

Aprender qualquer Yi fornece informações sobre os outros valores (portanto, Y1, ..., Y5 não são
independentes, conforme definido na Seção 3.8), mas a simetria ainda é válida, pois, incondicionalmente, a j-
ésima tira desenhada tem a mesma probabilidade de ser qualquer um dos os deslizamentos. Esta é a
distribuição incondicional de Yj : estamos trabalhando a partir de um ponto de vista vantajoso antes de retirar
qualquer uma das tiras.
Para obter mais informações sobre por que cada um dos Y1, . . . , Y5 é uniforme discreto e como pensar em Yj
incondicionalmente, imagine que em vez de uma pessoa tirar cinco tiras, uma de cada vez, há cinco pessoas que
tiram uma tira cada, todas enfiando a mão no chapéu simultaneamente, com todas as possibilidades igualmente
prováveis para quem recebe qual recibo. Esta formulação não altera o problema de forma importante e ajuda a
evitar a distração com detalhes cronológicos irrelevantes. Rotule as cinco pessoas como 1, 2, . . . , 5 de alguma
forma, por exemplo, do mais novo para o mais velho, e seja Zj o valor sorteado pela pessoa j. Por simetria, Zj ÿ
DUnif(1, 2, . . . , 100) para cada j; os Zj são dependentes, mas, observados individualmente, cada pessoa está
sorteando uma tira uniformemente aleatória.
(f) Os eventos Y1 = 100, . . . , Y5 = 100 são disjuntos, pois agora estamos amostrando sem reposição, então
P(Yj = 100 para algum j) = P(Y1 = 100) + · · · + P(Y5 = 100) = 0,05.
Verificação de sanidade: Esta resposta faz sentido intuitivamente, pois podemos muito bem pensar em
primeiro escolher cinco tiras aleatórias entre 100 tiras em branco e depois escrever aleatoriamente os
números de 1 a 100 nas tiras, o que dá uma chance de 5/100 de que o número 100 está em um dos cinco
boletos escolhidos.
Seria bizarro se a resposta de (c) fosse maior ou igual à resposta de (f), uma vez que a amostragem sem
reposição torna mais fácil encontrar o número 100.
(Pela mesma razão, ao procurar um bem perdido, faz mais sentido amostrar locais sem reposição do que
com reposição.) Mas faz sentido que a resposta de (c) seja apenas um pouco menor que a resposta de (f),
uma vez que é improvável em (c) que o mesmo boletim seja amostrado mais de uma vez (embora pelo
problema do aniversário seja menos improvável do que muitas pessoas poderiam imaginar).
De forma mais geral, se k tiragens forem sorteadas sem reposição, onde 0 ÿ k ÿ 100, então o mesmo
raciocínio dá que a probabilidade de tirar o número 100 é k/100.
Observe que isso faz sentido no caso extremo k = 100, pois nesse caso desenhamos todos os boletos.
3.6 Funções de distribuição cumulativa
Outra função que descreve a distribuição de um VR é a função de distribuição cumulativa (CDF). Ao contrário
do PMF, que apenas RVs discretos possuem, o CDF é definido para todos os RVs
Definição 3.6.1. A função de distribuição cumulativa (CDF) de um rv X é o

função FX dada por FX(x) = P(X ÿ x). Quando não há risco de ambiguidade, nós
às vezes, elimine o subscrito e apenas escreva F (ou alguma outra letra) para um CDF.
O próximo exemplo demonstra que para rvs discretos, podemos converter livremente entre
CDF e PMF.
Exemplo 3.6.2. Seja X ÿ Bin(4, 1/2). A Figura 3.8 mostra o PMF e o CDF de X.
1,0
1,0
•
• •
0,8
• •
0,6
PMF
CDF
P(X = 2)
0,4
P(X = 2)
•
• •
• •
0,2
• • • •
0,8
0,6
0,4
0,2
0,0
•
0,0
0 1 2 3 4 0 1 2 3 4
x x
FIGURA 3.8
Caixa(4, 1/2) PMF e CDF. A altura da barra vertical P(X = 2) no PMF é

também a altura do salto no CDF em 2.
• De PMF para CDF: Para encontrar P(X ÿ 1,5), que é o CDF avaliado em 1,5, nós
somar o PMF sobre todos os valores do apoio que sejam menores ou iguais a 1,5:
4 4
1 1 5
P(X ÿ 1,5) = P(X = 0) + P(X = 1) = +4 = .
2 2 16
Da mesma forma, o valor do CDF em um ponto arbitrário x é a soma das alturas

das barras verticais do PMF em valores menores ou iguais a x.
• De CDF a PMF: O CDF de um RV discreto consiste em saltos e regiões planas.

A altura de um salto no CDF em x é igual ao valor do PMF em x. Para
Por exemplo, na Figura 3.8, a altura do salto no CDF em 2 é a mesma que o
altura da barra vertical correspondente no PMF; isso está indicado na figura
com aparelho encaracolado. As regiões planas do CDF correspondem a valores fora do
suporte de X, então o PMF é igual a 0 nessas regiões.
Os CDFs válidos satisfazem os seguintes critérios.
Teorema 3.6.3 (FDCs válidos). Qualquer CDF F possui as seguintes propriedades.
• Crescente: Se x1 ÿ x2, então F(x1) ÿ F(x2).

• Contínuo à direita: Como na Figura 3.8, o CDF é contínuo, exceto possivelmente por ter
alguns saltos. Onde quer que haja um salto, o CDF é contínuo da direita. Ou seja, para
qualquer a, temos
F(a) = limite F(x).

xÿa+
• Convergência para 0 e 1 nos limites:
limão
xÿÿÿ F(x) = 0 e limxÿÿ F(x) = 1.
Prova. Os critérios acima são verdadeiros para todos os CDFs, mas por simplicidade só o
provaremos para o caso em que F é o CDF de um rv X discreto cujos valores possíveis
são 0, 1, 2, . . . . Como exemplo de como visualizar os critérios, considere a Figura 3.8: o
CDF mostrado ali é crescente (com algumas regiões planas), contínuo a partir da direita (é
contínuo exceto nos saltos, e cada salto tem um ponto aberto na parte inferior e um ponto
fechado no topo) e converge para 0 quando x ÿ ÿÿ e para 1 como x ÿ ÿ (neste exemplo,
atinge 0 e 1; em alguns exemplos, um ou ambos os valores podem ser aproximados, mas
nunca alcançado).
O primeiro critério é verdadeiro pois o evento {X ÿ x1} é um subconjunto do evento {X ÿ

x2}, então P(X ÿ x1) ÿ P(X ÿ x2).
Para o segundo critério, observe que
P(X ÿ x) = P(X ÿ x),
onde x é o maior número inteiro menor ou igual a x. Por exemplo, P(X ÿ 4,9) = P(X ÿ 4) já
que X tem valor inteiro. Então F(a + b) = F(a) para qualquer b > 0 que seja pequeno o
suficiente para que a + b < a + 1, por exemplo, para a = 4,9, isso vale para 0 < b < 0,1. Isso
implica F(a) = limxÿa+ F(x) (na verdade, é muito mais forte, pois diz que F(x) é igual a F(a)
quando x está próximo o suficiente de a e à direita).
Para o terceiro critério, temos F(x) = 0 para x < 0, e

x ÿ
limxÿÿ F(x) = limxÿÿ P(X ÿ x) = limxÿÿ

P(X = n) = P(X = n) = 1.
n=0 n=0
O inverso também é verdadeiro: mostraremos no Capítulo 5 que, dada qualquer função F

que atenda a esses critérios, podemos construir uma variável aleatória cujo CDF é F.
Para recapitular, vimos agora três maneiras equivalentes de expressar a distribuição de uma variável
aleatória. Duas delas são o PMF e o CDF: sabemos que estas duas funções contêm a mesma informação,
pois sempre podemos calcular o CDF a partir do PMF e vice-versa. Geralmente o PMF é mais fácil de
trabalhar para RVs discretos, uma vez que a avaliação do CDF requer um somatório.
Uma terceira maneira de descrever uma distribuição é com uma história que explique (de forma
precisa) como a distribuição pode surgir. Usamos as histórias das distribuições Binomial e
Hipergeométrica para derivar os PMFs correspondentes. Assim, a história e o PMF também
contêm a mesma informação, embora muitas vezes possamos obter provas mais intuitivas com
a história do que com os cálculos do PMF.
3.7 Funções de variáveis aleatórias
Nesta seção discutiremos o que significa assumir uma função de uma variável aleatória e
construiremos uma compreensão de por que uma função de uma variável aleatória é uma
variável aleatória. Ou seja, se X é uma variável aleatória, então
, X2 e X, e sin(X) também são
variáveis aleatórias, assim como g(X) para qualquer função g : R ÿ R.
Por exemplo, imagine que dois times de basquete (A e B) estão jogando uma partida de sete
jogos, e seja X o número de vitórias do time A (então X ÿ Bin(7, 1/2) se os times estiverem
empatados e os jogos são independentes). Seja g(x) = 7 ÿ x, e seja h(x) = 1 se x ÿ 4 e h(x) = 0
se x <4. Então g(X) = 7 ÿ X é o número de vitórias da equipe B, e h(X) é o indicador de que o
time A venceu a maioria dos jogos. Como X é um rv, tanto g(X) quanto h(X) também são rvs
Para ver como definir formalmente as funções de um RV, vamos retroceder um pouco. No início
deste capítulo, consideramos uma variável aleatória X definida em um espaço amostral com 6
elementos. A Figura 3.1 usou setas para ilustrar como X mapeia cada pedra no espaço amostral
para um número real, e a metade esquerda da Figura 3.2 mostrou como podemos imaginar X
escrevendo um número real dentro de cada pedra.
Agora podemos, se quisermos, aplicar a mesma função g a todos os números dentro das
pedras. Em vez dos números X(s1) a X(s6), agora temos os números g(X(s1)) a g(X(s6)), o que
fornece um novo mapeamento dos resultados da amostra para números reais – temos criou
uma nova variável aleatória, g(X).
Definição 3.7.1 (Função de um RV). Para um experimento com espaço amostral S, um rv X e uma função
g : R ÿ R, g(X) é o rv que mapeia s para g(X(s)) para todo s ÿ S.
Tomando g(x) = ÿ x para concretude, a Figura 3.9 mostra que g(X) é a composição das funções
X e g, dizendo “primeiro aplique X, depois aplique g”. A Figura 3.10 representa g(X) de forma
mais sucinta, rotulando diretamente os resultados da amostra. Ambas as figuras nos mostram
que g(X) é um rv; se X cristaliza em 4, então g(X) cristaliza em 2.
Dado um rv X discreto com um PMF conhecido, como podemos encontrar o PMF de Y = g(X)?
No caso em que g é uma função injetiva, a resposta é direta: o suporte de Y é o conjunto de
todos os g(x) com x no suporte de X, e
P(Y = g(x)) = P(g(X) = g(x)) = P(X = x).

s1 s2 s3
X g
s4 s5 s6 0 1 4 0 1 2
FIGURA 3.9
O rv X é definido em um espaço amostral com 6 elementos e possui valores possíveis 0,
1 e 4. A função g é a função raiz quadrada. Compor X e g dá o
variável aleatória g(X) = ÿ X, que tem valores possíveis 0, 1 e 2.
1 0 1
s1 s2 s3
0 2 1
s4 s5 s6
FIGURA 3.10
Como g(X) = ÿ X rotula cada pedra com um número, é um rv
O caso em que Y = g(X) com g um a um é ilustrado nas tabelas a seguir;

a ideia é que se os valores possíveis distintos de X forem x1, x2 ,. . . com probabilidades
p1, p2, . . . (respectivamente), então os valores possíveis distintos de Y são g(x1), g(x2), . . . ,
com a mesma lista p1, p2, . . . de probabilidades.
x P(X = x) e P(S = y)
x1 p1 g(x1) p1
x2 p2 g(x2) p2
x3 pág.3 g(x3) pág.3
.. .. .. ..
. . . .
PMF de X, em forma de tabela PMF de Y , em forma de tabela
Isto sugere uma estratégia para encontrar o PMF de um rv com uma distribuição desconhecida:
tente expressar o rv como uma função biunívoca de um rv com uma distribuição conhecida.
distribuição. O próximo exemplo ilustra esse método.
Exemplo 3.7.2 (caminhada aleatória). Uma partícula move n passos em uma reta numérica. O
partícula começa em 0 e a cada passo ela se move 1 unidade para a direita ou para a esquerda,
com probabilidades iguais. Suponha que todas as etapas sejam independentes. Seja Y o da partícula
posição após n etapas. Encontre o PMF de Y .
Solução:
Considere cada passo como um julgamento de Bernoulli, onde o certo é considerado um sucesso e
esquerda é considerada um fracasso. Então, o número de passos que a partícula dá até o
direita é uma variável aleatória Bin (n, 1/2), que podemos nomear X. Se X = j, então o
partícula deu j passos para a direita en - j passos para a esquerda, dando um final
posição de j ÿ (n ÿ j) = 2j ÿ n. Portanto, podemos expressar Y como uma função injetora de
X, ou seja, Y = 2X ÿ n. Como X assume valores em {0, 1, 2, . . . , n}, Y assume valores em
{ÿn, 2 ÿ n, 4 ÿ n, . . . , n}.
O PMF de Y pode então ser encontrado a partir do PMF de X:

n
n 1
P(Y = k) = P(2X ÿ n = k) = P(X = (n + k)/2) = n+k ,
2
2
se k é um número inteiro entre ÿn e n (inclusive) tal que n+k é um número par.
Se g não for injetivo, então, para um dado y, pode haver vários valores de x, tais
que g(x) = y. Para calcular P(g(X) = y), precisamos somar as probabilidades de X
assumindo qualquer um desses valores candidatos de x.
Teorema 3.7.3 (PMF de g(X)). Seja X um rv discreto e g : R ÿ R. Então

o suporte de g(X) é o conjunto de todo y tal que g(x) = y para pelo menos um x no
suporte de X, e o PMF de g(X) é
P(g(X) = y) = P(X = x),

x:g(x)=y
para todo y no suporte de g(X).
Exemplo 3.7.4. Continuando como no exemplo anterior, seja D a distância da partícula à origem
após n passos. Suponha que n seja par. Encontre o PMF de D.
Solução:
Podemos escrever D = |Y |; esta é uma função de YD , mas não é um para um. O evento
= 0 é igual ao evento Y = 0. Para k = 2, 4,. . . , n, o evento D = k é igual ao evento {Y = k} ÿ {Y =
ÿk}. Então o PMF de D é
n
n 1
P(D = 0) = ,
nº
2
2
n
n 1
P(D = k) = P(Y = k) + P(Y = ÿk) = 2 n+k 2
,
2
para k = 2, 4,. . . , n. Na etapa final, usamos simetria (imagine um novo passeio aleatório que se
move para a esquerda cada vez que nosso passeio aleatório se move para a direita e vice-versa)
para ver que P(Y = k) = P(Y = ÿk).
O mesmo raciocínio que usamos para lidar com funções de uma variável aleatória pode ser
estendido para lidar com funções de múltiplas variáveis aleatórias. Já vimos um exemplo disso
com a função de adição (que mapeia dois números x, y à sua soma x + y): no Exemplo 3.2.5,
vimos como visualizar T = X + Y como um rv por si só. à direita, onde X e Y são obtidos jogando
dados.
Definição 3.7.5 (Função de dois RVs). Dado um experimento com espaço amostral S, se X e Y
são rvs que mapeiam s ÿ S para X(s) e Y (s) respectivamente, então g(X, Y ) é o rv que mapeia
s para g(X(s ), S(s)).
Observe que estamos assumindo que X e Y estão definidos no mesmo espaço amostral S.
Normalmente assumimos que S é escolhido para ser rico o suficiente para abranger quaisquer RVs
com os quais desejamos trabalhar. Por exemplo, se X é baseado em um lançamento de moeda e Y
é baseado em um lançamento de dados, e inicialmente estávamos usando o espaço amostral S1 =
{H, T} para X e o espaço amostral S2 = {1, 2, 3, ,4, 5, 6} para Y podemos facilmente redefinir X e Y
para que ambos sejam definidos no espaço mais rico S = S1 × S2 = {(s1, s2) : s1 ÿ S1, s2 ÿ S2}.
Uma maneira de entender o mapeamento de S para R representado pelo rv g(X, Y ) é com uma
, resultados possíveis. Interpretar X +Y
tabela exibindo os valores de X, Y e g(X, Y ) sob vários
como um rv é intuitivo: se observarmos X = x e Y = y, então X +Y cristaliza em x+y. Para um
exemplo menos familiar como max(X, Y ), os alunos muitas vezes não têm certeza de como
interpretá-lo como um rv Mas a ideia é a mesma: se observarmos X = x e Y = y, então max(X,
Y ) cristaliza para máximo (x, y).
Exemplo 3.7.6 (Máximo de dois lançamentos de dados). Lançamos dois dados justos de 6 lados.
Seja X o número do primeiro dado e Y o número do segundo dado. O seguinte e max(X, Y ) em
espaço amostral X, Y, de forma , 7 dos 36 resultados da tabela fornecem os valores do
análoga à tabela do Exemplo 3.2.5.
s XY máx(X, Y )
(1, 2) 1 2 2
(1, 6) 1 6 6
(2, 5) 2 5 5
(3, 1) 3 1 3
(4, 3) 3 (5, 4
4) 5 4 4
(6, 6) 5
6 6 6
Portanto, max(X, Y ) atribui um valor numérico a cada resultado de amostra. A PMF é
P(máx(X, Y) = 1) = 1/36,
P(máx(X, Y) = 2) = 3/36,
P(máx(X, Y) = 3) = 5/36,
P (máx (X, Y) = 4) = 7/36,
P (máx (X, Y) = 5) = 9/36,
P(máx(X, Y) = 6) = 11/36.
Essas probabilidades podem ser obtidas tabulando os valores de max(x, y) em um

Grade 6×6 e contando quantas vezes cada valor aparece na grade, ou com
cálculos como
P(máx(X, Y) = 5) = P(X = 5, Y ÿ 4) + P(X ÿ 4, Y = 5) + P(X = 5, Y = 5)

= 2P(X = 5, Y ÿ 4) + 1/36
= 2(4/36) + 1/36 = 9/36.
3.7.7 (Erros de categoria e magia simpática). Muitos erros comuns em

probabilidade pode ser atribuída à confusão de dois dos seguintes objetos fundamentais com
entre si: distribuições, variáveis aleatórias, eventos e números. Tais erros são
exemplos de erros de categoria. Em geral, um erro de categoria é um erro que não apenas
acontecer de estar errado, mas na verdade é necessariamente errado, uma vez que se baseia no erro
categoria de objeto. Por exemplo, respondendo à pergunta “Quantas pessoas vivem em
Boston?" com “ÿ42” ou “ÿ” ou “elefantes cor de rosa” seria um erro de categoria – nós
podemos não saber o tamanho da população de uma cidade, mas sabemos que é um número não negativo
inteiro em qualquer momento. Para ajudar a evitar estar categoricamente errado, pense sempre
sobre qual categoria uma resposta deve ter.
Um erro de categoria especialmente comum é confundir uma variável aleatória com a sua distribuição.
Chamamos esse erro de magia simpática; este termo vem da antropologia,
onde é usado para a crença de que se pode influenciar um objeto manipulando um
representação desse objeto. O seguinte ditado esclarece a distinção
entre uma variável aleatória e sua distribuição:
A palavra não é a coisa; o mapa não é o territorio. –Alfred Korzybski

Podemos pensar na distribuição de uma variável aleatória como um mapa ou planta que descreve
o RV Assim como diferentes casas podem compartilhar o mesmo projeto, diferentes RVs
podem ter a mesma distribuição, mesmo que os experimentos que eles resumem, e o
os espaços amostrais a partir dos quais eles mapeiam não são iguais.
Aqui estão dois exemplos de magia simpática:
• Dado um rv X, tentando obter o PMF de 2X multiplicando o PMF de X por

2. Não faz sentido multiplicar um PMF por 2, uma vez que as probabilidades seriam
não soma mais 1. Como vimos acima, se X assume valores xj com probabilidades
pj , então 2X assume valores 2xj com probabilidades pj . Portanto o PMF de 2X
é um trecho horizontal do PMF de X; não é um trecho vertical, como seria
resultado da multiplicação do PMF por 2. A Figura 3.11 mostra o PMF de um discreto
rv X com suporte {0, 1, 2, 3, 4}, junto com o PMF de 2X, que possui suporte
{0, 2, 4, 6, 8}. Observe que X pode assumir valores ímpares, mas 2X é necessariamente par.
1,0
0,8
0,6
PMF
de
0,4
X
0,2
0,0
0 1 2 3 4 5 6 7 8 9 10
x
1,0
0,8
0,6
PMF
0,4
2X
de
0,2
0,0
0 1 2 3 4 5 6 7 8 9 10
x
FIGURA 3.11
PMF de X (acima) e PMF de 2X (abaixo).
• Afirmar que porque X e Y têm a mesma distribuição, X deve ser sempre igual, ou seja, P(X = Y ) = 1. Só porque
dois rvs têm a mesma distribuição, Y não significa que eles são sempre iguais, ou nunca serão iguais. Vimos
isso no Exemplo 3.2.5.
Como outro exemplo, considere jogar uma moeda justa uma vez. Seja X o indicador de Cara e Y = 1ÿX o
indicador de Coroa. Tanto X quanto Y têm a distribuição Bern(1/2), mas o evento X = Y é impossível. Os
PMFs de X e Y são a mesma função, mas X e Y são mapeamentos diferentes do espaço amostral para os
números reais.
Se Z é o indicador de Cara em um segundo lance (independente do primeiro lance), então Z

também é Bern (1/2), mas Z não é o mesmo rv que X. Aqui
P(Z = X) = P(HH ou TT) = 1/2.
3.8 Independência de veículos de recreio
Assim como tínhamos a noção de independência de eventos, podemos definir independência de variáveis
aleatórias. Intuitivamente, se dois rvs X e Y são independentes, então saber o valor de X não fornece nenhuma
informação sobre o valor de Y e vice-versa. A definição formaliza essa ideia. ,
Definição 3.8.1 (Independência de dois RVs). As variáveis aleatórias X e Y são ditas independentes
se
P(X ÿ x, Y ÿ y) = P(X ÿ x)P(Y ÿ y),
para todo x, y ÿ R.
No caso discreto, isso é equivalente à condição
P(X = x, Y = y) = P(X = x)P(Y = y),
para todo x, y com x no suporte de X e y no suporte de Y .
A definição para mais de dois RVs é análoga.
Definição 3.8.2 (Independência de muitos RVs). Variáveis aleatórias X1, . . . , Xn são independentes
se
P(X1 ÿ x1, . . . , Xn ÿ xn) = P(X1 ÿ x1). . . P(Xn ÿ xn),
para todo x1, . . . , xn ÿ R. Para um número infinito de rvs, dizemos que eles são independentes se
todo subconjunto finito dos rvs for independente.
Comparando isto com os critérios de independência de n eventos, pode parecer estranho que a
independência de X1, . . . , Xn requer apenas uma igualdade, enquanto para eventos nós
n
necessário para verificar a independência dos pares para todos2os pares, independência de três vias para
n
todos os trigêmeos e assim por diante. No entanto, examinando mais de perto a definição, vemos
3
que a independência de rvs exige que a igualdade seja válida para todos os possíveis x1, . . . , xn—
infinitas condições! Se pudermos encontrar pelo menos uma única lista de valores x1 ,. . . , xn para
que a igualdade acima não é válida, então X1, . . . , Xn não são independentes.
3.8.3. Se X1, . . . , Xn são independentes, então eles são independentes aos pares, ou seja,
Xi é independente de Xj para i = j. A ideia por trás da prova de que Xi e Xj são
independente é deixar todos os xk diferentes de xi , xj vai para ÿ na definição de independência,
uma vez que já sabemos que Xk < ÿ é verdadeiro (embora seja necessário algum trabalho para dar
uma justificativa completa para o limite). Mas a independência entre pares não implica
independência em geral, como vimos no Capítulo 2 para eventos.
Exemplo 3.8.4. No lançamento de dois dados honestos, se X for o número do primeiro dado e
Y é o número no segundo dado, então X + Y não é independente de X - Y, pois
1 5
· .
0 = P(X + Y = 12, X - Y = 1) = P(X + Y = 12)P(X - Y = 1) =
36 36
Saber que o total é 12 nos diz que a diferença deve ser 0, então os rvs fornecem informações um sobre o
outro.
4
Se X e Y são independentes então também é verdade, por exemplo, que X2 é independente de Y ,
4
já que se X2 fornecesse informações sobre Y , então X daria informações sobre Y
4
(usando X2 e Y como intermediários: X determina X2 , que daria informações
sobre Y 4 , que por sua vez daria informações sobre Y ). De forma mais geral, temos
o seguinte resultado (para o qual omitimos uma prova formal).
Teorema 3.8.5 (Funções de rvs independentes). Se X e Y são independentes

rvs, então qualquer função de X é independente de qualquer função de Y .
Definição 3.8.6 (iid). Freqüentemente trabalharemos com variáveis aleatórias que são independentes
e têm a mesma distribuição. Chamamos esses rvs de independentes e distribuídos de forma idêntica,
ou iid, para abreviar.
3.8.7 (i. vs. id). “Independente” e “distribuído de forma idêntica” são dois conceitos frequentemente
confundidos, mas completamente diferentes. Variáveis aleatórias são independentes se
eles não fornecem informações um sobre o outro; eles são distribuídos de forma idêntica se
eles têm o mesmo PMF (ou equivalentemente, o mesmo CDF). Se dois trailers são
independente não tem nada a ver com o fato de eles terem a mesma distribuição. Nós
pode ter RVs que são:
• independentes e distribuídos de forma idêntica. Seja X o resultado de um lançamento de dados e seja

Y será o resultado de um segundo lançamento de dados independente. Então X e Y são iid
• independentes e não distribuídos de forma idêntica. Seja X o resultado de um lançamento de dados, e

seja Y o preço de fechamento do Dow Jones (um índice do mercado de ações) um mês a partir de
agora. Então X e Y não fornecem informações um sobre o outro (seria fervorosamente
esperança), e X e Y não têm a mesma distribuição.
• dependente e distribuído de forma idêntica. Seja X o número de caras em n lançamentos

justos de moeda independentes, e seja Y o número de coroas nesses mesmos n lançamentos.
Então X e Y são ambos distribuídos Bin(n, 1/2), mas são altamente dependentes: se
conhecemos X, então conhecemos Y perfeitamente.
• dependente e não distribuído de forma idêntica. Seja X o indicador de se o partido maioritário mantém o
controlo da Câmara dos Representantes nos EUA após a próxima eleição, e seja Y a classificação média de
favorabilidade do partido maioritário nas sondagens realizadas um mês após as eleições. Então X e Y são
dependentes e X e Y não têm a mesma distribuição.
Tomando a soma de iid Bernoulli rvs, podemos escrever a história da distribuição binomial de forma algébrica.
Teorema 3.8.8. Se X ÿ Bin(n, p), visto como o número de sucessos em n tentativas

independentes de Bernoulli com probabilidade de sucesso p, então podemos escrever X
= X1+· · ·+Xn onde os Xi são iid Bern(p).
Prova. Seja Xi = 1 se a i-ésima tentativa foi um sucesso e 0 se a i-ésima tentativa foi um fracasso.
É como se tivéssemos uma pessoa designada para cada teste e pedíssemos a cada pessoa que levantasse a mão se o teste
fosse um sucesso. Se contarmos o número de mãos levantadas (que é o mesmo que somar o Xi), obtemos o número total de
sucessos.
Um fato importante sobre a distribuição Binomial é que a soma dos rvs Binomiais
independentes com a mesma probabilidade de sucesso também é Binomial.
Teorema 3.8.9. Se X ÿ Bin(n, p), Y ÿ Bin(m, p) e X for independente de Y então X + Y ÿ Bin(n + m, p). ,
Prova. Apresentamos três provas, pois cada uma ilustra uma técnica útil.
1. LOTP: Podemos encontrar diretamente o PMF de X + Y condicionando em X (ou Y, o que preferirmos) e ,

usando a lei da probabilidade total:
P(X + Y = k) = P(X + Y = k|X = j)P(X = j)

j=0
k
=
P(Y = k ÿ j)P(X = j)
j=0
k
eu kÿjmÿk+j pq
n
jn-j pq
=
k-j j
j=0
k
kn+mÿk = pq
eu n
k-j j
j=0
n+m kn+mÿk pq
= .
k
Na segunda linha, usamos a independência de X e Y para justificar a eliminação do

condicionamento em
P(X + Y = k|X = j) = P(Y = k ÿ j|X = j) = P(Y = k ÿ j),
e na última linha, usamos o fato de que
k
eu n n + mk
=
k-j j
j=0
pela identidade de Vandermonde. A expressão resultante é Bin(n + m, p) PMF, então X + Y ÿ

Bin(n + m, p).
2. Representação: Uma prova muito mais simples é representar X e Y como a soma de iid
Bern(p) rvs: X = X1 + · · · + Xn e Y = Y1 + · · · + Ym, onde Xi e Yj são todos iid Bern(p). Então X
+ Y é a soma de n + m iid Bern(p) rvs, então sua distribuição, pelo teorema anterior, é Bin(n + m,
p).
3. História: Pela história Binomial, X é o número de sucessos em n tentativas independentes e Y

é o número de sucessos em m tentativas independentes adicionais, todas com a mesma
probabilidade de sucesso, então X +Y é o número total de sucessos em os ensaios n+m, que é
a história da distribuição Bin(n + m, p).
É claro que, se tivermos uma definição para a independência dos RVs, deveremos ter uma definição
análoga para a independência condicional dos RVs.
Definição 3.8.10 (Independência condicional dos RVs). As variáveis aleatórias X e Y são

condicionalmente independentes dado um rv Z se para todo x, y ÿ R e todo z no suporte de Z,
P(X ÿ x, Y ÿ y|Z = z) = P(X ÿ x|Z = z)P(Y ÿ y|Z = z).
Para RVs discretos, uma definição equivalente é exigir
P(X = x, Y = y|Z = z) = P(X = x|Z = z)P(Y = y|Z = z).
Como poderíamos esperar do nome, esta é a definição de independência, exceto que

condicionamos Z = z em todos os lugares e exigimos que a igualdade seja válida para
todo z no suporte de Z.
Definição 3.8.11 (PMF Condicional). Para quaisquer rvs X e Z discretos, a função P(X = x|Z = z),
quando considerada como uma função de x para z fixo, é chamada de PMF condicional de X
dado Z = z.
A independência dos RVs não implica independência condicional, nem vice-versa.

Primeiro, mostremos por que a independência não implica independência condicional.
Exemplo 3.8.12 (moedas correspondentes). Considere o jogo simples chamado correspondência

centavos. Cada um dos dois jogadores, A e B, tem um centavo justo. Eles jogam seus centavos
independentemente. Se as moedas coincidirem, A vence; caso contrário, B vence. Seja X 1 se A for
centavo dá cara e -1 caso contrário, e define Y de forma semelhante para B (os rvs X e
Y são chamados de sinais aleatórios).
Seja Z = XY , que é 1 se A vencer e ÿ1 se B vencer. Então X e Y são incondicionais

nacionalmente independente, mas dado Z = 1, sabemos que X = Y (as moedas combinam).
Portanto, X e Y são condicionalmente dependentes, dado Z.
Exemplo 3.8.13 (Dois amigos). Considere novamente a frase “Tenho apenas dois amigos que
ever call me” do Exemplo 2.5.11, exceto agora com notação rv. Seja X
o indicador de Alice me ligando na próxima sexta-feira, Y é o indicador de Bob me ligando
próxima sexta-feira, e Z será o indicador de exatamente um deles me ligando na próxima sexta-feira.
Então X e Y são independentes (por suposição). Mas dado Z = 1, temos que
X e Y são completamente dependentes: dado que Z = 1, temos Y = 1 ÿ X.
A seguir, vejamos por que a independência condicional não implica independência.
Exemplo 3.8.14 (oponente misterioso). Suponha que você vá jogar dois

partidas de tênis contra um dos dois gêmeos idênticos. Contra um dos gêmeos, você está
equilibrados e contra o outro você tem 3/4 de chance de ganhar. Suponha
que você não pode dizer contra qual gêmeo está jogando antes dos dois jogos. Deixar
Z é o indicador de que você está jogando contra o gêmeo com quem você está empatado, e
sejam X e Y os indicadores de vitória no primeiro e segundo jogos, respectivamente.
Condicional em Z = 1, X e Y são iid Bern(1/2) e condicional em Z = 0,

X e Y são iid Bern(3/4). Portanto, X e Y são condicionalmente independentes, dado Z.
Incondicionalmente, X e Y são dependentes porque observar X = 1 torna-o mais
é provável que estejamos bancando o gêmeo que é pior. Aquilo é,
P(Y = 1|X = 1) > P(Y = 1).
Os jogos passados dão-nos informações que nos ajudam a inferir quem é o nosso adversário, o que
por sua vez, nos ajuda a prever jogos futuros! Observe que este exemplo é isomórfico ao
Cenário de “moeda aleatória” do Exemplo 2.3.7.
3.9 Conexões entre Binomial e Hipergeométrico
As distribuições Binomial e Hipergeométrica estão conectadas em dois importantes

caminhos. Como veremos nesta seção, podemos ir do Binomial ao Hipergeométrico por
condicionamento, e podemos ir do Hipergeométrico ao Binomial
tomando um limite. Começaremos com um exemplo motivador.
Exemplo 3.9.1 (teste exato de Fisher). Um cientista deseja estudar se as mulheres ou

os homens têm maior probabilidade de ter uma determinada doença ou se têm a mesma probabilidade.
Uma amostra aleatória de n mulheres e m homens é coletada e cada pessoa é testada para a doença
(suponha, para este problema, que o teste seja totalmente preciso). Os números de mulheres e homens na
amostra que têm a doença são X e Y respectivamente, com X ÿ Bin(n, p1) e Y ÿ Bin(m, p2),
independentemente. Aqui p1 e p2 são desconhecidos e estamos interessados em testar se p1 = p2 (isto é
conhecido como hipótese nula em estatística).
Considere uma tabela 2 × 2 com linhas correspondentes ao estado da doença e colunas correspondentes
ao sexo. Cada entrada é a contagem de quantas pessoas têm aquele estado de doença e sexo, então n +
m é a soma de todas as 4 entradas. Suponha que se observe que X + Y = r.
O teste exato de Fisher é baseado no condicionamento nas somas das linhas e colunas, de modo que n,
m, r são todos tratados como fixos e, em seguida, verificando se o valor observado de X é “extremo” em
comparação com esta distribuição condicional. Assumindo a hipótese nula, encontre o PMF condicional de
X dado X + Y = r.
Solução:
Primeiro construiremos a tabela 2 × 2, tratando n, m e r como fixos.
Mulheres Homens Total
Doença x rÿx R
Nenhuma doença n ÿ xm ÿ r + xn + m ÿ r
Total n eu n+m
A seguir, vamos calcular o PMF condicional P(X = x|X + Y = r). Pela regra de Bayes,
P(X + Y = r|X = x)P(X = x)

P(X = x|X + Y = r) =
P(X + Y = r)
= P(Y = r ÿ x)P(X = x) .
P(X + Y = r)
O passo P(X +Y = r|X = x) = P(Y = rÿx) é justificado pela independência de X e Y . Assumindo a hipótese
nula e deixando p = p1 = p2, temos X ÿ Bin(n, p) e Y ÿ Bin(m, p), independentemente, então X + Y ÿ Bin(n
+ m, p). Por isso,
eu mÿr+xnx
r-x
p rÿx (1 ÿ p) p x (1 ÿ p) n ÿ x
P(X = x|X + Y = r) = n+m
R
p r(1 ÿ p) n+mÿr
n eu
= x r-x .
n+m
R
Portanto, a distribuição condicional de X é hipergeométrica com parâmetros n, m, r.
Para entender por que a Hipergeométrica apareceu, aparentemente do nada, vamos conectar esse
problema à história do alce para a Hipergeométrica. Na história do alce, somos
interessado na distribuição do número de alces marcados na amostra recapturada.

Por analogia, pense nas mulheres como alces etiquetados e nos homens como alces não
etiquetados. Em vez de recapturar r elk aleatoriamente na floresta, infectamos X + Y = r
pessoas com a doença; sob a hipótese nula, o conjunto de pessoas doentes tem a mesma
probabilidade de ser qualquer conjunto de r pessoas. Assim, condicionalmente a X + Y = r,
X representa o número de mulheres entre os r indivíduos doentes. Isso é exatamente
análogo ao número de alces marcados na amostra recapturada, que é distribuída HGeom(n, m, r).
Um fato interessante, que acaba sendo útil em estatística, é que a distribuição condicional de X não
depende de p: incondicionalmente, X ÿ Bin(n, p), mas p desaparece dos parâmetros da distribuição
condicional! Isto faz sentido após reflexão, pois uma vez que sabemos X + Y = r, podemos trabalhar
diretamente com o fato de que temos uma população com r doentes e n + m ÿ r pessoas saudáveis, sem
nos preocuparmos com o valor de p que originalmente gerou a população.
Este exemplo motivador serve como prova do seguinte teorema.
Teorema 3.9.2. Se X ÿ Bin(n, p), Y ÿ Bin(m, p) e X for independente de Y então a distribuição condicional ,
de X dado X + Y = r é HGeom(n, m, r).
Na outra direção, o Binomial é um caso limite do Hipergeométrico.
Teorema 3.9.3. Se X ÿ HGeom(w, b, n) e N = w + b ÿ ÿ tal que p = w/(w + b) permanece fixo, então o PMF
de X converge para o Bin(n, p) PMF.
Prova. Tomamos o limite declarado do HGeom(w, b, n) PMF:
Em
k bnÿk
P(X = k) = w+b
n
w+bÿnwÿk
n w+b
= pelo Teorema 3.4.5
k
Em
n b! (w ÿ k)! (b ÿ (w + b - n)! c!
=
k n + k)! (w + b)! C(C - 1). . .(w ÿ k + 1)b(b
n ÿ 1). . .(b ÿ n + k + 1) (w + b)(w + b ÿ 1). . .(w + b - n + 1)
=
k
1 kÿ1 1 n-k-1
n pp ÿ N . . . p - N qq ÿ N . . . q ÿ n ÿ 1 N N
= .
k 1 2
1- 1- N. . . 1 -
N
sabe .
Como N ÿ ÿ, o denominador vai para 1 e o numerador vai para p Assim q
n kn-k pq
P(X = k) ÿ ,
k
que é o PMF Bin(n, p).
As histórias do Binomial e do Hipergeométrico fornecem intuição para este resultado: dada uma urna com
w bolas brancas e b bolas pretas, surge a distribuição Binomial
da amostragem de n bolas da urna com reposição, enquanto a Hipergeométrica surge da amostragem sem
reposição. À medida que o número de bolas na urna aumenta muito em relação ao número de bolas sorteadas, a
amostragem com reposição e a amostragem sem reposição tornam-se essencialmente equivalentes. Em termos
práticos, este teorema nos diz que se N = w + b for grande em relação a n, podemos aproximar o HGeom(w, b, n)
PMF pelo Bin(n, w/(w + b)) PMF.
O problema do aniversário implica que é surpreendentemente provável que alguma bola seja amostrada mais de
uma vez se for amostrada com reposição; por exemplo, se 1.200 de 1.000.000 bolas forem sorteadas aleatoriamente
com reposição, então há cerca de 51% de chance de que alguma bola seja sorteada mais de uma vez! Mas isso
se torna cada vez menos provável à medida que N cresce, e mesmo que seja provável que haja algumas
coincidências, a aproximação ainda pode ser razoável se for muito provável que a grande maioria das bolas na
amostra seja amostrada apenas uma vez cada. .
3.10 Recapitulação
Uma variável aleatória (rv) é uma função que atribui um número real a cada resultado possível de um experimento.
A distribuição de um rv X é uma especificação completa das probabilidades para os eventos associados a X, como
{X = 3} e {1 ÿ X ÿ 5}.
A distribuição de um rv discreto pode ser definida usando um PMF, um CDF ou uma história.
O PMF de X é a função P(X = x) para x ÿ R. O CDF de X é a função P(X ÿ x) para x ÿ R. Uma história para X
descreve um experimento que poderia dar origem a um aleatório variável com a mesma distribuição de X.
Para que um PMF seja válido, ele deve ser não negativo e somar 1. Para que um CDF seja válido, ele deve ser
crescente, contínuo à direita, convergir para 0 como x ÿ ÿÿ e convergir para 1 como x ÿ ÿ.
É importante distinguir entre uma variável aleatória e a sua distribuição: a distribuição é um modelo para a
construção do RV, mas diferentes RV podem ter a mesma distribuição, tal como diferentes casas podem ser
construídas a partir do mesmo projeto.
Quatro distribuições discretas nomeadas são Bernoulli, Binomial, Hipergeométrica e Uniforme Discreta. Cada uma
delas é na verdade uma família de distribuições, indexadas por parâmetros; para especificar completamente uma
dessas distribuições, precisamos fornecer o nome e os valores dos parâmetros.
• Um Bern(p) rv é o indicador de sucesso em um teste de Bernoulli com probabilidade de

sucesso pág.
• Um Bin(n, p) rv é o número de sucessos em n tentativas de Bernoulli independentes, todas com a mesma

probabilidade p de sucesso.
• A HGeom(w, b, n) rv é o número de bolas brancas obtidas em uma amostra de tamanho n retirada sem
reposição de uma urna de w bolas brancas e b bolas pretas.
• Um DUnif(C) rv é obtido escolhendo aleatoriamente um elemento do conjunto finito C,

com probabilidades iguais para cada elemento.
Uma função de uma variável aleatória ainda é uma variável aleatória. Se conhecermos o PMF de X, podemos
encontrar P(g(X) = k), o PMF de g(X), traduzindo o evento {g(X) = k} em um evento equivalente envolvendo
X, então usando o PMF de X.
Duas variáveis aleatórias são independentes se o conhecimento do valor de uma rv não fornece nenhuma
informação sobre o valor da outra. Isso não está relacionado ao fato de os dois RVs estarem distribuídos de
forma idêntica. No Capítulo 7, aprenderemos como lidar com variáveis aleatórias dependentes considerando-
as em conjunto e não separadamente.
Vimos agora quatro tipos fundamentais de objetos em probabilidade: distribuições, variáveis aleatórias,
eventos e números. A Figura 3.12 mostra as conexões entre esses quatro objetos fundamentais. Um CDF
pode ser usado como modelo para gerar um rv, e então existem vários eventos que descrevem o
comportamento do rv, como os eventos X ÿ x para todo x. Conhecer as probabilidades desses eventos
determina o CDF, fechando o círculo. Para um RV discreto, também podemos usar o PMF como modelo e ir
da distribuição ao RV, aos eventos e vice-versa.
O que pode
acontecer?
distribuições variáveis aleatórias eventos números
gerar
X
Xÿx P P(X ÿ x) = F(x)
CDF -F X=x P(X = x)
PMF
história
nome, parâmetros
função
RV
de
g(X)
FIGURA 3.12
Quatro objetos fundamentais em probabilidade: distribuições (projetos), variáveis aleatórias, eventos e
números. A partir de um CDF F podemos gerar um rv X. A partir de X, podemos gerar muitos outros rvs
assumindo funções de X. Existem vários eventos que descrevem o comportamento de X. Mais notavelmente,
para qualquer constante x os eventos X ÿ x e X = x são de interesse. Conhecer as probabilidades desses
eventos para todo x nos dá o CDF e (no caso discreto) o PMF, completando o círculo.
3.11R
Distribuições em R
Todas as distribuições nomeadas que encontraremos neste livro foram implementadas em R. Nesta seção
explicaremos como trabalhar com as distribuições Binomial e Hipergeométrica em R. Também explicaremos
em geral como gerar rvs de qualquer distribuição discreta com suporte finito. Digitar help(distributions)
fornece uma lista útil de distribuições integradas; muitos outros estão disponíveis através de pacotes R que
podem ser carregados.
Em geral, para muitas distribuições discretas nomeadas, três funções começando com d, p e r fornecerão
PMF, CDF e geração aleatória, respectivamente. Observe que a função que começa com p não é o PMF,
mas sim o CDF.
Distribuição binomial
A distribuição binomial está associada às três funções R a seguir: dbinom, pbinom e rbinom. Para a
distribuição de Bernoulli podemos apenas usar as funções binomiais com n = 1.
• dbinom é o PMF Binomial. São necessárias três entradas: a primeira é o valor de x no qual avaliar o PMF, e
a segunda e a terceira são os parâmetros n e p. Por exemplo, dbinom(3,5,0,2) retorna a probabilidade P(X
= 3) onde X ÿ Bin(5, 0,2). Em outras palavras,
5
dbinom(3,5,0,2) = (0,2)3 (0,8)2 = 0,0512.
3
• pbinom é o CDF binomial. São necessárias três entradas: a primeira é o valor de x no qual avaliar o CDF, e
a segunda e a terceira são os parâmetros. pbinom(3,5,0,2) é a probabilidade P(X ÿ 3) onde X ÿ Bin(5, 0,2).
Então
3
5
pbinom(3,5,0,2) = (0,2)k (0,8)5ÿk = 0,9933.
k
k=0
• rbinom é uma função para gerar variáveis aleatórias binomiais. Para rbinom, a primeira entrada é quantos
rvs queremos gerar, e a segunda e terceira entradas ainda são os parâmetros. Assim, o comando
rbinom(7,5,0.2) produz realizações de sete iid Bin(5, 0.2) rvs. Quando executamos este comando, obtivemos
2100100
mas você provavelmente obterá algo diferente ao tentar!

Também podemos avaliar PMFs e CDFs em um vetor inteiro de valores. Por exemplo, lembre-se que 0:n é uma
maneira rápida de listar os inteiros de 0 a n. O comando dbinom(0:5,5,0.2) retorna 6 números, P(X = 0), P(X =
1), . . . , P(X = 5), onde X ÿ Bin(5, 0,2).
Distribuição hipergeométrica
A distribuição hipergeométrica também possui três funções: dhyper, phyper e rhyper. Como seria de esperar,
dhyper é o PMF hipergeométrico, phyper é o CDF hipergeométrico e rhyper gera rvs hipergeométricos. Como a
distribuição hipergeométrica tem três parâmetros, cada uma dessas funções recebe quatro entradas. Para dhyper
e phyper, a primeira entrada é o valor no qual desejamos avaliar o PMF ou CDF, e as demais entradas são os
parâmetros da distribuição.
Assim, dhyper(k,w,b,n) retorna P(X = k) onde X ÿ HGeom(w, b, n) e phyper(k,w,b,n) retorna P(X ÿ k). Para o rhyper,
a primeira entrada é o número de rvs que queremos gerar, e as entradas restantes são os parâmetros;
rhyper(100,w,b,n) gera 100 iid HGeom(w, b, n) rvs
Distribuições discretas com suporte finito
Podemos gerar rvs a partir de qualquer distribuição discreta com suporte finito usando o comando sample. Quando
introduzimos pela primeira vez o comando sample, dissemos que ele pode ser usado na forma sample(n,k) ou
sample(n,k,replace=TRUE) para amostrar k vezes dos inteiros 1 a n, sem ou com substituição. Por exemplo, para
gerar 5 rvs DUnif(1, 2, . . . , 100) independentes, podemos usar o comando sample(100,5,replace=TRUE).
Acontece que essa amostra é muito mais versátil. Se quisermos fazer uma amostragem dos valores xn com probabilidades
em p1, . . . , pn, simplesmente criamos um vetor x contendo todos x1, . . . , o xi e um vetor p contendo todos os pi e,
seguida, insira-os na amostra. Suponha que queiramos realizações de iidrvs X1, . . . , X100 cujo PMF é
P(Xj = 0) = 0,25, P(Xj =
1) = 0,5, P(Xj = 5) =
0,1, P(Xj = 10) = 0,15,
e P(Xj = x) = 0 para todos os outros valores de x. Primeiro, usamos a função c para criar vetores com o suporte da
distribuição e das probabilidades correspondentes.
x <- c(0,1,5,10) p <-

c(0,25,0,5,0,1,0,15)
A seguir, usamos amostra. Veja como conseguir 100 sorteios do PMF acima:
amostra(x,100,prob=p,substituir=TRUE)
As entradas são o vetor x do qual amostrar, o tamanho da amostra (100 neste caso), as
probabilidades p a serem usadas ao amostrar de x (se isso for omitido, as probabilidades
são consideradas iguais) e se deve-se amostrar com reposição.
3.12 Exercícios
Os exercícios marcados com s têm soluções detalhadas em http://stat110.net.
PMF e CDF
1. As pessoas chegam à festa, uma de cada vez. Enquanto esperam a chegada de mais pessoas, eles se
divertem comparando seus aniversários. Seja X o número de pessoas necessárias para obter uma
correspondência de aniversário, ou seja, antes da chegada da pessoa X não há duas pessoas que façam
aniversário no mesmo dia, mas quando a pessoa X chega há uma correspondência. Encontre o PMF de X.
2. (a) Tentativas independentes de Bernoulli são realizadas, com probabilidade 1/2 de sucesso, até que haja
pelo menos um sucesso. Encontre o PMF do número de tentativas realizadas.
(b) Tentativas independentes de Bernoulli são realizadas, com probabilidade 1/2 de sucesso, até que haja pelo
menos um sucesso e pelo menos uma falha. Encontre o PMF do número de tentativas realizadas.
3. Seja X um rv com CDF F, e Y = µ + ÿX, onde µ e ÿ são números reais com ÿ > 0. (Então Y é chamado de
transformação em escala de localização de X; encontraremos esse conceito muitas vezes no Capítulo 5
e além.) Encontre o CDF de Y , em termos de F.
4. Seja n um número inteiro positivo e

x
F(x) =
n
para 0 ÿ x ÿ n, F(x) = 0 para x < 0, e F(x) = 1 para x > n, onde x é o maior número inteiro menor ou igual
a x. Mostre que F é um CDF e encontre o PMF ao qual ele corresponde.
n+1
5. (a) Mostre que p(n) = 12
para n = 0, 1, 2,. . . é um PMF válido para um RV discreto
(b) Encontre o CDF de uma variável aleatória com o PMF de (a).

6. s A lei de Benford afirma que em uma grande variedade de conjuntos de dados da vida real, o primeiro
dígito segue aproximadamente uma distribuição particular com cerca de 30% de chance de 1, 18% de
chance de 2 e, em geral,
d+1
P(D = j) = log10 , para j ÿ {1, 2, 3, . . . , 9},
d
onde D é o primeiro dígito de um elemento escolhido aleatoriamente. Verifique se este é um PMF válido
(usando propriedades de logs, não com uma calculadora).
7. Bob está jogando um videogame com 7 níveis. Ele começa no nível 1 e tem probabilidade p1 de atingir o
nível 2. Em geral, dado que atinge o nível j, ele tem probabilidade pj de atingir o nível j + 1, para 1 ÿ j ÿ 6.
Seja X o nível mais alto que ele alcança. Encontre o PMF de X (em termos de p1, . . . , p6).
8. São 100 prêmios, sendo um no valor de $ 1, outro no valor de $ 2, . . . e um no valor de $ 100. São 100 caixas, cada uma
contendo um dos prêmios. Você ganha 5 prêmios escolhendo caixas aleatórias, uma de cada vez, sem reposição.
Encontre o PMF de quanto vale o seu prêmio mais valioso (como uma expressão simples em termos de coeficientes
binomiais).
9. Sejam F1 e F2 CDFs, 0 < p < 1, e F(x) = pF1(x) + (1 ÿ p)F2(x) para todo x.
(a) Mostre diretamente que F possui as propriedades de uma CDF válida (ver Teorema 3.6.3). A distribuição definida
por F é chamada de mistura das distribuições definidas por F1 e F2.
(b) Considere criar um RV da seguinte maneira. Jogue uma moeda com probabilidade p de cara. Se a moeda cair
Cara, gere um rv de acordo com F1; se a moeda cair coroa, gere um rv de acordo com F2. Mostre que o rv obtido
desta forma tem CDF F.
10. (a) Existe uma distribuição discreta com suporte 1, 2, 3,. . . , de modo que o valor do PMF em n seja proporcional a 1/n?
Dica: veja o apêndice matemático para uma revisão de alguns fatos sobre séries.
(b) Existe uma distribuição discreta com suporte 1, 2, 3,. . . , de modo que o valor do PMF em n seja proporcional a 1/
n2 ?
11. s Seja X um rv cujos valores possíveis são 0, 1, 2, . . . , com CDF F. Em alguns países, em vez de usar um CDF, a
convenção é usar a função G definida por G(x) = P(X < x) para especificar uma distribuição. Encontre uma maneira
de converter de F para G, ou seja, se F for uma função conhecida, mostre como obter G(x) para todo x real.
12. (a) Dê um exemplo de rvs X e Y tais que FX(x) ÿ FY (x) para todo x, onde a desigualdade é estrita para algum x. Aqui FX
é o CDF de X e FY é o CDF de Y. Para o exemplo que você deu, esboce os CDFs de X e Y nos mesmos eixos. Em
seguida, esboce seus PMFs em um segundo conjunto de eixos.
(b) Na Parte (a), você encontrou um exemplo de dois CDFs diferentes onde o primeiro é menor ou igual ao segundo
em todos os lugares. É possível encontrar dois PMFs diferentes onde o primeiro é menor ou igual ao segundo em
todos os lugares? Em outras palavras, encontre rvs X e Y discretos tais que P(X = x) ÿ P(Y = x) para todo x, onde a
desigualdade é estrita para algum x, ou mostre que é impossível encontrar tais rvs
13. Sejam X, Y, Z rvs discretos tais que X e Y têm a mesma distribuição condicional dado Z, ou seja, para todos a e z temos
P(X = a|Z = z) = P(Y = a|Z = z).
Mostre que X e Y têm a mesma distribuição (incondicionalmente, não apenas quando dado Z).
14. Seja X o número de compras que Fred fará no site online de uma determinada empresa (em algum período de tempo
especificado). Suponha que o PMF de X seja P(X = k) = e ÿÿÿ k /k! para k = 0, 1, 2,. . . . Essa distribuição é chamada
de distribuição de Poisson com parâmetro ÿ e será estudada extensivamente em capítulos posteriores.
(a) Encontre P(X ÿ 1) e P(X ÿ 2) sem somar séries infinitas.
(b) Suponha que a empresa conheça apenas pessoas que fizeram pelo menos uma compra em seu site (um usuário
cria uma conta para fazer uma compra, mas alguém que nunca fez uma compra lá não aparece no banco de dados
de clientes ). Se a empresa computa o número de compras de todos em seu banco de dados, então esses dados são
extraídos da distribuição condicional do número de compras, desde que pelo menos uma compra seja realizada.
Encontre o PMF condicional de X dado X ÿ 1. (Essa distribuição condicional é chamada de distribuição de Poisson
truncada.)
Distribuições nomeadas
15. Encontre o CDF de um rv X ÿ DUnif(1, 2, . . . , n).

16. Sejam X ÿ DUnif(C) e B um subconjunto não vazio de C. Encontre a distribuição condicional
de X, dado que X está em B.
17. Uma companhia aérea faz overbook em um voo, vendendo mais passagens do que assentos no avião
(imaginando que é provável que algumas pessoas não compareçam). O avião tem 100 assentos e
110 pessoas reservaram o voo. Cada pessoa comparecerá ao voo com probabilidade 0,9, de forma
independente. Encontre a probabilidade de que haja assentos suficientes para todos que
comparecerem ao voo.
18. s (a) Na World Series de beisebol, dois times (chamados de A e B) jogam uma sequência de jogos
um contra o outro, e o primeiro time a vencer quatro jogos vence a série. Seja p a probabilidade de
A ganhar um jogo individual e suponha que os jogos sejam independentes. Qual é a probabilidade
de o time A vencer a série?
(b) Dê uma explicação clara e intuitiva sobre se a resposta para (a) depende de os times sempre
jogarem 7 partidas (e quem vencer a maioria vence a série) ou de os times pararem de jogar mais
partidas assim que um time vencer 4 jogos (como acontece na prática: uma vez decidido o jogo, as
duas equipas não continuam a jogar mais jogos).
19. Num torneio de xadrez, são disputadas n partidas, de forma independente. Cada jogo termina com
vitória de um jogador com probabilidade 0,4 e termina em empate (empate) com probabilidade 0,6.
Encontre os PMFs do número de jogos que terminaram empatados e do número de jogadores cujos
jogos terminaram empatados.
20. Suponha que um bilhete de loteria tenha probabilidade p de ser um bilhete premiado, independentemente
de outros bilhetes. Um jogador compra 3 bilhetes, esperando que isso triplique a chance de ter pelo
menos um bilhete vencedor.
(a) Qual é a distribuição de quantos dos 3 bilhetes são bilhetes vencedores?

2
(b) Mostre que a probabilidade de pelo menos 1 dos 3 bilhetes ser vencedor é 3p ÿ 3p de +p 3 ,
duas maneiras diferentes: usando inclusão-exclusão, e tomando o complemento do evento desejado
e depois usando o PMF de um determinado evento nomeado. distribuição.
(c) Mostre que as chances do jogador de ter pelo menos um bilhete vencedor não triplicam (em
comparação com a compra de apenas um bilhete), mas triplicam aproximadamente se p for pequeno.
21. s Sejam X ÿ Bin(n, p) e Y ÿ Bin(m, p), independentes de X. Mostre que X ÿ Y não é Binomial.
22. Existem duas moedas, uma com probabilidade p1 de Cara e outra com probabilidade p2 de Cara. Uma
das moedas é escolhida aleatoriamente (com probabilidades iguais para as duas moedas). Em
seguida, é invertido n ÿ 2 vezes. Seja X o número de vezes que dá cara.
(a) Encontre o PMF de X.
(b) Qual é a distribuição de X se p1 = p2?
(c) Dê uma explicação intuitiva de por que X não é binomial para p1 = p2 (sua distribuição é chamada
de mistura de dois binômios). Você pode assumir que n é grande para sua explicação, de modo que
a interpretação frequentista da probabilidade possa ser aplicada.
23. Existem n pessoas elegíveis para votar numa determinada eleição. A votação requer registro.
As decisões são tomadas de forma independente. Cada uma das n pessoas se registrará com
probabilidade p1. Dado que uma pessoa se regista, votará com probabilidade p2. Dado que uma
pessoa vota, ela votará em Kodos (que é um dos candidatos) com probabilidade p3. Qual é a
distribuição do número de votos para Kodos (indicar o PMF, totalmente simplificado, ou o nome da
distribuição, incluindo seus parâmetros)?
24. Seja X o número de caras em 10 lançamentos justos de moeda.
(a) Encontre o PMF condicional de X, dado que os dois primeiros lançamentos têm cara.
(b) Encontre o PMF condicional de X, dado que pelo menos dois lançamentos dão cara. s
25. Alice joga uma moeda honesta n vezes e Bob joga outra moeda honesta n + 1 vezes, resultando
1 1
em X ÿ Bin(n, 2 ) e Y ÿ Bin(n + 1, 2 ).
(a) Mostre que P(X < Y ) = P(n ÿ X < n + 1 ÿ Y ).
(b) Calcule P(X < Y ).

Dica: Use (a) e o fato de que X e Y têm valores inteiros.
26. Se X ÿ HGeom(w, b, n), qual é a distribuição de n ÿ X? Dê uma breve prova.
27. Lembre-se do problema de correspondência de Montmort do Capítulo 1: em um baralho de n cartas
rotuladas de 1 a n, uma correspondência ocorre quando o número na carta corresponde à posição
da carta no baralho. Seja X o número de cartas iguais. X é binomial? X é hipergeométrico?
28. s Existem n ovos, cada um dos quais choca um pintinho com probabilidade p (independentemente).
Cada um desses pintinhos sobrevive com probabilidade r, de forma independente. Qual é a distribuição do número
de pintinhos que eclodem? Qual é a distribuição do número de pintinhos que
sobreviver? (Forneça os PMFs; forneça também os nomes das distribuições e seus parâmetros, se
aplicável.)
29. s Uma sequência de n experimentos independentes é realizada. Cada experimento é um sucesso
com probabilidade p e um fracasso com probabilidade q = 1 ÿ p. Mostre que, dependendo do número
de sucessos, todas as possibilidades válidas para a lista de resultados do experimento são
igualmente prováveis.
30. Uma determinada empresa tem n + m funcionários, sendo n mulheres e m homens. O
A empresa está decidindo quais funcionários promover.
(a) Suponha para esta parte que a empresa decida promover t funcionários, onde 1 ÿ t ÿ n + m,
escolhendo t funcionários aleatórios (com probabilidades iguais para cada conjunto de t funcionários).
Qual é a distribuição do número de mulheres promovidas?
(b) Suponha agora que, em vez de ter um número predeterminado de promoções para oferecer, a
empresa decida independentemente para cada funcionário, promovendo o funcionário com
probabilidade p. Encontre as distribuições do número de mulheres que são promovidas, do número
de mulheres que não são promovidas e do número de funcionários que são promovidos.
(c) No cenário de (b), encontre a distribuição condicional do número de mulheres que são
promovidas, dado que exatamente t funcionários são promovidos.
31. Era uma vez um famoso estatístico que ofereceu chá a uma senhora. A senhora afirmou saber se o
leite foi adicionado à xícara antes ou depois do chá. A estatística decidiu realizar alguns experimentos
para testar sua afirmação.
(a) A senhora recebe 6 xícaras de chá, onde se sabe de antemão que 3 serão o leite primeiro e 3
serão o chá, em uma ordem completamente aleatória. A senhora prova cada um e depois adivinha
quais são os três que eram leite primeiro. Suponha, para esta parte, que ela não tem nenhuma
capacidade de distinguir xícaras de chá com leite e chá. Encontre a probabilidade de que pelo
menos 2 de suas 3 suposições estejam corretas.
(b) Agora a senhora recebe uma xícara de chá, com probabilidade de 1/2 de ser leite primeiro.
Ela precisa dizer se acha que foi o leite primeiro. Seja p1 a probabilidade de a senhora estar correta,
dado que o leite foi primeiro, e p2 a probabilidade de ela estar correta, dado que o chá foi primeiro.
Ela afirma que o copo veio primeiro com leite. Encontre as probabilidades posteriores de que o copo
receba primeiro o leite, com base nesta informação.
32. Na aula de história de Evan, 10 dos 100 termos-chave serão selecionados aleatoriamente para aparecer no exame
final; Evan deve então escolher 7 desses 10 para definir. Como conhece antecipadamente o formato do exame,
Evan está tentando decidir quantos termos-chave deve estudar.
(a) Suponha que Evan decida estudar os termos-chave de s, onde s é um número inteiro entre 0 e 100. Seja X o
número de termos-chave que aparecem no exame que ele estudou.
Qual é a distribuição de X? Dê o nome e os parâmetros, em termos de s.
(b) Usando R ou outro software, calcule a probabilidade de Evan conhecer pelo menos 7 dos 10 termos-chave
que aparecem no exame, supondo que ele estude s = 75 termos-chave.
33. Um livro contém n erros de digitação. Duas revisoras, Prue e Frida, leram o livro de forma independente.
Prue pega cada erro de digitação com probabilidade p1 e erra com probabilidade q1 = 1 ÿ p1, de forma
independente, e da mesma forma para Frida, que tem probabilidades p2 de pegar e q2 = 1ÿp2 de errar cada erro
de digitação. Seja X1 o número de erros de digitação detectados por Prue, X2 o número detectado por Frida e X
o número detectado por pelo menos um dos dois revisores.
(a) Encontre a distribuição de X.
(b) Somente para esta parte, suponha que p1 = p2. Encontre a distribuição condicional de X1 dado que X1 + X2
= t.
34. Existem n alunos em uma determinada escola, dos quais X ÿ Bin(n, p) são graduados em Estatística.
Uma amostra aleatória simples de tamanho m é extraída (“amostra aleatória simples” significa amostragem sem
reposição, com todos os subconjuntos de um determinado tamanho igualmente prováveis).
(a) Encontre o PMF do número de formandos em Estatística na amostra, usando a lei da probabilidade total (não
se esqueça de dizer qual é o suporte). Você pode deixar sua resposta como uma soma (embora com alguma
álgebra ela possa ser simplificada, escrevendo os coeficientes binomiais em termos de fatoriais e usando o
teorema binomial).
(b) Forneça uma derivação comprovativa da distribuição do número de formandos em Estatística na amostra;
simplificar totalmente.
Dica: Faz diferença se os alunos declaram suas especialidades antes ou depois do sorteio da amostra aleatória?
35. s Os jogadores A e B se revezam respondendo perguntas triviais, começando com o jogador A respondendo à
primeira pergunta. Cada vez que A responde a uma pergunta, ela tem probabilidade p1 de acertar. Cada vez que
B joga, ele tem probabilidade p2 de acertar.
(a) Se A responde m perguntas, qual é o PMF do número de perguntas que ela acerta?
(b) Se A responde m vezes e B responde n vezes, qual é o PMF do número total de questões que eles acertam
(você pode deixar sua resposta como uma soma)? Descreva exatamente quando/se esta é uma distribuição
binomial.
(c) Suponha que o primeiro jogador a responder corretamente ganhe o jogo (sem um número máximo
predeterminado de perguntas que podem ser feitas). Encontre a probabilidade de A ganhar o jogo.
36. Há n eleitores nas próximas eleições num determinado país, onde n é um número grande e par. Existem dois
candidatos: Candidato A (do Partido Unite) e Candidato B (do Partido Untie). Seja X o número de pessoas que
votam no Candidato A.
Suponha que cada eleitor escolha aleatoriamente em quem votar, de forma independente e com probabilidades
iguais.
(a) Encontre uma expressão exata para a probabilidade de empate na eleição (para que os candidatos tenham
o mesmo número de votos).
(b) Use a aproximação de Stirling, que aproxima a função fatorial como

n n
não! ÿ ÿ 2ÿn ,
e
para encontrar uma aproximação simples para a probabilidade de empate. Sua resposta deve estar no
formato 1/ ÿ cn, com ca constante (que você deve especificar).
37. s Uma mensagem é enviada por um canal com ruído. A mensagem é uma sequência x1, x2, . . . ,xn de
n bits (xi ÿ {0, 1}). Como o canal é barulhento, existe a possibilidade de qualquer bit estar corrompido,
resultando em erro (um 0 vira 1 ou vice-versa). Suponha que os eventos de erro sejam independentes.
Seja p a probabilidade de um bit individual ter um erro (0 < p < 1/2). Seja y1, y2, . . . , yn é a mensagem
recebida (então yi = xi se não houver erro naquele bit, mas yi = 1 ÿ xi se houver erro ali).
Para ajudar a detectar erros, o enésimo bit é reservado para uma verificação de paridade: xn é definido
como 0 se x1 + x2 + · · · + xnÿ1 for par, e 1 se x1 + x2 + · · · + xnÿ1 é estranho. Quando a mensagem é
recebida, o destinatário verifica se yn tem a mesma paridade que y1 + y2 + · · · + ynÿ1. Se a paridade
estiver errada, o destinatário sabe que ocorreu pelo menos um erro; caso contrário, o destinatário
assume que não houve erros.
(a) Para n = 5, p = 0,1, qual é a probabilidade de a mensagem recebida conter erros que não foram
detectados?
(b) Para n e p gerais, escreva uma expressão (como uma soma) para a probabilidade de que a
mensagem recebida contenha erros que não sejam detectados.
(c) Forneça uma expressão simplificada, que não envolva a soma de um grande número de termos,
para a probabilidade de a mensagem recebida conter erros que não foram detectados.
Dica para (c): Deixar
n k n k
eb=
Aproximadamente Aproximadamente
uma = p (1 ÿ p) p (1 ÿ p) ,
k k
k par, kÿ0 k ímpar, kÿ1
o teorema binomial permite encontrar expressões simples para a + b e a ÿ b, o que permite então obter
a e b.
Independência de trailers
38. (a) Dê um exemplo de rvs X e Y dependentes tais que P(X < Y ) = 1.
(b) Dê um exemplo de rvs X e Y independentes tais que P(X < Y ) = 1.
39. Dê um exemplo de duas variáveis aleatórias discretas X e Y no mesmo espaço amostral, de modo que X e
Y tenham a mesma distribuição, com suporte {1, 2,. . . , 10}, mas o evento X = Y nunca ocorre. Se X e Y
são independentes, ainda é possível construir tal exemplo?
40. Suponha que X e Y sejam rvs discretos tais que P(X = Y ) = 1. Isso significa que X e Y sempre assumem o
mesmo valor.
(a) X e Y têm o mesmo PMF?
(b) É possível que X e Y sejam independentes?
41. Se X, Y, Z são rvs tais que X e Y são independentes e Y e Z são independentes,

segue-se que X e Z são independentes?
Dica: pense em exemplos simples e extremos.

42. s Seja X um dia aleatório da semana, codificado de modo que segunda-feira seja 1, terça-feira seja 2,
etc. (então X assume os valores 1, 2,..., 7, com probabilidades iguais). Seja Y o dia seguinte após X
(novamente representado como um número inteiro entre 1 e 7). X e Y têm a mesma distribuição?
O que é P(X <Y)?
43. (a) É possível ter dois rvs X e Y tais que X e Y tenham a mesma distribuição
mas P(X < Y ) ÿ p, onde: • p =
0,9? • p =
0,99? • p =
0,9999999999999? • p = 1?
Para cada um, dê um exemplo mostrando que é possível ou prove que é impossível.
Dica: Faça a pergunta anterior primeiro.
(b) Considere a mesma questão da Parte (a), mas agora assuma que X e Y são independentes. Suas
respostas mudam?
44. Para dígitos binários x e y (0 ou 1), sejam x ÿ y 0 se x = y e 1 se x = y (esta operação é chamada de exclusiva
ou (frequentemente abreviada para XOR), ou mod de adição 2). (a) Sejam X ÿ Bern(p)
e Y ÿ Bern(1/2), independentemente. Qual é a distribuição de X ÿ Y ?
(b) Com a notação como em (a), X ÿ Y é independente de X? X ÿ Y é independente de Y?

Certifique-se de considerar o caso p = 1/2 e o caso p = 1/2.
(c) Seja X1, . . . , Xn seja iid Bern(1/2). Para cada subconjunto não vazio J de {1, 2,. . . , n}, deixe
YJ = Xj ,
jÿJ
onde a notação significa “adicionar” no sentido ÿ todos os elementos de J; a ordem em que isso é feito
não importa, pois x ÿ y = y ÿ x e (x ÿ y) ÿ z = x ÿ (y ÿ z).
Mostre que YJ ÿ Bern(1/2) e que esses 2n ÿ 1 rvs são independentes aos pares, mas não independentes.
Por exemplo, podemos usar isso para simular 1.023 lançamentos de moeda justos independentes entre
pares usando apenas 10 lançamentos de moeda justos independentes.
Dica: Aplique as partes anteriores com p = 1/2. Mostre que se J e K são dois subconjuntos não vazios diferentes de
{1, 2, . . . , n}, então podemos escrever YJ = AÿB, YK = AÿC, onde A consiste no Xi com i ÿ J ÿK, B consiste no Xi
com i ÿ J ÿKc o Xi com i ÿ J ÿ K. Então A, B, C são independentes, pois são baseados em , e C consiste em
c
conjuntos disjuntos de Xi. Além disso, no máximo um desses conjuntos de Xi pode estar vazio. Se J ÿ K = ÿ, então
YJ = B, YK = C. Caso contrário, calcule P(YJ = y, YK = z) condicionando se A = 1.
Prática mista
45. s Está a ser testado um novo tratamento para uma doença, para ver se é melhor do que o tratamento
padrão. O tratamento existente é eficaz em 50% dos pacientes. Acredita-se inicialmente que haja 2/3 de
chance de o novo tratamento ser eficaz em 60% dos pacientes e 1/3 de chance de que o novo tratamento
seja eficaz em 50% dos pacientes. Num estudo piloto, o novo tratamento é administrado a 20 pacientes
aleatórios e é eficaz em 15 deles.
(a) Dada esta informação, qual é a probabilidade de o novo tratamento ser melhor que o tratamento padrão?
(b) Um segundo estudo é feito posteriormente, administrando o novo tratamento a 20 novos pacientes aleatórios.
Dados os resultados do primeiro estudo, qual é o PMF para quantos dos novos pacientes o novo
tratamento é eficaz? (Deixando p ser a resposta para (a), sua resposta pode ser deixada em termos de p.)
46. São realizadas tentativas independentes de Bernoulli, com probabilidade de sucesso 1/2 para cada tentativa.
Uma questão importante que frequentemente surge em tais ambientes é quantas tentativas realizar. Muitas
controvérsias surgiram nas estatísticas sobre a questão de como analisar os dados provenientes de um experimento
onde o número de ensaios pode depender dos dados coletados até o momento.
Por exemplo, se pudermos seguir a regra “continuar realizando testes até que haja mais que o dobro de fracassos
do que sucessos, e então parar”, então olhar ingenuamente para a proporção de fracassos para sucessos (se e
quando o processo parar) nos dará mais de 2:1 em vez da verdadeira proporção teórica de 1:1; este pode ser um
resultado muito enganador! No entanto, poderá nunca acontecer que haja mais do que o dobro de fracassos do que
de sucessos; neste problema, você encontrará a probabilidade de isso acontecer.
(a) Dois jogadores, A e B, fazem uma série de apostas, onde cada um tem probabilidade 1/2 de ganhar uma aposta,
mas A recebe $2 por cada vitória e perde $1 por cada derrota (um jogo muito favorável para A!) . Suponha que os
jogadores possam pedir dinheiro emprestado, para que possam jogar e joguem para sempre. Seja pk a probabilidade
de A, começando com $k, chegar a $0, para cada k ÿ 0. Explique como esta história se relaciona com o problema
original e como o problema original pode ser resolvido se conseguirmos encontrar pk.
(b) Encontre o pacote.
Dica: como na ruína do jogador, estabeleça e resolva uma equação diferencial para pk. Temos pk ÿ 0 como k ÿ ÿ
(você não precisa provar isso, mas deve fazer sentido, já que o jogo é tão favorável a A, o que resultará na fortuna
de A indo para ÿ; uma prova formal, não exigida aqui , poderia ser feito usando a lei dos grandes números, um
importante teorema do Capítulo 10). A solução pode ser escrita claramente em termos da proporção áurea.
(c) Encontre a probabilidade de haver mais que o dobro de fracassos do que sucessos com tentativas independentes
de Bern(1/2), conforme originalmente desejado.
47. Uma copiadora é usada para fazer n páginas de cópias por dia. A máquina possui duas bandejas nas quais o papel é
carregado, e cada página utilizada é retirada de forma aleatória e independente de uma das bandejas. No início do
dia, as bandejas são recarregadas para que cada uma delas tenha m páginas.
(a) Seja pbinom(x, n, p) o CDF da distribuição Bin(n, p), avaliada em x. Em termos de pbinom, encontre uma
expressão simples para a probabilidade de que ambas as bandejas tenham papel suficiente em qualquer dia
específico, quando essa probabilidade estiver estritamente entre 0 e 1 (especifique também os valores de m para os
quais a probabilidade é 0 e os valores para os quais é 1).
Dica: Tenha cuidado se as desigualdades são estritas, pois o Binômio é discreto.
(b) Usando um computador, encontre o menor valor de m para o qual há pelo menos 95% de chance de que ambas
as bandejas tenham papel suficiente em um determinado dia, para n = 10, n = 100, n = 1.000 e n = 10.000.
Dica: Se você usar R, poderá achar úteis os seguintes comandos: g <- function(m,n)
[sua resposta de (a)] define uma função g tal que g(m, n) é sua resposta de (a) ), g(1:100,100) fornece o vetor (g(1,
100), . . . , g(100, 100)), que(v>0,95) fornece os índices dos componentes do vetor v que excedem 0,95, e min(w)
fornece o mínimo de um vetor w.

Probabilidade, Capítulo 3

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Probabilidade, Capítulo 3

Enviado por

Direitos autorais:

Formatos disponíveis

Machine Translated by Google

3.1 Variáveis aleatórias

Seja Xk a riqueza do jogador A após k rodadas. Então Yk = N ÿ Xk é a riqueza do jogador B

104 Introdução à Probabilidade

FIGURA 3.1 Uma

Variáveis aleatórias e suas distribuições 105

Para começar, vamos considerar um exemplo de lançamento de moeda. A estrutura do problema é

X(HH) = 2, X(HT) = X(TH) = 1, X(TT) = 0.

• Seja Y o número de coroas. Em termos de X, temos Y = 2 ÿ X. Em outras palavras,

X(s1, s2) = s1 + s2, Y (s1, s2) = 2 ÿ s1 ÿ s2, I(s1, s2) = s1,

106 Introdução à Probabilidade

definido no mesmo espaço amostral: as pedras ou resultados são os mesmos, mas o

Como mencionamos anteriormente, a fonte da aleatoriedade em uma variável aleatória é

Variáveis aleatórias fornecem resumos numéricos do experimento em questão. Esse

3.2 Distribuições e funções de massa de probabilidade

Variáveis aleatórias e suas distribuições 107

Mais comumente em aplicações, o suporte de um rv discreto é um conjunto de números inteiros.

Definição 3.2.2 (Função de massa de probabilidade). A função de massa de probabilidade (PMF) de um rv X

Vejamos alguns exemplos de PMFs.

• X, o número de Caras. Como X é igual a 0 se TT ocorrer, 1 se HT ou TH ocorrer,

108 Introdução à Probabilidade

e 2 se HH ocorrer, o PMF de X é a função pX dada por

pX(0) = P(X = 0) = 1/4,

e pX(x) = 0 para todos os outros valores de x.

• Y = 2 ÿ X, o número de coroas. Raciocinando como acima ou usando o fato de que

P(Y = y) = P(2 ÿ X = y) = P(X = 2 ÿ y) = pX(2 ÿ y),

pY (0) = P(Y = 0) = 1/4,

e pY (y) = 0 para todos os outros valores de y.

• I, o indicador do primeiro lançamento que acertou Cara. Como I é igual a 0 se TH ou TT

pI (0) = P(I = 0) = 1/2,

e pI (i) = 0 para todos os outros valores de i.

Variáveis aleatórias e suas distribuições 109

S = {(1, 1),(1, 2), . . . ,(6, 5),(6, 6)}.

Como os dados são justos, o PMF de X é

Mais dois rvs neste experimento com a mesma distribuição de X são 7 ÿ X e

Vamos agora encontrar o PMF de T. Pela definição ingênua de probabilidade,

P(T = 2) = P(T = 12) = 1/36,

110 Introdução à Probabilidade

P(T = 2) + P(T = 3) + · · · + P(T = 12) = 1,

o que mostra que todas as possibilidades foram contabilizadas. A propriedade de simetria

Iremos agora declarar as propriedades de um PMF válido.

• Não negativo: pX(x) > 0 se x = xj para algum j, e pX(x) = 0 caso contrário;

Variáveis aleatórias e suas distribuições 111

Afirmamos anteriormente que o PMF é uma forma de expressar a distribuição de um

P(1 ÿ T ÿ 4) = P(T = 2) + P(T = 3) + P(T = 4) = 6/36.

Em geral, dado um rv X discreto e um conjunto B de números reais, se conhecermos o PMF

112 Introdução à Probabilidade

3.3 Bernoulli e Binomial

Por causa dessa história, o parâmetro p é frequentemente chamado de probabilidade de sucesso da

Variáveis aleatórias e suas distribuições 113

Usando a definição de história do Binômio, vamos encontrar seu PMF.

Teorema 3.3.5 (PMF binomial). Se X ÿ Bin(n, p), então o PMF de X é

para k = 0, 1,. . . , n (e P(X = k) = 0 caso contrário).

114 Introdução à Probabilidade

Caixa (10, 1/2) Caixa (10, 1/8)

Caixa (100, 0,03) Caixa (9, 4/5)

Variáveis aleatórias e suas distribuições 115

Teorema 3.3.7. Sejam X ÿ Bin(n, p) e q = 1 ÿ p (frequentemente usamos q para denotar a probabilidade de

Prova. Pelo Teorema 3.3.7, n ÿ X também é Bin(n, 1/2), então

P(X = k) = P(n ÿ X = k) = P(X = n ÿ k)

116 Introdução à Probabilidade

FIGURA 3.7 História

Teorema 3.4.2 (PMF hipergeométrico). Se X ÿ HGeom(w, b, n), então o PMF