Material STC1012

Notas de Aula
STC1072 - Probabilidade III
Prof. Cleber Bisognin

2
Sumário
1 Variáveis e Vetores Aleatórios 5

1.1 Variáveis Aleatórias Discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1. Função Massa de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.2. Função de Distribuição ou Função de Probabilidade Acumulada . . . . . . . . . 12
1.2 Variáveis Aleatórias Contı́nuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.1. Função densidade de probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.2. Função de distribuição de Probabilidade ou Função Acumulada . . . . . . . . . 19
1.2.3. Obtendo fX (x) a partir de FX (x) . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.2.4. Percentis de uma distribuição contı́nua . . . . . . . . . . . . . . . . . . . . . . . 22
1.3 Vetores Aleatórios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.4 Funções Condicionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.5 Variáveis Aleatórias Independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1.6 Funções de Variável Aleatória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2 Caracterı́sticas de Variáveis e Vetores Aleatórios 53

2.1 Propriedades: Variáveis Aleatórias Discretas . . . . . . . . . . . . . . . . . . . . . . . . 53
2.1.1. Esperança Matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.1.2. Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.1.3. Desvio padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.2 Propriedades: Variáveis Aleatórias Contı́nuas . . . . . . . . . . . . . . . . . . . . . . . 57
2.2.1. Esperança Matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.2.2. Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.2.3. Covariância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.2.4. Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.3 Esperança Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.4 Variância Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
2.5 Função Geradora de Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3 Principais Distribuições 75
3.1 Principais Distribuições Discretos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.1.1. Modelo Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.1.2. Modelo Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.1.3. Modelo Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.1.4. Modelo Geométrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.2 Principais Distribuições Contı́nuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3.2.1. Modelo Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3.2.2. Modelo Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.2.3. Aproximação da Binomial pela Normal . . . . . . . . . . . . . . . . . . . . . . 96
3.2.4. Aproximação da Poisson pela Normal . . . . . . . . . . . . . . . . . . . . . . . 101
3.2.5. Modelo Chi-Quadrado χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
3.2.6. Distribuição t de student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4 SUMÁRIO
3.2.7. Modelo F-Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

Capı́tulo 1
Variáveis e Vetores Aleatórios
Variável aleatória pode ser entendida como o resultado numérico de operar um mecanismo não deter-
minı́stico ou de fazer uma experiência não determinı́stica para gerar resultados aleatórios.
Definição 1.1. A variável aleatória é uma função de um espaço amostral Ω nos números reais,
isto é:
X : Ω → R ⇔ [X ≤ x] ∈ A, ∀x ∈ R, para A σ-álgebra em Ω. (1.1)

A função X de Ω em R será uma variável aleatória se, e somente se, para todo x que a função
assumir, o conjunto X dos valores menores ou iguais a x pertencer ao sigma-álgebra, para
qualquer x pertencente ao conjunto dos números Reais.
Figura 1.1: Fonte: Wikipédia
Variáveis aleatórias podem ser discretas ou contı́nuas.
1.1 Variáveis Aleatórias Discretas

São discretas todas as variáveis cujo espaço amostral ΩX é enumerável infinito ou finito. Se X é uma
variável aleatória discreta, então ΩX é um subconjunto dos inteiros.
Exemplo 1.1. Lançamento de uma moeda honesta até que ocorra a face cara e observação das faces
que ocorrem.
Solução:
Ω = {k, ck, cck, ccck, cccck, . . . },

6 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS
Figura 1.2: Variável aleatória: máximo de 2 dados.
Fonte: http://bit.do/eGFtD.
X = num. de coroas até que ocorra cara; Ω = num. de lançamentos até que ocorra cara;
ΩX = {0, 1, 2, 3, 4, . . . }, ΩY = {1, 2, 3, 4, 5 . . . },
X : Ω → ΩX Y : Ω → ΩY
X(k) = 0, Y (k) = 1,
X(ck) = 1; Y (ck) = 2;
Exemplo 1.2. Um homem possui 4 chaves em seu bolso. Como está escuro, ele não consegue ver qual
a chave correta para abrir a porta de sua casa. Ele testa cada uma das chaves até encontrar a correta.
(a) Defina um espaço amostral para esse experimento.
(b) Defina a v.a. X = número de chaves experimentadas até conseguir abrir a porta (inclusive a chave
correta). Quais são os valores de X?
Solução:
(a) Vamos designar por C a chave da porta e por E1 , E2 e E3 as outras chaves. Se ele para de testar
as chaves depois que acha a chave correta, então o espaço amostral é:

Ω= C,E1 C,E2 C,E3 C,E1 E2 C,E2 E1 C, E1 E3 C, E3 E1 C, E2 E3 C,E3 E2 C
E1 E2 E3 C,E1 E3 E2 C,E2 E1 E3 C,E2 E3 E1 C,E3 E1 E2 C,E3 E2 E1 C
(b) ΩX = {1, 2, 3, 4}.

1.1. VARIÁVEIS ALEATÓRIAS DISCRETAS 7
Exemplo 1.3. Dentre os 5 alunos de um curso com coeficiente de rendimento (CR) superior 8.5, dois
serão sorteados para receber uma bolsa de estudos. Os CRs desses alunos são: 8.8; 9.2; 8.9; 9.5; 9.0.
(a) Designando por A, B, C, D e E os alunos, defina um espaço amostral para esse experimento.
(b) Seja X = CR médio dos alunos sorteados. Liste os possı́veis valores de X.
(c) Liste o evento {X > 9.0}.
Solução:

5
(a) Note que aqui a ordem não importa; logo, #Ω = = 10. Mais especificamente,
2
Ω = {(A, B), (A, C), (A, D), (A, E), (B, C), (B, D), (B, E), (C, D), (C, E), (D, E)}
(b) Usando uma tabela de duas entradas podemos representar os valores de X da seguinte forma:
A (8.8) B (9.2) C (8.9) D (9.5) E (9.0)

A (8.8) 9.00 8.85 9.15 8.90
B (9.2) 9.05 9.35 9.10
C (8.9) 9.20 8.95
D (9.5) 9.25
E (9.0)
(c) {X > 9} = {(A, B), (A, D), (B, C), (B, D), (B, E), (C, D), (D, E)}.
Exemplo 1.4. Numa urna há 7 bolas brancas e 4 bolas verdes. Cinco bolas são extraı́das dessa urna.
Defina a v.a. X = número de bolas verdes. Quais são os possı́veis valores de X se as extrações são
feitas:
(a) sem reposição;
(b) com reposição.
Solução:
(a) Como há apenas 4 verdes, os valores de X são 0, 1, 2, 3, 4. Note que temos bolas brancas em
quantidade suficiente para que X = 0 (isto é, podemos tirar todas brancas).
(b) Se as extrações são feitas com reposição, em cada extração podemos tirar bola branca. Logo, os
possı́veis valores de X são 0, 1, 2, 3, 4, 5.
1.1.1. Função Massa de Probabilidade

Os valores de uma v.a. discreta são definidos a partir do espaço amostral de um experimento aleatório.
Sendo assim, é natural perguntarmos qual é a probabilidade do valor x ? No exemplo do máximo das
2 faces de um dado da Figura 1.2, por exemplo, o valor 6 da v.a. é imagem de 11 pontos do espaço
amostral, enquanto o valor 2 é imagem de apenas 3 pontos. Sendo assim, é de se esperar que o valor 6
seja mais provável que o valor 2. Na verdade, temos a seguinte equivalência de eventos: se chamamos
de X a v.a. máximo das 2 faces, então
{X = 6} ≡ {(6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6), (1, 6), ((2, 6), ((3, 6), ((4, 6), ((5, 6)}
e, assim
P(X = 6) = P{(6, 1) ∪ (6, 2) ∪ (6, 3) ∪ (6, 4) ∪ (6, 5) ∪ (6, 6) ∪ (1, 6) ∪ (2, 6) ∪ (3, 6) ∪ (4, 6) ∪ (5, 6)}
Como os eventos expressão acima são mutuamente exclusivos e igualmente prováveis, resulta que
1 11
P(X = 6) = 11 × = .
36 36
De maneira análogo, temos
1 3 5
P(X = 1) = , P(X = 2) = P(X = 3) =
36 36 36
7 9 11
P(X = 4) = P(X = 5) = P(X = 6) = .
36 36 36
Definição 1.2. Seja X uma variável aleatória discreta e ΩX o seu espaço amostral. A função
massa de probabilidade P (X = x), ou simplesmente pX (x), será a função que associa a cada
valor de X a sua probabilidade de ocorrência, desde que atenda duas condições:
Função Massa de probabilidade:
1) pX (x) ≥ 0, ∀x ∈ ΩX ;
P
2) x∈ΩX pX (x) = 1.
O cálculo da fdp de uma v.a. X qualquer se dá em três etapas:
(i) primeiro, temos que identificar todos os possı́veis valores x da v.a.X;
(ii) segundo, temos que identificar os resultados que dão origem a cada valor x e suas respectivas
probabilidades;
(iii) finalmente, temos que somar todas essas probabilidades para obter pX (x).
Exemplo 1.5. Considerando novamente a v.a. definida na Figura ?? (máximo das duas faces), podemos
resumir a fmp da variável em questão na seguinte tabela:
x 1 2 3 4 5 6
1 3 5 7 9 11
pX (x) 36 36 36 36 36 36
Exemplo 1.6. Consideremos novamente o lançamento de dois dados mas agora vamos definir a seguinte
v.a. X = soma das 2 faces. Para facilitar a solução desse problema, vamos construir uma tabela de
duas entradas, onde cada dimensão representa o resultado de um dado e em cada cela temos a soma
das duas faces.
1 2 3 4 5 6
1 2 3 4 5 6 7
2 3 4 5 6 7 8
3 4 5 6 7 8 9
4 5 6 7 8 9 10
5 6 7 8 9 10 11
6 7 8 9 10 11 12
Como cada ponto do espaço amostral é equiprovável, a fmp de X é:
x 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
pX (x) 36 36 36 36 36 36 36 36 36 36 36
A função de massa de probabilidade de uma v.a. discreta X que assume um número finito de
valores pode ser representada por um gráfico de colunas, onde a cada valor de X corresponde uma
coluna cuja altura representa a probabilidade do respectivo valor. Na Figura ?? ilustra-se a fmp da
v.a. X do Exemplo 1.6.
Figura 1.3: Função Massa de Probabilidade da v.a. X = soma das faces de dois dados.
Exemplo 1.7. Suponha que uma moeda é lançada 10 vezes e vamos definir a v.a. X = número de
caras. Suponhamos que a probabilidade de cara seja p e, por conseguinte, a probabilidade de coroa
é 1 − p. Os possı́veis valores de X são 0, 1, 2, . . . , 10. Vamos agora calcular a probabilidade de
cada um desses valores, estabelecendo a equivalência dos eventos envolvidos. Para isso vamos usar a
notação Ki = cara no i-ésimo lançamento e Ci = coroa no i-ésimo lançamento.
{X = 0} = {coroa nos 10 lançamentos} = {C1 ∩ · · · ∩ C10 }

Podemos considerar os lançamentos da moeda como eventos independentes. Logo,
P(X = 0) = P(C1 ) × · · · × P(C10 ) = (1 − p)10

O evento {X = 1} corresponde à ocorrência de 1 cara e 9 coroas. Uma sequência possı́vel de
resultados é KCCCCCCCCC e a probabilidade é
P(KCCCCCCCCC) = p(1 − p)9

10
Mas a sequência CKCCCCCCCC também resulta em {X = 1}. Na verdade existem tais
1
sequências, todas com a mesma probabilidade. Logo

10
P(X = 1) = p(1 − p)9 .
1
Analogamente, o evento {X = 2} corresponde à ocorrência de 2 caras e 8 coroas; uma sequência
possı́vel é KKCCCCCCCC, que tem probabilidade
P(KKCCCCCCCC) = p2 (1 − p)8

10
Mas, existem maneiras de colocar caras numa sequência de 10 lançamentos e todas tem a
2
mesma probabilidade. Portanto,

10 2
P(X = 2) = p (1 − p)8 .
2
Em geral, para qualquer valor de x temos

10 x
P(X = x) = p (1 − p)1−x , x = 0, 1, 2, · · · , 10.
x
Na Figura 1.3 apresentamos a fmp para diferentes valores de p.
Exemplo 1.8. Considere uma urna com 10 bolas, das quais 6 são vermelhas e 4 brancas. Dessa urna
retiram-se 3 bolas sem reposição e conta-se o número de bolas brancas retiradas. Qual é a distribuição
dessa variável aleatória?
Solução: Os possı́veis valores de X são 0,1,2,3. Para calculara probabilidade
de cada um desses
10
valores, devemos notar inicialmente que o espaço amostral tem eventos elementares. O evento
3
{X = 0} corresponde à união dos eventos (sequências) onde não aparece nenhumabola branca
ou,
6 4 6
equivalentemente, onde todas as bolas são vermelhas; o número de tais sequências é = .
3 0 3
Logo,

6 4
3 0 20
P(X = 0) = = .
10 120
3
Analogamente, o evento {X = 1} corresponde
àunião dos eventos onde aparece 1 bola branca e 2
6 4
vermelhas. O número de tais sequências é e, logo
2 1
Figura 1.4: Função Massa de Probabilidade da v.a. X = número de caras em 10 lançamentos.

6 4
2 1 60
P(X = 1) = = .
10 120
3
Analogamente,

6 4
1 2 36
P(X = 2) = = ,
10 120
3

6 4
0 3 4
P(X = 3) = = .
10 120
3
Portanto,
x 0 1 2 3
1 1 3 1
pX (x) 6 2 10 30
Figura 1.5: Função Massa de Probabilidade da v.a. X = Número de bolas brancas em 3 extrações de
uma urna com 6 vermelhas e 4 brancas.
Exemplo 1.9. Considere a função dada na tabela abaixo.

x 0 1 2 3
g(x) a 3a 3a a
Estabeleça condições sobre a, de modo que a função g(x) seja uma função massa de probabilidade.
1.1.2. Função de Distribuição ou Função de Probabilidade Acumulada

A partir da função massa de probabilidades de uma v.a. discreta X é possı́vel calcular a probabilidade
de qualquer evento associado a ela. Por exemplo, para a fmp da Figura 1.5, temos que
1
P(X > 2) = P({X = 2} ∪ {X = 3}) = P(X = 2) + P(X = 3) = .
3
2
P(X 6 1) = P({X = 0} ∪ {X = 1}) = P(X = 0) + P(X = 1) = .
3
Então, podemos dizer que a fmp de uma variável aleatória discreta X nos dá toda a informação
sobre X. Existe uma outra função com tal caracterı́stica, que é a função de distribuição acumulada
de X, cuja definição apresentamos a seguir.
Definição 1.3. Seja X uma variável aleatória discreta e ΩX o seu espaço amostral. A função de
distribuição, denotada por FX (x) ou P (X 6 x), é a função que associa a cada valor de X a
probabilidade P (X 6 x). Desta forma, temos
X X
FX (x) = P (X 6 x) = P (X = x) = pX (x). (1.2)
X6x X6x
Exemplo 1.10. Voltando ao Exemplo 1.5, temos que a fmp da v.a. X = máximo das duas faces é dada
por
x 1 2 3 4 5 6
1 3 5 7 9 11
pX (x) 36 36 36 36 36 36
Para calcular a fda de X, notemos inicialmente que nenhum valor menor que 1 é possı́vel. Logo,
FX (x) = 0, para todo x < 1.

Para x = 1 devemos notar que
1 1
FX (1) = P (X 6 1) = P(X < 1) + P(X = 1) = 0 + = .
36 36
Para qualquer valor de x tal que 1 < x < 2, temos que pX (x) = 0. Logo,
1
FX (x) = P (X 6 1) + P(1 < X < x) = FX (1) + 0 = FX (1) = para todo 1 6 x < 2.
36
Analogamente, temos
1 3 4
FX (2) = P (X 6 2) = P(X 6 1) + P(1 < X < 2) + P(X = 2) = +0+ = .
36 36 36
4
FX (x) = P (X 6 x) = para todo 2 6 x < 3,
36
Seguindo o mesmo raciocı́nio temos
9
FX (x) = P (X 6 x) = para todo 3 6 x < 4,
36
16
FX (x) = P (X 6 x) = para todo 4 6 x < 5
36
25
FX (x) = P (X 6 x) = para todo 5 6 x < 6.
36
Para x > 6 devemos notar que o evento {X 6 x} corresponde ao espaço amostral completo. Logo
FX (x) = P (X 6 x) = 1, para todo x > 6.

Resumindo,

 0, se x < 1;
1

36 , se 1 6 x < 2;



4

, se 2 6 x < 3;


 36
9
FX (x) = 36 , se 3 6 x < 4;
16
 36 , se 4 6 x < 5;



25
, se 5 6 x < 6;


 36


1, se x > 6.
Propriedades:
(i) 0 6 FX (x) 6 1;
Figura 1.6: Função Distribuição Acumulada v.a. X = máximo das duas faces.
(ii) lim FX (x) = 1;

x→∞
(iii) lim FX (x) = 0;

x→−∞
(iv) FX (x) é uma função não decrescente, isto é, para qualquer a < b, temos FX (a) 6 FX (b);
(v) FX (x) uma função contı́nua à direita.
Exemplo 1.11. Considere a v.a. X cuja fmp é dada na tabela abaixo:
x -2 -1 0 1 2 3
pX (x) 0.1 0.2 0.2 0.3 0.1 0.1
Encontre a função de distribuição acumulada e faça o seu gráfico.

Solução:
Exemplo 1.12. A variável X tem função de distribuição Acumulada dada por:



 0, se x < −1;
1/2, se −1 6 x 6 1/2;

FX (x) =

 3/4, se 1/2 6 x 6 2;
1, se x > 2.

(a) Obtenha a correspondente função massa de probabilidade.
(b) Expresse P(X > 0) e P(X > 0) em termos de FX (x) e calcule seus valores.
1.2. VARIÁVEIS ALEATÓRIAS CONTÍNUAS 15
(c) Expresse P(X > −1) e P(X > −1)em termos de FX (x) e calcule seus valores. Comente sobre as
diferenças em relação aos resultados de (b).
Solução:
1.2 Variáveis Aleatórias Contı́nuas
Definição 1.4. Seja E um experimento e Ω um espaço amostral associado. Se X é uma variável

aleatória definida em Ω tal que X(Ω) = ΩX seja infinito não-enumerável, isto é, ΩX seja um
intervalo de números reais, então X é dita uma variável aleatória contı́nua.
Se X é uma variável aleatória contı́nua, X pode assumir qualquer valor num intervalo [a, b] ou no
intervalo (−∞; +∞).
O espaço ΩX será sempre definido como um intervalo do conjunto dos reais, sendo, portanto, um
conjunto infinito.
Exemplos:
(i) tempo de vida de um animal;
(ii) vida útil de um componente eletrônico;
(iii) peso de uma pessoa;
(iv) quantidade de chuva que ocorre numa região;
(v) tempo de espera até a chegada do próximo cliente.
1.2.1. Função densidade de probabilidade

Os valores de uma variável aleatória contı́nua são definidos a partir do espaço amostral de um experi-
mento aleatório. Sendo assim, é natural o interesse na probabilidade de obtenção de diferentes valores
dessa variável. O comportamento probabilı́stico de uma variável aleatória contı́nua será descrito pela
sua função de densidade de probabilidade.
Inicialmente apresentamos a definição da função de densidade de probabilidade utilizando a noção
de área, para seguir a apresentação inicial que considerou um histograma de uma variável contı́nua.
Definição 1.5. Seja X uma variável aleatória contı́nua e ΩX o seu espaço associado. Uma função
fX (·) associada a variável X é denominada função densidade de probabilidade (fdp) se satisfizer
duas condições:
(i) fX (x) > 0, para todo x ∈ ΩX ;

Z ∞
(ii) fX (x) = 1.
−∞
Observação 1.1. Dada uma função fX (x) satisfazendo as propriedades acima, então fX (x) representa
função densidade de probabilidade de alguma variável aleatória contı́nua X, de modo que P(a 6 X 6 b)
é a área sob a curva limitada pelos pontos a e b, conforme a Figura 1 a seguir.
Figura 1.7: Probabilidade calculada atráves da função desnidade de probabilidade.
Para obter a probabilidade da variável aleatória estar em um certo intercalo [a, b], fazemos a integral
da função densidade de probabilidade no intervalo. Assim,
Z b
P(a 6 X 6 b) = fX (x).
a
Uma primeira observação importante que resulta da interpretação geométrica de probabilidade

como área sob a curva de densidade de probabilidade é a seguinte: se X é uma variável aleatória
contı́nua, então a probabilidade do evento [X = a] é zero, ou seja, a probabilidade de X ser exatamente
igual a um valor especı́fico é nula.
Z a
P(X = a) = fX (x) = 0
a
Como consequência, temos as seguintes igualdades:
Z b
P(a 6 X 6 b) = P(a 6 X < b) = P(a < X 6 b) = P(a < X < b) = fX (x).
a
Exemplo 1.13. Seja a função fX (x) = 2x, no intervalo ΩX = [0, 1]. Verifique se a função abaixo é uma
função densidade de probabilidade.

2x, se 0 6 x 6 1;
fX (x) = (1.3)
0, c.c.
Solução:
(i) fX (x) > 0, para todo x ∈ ΩX ;

Z ∞ Z 0 Z 1 Z ∞
(ii) fX (x)dx = 0dx + 2xdx + 0dx = 1.
−∞ −∞ 0 1
Figura 1.8: Função densidade de probabilidade dada pela equação (1.3).
Exemplo 1.14. Vamos avaliar para que valores da constante c ∈ R, a função abaixo representa uma
função densidade de probabilidade.
 2 1
 c(1 − x) , se 0 6 x < 2 ;
1 1
f (x) = , se 2 6 x 6 1; (1.4)
 (c+1)
0, c.c.
Verifique as condições para que a função acima seja uma função densidade de probabilidade.
Solução: Z ∞
As condições que precisam ser satisfeitas pela função f (·) são f (x) > 0 e f (x)dx = 1. Observe
−∞
que, se c > 0, temos f (x) não negativa. Agora devemos obter os valores de c que satisfaçam a segunda
condição. Assim, temos que
1
Z ∞ Z 0 Z Z 1 Z ∞
2
2 1
f (x)dx = 0dx + c(1 − x) dx + dx + 0dx = 1,
−∞ −∞ 0 1 (c + 1) 1
2
o que resulta em
1
2
1
−(1 − x)3 x
c + =1 → 7c2 − 17c − 12 = 0.
3 (c + 1) 1
0 2
Da mesma forma
1
Z Z 1
2 1
c(1 − x)2 dx + dx = 1
0 1 (c + 1)
2
1
Z Z 1
2
2 1
c(1 − 2x + x )dx + dx = 1
0 (c + 1)
1
2
"Z 1 1 1
# Z
Z Z 1
2 2 2 1
c 1dx − 2 xdx + x2 dx + dx = 1
1 (c + 1)
0 0 0 2
 1 1 1
2 2 2
1
x2 x3 x
c x −2 + + =1
2 3 (c + 1) 1
0 0 0 2

1 1 1 1
c − + + =1
2 4 24 2(c + 1)
7c 1 7c 1 −7c + 24 1
+ =1→1− = → =
24 2(c + 1) 24 2(c + 1) 24 2(c + 1)
−14c2 + 48c − 14c + 48 = 24 → −14c2 + 34c + 24 = 0 → 14c2 − 34c − 24 = 0

Logo precisamos encontrar as raı́zes da equação 7c2 − 17c − 12 = 0.
A solução negativa dessa equação de 2 grau é descartada e obtemos c = 3.
 3(1 − x)2 , se 0 6 x < 12 ;


1
fX (x) = , se 12 6 x 6 1; (1.5)
 4
0, c.c.
Exemplo 1.15. A quantidade de tempo em horas que um computador funciona sem estragar é uma
variável aleatória contı́nua com função densidade de probabilidade dada por
λe−x/100 , se x > 0;

f (x) = (1.6)
0, c.c.
Qual a probabilidade de que:
(a) o computador funcione entre 50 e 100 horas antes de estragar?
(b) ele funcione menos de 100 horas?
Solução:
(a) Primeiramente precisamos encontra o valor de λ tal que a função acima seja uma função densidade
de probabilidade. A primeira condição é que f (x) > 0. Para que essa condição seja satisfeita,
temo que ter λ > 0. Para a segunda condição temos que ter
Z ∞ Z 0 Z ∞
1= f (x)dx = 0dx + λe−x/100 dx.
−∞ −∞ 0
Logo,
∞
−x/100 1
1 = −100λe λ → 1 = 100λ → λ= ·
100
0
Logo,
1 −x/100

f (x) = 100 e , se x > 0;
(1.7)
0, c.c.
Portanto, a probabilidade de que o computador funcione entre 50 e 100 horas antes de estragar
antes de estragar é dada por
100
Z 100
1 −x/100
P(50 < X < 100) = e dx = −e−x/100 = e−1/2 − e−3/2 ≈ 0.384.
50 100
50
(b) Da mesma forma temos
100
Z 100
1 −x/100
P(X < 100) = e dx = −e−x/100 = 1 − e−1 ≈ 0.633.
0 100
0
1.2.2. Função de distribuição de Probabilidade ou Função Acumulada
Definição 1.6. Seja X uma variável aleatória contı́nua e ΩX o seu espaço associado. A função
de distribuição, denotada por FX (x) = P(X 6 x), é a função que associa a cada ponto x ∈ ΩX
a probabilidade P (X 6 x). Desta forma, tem-se:
Z x
FX (x) = P (X 6 x) = fX (y)dy. (1.8)
−∞
Exemplo 1.16. Seja X a espessura de uma determinada chapa de metal, com função densidade de
probabilidade dada por
1
fX (x) = I (x) (1.9)
B − A [A,B]
Figura 1.9: Função densidade de probabilidade dada pela equação (1.9).
Encontre a função de distribuição.
Solução: Para x < A, temos

Z x Z x
FX (x) = fX (y)dy = 0dy = 0.
−∞ −∞
Para A 6 x < B, temos

x
x x
x−A
Z Z
1 1
FX (x) = fX (y)dy = dy = y = ·
−∞ A B−A B−A B−A
A
Para x > B, temos

Z x Z B
1
FX (x) = fX (y)dy = dy = 1.
−∞ A B−A
Portanto a Função de distribuição acumulada é dada por

 0, se x 6 A;
x−A
FX (x) = B−A , se A 6 x < B; (1.10)
1, se x > B.

O gráfico da função de distribuição dado pela equação (1.10) é dada pela Figura 1.10.
Figura 1.10: Função de Distribuição dada pela equação (1.10).
Exemplo 1.17. Seja X uma variável aleatória contı́nua que significa o tempo em minutos de um teste.
A função densidade de probabilidade da variável aleatória X é dada por:
1

 40 (x − 4), se 8 6 x < 10;
3
fX (x) = 20 , se 10 6 x 6 15; (1.11)
0, c.c.

Gráfico da função densidade de probabilidade dada pela equação (1.11).
Figura 1.11: Gráfico da função de densidade de probabilidade dada pela equação (1.11).
Encontre a função de distribuição e calcule P(9 < X 6 12).

Rx
Solução: Vamos encontrar a função de distribuição. Sabemos que se x < 8, temos FX (x) = −∞ 0dy =
0. Para 8 6 x < 10,
x
x
y2 x2
Z
1 1 1
FX (x) = (y − 4)dy = − 4y = − 4x
8 40 40 2 40 2
8
Para 10 6 x < 15,

10 x
10 x
y2
Z Z
1 3 1 3y 3x 5
FX (x) = (y − 4)dy + dy = − 4y + = −
8 40 10 20 40 2 20 20 4
8 10
Para x > 15,

Z 10 Z 15
1 3
FX (x) = (y − 4)dy + dy = 1.
8 40 10 20
Portanto a função de distribuição acumulada da variável aleatória X é dada por

 0, se x < 8;
1 x2

40 ( 2 − 4x), se 8 6 x < 10;

FX (x) = 3x 5 (1.12)
20 − 4 , se 10 6 x < 15;



1, se x > 15.
Figura 1.12: Gráfico da função densidade dada pela equação (1.11) para o cálculo da P(9 < X 6 12).
Assim,
Z 10 Z 12
1 3 7
P(9 < X 6 12) = FX (12) − FX (9) = (y − 4)dy + dy = .
8 40 10 20 16
1.2.3. Obtendo fX (x) a partir de FX (x)

Para X uma variável aleatória discreta a f.m.p. é obtida a partir da função de distribuição calculando-
se a diferença entre dois valores da FX (x). O análogo contı́nuo de uma diferença é a derivada. O
resultado a seguir é uma consequência do Teorema Fundamental do Cálculo.
Proposição 1. Seja X uma variável aleatória contı́nua com função densidade fX (x) e função de
distribuição FX (x), então, em cada x cuja derivada FX0 (x) existe, FX0 (x) = dx
d
FX (x) = fX (x).
Exemplo 1.18. Do Exemplo ?? temos a seguinte função de distribuição acumulada


 0, se x 6 A;
x−A
FX (x) = B−A , se A 6 x < B; (1.13)
1, se x > B.

Solução: Derivando temos

1
fX (x) = I (x) (1.14)
B − A [A,B]
1.2.4. Percentis de uma distribuição contı́nua

Quando dizemos que a pontuação de um indivı́duo estava no 850 percentil da população, queremos
dizer que 85% de todas as pontuações da população estavam abaixo daquela pontuação e 15% acima
dela.
Definição 1.7. Seja p um número entre 0 e 1. O (100p)−ésimo percentil da distribuição de uma
variável aleatória X, representado por η(p), é definido por:
Z η(p)
p = FX (η(p)) = P(X 6 η(p)) = fX (y)dy. (1.15)
−∞
Pela equação (1.15), η(p) é o valor no eixo x tal que 100p% da área sob o gráfico de fX (x)
encontra-se à esquerda de η(p) e 100(1 − p)% encontra-se à direita.
Figura 1.13: Quantil de probabilidade p100% da distribuição de uma variável aleatória contı́nua X.
Exemplo 1.19 (Devore, 2016). A distribuição da quantidade de cascalho (em toneladas) vendida para
uma determinada loja de materiais de construção em uma determinada semana é uma v.a. contı́nua
X com função densidade de probabilidade dada por
3
fX (x) = (1 − x2 )I[0,1] (x). (1.16)
4
Solução: A função de distribuição da v.a. é dada por

 0,
 se x 6 0;
3 x3
FX (x) =
 2 x − 3 , se 0 6 x < 1; (1.17)
1, se x > 1.

1.3. VETORES ALEATÓRIOS 23
Os gráficos das f.d.p. e da f.d. dados, respectivamente, pelas equações (1.11) e (1.10) são apresen-
tados na Figura 1.14. O (100p)−ésimo percentil dessa distribuição satisfaz a equação
(η(p))3

3
p = FX (η(p)) = η(p) −
2 3
ou seja,
(η(p))3 − 3η(p) + 2p = 0.
Para encontrarmos o 500 percentil, assumimos p = 0.5, e a equação a ser resolvida é (η(0.5))3 −
3η(0.5) + 1 = 0; a solução é η(0.5) = 0.347. Se a distribuição continuar de semana para semana, no
longo prazo, 50% de todas as semanas resultarão em vendas de menos de 0.347 toneladas e 50% em
mais de 0.347 toneladas.
Figura 1.14: A f.d.p. e da f.d. dados, respectivamente, pelas equações (1.11) e (1.10) .
1.3 Vetores Aleatórios

Em muitas situações, ao descrevermos os resultados de um experimento aleatório atribuı́mos a um
mesmo ponto amostral os valores de duas ou mais variáveis aleatórias.
Exemplo 1.20. [Bussab e Morettin, 2017] Suponha que estamos interessados em estudar a composição
de famı́lias com três crianças, quanto ao sexo. Definimos:
X= número de meninos;

1, se o primeiro filho for homem;
Y =
0, se o primeiro filho for mulher;
Z=numero de vezes em que houve variação do sexo entre um nascimento e outro, dentro da mesma
famı́lia.
Com estas informações, e supondo que as possı́veis composições tenham a mesma probabilidade,
temos a tabela a seguir.
Solução:
Tabela 1.1: Distribuições de probabilidade unidimensionais.
x 0 1 2 3 y 0 1 z 0 1 2
1 3 3 1 1 1 1 1 1
pX (x) 8 8 8 8 pY (y) 2 2 pZ (z) 4 2 4
Tabela 1.2: Composição de famı́lias com 3 filhos, quanto ao sexo.
Eventos Probabilidade X Y Z
1
HHH 8 3 1 0
1
HHM 8 2 1 1
1
HMH 8 2 1 2
1
MHH 8 2 0 1
1
HMM 8 1 1 1
1
MHM 8 1 0 2
1
MMH 8 1 0 1
1
MMM 8 0 0 0
Tabela 1.3: Distribuições de probabilidade conjunta do vetor aleatório (x, y).
(x, y) p(x, y)
1
(0, 0) 8
2
(1, 0) 8
1
(1, 1) 8
1
(2, 0) 8
2
(2, 1) 8
1
(3, 1) 8
Tabela 1.4: Distribuições de probabilidade conjunta do vetor aleatório (x, y, z).
(x, y, z) p(x, y, z)
1
(0, 0, 0) 8
1
(1, 0, 1) 8
1
(1, 0, 2) 8
1
(1, 1, 1) 8
1
(2, 0, 1) 8
1
(2, 1, 1) 8
1
(2, 1, 2) 8
1
(3, 1, 0) 8
Y \X 0 1 2 3 pY (y)
1 2 1 1
0 8 8 8 0 2
1 2 1 1
1 0 8 8 8 2
1 3 3 1
pX (x) 8 8 8 8 1
Definição 1.8. Seja (X, Y ) um vetor aleatório onde X e Y são variáveis aleatórias discretas
definidas no mesmo espaço amostral Ω de um experimento aleatório. A função massa de pro-
babilidade conjunta p(x, y) é definida para cada par (x, y) por
p(x, y) = P([X = x] ∩ [Y = y]).

Seja A qualquer conjunto formado por pares de valores (x, y). A probabilidade P[(X, Y ) ∈ A]
é obtida pela soma da f.m.p. conjunta com os pares de A:
XX
P[(X, Y ) ∈ A] = p(x, y).
(x,y)∈A
Proposição 2. A função massa de probabilidade conjunta de um vetor aleatório (X, Y ) deve

satisfazer as seguintes propriedades:
(i) 0 < p(x, y) < 1;

PP
(ii) p(x, y) = 1.
Exemplo 1.21. [Devore, 2016] Uma grande agência de seguros presta serviços a diversos clientes que
compraram uma apólice de seguros residencial e uma outra para automóvel. Para cada uma, deve ser
especificado um mı́nimo dedutı́vel. para a apólice de automóvel as opções são R$ 100,00 e R$ 250,00,
enquanto, para uma apólice residencial, as opções são 0, R$ 100,00 e R$ 200,00. Suponha que um
indivı́duo com os dois referidos tipos de apólice seja selecionado aleatoriamente do banco de dados
da seguradora. Seja X = valor dedutı́vel na apólice do automóvel e Y = valor dedutı́vel na apólice
residencial. A função massa de probabilidade conjunta de (X, Y ) é apresentada a seguir:
X \Y 0 100 200
100 0.2 0.1 0.2
250 0.05 0.15 0.3
Encontre p(100, 100) e P(Y > 100).

Solução: Temos que: p(100, 100) = P(X = 100, Y = 100) = 0.10.
A probabilidade P(Y > 100) é calculada pela soma das probabilidades de todos os pares (x, y)
para os quais y > 100:
P(Y > 100) = p(100, 100) + p(250, 100) + p(100, 200) + p(250, 200) = 0.75.
Exemplo 1.22. Em uma Turma de Introdução à Probabilidade com 34 alunos foram feitas as seguintes
perguntas idade, cidade, número de irmãos, cor preferida e se está ou não matriculado em Cálculo. As
respostas foram tabelas a seguir. Abaixo podem ser encontras as funções de massa de probabilidade
conjuntas e marginais das variáveis aleatórias.
Solução:
Banco de Dados da Turma U de MAT02018 – Estatística Descritiva
Aluno Idade Cidade Nº. Irmãos Cor Matrícula Cálculo
A01 17 POA 3 vermelho 1

A02 54 RJ 3 verde 1
A04 18 POA 2 azul 1
A05 39 Fortaleza 1 azul 1
A06 18 San Antônio- VNZ 3 vermelho 1
A07 18 POA 1 azul 1
A08 21 POA 1 azul 0
A09 26 POA 1 preto 0
A10 32 Rio Grande 2 amarelo 0
A11 28 POA 1 verde 0
A12 18 Esteio 0 preto 1
A14 21 Santa Maria 0 vermelho 0
A16 25 Sapucaia do Sul 1 azul 0
A17 28 POA 3 azul 0
A20 18 POA 2 verde 1
A22 19 Novo Hamburgo 1 preto 1
A25 21 POA 1 azul 1
A27 21 Triunfo 2 verde 0
A28 20 Ijuí 2 preto 1
A29 17 Roca Sales 1 preto 1
A34 17 Blumenau 1 preto 1
Fonte: Cedida pela Professora da Turma U de MAT02018 em 2018/1.
Função Massa de Probabilidade Conjunta e Funções Massa de Probabilidade
Marginas das
Variáveis Aleatórias Cidade (C) e Idade (ID)
Idade
Cidade 16 17 18 19 20 21 22 25 26 28 29 32 39 54 Total Geral
Blumenau 1 1
Esteio 1 1
Fortaleza 1 1
Ijuí 1 1
Novo Hamburgo 1 1
POA 1 4 4 3 1 3 1 1 2 2 22
Rio Grande 1 1
RJ 1 1
Roca Sales 1 1
San Antônio-VNZ 1 1
Santa Maria 1 1
Sapucaia do Sul 1 1
Triunfo 1 1
Total Geral 1 6 6 4 17 5 1 1 1 8 2 1 1 1 34
Idade
Cidade 16 17 18 19 20 21 22 25 26 28 29 32 39 54 P(C=c)
Blumenau 0 1/34 0 0 0 0 0 0 0 0 0 0 0 0 1/34
Esteio 0 0 1/34 0 0 0 0 0 0 0 0 0 0 0 1/34
Fortaleza 0 0 0 0 0 0 0 0 0 0 0 0 1/34 0 1/34
Ijuí 0 0 0 0 1/34 0 0 0 0 0 0 0 0 0 1/34
Novo Hamburgo 0 0 0 1/34 0 0 0 0 0 0 0 0 0 0 1/34
POA 1/34 2/17 2/17 3/34 1/34 3/34 1/34 0 1/34 1/17 1/17 0 0 0 11/17
Rio Grande 0 0 0 0 0 0 0 0 0 0 0 1/34 0 0 1/34
RJ 0 0 0 0 0 0 0 0 0 0 0 0 0 1/34 1/34
Roca Sales 0 1/34 0 0 0 0 0 0 0 0 0 0 0 0 1/34
San Antônio-VNZ 0 0 1/34 0 0 0 0 0 0 0 0 0 0 0 1/34
Santa Maria 0 0 0 0 0 1/34 0 0 0 0 0 0 0 0 1/34
Sapucaia do Sul 0 0 0 0 0 0 0 1/34 0 0 0 0 0 0 1/34
Triunfo 0 0 0 0 0 1/34 0 0 0 0 0 0 0 0 1/34
P(ID=id) 1/34 3/17 3/17 2/17 1/2 5/34 1/34 1/34 1/34 4/17 1/17 1/34 1/34 1/34 1
Marginas das
Variáveis Aleatórias Idade (ID) e Cor (CO)
Idade
Cor 16 17 18 19 20 21 22 25 26 28 29 32 39 54 Total Geral
Amarelo 1 1
Azul 2 2 1 1 1 7
Preto 1 4 1 2 2 1 1 1 1 14
Verde 1 1 1 1 4
Vermelho 2 2 2 1 1 8
Total Geral 1 6 6 4 2 5 1 1 1 2 2 1 1 1 34
Idade
Cor $16$ $17$ $18$ $19$ $20$ $21$ $22$ $25$ $26$ $28$ $29$ $32$ $39$ $54$ P(CO=co)
Amarelo 0 0 0 0 0 0 0 0 0 0 0 1/34 0 0 1/34
Azul 0 0 1/17 0 0 1/17 0 1/34 0 1/34 0 0 1/34 0 7/34
Preto 1/34 2/17 1/34 1/17 1/17 1/34 1/34 0 1/34 0 1/34 0 0 0 7/17
Verde 0 0 1/34 0 0 1/34 0 0 0 1/34 0 0 0 1/34 2/17
Vermelho 0 1/17 1/17 1/17 0 1/34 0 0 0 0 1/34 0 0 0 4/17
P(ID=id) 1/34 3/17 3/17 2/17 1/17 5/34 1/34 1/34 1/34 1/17 1/17 1/34 1/34 1/34 1
Marginas das
Variáveis Aleatórias Cidade(C) e Número de Irmãos (IR)
Número de Irmãos
Cidade 0 1 2 3 Total Geral
Blumenau 1 1
Esteio 1 1
Fortaleza 1 1
Ijuí 1 1
Novo Hamburgo 1 1
POA 2 9 6 5 22
Rio Grande 1 1
RJ 1 1
Roca Sales 1 1
San Antônio-VNZ 1 1
Santa Maria 1 1
Sapucaia do Sul 1 1
Triunfo 1 1
Total Geral 4 14 9 7 34
Número de Irmãos
P(C=c)
Cidade 0 1 2 3
Blumenau 0 1/34 0 0 1/34
Esteio 1/34 0 0 0 1/34
Fortaleza 0 1/34 0 0 1/34
Ijuí 0 0 1/34 0 1/34
Novo Hamburgo 0 1/34 0 0 1/34
POA 1/17 9/34 3/17 5/34 11/17
Rio Grande 0 0 1/34 0 1/34
RJ 0 0 0 1/34 1/34
Roca Sales 0 1/34 0 0 1/34
San Antônio-VNZ 0 0 0 1/34 1/34
Santa Maria 1/34 0 0 0 1/34
Sapucaia do Sul 0 1/34 0 0 1/34
Triunfo 0 0 1/34 0 1/34
P(IR=ir) 2/17 7/17 9/34 7/34 1
Funções Massa de Probabilidade Marginas das
Variáveis Aleatórias Cidade(C), Cores (CO), Idade (ID) e Número de Irmãos (IR)
San Antônio - VNZ

Novo Hamburgo
Sapucaia do Sul
Santa Maria
Rio Grande
Roca Sales
Blumenau
Fortaleza
Triunfo
Cidade
Esteio
Soma
POA
Ijuí
RJ
P(C=c) 1/34 1/34 1/34 1/34 1/34 11/17 1/34 1/34 1/34 1/34 1/34 1/34 1/34 1
N Irmãos 0 1 2 3 Soma
P(IR=ir) 2/17 7/17 9/34 7/34 1

Idade 16 17 18 19 20 21 22 25 26 28 29 32 39 54 Soma
P(ID=id) 1/34 3/17 3/17 2/17 1/17 5/34 1/34 1/34 1/34 1/17 1/17 1/34 1/34 1/34 1
Cor Amarelo Azul Preto Verde Vermelho Soma
P(CO=co) 1/34 7/34 7/17 2/17 4/17 1

A função massa de probabilidade de apenas uma das variáveis é obtida pela soma de p(x, y) em
relação aos valores da outra variável. O resultado é denominado de f.m.p. marginal porque, quando
os valores p(x, y) são exibidos em uma tabela, as somas são apenas totais marginais.
Definição 1.9. As funções massa de probabilidade marginais de X e Y representadas respecti-

vamente por pX (x) e pY (y), dadas por
X X
pX (x) = p(x, y) e pY (y) = p(x, y).
y x
Exemplo 1.23. [Devore, 2016] (Continuação Exemplo 1.21)Encontre as marginais de X e Y .

Solução: Os possı́veis valores de X são ΩX = {100, 250}, Assim,
pX (100) = P(X = 100) = p(100, 0) + p(100, 100) + p(100, 200) = 0.5

e
pX (250) = P(X = 250) = p(250, 0) + p(250, 100) + p(250, 200) = 0.5

Portanto a f.m.p. marginal de X é dada por
X 100 250
pX (x) 0.5 0.5
Similarmente, os possı́veis valores de Y são ΩX = {0, 100, 200}. Assim
pY (0) = P(Y = 0) = p(100, 0) + p(250, 0) = 0.25
pY (100) = P(Y = 100) = p(100, 100) + p(250, 100) = 0.25
pY (250) = P(Y = 250) = p(100, 250) + p(250, 250) = 0.50

Portanto a f.m.p. marginal de Y é dada por
Y 0 100 250
pY (y) 0.25 0.25 0.5
Assim, P(Y > 100) = pY (100) + pY (250) = 0.75.
Exemplo 1.24. [Magalhães e Lima, 2004] Uma região foi subdividida em 10 sub-regiões Em cada uma
delas foram observadas duas variáveis: número de poços artesianos (X) e número de rios presentes na
sub-região (Y). Os resultados foram os seguintes:
Sub-região 1 2 3 4 5 6 7 8 9 10
X 0 0 0 0 1 2 1 2 2 0
Y 1 2 1 0 1 0 0 1 2 2
Considerando que escolhemos uma das sub-regiões ao acaso, isto é, cada sub-região têm a mesma
1
probabilidade 10 de ser escolhida, podemos construir a distribuição conjunta de (X, Y ).
(X, Y ) p(x, y)
(0, 0) 0.10
(0, 1) 0.20
(0, 2) 0.20
(1, 0) 0.10
(1, 1) 0.10
(2, 0) 0.10
(2, 1) 0.10
(2, 2) 0.10
Total 1.00
Visualmente podemos montar a tabela a seguir, onde apresentamos as funções massa de probabi-
lidade marginais.
X \Y 0 1 2 P(X = x)
0 0.1 0.2 0.2 0.5
1 0.1 0.1 0 0.2
2 0.1 0.1 0.1 0.3
P(Y = y) 0.3 0.4 0.3 1
A seguir apresentamos as funções massa de probabilidade marginais.
X 0 1 2 Y 0 1 2
P(X = x) 0.5 0.2 0.3 P(Y = y) 0.3 0.4 0.3
Proposição 3. Seja X um vetor aleatório contı́nuo em (Ω, F, P). Então sua função densidade
de probabilidade satisfaz as seguintes propriedades:
(i) f (x) > 0, para todo x ∈ Rn ;

X
Z ∞ Z ∞
(ii) ··· f (x )dx = 1.
−∞ −∞ X
Cálculo de probabilidade através de variáveis aleatórias contı́nuas (caso particular):
Definição 1.10. [Devore, 2016] Seja (X, Y ) um vetor aleatório contı́nuo. Então, f (x, y) é a
função densidade de probabilidade conjunta de X e Y se, para qualquer conjunto bidimensional
A, temos que
Z Z
P((X, Y ) ∈ A) = f (x, y)dxdy.
A
Em particular, se A for tal que {(x, y), a 6 x 6 b, c 6 y 6 d}, então

Z bZ d
P((X, Y ) ∈ A) = P(a 6 x 6 b, c 6 y 6 d) = f (x, y)dxdy.
a c
Exemplo 1.25. [Devore,2016] Um banco opera tanto numa instalação drive-through como em guichê.
Em um dia selecionado ao acaso, assuma X= a proporção de tempo em que a instalação drive-through
está em uso (ao menos um cliente está sendo atendido ou esperando para ser atendido) e Y = a
proporção de tempo em que o guichê de atendimento está em uso. Suponha que a função densidade
conjunta de (X, Y ) seja dada por:
6
+ y 2 ), se 0 6 x 6 1, 0 6 y 6 1;

f (x, y) = 5 (x
0, caso contrário.
(i) Verifique se f (x, y) é função densidade.
(ii) Calcule P(0 6 X 6 0.25, 0 6 Y 6 0.25).
Solução:
Z ∞ Z ∞
(i) Temos que f (x, y) > 0, para todo (x, y). Temos que verificar se f (x, y)dxdy = 1.
−∞ −∞
Z ∞ Z ∞ Z 1Z 1
6
f (x, y)dxdy = (x + y 2 )dxdy
−∞ −∞ 0 0 5
Z 1Z 1 Z 1Z 1
6 6 2
= xdxdy + y dxdy
0 0 5 0 0 5
Z 1 Z 1
6 6 2 6 6
= xdx + y dy = + = 1.
0 5 0 5 10 15
(ii) Para calcular Calcule P(0 6 X 6 0.25, 0 6 Y 6 0.25) fazemos
Z 0.25 Z 0.25
6
P(0 6 X 6 0.25, 0 6 Y 6 0.25) = (x + y 2 )dxdy
0 0 5
6 0.25 0.25 6 0.25 0.25 2

Z Z Z Z
= xdxdy + y dxdy
5 0 0 5 0 0
0.25 0.25
6 x2 6 y3 7
= + = = 0.0109.
20 2 20 3 640
0 0
Como acontece com a f.m.p. conjunta, cada uma das funções densidades marginais pode ser
calculada pela f.d.p. conjunta.
Definição 1.11. [Devore, 2016] As funções densidade de probabilidade marginais de X e de Y ,

representadas por fX (x) e fY (y), são das por
Z ∞
fX (x) = f (x, y)dy para − ∞ < x < ∞
−∞
Z ∞
fY (y) = f (x, y)dx para −∞<y <∞
−∞
Exemplo 1.26. [Devore, 2016] (Continuação Exemplo 1.25). Seja
6
+ y 2 ), se 0 6 x 6 1, 0 6 y 6 1;

f (x, y) = 5 (x
a função densidade de probabilidade conjunta de (X, Y ). Encontre as funções marginais.

Solução: A função densidade de probabilidade de X é dada por
Z ∞ Z 1
6 6 2
fX (x) = f (x, y)dy = (x + y 2 )dy = x + ,
−∞ 0 5 5 5
para 0 6 x 6 1. Da mesma forma, a função densidade de probabilidade de Y é dada por
Z ∞ Z 1
6 6 3
fY (y) = f (x, y)dx = (x + y 2 )dx = y 2 + .
−∞ 0 5 5 5
Assim,
Z 0.25
6 2 3 37
P(0.25 6 Y 6 0.75) = y + dy = = 0.4625.
0 5 5 80
Exemplo 1.27. [Dudewicz e Mishra, 1988] Seja f (·) a seguir uma função de três variáveis.
√
kxy 2 z, se 0 6 x 6 1, 0 6 y 6 1, 0 6 z 6

2;
f (x, y) =
(i) Encontre k tal que f (·) seja uma função densidade de probabilidade.
(ii) Encontre as funções densidade marginais.
Solução:
1.4 Funções Condicionais
Definição 1.12. Sejam X e Y variáveis aleatórias discretas. Se P(Y = yj ) > 0, definimos a

função massa de probabilidade condicional de X, dado que ocorreu Y = yj por:
P(X = xi , Y = yj )
P(X = xi |Y = yj ) = ,
P(Y = yj )
para cada j fixo. Da mesma forma podemos definir a função massa de probabilidade condicional
de Y, dado que ocorreu X por
P(X = xi , Y = yj )
P(Y = yj |X = xi ) = ,
P(X = xi )
sempre que P(X = xi ) > 0.
Exemplo 1.28 (Rohatgi, 1976). Sejam X e Y variáveis aleatórias discretas com função massa de
probabilidade conjunta dada por
1.4. FUNÇÕES CONDICIONAIS 39
Y \X 0 1 2 3 P(Y = y)
3 3 6
1 0 8 8 0 8
1 1 2
3 8 0 0 8 8
1 3 3 1
P(X = x) 8 8 8 8 1
Encontre a função massa de probabilidade condicional P(X = xi |Y = yj ) e P(Y = yj |X = xi ).

Solução: Primeiramente calculamos P(X = xi |Y = yj ).
P(X = 0, Y = 1) 0
P(X = 0|Y = 1) = = =0
P(Y = 1) 6/8
P(X = 1, Y = 1) 3/8 1
P(X = 1|Y = 1) = = =
P(Y = 1) 6/8 2
P(X = 2, Y = 1) 3/8 1
P(X = 2|Y = 1) = = =
P(Y = 1) 6/8 2
P(X = 3, Y = 1) 0
P(X = 3|Y = 1) = = =0
P(Y = 1) 6/8
P(X = 0, Y = 3) 1/8 1
P(X = 0|Y = 3) = = =
P(Y = 3) 2/8 2
P(X = 1, Y = 3) 0
P(X = 1|Y = 3) = = =0
P(Y = 3) 2/8
P(X = 2, Y = 3) 0
P(X = 2|Y = 3) = = =0
P(Y = 3) 2/8
P(X = 3, Y = 3) 1/8 1
P(X = 3|Y = 3) = = =
P(Y = 3) 2/8 2
Agora calculamos P(Y = yj |X = xi ).
P(X = 0, Y = 1) 0
P(Y = 1|X = 0) = = =0
P(X = 0) 1/8
P(X = 0, Y = 3) 1/8
P(Y = 3|X = 0) = = =1
P(X = 0) 1/8
P(X = 1, Y = 1) 3/8
P(Y = 1|X = 1) = = =1
P(X = 1) 3/8
P(X = 1, Y = 3) 0
P(Y = 3|X = 1) = = =0
P(X = 1) 3/8
P(X = 2, Y = 1) 3/8
P(Y = 1|X = 2) = = =1
P(X = 2) 3/8
P(X = 2, Y = 3) 0
P(Y = 3|X = 2) = = =0
P(X = 2) 3/8
P(X = 3, Y = 1) 0
P(Y = 1|X = 3) = = =0
P(X = 3) 1/8
P(X = 3, Y = 3) 1/8
P(Y = 3|X = 3) = = =1
P(X = 3) 1/8
Definição 1.13. Sejam X e Y variáveis aleatórias contı́nuas. Definimos a função densidade de

probabilidade condicional de X, dado que ocorreu Y = y por:
f (x, y)
fX|Y (x|y) = ,
fY (y)
Da mesma forma podemos definir a função densidade de probabilidade condicional de Y, dado
que ocorreu X por
f (x, y)
fY |X (y|x) = ·
fX (x)
Para variáveis aleatórias contı́nuas, a variável que está condicionando está fixa.
Exemplo 1.29. [Magalhães, 2006] Sejam X e Y variáveis aleatórias contı́nuas com função densidade
de probabilidade conjunta dada por

(x + y), se 0 6 x 6 1, 0 6 y 6 1;
f (x, y) =
Encontre as funções densidade de probabilidade condicionais.
Solução: Primeiramente precisamos encontrar as funções densidade marginais.
 
Z 1 Z 1 1
y 2
fX (x) = f (x, y)dy = (x + y)dy = xy +  = x + 1 , 0 6 x 6 1;
0 0 2 2
0
 
1
1 1
x2
Z Z
fY (y) = f (x, y)dx = (x + y)dx = xy +  = y + 1, 0 6 y 6 1;
0 0 2 2
0
Assim, temos que
f (x, y) x+y
fX|Y (x|y) = = , 06x61
fY (y) y + 12
com 0 6 y 6 1 fixo.
Da mesma forma,
f (x, y) x+y
fY |X (y|x) = = , 06y61
fX (x) x + 12
com 0 6 x 6 1 fixo.
Exemplo 1.30. [Bussab e Morettin, 2017] Sejam X e Y variáveis aleatórias contı́nuas com função
densidade de probabilidade conjunta dada por

6(1 − x − y), se 0 < x < 1, 0 < y < 1 − x;
f (x, y) =
Encontre as funções densidade de probabilidade condicionais.
Solução: Primeiramente precisamos encontrar as funções densidade marginais. O domı́nio de variação
dos pares (x, y) é o triângulo da Figura 1.15
As funções densidades marginais são dadas por
1.4. FUNÇÕES CONDICIONAIS 41
Figura 1.15: Domı́nio de variação de (X, Y ).

Fonte: Bussab e Morettin (2017).
1−x
1−x
y2
Z
fX (x) = 6(1 − x − y)dy = 6[y − xy − ] = 3(x − 1)2 , 0 < x < 1,
0 2
0
Z 1−y
fY (y) = 6(1 − x − y)dx = 3(y − 1)2 , 0 < y < 1.
0
Consequentemente, as funções densidades marginais são
f (x, y) 2(1 − x − y
fX|Y (x|y) = = , 0 < x < 1 − y,
fY (y) (y − 1)2
para 0 < y < 1 fixo.
f (x, y) 2(1 − x − y
fY |X (y|x) = = , 0 < y < 1 − x.
fX (x) (x − 1)2
para 0 < x < 1 fixo.
Figura 1.16: Função densidade condicional de X, dado Y = y0 .

Fonte: Bussab e Morettin (2017).
1.5 Variáveis Aleatórias Independentes

Anteriormente, vimos em probabilidade que se dois eventos são independentes, então P(A ∩ B) =
P(A) × P(B). A seguir apresentamos uma definição análoga para variáveis aleatórias.
Definição 1.14. Duas variáveis aleatórias X e Y são independentes se, para cada par de valores
x e y, temos:
p(x, y) = pX (x) × pY (y), quado X e Y são v.a. discretas
f (x, y) = fX (x) × fY (y), quado X e Y são v.a. continuas
Exemplo 1.31. [Prob. Estat. IM-UFRJ, 2017] Considere a população de todos os apartamentos
que, em determinado dia, estejam anunciados para venda no site de uma imobiliária. Sejam X e
Y , receptivamente, o número de vagas de garagem e o número de varandas correspondente a um
apartamento anunciado no site.
Y
X 0 1 2 P(X = x)
0 0.2 0.15 0.15 0.5
1 0.16 0.12 0.12 0.4
2 0.04 0.03 0.03 0.1
P(Y = y) 0.4 0.3 0.3 1
Solução: Temos
p(0, 0) = 0.2 = 0.5 × 0.4 = pX (0)pY (0) p(1, 0) = 0.16 = 0.4 × 0.4 = pX (1)pY (0)
p(2, 0) = 0.04 = 0.1 × 0.4 = pX (2)pY (0) p(0, 1) = 0.15 = 0.5 × 0.3 = pX (0)pY (1)
p(1, 1) = 0.12 = 0.4 × 0.3 = pX (1)pY (1) p(2, 1) = 0.03 = 0.1 × 0.3 = pX (2)pY (1)
p(0, 2) = 0.15 = 0.5 × 0.3 = pX (0)pY (2) p(1, 2) = 0.12 = 0.4 × 0.3 = pX (1)pY (2)
p(2, 2) = 0.03 = 0.1 × 0.3 = pX (2)pY (2).
Portanto as variáveis aleatórias X e Y são independentes.
Exemplo 1.32. [Devore, 2016](Continuação do Exemplo 1.21) Uma grande agência de seguros presta
serviços a diversos clientes que compraram uma apólice de seguros residencial e uma outra para
automóvel. Para cada uma, deve ser especificado um mı́nimo dedutı́vel. para a apólice de automóvel
as opções são R$ 100,00 e R$ 250,00, enquanto, para uma apólice residencial, as opções são 0, R$
100,00 e R$ 200,00. Suponha que um indivı́duo com os dois referidos tipos de apólice seja selecionado
aleatoriamente do banco de dados da seguradora. Seja X = valor dedutı́vel na apólice do automóvel
e Y = valor dedutı́vel na apólice residencial. A função massa de probabilidade conjunta de (X, Y ) é
apresentada a seguir:
1.5. VARIÁVEIS ALEATÓRIAS INDEPENDENTES 43
X \Y 0 100 200
100 0.2 0.1 0.2
250 0.05 0.15 0.3
A f.m.p. marginal de X é dada por
X 100 250
pX (x) 0.5 0.5
A f.m.p. marginal de Y é dada por
Y 0 100 250
pY (y) 0.25 0.25 0.5
Verifique se as variáveis aleatórias X e Y são independentes.

Solução: Temos que
p(100, 100) = 0.10 6= (0.5)(0.25) = 0.125 = pX (100)pY (100).

De forma que as variáveis aleatórias X e Y são dependentes. A independência de X e Y exige que
cada entrada na tabela da função massa de probabilidade conjunta seja o produto das probabilidades
marginais. Se apenas uma das entradas falhar as variáveis aleatórias são dependentes.
Exemplo 1.33. [Bussab e Morettin, 2017] Seja (X, Y ) um vetor aleatório com função densidade de
probabilidade conjunta dada por

4xy, se 0 6 x 6 1, 0 6 y 6 1;
f (x, y) =
Solução: Primeiramente devemos encontrar as funções densidade marginais. Logo
 
Z ∞ Z 1 1
2
y 
fX (x) = f (x, y)dy = 4xydy = 4x  = 2x, 0 6 x 6 1.
−∞ 0 2
0
 
1
∞ 1
x2
Z Z
fY (y) = f (x, y)dx = 4xydx = 4y   = 2y, 0 6 y 6 1.
−∞ 0 2
0
Portanto,
f (x, y) = fX (x)fY (y).

Ou seja, as variáveis aleatórias X e Y são independentes.
Exemplo 1.34. [Rohatgi, 1976] Seja (X, Y ) um vetor aleatório com função densidade de probabilidade
conjunta dada por
1+xy
f (x, y) = 4 , se − 1 < x < 1, −1 < y < 1;
Solução: Primeiramente devemos encontrar as funções densidade marginais. Logo

 
Z ∞ Z 1 1
1 + xy y xy 2
fX (x) = f (x, y)dy = dy =  +  = 1 , −1 < x < 1.
−∞ −1 4 4 8 2
−1
 
1
∞ 1
yx2
Z Z
1 + xy x  = 1 , −1 < y < 1.
fY (y) = f (x, y)dx = dx =  +
−∞ −1 4 4 8 2
−1
Portanto,
f (x, y) 6= fX (x)fY (y).

Ou seja, as variáveis aleatórias X e Y são independentes.
1.6 Funções de Variável Aleatória

Nesta seção, inicialmente iremos estudar as funções de uma variável aleatória, isto é, funções do tipo
X 2 , eX , etc, ou seja, funções g(X), para alguma função g : R → R.
Resultado: Sendo X uma variável aleatória em (Ω, F, P), a função g : R → R também será uma
variável aleatória no mesmo espaço de probabilidade.
Figura 1.17: Funções de Variáveis Aleatórias.

Fonte: Blitzstein e Hwang (2019).
Conhecendo a função de distribuição, função massa de probabilidade ou função densidade de

probabilidade de X, desejamos obter o comportamento de g(X). Em termos matemáticos, dizemos
que Y = g(X) é uma transformação de X.
Para obtermos o comportamento probabilı́stico de transformações uma técnica muito conveniente,
principalmente para o caso discreto, é chamado de método direto. Ele consiste em realizar operações
algébricas simples, aplicando a definição da transformação diretamente na expressão da função de
distribuição (ou função densidade ou de massa de probabilidade conforme o caso).
Variável Aleatória Discreta: Para X uma variável aleatória discreta, com função de massa de
probabilidade conhecida, como podemos encontrar a função massa de probabilidade da função Y =
1.6. FUNÇÕES DE VARIÁVEL ALEATÓRIA 45
g(X)? No caso de g(·) uma função bijetiva, a resposta é direta: a imagem de Y é o conjunto de todos
os g(x) com x ∈ ΩX , e
P(Y = y) = P(g(X) = g(x)) = P(X = x).

O caso onde Y = g(X) é uma bijeção está ilustrado nas tabelas a seguir.
Fonte: Blitzstein e Hwang (2019).
Resultado: Dada uma variável aleatória X com função de distribuição (ou função massa ou
densidade de probabilidades) conhecida, a distribuição de uma variável aleatória Y = g(X),
onde h é uma função Borel-mensurável é determinada por
P(Y 6 y) = P(X ∈ g −1 (−∞, y]).
Exemplo 1.35. Seja X uma variável aleatória com função massa de probabilidade dada por
x 0 1 2
pX (x) 1/3 1/3 1/3
Encontre a função massa de probabilidade da função Y = 3X + 1.
Solução: Temos que Ax = {0, 1, 2} e Ay = {1, 4, 7}. Então,
1
P(Y = 1) = P(X = 0) =
3
1
P(Y = 4) = P(X = 1) =
3
1
P(Y = 7) = P(X = 2) =
3
Ou seja,
y 1 4 7
pY (y) 1/3 1/3 1/3
Se g(·) não é uma bijeção, então para um dado y podem existir múltiplos valores de x tal que
g(x) = y. Para calcular P(G(X) = y), é necessário somar a probabilidade de X para todos os valores
de X tal que P(G(X) = y).
Teorema 1.1. Seja X uma variável aleatória discreta e g : R → R. Então a imagem de g(X) é
o conjunto de todos os y tal que g(x) = y para pelo menos um x na imagem de X, e a função
massa de probabilidade de Y = g(X) é dada por
X
P(Y = y) = P(g(X) = y) = P(X = x),
x:g(x)=y
para todo y pertencente a imagem de g(X).
Fonte: Meyer (2006).
x -2 -1 0 1 2
pX (x) 1/5 1/6 1/5 1/15 11/30
Encontre a função massa de probabilidade da função Y = X 2 .
Solução: Temos que Ax = {−2, −1, 0, 1, 2} e Ay = {0, 1, 4}. Então,

1
P(Y = 0) = P(X = 0) =
5
1 1 7
P(Y = 1) = P(X = −1) + P(X = 1) = + =
6 15 30
1 11 17
P(Y = 4) = P(X = −2) + P(X = 2) = + =
5 30 30
Ou seja,
y 0 1 4
pY (y) 1/5 7/30 17/30
n
1
fX (x) = P(X = x) = , para x ∈ {1, 2, 3, · · · }.
2
Encontre a função massa de probabilidade da função
Y = 1, se X for par,
Y = −1, se X for ı́mpar,

Solução: Temos que Y = 1 para A = {2, 4, 6, 8, · · · } e Y = −1 para A = {1, 3, 5, 7, · · · }. Então, pelo

Teorema 1.1, temos
n−1
1 1 1 X1 1
P(Y = 1) = 2 + 4 + 6 + · · · =
2 2 2 4 4
n>1
Ou seja, temos uma progressão geométrica. Logo
a1 1/4 1
P(Y = 1) = = = .
1−q 1 − (1/4) 3
Como ΩY = {−1, 1}, P(Y = −1) + P(Y = 1) = 1. Portanto,
1 2
P(Y = −1) = 1 − P(Y = 1) = 1 − = .
3 3
Exemplo 1.38. Seja X uma variável aleatória com distribuição Poisson, ou seja,
e−λ λx
pX (x) = P(X = x) = , x = 0, 1, 2, · · · , λ > 0,
x!
Considere a função Y = X 2 + 3. Encontra a função massa de probabilidade da variável aleatória

Y.
Solução: Temos que y = h(x) = x2 + 3, com Ax = {0, 1, 2, · · · } com Ay = {3, 4, 7, 12, 19, 28, · · · }.
√
A função inversa é dada por x = y − 3, e como não há valores negativos em A, tomamos a raiz
quadrada positiva de y − 3. Assim,
√
p e−λ λ y−3
P(Y = y) = P(X = y − 3) = √ , y ∈ Ay
y − 3!
e P(Y = y) = 0 caso contrário.
Variável Aleatória Contı́nua: Agora considere X uma variável aleatória contı́nua. Segue o seguinte
resultado.
Resultado: Seja X uma variável aleatória contı́nua com função densidade de probabilidade
fX (x). Seja y = g(x) uma função estritamente monótona (crescente ou decrescente) e dife-
renciável para todo x (portanto contı́nua). Então a variável aleatória Y = g(X) é também
contı́nua.
Se g é diferenciável para todo x e g(x) > 0 para todo x, então g(·) é contı́nua e estritamente
crescente e a função inversa x = g −1 (y) existe e é estritamente crescente e é diferenciável. Então
a função de distribuição de Y = g(X) é dada por
FY (y) = P(Y 6 y) = P(g(X) 6 y) = P(X 6 g −1 (y)) = FX (g −1 (y)).

A função densidade de probabilidade Y = g(X) é obtida diferenciando a função de distribuição,
ou seja,
d d d
fY (y) = FY (y) = FX (g −1 (y)) = fX (g −1 (y)) (g −1 (y)) (1.18)
dy dy dy
Da mesma forma, se a derivada de g for negativa, então g é estritamente decrescente e temos
FY (y) = P(Y 6 y) = P(g(X) 6 y) = P(X > g −1 (y)) = 1 − P(X 6 g −1 (y)) = 1 − FX (g −1 (y)).
Derivando temos
d d d
fY (y) = FY (y) = [1 − FX (g −1 (y))] = −fX (g −1 (y)) (g −1 (y)). (1.19)
dy dy dy
Como g e g −1 são ambas estritamente decrescentes, d −1
dy (g (y)) é negativa e o resultado dado
pela equação 1.18 segue.
Exemplo 1.39. [Meyer, 2006] Seja X uma variável aleatória com função densidade de probabilidade
dada por

2x, se 0 < x < 1;
fX (x) =
0, caso contrário;
Considere a função Y = 3X +1. Encontra a função densidade de probabilidade da variável aleatória
Y.
Solução: No caso de variáveis aleatórias contı́nuas começamos encontrando a função de distribuição

(acumulada) da variável aleatória X.

 0, se x < 0;
FX (x) = x2 , se 0 6 x < 1;
1, sex > 1;

y−1
Aplicando o resultado acima temos, onde g −1 (y) = temos 3 ,

−1 d −1 y−1 1 2
fY (y) = fX (g (y)) (g (y)) = 2 = (y − 1).
dy 3 3 9
Desde que fX (x) > 0 para 0 < x < 1, encontramos que fY (y) > 0 para 1 < y < 4. Portanto,
2

9 (y − 1), se 1 < y < 4;
fY (y) =
0, caso contrário;
Existe uma maneira ligeiramente diferente de obtermos o mesmo resultado. Considere a função de
distribuição das variáveis aleatórias. Então,
FY (y) = P(Y 6 y) = P(3X + 1 6 y)

y−1
= P X6
3

y−1
= FX
3
Z y−1
y−1 2

3
= 2xdx = .
0 3
Portanto,

 0,
 2
se y < 1;
FY (y) = y−1
3 se 1 6 y < 4;


1, sey > 4;
Exemplo 1.40. [Meyer, 2006] Seja X uma variável aleatória com função densidade de probabilidade
dada por
1
fX (x) = I[1,3] (x).
2
Considere a função Y = eX . Encontra a função acumulada e densidade de probabilidade da
variável aleatória Y .
Solução: Observe que Y é uma variável aleatória contı́nua e com valores no intervalo [e, e3 ]. Sendo
FY (·) dua função de distribuição, temos de imediato que FY (y) = 0, se y < e, e FY (y) = 1, se y > e3 .
Para e 6 Y < e3 ,
FY (y) = P(Y 6 y) = P(eX 6 y)

Z log(y)
1
= P(X 6 log(y)) = I (x)dx
−∞ 2 [1,3]
log(y) − 1
= ·
2
Dessa forma,

 0, se y < e;
log(y)−1
FY (y) = 2 se e 6 Y < e3 ;
sey > e3 ;

1,
Derivando a função de distribuição obtemos a função densidade de probabilidade,
1
fY (y) = I 3 (y).
2y [e,e ]
Para o caso de um vetor aleatório (X1 , X2 ), segue o resultado.
Resultado: Sejam X1 e X2 duas variáveis aleatórias discretas com função massa de probabilidade
conjunta p(x1 , x2 ) e defina Y = h(X1 , X2 ). A variável aleatória Y também é discreta com valores
no contra-domı́nio da função h. Sua função de probabilidade é dada por
X
pY (y) = P(Y = y) = P(h(X1 , X2 ) = y) = p(x1 , x2 ),
(x1 ,x2 )∈Ay
onde Ay = {(x1 , x2 ) : h(x1 , x2 ) = y}. ou seja, para cada y fixo, a soma se dá em todos os pares
(x1 , x2 ) cuja aplicação da função h resulta no valor y. A função de distribuição de Y pode ser
obtida de forma análoga.
Exemplo 1.41. [Magalhães e Lima, 2004] Em uma cidade de São Paulo, admite-se que o número de
anos apara completar o ensino fundamental (variável F) e o número de anos para completar o ensino
médio (variável M) têm função massa de probabilidade conjunta:
(F, M ) p(f, m)
(8., 3) 0.30
(8, 4) 0.10
(8, 5) 0.10
(9, 3) 0.20
(9, 4) 0.05
(9, 5) 0.10
(10, 4) 0.10
(10, 5) 0.05
Total 1.00
Suponha que exista o interesse em estudar as variáveis F + M e X × M .

Solução: Acrescentando, a tabela anterior, colunas correspondentes aos valores dessas novas variáveis
temos
(F, M ) p(f, m) F +M F ×M
(8., 3) 0.30 11 24
(8, 4) 0.10 12 32
(8, 5) 0.10 13 40
(9, 3) 0.20 12 27
(9, 4) 0.05 13 36
(9, 5) 0.10 14 45
(10, 4) 0.10 14 40
(10, 5) 0.05 15 50
Para obtermos a função massa de probabilidade de F + M , somamos as probabilidades nos valores

comuns. Por exemplo,
P(F + M = 13) = P(F = 8, M = 5) + P(F = 9, M = 4) = 0.1 + 0.05 = 0.15

Assim, obtemos as funções massa de probabilidade de F + M e F × M :
F +M 11 12 13 14 15
Prob 0.3 0.3 0.15 0.2 0.05
F ×M 24 27 32 36 40 45 50
Prob 0.3 0.2 0.1 0.05 0.2 0.1 0.05
Exemplo 1.42. [Bussab e Morettin, 2017] Considere a função massa de probabilidade conjunta dada a
seguir.
HH Y
H
0 1 2 3 pY (y)
X HHH
1 2 1 1
0 8 8 8 0 2
1 2 1 1
1 0 8 8 8 2
1 3 3 1
pX (x) 8 8 8 8 1
Encontre a função massa de probabilidade das funções de variáveis aleatórias X + Y e XY .

Solução: Inicialmente motamos a tabela a seguir.
(x, y) X +Y XY p(x, y)
1
(0,0) 0 0 8
(0,1) 1 0 0
2
(1,0) 1 0 8
1
(1,1) 2 1 8
1
(2,0) 2 0 8
2
(2,1) 3 2 8
(3,0) 3 0 0
1
(3,1) 4 3 8
A partir desta tabela, obtemos a distribuição de X + Y e XY , ilustradas nas tabelas a seguir.
x+y 0 1 2 3 4
1 2 2 2 1
p(x + y) 8 8 8 8 8
xy 0 1 2 3
4 1 2 1
p(xy) 8 8 8 8
Capı́tulo 2
Caracterı́sticas de Variáveis e Vetores Aleatórios
2.1 Propriedades: Variáveis Aleatórias Discretas

2.1.1. Esperança Matemática
Se repetirmos um experimento aleatório muitas vezes, o que acontece em média? Para responder essa
pergunta não é necessário realizar um experimento, basta conhecer a distribuição de probabilidade da
variável aleatória e calcular a sua esperança matemática.
Esperança
Se X é uma variável aleatória discreta com função massa de probabilidade pX (x), então
X X
E(X) = xpX (x) = xP(X = x). (2.1)
x∈ΩX x∈ΩX
onde o somatório se estende por todos os valores possı́veis de X.
Em geral, a média é vista como um valor representativo de X, estando localizada em algum ponto
no centro do domı́nio de valores de X. Uma interpretação mais precisa deste pensamento é a seguinte:
a esperança de X é o centro de gravidade da distribuição de probabilidades, no seguinte sentido
(ver Figura 2.1). Pensando as colunas do gráfico, que representam as probabilidades, como pesos
distribuı́dos ao longo de uma vara delgada, a média representa o ponto onde a vara se equilibraria.
Figura 2.1: Interpretação da esperança Matemática como centro de gravidade da distribuição.

54 CAPÍTULO 2. CARACTERÍSTICAS DE VARIÁVEIS E VETORES ALEATÓRIOS
Exemplo 2.1. Em determinado setor de uma loja de departamentos, o número de produtos vendidos
em um dia pelos funcionários é uma variável aleatória X com a seguinte distribuição de probabilidades
(esses números foram obtidos dos resultados de vários anos de estudo) - pX (x) probabilidade da venda:
x 0 1 2 3 4 5 6
pX (x) 0.1 0.4 0.2 0.1 0.1 0.05 0.05
Cada vendedor recebe comissões de venda, distribuı́das da seguinte forma: se ele vende até 2
produtos em um dia, ele ganha uma comissão de R$10,00 por produto vendido. A partir da terceira
venda, a comissão passa para R$50,00. Qual é o número médio de produtos vendidos por cada vendedor
e qual a comissão média de cada um deles?
Solução:
O número médio de vendas por funcionário é:
E(X) = 0 × 0.1 + 1 × 0.4 + 2 × 0.2 + 3 × 0.1 + 4 × 0.1 + 5 × 0.05 + 6 × 0.05 = 2.05.

Com relação à comissão, vamos construir sua fmp:
x 0 1 2 3 4 5 6
C 0 10 20 70 120 170 220
pX (x) 0.1 0.4 0.2 0.1 0.1 0.05 0.05
E(C) = 0 × 0.1 + 10 × 0.4 + 20 × 0.2 + 70 × 0.1 + 120 × 0.1 + 170 × 0.05 + 220 × 0.05 = 46.5.
ou seja, a comissão média por dia de cada vendedor é R$46,50.
Exemplo 2.2. Determine E(X), sendo a função de distribuição da variável aleatória X dada por


 0, se x < −2;
 1/2, se − 2 6 x < 0;


FX (x) = 5/8, se 0 6 x < 1;
7/8, se 1 6 x < 2;




1, se x > 2.

Solução:
Propriedades: Seja X uma variável aleatória discreta e a e b constantes reais diferentes de zero.
i) E(a) = a;
ii) E(aX) = aE(X);
iii) E(aX + b) = aE(X) + b.

2.1. PROPRIEDADES: VARIÁVEIS ALEATÓRIAS DISCRETAS 55
2.1.2. Variância
A esperança de uma variável aleatória X é uma medida de posição. No entanto, é possı́vel que duas
variáveis bem diferentes tenham a mesma esperança, como é o caso das duas distribuições apresentadas
na Figura 2.2.
Figura 2.2: Distribuições com mesma esperança e diferentes dispersões.
Como já visto no caso da Estatı́stica Descritiva, é necessário mensurar outros aspectos da distri-
buição, entre eles a dispersão dos dados. Esta será medida através da distância quadrática de cada
valor à média da distribuição.
Variância pode ser interpretada como uma medida de variabilidade em torno da média da variável
aleatória e é definida como
Variância
Var(X) = E[X − E(X)]2 . (2.2)
É comum denotar Var(X) por σ 2 .

Propriedades: Sejam a e b constantes.
i) Var(a) = 0;
ii) Var(aX) = a2 Var(X)
iii)
Var(X) = E[X − E(X)]2 = E[(X − EX)(X − EX)] = E[X 2 − 2XEX + (EX)2 ]

= EX 2 − (EX)2 .
2.1.3. Desvio padrão
Definição 2.1. O desvio padrão é definido como a raiz da variância, e em geral denotado pela
letra σ,
p
σ= Var(X). (2.3)
Exemplo 2.3. Um lojista mantém extensos registros das vendas diárias de um certo aparelho. O quadro
a seguir dá a distribuição de probabilidades do número de aparelhos vendidos em uma semana. Se é
de R$500,00 o lucro por unidade vendida, qual o lucro esperado em uma semana? Qual é o desvio
padrão do lucro?
x 0 1 2 3 4 5
pX (x) 0.1 0.1 0.2 0.3 0.2 0.1
Solução:
Seja X = número de aparelhos vendidos em uma semana e seja L o lucro semanal. Então, L =
500X.
E(X) = 2.7 aparelhos E(X 2 ) = 10.2 aparelhos2
√
Var(X) = 10.2 − (2.7)2 = 2.91 aparelhos2 DP(X) = 2.91 = 1.706 aparelhos
Com relação ao lucro semanal, temos que
√
E(L) = 500E(X) = R$1350.00 Var(L) = (500)2 Var(X) = 727500 DP(X) = 727500 = R$852.936
Exemplo 2.4. (2011-09) A variável aleatória discreta X assume apenas os valores 0, 1, 2, 3, 4 e 5. A

função densidade de probabilidade de X é dada por
P (X = 0) = P (X = 1) = P (X = 2) = P (X = 3) = a
P (X = 4) = P (X = 5) = b
P (X = 2) = 3P (X = 4).
Temos que E[.] e Var[.] denotam, respectivamente, esperança e variância. Verifique as seguintes
afirmativas.
(i) Para que a função densidade de probabilidade seja válida, a = 1/4 e b = 1/8.
(ii) E[X] = 3.
(iii) Var[X] = 12.
(iv) Defina Z = 3 + 4X. Então o valor esperado de Z é igual a 12.

2.2. PROPRIEDADES: VARIÁVEIS ALEATÓRIAS CONTÍNUAS 57
2.2 Propriedades: Variáveis Aleatórias Contı́nuas

2.2.1. Esperança Matemática
Para uma variável aleatória discreta X, E(X) foi obtido como a soma de x · pX (x) sobre todos os
valores de X com probabilidade positiva. Para variáveis aleatórias contı́nuas, substituı́mos a soma
pela integração e a f.m.p. pela f.d.p..
Definição 2.2. O valor médio ou valor esperado ou esperança matemática de uma v.a. X com
f.d.p. fX (x) é dada por
Z ∞
E(X) = xfX (x)dx. (2.4)
−∞
Exemplo 2.5. [Ross, 2010] Determine E(X), dada que a função densidade de probabilidade de X é
fX (x) = 2xI[0,1] (x) (2.5)
Solução:
Z ∞ Z 1 Z 1
3
E(X) = xfX (x)dx = x · 2xdx = 2x2 dx = .
−∞ 0 0 2
Proposição 1. Seja X uma v.a. contı́nua com função densidade de probabilidade fX (x), então
para qualquer função real g(·),
Z ∞
E(g(X)) = g(x)fX (x)dx. (2.6)
−∞
Exemplo 2.6 (Ross, 2010). Seja X uma v.a.a contı́nua com função densidade de probabilidade dada
por
fX (x) = I[0,1] (x) (2.7)

Calcule E eX .

Solução:
1
Z ∞ Z 1
X x x

E e = g(x)fX (x)dx = e dx = e = e − 1.
−∞ 0
0
Exemplo 2.7. [Magalhães, 2004] Seja X uma v.a.a contı́nua com função de distribuição dada por

 0, se x < 0;
2

 x
4 , se 0 6 x < 1;



(2x−1)
FX (x) = 4 , se 1 6 x < 2; (2.8)
−(x2 −6x+5)

, se 2 6 x < 3;



 4
1, se x > 3.

Calcule E (X) e E X 2 .

Solução: Primeiramente precisamos encontrar a função densidade de probabilidade. Para isso preci-
samos derivar FX (x) em relação a x. Assim,
 x
 2, se 0 6 x < 1;
1
fX (x) = 2, se 1 6 x < 2; (2.9)
 −(x−3)
2 , se 2 6 x < 3.
Analogamente,
x 1 (x − 3)
fX (x) = I (x) + I[1,2) (x) − I[2,3] (x).
2 [0,1) 2 2
Logo,
∞ 1 2 3
(x − 3)
Z Z Z Z
x 1 3
E (X) = xfX (x)dx = x dx + x dx − x dx = .
−∞ 0 2 1 2 2 2 2
Da mesma forma, pela Proposição 1, temos que
∞ 1 2 3
(x − 3)
Z Z Z Z
2 2 2x 21 8
x2

E X = x fX (x)dx = x dx + x dx − dx = .
−∞ 0 2 1 2 2 2 3
Proposição 2 (Magalhães, 2004). Sejam X e Y variáveis aleatórias cujo valor esperado existe.
Então:
(i) Se c é uma constante tal que P(X = c) = 1, então E(X) = c;
(ii) E(aX + b) = aE(X) + b;
(iii) E(X + Y ) = E(X) + E(Y ).
2.2.2. Variância
A variância de uma variável aleatória contı́nua é definida da mesma forma à de uma variável aleatória
discreta.
Definição 2.3. A variância de uma v.a. contı́nua X com f.d.p. fX (x) é dada por
Z ∞
Var(X) = (x − µ)2 fX (x)dx = E(X − µ)2 = E(X − E(X))2 , (2.10)
−∞
µ = E(X).
Alternativamente,
Var(X) = E(X 2 ) − [E(X)]2
Definição 2.4. O desvio padrão de uma v.a. contı́nua X com f.d.p. fX (x) é dada por
p
D.P.(X) = Var(X) (2.11)
Exemplo 2.8. (Continuação Exemplo ??) Calcule Var(X) e D.P.(X).
Solução: Pela Definição 2.3 temos que

2
8 3 5
Var(X) = − = .
3 2 12
e
r
5
D.P.(X) = = 0.6455.
12
Exemplo 2.9. (Continuação Exemplo 1.21) Calcule Var(X).
Solução: Pela Definição 2.3 temos que calcular E(X 2 ). Logo, pela Proposição 1, temos que
Z ∞ Z 1
1
E X2 = x2 fX (x)dx = 2x3 dx = .

−∞ 0 2
Como, E(X) = 23 , temos que

2
1 2 1
Var(X) = − = .
2 3 18
Proposição 3 (Magalhães, 2004). Sejam X variável aleatória cujo valor esperado existe. Então:
(i) Se c é uma constante tal que P(X = c) = 1, então Var(X) = 0;
(ii) Se a e b são constantes quaisquer, então Var(aX + b) = a2 Var(X).
2.2.3. Covariância
Covariância é uma medida de dependência entre duas variáveis aleatórias e é definida como
Definição 2.5. Sejam X e Y duas variáveis aleatórias. Suponha que E(X), E(Y ), Var(X) e
Var(Y ) existam e são finitas. Então a Covariância entre X e Y é definida por
Cov(X, Y ) = E[(X − EX)(Y − EY )]. (2.12)

e é também finita.
Uma expressão alternativa para a Covariância entre X e Y é dada por
Cov(X, Y ) = E[XY ] − E(X)E(Y ). (2.13)
Observação 2.1. Esta definição é válida para variáveis aleatórias discretas e contı́nuas. A covariância
pode ser positiva, negativa ou nula.
Proposição 4. Sejam a, b, c e d constantes reais e não nulas. Então:
(i) Cov(X, X) = E[(X − EX)(X − EX)] = E[X − E(X)]2 = Var(X);
(ii) Cov(aX, bY ) = abCov(X, Y );
(iii) Cov(X, a) = 0 = Cov(Y, a);
(iv) Var(X ± Y ) = Var(X) + Var(Y ) ± 2Cov(X, Y );
(v) Se X e Y são independentes, então Cov(X, Y ) = 0, pois E(XY ) = E(X)E(Y );
(vi) Se X e Y são independentes, então Var(X ± Y ) = Var(X) + Var(Y );
(vii) Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z).
Observação 2.2. Cuidado: Se Cov(X, Y ) = 0, não significa que X e Y são independentes.
Exemplo 2.10. [Peternelli, 2004] Sabendo-se que Y = 3X − 5 e que E(X) = 2 e Var(X) = 1, calcule:
(i) E(Y );
(ii) Var(Y );
(iii) E(X + 3Y );
(iv) E(X 2 + Y 2 );
(v) Var(3X + 2Y ).
Solução:
(i) E(Y ) = E(35 − 5) = 3E(X) − 5 = 1;
(ii) Var(Y ) = Var(3X − 5) = 9Var(X) = 9;
(iii) E(X + 3Y ) = E(X) + 3E(Y ) = 5;
(iv) E(X 2 + Y 2 ) = E(X 2 ) + E(Y 2 ). Mas, E(X 2 ) = Var(X) + [E(X)]2 = 1 + 22 = 5 e E(Y 2 ) =

Var(Y ) + [E(Y )]2 = 9 + 12 = 10.
Portanto,
E(X 2 + Y 2 ) = E(X 2 ) + E(Y 2 ) = 5 + 10 = 15.
(v) Var(3X + 2Y ) = Var(3X + 6X − 10) = Var(9X − 10) = 81Var(X) = 81 × 1 = 81.
Exemplo 2.11. [Devore, 2016] (Continuação do Exemplo 1.21). Seja X = valor dedutı́vel na apólice
do automóvel e Y = valor dedutı́vel na apólice residencial. A função massa de probabilidade conjunta
de (X, Y ) é apresentada a seguir:
X \Y 0 100 200
100 0.2 0.1 0.2
250 0.05 0.15 0.3
Calcule a Covariância entre X e Y .

Solução: Primeiramente vamos encontrar a f.m.p marginais de X e Y .
A f.m.p. marginal de X é dada por
X 100 250
pX (x) 0.5 0.5
A f.m.p. marginal de Y é dada por
Y 0 100 250
pY (y) 0.25 0.25 0.5
A f.m.p. de XY é calculada a seguir.
X Y X ·Y P(X = x, Y = y)
100 0 0 0.2
100 100 10000 0.1
100 200 20000 0.2
250 0 0 0.05
250 100 25000 0.15
250 200 50000 0.3
X ·Y 0 10000 20000 25000 50000

P(XY = xy) 0.25 0.1 0.2 0.15 0.3
Então,
E(X) = 100 × 0.5 + 250 × 0.5 = 175 E(Y ) = 0 × 0.25 + 100 × 0.25 + 200 × 0.5 = 125
E(XY ) = 0 × 0.25 + 10000 × 0.1 + 20000 × 0.2 + 25000 × 0.15 + 50000 × 0.3 = 23750
Portanto,
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 23750 − (175 × 150) = 23750 − 21875 = 1875
Exemplo 2.12. [Bussab e Morettin, 2017] Sejam X e Y variáveis aleatórias contı́nuas com função
densidade de probabilidade conjunta de (X, Y ) apresentada a seguir:

x + y, se 0 < x < 1, 0 < y < 1;
f (x, y) =
Calcule a Covariância entre X e Y .
Solução: Primeiramente devemos encontrar as funções densidade marginais de X e Y . Logo
 
Z ∞ Z 1 1
2
y  1
fX (x) = f (x, y)dy = (x + y)dy = xy + = x + , 0 < x < 1.
−∞ 0 2 2
0
 
1
Z ∞ Z 1 2
yx 1
fY (y) = f (x, y)dx = (x + y)dx =  + xy  = y + , 0 < y < 1.
−∞ 0 2 2
0
Agora calculamos,
 
1
1 1
x3 x2
Z Z
1 x = 1+1 = 7
E(X) = x x+ dx = x2 + dx =  +
0 2 0 2 3 4 3 4 12
0
 
1
Z 1 Z 1 3 2
1 y y y = 1+1 = 7
E(Y ) = y y+ dy = y2 + dy =  +
0 2 0 2 3 4 3 4 12
0
 
1
1 1
x2 x4 x3
Z Z
1  = 1 + 1 = 10 = 5
E(X 2 ) = x2 x + dx = x3 + dx =  +
0 2 0 2 4 6 4 6 24 12
0
 
1
Z 1 Z 1 2
4 3
1 y y y  = 1 + 1 = 10 = 5
E(Y 2 ) = y2 y + dy = y3 + dy =  +
0 2 0 2 4 6 4 6 24 12
0
2
5 2 2 7 5 49 11
Var(X) = E(X ) − [E(X)] = − = − =
12 12 12 144 144
2
5
2 2 7 5 49 11
Var(Y ) = E(Y ) − [E(Y )] = − = − =
12 12 12 144 144
Para calcular Cov(X, Y ) precisamos primeiramente calcular E(XY ).
Z 1Z 1 Z 1Z 1
x2 y + xy 2 dxdy

E(XY ) = xy (x + y) dxdy =
0 0 0 0
1
1 3 1
x2 y 2 y y2
Z Z
x y
= + dy = + dy
0 3 2 0 3 2
0
1
y2 y 3

1 1 2 1
= + = + = = .
6 6 6 6 6 3
0
Portanto,
1 7 7 1
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = − =−
3 12 12 144
2.2.4. Correlação
Assim, como a covariância, a correlação também é uma medida de dependência entre variáveis alea-
tórias, mas com a propriedade de ser padronizada, ou seja, uma medida que varia entre -1 e 1. Logo,
correlação próxima a 1 ou -1 indica um alto grau de dependência, enquanto correlação próximo de
zero indica pouca dependência. A correlação entre duas variáveis aleatórias é definida como
Definição 2.6. Sejam X e Y duas variáveis aleatórias. Suponha que E(X), E(Y ), Var(X) e
Var(Y ) existam e são finitas. Então a Coeficiente de Correlação entre X e Y , denotado por
ρ(X, Y ), é definido por
Cov(X, Y )
ρ(X, Y ) = p . (2.14)
Var(X)Var(Y )
Observação 2.3. Relação entre dependência e correlação:
(i) Se duas variáveis aleatórias são independentes, então a correlação entre elas é zero.
(ii) Se a correlação entre duas variáveis é zero, não necessariamente elas são independentes.
Proposição 5. Sejam X e Y duas variáveis aleatórias. Então:
(i) O Coeficiente de Correlação é adimensional;
(ii) −1 6 ρ(X, Y ) 6 1;
(iii) Se X e Y são independentes, então ρ(X, Y ) = 0, pois Cov(X, Y ) = 0;
(iv) Se X e Y são duas variáveis aleatórias tais que Y = aX + b, onde a, b são contantes
reais,com a 6= 0, então:
(a) ρ(X, Y ) = 1, se e somente se a > 0;

(b) ρ(X, Y ) = −1, se e somente se a < 0;
Observação 2.4. Coeficiente de Correlação Linear:
(i) O resultado acima mostra que o coeficiente de correlação é uma medida do grau de linearidade
da relação entre as variáveis aleatórias X e Y . Quanto mais próximo ρ(X, Y ) estiver de 1 ou de
-1, maior é o grau de linearidade.
(ii) ρ(X, Y ) > 0 indica que há uma tendência a que X e Y cresçam conjuntamente; ρ(X, Y ) < 0
indica que há uma tendência de Y decrescer á medida que X aumenta;
(iii) É importante ressaltar que um valor de ρ(X, Y ) próximo de zero não significa necessariamente a
ausência de uma relação entre X e Y . Este fato indica que a relação, se existir, não é linear.
Exemplo 2.13. [Devore, 2016] (Continuação do Exemplo 2.11 ) Calcule a Correlação entre X e Y .
Solução: Temos que E(X) = 175, E(Y ) = 125 e Cov(X, Y ) = 1875. Precisamos calcular a variância
de cada uma das variáveis aleatórias. Lembrando que a f.m.p. marginal de X é dada por
X 100 250
pX (x) 0.5 0.5
a f.m.p. marginal de Y é dada por
Y 0 100 250
pY (y) 0.25 0.25 0.5
Temos que calcular E(X 2 ) e E(Y 2 ). Logo,
E(X 2 ) = 1002 × 0.5 + 2502 × 0.5 = 36250 E(Y 2 ) = 02 × 0.25 + 1002 × 0.25 + 2002 × 0.5 = 22500
Var(X) = E(X 2 ) − [E(X)]2 = 36250 − (175)2 = 5625
Var(Y ) = E(Y 2 ) − [E(Y )]2 = 22500 − (125)2 = 6875

Então,
Cov(X, Y ) 1875 1875

ρ(X, Y ) = p =√ √ = = 0.301
Var(X)Var(Y ) 5625 6875 (75)(82, 92)
Exemplo 2.14. [Bussab e Morettin, 2017] (Continuação do Exemplo 2.12 ) Calcule a Correlação entre
X e Y.
Solução: Temos que
7 11
E(X) = E(Y ) = E(X 2 ) = E(Y 2 ) =
12 144
11
Var(X) = Var(Y ) =
144
1 7 7 1
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = − =−
3 12 12 144
Portanto,
1 1
Cov(X, Y ) − 144 − 144 1
ρ(X, Y ) = p = q q = 11 =− ·
Var(X)Var(Y ) 11 11 144
11
144 144
2.3 Esperança Condicional

Segundo (USP, 2016) a covariância e a correlação medem a relação linear entre duas variáveis aleatórias
e as tratam simetricamente. Muitas vezes, em ciências sociais, gostarı́amos de explicar uma variável,
chamada Y, em termos de outra variável, digamos X. Além disso, se Y for relacionada com X de uma
maneira não linear, gostarı́amos de ser informados sobre isso. Chamemos Y de variável explicada e X
de variável explicativa. Por exemplo, Y poderia ser o salário por hora e X poderia ser o número de
anos de educação formal.
Já definimos a função de densidade de probabilidade condicional de Y , dado X. Assim, pode-
rı́amos querer ver como a distribuição dos salários é alterada pelo nı́vel de educação. Porém, em
geral, queremos ter uma maneira simples de resumir essa distribuição. Um único número não será
suficiente, visto que a distribuição de Y , dado X = x, geralmente depende do valor de x. No entanto,
podemos resumir a relação entre Y e X verificando a esperança condicional de Y , dado X, algumas
vezes chamada média condicional. A ideia é a seguinte: suponha que saibamos que X assumiu um
valor particular, digamos x. Então, poderemos calcular o valor esperado de Y em decorrência de
conhecermos esse resultado de X. Representamos esse valor esperado por E(Y |X = x), ou algumas
vezes E(Y |x) como forma abreviada. De forma geral, quando x muda, E(Y |x) também muda.
Quando Y for uma variável aleatória discreta assumindo valores {y1 , · · · , yn }, então,
2.3. ESPERANÇA CONDICIONAL 65
m
X m
X
E(Y |x) = yj fY |X (yj |x) = yj P(Y = yj |X = x)
j=1 j=1
Quando Y for contı́nua, E(Y |x) será definida pela integração de yfY |X (y|x) sobre todos os valores
possı́veis de y, ou seja,
Z ∞
E(Y |x) = yfY |X (y|x)dy
−∞
Assim como no caso da esperança incondicional, a esperança condicional é uma média ponderada
de possı́veis valores de Y , mas agora os pesos refletem o fato de que X assumiu um valor especı́fico.
Assim, E(Y |x) é apenas alguma função de x, que nos diz como o valor esperado de Y varia com x.
Como um exemplo, seja (X, Y ) a população de todas as pessoas que trabalham, na qual X é anos
de educação, e Y é o salário por hora. Então, E(Y |X = 12) será o salário médio por hora de todas as
pessoas da população com 12 anos de educação (em termos gerais, correspondente à educação de ensino
médio). E(Y |X = 16) será o salário médio por hora de todas as pessoas com 16 anos de educação.
O gráfico de valores esperados com vários nı́veis de educação fornece informações importantes sobre
como os salários e a educação estão relacionados. Veja a Figura 2.3, para uma ilustração.
Figura 2.3: O valor esperado do salário por hora considerando vários nı́veis de educação.
Em princı́pio, o valor esperado do salário por hora pode ser encontrado a cada nı́vel de educação,
e essas esperanças podem ser resumidas em uma tabela. Como a educação pode variar amplamente -
e pode até mesmo ser medida em frações de um ano ?, essa é uma maneira excessivamente trabalhosa
de se mostrar a relação entre o salário médio e o grau de educação. Em econometria, geralmente
especificamos funções simples que capturam essa relação. Como um exemplo, suponha que o valor
esperado de SALÁRIO, dado EDUC, seja a função linear
E(SALÁRIO|EDU C) = 1.05 + 0.45EDU C

.
Se essa relação for válida na população das pessoas que trabalham, o salário médio das pessoas
com 8 anos de educação será 1.05 + 0.45(8) = 4.65, ou 4.65 dólares. O salário médio das pessoas com
16 anos de educação será 8.25 dólares. O coeficiente de EDUC implica que cada ano de educação
aumenta o salário por hora esperado em 0.45, ou 45 centavos de dólar.
As esperanças condicionais também podem ser funções não-lineares. Por exemplo, suponha que
E(Y |x) = 10/x, onde X é uma variável aleatória que sempre será maior que zero. Essa função está
traçada na Figura 2.4. Isso poderia representar uma função de demanda, na qual Y seria a quantidade
demandada e X seria o preço. Se Y e X forem relacionadas nesta forma, uma análise de associação
linear, tal como uma análise de correlação, seria incompleta.
Figura 2.4: Gráfico de E(Y |x) = 10/x.
Várias propriedades básicas das esperanças condicionais são úteis para derivações em análise eco-
nométrica.
(i) E[g(X)|X] = g(X), para qualquer função g(X).

Essa primeira propriedade significa que funções de X comportam-se como constantes quando
calculamos a esperança condicional de X. Por exemplo, E(X 2 )|X) = X 2 . Intuitivamente, isso
simplesmente significa que, se conhecermos X, também conheceremos X 2 .
(ii) Para as funções a(X) e b(X),
E[a(X)Y + b(X)|X] = a(X)E(Y |X) + b(X).
Por exemplo, podemos calcular com facilidade a esperança condicional de uma função tal como
XY + 2X 2 : E(XY + 2X 2 |X) = XE(Y |X) + 2X 2 .
A próxima propriedade interliga as noções de independência e esperanças condicionais.
(iii) Se X e Y forem independentes, então, E(Y |X) = E(Y ).
Essa propriedade significa que, se X e Y forem independentes, então, o valor esperado de Y , dado
X, não dependerá de X, caso em que E(Y |X) sempre será igual ao valor esperado (incondicional)
de Y . No exemplo do salário e educação, se salário fosse independente de educação, então, os
salários médios das pessoas com educação de ensino médio e com cursos superiores seriam os
mesmos. Como quase certamente esse resultado seria falso, não podemos assumir que salário e
educação sejam independentes.
Um caso especial da propriedade é o seguinte: se U e X forem independentes e E(U ) = 0, então,
E(U |X) = 0.
Também existem propriedades da esperança condicional que têm a ver com o fato de E(Y |X)
ser uma função de X, digamos E(Y |X) = h(X). Como X é uma variável aleatória, h(X)
2.4. VARIÂNCIA CONDICIONAL 67
também será uma variável aleatória. Além disso, h(X) tem uma distribuição de probabilidade e,
portanto, um valor esperado. De forma geral, o valor esperado de h(X) pode ser muito difı́cil de
ser calculado de forma direta. A lei das expectativas iteradas diz que o valor esperado de h(X)
é simplesmente igual ao valor esperado de Y . Escrevemos isso da seguinte maneira.
(iv) E(X) = E[E(X|Y )] , conhecida como Lei das Expectativas Totais (ou Lei Simples das Expecta-
tivas Iteradas).
Essa propriedade é de difı́cil compreensão à primeira vista. Ela significa que, se primeiro ob-
tivermos E(Y |X) como uma função de X e considerarmos seu valor esperado (em relação à
distribuição de X, é claro), então, acabaremos obtendo E(Y ). Isso não é tão óbvio, mas pode ser
derivado utilizando a definição dos valores esperados.
Suponha que Y =SALÁRIO e X =EDUC, onde SALÁRIO está medido em horas e EDUC em
anos. Suponha que o valor esperado de SALÁRIO, dado EDUC, seja E(SALÁRIO|EDU C) =
4 + 0.60EDU C. Além disso, E(EDU C) = 11.5. Então, a lei das expectativas iteradas sugere
que E(SALÁRIO) = E(4 + 0.60EDU C) = 4 + 0.60E(EDU C) = 4 + 0.60(11.5) = 10.90, ou 10.90
dólares por hora.
(v) Se E(Y |X) = E(Y ), então, Cov(X, Y ) = 0 [como também ρ(X, Y ) = 0]. De fato, qualquer função
de X é não-correlacionada com Y .
Essa propriedade significa que, se o conhecimento de X não altera o valor esperado de Y , então,
X e Y devem ser não-correlacionadas, o que implica que, se X e Y forem correlacionadas, então,
E(Y |X) deve depender de X.
A inversa desta propriedade não é verdadeira: se X e Y forem não-correlacionadas, E(Y |X)
poderá ainda depender de X. Por exemplo, suponha que Y = X 2 . Então, E(Y |X) = X 2 , que
claramente é uma função de X. Porém, como mencionado em nossa discussão sobre covariância
e correlação, é possı́vel que X e X 2 sejam não-correlacionadas. A esperança condicional captura
a relação não linear entre X e Y que uma análise de correlação deixaria passar despercebida.
2.4 Variância Condicional

Dadas as variáveis aleatórias X e Y , a variância de Y , condicional em X = x, será simplesmente a
variância associada à distribuição condicional de Y , dado X = x: E{[Y − E(Y |x)]2 |x}. A fórmula
Var(Y |X = x) = E(Y 2 |x) − [E(Y |x)]2
é frequentemente útil para os cálculos. Somente ocasionalmente teremos que calcular uma variância
condicional. Entretanto, teremos que fazer hipóteses a respeito e manipular as variâncias condicionais
para certos tópicos na análise de regressão.
Como um exemplo, defina 4Y=4POUPANÇA e X =RENDA (ambas medidas em termos anu-
ais, para a população de todas as famı́lias). Suponha que Var(P OU P AN ÇA|REN DA) = 400 +
0.25REN DA. Isso diz que, conforme aumente a renda, a variância dos nı́veis de poupança tam-
bém aumenta. É importante verificar que a relação entre as variâncias de POUPANÇA e RENDA é
totalmente separada da relação entre os valores esperados de POUPANÇA e RENDA.
Estabelecemos, portanto, uma propriedade importante da variância condicional.
Proposição 6. Se X e Y forem independentes, então, Var(Y |X) = Var(Y ).

Essa propriedade é bastante clara, pois a distribuição de Y , dado X, não depende de X, e
Var(Y |X) é apenas uma caracterı́stica dessa distribuição.
Exemplo 2.15. (Voltando ao Exemplo 1.20) Suponha que estamos interessados em estudar a compo-
sição de famı́lias com três crianças, quanto ao sexo. Definimos:
X= número de meninos;

1, se o primeiro filho for homem;
Y = .
0, se o primeiro filho for mulher;
Tabela 2.1: Distribuições de probabilidade unidimensionais.
x 0 1 2 3 y 0 1
1 3 3 1 1 1
pX (x) 8 8 8 8 pY (y) 2 2
Y \X 0 1 2 3 pY (y)
1 2 1 1
0 8 8 8 0 2
1 2 1 1
1 0 8 8 8 2
1 3 3 1
pX (x) 8 8 8 8 1
A partir da distribuição conjunta de (X, Y ) pode-se obter a distribuição condicional de X, ou

seja, a probabilidade condicional de cada valor de X, condicionada a um determinado valor de Y .
Aplicando a definição de probabilidade condicional, temos que:
P(X = 0, Y = 0) 1/8 1
P(X = 0|Y = 0) = = =
P(Y = 0) 1/2 4
P(X = 1, Y = 0) 2/8 1
P(X = 1|Y = 0) = = =
P(Y = 0) 1/2 2
P(X = 2, Y = 0) 1/8 1
P(X = 2|Y = 0) = = =
P(Y = 0) 1/2 4
P(X = 3, Y = 0) 0
P(X = 3|Y = 0) = = =0
P(Y = 0) 1/2
Assim, P(X = x|Y = 0), distribuição condicional de X dado que Y = 0 é, é dada por
x 0 1 2 3
1 1 1
pX|Y (x|0) 4 2 4 0
Sendo uma distribuição de probabilidades, podemos calcular sua esperança e sua variância:
X 1 1 1
E(X|Y = 0) = xP(X = x|Y = 0) = 0 × +1× +2× +3×0=1
x
4 2 4
X 1 1 1 3
E(X 2 |Y = 0) = x2 P(X = x|Y = 0) = 02 × + 12 × + 22 × + 32 × 0 =
x
4 2 4 2
3 1
Var(X|Y = 0) = E(X 2 |Y = 0) − [E(X|Y = 0)]2 = − 12 = .
2 2
2.4. VARIÂNCIA CONDICIONAL 69
Analogamente, obtém-se a distribuição de X dado que Y = 1 ou a distribuição de Y dado que

X = 0; por exemplo:
P(X = 0, Y = 0) 1/8
P(Y = 0|X = 0) = = =1
P(X = 0) 1/8
P(X = 0, Y = 1) 0
P(Y = 1|X = 0) = = =0
P(X = 0) 1/8
y 0 1
pY |X (y|0) 1 0
Assim,
E(Y |X = 0) = 0 E(Y 2 |X = 0) = 0 Var(Y |X = 0) = 0.

Da mesma forma,
P(X = 1, Y = 0) 2/8 2
P(Y = 0|X = 1) = = =
P(X = 1) 3/8 3
P(X = 1, Y = 1) 1/8 1
P(Y = 0|X = 1) = = =
P(X = 1) 3/8 3
y 0 1
2 1
pY |X (y|1) 3 3
Assim,
1 1 2
E(Y |X = 1) = E(Y 2 |X = 1) = Var(Y |X = 1) = .
3 3 9
Continuando,
y 0 1 2
1 2 → E(Y |X = 2) = 3
pY |X (y|2) 3 3
y 0 1
→ E(Y |X = 3) = 1
pY |X (y|3) 0 1
Portanto, temos E(Y |X = x) assume os valores 0, 31 , 23 e 1 e esses valores ocorrem quando X = 0,

X = 1, X = 2 e X = 3, respectivamente. Logo, as probabilidades de ocorrência de cada um deles são
exatamente as probabilidades de X assumir os seus valores, isto é, temos a seguinte distribuição:
1 2
e 0 3 3 1
1 3 3 1
E(Y |X = x) 8 8 8 8
A esperança dessa distribuição é

1 1 3 2 3 1 1
E(E(Y |X)) = 0 × + × + × + 1 × = = E(Y )
8 3 8 3 8 8 2
Para a distribuição condicional de X dado Y , temos os seguintes resultados:
x 0 1 2 3
1 1 1 → E(X|Y = 0) = 1
pX|Y (x|0) 4 2 4 0
x 0 1 2 3
1 1 1 → E(X|Y = 1) = 2
pX|Y (x|1) 0 4 2 4
e para a variável E(X|Y ) temos a seguinte distribuição de probabilidade
e 1 2
1 1
E(X|Y ) 2 2
A esperança dessa distribuição é
1 1 3
E(E(X|Y )) = 1 × + 2 × = = E(X)
2 2 2
Exemplo 2.16. A função densidade de probabilidade conjunta de X e Y é dada por
f (x, y) = (x + y)I(0,1) (x)I(0,1) (y).
Encontre a E(X|Y ) e E(Y |X)

Z 1
1
fX (x) = (x + y)dy = x + I(0,1) (x)
0 2
Z 1
1
fY (y) = (x + y)dx = y + I(0,1) (y)
0 2
x+y
fX|Y (x|y) = , x ∈ (0, 1)
y + 12
e y ∈ (0, 1) fixo.
x+y
fY |X (y|x) = , y ∈ (0, 1)
x + 12
e x ∈ (0, 1) fixo.
Assim,
Z 1 Z 1
x+y 2 + 3Y
E(X|Y ) = xfX|Y (x|y)dx = x 1 dx = 3(2Y + 1)
0 0 y+2
e y ∈ (0, 1) fixo.
Z 1 Z 1
x+y 2 + 3X
E(Y |X) = yfY |X (y|x)dy = y 1 dy = 3(2X + 1)
0 0 x+ 2
e x ∈ (0, 1) fixo.
2.5. FUNÇÃO GERADORA DE MOMENTOS 71
2.5 Função Geradora de Momentos
Definição 2.7. A função geradora de momentos da v.a. X é definida por
MX (t) = E(etX ),
desde que a esperança seja finita para todo t real em algum intervalo −t0 < t < t0 , com t0 > 0.
Observação 2.5. (i) Se X for uma v.a. discreta, com função massa de probabilidade fX (x) = P(X =
x), a função MX (t), denominada f.g.m. de X, é definida por
X
MX (t) = etx fX (x).
x∈ΩX
(ii) Se X for uma v.a. contı́nua, função densidade de probabilidade fX (·), definimos a f.g.m. por
Z ∞
MX (t) = etx fX (x)dx.
−∞
(iii) MX (0) = MX (t) |t=0 = E(e0x ) = 1.
Exemplo 2.17. Seja X ∼ B(n, p). Encontre a f.g.m. de X.
n n
tX
X
tx
X
txn x
MX (t) = E(e ) = e fX (x) = e p (1 − p)n−x
x
x=0 x=0
n
X n
= (et p)x (1 − p)n−x
x
x=0
= (e p + (1 − p))n , para todo t ∈ R,
t
pois
n
X n
ax bn−x = (a + b)n .
i
i=0
Exemplo 2.18. Seja X ∼ P(λ), λ > 0. Encontre a f.g.m. de X.
e−λ λx
fX (x) = P(X = x) = , x = 0, 1, 2, · · · .
x!
X X e−λ λx X (et λ)x

MX (t) = E(etX ) = etx fX (x) = etx = e−λ .
x! x!
x>0 x>0 x>0
yj
Como ey =
P
j>0 j! , temos
tλ t
MX (t) = e−λ ee = e−λ(1−e ) , para todo t ∈ R.
Exemplo 2.19. Seja X ∼ N (0, 1). Encontre a f.g.m. de X.
Z ∞ Z ∞
tX 1 −x2 tx 1 −(x2 −2tx)
MX (t) = E(e ) = e √ e 2 dx = √ e 2 dx
−∞ 2π −∞ 2π
Z ∞ Z ∞
1 −(x−t)2 + t2 t2 1 −(x−t)2
= √ e 2 2 dx = e 2 √ e 2 dx.
−∞ 2π −∞ 2π
−(x−t)2
Temos que fX (x) = √1 e 2 é a função densidade de probabilidade de uma v.a. com distribui-
2π
ção N (t, 1), logo
Z ∞
1 −(x−t)2
√ e 2 dx = 1.
−∞ 2π
Portanto,
t2
MX (t) = e 2 , para t ∈ R.
Teorema 2.1. Suponha que a f.g.m. da v.a. X exista para |t| < t0 , t0 > 0. Então, E(X n ) existe
para n = 1, 2, 3, · · · e temos que
∂ n MX (t)
E(X n ) = .
∂tn t=0
Prova: Temos que, para x ∈ R, a função ex , pode ser escrita na forma de uma série de Taylor como
(x)2 (x)3 (x)4

ex = 1 + x + + + ···
2! 3! 4!
Dessa forma
(tx)2 (tx)3 (tx)4

etx = 1 + tx + + + ···
2! 3! 4!
Seja t0 > 0, tal que E(etX ) seja finita em −t0 < t < t0 . Então,
t2 E(X 2 ) t3 E(X 3 ) tn E(X n )

MX (t) = E(etX ) = 1 + tE(X) + + + ··· + ···
2! 3! n!
Derivando a expressão acima em relação a t, temos
dMX (t) 0 E(X 2 ) E(X 3 ) E(X n )

= MX (t) = E(X) + 2t + 3t2 + · · · + ntn−1 ···
dt 2! 3! n!
0 (t)
Fazendo t = 0, verificamos que MX = E(X).
t=0
0 (t) em relação a t e aplicando t = 0, obtemos
Derivando MX
00
MX (t) = E(X 2 ).
t=0
Prosseguindo desta forma, pela n-ésima derivada, obtemos

2.5. FUNÇÃO GERADORA DE MOMENTOS 73
dn MX (t) (n)
= MX (t) = E(X n ).
dtn t=0 t=0
Observação 2.6.
h i2
00 0
Var(X) = E(X 2 ) − [E(X)]2 = MX (t) − MX (t)
t=0 t=0
Exemplo 2.20. Seja X uma v.a. com distribuição B(n, p). Obtenha E(X) e Var(X) através f.g.m.
Lembre que
MX (t) = (et p + (1 − p))n = (pet + q)n .
Logo,
0
MX (t) = n(pet + q)n−1 + (pet )
00
MX (t) = np[(n − 1)(pet + q)n−2 (pet )et + (pet + q)n−1 et ].
Fazendo t = 0, temos
E(X) = np
E(X 2 ) = np2 (n − 1) + np
= n2 p2 − np2 + np
= np(np − p + 1).
Portanto,
Var(X) = E(X 2 ) − [E(X)]2 = n2 p2 − np2 + np − n2 p2 = np(1 − p) = npq.
Teorema 2.2. Se duas v.a.’s têm f.g.m. que existem e são iguais, então elas têm a mesma função
de distribuição.
Exemplo 2.21. A f.g.m. da v.a. X é dada por

4
1 t 2
MX (t) = e + .
3 3
Comparando a expressão acima com a f.g.m. de uma v.a. com distribuição B(n, p), podemos
concluir que X ∼ B(4, 1/3).
Teorema 2.3. Suponha que uma v.a. X tenha f.g.m. MX (t). Seja Y = αX + β. Então MY (t),
a f.g.m. da v.a. Y , será dada por
MY (t) = eβt MX (αt).
Prova: Seja Y = αX + β uma v.a. Então, sua f.g.m é dada por
MY (t) = E(etY ) = E(et(αX+β) ) = E(etαX etβ )
= etβ E(etαX ) = eβt MX (αt).
Exemplo 2.22. Seja X uma v.a. com distribuição N (µ, σ 2 ). Encontre a f.g.m. de X.
Lembre que Z = X−µσ possui distribuição N (0, 1). Então, X = σZ + µ, logo
MX (t) = E(etX ) = E(et(σX+µ) ) = E(etσX etµ )
= etµ E(etσX ) = eµt MX (σt)
(σt)2 (σt)2
= eµt e 2 = eµt+ 2 para t ∈ R.
Capı́tulo 3
Principais Distribuições
3.1 Principais Distribuições Discretos

3.1.1. Modelo Bernoulli
Qualquer experimento aleatório com somente dois resultados possı́veis “fracasso”e “sucesso”. Seja p a
probabilidade de sucesso e q a probabilidade de fracasso, com p + q = 1.
Notação: p = P(“sucesso”), q = P(“fracasso”).
Definição 3.1. Seja X o número de sucessos em uma única tentativa do experimento. A variável
aleatória X segue o modelo Bernoulli se assume apenas dois valores 0 e 1.

1, se ocorre sucesso;
X=
0, se ocorre fracsso.
Notação: X ∼ Ber(p)
A sua função de probabilidade é dada por

x 1−x q, se x = 0;
fX (x) = P(X = x) = p q =
p, se x = 1.
A sua função de distribuição é dada por

 0, se x < 0;
FX (x) = q, se 0 6 x < 1;
1, se x > 1.

Exemplo 3.1. Lançamento de uma moeda.
Exemplo 3.2. Uma urna contem 30 bolas brancas e 20 verdes. Retira-se uma bola dessa urna. Seja X
o número de bolas verdes. Encontre a função de probabilidade e a distribuição da variável aleatória
X.
Solução:
1, bola verde;
X=
0, bola branca.
x 1−x
2 3
fX (x) = P(X = x) = , x ∈ {0, 1}.
5 5
Ou seja, X ∼ Ber(p), onde p = 52 .
76 CAPÍTULO 3. PRINCIPAIS DISTRIBUIÇÕES
Proposição 1. Seja X ∼ Ber(p), então
(i) E(X) = p.
(ii) Var(X) = pq.
3.1.2. Modelo Binomial

Exemplo 3.3. Suponha que uma moeda é lançada 10 vezes e vamos definir a v.a. X = número de
caras. Suponhamos que a probabilidade de cara seja p e, por conseguinte, a probabilidade de coroa
é 1 − p. Os possı́veis valores de X são 0, 1, 2, . . . , 10. Vamos agora calcular a probabilidade de
cada um desses valores, estabelecendo a equivalência dos eventos envolvidos. Para isso vamos usar a
notação Ki = cara no i-ésimo lançamento e Ci = coroa no i-ésimo lançamento.
{X = 0} = {coroa nos 10 lançamentos} = {C1 ∩ · · · ∩ C10 }

Podemos considerar os lançamentos da moeda como eventos independentes. Logo,
P(X = 0) = P(C1 ) × · · · × P(C10 ) = (1 − p)10

O evento {X = 1} corresponde à ocorrência de 1 cara e 9 coroas. Uma sequência possı́vel de
resultados é KCCCCCCCCC e a probabilidade é
P(KCCCCCCCCC) = p(1 − p)9

10
Mas a sequência CKCCCCCCCC também resulta em {X = 1}. Na verdade existem tais
1
sequências, todas com a mesma probabilidade. Logo

10
P(X = 1) = p(1 − p)9 .
1
Analogamente, o evento {X = 2} corresponde à ocorrência de 2 caras e 8 coroas; uma sequência
possı́vel é KKCCCCCCCC, que tem probabilidade
P(KKCCCCCCCC) = p2 (1 − p)8

10
Mas, existem maneiras de colocar caras numa sequência de 10 lançamentos e todas tem a
2
mesma probabilidade. Portanto,

10 2
P(X = 2) = p (1 − p)8 .
2
Em geral, para qualquer valor de x temos

10 x
P(X = x) = p (1 − p)1−x , x = 0, 1, 2, · · · , 10.
x
O experimento Binomial e um experimento de Bernoulli repetido n vezes, independentemente.

Consideremos n tentativas independentes de um mesmo experimento aleatório. Cada tentativa
admite apenas dois resultados: fracasso com probabilidade q e sucesso com probabilidade p, onde p +
q = 1. Ou seja, um experimento de Bernoulli é repetido n vezes, independentemente. As probabilidades
de sucesso e fracasso são as mesmas para cada tentativa.
3.1. PRINCIPAIS DISTRIBUIÇÕES DISCRETOS 77
Definição 3.2. Seja X a variável aleatória número de sucessos nas n repetições independentes.
Diremos que X segue o modelo Binomial com parâmetros n e p e sua função de probabilidade
é dada por

n x
fX (x) = P(X = x) = p (1 − p)n−x , x ∈ {0, 1, · · · , n}.
x
Notação: X ∼ B(n, p), 0 < p 6 1.
Observação 3.1. Vamos verificar se fX (·) é função de probabilidade. Temos que fX (x) > 0, para todo
x∈Re
n n
X X n
fX (x) = px (1 − p)n−x = (p + (1 − p))n = 1,
x
x=0 x=0
pois
n
X n
aj (b)n−j = (a + b)n .
j
j=0
Logo fX (·) é função de probabilidade.
Proposição 2. Seja X ∼ B(n, p), então
(i) E(X) = np.
(ii) Var(X) = npq.
Nas Figuras 3.1 e 3.2 apresentamos a f.m.p. e acumulada para diferentes valores de p.
Figura 3.1: Função Massa de Probabilidade da v.a. X ∼ B(15, p).

Figura 3.2: Função de Distribuição (ou acumulada) da v.a. X ∼ B(15, p).
Exemplo 3.4. Uma moeda honesta é lançada 20 vezes. Qual a probabilidade de saı́rem 8 caras?
Solução: Temos que X é o número de sucessos (caras).
1
p = P(X = 1) = P(sucesso) = .
2
Logo, X ∼ B 20, 12

x 20−x
20 1 1
P(X = x) = , x ∈ {0, 1, 2, 3, · · · , 20}.
x 2 2
Se x = 8, temos
8 20−8
20 1 1
P(X = 8) = = 0, 12013.
8 2 2
Exemplo 3.5. Uma prova tipo teste tem 50 questões independentes. Cada questão tem 5 alternativas.
Apenas uma delas é a correta. Se um aluno resolve a prova respondendo a esmo a questão, qual a
probabilidade de tirar nota 5?
Solução: A v.a. X é o número de acertos, x ∈ {0, 1, · · · , n}. A probabilidade de acerto p = P(acerto) =

1 1
5 . Logo, X ∼ B(50, 5 ).
Portanto a função de probabilidade é dada por
x 50−x
50 1 4
P(X = x) = .
x 5 5
Logo,
25 50−25
50 1 4
P(X = 25) = = 0, 000002.
25 5 5
Exemplo 3.6. Um atirador acerta na mosca do alvo, 20% dos tiros. Se ele dá 10 tiros, qual a probabi-
lidade de ele acertar na mosca no máximo 1 vez?
Solução: Podemos pensar os tiros como experimentos de Bernoulli independentes, onde a probabilidade
de sucesso é p = 0, 20. Então, o problema pede P(X 6 1), onde X = {número de acertos em 10 tiros}.
Logo, X ∼ B(k, p), com k = 10 e p = 0, 20.
Então,

10 0 10−0 10
P(X 6 1) = P(X = 0) + P(X = 1) = 0, 2 0, 8 + 0, 21 0, 810−1 = 0, 37581.
0 1
Exemplo 3.7. Dois adversários A e B disputam uma série de 8 partidas de um determinado jogo. A
probabilidade de A ganhar uma partida é 0, 6 e não há empate. Qual é a probabilidade de A ganhar
a série?
Solução: Note que só podem ocorrer vitórias ou derrotas, o que significa que temos repetições de um
experimento de Bernoulli com probabilidade 0, 6 de sucesso (vitória). Assumindo a independência das
provas, se definimos X = {número de vitórias de A}, então XsimB(8; 0, 6) e o problema é calcular
P(X > 5) , isto é A ganha mais partidas que B.
8
X
P(X > 5) = P(X = x)
x=5

8 5 8−5 8 6 8−6 8 7 8−7 8
= 0, 6 0, 4 + 0, 6 0, 4 + 0, 6 0, 4 + 0, 68 0, 48−8
5 6 7 8
= 0, 5940864.
3.1.3. Modelo Poisson

Na distribuição Binomial, a variável de interesse era o número de sucessos em um intervalo discreto (n
repetições de um experimento 0-1). Muitas vezes, entretanto, o interesse reside no número de sucessos
em um intervalo contı́nuo, que pode ser o tempo, comprimento, etc.
A probabilidade de ocorrência de um sucesso no intervalo é proporcional ao intervalo. A probabi-
lidade de mais de um sucesso neste intervalo é bastante pequena com relação à probabilidade de um
sucesso.
Definição 3.3. Seja X o número de sucessos em um intervalo. A variável aleatória X segue o

modelo Poisson de parâmetro λ, λ > 0, se a sua função massa de probabilidade for dada por
e−λ λx
fX (x) = P(X = x) = , x = 0, 1, 2, · · · .
x!
Notação: X ∼ P(λ).
O parâmetro λ indica o número esperado de sucessos no intervalo (a taxa de ocorrência para uma
unidade de medida).
A distribuição de Poisson é largamente utilizada quando se deseja contar o número de sucessos que
ocorrem em intervalos de tempo, ou superfı́cie ou volume. Por exemplo
(i) carros que passam por um cruzamento por minuto, durante uma certa hora do dia;
(ii) erro tipográficos por página, em um material impresso;
(iii) defeitos por unidade (m2 , m3 , m etc.) por peça fabricada;
(iv) colônia de bactérias numa dada cultura por 0.01 mm2 , numa plaqueta de microscópio;
(v) mortes por ataque do coração por ano, numa cidade;
(vi) em problemas de filas em geral;
(vii) número de chamadas recebidas por um telefone durante cinco minutos;
(viii) número de falhas de um computador num dia de operação;
(ix) número de relatórios de acidentes enviados a uma companhia de seguros numa semana.
Observação 3.2. Seja X a v.a. definida como o número de eventos que ocorrem sobre um perı́odo de
tempo t. Substituı́mos λ na f.m.p. por tλ. Dessa forma,
e−tλ (tλ)x
fX (x) = P(X = x) = , x = 0, 1, 2, · · · .
x!
Exemplo 3.8. Em um livro de 800 páginas há 800 erros de impressão. Qual a probabilidade de que
uma página contenha pelo menos 3 erros?
Solução: Seja X o número de erros por página. Temos que λ = 1. Logo,
P(X > 3) = 1 − P(X < 3) = 1 − {P(X = 0) + P(X = 1) + P(X = 2)}

−1 0
e−1 · 11 e−1 · 12

e ·1
= 1− + +
0! 1! 2!
= 1 − {0.367879 + 0.367879 + 0.183940}
= 1 − 0.919698 = 0.080302.
Exemplo 3.9. Em uma central telefônica chegam 300 telefonemas por hora. Qual a probabilidade de
que
(i) num minuto não haja nenhuma chamada?
(ii) em 2 minutos haja 2 chamados?
(iii) em t minutos não haja chamados?
Solução:
(i) Seja X a v.a. número de chamadas por minuto. Então, λ = 5.
e−5 · 50
P(X = 0) = = 0.006738.
0!
(ii) Em dois minutos, λ = 10. Então,
e−10 · 102
P(X = 2) = = 0.002270.
2!
(iii) Em t minutos, λ = 5t. Então,
e−5t · (5t)0
P(X = 0) = = e−5t .
0!
Exemplo 3.10. Em um certo tipo de fabricação de fita magnética, ocorrem cortes a uma taxa de um
corte por 2000 pés. Qual é a probabilidade de que um rolo com comprimento de 4000 pés apresente
no máximo dois cortes? Pelo menos dois cortes?
Solução: Seja Y = {número de cortes num rolo de 4000 pés}. Então, Y ∼ P (2).
Logo,
2
X
P(no máximo 2 cortes) = P(X 6 2) = P(X = x)
x=0
e−2 20 −2
e 21 e−2 22
= + +
0! 1! 2!
= 0, 676676.
P(pelo menos 2 cortes) = P(X > 2) = 1 − P(X < 2) = 1 − [P(X = 0) + P(X = 1)]
−2 0
e−2 21

e 2
= 1− +
0! 1!
= 0, 593994.
Proposição 3. Seja X ∼ P(λ), então
(i) E(X) = λ.
(ii) Var(X) = λ.
3.1.4. Modelo Geométrico
Definição 3.4. Uma variável aleatória discreta X segue o modelo Geométrico com parâmetro p,
onde 0 < p < 1, se a sua função massa de probabilidade é dada por
fX (x) = P(X = x) = p(1 − p)x−1 , x = 1, 2, · · · .
Notação: X ∼ Geo(p), 0 < p < 1.

Figura 3.3: Função Massa de Probabilidade da v.a.X ∼ P (λ).
Figura 3.4: Função de Distribuição (ou acumulada) da v.a. X ∼ P (λ).
A variável aleatória X é o número de repetições necessárias até o aparecimento do primeiro sucesso.

P(X = x) é a probabilidade de fracasso nos primeiros k − 1 experimentos e sucesso no k− ésimo
experimento.
Função de distribuição
x
X x
X
FX (x) = P(X 6 x) = P(X = j) = p(1 − p)j−1 .
j=1 j=1
Tomando i = j − 1 na expressão acima, temos

x−1
X 1 − (1 − p)x−1+1
FX (x) = p (1 − p)i = p = 1 − (1 − p)x ,
1 − (1 − p)
i=0
Pn i 1−an+1
pois i=0 (a) = 1−a , para 0 < a < 1. Logo,

 0, se x < 1;
FX (x) =
1 − (1 − p)x , se x > 1.

Figura 3.5: Função Massa de Probabilidade da v.a. X ∼ Geo(p).
Proposição 4. Seja X ∼ Geo(p), então
i) E(X) = 1/p.
2−p
ii) E(X 2 ) = p2
1−p
iii) Var(X) = p2
.
Exemplo 3.11. Um atirador acerta na mosca do alvo, 20% dos tiros. Qual a probabilidade de ele
acertar na mosca pela primeira vez no 10º tiro?
Solução: Podemos pensar os tiros como experimentos independentes de Bernoulli (acerta ou não
acerta). A probabilidade de sucesso (acertar no alvo) é p = 0, 20. Estamos querendo o número de
tiros até o primeiro acerto e calcular a probabilidade desse número ser 10. Seja X = {número de tiros
até primeiro acerto}. Então, X ∼ Geo(0, 20). Queremos calcular P(X = 10). Logo,
Figura 3.6: Função Distribuição (acumulada) da v.a. X ∼ Geo(p).
P(X = 10) = 0, 2 × 0, 89 = 0, 02684.
Exemplo 3.12. As cinco primeiras repetições de um experimento custam R$10,00 cada. Todas as
repetições subsequentes custam R$5,00 cada. Suponha que o experimento seja repetido até que o
primeiro sucesso ocorra. Se a probabilidade de sucesso de uma repetição é igual a 0.9, e se as repetições
independentes, qual é o custo esperado?
Solução: Seja X={o número de tentativas} e C={o custo dos experimentos}. Sabemos que iremos
realizar o experimento até que o primeiro sucesso ocorra ou seja, temos uma Distribuição Geométrica,
ou seja X ∼ Geo(p), com p = 0, 9.
Queremos o custo esperado. O cálculo do custo é feito da seguinte forma:
- 5 primeiras tentativas: R$10,00 cada.
- Outras tentativas: R$5,00 cada.
Assim podemos escrever que:
5
X ∞
X
E(C) = 10 P(X = k) + 5 P(X = k).
k=1 k=6
Pn i 1−an+1
Como i=0 (a) = 1−a , para 0 < a < 1, temos que,
E(C) = 10 × 0, 9(0, 10 + 0, 11 + 0, 12 + 0, 13 + 0, 14 )
+5 × 1 − 0, 9(0, 10 + 0, 11 + 0, 12 + 0, 13 + 0, 14 )

= 10 × 0, 9 × 1, 1111 + 5[1 − 0, 9 × 1, 1111] = 9, 99995.

Exemplo 3.13. Em seu caminho matinal, você se aproxima de um determinado sinal de trânsito, que
está verde em 20% do tempo. Suponha que cada manhã represente um tentativa independente.
(a) Qual é a probabilidade de que a primeira manhã que a luz esteja verde seja a quarta manhã que
você se aproxima?
(b) Qual é a probabilidade de que a luz não esteja verde durante exatamente 10 manhãs consecutivas?
Solução:
(a) Qual é a probabilidade de que a primeira manhã que a luz esteja verde seja a quarta manhã que
você se aproxima?
A probabilidade de pegar sinal verde é de 20%. Queremos a probabilidade de que a primeira vez
que eu pegue o sinal verde seja na quarta tentativa. Ou seja estamos realizando repetições até
obter o sucesso.
Se X é a v.a que representa o número de tentativas até o primeiro sucesso, então X ∼ Geo(0, 2)
e queremos calcular P(X = 4). Assim,
P(X = 4) = 0, 2(1 − 0, 2)4−1 = 0, 1024.
(b) Qual é a probabilidade de que a luz não esteja verde durante exatamente 10 manhãs consecutivas?
Pra que a luz não esteja verde dentro das 10 primeiras manhãs consecutivas, concorda que a gente
tem que calcular a probabilidade de a gente só encontrar ela verde na décima primeira manhã pela
primeira vez? Vamos utilizar a mesma fórmula só que agora pra k = 11.
P(X = 11) = 0, 2(1 − 0, 2)11−1 = 0, 02147.
Exemplo 3.14. No Callcenter de uma empresa distribuidora de telefonia, apenas 35% das chamadas
são relacionadas a reclamações sobre erros nas faturas emitidas pela empresa. Pede-se:
(a) Qual a probabilidade da primeira reclamação sobre erro na fatura emitida da conta, ocorrer até a
2ª chamada.
(b) A média, desvio padrão desta variável aleatória.
Solução:
(a) Qual a probabilidade da primeira reclamação sobre erro na fatura emitida da conta, ocorrer até a
2ª chamada.
Queremos calcular a probabilidade do primeiro sucesso (reclamação sobre erro na fatura) acontecer
até a segunda chamada.
Temos duas situações então: a primeira reclamação acontecer na primeira chamada ou a primeira
reclamação acontecer na segunda chamada. Nos dois casos, vamos usar a distribuição geométrica
com p = 0, 35, isto por que queremos calcular a probabilidade do primeiro sucesso acontecer em
determinada tentativa.
Situações: na primeira k = 1 e na segunda k = 2 que é o número da tentativa em que acontece o
primeiro sucesso.
P(X = 1) = 0, 35 · 0, 650 = 0, 35 P(X = 2) = 0, 35 · 0, 651 = 0, 2275
A probabilidade que queremos é a soma das duas.
P(X 6 2) = 0, 35 + 0, 2275 = 0, 5775.
(b) A média, desvio padrão desta variável aleatória.

Para o caso de uma distribuição geométrica conhecemos a fórmula da média e da variância
1 1
E(X) = = = 2, 86
p 0, 35
(1 − p) 0, 65
Var(X) = = = 5, 31.
p2 0, 352
O desvio padrão é a raiz quadrada da variância:
p
DP (X) = 5, 31 = 2, 30.
3.2 Principais Distribuições Contı́nuas

3.2.1. Modelo Uniforme
Definição 3.5. Diremos que uma variável aleatória X segue o modelo Uniforme, no intervalo
[a, b] ∈ R, a < b, se sua função densidade for dada por
1
fX (x) = I (x).
b − a [a,b]
Notação: X ∼ Uc [a, b].

A função fX (·), conforme apresentada na definição acima, satisfaz as condições para ser densidade.
Ela é positiva e
Z ∞ Z b
1
fX (x)dx = dx = 1.
−∞ a b−a
A função de distribuição do modelo uniforme em [a, b] é dada por


 0, se x < a;



x−a
FX (x) =
 b−a , se a 6 x < b;




1, se x > b.
Proposição 5. Seja X ∼ Uc [a, b], então

a+b
i) E(X) = 2 .
(b−a)2
ii) Var(X) = 12 .
3.2. PRINCIPAIS DISTRIBUIÇÕES CONTÍNUAS 87
(a)
(b)
Figura 3.7: Distribuição U (a, b): (a) função densidade de probabilidade, (b) função de distribuição
acumulada.
Cálculo da Esperança Matemática:
b
∞ b
1 x2
Z Z
1
E(X) = x × fX (x)dx = x× dx =
−∞ a b−a b−a 2
a
b
x2 b2 − a2 b2 − a2

1 1 1
= = × = ×
b−a 2 b−a 2 b−a 2
a
1 (b − a) × (b + a) b+a
= × =
b−a 2 2
b
Z ∞ Z b 3
2 2 2 1 1 x
E(X ) = x × fX (x)dx = x × dx =
−∞ a b−a b−a 3
a
1 − b3 a3 1 (b − a) × (b2 + ab + a2 )
= × = ×
b−a 3 b−a 3
b2 + ab + a2
=
3
b+a 2
b2 + ab + a2

2 2
Var(X) = E(X ) − [E(X)] = −
2
2
b + ab + a 2 2
b + 2ab + a 2 4b + 4ab + 4a2 3b2 + 6ab + 3a2
2
= − = −
3 4 12 12
b2 − 2ab + a2 (b − a)2
= = ·.
12 12
Exemplo 3.15. Um ponto é escolhido ao acaso no intervalo [0, 2]. Qual a probabilidade de que esteja
ente 1 e 1.5?
Solução:
1

fX (x) = 2, se 0 6 x 6 2;
0, c.c.
1.5
Z 1.5
1 x 1
P(1 6 X 6 1.5) = dx = = ·
1 2 2 4
1
Exemplo 3.16. A dureza H de uma peça de aço pode ser pensada como uma variável aleatória com
distribuição uniforme no intervalo [50, 70] da escala de Rockwell. Calcular a probabilidade de que uma
peça tenha dureza entre 55 e 60.
Solução:
1

fX (x) = 20 , se 50 6 x 6 70;
0, c.c.
60
Z 60
1 x 1
P(55 6 X 6 60) = dx = = ·
55 20 20 4
55
Exemplo 3.17. A ocorrência de panes em qualquer ponto de uma rede telefônica de 7 km foi modelada
por uma distribuição Uniforme no intervalo [0, 7]. Qual é a probabilidade de que uma pane venha a
ocorrer nos primeiros 800 metros? E qual a probabilidade de que ocorra nos 3 km centrais da rede?
Solução: A função densidade da distribuição Uniforme é dada por

1
fX (x) = I[0,7] (x).
7
Assim, a probabilidade de ocorrer pane nos primeiros 800 metros é dada por
0,8
0, 8 − 0
Z
1
P (X 6 0, 8) = dx = = 0, 1142.
0 7 7
e a probabilidade de ocorrer pane nos 3 km centrais da rede é
Z 5
1
P (2 6 X 6 5) = dx = P (X 6 5) − P (X 6 2) = 5/7 − 2/7 ≈ 0, 4285.
2 7
Exemplo 3.18. Suponha que Y ∼ U [0, 5]. Qual a probabilidade que a equação 4x2 + 4Y x + 4 = 0,
tenha ambas as raı́zes reais?
Solução: Primeiramente observemos que para que uma equação de segundo grau tenha raı́zes reais é
necessário que o discriminante da equação de segundo grau seja maior ou igual a zero, ou seja, que a
fórmula abaixo seja maior ou igual a zero.
∆ = 16Y 2 − 64 > 0 ⇒ Y 2 > 4.
Assim queremos encontrar P(Y 2 > 4). Então,
Z 0 Z 2
2 2 1
P(Y > 4) = 1 − P(Y 6 4) = 1 − P(−2 6 Y 6 2) = 1 − 0dy + dy
−2 0 5

2
x 2 3
= 1− =1− = ·
5 5 5
0
Assim a probabilidade de que ambas as raı́zes sejam reais é de 35 .
3.2.2. Modelo Normal

A distribuição normal é a mais importante de todas as distribuições. Muitas populações numéricas
possuem distribuição que podem ser ajustadas por uma curva normal apropriada. Os exemplos incluem
alturas, pesos e outras caracterı́sticas fı́sicas, erros em medidas em experimentos cientı́ficos, medidas
antropométricas em fósseis, tempos de reação em experimentos psicológicos, medidas de inteligência e
aptidão, pontuação em testes variados, e numerosas medidas e indicadores econômicos. Mesmo quando
a distribuição é discreta, a curva normal frequentemente fornece aproximação excelente.Além disso,
ainda que as próprias variáveis individuais não seja normalmente distribuı́das, as somas e as médias
das variáveis terão uma distribuição aproximadamente normal sob condições adequadas.
Definição 3.6. Uma v.a. X segue o modelo Normal se a sua densidade é dada por:
1 (x−µ)2
fX (x) = √ e− 2σ 2 I(−∞,∞) (x),
2πσ 2
com µ, σ ∈ R, σ > 0.
Notação: X ∼ N (µ, σ 2 ).
Caso Particular: Distribuição Normal Padrão: Quando, na Definição 2.3, temos µ = 0 e σ 2 = 1.
(a) µ ∈ {−2.0, −1.0, 0.0, 1.0, 2.0} e σ 2 = 3.0
(b) µ = 0, 0 e σ 2 ∈ {2.0, 4.0, 6.0, 8.0, 10.0}
Figura 3.8: Gráficos da função densidade de probabilidade da distribuição normal N (µ, σ 2 ).
Definição 3.7. Uma v.a. Z segue o modelo Normal se a sua densidade é dada por:
1 z2
fZ (z) = √ e− 2 I(−∞,∞) (z).
2π
Notação: Z ∼ N (0, 1).

Observação 3.3. Seja Z ∼ N (0, 1). Então,
(i) fZ (z) é simétrica em relação à origem (ver Figura 3.9). Então,
FZ (z) = 1 − FZ (−z).
Figura 3.9: Simetria da Distribuição Normal.
1
(ii) fZ (z) tem um único ponto crı́tico em z = 0 e fZ (0) = 2π é o único máximo da função.
(iii) z = 1 e z = −1 são pontos de inflexão.
(iv) limz→∞ fZ (z) = 0 = limz→−∞ fZ (z).

R∞ z2
(v) √1 e− 2 dz = 1.
−∞ 2π
R
(vi) P(Z ∈ A) = A fZ (z)dz. Caso A = [a, b], com a < b, temos que
Z b
Figura 3.10: P(a 6 Z 6 b) = fZ (z)dz.
a
Exemplo 3.19 (Devore, 2016). Seja Z ∼ N (0, 1), isto é, a v.a. Z tem distribuição Normal padrão.
Calcule as seguintes probabilidades:
(i) P(Z 6 1.25);
(ii) P(Z > 1.25);

(iii) P(Z 6 −1.25);

(iv) P(−0.38 6 Z 6 1.25).
Solução: Será utilizada a Tabela da Distribuição Normal Padrão.
(i) P(Z 6 1.25) = FZ (1.25) é uma probabilidade que é tabulada. Pela Tabela da Distribuição
Normal Padrão na intersecção na linha marcada com 1.2 e da coluna marcada com 5 (que
significa 0.05). O número existente é 0.8944, portanto, P(Z 6 1.25) = 0.8944
Figura 3.11: Área da curva Normal Padrão: (a) P(Z 6 1.25); (b) P(Z > 1.25).
(ii) P(Z > 1.25) = 1 − P(Z 6 1.25) = 1 − 0.8944 = 0.1056;

(iii) P(Z 6 −1.25) = FZ (−1.25). Pela Tabela da Distribuição Normal Padrão na intersecção na
linha marcada com -1.2 e da coluna marcada com 5 (que significa 0.05). O número existente
é 0.1056, portanto, P(Z 6 −1.25) = 0.1056. Pela simetria da curva da distribuição Normal
Padrão, P(Z 6 −1.25) = P(Z > 1.25).
(iv) P(−0.38 6 Z 6 1.25) = FZ (1.25) − FZ (−0.38) = 0.8944 − 0.3520 = 0.5424.
Figura 3.12: P(−0.38 6 Z 6 1.25) como a diferença entre duas áreas da função de distribuição
(acumulada).
Proposição 6. Sendo X ∼ N (µ, σ 2 ), então Z = Z−µ

σ possui distribuição N (0, 1). Dessa forma,

a−µ X −µ b−µ a−µ b−µ
P(a 6 X 6 b) = P 6 6 =P 6Z6
σ σ σ σ σ
ou seja,

b−µ a−µ
P(a 6 X 6 b) = FZ − FZ
σ σ
onde

a−µ a−µ
P(X 6 a) = FZ e P(X > b) = 1 − FZ
σ σ
Exemplo 3.20 (Devore, 2016). Seja X ∼ N (µ, σ 2 ), com µ = 1.25 e σ = 0.46. Calcule P(1 6 X 6 1.75).
Solução: Temos que padronizar utilizando a distribuição Normal Padrão, ou seja,

1 − 1.25 X − 1.25 1.75 − 1.25
P(1 6 X 6 1.75) = P 6 6 = P (−0.54 6 Z 6 1.09)
0.46 0.46 0.46
= P(Z 6 1.09) − P(Z 6 −0.54) = FZ (1.09) − FZ (−0.54)
= 0.8621 − 0.2946 = 0.5675.
Figura 3.13: P(1 6 X 6 1.75) e P (−0.54 6 Z 6 1.09).
Observação 3.4. Seja X ∼ N (µ, σ 2 ). Então,
i) fX (x) é simétrica com relação à µ. Portanto,
P(X 6 µ) = 1/2 = P(X > µ)
P(X 6 µ − a) = P(X > µ + a).
ii) µ + σ e µ − σ são pontos de inflexão.
iii) Para X ∼ N (µ, σ 2 ), temos que
P(|X − µ| < kσ) = P(−kσ < X − µ < kσ) = P(µ − kσ < X < µ + kσ)

−kσ X −µ kσ X −µ
= P < < = P −k < <k
σ σ σ σ
= P(−k < Z < k) = P(|Z| < k) = FZ (k) − FZ (−k) = 2FZ (k) − 1,
X−µ
onde Z ∼ N (0, 1) e Z = σ .
Assim,
a) Para k = 1, P(|X − µ| < σ) = 2FZ (1) − 1 = 2 × 0.8413 − 1 = 0.6826.

b) Para k = 2, P(|X − µ| < 2σ) = 2FZ (2) − 1 = 2 × 0.9772 − 1 = 0.9544.
c) Para k = 3, P(|X − µ| < 3σ) = 2FZ (3) − 1 = 2 × 0.9987 − 1 = 0.9974.
Proposição 7. Seja X ∼ N (µ, σ 2 ), então
(i) E(X) = µ.
(ii) Var(X) = σ 2 .
A função de distribuição (acumulada) da distribuição normal é dada por

Z z
FZ (z) = fZ (t)dt.
−∞
Não existe uma fórmula fechada para esta distribuição.

Notação zα para os valores crı́ticos de z:
Em inferência estatı́stica, precisaremos dos valores do eixo z horizontal das medidas que encerram
pequenas áreas da cauda abaixo da curva normal padrão.
Notação: A quantidade zα representará o valor no eixo z para o qual uma área α abaixo da
curva da distribuição Normal Padrão fica à direita de zα . Ou seja,
P(Z > zα ) = α.
Uma vez que α é a área abaixo da curva da distribuição Z que encontra-se à direita de zα , 1 − α
é a área que encontra-se a esquerda. Assim, zα é o 100(1 − α)-ésimo percentil da distribuição normal
padrão. Os valores zα usualmente são considerados os valores crı́ticos de z.
Exemplo 3.21. A quantidade z0.05 é o 100(1 − 0.05)-ésimo = 950 percentil da distribuição normal
padrão, de modo que z0.05 = 1.645. A área abaixo da curva normal padrão à esquerda de −z0.05
também é 0.05.
(a) µ ∈ {−2.0, −1.0, 0.0, 1.0, 2.0} e σ 2 = 3.0
(b) µ = 0, 0 e σ 2 ∈ {2.0, 4.0, 6.0, 8.0, 10.0}
Figura 3.14: Função de distribuição (acumulada) da distribuição N (µ, σ 2 ).
Figura 3.15: Ilustração da notação zα .
Tabela 3.1: Percentis Normal Padrão e Valores Crı́ticos.
Percentil 90.00 95.00 97.50 99.00 99.50 99.90 99.95

α 0.100 0.050 0.025 0.010 0.005 0.001 0.001
Zα 1.280 1.645 1.960 2.330 2.580 3.080 3.270
O 100(1−α)-ésimo percentil da distribuição normal com média µ e variância σ 2 pode ser facilmente
relacionado com o 100(1 − α)-ésimo percentil da distribuição normal padrão.
Figura 3.16: Ilustração da notação z0.05 e −z0.05 .
Proposição 8. Relação entre os percentis:
100(1 − α)-ésimo percentil da N (µ, σ 2 ) = µ + 100(1 − α)-ésimo percentil da N (0, 1) × σ.
3.2.3. Aproximação da Binomial pela Normal
Proposição 9. [Aproximação da Binomial pela Normal] Seja X ∼ B(n, p). A medida que n
cresce a distribuição B(n, p) se aproxima da distribuição N (µ, σ 2 ), onde µ = np e σ 2 = npq.
As condições mais importantes são: np > 5 e n(1 − p) > 5.
A demonstração da validade desta aproximação é feita utilizando-se o Teorema do Limite Central,

que será estudado em tempo. Ver Figuras 3.17 e 3.18.
Cálculo da Probabilidade
Seja X ∼ B(n, p), tal que np > 5. Calcule P(a 6 X 6 b), para a, b ∈ N utilizando a Proposição 9,
ou seja utilizando uma variável aleatória Y ∼ N (µ, σ 2 ). Então,
P(a 6 X 6 b) ' P(a 6 Y 6 b)

" #
a − np Y − np b − np
= P p 6p 6p
np(1 − p) np(1 − p) np(1 − p)
" #
a − np b − np
= P p 6Z6 p ,
np(1 − p) np(1 − p)
onde Z ∼ N (0, 1).

A aproximação pode ser melhorada através do uso da Correção de Continuidade.
Correção de Continuidade
A correção de continuidade é um procedimento que pode ser aplicado para melhorar a aproxima-
ção de distribuições discretas através de distribuições contı́nuas. Em particular, na aproximação da
distribuição binomial pela normal temos o seguinte:
Figura 3.17: Aproximação da distribuição B(n, p) pela distribuição N (µ, σ 2 ), onde n = 100 e p ∈
{0.05, 0.2, 0.3, 0.5, 0.6, 0.7, 0.8, 0.95}.

1 1
P(a 6 X 6 b) ' P a − 6 Y 6 b +
2 2
" #
a − 12 − np Y − np b + 12 − np
= P p 6p 6p
np(1 − p) np(1 − p) np(1 − p)
" #
a − 1 − np b + 1 − np
= P p 2 6Z6 p 2
np(1 − p) np(1 − p)
onde Z ∼ N (0, 1).
Caso particular:
Figura 3.18: Aproximação da distribuição B(n, p) pela distribuição N (µ, σ 2 ), onde p = 0.25 e n ∈
{5, 10, 15, 20, 25, 30, 35, 40}.

1 1
P(X = a) ' P a − 6 Y 6 a +
2 2
" #
a − 21 − np Y − np a + 12 − np
= P p 6p 6p
np(1 − p) np(1 − p) np(1 − p)
" #
a − 1 − np a + 1 − np
= P p 2 6Z6 p 2
np(1 − p) np(1 − p)
Exemplo 3.22. Seja X ∼ B(225, 0.2). Calcule P(39 6 X 6 48).
Solução: Temos que E(X) = np = 225 × 0, 2 = 45 e Var(X) = np(1 − p) = 225 × 0, 2 × 0, 8 = 36. Logo
a distribuição da variável aleatória X pode ser aproximada pelo distribuição N (µ, σ 2 ), com µ = 45 e
σ 2 = 36. Ver Figura 3.19.
Valor Exato:
P(39 6 X 6 48) = 0, 5853.
Valor sem o fator de Correção:

Figura 3.19: Aproximação da distribuição B(225, 0, 2) pela distribuição N (µ, σ 2 ), onde µ = 45 e

σ 2 = 36.
P(39 6 X 6 48) ' P(39 6 Y 6 48)

39 − 45 Y − 45 48 − 45
= P 6 6
6 6 6
= P(−1, 0 6 Z 6 0, 5) = 0, 5328.
Valor com o fator de Correção:
P(39 6 X 6 48) ' P(39 − 0, 5 6 Y 6 48 + 0, 5)

39 − 0, 5 − 45 Y − 45 48 + 0, 5 − 45
= P 6 6
6 6 6
= P(−1, 08 6 Z 6 0, 58) = 0, 5808.
Cuidado na hora de calcular probabilidade com o fator de correção:
X ∼ B(n, p) Y ∼ N (µ, σ 2 )
P(a 6 X 6 b) P(a − 0, 5 6 Y 6 b + 0, 5)
P(X = k) P(k − 0, 5 6 Y 6 k + 0, 5)
P(X < k) P(Y < k − 0, 5)
P(X 6 k) P(Y 6 k + 0, 5)
P(X > k) P(Y > k + 0, 5)
P(X > k) P(Y > k − 0, 5)
Exemplo 3.23. Um sistema é formado por 100 componentes, cada um dos quais com confiabilidade
(probabilidade de funcionar adequadamente num certo perı́odo) igual a 0, 9. Se esses componentes
funcionarem de forma independente um do outro e se o sistema funcionar adequadamente enquanto
pelo menos 87 componentes estiverem funcionando, qual é a confiabilidade do sistema?
Solução: Seja X: número de componentes que funcionam adequadamente. Então X ∼ B(100, 0, 9).
Logo E(X) = np = 100 × 0, 9 = 90 e Var(X) = np(1 − p) = 100 × 0, 9 × 0, 1 = 9. Logo a distribuição
da variável aleatória X pode ser aproximada pelo distribuição N (µ, σ 2 ), com µ = 90 e σ 2 = 9
O sistema é confiável quando P(X > 87).
Valor Exato:
P(X > 87) = 0, 8761.
P(X > 87) ' P(Y > 87)

Y − 90 87 − 90
= P >
3 3
= P(Z > −1) = 0, 8413.
P(X > 87) ' P(Y > 87 − 0.5)

Y − 90 87 − 0.5 − 90
= P >
3 3
= P(Z > −1.16) = 0, 8769.
Exemplo 3.24. Uma moeda honesta é lançada 100 vezes.
(a) Calcular a probabilidade do número de caras estar entre 40% e 70% dos lançamentos, inclusive.
(b) Determinar um intervalo simétrico em torno do número médio de caras, tal que a probabilidade
de observar um valor de X nesse intervalo é 80%.
Solução:
(a) Calcular a probabilidade do número de caras estar entre 40% e 70% dos lançamentos, inclusive.
Seja X:{número de caras em 100 lançamentos}. Então X ∼ B(100, 0.5). Logo E(X) = np =
100 × 0, 5 = 50 e Var(X) = np(1 − p) = 100 × 0, 5 × 0, 5 = 25. Logo a distribuição da variável
aleatória X pode ser aproximada pelo distribuição N (µ, σ 2 ), com µ = 50 e σ 2 = 25. Queremos
calcular P(40 6 X 6 70). Vamos utilizar o fator de correção. O Valor exato é 0.9824.
P(40 6 X 6 70) ' P(40 − 0.5 6 Y 6 70 + 0.5)

40 − 0.5 − 50 Y − 50 70 + 0.5 − 50
= P 6 6
5 5 5
= P(−2.1 6 Z 6 4.1) = 0, 9821.
(b) Determinar um intervalo simétrico em torno do número médio de caras, tal que a probabilidade
de observar um valor de X nesse intervalo é 80%.
Intervalo simétrico em torno da média: (50 − a, 50 + a). Assim temos que encontrar o valor de a
tal que
P(50 − a 6 X 6 50 + a) = 0, 8.
Para tanto, vamos utilizar a aproximação da Binomial pela Normal, com fator de correção.
P(50 − a 6 X 6 50 + a) ' P(50 − 0.5 − a 6 Y 6 50 + 0.5 + a)

50 − 0.5 − a − 50 Y − 50 50 + 0.5 + a − 50
= P 6 6
5 5 5

−0.5 − a 0.5 + a
= P 6Z6 = 0, 8.
5 5
Precismos encontrar o valor de a tal que

0.5 + a 0.5 + a 0.5 + a 0.5 + a
P − 6Z6 = P Z6 −P Z 6−
5 5 5 5

0.5 + a 0.5 + a
= FZ − FZ −
5 5

0.5 + a
= 1 − 2FZ − = 0, 8.
5
Assim,

0.5 + a 0.5 + a 0.8 − 1
1 − 2FZ − = 0, 8 −→ FZ − =− = 0.1
5 5 2
Pela tabela da distribuição Normal Padrão, temos que FZ (−1.281) ' 0.1000968. Logo,
0.5 + a
− = −1.281 −→ a = 5 × 1.281 − 0.5 −→ a = 5.905
5
Intervalo Procurado: [50 − 5.905; 50 + 5.905] = [44.095; 55.905].

Interpretação: A probabilidade de em 100 lançamentos termos entre 44 e 56 caras é aproximada-
mente 80%.
Probabilidade Exata: P(44 6 X 6 56), onde X ∼ B(100, 0.5) é de 0.8066521.
3.2.4. Aproximação da Poisson pela Normal
Proposição 10. [Aproximação da Poisson pela Normal] Seja X ∼ P (λ). A medida que λ cresce
a distribuição P (λ) se aproxima da distribuição N (µ, σ 2 ), onde µ = λ e σ 2 = λ. A condição
mais importante é: λ > 5.
A demonstração da validade desta aproximação é feita utilizando-se o Teorema do Limite Central,

que será estudado em tempo. Ver Figura 3.20.
Figura 3.20: Aproximação da distribuição P (λ) pela distribuição N (µ, σ 2 ), onde λ ∈

{2, 4, 6, 8, 10, 12, 14, 20}.
Exemplo 3.25. Um processo de produção produz 10 itens defeituosos por hora. Encontre a probabili-
dade de que entre 8 e 15, inclusive,sejam defeituosos numa retirada aleatória por hora.
Solução: Sabemos que X ∼ P (10). Então podemos calcular a probabilidade de maneira exata da
seguinte forma
15 −10 x
X e 10
P(8 6 X 6 15) = = 0.731039.
x!
x=8
Difı́cil de ser calculado a mão. Calculamos computacionalmente.
Vamos utilizar a aproximação Normal. Seja Y ∼ N (µ, σ 2 ), com µ = λ e σ 2 = λ.
P(8 6 X 6 15) ' P(8 6 Y 6 15)

8 − 10 Y − 10 15 − 10
= P √ 6 √ 6 √
10 10 10
= P(−0.63 6 Z 6 1.58) = 0.6785.

P(8 6 X 6 15) ' P(8 − 0.5 6 Y 6 15 + 0.5)

8 − 0.5 − 10 Y − 10 15 + 0.5 − 10
= P √ 6 √ 6 √
10 10 10
= P(−0.79 6 Z 6 1.74) = 0.7443066.
Exemplo 3.26. Considere que o número de partı́culas em uma superfı́cie segue uma distribuição Pois-
son. Suponha que esperamos observar 1000 partı́culas por m2 . Analisamos um metro quadrado da
superfı́cie. Qual a probabilidade de observarmos entre 850 e 1050 partı́culas, inclusive?
Solução: Sabemos que X ∼ P (1000). Então podemos calcular a probabilidade de maneira exata da
seguinte forma
1050
X e−1000 1000x
P(850 6 X 6 1050) = = 0.9440.
x!
x=850
Impossı́vel de ser calculado a mão. Somente computacionalmente.

Vamos utilizar a aproximação Normal. Seja Y ∼ N (µ, σ 2 ), com µ = λ e σ 2 = λ. Valor sem o fator
de Correção:
P(850 6 X 6 1050) ' P(850 6 Y 6 1050)

850 − 1000 Y − 1000 1050 − 1000
= P √ 6 √ 6 √
1000 1000 1000
= P(−4.74 6 Z 6 1.58) = 0.9431.
P(850 6 X 6 1050) ' P(850 − 0.5 6 Y 6 1050 + 0.5)

850 − 0.5 − 1000 Y − 1000 1050 + 0.5 − 1000
= P √ 6 √ 6 √
1000 1000 1000
= P(−4.76 6 Z 6 1.60) = 0.9449.
3.2.5. Modelo Chi-Quadrado χ2

Um caso importante da distribuição Γ(α, β), α, β > 0 é obtido, se tomarmos α = n/2 e β = 1/2,
onde n é um inteiro positivo. Obteremos uma famı́lia de distribuições de um parâmetro.
Se X ∼ Γ(α, β),
β α α−1 −βx
fX (x) = x e I(0,∞) (x).
Γ(α)
Tomando α = n/2 e β = 1/2, temos para x > 0,
(1/2)n/2 n −1 − z
fZ (z) = z 2 e 2 I(0,∞) (z)
Γ(n/2)
1 n z
= z 2 −1 e− 2 I(0,∞) (z).
2n/2 Γ(n/2)
A v.a. Z, que tem f.d.p. fZ (z), é chamada de chi-quadrado, com n graus de liberdade.
Notação: Z ∼ χ2n , ou Z ∼ χ2(n) .

Por ser um caso particular da distribuição Γ(α, β), a distribuição χ2n , tem esperança e variância
dados por

X ∼ Γ(α, β) Z ∼ χ2n


 

 

 
 n 1 
E(X) = αβ −→ α = , β = −→ E(Z) = n

 2 2 


 

 Var(X) = α2
 
Var(Z) = 2n.
β
Para n = 1, temos
1 1 z 1 −1 z
fZ (z) = z 2 −1 e− 2 I(0,∞) (z) = √ z 2 e− 2 I(0,∞) (z).
21/2 Γ(1/2) 2π
Para n = 2, temos
1 z 1 z
fZ (z) = z 0 e− 2 I(0,∞) (z) = e− 2 I(0,∞) (z),
2Γ(1) 2
a qual é a f.d.p da distribuição exponencial.
Para n > 30, podemos utilizar uma aproximação normal à distribuição chi-quadrado. Especifica-
mente, temos o seguinte resultado: Se Z ∼ χ2n , com n graus de liberdade, então a v.a.
√ √
Y = 2Z − 2n − 1 ∼ N (0, 1).
Exemplo 3.27. Consultando a tabela temos que, para n = 30, √ P(Z > 40.25) = 0.1.
√
Utilizando a relação acima, temos que z = 2 × 40, 256 − 2 × 30 − 1 = 1, 291.
Portanto, P(Y > 1, 291)]0.099, onde Y ∼ N (0, 1), que resulta em uma boa aproximação.
Exemplo 3.28. Considere Z ∼ N (0, 1) e a v.a. Y = Z 2 . Qual a distribuição de Y .
√ √ √ √
FY (y) = P(Y = y) = P(Z 2 < y) = P(− y < Z < y) = FZ ( y) − FZ (− y).
Derivando a expressão acima temos

(a)
(b)
Figura 3.21: Distribuição χ2n : (a) função densidade de probabilidade, (b) função de distribuição
acumulada.
1 √ √ 1 √ √
fY (y) = FY0 (y) = √ FZ0 ( y) − FZ0 (− y) = √ [fZ ( y) − fZ (− y)]
2 y 2 y

1 1 1 1
= √ √ e−y/2 − √ e−y/2 ) = √ y −1/2 e−y/2
2 y 2π 2π 2π
Logo, Y ∼ χ21 .
Pn
Teorema 3.1. Sejam X1 , · · · , n v.a. independentes e identicamente distribuı́das e Sn = i=1 Xi .
Então,
i) Sn ∼ χ2n ⇐⇒ X1 ∼ χ21
Pn
ii) X1 ∼ N (0, 1) ⇐⇒ Sn = i=1 Xi ∼ χ2n
iii) Y1 ∼ χ2a e Y2 ∼ χ2b , Y1 e Y2 independentes, então Y1 + Y2 ∼ χ2a+b .
Observação 3.5. Seja X1 , · · · , Xn uma amostra aleatória, com Xj ∼ N (µ, σ 2 ), para j = 1, · · · , n.
1) Então,
n n
X (Xj − µ)2 X 2
= Yj ∼ χ2n ,
σ2
j=1 j=1
(Xj −µ)2
Yj = σ2
, para j = 1, · · · , n
n(X−µ)2
2) Seja Y 2 = σ2
.
Temos que,
σ2
E(X) = µ e Var(X) = ,
n
√
n(X−µ)
logo Y = σ ∼ N (0, 1).
n(X−µ)2
Portanto, Y 2 = σ2
∼ χ21 .
3) No item anterior, se substituirmos a média da população µ pela média amostral X, temos que
n
X (Xj − X)2
∼ χ2n−1 .
σ2
j=1
Como aplicação dessa relação, considera-se o estimador não tendencioso para a variância da amostra
(Xj −X)2
s2 = nj=1 n−1
P
. Assim,
n
(n − 1) X (Xj − X)2 (n − 1)s2
= ∼ χ2n−1 .
σ2 (n − 1) σ2
j=1
3.2.6. Distribuição t de student

Definição 3.8. Sejam X ∼ N (0, 1) e Y ∼ χ2n , X e Y v.a. independentes. Então, a v.a.

√
X nX
T =p = √ ,
Y /n Y
é dita ter distribuição t de student com n graus de liberdade.
A função densidade de probabilidade da v.a. T é dada por
−(n+1)/2
Γ( n+1 t2

2√)
fT (t) = 1− , t ∈ R.
Γ(n/2) nπ n
Notação: T ∼ tn ou T ∼ t(n).
Observação 3.6. 1) Caso particular: se n = 1, temos a distribuição Cauchy Padrão com α = 0 e β = 1,

onde
1
fT (t) = (1 + t2 )−1 , t ∈ R.
π
2) Para n grande, a distribuição t-student se aproxima da distribuição normal.
3) A f.d.p. da distribuição t-student é simétrica em t = 0 e lim fT (t) = 0 = lim fT (t)

t→∞ t→−∞
Figura 3.22: Distribuição tn : Função densidade de probabilidade.
Observação 3.7. Modelo Cauchy: Se X ∼ C(α, β), então

1
fX (x) = ,
πβ(1 + ( x−α 2
β ) )
onde α ∈ R e β > 0.
Propriedades: Seja X ∼ C(α, β), então
i) E(X) = @.
ii) Var(X) = @.
Observação 3.8. Propriedades: Seja X ∼ tn , então
i) E(X) = 0, se n > 1.
n
ii) Var(X) = n−2 , se n > 2.
3.2.7. Modelo F-Snedecor
Definição 3.9. Sejam X e Y v.a. independentes com distribuição χ2m e χ2n , respectivamente. A
v.a.
X/m nX
F = = ,
Y /n mY
é dita ter distribuição F-Snedecor com (m,n) graus de liberdade.
A função densidade de probabilidade da v.a. F é dada por
Γ( m+n
2 )
m m m −1
2 m −( m+n
2
)
fF (x) = x 1 + x I(0,∞) (x).
Γ( m n
2 )Γ( 2 ) n n n
Notação: F ∼ Fm,n ou F ∼ F (m, n).
Observação 3.9. Propriedades:

1
i) Se X ∼ F (m, n) então, X ∼ F (n, m).
ii) Se Z ∼ C(0, 1) = t1 , então Z 2 ∼ F (1, 1).

n
iii) E(F ) = n−2 , para n > 2.
n2 (2m+2n−4)
iv) Var(F ) = n(n−2)2 (n−4)
, para n > 4.
v) Se X ∼ tn , então X 2 ∼ F (1, n).

(a) m ∈ {1.0, · · · , 6.0} e n = 3, 0
(b) m = 3, 0 e n ∈ {1.0, · · · , 6.0}
Figura 3.23: Função Densidade de Probabilidade da distribuição F (m, n).

Material STC1012

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Material STC1012

Enviado por

Direitos autorais:

Formatos disponíveis

Notas de Aula

STC1072 - Probabilidade III

Prof. Cleber Bisognin

1 Variáveis e Vetores Aleatórios 5

2 Caracterı́sticas de Variáveis e Vetores Aleatórios 53

3.2.7. Modelo F-Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

Variáveis e Vetores Aleatórios

X : Ω → R ⇔ [X ≤ x] ∈ A, ∀x ∈ R, para A σ-álgebra em Ω. (1.1)

Figura 1.1: Fonte: Wikipédia

Variáveis aleatórias podem ser discretas ou contı́nuas.

1.1 Variáveis Aleatórias Discretas

Ω = {k, ck, cck, ccck, cccck, . . . },

Figura 1.2: Variável aleatória: máximo de 2 dados.

(a) Defina um espaço amostral para esse experimento.

(b) ΩX = {1, 2, 3, 4}.

(b) Seja X = CR médio dos alunos sorteados. Liste os possı́veis valores de X.

(c) Liste o evento {X > 9.0}.

A (8.8) B (9.2) C (8.9) D (9.5) E (9.0)

(a) sem reposição;

(b) com reposição.

1.1.1. Função Massa de Probabilidade

O cálculo da fdp de uma v.a. X qualquer se dá em três etapas:

(i) primeiro, temos que identificar todos os possı́veis valores x da v.a.X;

Como cada ponto do espaço amostral é equiprovável, a fmp de X é:

{X = 0} = {coroa nos 10 lançamentos} = {C1 ∩ · · · ∩ C10 }

Podemos considerar os lançamentos da moeda como eventos independentes. Logo,

P(X = 0) = P(C1 ) × · · · × P(C10 ) = (1 − p)10

P(KCCCCCCCCC) = p(1 − p)9

Figura 1.4: Função Massa de Probabilidade da v.a. X = número de caras em 10 lançamentos.

Exemplo 1.9. Considere a função dada na tabela abaixo.

1.1.2. Função de Distribuição ou Função de Probabilidade Acumulada

FX (x) = 0, para todo x < 1.

FX (x) = P (X 6 x) = 1, para todo x > 6.

(ii) lim FX (x) = 1;

(iii) lim FX (x) = 0;

(v) FX (x) uma função contı́nua à direita.

Exemplo 1.11. Considere a v.a. X cuja fmp é dada na tabela abaixo:

Encontre a função de distribuição acumulada e faça o seu gráfico.

Exemplo 1.12. A variável X tem função de distribuição Acumulada dada por:

(a) Obtenha a correspondente função massa de probabilidade.

1.2 Variáveis Aleatórias Contı́nuas

Definição 1.4. Seja E um experimento e Ω um espaço amostral associado. Se X é uma variável

(i) tempo de vida de um animal;

(ii) vida útil de um componente eletrônico;

(iii) peso de uma pessoa;

(iv) quantidade de chuva que ocorre numa região;

(v) tempo de espera até a chegada do próximo cliente.

1.2.1. Função densidade de probabilidade

(i) fX (x) > 0, para todo x ∈ ΩX ;

Figura 1.7: Probabilidade calculada atráves da função desnidade de probabilidade.

Uma primeira observação importante que resulta da interpretação geométrica de probabilidade

(i) fX (x) > 0, para todo x ∈ ΩX ;

Figura 1.8: Função densidade de probabilidade dada pela equação (1.3).

−14c2 + 48c − 14c + 48 = 24 → −14c2 + 34c + 24 = 0 → 14c2 − 34c − 24 = 0

 3(1 − x)2 , se 0 6 x < 12 ;

(a) o computador funcione entre 50 e 100 horas antes de estragar?

(b) ele funcione menos de 100 horas?

(b) Da mesma forma temos

1.2.2. Função de distribuição de Probabilidade ou Função Acumulada

Figura 1.9: Função densidade de probabilidade dada pela equação (1.9).

Encontre a função de distribuição.

Solução: Para x < A, temos

Para A 6 x < B, temos