Escolar Documentos
Profissional Documentos
Cultura Documentos
3 Principais Distribuições 75
3.1 Principais Distribuições Discretos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.1.1. Modelo Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.1.2. Modelo Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.1.3. Modelo Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.1.4. Modelo Geométrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.2 Principais Distribuições Contı́nuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3.2.1. Modelo Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3.2.2. Modelo Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.2.3. Aproximação da Binomial pela Normal . . . . . . . . . . . . . . . . . . . . . . 96
3.2.4. Aproximação da Poisson pela Normal . . . . . . . . . . . . . . . . . . . . . . . 101
3.2.5. Modelo Chi-Quadrado χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
3.2.6. Distribuição t de student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4 SUMÁRIO
Variável aleatória pode ser entendida como o resultado numérico de operar um mecanismo não deter-
minı́stico ou de fazer uma experiência não determinı́stica para gerar resultados aleatórios.
Definição 1.1. A variável aleatória é uma função de um espaço amostral Ω nos números reais,
isto é:
Fonte: http://bit.do/eGFtD.
X = num. de coroas até que ocorra cara; Ω = num. de lançamentos até que ocorra cara;
ΩX = {0, 1, 2, 3, 4, . . . }, ΩY = {1, 2, 3, 4, 5 . . . },
X : Ω → ΩX Y : Ω → ΩY
X(k) = 0, Y (k) = 1,
X(ck) = 1; Y (ck) = 2;
Exemplo 1.2. Um homem possui 4 chaves em seu bolso. Como está escuro, ele não consegue ver qual
a chave correta para abrir a porta de sua casa. Ele testa cada uma das chaves até encontrar a correta.
(b) Defina a v.a. X = número de chaves experimentadas até conseguir abrir a porta (inclusive a chave
correta). Quais são os valores de X?
Solução:
(a) Vamos designar por C a chave da porta e por E1 , E2 e E3 as outras chaves. Se ele para de testar
as chaves depois que acha a chave correta, então o espaço amostral é:
Ω= C,E1 C,E2 C,E3 C,E1 E2 C,E2 E1 C, E1 E3 C, E3 E1 C, E2 E3 C,E3 E2 C
E1 E2 E3 C,E1 E3 E2 C,E2 E1 E3 C,E2 E3 E1 C,E3 E1 E2 C,E3 E2 E1 C
Exemplo 1.3. Dentre os 5 alunos de um curso com coeficiente de rendimento (CR) superior 8.5, dois
serão sorteados para receber uma bolsa de estudos. Os CRs desses alunos são: 8.8; 9.2; 8.9; 9.5; 9.0.
(a) Designando por A, B, C, D e E os alunos, defina um espaço amostral para esse experimento.
Solução:
5
(a) Note que aqui a ordem não importa; logo, #Ω = = 10. Mais especificamente,
2
Ω = {(A, B), (A, C), (A, D), (A, E), (B, C), (B, D), (B, E), (C, D), (C, E), (D, E)}
(b) Usando uma tabela de duas entradas podemos representar os valores de X da seguinte forma:
(c) {X > 9} = {(A, B), (A, D), (B, C), (B, D), (B, E), (C, D), (D, E)}.
Exemplo 1.4. Numa urna há 7 bolas brancas e 4 bolas verdes. Cinco bolas são extraı́das dessa urna.
Defina a v.a. X = número de bolas verdes. Quais são os possı́veis valores de X se as extrações são
feitas:
Solução:
(a) Como há apenas 4 verdes, os valores de X são 0, 1, 2, 3, 4. Note que temos bolas brancas em
quantidade suficiente para que X = 0 (isto é, podemos tirar todas brancas).
(b) Se as extrações são feitas com reposição, em cada extração podemos tirar bola branca. Logo, os
possı́veis valores de X são 0, 1, 2, 3, 4, 5.
8 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS
{X = 6} ≡ {(6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6), (1, 6), ((2, 6), ((3, 6), ((4, 6), ((5, 6)}
e, assim
P(X = 6) = P{(6, 1) ∪ (6, 2) ∪ (6, 3) ∪ (6, 4) ∪ (6, 5) ∪ (6, 6) ∪ (1, 6) ∪ (2, 6) ∪ (3, 6) ∪ (4, 6) ∪ (5, 6)}
Como os eventos expressão acima são mutuamente exclusivos e igualmente prováveis, resulta que
1 11
P(X = 6) = 11 × = .
36 36
De maneira análogo, temos
1 3 5
P(X = 1) = , P(X = 2) = P(X = 3) =
36 36 36
7 9 11
P(X = 4) = P(X = 5) = P(X = 6) = .
36 36 36
Definição 1.2. Seja X uma variável aleatória discreta e ΩX o seu espaço amostral. A função
massa de probabilidade P (X = x), ou simplesmente pX (x), será a função que associa a cada
valor de X a sua probabilidade de ocorrência, desde que atenda duas condições:
Função Massa de probabilidade:
1) pX (x) ≥ 0, ∀x ∈ ΩX ;
P
2) x∈ΩX pX (x) = 1.
(ii) segundo, temos que identificar os resultados que dão origem a cada valor x e suas respectivas
probabilidades;
(iii) finalmente, temos que somar todas essas probabilidades para obter pX (x).
Exemplo 1.5. Considerando novamente a v.a. definida na Figura ?? (máximo das duas faces), podemos
resumir a fmp da variável em questão na seguinte tabela:
x 1 2 3 4 5 6
1 3 5 7 9 11
pX (x) 36 36 36 36 36 36
1.1. VARIÁVEIS ALEATÓRIAS DISCRETAS 9
Exemplo 1.6. Consideremos novamente o lançamento de dois dados mas agora vamos definir a seguinte
v.a. X = soma das 2 faces. Para facilitar a solução desse problema, vamos construir uma tabela de
duas entradas, onde cada dimensão representa o resultado de um dado e em cada cela temos a soma
das duas faces.
1 2 3 4 5 6
1 2 3 4 5 6 7
2 3 4 5 6 7 8
3 4 5 6 7 8 9
4 5 6 7 8 9 10
5 6 7 8 9 10 11
6 7 8 9 10 11 12
x 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
pX (x) 36 36 36 36 36 36 36 36 36 36 36
A função de massa de probabilidade de uma v.a. discreta X que assume um número finito de
valores pode ser representada por um gráfico de colunas, onde a cada valor de X corresponde uma
coluna cuja altura representa a probabilidade do respectivo valor. Na Figura ?? ilustra-se a fmp da
v.a. X do Exemplo 1.6.
Figura 1.3: Função Massa de Probabilidade da v.a. X = soma das faces de dois dados.
Exemplo 1.7. Suponha que uma moeda é lançada 10 vezes e vamos definir a v.a. X = número de
caras. Suponhamos que a probabilidade de cara seja p e, por conseguinte, a probabilidade de coroa
é 1 − p. Os possı́veis valores de X são 0, 1, 2, . . . , 10. Vamos agora calcular a probabilidade de
cada um desses valores, estabelecendo a equivalência dos eventos envolvidos. Para isso vamos usar a
notação Ki = cara no i-ésimo lançamento e Ci = coroa no i-ésimo lançamento.
P(KKCCCCCCCC) = p2 (1 − p)8
10
Mas, existem maneiras de colocar caras numa sequência de 10 lançamentos e todas tem a
2
mesma probabilidade. Portanto,
10 2
P(X = 2) = p (1 − p)8 .
2
Em geral, para qualquer valor de x temos
10 x
P(X = x) = p (1 − p)1−x , x = 0, 1, 2, · · · , 10.
x
Na Figura 1.3 apresentamos a fmp para diferentes valores de p.
Exemplo 1.8. Considere uma urna com 10 bolas, das quais 6 são vermelhas e 4 brancas. Dessa urna
retiram-se 3 bolas sem reposição e conta-se o número de bolas brancas retiradas. Qual é a distribuição
dessa variável aleatória?
Solução: Os possı́veis valores de X são 0,1,2,3. Para calculara probabilidade
de cada um desses
10
valores, devemos notar inicialmente que o espaço amostral tem eventos elementares. O evento
3
{X = 0} corresponde à união dos eventos (sequências) onde não aparece nenhumabola branca
ou,
6 4 6
equivalentemente, onde todas as bolas são vermelhas; o número de tais sequências é = .
3 0 3
Logo,
6 4
3 0 20
P(X = 0) = = .
10 120
3
Analogamente, o evento {X = 1} corresponde
àunião dos eventos onde aparece 1 bola branca e 2
6 4
vermelhas. O número de tais sequências é e, logo
2 1
1.1. VARIÁVEIS ALEATÓRIAS DISCRETAS 11
6 4
2 1 60
P(X = 1) = = .
10 120
3
Analogamente,
6 4
1 2 36
P(X = 2) = = ,
10 120
3
6 4
0 3 4
P(X = 3) = = .
10 120
3
Portanto,
x 0 1 2 3
1 1 3 1
pX (x) 6 2 10 30
12 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS
Figura 1.5: Função Massa de Probabilidade da v.a. X = Número de bolas brancas em 3 extrações de
uma urna com 6 vermelhas e 4 brancas.
Estabeleça condições sobre a, de modo que a função g(x) seja uma função massa de probabilidade.
Definição 1.3. Seja X uma variável aleatória discreta e ΩX o seu espaço amostral. A função de
distribuição, denotada por FX (x) ou P (X 6 x), é a função que associa a cada valor de X a
probabilidade P (X 6 x). Desta forma, temos
X X
FX (x) = P (X 6 x) = P (X = x) = pX (x). (1.2)
X6x X6x
1.1. VARIÁVEIS ALEATÓRIAS DISCRETAS 13
Exemplo 1.10. Voltando ao Exemplo 1.5, temos que a fmp da v.a. X = máximo das duas faces é dada
por
x 1 2 3 4 5 6
1 3 5 7 9 11
pX (x) 36 36 36 36 36 36
Para calcular a fda de X, notemos inicialmente que nenhum valor menor que 1 é possı́vel. Logo,
1
FX (x) = P (X 6 1) + P(1 < X < x) = FX (1) + 0 = FX (1) = para todo 1 6 x < 2.
36
Analogamente, temos
1 3 4
FX (2) = P (X 6 2) = P(X 6 1) + P(1 < X < 2) + P(X = 2) = +0+ = .
36 36 36
4
FX (x) = P (X 6 x) = para todo 2 6 x < 3,
36
Seguindo o mesmo raciocı́nio temos
9
FX (x) = P (X 6 x) = para todo 3 6 x < 4,
36
16
FX (x) = P (X 6 x) = para todo 4 6 x < 5
36
25
FX (x) = P (X 6 x) = para todo 5 6 x < 6.
36
Para x > 6 devemos notar que o evento {X 6 x} corresponde ao espaço amostral completo. Logo
Propriedades:
(i) 0 6 FX (x) 6 1;
14 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS
Figura 1.6: Função Distribuição Acumulada v.a. X = máximo das duas faces.
(iv) FX (x) é uma função não decrescente, isto é, para qualquer a < b, temos FX (a) 6 FX (b);
x -2 -1 0 1 2 3
pX (x) 0.1 0.2 0.2 0.3 0.1 0.1
(b) Expresse P(X > 0) e P(X > 0) em termos de FX (x) e calcule seus valores.
1.2. VARIÁVEIS ALEATÓRIAS CONTÍNUAS 15
(c) Expresse P(X > −1) e P(X > −1)em termos de FX (x) e calcule seus valores. Comente sobre as
diferenças em relação aos resultados de (b).
Solução:
Se X é uma variável aleatória contı́nua, X pode assumir qualquer valor num intervalo [a, b] ou no
intervalo (−∞; +∞).
O espaço ΩX será sempre definido como um intervalo do conjunto dos reais, sendo, portanto, um
conjunto infinito.
Exemplos:
Definição 1.5. Seja X uma variável aleatória contı́nua e ΩX o seu espaço associado. Uma função
fX (·) associada a variável X é denominada função densidade de probabilidade (fdp) se satisfizer
duas condições:
Observação 1.1. Dada uma função fX (x) satisfazendo as propriedades acima, então fX (x) representa
função densidade de probabilidade de alguma variável aleatória contı́nua X, de modo que P(a 6 X 6 b)
é a área sob a curva limitada pelos pontos a e b, conforme a Figura 1 a seguir.
Para obter a probabilidade da variável aleatória estar em um certo intercalo [a, b], fazemos a integral
da função densidade de probabilidade no intervalo. Assim,
Z b
P(a 6 X 6 b) = fX (x).
a
Exemplo 1.13. Seja a função fX (x) = 2x, no intervalo ΩX = [0, 1]. Verifique se a função abaixo é uma
função densidade de probabilidade.
2x, se 0 6 x 6 1;
fX (x) = (1.3)
0, c.c.
1.2. VARIÁVEIS ALEATÓRIAS CONTÍNUAS 17
Solução:
Exemplo 1.14. Vamos avaliar para que valores da constante c ∈ R, a função abaixo representa uma
função densidade de probabilidade.
2 1
c(1 − x) , se 0 6 x < 2 ;
1 1
f (x) = , se 2 6 x 6 1; (1.4)
(c+1)
0, c.c.
Verifique as condições para que a função acima seja uma função densidade de probabilidade.
Solução: Z ∞
As condições que precisam ser satisfeitas pela função f (·) são f (x) > 0 e f (x)dx = 1. Observe
−∞
que, se c > 0, temos f (x) não negativa. Agora devemos obter os valores de c que satisfaçam a segunda
condição. Assim, temos que
1
Z ∞ Z 0 Z Z 1 Z ∞
2
2 1
f (x)dx = 0dx + c(1 − x) dx + dx + 0dx = 1,
−∞ −∞ 0 1 (c + 1) 1
2
o que resulta em
1
2
1
−(1 − x)3 x
c + =1 → 7c2 − 17c − 12 = 0.
3 (c + 1) 1
0 2
Da mesma forma
1
Z Z 1
2 1
c(1 − x)2 dx + dx = 1
0 1 (c + 1)
2
18 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS
1
Z Z 1
2
2 1
c(1 − 2x + x )dx + dx = 1
0 (c + 1)
1
2
"Z 1 1 1
# Z
Z Z 1
2 2 2 1
c 1dx − 2 xdx + x2 dx + dx = 1
1 (c + 1)
0 0 0 2
1 1 1
2 2 2
1
x2 x3 x
c x −2 + + =1
2 3 (c + 1) 1
0 0 0 2
1 1 1 1
c − + + =1
2 4 24 2(c + 1)
7c 1 7c 1 −7c + 24 1
+ =1→1− = → =
24 2(c + 1) 24 2(c + 1) 24 2(c + 1)
Exemplo 1.15. A quantidade de tempo em horas que um computador funciona sem estragar é uma
variável aleatória contı́nua com função densidade de probabilidade dada por
λe−x/100 , se x > 0;
f (x) = (1.6)
0, c.c.
Qual a probabilidade de que:
Solução:
(a) Primeiramente precisamos encontra o valor de λ tal que a função acima seja uma função densidade
de probabilidade. A primeira condição é que f (x) > 0. Para que essa condição seja satisfeita,
temo que ter λ > 0. Para a segunda condição temos que ter
Z ∞ Z 0 Z ∞
1= f (x)dx = 0dx + λe−x/100 dx.
−∞ −∞ 0
Logo,
∞
−x/100 1
1 = −100λe λ → 1 = 100λ → λ= ·
100
0
1.2. VARIÁVEIS ALEATÓRIAS CONTÍNUAS 19
Logo,
1 −x/100
f (x) = 100 e , se x > 0;
(1.7)
0, c.c.
Portanto, a probabilidade de que o computador funcione entre 50 e 100 horas antes de estragar
antes de estragar é dada por
100
Z 100
1 −x/100
P(50 < X < 100) = e dx = −e−x/100 = e−1/2 − e−3/2 ≈ 0.384.
50 100
50
100
Z 100
1 −x/100
P(X < 100) = e dx = −e−x/100 = 1 − e−1 ≈ 0.633.
0 100
0
Definição 1.6. Seja X uma variável aleatória contı́nua e ΩX o seu espaço associado. A função
de distribuição, denotada por FX (x) = P(X 6 x), é a função que associa a cada ponto x ∈ ΩX
a probabilidade P (X 6 x). Desta forma, tem-se:
Z x
FX (x) = P (X 6 x) = fX (y)dy. (1.8)
−∞
Exemplo 1.16. Seja X a espessura de uma determinada chapa de metal, com função densidade de
probabilidade dada por
1
fX (x) = I (x) (1.9)
B − A [A,B]
O gráfico da função de distribuição dado pela equação (1.10) é dada pela Figura 1.10.
Exemplo 1.17. Seja X uma variável aleatória contı́nua que significa o tempo em minutos de um teste.
A função densidade de probabilidade da variável aleatória X é dada por:
1
40 (x − 4), se 8 6 x < 10;
3
fX (x) = 20 , se 10 6 x 6 15; (1.11)
0, c.c.
Figura 1.11: Gráfico da função de densidade de probabilidade dada pela equação (1.11).
x
x
y2 x2
Z
1 1 1
FX (x) = (y − 4)dy = − 4y = − 4x
8 40 40 2 40 2
8
Figura 1.12: Gráfico da função densidade dada pela equação (1.11) para o cálculo da P(9 < X 6 12).
Assim,
Z 10 Z 12
1 3 7
P(9 < X 6 12) = FX (12) − FX (9) = (y − 4)dy + dy = .
8 40 10 20 16
Proposição 1. Seja X uma variável aleatória contı́nua com função densidade fX (x) e função de
distribuição FX (x), então, em cada x cuja derivada FX0 (x) existe, FX0 (x) = dx
d
FX (x) = fX (x).
0, se x 6 A;
x−A
FX (x) = B−A , se A 6 x < B; (1.13)
1, se x > B.
Pela equação (1.15), η(p) é o valor no eixo x tal que 100p% da área sob o gráfico de fX (x)
encontra-se à esquerda de η(p) e 100(1 − p)% encontra-se à direita.
Figura 1.13: Quantil de probabilidade p100% da distribuição de uma variável aleatória contı́nua X.
Exemplo 1.19 (Devore, 2016). A distribuição da quantidade de cascalho (em toneladas) vendida para
uma determinada loja de materiais de construção em uma determinada semana é uma v.a. contı́nua
X com função densidade de probabilidade dada por
3
fX (x) = (1 − x2 )I[0,1] (x). (1.16)
4
Solução: A função de distribuição da v.a. é dada por
0,
se x 6 0;
3 x3
FX (x) =
2 x − 3 , se 0 6 x < 1; (1.17)
1, se x > 1.
1.3. VETORES ALEATÓRIOS 23
Os gráficos das f.d.p. e da f.d. dados, respectivamente, pelas equações (1.11) e (1.10) são apresen-
tados na Figura 1.14. O (100p)−ésimo percentil dessa distribuição satisfaz a equação
(η(p))3
3
p = FX (η(p)) = η(p) −
2 3
ou seja,
(η(p))3 − 3η(p) + 2p = 0.
Para encontrarmos o 500 percentil, assumimos p = 0.5, e a equação a ser resolvida é (η(0.5))3 −
3η(0.5) + 1 = 0; a solução é η(0.5) = 0.347. Se a distribuição continuar de semana para semana, no
longo prazo, 50% de todas as semanas resultarão em vendas de menos de 0.347 toneladas e 50% em
mais de 0.347 toneladas.
Figura 1.14: A f.d.p. e da f.d. dados, respectivamente, pelas equações (1.11) e (1.10) .
Exemplo 1.20. [Bussab e Morettin, 2017] Suponha que estamos interessados em estudar a composição
de famı́lias com três crianças, quanto ao sexo. Definimos:
X= número de meninos;
1, se o primeiro filho for homem;
Y =
0, se o primeiro filho for mulher;
Z=numero de vezes em que houve variação do sexo entre um nascimento e outro, dentro da mesma
famı́lia.
Com estas informações, e supondo que as possı́veis composições tenham a mesma probabilidade,
temos a tabela a seguir.
Solução:
x 0 1 2 3 y 0 1 z 0 1 2
1 3 3 1 1 1 1 1 1
pX (x) 8 8 8 8 pY (y) 2 2 pZ (z) 4 2 4
24 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS
Eventos Probabilidade X Y Z
1
HHH 8 3 1 0
1
HHM 8 2 1 1
1
HMH 8 2 1 2
1
MHH 8 2 0 1
1
HMM 8 1 1 1
1
MHM 8 1 0 2
1
MMH 8 1 0 1
1
MMM 8 0 0 0
(x, y) p(x, y)
1
(0, 0) 8
2
(1, 0) 8
1
(1, 1) 8
1
(2, 0) 8
2
(2, 1) 8
1
(3, 1) 8
(x, y, z) p(x, y, z)
1
(0, 0, 0) 8
1
(1, 0, 1) 8
1
(1, 0, 2) 8
1
(1, 1, 1) 8
1
(2, 0, 1) 8
1
(2, 1, 1) 8
1
(2, 1, 2) 8
1
(3, 1, 0) 8
Y \X 0 1 2 3 pY (y)
1 2 1 1
0 8 8 8 0 2
1 2 1 1
1 0 8 8 8 2
1 3 3 1
pX (x) 8 8 8 8 1
1.3. VETORES ALEATÓRIOS 25
Definição 1.8. Seja (X, Y ) um vetor aleatório onde X e Y são variáveis aleatórias discretas
definidas no mesmo espaço amostral Ω de um experimento aleatório. A função massa de pro-
babilidade conjunta p(x, y) é definida para cada par (x, y) por
Exemplo 1.21. [Devore, 2016] Uma grande agência de seguros presta serviços a diversos clientes que
compraram uma apólice de seguros residencial e uma outra para automóvel. Para cada uma, deve ser
especificado um mı́nimo dedutı́vel. para a apólice de automóvel as opções são R$ 100,00 e R$ 250,00,
enquanto, para uma apólice residencial, as opções são 0, R$ 100,00 e R$ 200,00. Suponha que um
indivı́duo com os dois referidos tipos de apólice seja selecionado aleatoriamente do banco de dados
da seguradora. Seja X = valor dedutı́vel na apólice do automóvel e Y = valor dedutı́vel na apólice
residencial. A função massa de probabilidade conjunta de (X, Y ) é apresentada a seguir:
X \Y 0 100 200
100 0.2 0.1 0.2
250 0.05 0.15 0.3
P(Y > 100) = p(100, 100) + p(250, 100) + p(100, 200) + p(250, 200) = 0.75.
Exemplo 1.22. Em uma Turma de Introdução à Probabilidade com 34 alunos foram feitas as seguintes
perguntas idade, cidade, número de irmãos, cor preferida e se está ou não matriculado em Cálculo. As
respostas foram tabelas a seguir. Abaixo podem ser encontras as funções de massa de probabilidade
conjuntas e marginais das variáveis aleatórias.
Solução:
Banco de Dados da Turma U de MAT02018 – Estatística Descritiva
Idade
Cidade 16 17 18 19 20 21 22 25 26 28 29 32 39 54 P(C=c)
Blumenau 0 1/34 0 0 0 0 0 0 0 0 0 0 0 0 1/34
Esteio 0 0 1/34 0 0 0 0 0 0 0 0 0 0 0 1/34
Fortaleza 0 0 0 0 0 0 0 0 0 0 0 0 1/34 0 1/34
Ijuí 0 0 0 0 1/34 0 0 0 0 0 0 0 0 0 1/34
Novo Hamburgo 0 0 0 1/34 0 0 0 0 0 0 0 0 0 0 1/34
POA 1/34 2/17 2/17 3/34 1/34 3/34 1/34 0 1/34 1/17 1/17 0 0 0 11/17
Rio Grande 0 0 0 0 0 0 0 0 0 0 0 1/34 0 0 1/34
RJ 0 0 0 0 0 0 0 0 0 0 0 0 0 1/34 1/34
Roca Sales 0 1/34 0 0 0 0 0 0 0 0 0 0 0 0 1/34
San Antônio-VNZ 0 0 1/34 0 0 0 0 0 0 0 0 0 0 0 1/34
Santa Maria 0 0 0 0 0 1/34 0 0 0 0 0 0 0 0 1/34
Sapucaia do Sul 0 0 0 0 0 0 0 1/34 0 0 0 0 0 0 1/34
Triunfo 0 0 0 0 0 1/34 0 0 0 0 0 0 0 0 1/34
P(ID=id) 1/34 3/17 3/17 2/17 1/2 5/34 1/34 1/34 1/34 4/17 1/17 1/34 1/34 1/34 1
Função Massa de Probabilidade Conjunta e Funções Massa de Probabilidade
Marginas das
Variáveis Aleatórias Idade (ID) e Cor (CO)
Idade
Cor 16 17 18 19 20 21 22 25 26 28 29 32 39 54 Total Geral
Amarelo 1 1
Azul 2 2 1 1 1 7
Preto 1 4 1 2 2 1 1 1 1 14
Verde 1 1 1 1 4
Vermelho 2 2 2 1 1 8
Total Geral 1 6 6 4 2 5 1 1 1 2 2 1 1 1 34
Idade
Cor $16$ $17$ $18$ $19$ $20$ $21$ $22$ $25$ $26$ $28$ $29$ $32$ $39$ $54$ P(CO=co)
Amarelo 0 0 0 0 0 0 0 0 0 0 0 1/34 0 0 1/34
Azul 0 0 1/17 0 0 1/17 0 1/34 0 1/34 0 0 1/34 0 7/34
Preto 1/34 2/17 1/34 1/17 1/17 1/34 1/34 0 1/34 0 1/34 0 0 0 7/17
Verde 0 0 1/34 0 0 1/34 0 0 0 1/34 0 0 0 1/34 2/17
Vermelho 0 1/17 1/17 1/17 0 1/34 0 0 0 0 1/34 0 0 0 4/17
P(ID=id) 1/34 3/17 3/17 2/17 1/17 5/34 1/34 1/34 1/34 1/17 1/17 1/34 1/34 1/34 1
Função Massa de Probabilidade Conjunta e Funções Massa de Probabilidade
Marginas das
Variáveis Aleatórias Cidade(C) e Número de Irmãos (IR)
Número de Irmãos
Cidade 0 1 2 3 Total Geral
Blumenau 1 1
Esteio 1 1
Fortaleza 1 1
Ijuí 1 1
Novo Hamburgo 1 1
POA 2 9 6 5 22
Rio Grande 1 1
RJ 1 1
Roca Sales 1 1
San Antônio-VNZ 1 1
Santa Maria 1 1
Sapucaia do Sul 1 1
Triunfo 1 1
Total Geral 4 14 9 7 34
Número de Irmãos
P(C=c)
Cidade 0 1 2 3
Blumenau 0 1/34 0 0 1/34
Esteio 1/34 0 0 0 1/34
Fortaleza 0 1/34 0 0 1/34
Ijuí 0 0 1/34 0 1/34
Novo Hamburgo 0 1/34 0 0 1/34
POA 1/17 9/34 3/17 5/34 11/17
Rio Grande 0 0 1/34 0 1/34
RJ 0 0 0 1/34 1/34
Roca Sales 0 1/34 0 0 1/34
San Antônio-VNZ 0 0 0 1/34 1/34
Santa Maria 1/34 0 0 0 1/34
Sapucaia do Sul 0 1/34 0 0 1/34
Triunfo 0 0 1/34 0 1/34
P(IR=ir) 2/17 7/17 9/34 7/34 1
Funções Massa de Probabilidade Marginas das
Variáveis Aleatórias Cidade(C), Cores (CO), Idade (ID) e Número de Irmãos (IR)
Sapucaia do Sul
Santa Maria
Rio Grande
Roca Sales
Blumenau
Fortaleza
Triunfo
Cidade
Esteio
Soma
POA
Ijuí
RJ
P(C=c) 1/34 1/34 1/34 1/34 1/34 11/17 1/34 1/34 1/34 1/34 1/34 1/34 1/34 1
N Irmãos 0 1 2 3 Soma
A função massa de probabilidade de apenas uma das variáveis é obtida pela soma de p(x, y) em
relação aos valores da outra variável. O resultado é denominado de f.m.p. marginal porque, quando
os valores p(x, y) são exibidos em uma tabela, as somas são apenas totais marginais.
X 100 250
pX (x) 0.5 0.5
Y 0 100 250
pY (y) 0.25 0.25 0.5
Exemplo 1.24. [Magalhães e Lima, 2004] Uma região foi subdividida em 10 sub-regiões Em cada uma
delas foram observadas duas variáveis: número de poços artesianos (X) e número de rios presentes na
sub-região (Y). Os resultados foram os seguintes:
Sub-região 1 2 3 4 5 6 7 8 9 10
X 0 0 0 0 1 2 1 2 2 0
Y 1 2 1 0 1 0 0 1 2 2
Considerando que escolhemos uma das sub-regiões ao acaso, isto é, cada sub-região têm a mesma
1
probabilidade 10 de ser escolhida, podemos construir a distribuição conjunta de (X, Y ).
36 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS
(X, Y ) p(x, y)
(0, 0) 0.10
(0, 1) 0.20
(0, 2) 0.20
(1, 0) 0.10
(1, 1) 0.10
(2, 0) 0.10
(2, 1) 0.10
(2, 2) 0.10
Total 1.00
Visualmente podemos montar a tabela a seguir, onde apresentamos as funções massa de probabi-
lidade marginais.
X \Y 0 1 2 P(X = x)
0 0.1 0.2 0.2 0.5
1 0.1 0.1 0 0.2
2 0.1 0.1 0.1 0.3
P(Y = y) 0.3 0.4 0.3 1
X 0 1 2 Y 0 1 2
P(X = x) 0.5 0.2 0.3 P(Y = y) 0.3 0.4 0.3
Proposição 3. Seja X um vetor aleatório contı́nuo em (Ω, F, P). Então sua função densidade
de probabilidade satisfaz as seguintes propriedades:
Definição 1.10. [Devore, 2016] Seja (X, Y ) um vetor aleatório contı́nuo. Então, f (x, y) é a
função densidade de probabilidade conjunta de X e Y se, para qualquer conjunto bidimensional
A, temos que
Z Z
P((X, Y ) ∈ A) = f (x, y)dxdy.
A
Exemplo 1.25. [Devore,2016] Um banco opera tanto numa instalação drive-through como em guichê.
Em um dia selecionado ao acaso, assuma X= a proporção de tempo em que a instalação drive-through
1.3. VETORES ALEATÓRIOS 37
está em uso (ao menos um cliente está sendo atendido ou esperando para ser atendido) e Y = a
proporção de tempo em que o guichê de atendimento está em uso. Suponha que a função densidade
conjunta de (X, Y ) seja dada por:
6
+ y 2 ), se 0 6 x 6 1, 0 6 y 6 1;
f (x, y) = 5 (x
0, caso contrário.
Solução:
Z ∞ Z ∞
(i) Temos que f (x, y) > 0, para todo (x, y). Temos que verificar se f (x, y)dxdy = 1.
−∞ −∞
Z ∞ Z ∞ Z 1Z 1
6
f (x, y)dxdy = (x + y 2 )dxdy
−∞ −∞ 0 0 5
Z 1Z 1 Z 1Z 1
6 6 2
= xdxdy + y dxdy
0 0 5 0 0 5
Z 1 Z 1
6 6 2 6 6
= xdx + y dy = + = 1.
0 5 0 5 10 15
Z 0.25 Z 0.25
6
P(0 6 X 6 0.25, 0 6 Y 6 0.25) = (x + y 2 )dxdy
0 0 5
Como acontece com a f.m.p. conjunta, cada uma das funções densidades marginais pode ser
calculada pela f.d.p. conjunta.
6
+ y 2 ), se 0 6 x 6 1, 0 6 y 6 1;
f (x, y) = 5 (x
0, caso contrário.
Exemplo 1.27. [Dudewicz e Mishra, 1988] Seja f (·) a seguir uma função de três variáveis.
√
kxy 2 z, se 0 6 x 6 1, 0 6 y 6 1, 0 6 z 6
2;
f (x, y) =
0, caso contrário.
(i) Encontre k tal que f (·) seja uma função densidade de probabilidade.
Solução:
P(X = xi , Y = yj )
P(X = xi |Y = yj ) = ,
P(Y = yj )
para cada j fixo. Da mesma forma podemos definir a função massa de probabilidade condicional
de Y, dado que ocorreu X por
P(X = xi , Y = yj )
P(Y = yj |X = xi ) = ,
P(X = xi )
sempre que P(X = xi ) > 0.
Exemplo 1.28 (Rohatgi, 1976). Sejam X e Y variáveis aleatórias discretas com função massa de
probabilidade conjunta dada por
1.4. FUNÇÕES CONDICIONAIS 39
Y \X 0 1 2 3 P(Y = y)
3 3 6
1 0 8 8 0 8
1 1 2
3 8 0 0 8 8
1 3 3 1
P(X = x) 8 8 8 8 1
P(X = 0, Y = 1) 0
P(X = 0|Y = 1) = = =0
P(Y = 1) 6/8
P(X = 1, Y = 1) 3/8 1
P(X = 1|Y = 1) = = =
P(Y = 1) 6/8 2
P(X = 2, Y = 1) 3/8 1
P(X = 2|Y = 1) = = =
P(Y = 1) 6/8 2
P(X = 3, Y = 1) 0
P(X = 3|Y = 1) = = =0
P(Y = 1) 6/8
P(X = 0, Y = 3) 1/8 1
P(X = 0|Y = 3) = = =
P(Y = 3) 2/8 2
P(X = 1, Y = 3) 0
P(X = 1|Y = 3) = = =0
P(Y = 3) 2/8
P(X = 2, Y = 3) 0
P(X = 2|Y = 3) = = =0
P(Y = 3) 2/8
P(X = 3, Y = 3) 1/8 1
P(X = 3|Y = 3) = = =
P(Y = 3) 2/8 2
Agora calculamos P(Y = yj |X = xi ).
P(X = 0, Y = 1) 0
P(Y = 1|X = 0) = = =0
P(X = 0) 1/8
P(X = 0, Y = 3) 1/8
P(Y = 3|X = 0) = = =1
P(X = 0) 1/8
P(X = 1, Y = 1) 3/8
P(Y = 1|X = 1) = = =1
P(X = 1) 3/8
P(X = 1, Y = 3) 0
P(Y = 3|X = 1) = = =0
P(X = 1) 3/8
P(X = 2, Y = 1) 3/8
P(Y = 1|X = 2) = = =1
P(X = 2) 3/8
P(X = 2, Y = 3) 0
P(Y = 3|X = 2) = = =0
P(X = 2) 3/8
P(X = 3, Y = 1) 0
P(Y = 1|X = 3) = = =0
P(X = 3) 1/8
P(X = 3, Y = 3) 1/8
P(Y = 3|X = 3) = = =1
P(X = 3) 1/8
40 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS
f (x, y)
fX|Y (x|y) = ,
fY (y)
Da mesma forma podemos definir a função densidade de probabilidade condicional de Y, dado
que ocorreu X por
f (x, y)
fY |X (y|x) = ·
fX (x)
Para variáveis aleatórias contı́nuas, a variável que está condicionando está fixa.
Exemplo 1.29. [Magalhães, 2006] Sejam X e Y variáveis aleatórias contı́nuas com função densidade
de probabilidade conjunta dada por
(x + y), se 0 6 x 6 1, 0 6 y 6 1;
f (x, y) =
0, caso contrário.
Encontre as funções densidade de probabilidade condicionais.
Solução: Primeiramente precisamos encontrar as funções densidade marginais.
Z 1 Z 1 1
y 2
fX (x) = f (x, y)dy = (x + y)dy = xy + = x + 1 , 0 6 x 6 1;
0 0 2 2
0
1
1 1
x2
Z Z
fY (y) = f (x, y)dx = (x + y)dx = xy + = y + 1, 0 6 y 6 1;
0 0 2 2
0
f (x, y) x+y
fX|Y (x|y) = = , 06x61
fY (y) y + 12
com 0 6 y 6 1 fixo.
Da mesma forma,
f (x, y) x+y
fY |X (y|x) = = , 06y61
fX (x) x + 12
com 0 6 x 6 1 fixo.
Exemplo 1.30. [Bussab e Morettin, 2017] Sejam X e Y variáveis aleatórias contı́nuas com função
densidade de probabilidade conjunta dada por
6(1 − x − y), se 0 < x < 1, 0 < y < 1 − x;
f (x, y) =
0, caso contrário.
Encontre as funções densidade de probabilidade condicionais.
Solução: Primeiramente precisamos encontrar as funções densidade marginais. O domı́nio de variação
dos pares (x, y) é o triângulo da Figura 1.15
As funções densidades marginais são dadas por
1.4. FUNÇÕES CONDICIONAIS 41
1−x
1−x
y2
Z
fX (x) = 6(1 − x − y)dy = 6[y − xy − ] = 3(x − 1)2 , 0 < x < 1,
0 2
0
Z 1−y
fY (y) = 6(1 − x − y)dx = 3(y − 1)2 , 0 < y < 1.
0
f (x, y) 2(1 − x − y
fX|Y (x|y) = = , 0 < x < 1 − y,
fY (y) (y − 1)2
para 0 < y < 1 fixo.
f (x, y) 2(1 − x − y
fY |X (y|x) = = , 0 < y < 1 − x.
fX (x) (x − 1)2
para 0 < x < 1 fixo.
Definição 1.14. Duas variáveis aleatórias X e Y são independentes se, para cada par de valores
x e y, temos:
Exemplo 1.31. [Prob. Estat. IM-UFRJ, 2017] Considere a população de todos os apartamentos
que, em determinado dia, estejam anunciados para venda no site de uma imobiliária. Sejam X e
Y , receptivamente, o número de vagas de garagem e o número de varandas correspondente a um
apartamento anunciado no site.
Y
X 0 1 2 P(X = x)
0 0.2 0.15 0.15 0.5
1 0.16 0.12 0.12 0.4
2 0.04 0.03 0.03 0.1
P(Y = y) 0.4 0.3 0.3 1
Solução: Temos
p(0, 0) = 0.2 = 0.5 × 0.4 = pX (0)pY (0) p(1, 0) = 0.16 = 0.4 × 0.4 = pX (1)pY (0)
p(2, 0) = 0.04 = 0.1 × 0.4 = pX (2)pY (0) p(0, 1) = 0.15 = 0.5 × 0.3 = pX (0)pY (1)
p(1, 1) = 0.12 = 0.4 × 0.3 = pX (1)pY (1) p(2, 1) = 0.03 = 0.1 × 0.3 = pX (2)pY (1)
p(0, 2) = 0.15 = 0.5 × 0.3 = pX (0)pY (2) p(1, 2) = 0.12 = 0.4 × 0.3 = pX (1)pY (2)
Exemplo 1.32. [Devore, 2016](Continuação do Exemplo 1.21) Uma grande agência de seguros presta
serviços a diversos clientes que compraram uma apólice de seguros residencial e uma outra para
automóvel. Para cada uma, deve ser especificado um mı́nimo dedutı́vel. para a apólice de automóvel
as opções são R$ 100,00 e R$ 250,00, enquanto, para uma apólice residencial, as opções são 0, R$
100,00 e R$ 200,00. Suponha que um indivı́duo com os dois referidos tipos de apólice seja selecionado
aleatoriamente do banco de dados da seguradora. Seja X = valor dedutı́vel na apólice do automóvel
e Y = valor dedutı́vel na apólice residencial. A função massa de probabilidade conjunta de (X, Y ) é
apresentada a seguir:
1.5. VARIÁVEIS ALEATÓRIAS INDEPENDENTES 43
X \Y 0 100 200
100 0.2 0.1 0.2
250 0.05 0.15 0.3
X 100 250
pX (x) 0.5 0.5
Y 0 100 250
pY (y) 0.25 0.25 0.5
Exemplo 1.33. [Bussab e Morettin, 2017] Seja (X, Y ) um vetor aleatório com função densidade de
probabilidade conjunta dada por
4xy, se 0 6 x 6 1, 0 6 y 6 1;
f (x, y) =
0, caso contrário.
Verifique se as variáveis aleatórias X e Y são independentes.
Solução: Primeiramente devemos encontrar as funções densidade marginais. Logo
Z ∞ Z 1 1
2
y
fX (x) = f (x, y)dy = 4xydy = 4x = 2x, 0 6 x 6 1.
−∞ 0 2
0
1
∞ 1
x2
Z Z
fY (y) = f (x, y)dx = 4xydx = 4y = 2y, 0 6 y 6 1.
−∞ 0 2
0
Portanto,
Exemplo 1.34. [Rohatgi, 1976] Seja (X, Y ) um vetor aleatório com função densidade de probabilidade
conjunta dada por
1+xy
f (x, y) = 4 , se − 1 < x < 1, −1 < y < 1;
0, caso contrário.
Verifique se as variáveis aleatórias X e Y são independentes.
44 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS
Portanto,
Resultado: Sendo X uma variável aleatória em (Ω, F, P), a função g : R → R também será uma
variável aleatória no mesmo espaço de probabilidade.
g(X)? No caso de g(·) uma função bijetiva, a resposta é direta: a imagem de Y é o conjunto de todos
os g(x) com x ∈ ΩX , e
Resultado: Dada uma variável aleatória X com função de distribuição (ou função massa ou
densidade de probabilidades) conhecida, a distribuição de uma variável aleatória Y = g(X),
onde h é uma função Borel-mensurável é determinada por
Exemplo 1.35. Seja X uma variável aleatória com função massa de probabilidade dada por
x 0 1 2
pX (x) 1/3 1/3 1/3
1
P(Y = 1) = P(X = 0) =
3
1
P(Y = 4) = P(X = 1) =
3
1
P(Y = 7) = P(X = 2) =
3
Ou seja,
y 1 4 7
pY (y) 1/3 1/3 1/3
Se g(·) não é uma bijeção, então para um dado y podem existir múltiplos valores de x tal que
g(x) = y. Para calcular P(G(X) = y), é necessário somar a probabilidade de X para todos os valores
de X tal que P(G(X) = y).
46 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS
Teorema 1.1. Seja X uma variável aleatória discreta e g : R → R. Então a imagem de g(X) é
o conjunto de todos os y tal que g(x) = y para pelo menos um x na imagem de X, e a função
massa de probabilidade de Y = g(X) é dada por
X
P(Y = y) = P(g(X) = y) = P(X = x),
x:g(x)=y
Exemplo 1.36. Seja X uma variável aleatória com função massa de probabilidade dada por
x -2 -1 0 1 2
pX (x) 1/5 1/6 1/5 1/15 11/30
y 0 1 4
pY (y) 1/5 7/30 17/30
Exemplo 1.37. Seja X uma variável aleatória com função massa de probabilidade dada por
n
1
fX (x) = P(X = x) = , para x ∈ {1, 2, 3, · · · }.
2
Encontre a função massa de probabilidade da função
Y = 1, se X for par,
n−1
1 1 1 X1 1
P(Y = 1) = 2 + 4 + 6 + · · · =
2 2 2 4 4
n>1
a1 1/4 1
P(Y = 1) = = = .
1−q 1 − (1/4) 3
1 2
P(Y = −1) = 1 − P(Y = 1) = 1 − = .
3 3
Exemplo 1.38. Seja X uma variável aleatória com distribuição Poisson, ou seja,
e−λ λx
pX (x) = P(X = x) = , x = 0, 1, 2, · · · , λ > 0,
x!
Solução: Temos que y = h(x) = x2 + 3, com Ax = {0, 1, 2, · · · } com Ay = {3, 4, 7, 12, 19, 28, · · · }.
√
A função inversa é dada por x = y − 3, e como não há valores negativos em A, tomamos a raiz
quadrada positiva de y − 3. Assim,
√
p e−λ λ y−3
P(Y = y) = P(X = y − 3) = √ , y ∈ Ay
y − 3!
Variável Aleatória Contı́nua: Agora considere X uma variável aleatória contı́nua. Segue o seguinte
resultado.
48 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS
Resultado: Seja X uma variável aleatória contı́nua com função densidade de probabilidade
fX (x). Seja y = g(x) uma função estritamente monótona (crescente ou decrescente) e dife-
renciável para todo x (portanto contı́nua). Então a variável aleatória Y = g(X) é também
contı́nua.
Se g é diferenciável para todo x e g(x) > 0 para todo x, então g(·) é contı́nua e estritamente
crescente e a função inversa x = g −1 (y) existe e é estritamente crescente e é diferenciável. Então
a função de distribuição de Y = g(X) é dada por
d d d
fY (y) = FY (y) = FX (g −1 (y)) = fX (g −1 (y)) (g −1 (y)) (1.18)
dy dy dy
Da mesma forma, se a derivada de g for negativa, então g é estritamente decrescente e temos
Derivando temos
d d d
fY (y) = FY (y) = [1 − FX (g −1 (y))] = −fX (g −1 (y)) (g −1 (y)). (1.19)
dy dy dy
Como g e g −1 são ambas estritamente decrescentes, d −1
dy (g (y)) é negativa e o resultado dado
pela equação 1.18 segue.
Exemplo 1.39. [Meyer, 2006] Seja X uma variável aleatória com função densidade de probabilidade
dada por
2x, se 0 < x < 1;
fX (x) =
0, caso contrário;
Considere a função Y = 3X +1. Encontra a função densidade de probabilidade da variável aleatória
Y.
y−1
Aplicando o resultado acima temos, onde g −1 (y) = temos 3 ,
−1 d −1 y−1 1 2
fY (y) = fX (g (y)) (g (y)) = 2 = (y − 1).
dy 3 3 9
Desde que fX (x) > 0 para 0 < x < 1, encontramos que fY (y) > 0 para 1 < y < 4. Portanto,
2
9 (y − 1), se 1 < y < 4;
fY (y) =
0, caso contrário;
1.6. FUNÇÕES DE VARIÁVEL ALEATÓRIA 49
Existe uma maneira ligeiramente diferente de obtermos o mesmo resultado. Considere a função de
distribuição das variáveis aleatórias. Então,
Portanto,
0,
2
se y < 1;
FY (y) = y−1
3 se 1 6 y < 4;
1, sey > 4;
Exemplo 1.40. [Meyer, 2006] Seja X uma variável aleatória com função densidade de probabilidade
dada por
1
fX (x) = I[1,3] (x).
2
Considere a função Y = eX . Encontra a função acumulada e densidade de probabilidade da
variável aleatória Y .
Solução: Observe que Y é uma variável aleatória contı́nua e com valores no intervalo [e, e3 ]. Sendo
FY (·) dua função de distribuição, temos de imediato que FY (y) = 0, se y < e, e FY (y) = 1, se y > e3 .
Para e 6 Y < e3 ,
1
fY (y) = I 3 (y).
2y [e,e ]
50 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS
Resultado: Sejam X1 e X2 duas variáveis aleatórias discretas com função massa de probabilidade
conjunta p(x1 , x2 ) e defina Y = h(X1 , X2 ). A variável aleatória Y também é discreta com valores
no contra-domı́nio da função h. Sua função de probabilidade é dada por
X
pY (y) = P(Y = y) = P(h(X1 , X2 ) = y) = p(x1 , x2 ),
(x1 ,x2 )∈Ay
onde Ay = {(x1 , x2 ) : h(x1 , x2 ) = y}. ou seja, para cada y fixo, a soma se dá em todos os pares
(x1 , x2 ) cuja aplicação da função h resulta no valor y. A função de distribuição de Y pode ser
obtida de forma análoga.
Exemplo 1.41. [Magalhães e Lima, 2004] Em uma cidade de São Paulo, admite-se que o número de
anos apara completar o ensino fundamental (variável F) e o número de anos para completar o ensino
médio (variável M) têm função massa de probabilidade conjunta:
(F, M ) p(f, m)
(8., 3) 0.30
(8, 4) 0.10
(8, 5) 0.10
(9, 3) 0.20
(9, 4) 0.05
(9, 5) 0.10
(10, 4) 0.10
(10, 5) 0.05
Total 1.00
(F, M ) p(f, m) F +M F ×M
(8., 3) 0.30 11 24
(8, 4) 0.10 12 32
(8, 5) 0.10 13 40
(9, 3) 0.20 12 27
(9, 4) 0.05 13 36
(9, 5) 0.10 14 45
(10, 4) 0.10 14 40
(10, 5) 0.05 15 50
F +M 11 12 13 14 15
Prob 0.3 0.3 0.15 0.2 0.05
1.6. FUNÇÕES DE VARIÁVEL ALEATÓRIA 51
F ×M 24 27 32 36 40 45 50
Prob 0.3 0.2 0.1 0.05 0.2 0.1 0.05
Exemplo 1.42. [Bussab e Morettin, 2017] Considere a função massa de probabilidade conjunta dada a
seguir.
HH Y
H
0 1 2 3 pY (y)
X HHH
1 2 1 1
0 8 8 8 0 2
1 2 1 1
1 0 8 8 8 2
1 3 3 1
pX (x) 8 8 8 8 1
(x, y) X +Y XY p(x, y)
1
(0,0) 0 0 8
(0,1) 1 0 0
2
(1,0) 1 0 8
1
(1,1) 2 1 8
1
(2,0) 2 0 8
2
(2,1) 3 2 8
(3,0) 3 0 0
1
(3,1) 4 3 8
x+y 0 1 2 3 4
1 2 2 2 1
p(x + y) 8 8 8 8 8
xy 0 1 2 3
4 1 2 1
p(xy) 8 8 8 8
52 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS
Capı́tulo 2
Esperança
Se X é uma variável aleatória discreta com função massa de probabilidade pX (x), então
X X
E(X) = xpX (x) = xP(X = x). (2.1)
x∈ΩX x∈ΩX
Em geral, a média é vista como um valor representativo de X, estando localizada em algum ponto
no centro do domı́nio de valores de X. Uma interpretação mais precisa deste pensamento é a seguinte:
a esperança de X é o centro de gravidade da distribuição de probabilidades, no seguinte sentido
(ver Figura 2.1). Pensando as colunas do gráfico, que representam as probabilidades, como pesos
distribuı́dos ao longo de uma vara delgada, a média representa o ponto onde a vara se equilibraria.
Exemplo 2.1. Em determinado setor de uma loja de departamentos, o número de produtos vendidos
em um dia pelos funcionários é uma variável aleatória X com a seguinte distribuição de probabilidades
(esses números foram obtidos dos resultados de vários anos de estudo) - pX (x) probabilidade da venda:
x 0 1 2 3 4 5 6
pX (x) 0.1 0.4 0.2 0.1 0.1 0.05 0.05
Cada vendedor recebe comissões de venda, distribuı́das da seguinte forma: se ele vende até 2
produtos em um dia, ele ganha uma comissão de R$10,00 por produto vendido. A partir da terceira
venda, a comissão passa para R$50,00. Qual é o número médio de produtos vendidos por cada vendedor
e qual a comissão média de cada um deles?
Solução:
O número médio de vendas por funcionário é:
x 0 1 2 3 4 5 6
C 0 10 20 70 120 170 220
pX (x) 0.1 0.4 0.2 0.1 0.1 0.05 0.05
E(C) = 0 × 0.1 + 10 × 0.4 + 20 × 0.2 + 70 × 0.1 + 120 × 0.1 + 170 × 0.05 + 220 × 0.05 = 46.5.
Exemplo 2.2. Determine E(X), sendo a função de distribuição da variável aleatória X dada por
0, se x < −2;
1/2, se − 2 6 x < 0;
FX (x) = 5/8, se 0 6 x < 1;
7/8, se 1 6 x < 2;
1, se x > 2.
Solução:
Propriedades: Seja X uma variável aleatória discreta e a e b constantes reais diferentes de zero.
i) E(a) = a;
2.1.2. Variância
A esperança de uma variável aleatória X é uma medida de posição. No entanto, é possı́vel que duas
variáveis bem diferentes tenham a mesma esperança, como é o caso das duas distribuições apresentadas
na Figura 2.2.
Como já visto no caso da Estatı́stica Descritiva, é necessário mensurar outros aspectos da distri-
buição, entre eles a dispersão dos dados. Esta será medida através da distância quadrática de cada
valor à média da distribuição.
Variância pode ser interpretada como uma medida de variabilidade em torno da média da variável
aleatória e é definida como
Variância
Var(X) = E[X − E(X)]2 . (2.2)
i) Var(a) = 0;
iii)
Definição 2.1. O desvio padrão é definido como a raiz da variância, e em geral denotado pela
letra σ,
p
σ= Var(X). (2.3)
Exemplo 2.3. Um lojista mantém extensos registros das vendas diárias de um certo aparelho. O quadro
a seguir dá a distribuição de probabilidades do número de aparelhos vendidos em uma semana. Se é
de R$500,00 o lucro por unidade vendida, qual o lucro esperado em uma semana? Qual é o desvio
padrão do lucro?
x 0 1 2 3 4 5
pX (x) 0.1 0.1 0.2 0.3 0.2 0.1
Solução:
Seja X = número de aparelhos vendidos em uma semana e seja L o lucro semanal. Então, L =
500X.
√
Var(X) = 10.2 − (2.7)2 = 2.91 aparelhos2 DP(X) = 2.91 = 1.706 aparelhos
Com relação ao lucro semanal, temos que
√
E(L) = 500E(X) = R$1350.00 Var(L) = (500)2 Var(X) = 727500 DP(X) = 727500 = R$852.936
P (X = 0) = P (X = 1) = P (X = 2) = P (X = 3) = a
P (X = 4) = P (X = 5) = b
P (X = 2) = 3P (X = 4).
Temos que E[.] e Var[.] denotam, respectivamente, esperança e variância. Verifique as seguintes
afirmativas.
(i) Para que a função densidade de probabilidade seja válida, a = 1/4 e b = 1/8.
(ii) E[X] = 3.
Definição 2.2. O valor médio ou valor esperado ou esperança matemática de uma v.a. X com
f.d.p. fX (x) é dada por
Z ∞
E(X) = xfX (x)dx. (2.4)
−∞
Exemplo 2.5. [Ross, 2010] Determine E(X), dada que a função densidade de probabilidade de X é
Solução:
Z ∞ Z 1 Z 1
3
E(X) = xfX (x)dx = x · 2xdx = 2x2 dx = .
−∞ 0 0 2
Proposição 1. Seja X uma v.a. contı́nua com função densidade de probabilidade fX (x), então
para qualquer função real g(·),
Z ∞
E(g(X)) = g(x)fX (x)dx. (2.6)
−∞
Exemplo 2.6 (Ross, 2010). Seja X uma v.a.a contı́nua com função densidade de probabilidade dada
por
Solução:
1
Z ∞ Z 1
X x x
E e = g(x)fX (x)dx = e dx = e = e − 1.
−∞ 0
0
Exemplo 2.7. [Magalhães, 2004] Seja X uma v.a.a contı́nua com função de distribuição dada por
0, se x < 0;
2
x
4 , se 0 6 x < 1;
(2x−1)
FX (x) = 4 , se 1 6 x < 2; (2.8)
−(x2 −6x+5)
, se 2 6 x < 3;
4
1, se x > 3.
58 CAPÍTULO 2. CARACTERÍSTICAS DE VARIÁVEIS E VETORES ALEATÓRIOS
Calcule E (X) e E X 2 .
Solução: Primeiramente precisamos encontrar a função densidade de probabilidade. Para isso preci-
samos derivar FX (x) em relação a x. Assim,
x
2, se 0 6 x < 1;
1
fX (x) = 2, se 1 6 x < 2; (2.9)
−(x−3)
2 , se 2 6 x < 3.
Analogamente,
x 1 (x − 3)
fX (x) = I (x) + I[1,2) (x) − I[2,3] (x).
2 [0,1) 2 2
Logo,
∞ 1 2 3
(x − 3)
Z Z Z Z
x 1 3
E (X) = xfX (x)dx = x dx + x dx − x dx = .
−∞ 0 2 1 2 2 2 2
Da mesma forma, pela Proposição 1, temos que
∞ 1 2 3
(x − 3)
Z Z Z Z
2 2 2x 21 8
x2
E X = x fX (x)dx = x dx + x dx − dx = .
−∞ 0 2 1 2 2 2 3
Proposição 2 (Magalhães, 2004). Sejam X e Y variáveis aleatórias cujo valor esperado existe.
Então:
2.2.2. Variância
A variância de uma variável aleatória contı́nua é definida da mesma forma à de uma variável aleatória
discreta.
Definição 2.3. A variância de uma v.a. contı́nua X com f.d.p. fX (x) é dada por
Z ∞
Var(X) = (x − µ)2 fX (x)dx = E(X − µ)2 = E(X − E(X))2 , (2.10)
−∞
µ = E(X).
Alternativamente,
Definição 2.4. O desvio padrão de uma v.a. contı́nua X com f.d.p. fX (x) é dada por
p
D.P.(X) = Var(X) (2.11)
2.2. PROPRIEDADES: VARIÁVEIS ALEATÓRIAS CONTÍNUAS 59
Solução: Pela Definição 2.3 temos que calcular E(X 2 ). Logo, pela Proposição 1, temos que
Z ∞ Z 1
1
E X2 = x2 fX (x)dx = 2x3 dx = .
−∞ 0 2
Proposição 3 (Magalhães, 2004). Sejam X variável aleatória cujo valor esperado existe. Então:
2.2.3. Covariância
Covariância é uma medida de dependência entre duas variáveis aleatórias e é definida como
Definição 2.5. Sejam X e Y duas variáveis aleatórias. Suponha que E(X), E(Y ), Var(X) e
Var(Y ) existam e são finitas. Então a Covariância entre X e Y é definida por
Observação 2.1. Esta definição é válida para variáveis aleatórias discretas e contı́nuas. A covariância
pode ser positiva, negativa ou nula.
60 CAPÍTULO 2. CARACTERÍSTICAS DE VARIÁVEIS E VETORES ALEATÓRIOS
Exemplo 2.10. [Peternelli, 2004] Sabendo-se que Y = 3X − 5 e que E(X) = 2 e Var(X) = 1, calcule:
(i) E(Y );
(ii) Var(Y );
(iii) E(X + 3Y );
(iv) E(X 2 + Y 2 );
(v) Var(3X + 2Y ).
Solução:
Exemplo 2.11. [Devore, 2016] (Continuação do Exemplo 1.21). Seja X = valor dedutı́vel na apólice
do automóvel e Y = valor dedutı́vel na apólice residencial. A função massa de probabilidade conjunta
de (X, Y ) é apresentada a seguir:
X \Y 0 100 200
100 0.2 0.1 0.2
250 0.05 0.15 0.3
2.2. PROPRIEDADES: VARIÁVEIS ALEATÓRIAS CONTÍNUAS 61
X 100 250
pX (x) 0.5 0.5
Y 0 100 250
pY (y) 0.25 0.25 0.5
X Y X ·Y P(X = x, Y = y)
100 0 0 0.2
100 100 10000 0.1
100 200 20000 0.2
250 0 0 0.05
250 100 25000 0.15
250 200 50000 0.3
Então,
E(X) = 100 × 0.5 + 250 × 0.5 = 175 E(Y ) = 0 × 0.25 + 100 × 0.25 + 200 × 0.5 = 125
E(XY ) = 0 × 0.25 + 10000 × 0.1 + 20000 × 0.2 + 25000 × 0.15 + 50000 × 0.3 = 23750
Portanto,
Exemplo 2.12. [Bussab e Morettin, 2017] Sejam X e Y variáveis aleatórias contı́nuas com função
densidade de probabilidade conjunta de (X, Y ) apresentada a seguir:
x + y, se 0 < x < 1, 0 < y < 1;
f (x, y) =
0, caso contrário.
Calcule a Covariância entre X e Y .
Solução: Primeiramente devemos encontrar as funções densidade marginais de X e Y . Logo
Z ∞ Z 1 1
2
y 1
fX (x) = f (x, y)dy = (x + y)dy = xy + = x + , 0 < x < 1.
−∞ 0 2 2
0
1
Z ∞ Z 1 2
yx 1
fY (y) = f (x, y)dx = (x + y)dx = + xy = y + , 0 < y < 1.
−∞ 0 2 2
0
62 CAPÍTULO 2. CARACTERÍSTICAS DE VARIÁVEIS E VETORES ALEATÓRIOS
Agora calculamos,
1
1 1
x3 x2
Z Z
1 x = 1+1 = 7
E(X) = x x+ dx = x2 + dx = +
0 2 0 2 3 4 3 4 12
0
1
Z 1 Z 1 3 2
1 y y y = 1+1 = 7
E(Y ) = y y+ dy = y2 + dy = +
0 2 0 2 3 4 3 4 12
0
1
1 1
x2 x4 x3
Z Z
1 = 1 + 1 = 10 = 5
E(X 2 ) = x2 x + dx = x3 + dx = +
0 2 0 2 4 6 4 6 24 12
0
1
Z 1 Z 1 2
4 3
1 y y y = 1 + 1 = 10 = 5
E(Y 2 ) = y2 y + dy = y3 + dy = +
0 2 0 2 4 6 4 6 24 12
0
2
5 2 2 7 5 49 11
Var(X) = E(X ) − [E(X)] = − = − =
12 12 12 144 144
2
5
2 2 7 5 49 11
Var(Y ) = E(Y ) − [E(Y )] = − = − =
12 12 12 144 144
Para calcular Cov(X, Y ) precisamos primeiramente calcular E(XY ).
Z 1Z 1 Z 1Z 1
x2 y + xy 2 dxdy
E(XY ) = xy (x + y) dxdy =
0 0 0 0
1
1 3 1
x2 y 2 y y2
Z Z
x y
= + dy = + dy
0 3 2 0 3 2
0
1
y2 y 3
1 1 2 1
= + = + = = .
6 6 6 6 6 3
0
Portanto,
1 7 7 1
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = − =−
3 12 12 144
2.2.4. Correlação
Assim, como a covariância, a correlação também é uma medida de dependência entre variáveis alea-
tórias, mas com a propriedade de ser padronizada, ou seja, uma medida que varia entre -1 e 1. Logo,
correlação próxima a 1 ou -1 indica um alto grau de dependência, enquanto correlação próximo de
zero indica pouca dependência. A correlação entre duas variáveis aleatórias é definida como
2.2. PROPRIEDADES: VARIÁVEIS ALEATÓRIAS CONTÍNUAS 63
Definição 2.6. Sejam X e Y duas variáveis aleatórias. Suponha que E(X), E(Y ), Var(X) e
Var(Y ) existam e são finitas. Então a Coeficiente de Correlação entre X e Y , denotado por
ρ(X, Y ), é definido por
Cov(X, Y )
ρ(X, Y ) = p . (2.14)
Var(X)Var(Y )
(i) Se duas variáveis aleatórias são independentes, então a correlação entre elas é zero.
(ii) Se a correlação entre duas variáveis é zero, não necessariamente elas são independentes.
(ii) −1 6 ρ(X, Y ) 6 1;
(iv) Se X e Y são duas variáveis aleatórias tais que Y = aX + b, onde a, b são contantes
reais,com a 6= 0, então:
(i) O resultado acima mostra que o coeficiente de correlação é uma medida do grau de linearidade
da relação entre as variáveis aleatórias X e Y . Quanto mais próximo ρ(X, Y ) estiver de 1 ou de
-1, maior é o grau de linearidade.
(ii) ρ(X, Y ) > 0 indica que há uma tendência a que X e Y cresçam conjuntamente; ρ(X, Y ) < 0
indica que há uma tendência de Y decrescer á medida que X aumenta;
(iii) É importante ressaltar que um valor de ρ(X, Y ) próximo de zero não significa necessariamente a
ausência de uma relação entre X e Y . Este fato indica que a relação, se existir, não é linear.
Exemplo 2.13. [Devore, 2016] (Continuação do Exemplo 2.11 ) Calcule a Correlação entre X e Y .
Solução: Temos que E(X) = 175, E(Y ) = 125 e Cov(X, Y ) = 1875. Precisamos calcular a variância
de cada uma das variáveis aleatórias. Lembrando que a f.m.p. marginal de X é dada por
X 100 250
pX (x) 0.5 0.5
Y 0 100 250
pY (y) 0.25 0.25 0.5
64 CAPÍTULO 2. CARACTERÍSTICAS DE VARIÁVEIS E VETORES ALEATÓRIOS
E(X 2 ) = 1002 × 0.5 + 2502 × 0.5 = 36250 E(Y 2 ) = 02 × 0.25 + 1002 × 0.25 + 2002 × 0.5 = 22500
Exemplo 2.14. [Bussab e Morettin, 2017] (Continuação do Exemplo 2.12 ) Calcule a Correlação entre
X e Y.
Solução: Temos que
7 11
E(X) = E(Y ) = E(X 2 ) = E(Y 2 ) =
12 144
11
Var(X) = Var(Y ) =
144
1 7 7 1
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = − =−
3 12 12 144
Portanto,
1 1
Cov(X, Y ) − 144 − 144 1
ρ(X, Y ) = p = q q = 11 =− ·
Var(X)Var(Y ) 11 11 144
11
144 144
m
X m
X
E(Y |x) = yj fY |X (yj |x) = yj P(Y = yj |X = x)
j=1 j=1
Quando Y for contı́nua, E(Y |x) será definida pela integração de yfY |X (y|x) sobre todos os valores
possı́veis de y, ou seja,
Z ∞
E(Y |x) = yfY |X (y|x)dy
−∞
Assim como no caso da esperança incondicional, a esperança condicional é uma média ponderada
de possı́veis valores de Y , mas agora os pesos refletem o fato de que X assumiu um valor especı́fico.
Assim, E(Y |x) é apenas alguma função de x, que nos diz como o valor esperado de Y varia com x.
Como um exemplo, seja (X, Y ) a população de todas as pessoas que trabalham, na qual X é anos
de educação, e Y é o salário por hora. Então, E(Y |X = 12) será o salário médio por hora de todas as
pessoas da população com 12 anos de educação (em termos gerais, correspondente à educação de ensino
médio). E(Y |X = 16) será o salário médio por hora de todas as pessoas com 16 anos de educação.
O gráfico de valores esperados com vários nı́veis de educação fornece informações importantes sobre
como os salários e a educação estão relacionados. Veja a Figura 2.3, para uma ilustração.
Figura 2.3: O valor esperado do salário por hora considerando vários nı́veis de educação.
Em princı́pio, o valor esperado do salário por hora pode ser encontrado a cada nı́vel de educação,
e essas esperanças podem ser resumidas em uma tabela. Como a educação pode variar amplamente -
e pode até mesmo ser medida em frações de um ano ?, essa é uma maneira excessivamente trabalhosa
de se mostrar a relação entre o salário médio e o grau de educação. Em econometria, geralmente
especificamos funções simples que capturam essa relação. Como um exemplo, suponha que o valor
esperado de SALÁRIO, dado EDUC, seja a função linear
16 anos de educação será 8.25 dólares. O coeficiente de EDUC implica que cada ano de educação
aumenta o salário por hora esperado em 0.45, ou 45 centavos de dólar.
As esperanças condicionais também podem ser funções não-lineares. Por exemplo, suponha que
E(Y |x) = 10/x, onde X é uma variável aleatória que sempre será maior que zero. Essa função está
traçada na Figura 2.4. Isso poderia representar uma função de demanda, na qual Y seria a quantidade
demandada e X seria o preço. Se Y e X forem relacionadas nesta forma, uma análise de associação
linear, tal como uma análise de correlação, seria incompleta.
Várias propriedades básicas das esperanças condicionais são úteis para derivações em análise eco-
nométrica.
Por exemplo, podemos calcular com facilidade a esperança condicional de uma função tal como
XY + 2X 2 : E(XY + 2X 2 |X) = XE(Y |X) + 2X 2 .
A próxima propriedade interliga as noções de independência e esperanças condicionais.
(iii) Se X e Y forem independentes, então, E(Y |X) = E(Y ).
Essa propriedade significa que, se X e Y forem independentes, então, o valor esperado de Y , dado
X, não dependerá de X, caso em que E(Y |X) sempre será igual ao valor esperado (incondicional)
de Y . No exemplo do salário e educação, se salário fosse independente de educação, então, os
salários médios das pessoas com educação de ensino médio e com cursos superiores seriam os
mesmos. Como quase certamente esse resultado seria falso, não podemos assumir que salário e
educação sejam independentes.
Um caso especial da propriedade é o seguinte: se U e X forem independentes e E(U ) = 0, então,
E(U |X) = 0.
Também existem propriedades da esperança condicional que têm a ver com o fato de E(Y |X)
ser uma função de X, digamos E(Y |X) = h(X). Como X é uma variável aleatória, h(X)
2.4. VARIÂNCIA CONDICIONAL 67
também será uma variável aleatória. Além disso, h(X) tem uma distribuição de probabilidade e,
portanto, um valor esperado. De forma geral, o valor esperado de h(X) pode ser muito difı́cil de
ser calculado de forma direta. A lei das expectativas iteradas diz que o valor esperado de h(X)
é simplesmente igual ao valor esperado de Y . Escrevemos isso da seguinte maneira.
(iv) E(X) = E[E(X|Y )] , conhecida como Lei das Expectativas Totais (ou Lei Simples das Expecta-
tivas Iteradas).
Essa propriedade é de difı́cil compreensão à primeira vista. Ela significa que, se primeiro ob-
tivermos E(Y |X) como uma função de X e considerarmos seu valor esperado (em relação à
distribuição de X, é claro), então, acabaremos obtendo E(Y ). Isso não é tão óbvio, mas pode ser
derivado utilizando a definição dos valores esperados.
Suponha que Y =SALÁRIO e X =EDUC, onde SALÁRIO está medido em horas e EDUC em
anos. Suponha que o valor esperado de SALÁRIO, dado EDUC, seja E(SALÁRIO|EDU C) =
4 + 0.60EDU C. Além disso, E(EDU C) = 11.5. Então, a lei das expectativas iteradas sugere
que E(SALÁRIO) = E(4 + 0.60EDU C) = 4 + 0.60E(EDU C) = 4 + 0.60(11.5) = 10.90, ou 10.90
dólares por hora.
(v) Se E(Y |X) = E(Y ), então, Cov(X, Y ) = 0 [como também ρ(X, Y ) = 0]. De fato, qualquer função
de X é não-correlacionada com Y .
Essa propriedade significa que, se o conhecimento de X não altera o valor esperado de Y , então,
X e Y devem ser não-correlacionadas, o que implica que, se X e Y forem correlacionadas, então,
E(Y |X) deve depender de X.
A inversa desta propriedade não é verdadeira: se X e Y forem não-correlacionadas, E(Y |X)
poderá ainda depender de X. Por exemplo, suponha que Y = X 2 . Então, E(Y |X) = X 2 , que
claramente é uma função de X. Porém, como mencionado em nossa discussão sobre covariância
e correlação, é possı́vel que X e X 2 sejam não-correlacionadas. A esperança condicional captura
a relação não linear entre X e Y que uma análise de correlação deixaria passar despercebida.
é frequentemente útil para os cálculos. Somente ocasionalmente teremos que calcular uma variância
condicional. Entretanto, teremos que fazer hipóteses a respeito e manipular as variâncias condicionais
para certos tópicos na análise de regressão.
Como um exemplo, defina 4Y=4POUPANÇA e X =RENDA (ambas medidas em termos anu-
ais, para a população de todas as famı́lias). Suponha que Var(P OU P AN ÇA|REN DA) = 400 +
0.25REN DA. Isso diz que, conforme aumente a renda, a variância dos nı́veis de poupança tam-
bém aumenta. É importante verificar que a relação entre as variâncias de POUPANÇA e RENDA é
totalmente separada da relação entre os valores esperados de POUPANÇA e RENDA.
Estabelecemos, portanto, uma propriedade importante da variância condicional.
Exemplo 2.15. (Voltando ao Exemplo 1.20) Suponha que estamos interessados em estudar a compo-
sição de famı́lias com três crianças, quanto ao sexo. Definimos:
X= número de meninos;
1, se o primeiro filho for homem;
Y = .
0, se o primeiro filho for mulher;
x 0 1 2 3 y 0 1
1 3 3 1 1 1
pX (x) 8 8 8 8 pY (y) 2 2
Y \X 0 1 2 3 pY (y)
1 2 1 1
0 8 8 8 0 2
1 2 1 1
1 0 8 8 8 2
1 3 3 1
pX (x) 8 8 8 8 1
P(X = 0, Y = 0) 1/8 1
P(X = 0|Y = 0) = = =
P(Y = 0) 1/2 4
P(X = 1, Y = 0) 2/8 1
P(X = 1|Y = 0) = = =
P(Y = 0) 1/2 2
P(X = 2, Y = 0) 1/8 1
P(X = 2|Y = 0) = = =
P(Y = 0) 1/2 4
P(X = 3, Y = 0) 0
P(X = 3|Y = 0) = = =0
P(Y = 0) 1/2
Assim, P(X = x|Y = 0), distribuição condicional de X dado que Y = 0 é, é dada por
x 0 1 2 3
1 1 1
pX|Y (x|0) 4 2 4 0
Sendo uma distribuição de probabilidades, podemos calcular sua esperança e sua variância:
X 1 1 1
E(X|Y = 0) = xP(X = x|Y = 0) = 0 × +1× +2× +3×0=1
x
4 2 4
X 1 1 1 3
E(X 2 |Y = 0) = x2 P(X = x|Y = 0) = 02 × + 12 × + 22 × + 32 × 0 =
x
4 2 4 2
3 1
Var(X|Y = 0) = E(X 2 |Y = 0) − [E(X|Y = 0)]2 = − 12 = .
2 2
2.4. VARIÂNCIA CONDICIONAL 69
P(X = 0, Y = 0) 1/8
P(Y = 0|X = 0) = = =1
P(X = 0) 1/8
P(X = 0, Y = 1) 0
P(Y = 1|X = 0) = = =0
P(X = 0) 1/8
y 0 1
pY |X (y|0) 1 0
Assim,
P(X = 1, Y = 0) 2/8 2
P(Y = 0|X = 1) = = =
P(X = 1) 3/8 3
P(X = 1, Y = 1) 1/8 1
P(Y = 0|X = 1) = = =
P(X = 1) 3/8 3
y 0 1
2 1
pY |X (y|1) 3 3
Assim,
1 1 2
E(Y |X = 1) = E(Y 2 |X = 1) = Var(Y |X = 1) = .
3 3 9
Continuando,
y 0 1 2
1 2 → E(Y |X = 2) = 3
pY |X (y|2) 3 3
y 0 1
→ E(Y |X = 3) = 1
pY |X (y|3) 0 1
x 0 1 2 3
1 1 1 → E(X|Y = 0) = 1
pX|Y (x|0) 4 2 4 0
70 CAPÍTULO 2. CARACTERÍSTICAS DE VARIÁVEIS E VETORES ALEATÓRIOS
x 0 1 2 3
1 1 1 → E(X|Y = 1) = 2
pX|Y (x|1) 0 4 2 4
e 1 2
1 1
E(X|Y ) 2 2
1 1 3
E(E(X|Y )) = 1 × + 2 × = = E(X)
2 2 2
Z 1
1
fY (y) = (x + y)dx = y + I(0,1) (y)
0 2
x+y
fX|Y (x|y) = , x ∈ (0, 1)
y + 12
e y ∈ (0, 1) fixo.
x+y
fY |X (y|x) = , y ∈ (0, 1)
x + 12
e x ∈ (0, 1) fixo.
Assim,
Z 1 Z 1
x+y 2 + 3Y
E(X|Y ) = xfX|Y (x|y)dx = x 1 dx = 3(2Y + 1)
0 0 y+2
e y ∈ (0, 1) fixo.
Z 1 Z 1
x+y 2 + 3X
E(Y |X) = yfY |X (y|x)dy = y 1 dy = 3(2X + 1)
0 0 x+ 2
e x ∈ (0, 1) fixo.
2.5. FUNÇÃO GERADORA DE MOMENTOS 71
MX (t) = E(etX ),
desde que a esperança seja finita para todo t real em algum intervalo −t0 < t < t0 , com t0 > 0.
Observação 2.5. (i) Se X for uma v.a. discreta, com função massa de probabilidade fX (x) = P(X =
x), a função MX (t), denominada f.g.m. de X, é definida por
X
MX (t) = etx fX (x).
x∈ΩX
(ii) Se X for uma v.a. contı́nua, função densidade de probabilidade fX (·), definimos a f.g.m. por
Z ∞
MX (t) = etx fX (x)dx.
−∞
n n
tX
X
tx
X
txn x
MX (t) = E(e ) = e fX (x) = e p (1 − p)n−x
x
x=0 x=0
n
X n
= (et p)x (1 − p)n−x
x
x=0
= (e p + (1 − p))n , para todo t ∈ R,
t
pois
n
X n
ax bn−x = (a + b)n .
i
i=0
e−λ λx
fX (x) = P(X = x) = , x = 0, 1, 2, · · · .
x!
yj
Como ey =
P
j>0 j! , temos
tλ t
MX (t) = e−λ ee = e−λ(1−e ) , para todo t ∈ R.
72 CAPÍTULO 2. CARACTERÍSTICAS DE VARIÁVEIS E VETORES ALEATÓRIOS
Z ∞ Z ∞
tX 1 −x2 tx 1 −(x2 −2tx)
MX (t) = E(e ) = e √ e 2 dx = √ e 2 dx
−∞ 2π −∞ 2π
Z ∞ Z ∞
1 −(x−t)2 + t2 t2 1 −(x−t)2
= √ e 2 2 dx = e 2 √ e 2 dx.
−∞ 2π −∞ 2π
−(x−t)2
Temos que fX (x) = √1 e 2 é a função densidade de probabilidade de uma v.a. com distribui-
2π
ção N (t, 1), logo
Z ∞
1 −(x−t)2
√ e 2 dx = 1.
−∞ 2π
Portanto,
t2
MX (t) = e 2 , para t ∈ R.
Teorema 2.1. Suponha que a f.g.m. da v.a. X exista para |t| < t0 , t0 > 0. Então, E(X n ) existe
para n = 1, 2, 3, · · · e temos que
∂ n MX (t)
E(X n ) = .
∂tn t=0
Prova: Temos que, para x ∈ R, a função ex , pode ser escrita na forma de uma série de Taylor como
00
MX (t) = E(X 2 ).
t=0
dn MX (t) (n)
= MX (t) = E(X n ).
dtn t=0 t=0
Observação 2.6.
h i2
00 0
Var(X) = E(X 2 ) − [E(X)]2 = MX (t) − MX (t)
t=0 t=0
Exemplo 2.20. Seja X uma v.a. com distribuição B(n, p). Obtenha E(X) e Var(X) através f.g.m.
Lembre que
Logo,
0
MX (t) = n(pet + q)n−1 + (pet )
00
MX (t) = np[(n − 1)(pet + q)n−2 (pet )et + (pet + q)n−1 et ].
Fazendo t = 0, temos
E(X) = np
E(X 2 ) = np2 (n − 1) + np
= n2 p2 − np2 + np
= np(np − p + 1).
Portanto,
Teorema 2.2. Se duas v.a.’s têm f.g.m. que existem e são iguais, então elas têm a mesma função
de distribuição.
Teorema 2.3. Suponha que uma v.a. X tenha f.g.m. MX (t). Seja Y = αX + β. Então MY (t),
a f.g.m. da v.a. Y , será dada por
Exemplo 2.22. Seja X uma v.a. com distribuição N (µ, σ 2 ). Encontre a f.g.m. de X.
Lembre que Z = X−µσ possui distribuição N (0, 1). Então, X = σZ + µ, logo
(σt)2 (σt)2
= eµt e 2 = eµt+ 2 para t ∈ R.
Capı́tulo 3
Principais Distribuições
Definição 3.1. Seja X o número de sucessos em uma única tentativa do experimento. A variável
aleatória X segue o modelo Bernoulli se assume apenas dois valores 0 e 1.
1, se ocorre sucesso;
X=
0, se ocorre fracsso.
Notação: X ∼ Ber(p)
A sua função de probabilidade é dada por
x 1−x q, se x = 0;
fX (x) = P(X = x) = p q =
p, se x = 1.
A sua função de distribuição é dada por
0, se x < 0;
FX (x) = q, se 0 6 x < 1;
1, se x > 1.
Exemplo 3.2. Uma urna contem 30 bolas brancas e 20 verdes. Retira-se uma bola dessa urna. Seja X
o número de bolas verdes. Encontre a função de probabilidade e a distribuição da variável aleatória
X.
Solução:
1, bola verde;
X=
0, bola branca.
x 1−x
2 3
fX (x) = P(X = x) = , x ∈ {0, 1}.
5 5
Ou seja, X ∼ Ber(p), onde p = 52 .
76 CAPÍTULO 3. PRINCIPAIS DISTRIBUIÇÕES
(i) E(X) = p.
P(KKCCCCCCCC) = p2 (1 − p)8
10
Mas, existem maneiras de colocar caras numa sequência de 10 lançamentos e todas tem a
2
mesma probabilidade. Portanto,
10 2
P(X = 2) = p (1 − p)8 .
2
Em geral, para qualquer valor de x temos
10 x
P(X = x) = p (1 − p)1−x , x = 0, 1, 2, · · · , 10.
x
Definição 3.2. Seja X a variável aleatória número de sucessos nas n repetições independentes.
Diremos que X segue o modelo Binomial com parâmetros n e p e sua função de probabilidade
é dada por
n x
fX (x) = P(X = x) = p (1 − p)n−x , x ∈ {0, 1, · · · , n}.
x
Observação 3.1. Vamos verificar se fX (·) é função de probabilidade. Temos que fX (x) > 0, para todo
x∈Re
n n
X X n
fX (x) = px (1 − p)n−x = (p + (1 − p))n = 1,
x
x=0 x=0
pois
n
X n
aj (b)n−j = (a + b)n .
j
j=0
Nas Figuras 3.1 e 3.2 apresentamos a f.m.p. e acumulada para diferentes valores de p.
Exemplo 3.4. Uma moeda honesta é lançada 20 vezes. Qual a probabilidade de saı́rem 8 caras?
1
p = P(X = 1) = P(sucesso) = .
2
Logo, X ∼ B 20, 12
x 20−x
20 1 1
P(X = x) = , x ∈ {0, 1, 2, 3, · · · , 20}.
x 2 2
Se x = 8, temos
8 20−8
20 1 1
P(X = 8) = = 0, 12013.
8 2 2
Exemplo 3.5. Uma prova tipo teste tem 50 questões independentes. Cada questão tem 5 alternativas.
Apenas uma delas é a correta. Se um aluno resolve a prova respondendo a esmo a questão, qual a
probabilidade de tirar nota 5?
Exemplo 3.6. Um atirador acerta na mosca do alvo, 20% dos tiros. Se ele dá 10 tiros, qual a probabi-
lidade de ele acertar na mosca no máximo 1 vez?
Solução: Podemos pensar os tiros como experimentos de Bernoulli independentes, onde a probabilidade
de sucesso é p = 0, 20. Então, o problema pede P(X 6 1), onde X = {número de acertos em 10 tiros}.
Logo, X ∼ B(k, p), com k = 10 e p = 0, 20.
Então,
10 0 10−0 10
P(X 6 1) = P(X = 0) + P(X = 1) = 0, 2 0, 8 + 0, 21 0, 810−1 = 0, 37581.
0 1
Exemplo 3.7. Dois adversários A e B disputam uma série de 8 partidas de um determinado jogo. A
probabilidade de A ganhar uma partida é 0, 6 e não há empate. Qual é a probabilidade de A ganhar
a série?
Solução: Note que só podem ocorrer vitórias ou derrotas, o que significa que temos repetições de um
experimento de Bernoulli com probabilidade 0, 6 de sucesso (vitória). Assumindo a independência das
provas, se definimos X = {número de vitórias de A}, então XsimB(8; 0, 6) e o problema é calcular
P(X > 5) , isto é A ganha mais partidas que B.
8
X
P(X > 5) = P(X = x)
x=5
8 5 8−5 8 6 8−6 8 7 8−7 8
= 0, 6 0, 4 + 0, 6 0, 4 + 0, 6 0, 4 + 0, 68 0, 48−8
5 6 7 8
= 0, 5940864.
e−λ λx
fX (x) = P(X = x) = , x = 0, 1, 2, · · · .
x!
Notação: X ∼ P(λ).
O parâmetro λ indica o número esperado de sucessos no intervalo (a taxa de ocorrência para uma
unidade de medida).
A distribuição de Poisson é largamente utilizada quando se deseja contar o número de sucessos que
ocorrem em intervalos de tempo, ou superfı́cie ou volume. Por exemplo
80 CAPÍTULO 3. PRINCIPAIS DISTRIBUIÇÕES
(i) carros que passam por um cruzamento por minuto, durante uma certa hora do dia;
(iv) colônia de bactérias numa dada cultura por 0.01 mm2 , numa plaqueta de microscópio;
(ix) número de relatórios de acidentes enviados a uma companhia de seguros numa semana.
Observação 3.2. Seja X a v.a. definida como o número de eventos que ocorrem sobre um perı́odo de
tempo t. Substituı́mos λ na f.m.p. por tλ. Dessa forma,
e−tλ (tλ)x
fX (x) = P(X = x) = , x = 0, 1, 2, · · · .
x!
Exemplo 3.8. Em um livro de 800 páginas há 800 erros de impressão. Qual a probabilidade de que
uma página contenha pelo menos 3 erros?
Exemplo 3.9. Em uma central telefônica chegam 300 telefonemas por hora. Qual a probabilidade de
que
Solução:
e−5 · 50
P(X = 0) = = 0.006738.
0!
3.1. PRINCIPAIS DISTRIBUIÇÕES DISCRETOS 81
e−10 · 102
P(X = 2) = = 0.002270.
2!
(iii) Em t minutos, λ = 5t. Então,
e−5t · (5t)0
P(X = 0) = = e−5t .
0!
Exemplo 3.10. Em um certo tipo de fabricação de fita magnética, ocorrem cortes a uma taxa de um
corte por 2000 pés. Qual é a probabilidade de que um rolo com comprimento de 4000 pés apresente
no máximo dois cortes? Pelo menos dois cortes?
Solução: Seja Y = {número de cortes num rolo de 4000 pés}. Então, Y ∼ P (2).
Logo,
2
X
P(no máximo 2 cortes) = P(X 6 2) = P(X = x)
x=0
e−2 20 −2
e 21 e−2 22
= + +
0! 1! 2!
= 0, 676676.
P(pelo menos 2 cortes) = P(X > 2) = 1 − P(X < 2) = 1 − [P(X = 0) + P(X = 1)]
−2 0
e−2 21
e 2
= 1− +
0! 1!
= 0, 593994.
Nas Figuras 3.3 e 3.4 apresentamos a f.m.p. e acumulada para diferentes valores de p.
(i) E(X) = λ.
(ii) Var(X) = λ.
Definição 3.4. Uma variável aleatória discreta X segue o modelo Geométrico com parâmetro p,
onde 0 < p < 1, se a sua função massa de probabilidade é dada por
x
X x
X
FX (x) = P(X 6 x) = P(X = j) = p(1 − p)j−1 .
j=1 j=1
x−1
X 1 − (1 − p)x−1+1
FX (x) = p (1 − p)i = p = 1 − (1 − p)x ,
1 − (1 − p)
i=0
Pn i 1−an+1
pois i=0 (a) = 1−a , para 0 < a < 1. Logo,
0, se x < 1;
FX (x) =
1 − (1 − p)x , se x > 1.
Nas Figuras 3.5 e 3.6 apresentamos a f.m.p. e acumulada para diferentes valores de p.
i) E(X) = 1/p.
2−p
ii) E(X 2 ) = p2
1−p
iii) Var(X) = p2
.
Exemplo 3.11. Um atirador acerta na mosca do alvo, 20% dos tiros. Qual a probabilidade de ele
acertar na mosca pela primeira vez no 10º tiro?
Solução: Podemos pensar os tiros como experimentos independentes de Bernoulli (acerta ou não
acerta). A probabilidade de sucesso (acertar no alvo) é p = 0, 20. Estamos querendo o número de
tiros até o primeiro acerto e calcular a probabilidade desse número ser 10. Seja X = {número de tiros
até primeiro acerto}. Então, X ∼ Geo(0, 20). Queremos calcular P(X = 10). Logo,
84 CAPÍTULO 3. PRINCIPAIS DISTRIBUIÇÕES
Exemplo 3.12. As cinco primeiras repetições de um experimento custam R$10,00 cada. Todas as
repetições subsequentes custam R$5,00 cada. Suponha que o experimento seja repetido até que o
primeiro sucesso ocorra. Se a probabilidade de sucesso de uma repetição é igual a 0.9, e se as repetições
independentes, qual é o custo esperado?
Solução: Seja X={o número de tentativas} e C={o custo dos experimentos}. Sabemos que iremos
realizar o experimento até que o primeiro sucesso ocorra ou seja, temos uma Distribuição Geométrica,
ou seja X ∼ Geo(p), com p = 0, 9.
Queremos o custo esperado. O cálculo do custo é feito da seguinte forma:
- 5 primeiras tentativas: R$10,00 cada.
- Outras tentativas: R$5,00 cada.
Assim podemos escrever que:
5
X ∞
X
E(C) = 10 P(X = k) + 5 P(X = k).
k=1 k=6
Pn i 1−an+1
Como i=0 (a) = 1−a , para 0 < a < 1, temos que,
E(C) = 10 × 0, 9(0, 10 + 0, 11 + 0, 12 + 0, 13 + 0, 14 )
+5 × 1 − 0, 9(0, 10 + 0, 11 + 0, 12 + 0, 13 + 0, 14 )
Exemplo 3.13. Em seu caminho matinal, você se aproxima de um determinado sinal de trânsito, que
está verde em 20% do tempo. Suponha que cada manhã represente um tentativa independente.
(a) Qual é a probabilidade de que a primeira manhã que a luz esteja verde seja a quarta manhã que
você se aproxima?
(b) Qual é a probabilidade de que a luz não esteja verde durante exatamente 10 manhãs consecutivas?
Solução:
(a) Qual é a probabilidade de que a primeira manhã que a luz esteja verde seja a quarta manhã que
você se aproxima?
A probabilidade de pegar sinal verde é de 20%. Queremos a probabilidade de que a primeira vez
que eu pegue o sinal verde seja na quarta tentativa. Ou seja estamos realizando repetições até
obter o sucesso.
Se X é a v.a que representa o número de tentativas até o primeiro sucesso, então X ∼ Geo(0, 2)
e queremos calcular P(X = 4). Assim,
(b) Qual é a probabilidade de que a luz não esteja verde durante exatamente 10 manhãs consecutivas?
Pra que a luz não esteja verde dentro das 10 primeiras manhãs consecutivas, concorda que a gente
tem que calcular a probabilidade de a gente só encontrar ela verde na décima primeira manhã pela
primeira vez? Vamos utilizar a mesma fórmula só que agora pra k = 11.
P(X = 11) = 0, 2(1 − 0, 2)11−1 = 0, 02147.
Exemplo 3.14. No Callcenter de uma empresa distribuidora de telefonia, apenas 35% das chamadas
são relacionadas a reclamações sobre erros nas faturas emitidas pela empresa. Pede-se:
(a) Qual a probabilidade da primeira reclamação sobre erro na fatura emitida da conta, ocorrer até a
2ª chamada.
Solução:
(a) Qual a probabilidade da primeira reclamação sobre erro na fatura emitida da conta, ocorrer até a
2ª chamada.
Queremos calcular a probabilidade do primeiro sucesso (reclamação sobre erro na fatura) acontecer
até a segunda chamada.
Temos duas situações então: a primeira reclamação acontecer na primeira chamada ou a primeira
reclamação acontecer na segunda chamada. Nos dois casos, vamos usar a distribuição geométrica
com p = 0, 35, isto por que queremos calcular a probabilidade do primeiro sucesso acontecer em
determinada tentativa.
Situações: na primeira k = 1 e na segunda k = 2 que é o número da tentativa em que acontece o
primeiro sucesso.
86 CAPÍTULO 3. PRINCIPAIS DISTRIBUIÇÕES
1 1
E(X) = = = 2, 86
p 0, 35
(1 − p) 0, 65
Var(X) = = = 5, 31.
p2 0, 352
O desvio padrão é a raiz quadrada da variância:
p
DP (X) = 5, 31 = 2, 30.
Definição 3.5. Diremos que uma variável aleatória X segue o modelo Uniforme, no intervalo
[a, b] ∈ R, a < b, se sua função densidade for dada por
1
fX (x) = I (x).
b − a [a,b]
(b−a)2
ii) Var(X) = 12 .
3.2. PRINCIPAIS DISTRIBUIÇÕES CONTÍNUAS 87
(a)
(b)
Figura 3.7: Distribuição U (a, b): (a) função densidade de probabilidade, (b) função de distribuição
acumulada.
b
∞ b
1 x2
Z Z
1
E(X) = x × fX (x)dx = x× dx =
−∞ a b−a b−a 2
a
b
x2 b2 − a2 b2 − a2
1 1 1
= = × = ×
b−a 2 b−a 2 b−a 2
a
1 (b − a) × (b + a) b+a
= × =
b−a 2 2
88 CAPÍTULO 3. PRINCIPAIS DISTRIBUIÇÕES
b
Z ∞ Z b 3
2 2 2 1 1 x
E(X ) = x × fX (x)dx = x × dx =
−∞ a b−a b−a 3
a
1 − b3 a3 1 (b − a) × (b2 + ab + a2 )
= × = ×
b−a 3 b−a 3
b2 + ab + a2
=
3
b+a 2
b2 + ab + a2
2 2
Var(X) = E(X ) − [E(X)] = −
2
2
b + ab + a 2 2
b + 2ab + a 2 4b + 4ab + 4a2 3b2 + 6ab + 3a2
2
= − = −
3 4 12 12
b2 − 2ab + a2 (b − a)2
= = ·.
12 12
Exemplo 3.15. Um ponto é escolhido ao acaso no intervalo [0, 2]. Qual a probabilidade de que esteja
ente 1 e 1.5?
Solução:
1
fX (x) = 2, se 0 6 x 6 2;
0, c.c.
1.5
Z 1.5
1 x 1
P(1 6 X 6 1.5) = dx = = ·
1 2 2 4
1
Exemplo 3.16. A dureza H de uma peça de aço pode ser pensada como uma variável aleatória com
distribuição uniforme no intervalo [50, 70] da escala de Rockwell. Calcular a probabilidade de que uma
peça tenha dureza entre 55 e 60.
Solução:
1
fX (x) = 20 , se 50 6 x 6 70;
0, c.c.
60
Z 60
1 x 1
P(55 6 X 6 60) = dx = = ·
55 20 20 4
55
Exemplo 3.17. A ocorrência de panes em qualquer ponto de uma rede telefônica de 7 km foi modelada
por uma distribuição Uniforme no intervalo [0, 7]. Qual é a probabilidade de que uma pane venha a
ocorrer nos primeiros 800 metros? E qual a probabilidade de que ocorra nos 3 km centrais da rede?
0,8
0, 8 − 0
Z
1
P (X 6 0, 8) = dx = = 0, 1142.
0 7 7
e a probabilidade de ocorrer pane nos 3 km centrais da rede é
Z 5
1
P (2 6 X 6 5) = dx = P (X 6 5) − P (X 6 2) = 5/7 − 2/7 ≈ 0, 4285.
2 7
Exemplo 3.18. Suponha que Y ∼ U [0, 5]. Qual a probabilidade que a equação 4x2 + 4Y x + 4 = 0,
tenha ambas as raı́zes reais?
Solução: Primeiramente observemos que para que uma equação de segundo grau tenha raı́zes reais é
necessário que o discriminante da equação de segundo grau seja maior ou igual a zero, ou seja, que a
fórmula abaixo seja maior ou igual a zero.
Z 0 Z 2
2 2 1
P(Y > 4) = 1 − P(Y 6 4) = 1 − P(−2 6 Y 6 2) = 1 − 0dy + dy
−2 0 5
2
x 2 3
= 1− =1− = ·
5 5 5
0
Definição 3.6. Uma v.a. X segue o modelo Normal se a sua densidade é dada por:
1 (x−µ)2
fX (x) = √ e− 2σ 2 I(−∞,∞) (x),
2πσ 2
com µ, σ ∈ R, σ > 0.
Notação: X ∼ N (µ, σ 2 ).
Caso Particular: Distribuição Normal Padrão: Quando, na Definição 2.3, temos µ = 0 e σ 2 = 1.
90 CAPÍTULO 3. PRINCIPAIS DISTRIBUIÇÕES
Definição 3.7. Uma v.a. Z segue o modelo Normal se a sua densidade é dada por:
1 z2
fZ (z) = √ e− 2 I(−∞,∞) (z).
2π
FZ (z) = 1 − FZ (−z).
1
(ii) fZ (z) tem um único ponto crı́tico em z = 0 e fZ (0) = 2π é o único máximo da função.
Z b
Figura 3.10: P(a 6 Z 6 b) = fZ (z)dz.
a
Exemplo 3.19 (Devore, 2016). Seja Z ∼ N (0, 1), isto é, a v.a. Z tem distribuição Normal padrão.
Calcule as seguintes probabilidades:
(i) P(Z 6 1.25) = FZ (1.25) é uma probabilidade que é tabulada. Pela Tabela da Distribuição
Normal Padrão na intersecção na linha marcada com 1.2 e da coluna marcada com 5 (que
significa 0.05). O número existente é 0.8944, portanto, P(Z 6 1.25) = 0.8944
Figura 3.11: Área da curva Normal Padrão: (a) P(Z 6 1.25); (b) P(Z > 1.25).
Figura 3.12: P(−0.38 6 Z 6 1.25) como a diferença entre duas áreas da função de distribuição
(acumulada).
Exemplo 3.20 (Devore, 2016). Seja X ∼ N (µ, σ 2 ), com µ = 1.25 e σ = 0.46. Calcule P(1 6 X 6 1.75).
Solução: Temos que padronizar utilizando a distribuição Normal Padrão, ou seja,
1 − 1.25 X − 1.25 1.75 − 1.25
P(1 6 X 6 1.75) = P 6 6 = P (−0.54 6 Z 6 1.09)
0.46 0.46 0.46
= P(Z 6 1.09) − P(Z 6 −0.54) = FZ (1.09) − FZ (−0.54)
= 0.8621 − 0.2946 = 0.5675.
P(|X − µ| < kσ) = P(−kσ < X − µ < kσ) = P(µ − kσ < X < µ + kσ)
−kσ X −µ kσ X −µ
= P < < = P −k < <k
σ σ σ σ
X−µ
onde Z ∼ N (0, 1) e Z = σ .
Assim,
(i) E(X) = µ.
(ii) Var(X) = σ 2 .
Notação: A quantidade zα representará o valor no eixo z para o qual uma área α abaixo da
curva da distribuição Normal Padrão fica à direita de zα . Ou seja,
P(Z > zα ) = α.
Uma vez que α é a área abaixo da curva da distribuição Z que encontra-se à direita de zα , 1 − α
é a área que encontra-se a esquerda. Assim, zα é o 100(1 − α)-ésimo percentil da distribuição normal
padrão. Os valores zα usualmente são considerados os valores crı́ticos de z.
Exemplo 3.21. A quantidade z0.05 é o 100(1 − 0.05)-ésimo = 950 percentil da distribuição normal
padrão, de modo que z0.05 = 1.645. A área abaixo da curva normal padrão à esquerda de −z0.05
também é 0.05.
3.2. PRINCIPAIS DISTRIBUIÇÕES CONTÍNUAS 95
O 100(1−α)-ésimo percentil da distribuição normal com média µ e variância σ 2 pode ser facilmente
relacionado com o 100(1 − α)-ésimo percentil da distribuição normal padrão.
96 CAPÍTULO 3. PRINCIPAIS DISTRIBUIÇÕES
Proposição 9. [Aproximação da Binomial pela Normal] Seja X ∼ B(n, p). A medida que n
cresce a distribuição B(n, p) se aproxima da distribuição N (µ, σ 2 ), onde µ = np e σ 2 = npq.
As condições mais importantes são: np > 5 e n(1 − p) > 5.
Cálculo da Probabilidade
Seja X ∼ B(n, p), tal que np > 5. Calcule P(a 6 X 6 b), para a, b ∈ N utilizando a Proposição 9,
ou seja utilizando uma variável aleatória Y ∼ N (µ, σ 2 ). Então,
Correção de Continuidade
A correção de continuidade é um procedimento que pode ser aplicado para melhorar a aproxima-
ção de distribuições discretas através de distribuições contı́nuas. Em particular, na aproximação da
distribuição binomial pela normal temos o seguinte:
3.2. PRINCIPAIS DISTRIBUIÇÕES CONTÍNUAS 97
Figura 3.17: Aproximação da distribuição B(n, p) pela distribuição N (µ, σ 2 ), onde n = 100 e p ∈
{0.05, 0.2, 0.3, 0.5, 0.6, 0.7, 0.8, 0.95}.
1 1
P(a 6 X 6 b) ' P a − 6 Y 6 b +
2 2
" #
a − 12 − np Y − np b + 12 − np
= P p 6p 6p
np(1 − p) np(1 − p) np(1 − p)
" #
a − 1 − np b + 1 − np
= P p 2 6Z6 p 2
np(1 − p) np(1 − p)
Caso particular:
98 CAPÍTULO 3. PRINCIPAIS DISTRIBUIÇÕES
Figura 3.18: Aproximação da distribuição B(n, p) pela distribuição N (µ, σ 2 ), onde p = 0.25 e n ∈
{5, 10, 15, 20, 25, 30, 35, 40}.
1 1
P(X = a) ' P a − 6 Y 6 a +
2 2
" #
a − 21 − np Y − np a + 12 − np
= P p 6p 6p
np(1 − p) np(1 − p) np(1 − p)
" #
a − 1 − np a + 1 − np
= P p 2 6Z6 p 2
np(1 − p) np(1 − p)
Solução: Temos que E(X) = np = 225 × 0, 2 = 45 e Var(X) = np(1 − p) = 225 × 0, 2 × 0, 8 = 36. Logo
a distribuição da variável aleatória X pode ser aproximada pelo distribuição N (µ, σ 2 ), com µ = 45 e
σ 2 = 36. Ver Figura 3.19.
Valor Exato:
P(39 6 X 6 48) = 0, 5853.
X ∼ B(n, p) Y ∼ N (µ, σ 2 )
P(a 6 X 6 b) P(a − 0, 5 6 Y 6 b + 0, 5)
P(X = k) P(k − 0, 5 6 Y 6 k + 0, 5)
P(X < k) P(Y < k − 0, 5)
P(X 6 k) P(Y 6 k + 0, 5)
P(X > k) P(Y > k + 0, 5)
P(X > k) P(Y > k − 0, 5)
Exemplo 3.23. Um sistema é formado por 100 componentes, cada um dos quais com confiabilidade
(probabilidade de funcionar adequadamente num certo perı́odo) igual a 0, 9. Se esses componentes
funcionarem de forma independente um do outro e se o sistema funcionar adequadamente enquanto
pelo menos 87 componentes estiverem funcionando, qual é a confiabilidade do sistema?
100 CAPÍTULO 3. PRINCIPAIS DISTRIBUIÇÕES
Solução: Seja X: número de componentes que funcionam adequadamente. Então X ∼ B(100, 0, 9).
Logo E(X) = np = 100 × 0, 9 = 90 e Var(X) = np(1 − p) = 100 × 0, 9 × 0, 1 = 9. Logo a distribuição
da variável aleatória X pode ser aproximada pelo distribuição N (µ, σ 2 ), com µ = 90 e σ 2 = 9
O sistema é confiável quando P(X > 87).
Valor Exato:
P(X > 87) = 0, 8761.
Valor sem o fator de Correção:
(a) Calcular a probabilidade do número de caras estar entre 40% e 70% dos lançamentos, inclusive.
(b) Determinar um intervalo simétrico em torno do número médio de caras, tal que a probabilidade
de observar um valor de X nesse intervalo é 80%.
Solução:
(a) Calcular a probabilidade do número de caras estar entre 40% e 70% dos lançamentos, inclusive.
Seja X:{número de caras em 100 lançamentos}. Então X ∼ B(100, 0.5). Logo E(X) = np =
100 × 0, 5 = 50 e Var(X) = np(1 − p) = 100 × 0, 5 × 0, 5 = 25. Logo a distribuição da variável
aleatória X pode ser aproximada pelo distribuição N (µ, σ 2 ), com µ = 50 e σ 2 = 25. Queremos
calcular P(40 6 X 6 70). Vamos utilizar o fator de correção. O Valor exato é 0.9824.
(b) Determinar um intervalo simétrico em torno do número médio de caras, tal que a probabilidade
de observar um valor de X nesse intervalo é 80%.
Intervalo simétrico em torno da média: (50 − a, 50 + a). Assim temos que encontrar o valor de a
tal que
3.2. PRINCIPAIS DISTRIBUIÇÕES CONTÍNUAS 101
P(50 − a 6 X 6 50 + a) = 0, 8.
Para tanto, vamos utilizar a aproximação da Binomial pela Normal, com fator de correção.
0.5 + a 0.5 + a 0.5 + a 0.5 + a
P − 6Z6 = P Z6 −P Z 6−
5 5 5 5
0.5 + a 0.5 + a
= FZ − FZ −
5 5
0.5 + a
= 1 − 2FZ − = 0, 8.
5
Assim,
0.5 + a 0.5 + a 0.8 − 1
1 − 2FZ − = 0, 8 −→ FZ − =− = 0.1
5 5 2
Pela tabela da distribuição Normal Padrão, temos que FZ (−1.281) ' 0.1000968. Logo,
0.5 + a
− = −1.281 −→ a = 5 × 1.281 − 0.5 −→ a = 5.905
5
Proposição 10. [Aproximação da Poisson pela Normal] Seja X ∼ P (λ). A medida que λ cresce
a distribuição P (λ) se aproxima da distribuição N (µ, σ 2 ), onde µ = λ e σ 2 = λ. A condição
mais importante é: λ > 5.
Exemplo 3.25. Um processo de produção produz 10 itens defeituosos por hora. Encontre a probabili-
dade de que entre 8 e 15, inclusive,sejam defeituosos numa retirada aleatória por hora.
Solução: Sabemos que X ∼ P (10). Então podemos calcular a probabilidade de maneira exata da
seguinte forma
15 −10 x
X e 10
P(8 6 X 6 15) = = 0.731039.
x!
x=8
Difı́cil de ser calculado a mão. Calculamos computacionalmente.
Vamos utilizar a aproximação Normal. Seja Y ∼ N (µ, σ 2 ), com µ = λ e σ 2 = λ.
Valor sem o fator de Correção:
Exemplo 3.26. Considere que o número de partı́culas em uma superfı́cie segue uma distribuição Pois-
son. Suponha que esperamos observar 1000 partı́culas por m2 . Analisamos um metro quadrado da
superfı́cie. Qual a probabilidade de observarmos entre 850 e 1050 partı́culas, inclusive?
Solução: Sabemos que X ∼ P (1000). Então podemos calcular a probabilidade de maneira exata da
seguinte forma
1050
X e−1000 1000x
P(850 6 X 6 1050) = = 0.9440.
x!
x=850
Um caso importante da distribuição Γ(α, β), α, β > 0 é obtido, se tomarmos α = n/2 e β = 1/2,
onde n é um inteiro positivo. Obteremos uma famı́lia de distribuições de um parâmetro.
Se X ∼ Γ(α, β),
β α α−1 −βx
fX (x) = x e I(0,∞) (x).
Γ(α)
Tomando α = n/2 e β = 1/2, temos para x > 0,
(1/2)n/2 n −1 − z
fZ (z) = z 2 e 2 I(0,∞) (z)
Γ(n/2)
1 n z
= z 2 −1 e− 2 I(0,∞) (z).
2n/2 Γ(n/2)
A v.a. Z, que tem f.d.p. fZ (z), é chamada de chi-quadrado, com n graus de liberdade.
Para n = 1, temos
1 1 z 1 −1 z
fZ (z) = z 2 −1 e− 2 I(0,∞) (z) = √ z 2 e− 2 I(0,∞) (z).
21/2 Γ(1/2) 2π
Para n = 2, temos
1 z 1 z
fZ (z) = z 0 e− 2 I(0,∞) (z) = e− 2 I(0,∞) (z),
2Γ(1) 2
a qual é a f.d.p da distribuição exponencial.
Para n > 30, podemos utilizar uma aproximação normal à distribuição chi-quadrado. Especifica-
mente, temos o seguinte resultado: Se Z ∼ χ2n , com n graus de liberdade, então a v.a.
√ √
Y = 2Z − 2n − 1 ∼ N (0, 1).
Exemplo 3.27. Consultando a tabela temos que, para n = 30, √ P(Z > 40.25) = 0.1.
√
Utilizando a relação acima, temos que z = 2 × 40, 256 − 2 × 30 − 1 = 1, 291.
Portanto, P(Y > 1, 291)]0.099, onde Y ∼ N (0, 1), que resulta em uma boa aproximação.
√ √ √ √
FY (y) = P(Y = y) = P(Z 2 < y) = P(− y < Z < y) = FZ ( y) − FZ (− y).
(a)
(b)
Figura 3.21: Distribuição χ2n : (a) função densidade de probabilidade, (b) função de distribuição
acumulada.
1 √ √ 1 √ √
fY (y) = FY0 (y) = √ FZ0 ( y) − FZ0 (− y) = √ [fZ ( y) − fZ (− y)]
2 y 2 y
1 1 1 1
= √ √ e−y/2 − √ e−y/2 ) = √ y −1/2 e−y/2
2 y 2π 2π 2π
Logo, Y ∼ χ21 .
106 CAPÍTULO 3. PRINCIPAIS DISTRIBUIÇÕES
Pn
Teorema 3.1. Sejam X1 , · · · , n v.a. independentes e identicamente distribuı́das e Sn = i=1 Xi .
Então,
i) Sn ∼ χ2n ⇐⇒ X1 ∼ χ21
Pn
ii) X1 ∼ N (0, 1) ⇐⇒ Sn = i=1 Xi ∼ χ2n
1) Então,
n n
X (Xj − µ)2 X 2
= Yj ∼ χ2n ,
σ2
j=1 j=1
(Xj −µ)2
Yj = σ2
, para j = 1, · · · , n
n(X−µ)2
2) Seja Y 2 = σ2
.
Temos que,
σ2
E(X) = µ e Var(X) = ,
n
√
n(X−µ)
logo Y = σ ∼ N (0, 1).
n(X−µ)2
Portanto, Y 2 = σ2
∼ χ21 .
3) No item anterior, se substituirmos a média da população µ pela média amostral X, temos que
n
X (Xj − X)2
∼ χ2n−1 .
σ2
j=1
Como aplicação dessa relação, considera-se o estimador não tendencioso para a variância da amostra
(Xj −X)2
s2 = nj=1 n−1
P
. Assim,
n
(n − 1) X (Xj − X)2 (n − 1)s2
= ∼ χ2n−1 .
σ2 (n − 1) σ2
j=1
Notação: T ∼ tn ou T ∼ t(n).
1
fT (t) = (1 + t2 )−1 , t ∈ R.
π
1
fX (x) = ,
πβ(1 + ( x−α 2
β ) )
onde α ∈ R e β > 0.
Propriedades: Seja X ∼ C(α, β), então
i) E(X) = @.
ii) Var(X) = @.
i) E(X) = 0, se n > 1.
n
ii) Var(X) = n−2 , se n > 2.
Definição 3.9. Sejam X e Y v.a. independentes com distribuição χ2m e χ2n , respectivamente. A
v.a.
X/m nX
F = = ,
Y /n mY
é dita ter distribuição F-Snedecor com (m,n) graus de liberdade.
A função densidade de probabilidade da v.a. F é dada por
Γ( m+n
2 )
m m m −1
2 m −( m+n
2
)
fF (x) = x 1 + x I(0,∞) (x).
Γ( m n
2 )Γ( 2 ) n n n