Você está na página 1de 109

Notas de Aula

STC1072 - Probabilidade III

Prof. Cleber Bisognin


2
Sumário

1 Variáveis e Vetores Aleatórios 5


1.1 Variáveis Aleatórias Discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1. Função Massa de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.2. Função de Distribuição ou Função de Probabilidade Acumulada . . . . . . . . . 12
1.2 Variáveis Aleatórias Contı́nuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.1. Função densidade de probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.2. Função de distribuição de Probabilidade ou Função Acumulada . . . . . . . . . 19
1.2.3. Obtendo fX (x) a partir de FX (x) . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.2.4. Percentis de uma distribuição contı́nua . . . . . . . . . . . . . . . . . . . . . . . 22
1.3 Vetores Aleatórios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.4 Funções Condicionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.5 Variáveis Aleatórias Independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1.6 Funções de Variável Aleatória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

2 Caracterı́sticas de Variáveis e Vetores Aleatórios 53


2.1 Propriedades: Variáveis Aleatórias Discretas . . . . . . . . . . . . . . . . . . . . . . . . 53
2.1.1. Esperança Matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.1.2. Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.1.3. Desvio padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.2 Propriedades: Variáveis Aleatórias Contı́nuas . . . . . . . . . . . . . . . . . . . . . . . 57
2.2.1. Esperança Matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.2.2. Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.2.3. Covariância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.2.4. Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.3 Esperança Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.4 Variância Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
2.5 Função Geradora de Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

3 Principais Distribuições 75
3.1 Principais Distribuições Discretos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.1.1. Modelo Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.1.2. Modelo Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.1.3. Modelo Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.1.4. Modelo Geométrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.2 Principais Distribuições Contı́nuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3.2.1. Modelo Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3.2.2. Modelo Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.2.3. Aproximação da Binomial pela Normal . . . . . . . . . . . . . . . . . . . . . . 96
3.2.4. Aproximação da Poisson pela Normal . . . . . . . . . . . . . . . . . . . . . . . 101
3.2.5. Modelo Chi-Quadrado χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
3.2.6. Distribuição t de student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4 SUMÁRIO

3.2.7. Modelo F-Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108


Capı́tulo 1

Variáveis e Vetores Aleatórios

Variável aleatória pode ser entendida como o resultado numérico de operar um mecanismo não deter-
minı́stico ou de fazer uma experiência não determinı́stica para gerar resultados aleatórios.

Definição 1.1. A variável aleatória é uma função de um espaço amostral Ω nos números reais,
isto é:

X : Ω → R ⇔ [X ≤ x] ∈ A, ∀x ∈ R, para A σ-álgebra em Ω. (1.1)


A função X de Ω em R será uma variável aleatória se, e somente se, para todo x que a função
assumir, o conjunto X dos valores menores ou iguais a x pertencer ao sigma-álgebra, para
qualquer x pertencente ao conjunto dos números Reais.

Figura 1.1: Fonte: Wikipédia

Variáveis aleatórias podem ser discretas ou contı́nuas.

1.1 Variáveis Aleatórias Discretas


São discretas todas as variáveis cujo espaço amostral ΩX é enumerável infinito ou finito. Se X é uma
variável aleatória discreta, então ΩX é um subconjunto dos inteiros.
Exemplo 1.1. Lançamento de uma moeda honesta até que ocorra a face cara e observação das faces
que ocorrem.
Solução:

Ω = {k, ck, cck, ccck, cccck, . . . },


6 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS

Figura 1.2: Variável aleatória: máximo de 2 dados.

Fonte: http://bit.do/eGFtD.

X = num. de coroas até que ocorra cara; Ω = num. de lançamentos até que ocorra cara;
ΩX = {0, 1, 2, 3, 4, . . . }, ΩY = {1, 2, 3, 4, 5 . . . },
X : Ω → ΩX Y : Ω → ΩY
X(k) = 0, Y (k) = 1,
X(ck) = 1; Y (ck) = 2;

Exemplo 1.2. Um homem possui 4 chaves em seu bolso. Como está escuro, ele não consegue ver qual
a chave correta para abrir a porta de sua casa. Ele testa cada uma das chaves até encontrar a correta.

(a) Defina um espaço amostral para esse experimento.

(b) Defina a v.a. X = número de chaves experimentadas até conseguir abrir a porta (inclusive a chave
correta). Quais são os valores de X?

Solução:

(a) Vamos designar por C a chave da porta e por E1 , E2 e E3 as outras chaves. Se ele para de testar
as chaves depois que acha a chave correta, então o espaço amostral é:

Ω= C,E1 C,E2 C,E3 C,E1 E2 C,E2 E1 C, E1 E3 C, E3 E1 C, E2 E3 C,E3 E2 C
E1 E2 E3 C,E1 E3 E2 C,E2 E1 E3 C,E2 E3 E1 C,E3 E1 E2 C,E3 E2 E1 C

(b) ΩX = {1, 2, 3, 4}.


1.1. VARIÁVEIS ALEATÓRIAS DISCRETAS 7

Exemplo 1.3. Dentre os 5 alunos de um curso com coeficiente de rendimento (CR) superior 8.5, dois
serão sorteados para receber uma bolsa de estudos. Os CRs desses alunos são: 8.8; 9.2; 8.9; 9.5; 9.0.

(a) Designando por A, B, C, D e E os alunos, defina um espaço amostral para esse experimento.

(b) Seja X = CR médio dos alunos sorteados. Liste os possı́veis valores de X.

(c) Liste o evento {X > 9.0}.

Solução:
 
5
(a) Note que aqui a ordem não importa; logo, #Ω = = 10. Mais especificamente,
2

Ω = {(A, B), (A, C), (A, D), (A, E), (B, C), (B, D), (B, E), (C, D), (C, E), (D, E)}

(b) Usando uma tabela de duas entradas podemos representar os valores de X da seguinte forma:

A (8.8) B (9.2) C (8.9) D (9.5) E (9.0)


A (8.8) 9.00 8.85 9.15 8.90
B (9.2) 9.05 9.35 9.10
C (8.9) 9.20 8.95
D (9.5) 9.25
E (9.0)

(c) {X > 9} = {(A, B), (A, D), (B, C), (B, D), (B, E), (C, D), (D, E)}.

Exemplo 1.4. Numa urna há 7 bolas brancas e 4 bolas verdes. Cinco bolas são extraı́das dessa urna.
Defina a v.a. X = número de bolas verdes. Quais são os possı́veis valores de X se as extrações são
feitas:

(a) sem reposição;

(b) com reposição.

Solução:

(a) Como há apenas 4 verdes, os valores de X são 0, 1, 2, 3, 4. Note que temos bolas brancas em
quantidade suficiente para que X = 0 (isto é, podemos tirar todas brancas).

(b) Se as extrações são feitas com reposição, em cada extração podemos tirar bola branca. Logo, os
possı́veis valores de X são 0, 1, 2, 3, 4, 5.
8 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS

1.1.1. Função Massa de Probabilidade


Os valores de uma v.a. discreta são definidos a partir do espaço amostral de um experimento aleatório.
Sendo assim, é natural perguntarmos qual é a probabilidade do valor x ? No exemplo do máximo das
2 faces de um dado da Figura 1.2, por exemplo, o valor 6 da v.a. é imagem de 11 pontos do espaço
amostral, enquanto o valor 2 é imagem de apenas 3 pontos. Sendo assim, é de se esperar que o valor 6
seja mais provável que o valor 2. Na verdade, temos a seguinte equivalência de eventos: se chamamos
de X a v.a. máximo das 2 faces, então

{X = 6} ≡ {(6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6), (1, 6), ((2, 6), ((3, 6), ((4, 6), ((5, 6)}
e, assim

P(X = 6) = P{(6, 1) ∪ (6, 2) ∪ (6, 3) ∪ (6, 4) ∪ (6, 5) ∪ (6, 6) ∪ (1, 6) ∪ (2, 6) ∪ (3, 6) ∪ (4, 6) ∪ (5, 6)}

Como os eventos expressão acima são mutuamente exclusivos e igualmente prováveis, resulta que

1 11
P(X = 6) = 11 × = .
36 36
De maneira análogo, temos

1 3 5
P(X = 1) = , P(X = 2) = P(X = 3) =
36 36 36
7 9 11
P(X = 4) = P(X = 5) = P(X = 6) = .
36 36 36

Definição 1.2. Seja X uma variável aleatória discreta e ΩX o seu espaço amostral. A função
massa de probabilidade P (X = x), ou simplesmente pX (x), será a função que associa a cada
valor de X a sua probabilidade de ocorrência, desde que atenda duas condições:
Função Massa de probabilidade:

1) pX (x) ≥ 0, ∀x ∈ ΩX ;
P
2) x∈ΩX pX (x) = 1.

O cálculo da fdp de uma v.a. X qualquer se dá em três etapas:

(i) primeiro, temos que identificar todos os possı́veis valores x da v.a.X;

(ii) segundo, temos que identificar os resultados que dão origem a cada valor x e suas respectivas
probabilidades;

(iii) finalmente, temos que somar todas essas probabilidades para obter pX (x).

Exemplo 1.5. Considerando novamente a v.a. definida na Figura ?? (máximo das duas faces), podemos
resumir a fmp da variável em questão na seguinte tabela:

x 1 2 3 4 5 6
1 3 5 7 9 11
pX (x) 36 36 36 36 36 36
1.1. VARIÁVEIS ALEATÓRIAS DISCRETAS 9

Exemplo 1.6. Consideremos novamente o lançamento de dois dados mas agora vamos definir a seguinte
v.a. X = soma das 2 faces. Para facilitar a solução desse problema, vamos construir uma tabela de
duas entradas, onde cada dimensão representa o resultado de um dado e em cada cela temos a soma
das duas faces.

1 2 3 4 5 6
1 2 3 4 5 6 7
2 3 4 5 6 7 8
3 4 5 6 7 8 9
4 5 6 7 8 9 10
5 6 7 8 9 10 11
6 7 8 9 10 11 12

Como cada ponto do espaço amostral é equiprovável, a fmp de X é:

x 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
pX (x) 36 36 36 36 36 36 36 36 36 36 36

A função de massa de probabilidade de uma v.a. discreta X que assume um número finito de
valores pode ser representada por um gráfico de colunas, onde a cada valor de X corresponde uma
coluna cuja altura representa a probabilidade do respectivo valor. Na Figura ?? ilustra-se a fmp da
v.a. X do Exemplo 1.6.

Figura 1.3: Função Massa de Probabilidade da v.a. X = soma das faces de dois dados.

Exemplo 1.7. Suponha que uma moeda é lançada 10 vezes e vamos definir a v.a. X = número de
caras. Suponhamos que a probabilidade de cara seja p e, por conseguinte, a probabilidade de coroa
é 1 − p. Os possı́veis valores de X são 0, 1, 2, . . . , 10. Vamos agora calcular a probabilidade de
cada um desses valores, estabelecendo a equivalência dos eventos envolvidos. Para isso vamos usar a
notação Ki = cara no i-ésimo lançamento e Ci = coroa no i-ésimo lançamento.

{X = 0} = {coroa nos 10 lançamentos} = {C1 ∩ · · · ∩ C10 }


10 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS

Podemos considerar os lançamentos da moeda como eventos independentes. Logo,

P(X = 0) = P(C1 ) × · · · × P(C10 ) = (1 − p)10


O evento {X = 1} corresponde à ocorrência de 1 cara e 9 coroas. Uma sequência possı́vel de
resultados é KCCCCCCCCC e a probabilidade é

P(KCCCCCCCCC) = p(1 − p)9


 
10
Mas a sequência CKCCCCCCCC também resulta em {X = 1}. Na verdade existem tais
1
sequências, todas com a mesma probabilidade. Logo
 
10
P(X = 1) = p(1 − p)9 .
1
Analogamente, o evento {X = 2} corresponde à ocorrência de 2 caras e 8 coroas; uma sequência
possı́vel é KKCCCCCCCC, que tem probabilidade

P(KKCCCCCCCC) = p2 (1 − p)8
 
10
Mas, existem maneiras de colocar caras numa sequência de 10 lançamentos e todas tem a
2
mesma probabilidade. Portanto,
 
10 2
P(X = 2) = p (1 − p)8 .
2
Em geral, para qualquer valor de x temos
 
10 x
P(X = x) = p (1 − p)1−x , x = 0, 1, 2, · · · , 10.
x
Na Figura 1.3 apresentamos a fmp para diferentes valores de p.

Exemplo 1.8. Considere uma urna com 10 bolas, das quais 6 são vermelhas e 4 brancas. Dessa urna
retiram-se 3 bolas sem reposição e conta-se o número de bolas brancas retiradas. Qual é a distribuição
dessa variável aleatória?
Solução: Os possı́veis valores de X são 0,1,2,3. Para calculara probabilidade
 de cada um desses
10
valores, devemos notar inicialmente que o espaço amostral tem eventos elementares. O evento
3
{X = 0} corresponde à união dos eventos (sequências) onde não aparece nenhumabola   branca
  ou, 
6 4 6
equivalentemente, onde todas as bolas são vermelhas; o número de tais sequências é = .
3 0 3
Logo,
  
6 4
3 0 20
P(X = 0) =   = .
10 120
3
Analogamente, o evento {X = 1} corresponde
   àunião dos eventos onde aparece 1 bola branca e 2
6 4
vermelhas. O número de tais sequências é e, logo
2 1
1.1. VARIÁVEIS ALEATÓRIAS DISCRETAS 11

Figura 1.4: Função Massa de Probabilidade da v.a. X = número de caras em 10 lançamentos.

  
6 4
2 1 60
P(X = 1) =   = .
10 120
3
Analogamente,
  
6 4
1 2 36
P(X = 2) =   = ,
10 120
3
  
6 4
0 3 4
P(X = 3) =   = .
10 120
3
Portanto,

x 0 1 2 3
1 1 3 1
pX (x) 6 2 10 30
12 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS

Figura 1.5: Função Massa de Probabilidade da v.a. X = Número de bolas brancas em 3 extrações de
uma urna com 6 vermelhas e 4 brancas.

Exemplo 1.9. Considere a função dada na tabela abaixo.


x 0 1 2 3
g(x) a 3a 3a a

Estabeleça condições sobre a, de modo que a função g(x) seja uma função massa de probabilidade.

1.1.2. Função de Distribuição ou Função de Probabilidade Acumulada


A partir da função massa de probabilidades de uma v.a. discreta X é possı́vel calcular a probabilidade
de qualquer evento associado a ela. Por exemplo, para a fmp da Figura 1.5, temos que
1
P(X > 2) = P({X = 2} ∪ {X = 3}) = P(X = 2) + P(X = 3) = .
3
2
P(X 6 1) = P({X = 0} ∪ {X = 1}) = P(X = 0) + P(X = 1) = .
3
Então, podemos dizer que a fmp de uma variável aleatória discreta X nos dá toda a informação
sobre X. Existe uma outra função com tal caracterı́stica, que é a função de distribuição acumulada
de X, cuja definição apresentamos a seguir.

Definição 1.3. Seja X uma variável aleatória discreta e ΩX o seu espaço amostral. A função de
distribuição, denotada por FX (x) ou P (X 6 x), é a função que associa a cada valor de X a
probabilidade P (X 6 x). Desta forma, temos

X X
FX (x) = P (X 6 x) = P (X = x) = pX (x). (1.2)
X6x X6x
1.1. VARIÁVEIS ALEATÓRIAS DISCRETAS 13

Exemplo 1.10. Voltando ao Exemplo 1.5, temos que a fmp da v.a. X = máximo das duas faces é dada
por

x 1 2 3 4 5 6
1 3 5 7 9 11
pX (x) 36 36 36 36 36 36

Para calcular a fda de X, notemos inicialmente que nenhum valor menor que 1 é possı́vel. Logo,

FX (x) = 0, para todo x < 1.


Para x = 1 devemos notar que
1 1
FX (1) = P (X 6 1) = P(X < 1) + P(X = 1) = 0 + = .
36 36
Para qualquer valor de x tal que 1 < x < 2, temos que pX (x) = 0. Logo,

1
FX (x) = P (X 6 1) + P(1 < X < x) = FX (1) + 0 = FX (1) = para todo 1 6 x < 2.
36
Analogamente, temos
1 3 4
FX (2) = P (X 6 2) = P(X 6 1) + P(1 < X < 2) + P(X = 2) = +0+ = .
36 36 36
4
FX (x) = P (X 6 x) = para todo 2 6 x < 3,
36
Seguindo o mesmo raciocı́nio temos
9
FX (x) = P (X 6 x) = para todo 3 6 x < 4,
36
16
FX (x) = P (X 6 x) = para todo 4 6 x < 5
36
25
FX (x) = P (X 6 x) = para todo 5 6 x < 6.
36
Para x > 6 devemos notar que o evento {X 6 x} corresponde ao espaço amostral completo. Logo

FX (x) = P (X 6 x) = 1, para todo x > 6.


Resumindo,

 0, se x < 1;
1

36 , se 1 6 x < 2;



4

, se 2 6 x < 3;


 36
9
FX (x) = 36 , se 3 6 x < 4;
16
 36 , se 4 6 x < 5;



25
, se 5 6 x < 6;


 36


1, se x > 6.

Propriedades:

(i) 0 6 FX (x) 6 1;
14 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS

Figura 1.6: Função Distribuição Acumulada v.a. X = máximo das duas faces.

(ii) lim FX (x) = 1;


x→∞

(iii) lim FX (x) = 0;


x→−∞

(iv) FX (x) é uma função não decrescente, isto é, para qualquer a < b, temos FX (a) 6 FX (b);

(v) FX (x) uma função contı́nua à direita.

Exemplo 1.11. Considere a v.a. X cuja fmp é dada na tabela abaixo:

x -2 -1 0 1 2 3
pX (x) 0.1 0.2 0.2 0.3 0.1 0.1

Encontre a função de distribuição acumulada e faça o seu gráfico.


Solução:

Exemplo 1.12. A variável X tem função de distribuição Acumulada dada por:




 0, se x < −1;
1/2, se −1 6 x 6 1/2;

FX (x) =

 3/4, se 1/2 6 x 6 2;
1, se x > 2.

(a) Obtenha a correspondente função massa de probabilidade.

(b) Expresse P(X > 0) e P(X > 0) em termos de FX (x) e calcule seus valores.
1.2. VARIÁVEIS ALEATÓRIAS CONTÍNUAS 15

(c) Expresse P(X > −1) e P(X > −1)em termos de FX (x) e calcule seus valores. Comente sobre as
diferenças em relação aos resultados de (b).

Solução:

1.2 Variáveis Aleatórias Contı́nuas

Definição 1.4. Seja E um experimento e Ω um espaço amostral associado. Se X é uma variável


aleatória definida em Ω tal que X(Ω) = ΩX seja infinito não-enumerável, isto é, ΩX seja um
intervalo de números reais, então X é dita uma variável aleatória contı́nua.

Se X é uma variável aleatória contı́nua, X pode assumir qualquer valor num intervalo [a, b] ou no
intervalo (−∞; +∞).

O espaço ΩX será sempre definido como um intervalo do conjunto dos reais, sendo, portanto, um
conjunto infinito.

Exemplos:

(i) tempo de vida de um animal;

(ii) vida útil de um componente eletrônico;

(iii) peso de uma pessoa;

(iv) quantidade de chuva que ocorre numa região;

(v) tempo de espera até a chegada do próximo cliente.

1.2.1. Função densidade de probabilidade


Os valores de uma variável aleatória contı́nua são definidos a partir do espaço amostral de um experi-
mento aleatório. Sendo assim, é natural o interesse na probabilidade de obtenção de diferentes valores
dessa variável. O comportamento probabilı́stico de uma variável aleatória contı́nua será descrito pela
sua função de densidade de probabilidade.
Inicialmente apresentamos a definição da função de densidade de probabilidade utilizando a noção
de área, para seguir a apresentação inicial que considerou um histograma de uma variável contı́nua.
16 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS

Definição 1.5. Seja X uma variável aleatória contı́nua e ΩX o seu espaço associado. Uma função
fX (·) associada a variável X é denominada função densidade de probabilidade (fdp) se satisfizer
duas condições:

(i) fX (x) > 0, para todo x ∈ ΩX ;


Z ∞
(ii) fX (x) = 1.
−∞

Observação 1.1. Dada uma função fX (x) satisfazendo as propriedades acima, então fX (x) representa
função densidade de probabilidade de alguma variável aleatória contı́nua X, de modo que P(a 6 X 6 b)
é a área sob a curva limitada pelos pontos a e b, conforme a Figura 1 a seguir.

Figura 1.7: Probabilidade calculada atráves da função desnidade de probabilidade.

Para obter a probabilidade da variável aleatória estar em um certo intercalo [a, b], fazemos a integral
da função densidade de probabilidade no intervalo. Assim,
Z b
P(a 6 X 6 b) = fX (x).
a

Uma primeira observação importante que resulta da interpretação geométrica de probabilidade


como área sob a curva de densidade de probabilidade é a seguinte: se X é uma variável aleatória
contı́nua, então a probabilidade do evento [X = a] é zero, ou seja, a probabilidade de X ser exatamente
igual a um valor especı́fico é nula.
Z a
P(X = a) = fX (x) = 0
a
Como consequência, temos as seguintes igualdades:
Z b
P(a 6 X 6 b) = P(a 6 X < b) = P(a < X 6 b) = P(a < X < b) = fX (x).
a

Exemplo 1.13. Seja a função fX (x) = 2x, no intervalo ΩX = [0, 1]. Verifique se a função abaixo é uma
função densidade de probabilidade.

2x, se 0 6 x 6 1;
fX (x) = (1.3)
0, c.c.
1.2. VARIÁVEIS ALEATÓRIAS CONTÍNUAS 17

Solução:

(i) fX (x) > 0, para todo x ∈ ΩX ;


Z ∞ Z 0 Z 1 Z ∞
(ii) fX (x)dx = 0dx + 2xdx + 0dx = 1.
−∞ −∞ 0 1

Figura 1.8: Função densidade de probabilidade dada pela equação (1.3).

Exemplo 1.14. Vamos avaliar para que valores da constante c ∈ R, a função abaixo representa uma
função densidade de probabilidade.
 2 1
 c(1 − x) , se 0 6 x < 2 ;
1 1
f (x) = , se 2 6 x 6 1; (1.4)
 (c+1)
0, c.c.
Verifique as condições para que a função acima seja uma função densidade de probabilidade.

Solução: Z ∞
As condições que precisam ser satisfeitas pela função f (·) são f (x) > 0 e f (x)dx = 1. Observe
−∞
que, se c > 0, temos f (x) não negativa. Agora devemos obter os valores de c que satisfaçam a segunda
condição. Assim, temos que
1
Z ∞ Z 0 Z Z 1 Z ∞
2
2 1
f (x)dx = 0dx + c(1 − x) dx + dx + 0dx = 1,
−∞ −∞ 0 1 (c + 1) 1
2

o que resulta em
1
2
1
−(1 − x)3 x
c + =1 → 7c2 − 17c − 12 = 0.
3 (c + 1) 1
0 2

Da mesma forma
1
Z Z 1
2 1
c(1 − x)2 dx + dx = 1
0 1 (c + 1)
2
18 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS

1
Z Z 1
2
2 1
c(1 − 2x + x )dx + dx = 1
0 (c + 1)
1
2
"Z 1 1 1
# Z
Z Z 1
2 2 2 1
c 1dx − 2 xdx + x2 dx + dx = 1
1 (c + 1)
0 0 0 2
 1 1 1
2 2 2
1
x2 x3 x
c x −2 + + =1
2 3 (c + 1) 1
0 0 0 2
 
1 1 1 1
c − + + =1
2 4 24 2(c + 1)
7c 1 7c 1 −7c + 24 1
+ =1→1− = → =
24 2(c + 1) 24 2(c + 1) 24 2(c + 1)

−14c2 + 48c − 14c + 48 = 24 → −14c2 + 34c + 24 = 0 → 14c2 − 34c − 24 = 0


Logo precisamos encontrar as raı́zes da equação 7c2 − 17c − 12 = 0.
A solução negativa dessa equação de 2 grau é descartada e obtemos c = 3.

 3(1 − x)2 , se 0 6 x < 12 ;



1
fX (x) = , se 12 6 x 6 1; (1.5)
 4
0, c.c.

Exemplo 1.15. A quantidade de tempo em horas que um computador funciona sem estragar é uma
variável aleatória contı́nua com função densidade de probabilidade dada por

λe−x/100 , se x > 0;

f (x) = (1.6)
0, c.c.
Qual a probabilidade de que:

(a) o computador funcione entre 50 e 100 horas antes de estragar?

(b) ele funcione menos de 100 horas?

Solução:

(a) Primeiramente precisamos encontra o valor de λ tal que a função acima seja uma função densidade
de probabilidade. A primeira condição é que f (x) > 0. Para que essa condição seja satisfeita,
temo que ter λ > 0. Para a segunda condição temos que ter
Z ∞ Z 0 Z ∞
1= f (x)dx = 0dx + λe−x/100 dx.
−∞ −∞ 0

Logo,


−x/100 1
1 = −100λe λ → 1 = 100λ → λ= ·
100
0
1.2. VARIÁVEIS ALEATÓRIAS CONTÍNUAS 19

Logo,

1 −x/100

f (x) = 100 e , se x > 0;
(1.7)
0, c.c.

Portanto, a probabilidade de que o computador funcione entre 50 e 100 horas antes de estragar
antes de estragar é dada por

100
Z 100
1 −x/100
P(50 < X < 100) = e dx = −e−x/100 = e−1/2 − e−3/2 ≈ 0.384.
50 100
50

(b) Da mesma forma temos

100
Z 100
1 −x/100
P(X < 100) = e dx = −e−x/100 = 1 − e−1 ≈ 0.633.
0 100
0

1.2.2. Função de distribuição de Probabilidade ou Função Acumulada

Definição 1.6. Seja X uma variável aleatória contı́nua e ΩX o seu espaço associado. A função
de distribuição, denotada por FX (x) = P(X 6 x), é a função que associa a cada ponto x ∈ ΩX
a probabilidade P (X 6 x). Desta forma, tem-se:

Z x
FX (x) = P (X 6 x) = fX (y)dy. (1.8)
−∞

Exemplo 1.16. Seja X a espessura de uma determinada chapa de metal, com função densidade de
probabilidade dada por
1
fX (x) = I (x) (1.9)
B − A [A,B]

Figura 1.9: Função densidade de probabilidade dada pela equação (1.9).

Encontre a função de distribuição.

Solução: Para x < A, temos


Z x Z x
FX (x) = fX (y)dy = 0dy = 0.
−∞ −∞
20 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS

Para A 6 x < B, temos


x
x x
x−A
Z Z
1 1
FX (x) = fX (y)dy = dy = y = ·
−∞ A B−A B−A B−A
A

Para x > B, temos


Z x Z B
1
FX (x) = fX (y)dy = dy = 1.
−∞ A B−A
Portanto a Função de distribuição acumulada é dada por

 0, se x 6 A;
x−A
FX (x) = B−A , se A 6 x < B; (1.10)
1, se x > B.

O gráfico da função de distribuição dado pela equação (1.10) é dada pela Figura 1.10.

Figura 1.10: Função de Distribuição dada pela equação (1.10).

Exemplo 1.17. Seja X uma variável aleatória contı́nua que significa o tempo em minutos de um teste.
A função densidade de probabilidade da variável aleatória X é dada por:
1

 40 (x − 4), se 8 6 x < 10;
3
fX (x) = 20 , se 10 6 x 6 15; (1.11)
0, c.c.

Gráfico da função densidade de probabilidade dada pela equação (1.11).

Figura 1.11: Gráfico da função de densidade de probabilidade dada pela equação (1.11).

Encontre a função de distribuição e calcule P(9 < X 6 12).


Rx
Solução: Vamos encontrar a função de distribuição. Sabemos que se x < 8, temos FX (x) = −∞ 0dy =
0. Para 8 6 x < 10,
1.2. VARIÁVEIS ALEATÓRIAS CONTÍNUAS 21

x
x
y2 x2
Z    
1 1 1
FX (x) = (y − 4)dy = − 4y = − 4x
8 40 40 2 40 2
8

Para 10 6 x < 15,


10 x
10 x
y2
Z Z  
1 3 1 3y 3x 5
FX (x) = (y − 4)dy + dy = − 4y + = −
8 40 10 20 40 2 20 20 4
8 10

Para x > 15,


Z 10 Z 15
1 3
FX (x) = (y − 4)dy + dy = 1.
8 40 10 20
Portanto a função de distribuição acumulada da variável aleatória X é dada por

 0, se x < 8;
1 x2

40 ( 2 − 4x), se 8 6 x < 10;

FX (x) = 3x 5 (1.12)
20 − 4 , se 10 6 x < 15;



1, se x > 15.

Figura 1.12: Gráfico da função densidade dada pela equação (1.11) para o cálculo da P(9 < X 6 12).

Assim,
Z 10 Z 12
1 3 7
P(9 < X 6 12) = FX (12) − FX (9) = (y − 4)dy + dy = .
8 40 10 20 16

1.2.3. Obtendo fX (x) a partir de FX (x)


Para X uma variável aleatória discreta a f.m.p. é obtida a partir da função de distribuição calculando-
se a diferença entre dois valores da FX (x). O análogo contı́nuo de uma diferença é a derivada. O
resultado a seguir é uma consequência do Teorema Fundamental do Cálculo.

Proposição 1. Seja X uma variável aleatória contı́nua com função densidade fX (x) e função de
distribuição FX (x), então, em cada x cuja derivada FX0 (x) existe, FX0 (x) = dx
d
FX (x) = fX (x).

Exemplo 1.18. Do Exemplo ?? temos a seguinte função de distribuição acumulada


22 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS


 0, se x 6 A;
x−A
FX (x) = B−A , se A 6 x < B; (1.13)
1, se x > B.

Solução: Derivando temos


1
fX (x) = I (x) (1.14)
B − A [A,B]

1.2.4. Percentis de uma distribuição contı́nua


Quando dizemos que a pontuação de um indivı́duo estava no 850 percentil da população, queremos
dizer que 85% de todas as pontuações da população estavam abaixo daquela pontuação e 15% acima
dela.
Definição 1.7. Seja p um número entre 0 e 1. O (100p)−ésimo percentil da distribuição de uma
variável aleatória X, representado por η(p), é definido por:
Z η(p)
p = FX (η(p)) = P(X 6 η(p)) = fX (y)dy. (1.15)
−∞

Pela equação (1.15), η(p) é o valor no eixo x tal que 100p% da área sob o gráfico de fX (x)
encontra-se à esquerda de η(p) e 100(1 − p)% encontra-se à direita.

Figura 1.13: Quantil de probabilidade p100% da distribuição de uma variável aleatória contı́nua X.

Exemplo 1.19 (Devore, 2016). A distribuição da quantidade de cascalho (em toneladas) vendida para
uma determinada loja de materiais de construção em uma determinada semana é uma v.a. contı́nua
X com função densidade de probabilidade dada por
3
fX (x) = (1 − x2 )I[0,1] (x). (1.16)
4
Solução: A função de distribuição da v.a. é dada por

 0,
  se x 6 0;
3 x3
FX (x) =
 2 x − 3 , se 0 6 x < 1; (1.17)
1, se x > 1.

1.3. VETORES ALEATÓRIOS 23

Os gráficos das f.d.p. e da f.d. dados, respectivamente, pelas equações (1.11) e (1.10) são apresen-
tados na Figura 1.14. O (100p)−ésimo percentil dessa distribuição satisfaz a equação

(η(p))3
 
3
p = FX (η(p)) = η(p) −
2 3
ou seja,

(η(p))3 − 3η(p) + 2p = 0.
Para encontrarmos o 500 percentil, assumimos p = 0.5, e a equação a ser resolvida é (η(0.5))3 −
3η(0.5) + 1 = 0; a solução é η(0.5) = 0.347. Se a distribuição continuar de semana para semana, no
longo prazo, 50% de todas as semanas resultarão em vendas de menos de 0.347 toneladas e 50% em
mais de 0.347 toneladas.

Figura 1.14: A f.d.p. e da f.d. dados, respectivamente, pelas equações (1.11) e (1.10) .

1.3 Vetores Aleatórios


Em muitas situações, ao descrevermos os resultados de um experimento aleatório atribuı́mos a um
mesmo ponto amostral os valores de duas ou mais variáveis aleatórias.

Exemplo 1.20. [Bussab e Morettin, 2017] Suponha que estamos interessados em estudar a composição
de famı́lias com três crianças, quanto ao sexo. Definimos:
X= número de meninos;

1, se o primeiro filho for homem;
Y =
0, se o primeiro filho for mulher;

Z=numero de vezes em que houve variação do sexo entre um nascimento e outro, dentro da mesma
famı́lia.
Com estas informações, e supondo que as possı́veis composições tenham a mesma probabilidade,
temos a tabela a seguir.
Solução:

Tabela 1.1: Distribuições de probabilidade unidimensionais.

x 0 1 2 3 y 0 1 z 0 1 2
1 3 3 1 1 1 1 1 1
pX (x) 8 8 8 8 pY (y) 2 2 pZ (z) 4 2 4
24 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS

Tabela 1.2: Composição de famı́lias com 3 filhos, quanto ao sexo.

Eventos Probabilidade X Y Z
1
HHH 8 3 1 0
1
HHM 8 2 1 1
1
HMH 8 2 1 2
1
MHH 8 2 0 1
1
HMM 8 1 1 1
1
MHM 8 1 0 2
1
MMH 8 1 0 1
1
MMM 8 0 0 0

Tabela 1.3: Distribuições de probabilidade conjunta do vetor aleatório (x, y).

(x, y) p(x, y)
1
(0, 0) 8
2
(1, 0) 8
1
(1, 1) 8
1
(2, 0) 8
2
(2, 1) 8
1
(3, 1) 8

Tabela 1.4: Distribuições de probabilidade conjunta do vetor aleatório (x, y, z).

(x, y, z) p(x, y, z)
1
(0, 0, 0) 8
1
(1, 0, 1) 8
1
(1, 0, 2) 8
1
(1, 1, 1) 8
1
(2, 0, 1) 8
1
(2, 1, 1) 8
1
(2, 1, 2) 8
1
(3, 1, 0) 8

Tabela 1.5: Distribuições de probabilidade conjunta do vetor aleatório (x, y).

Y \X 0 1 2 3 pY (y)
1 2 1 1
0 8 8 8 0 2
1 2 1 1
1 0 8 8 8 2
1 3 3 1
pX (x) 8 8 8 8 1
1.3. VETORES ALEATÓRIOS 25

Definição 1.8. Seja (X, Y ) um vetor aleatório onde X e Y são variáveis aleatórias discretas
definidas no mesmo espaço amostral Ω de um experimento aleatório. A função massa de pro-
babilidade conjunta p(x, y) é definida para cada par (x, y) por

p(x, y) = P([X = x] ∩ [Y = y]).


Seja A qualquer conjunto formado por pares de valores (x, y). A probabilidade P[(X, Y ) ∈ A]
é obtida pela soma da f.m.p. conjunta com os pares de A:
XX
P[(X, Y ) ∈ A] = p(x, y).
(x,y)∈A

Proposição 2. A função massa de probabilidade conjunta de um vetor aleatório (X, Y ) deve


satisfazer as seguintes propriedades:

(i) 0 < p(x, y) < 1;


PP
(ii) p(x, y) = 1.

Exemplo 1.21. [Devore, 2016] Uma grande agência de seguros presta serviços a diversos clientes que
compraram uma apólice de seguros residencial e uma outra para automóvel. Para cada uma, deve ser
especificado um mı́nimo dedutı́vel. para a apólice de automóvel as opções são R$ 100,00 e R$ 250,00,
enquanto, para uma apólice residencial, as opções são 0, R$ 100,00 e R$ 200,00. Suponha que um
indivı́duo com os dois referidos tipos de apólice seja selecionado aleatoriamente do banco de dados
da seguradora. Seja X = valor dedutı́vel na apólice do automóvel e Y = valor dedutı́vel na apólice
residencial. A função massa de probabilidade conjunta de (X, Y ) é apresentada a seguir:

X \Y 0 100 200
100 0.2 0.1 0.2
250 0.05 0.15 0.3

Encontre p(100, 100) e P(Y > 100).


Solução: Temos que: p(100, 100) = P(X = 100, Y = 100) = 0.10.
A probabilidade P(Y > 100) é calculada pela soma das probabilidades de todos os pares (x, y)
para os quais y > 100:

P(Y > 100) = p(100, 100) + p(250, 100) + p(100, 200) + p(250, 200) = 0.75.

Exemplo 1.22. Em uma Turma de Introdução à Probabilidade com 34 alunos foram feitas as seguintes
perguntas idade, cidade, número de irmãos, cor preferida e se está ou não matriculado em Cálculo. As
respostas foram tabelas a seguir. Abaixo podem ser encontras as funções de massa de probabilidade
conjuntas e marginais das variáveis aleatórias.

Solução:
Banco de Dados da Turma U de MAT02018 – Estatística Descritiva

Aluno Idade Cidade Nº. Irmãos Cor Matrícula Cálculo

A01 17 POA 3 vermelho 1


A02 54 RJ 3 verde 1
A03 18 POA 2 vermelho 1
A04 18 POA 2 azul 1
A05 39 Fortaleza 1 azul 1
A06 18 San Antônio- VNZ 3 vermelho 1
A07 18 POA 1 azul 1
A08 21 POA 1 azul 0
A09 26 POA 1 preto 0
A10 32 Rio Grande 2 amarelo 0
A11 28 POA 1 verde 0
A12 18 Esteio 0 preto 1
A13 20 POA 1 preto 1
A14 21 Santa Maria 0 vermelho 0
A15 17 POA 0 vermelho 1
A16 25 Sapucaia do Sul 1 azul 0
A17 28 POA 3 azul 0
A18 21 POA 0 preto 1
A19 17 POA 3 preto 1
A20 18 POA 2 verde 1
A21 19 POA 2 preto 1
A22 19 Novo Hamburgo 1 preto 1
A23 22 POA 3 preto 0
A24 19 POA 1 vermelho 1
A25 21 POA 1 azul 1
A26 19 POA 1 vermelho 1
A27 21 Triunfo 2 verde 0
A28 20 Ijuí 2 preto 1
A29 17 Roca Sales 1 preto 1
A30 17 POA 1 preto 1
A31 16 POA 2 preto 1
A32 29 POA 2 preto 1
A33 29 POA 3 vermelho 0
A34 17 Blumenau 1 preto 1
Fonte: Cedida pela Professora da Turma U de MAT02018 em 2018/1.
Função Massa de Probabilidade Conjunta e Funções Massa de Probabilidade
Marginas das
Variáveis Aleatórias Cidade (C) e Idade (ID)
Idade
Cidade 16 17 18 19 20 21 22 25 26 28 29 32 39 54 Total Geral
Blumenau 1 1
Esteio 1 1
Fortaleza 1 1
Ijuí 1 1
Novo Hamburgo 1 1
POA 1 4 4 3 1 3 1 1 2 2 22
Rio Grande 1 1
RJ 1 1
Roca Sales 1 1
San Antônio-VNZ 1 1
Santa Maria 1 1
Sapucaia do Sul 1 1
Triunfo 1 1
Total Geral 1 6 6 4 17 5 1 1 1 8 2 1 1 1 34

Idade
Cidade 16 17 18 19 20 21 22 25 26 28 29 32 39 54 P(C=c)
Blumenau 0 1/34 0 0 0 0 0 0 0 0 0 0 0 0 1/34
Esteio 0 0 1/34 0 0 0 0 0 0 0 0 0 0 0 1/34
Fortaleza 0 0 0 0 0 0 0 0 0 0 0 0 1/34 0 1/34
Ijuí 0 0 0 0 1/34 0 0 0 0 0 0 0 0 0 1/34
Novo Hamburgo 0 0 0 1/34 0 0 0 0 0 0 0 0 0 0 1/34
POA 1/34 2/17 2/17 3/34 1/34 3/34 1/34 0 1/34 1/17 1/17 0 0 0 11/17
Rio Grande 0 0 0 0 0 0 0 0 0 0 0 1/34 0 0 1/34
RJ 0 0 0 0 0 0 0 0 0 0 0 0 0 1/34 1/34
Roca Sales 0 1/34 0 0 0 0 0 0 0 0 0 0 0 0 1/34
San Antônio-VNZ 0 0 1/34 0 0 0 0 0 0 0 0 0 0 0 1/34
Santa Maria 0 0 0 0 0 1/34 0 0 0 0 0 0 0 0 1/34
Sapucaia do Sul 0 0 0 0 0 0 0 1/34 0 0 0 0 0 0 1/34
Triunfo 0 0 0 0 0 1/34 0 0 0 0 0 0 0 0 1/34
P(ID=id) 1/34 3/17 3/17 2/17 1/2 5/34 1/34 1/34 1/34 4/17 1/17 1/34 1/34 1/34 1
Função Massa de Probabilidade Conjunta e Funções Massa de Probabilidade
Marginas das
Variáveis Aleatórias Idade (ID) e Cor (CO)

Idade
Cor 16 17 18 19 20 21 22 25 26 28 29 32 39 54 Total Geral
Amarelo 1 1
Azul 2 2 1 1 1 7
Preto 1 4 1 2 2 1 1 1 1 14
Verde 1 1 1 1 4
Vermelho 2 2 2 1 1 8
Total Geral 1 6 6 4 2 5 1 1 1 2 2 1 1 1 34
Idade
Cor $16$ $17$ $18$ $19$ $20$ $21$ $22$ $25$ $26$ $28$ $29$ $32$ $39$ $54$ P(CO=co)
Amarelo 0 0 0 0 0 0 0 0 0 0 0 1/34 0 0 1/34
Azul 0 0 1/17 0 0 1/17 0 1/34 0 1/34 0 0 1/34 0 7/34
Preto 1/34 2/17 1/34 1/17 1/17 1/34 1/34 0 1/34 0 1/34 0 0 0 7/17
Verde 0 0 1/34 0 0 1/34 0 0 0 1/34 0 0 0 1/34 2/17
Vermelho 0 1/17 1/17 1/17 0 1/34 0 0 0 0 1/34 0 0 0 4/17
P(ID=id) 1/34 3/17 3/17 2/17 1/17 5/34 1/34 1/34 1/34 1/17 1/17 1/34 1/34 1/34 1
Função Massa de Probabilidade Conjunta e Funções Massa de Probabilidade
Marginas das
Variáveis Aleatórias Cidade(C) e Número de Irmãos (IR)

Número de Irmãos
Cidade 0 1 2 3 Total Geral
Blumenau 1 1
Esteio 1 1
Fortaleza 1 1
Ijuí 1 1
Novo Hamburgo 1 1
POA 2 9 6 5 22
Rio Grande 1 1
RJ 1 1
Roca Sales 1 1
San Antônio-VNZ 1 1
Santa Maria 1 1
Sapucaia do Sul 1 1
Triunfo 1 1
Total Geral 4 14 9 7 34
Número de Irmãos
P(C=c)
Cidade 0 1 2 3
Blumenau 0 1/34 0 0 1/34
Esteio 1/34 0 0 0 1/34
Fortaleza 0 1/34 0 0 1/34
Ijuí 0 0 1/34 0 1/34
Novo Hamburgo 0 1/34 0 0 1/34
POA 1/17 9/34 3/17 5/34 11/17
Rio Grande 0 0 1/34 0 1/34
RJ 0 0 0 1/34 1/34
Roca Sales 0 1/34 0 0 1/34
San Antônio-VNZ 0 0 0 1/34 1/34
Santa Maria 1/34 0 0 0 1/34
Sapucaia do Sul 0 1/34 0 0 1/34
Triunfo 0 0 1/34 0 1/34
P(IR=ir) 2/17 7/17 9/34 7/34 1
Funções Massa de Probabilidade Marginas das
Variáveis Aleatórias Cidade(C), Cores (CO), Idade (ID) e Número de Irmãos (IR)

San Antônio - VNZ


Novo Hamburgo

Sapucaia do Sul
Santa Maria
Rio Grande

Roca Sales
Blumenau

Fortaleza

Triunfo
Cidade

Esteio

Soma
POA
Ijuí

RJ
P(C=c) 1/34 1/34 1/34 1/34 1/34 11/17 1/34 1/34 1/34 1/34 1/34 1/34 1/34 1

N Irmãos 0 1 2 3 Soma

P(IR=ir) 2/17 7/17 9/34 7/34 1


Idade 16 17 18 19 20 21 22 25 26 28 29 32 39 54 Soma
P(ID=id) 1/34 3/17 3/17 2/17 1/17 5/34 1/34 1/34 1/34 1/17 1/17 1/34 1/34 1/34 1
Cor Amarelo Azul Preto Verde Vermelho Soma

P(CO=co) 1/34 7/34 7/17 2/17 4/17 1


1.3. VETORES ALEATÓRIOS 35

A função massa de probabilidade de apenas uma das variáveis é obtida pela soma de p(x, y) em
relação aos valores da outra variável. O resultado é denominado de f.m.p. marginal porque, quando
os valores p(x, y) são exibidos em uma tabela, as somas são apenas totais marginais.

Definição 1.9. As funções massa de probabilidade marginais de X e Y representadas respecti-


vamente por pX (x) e pY (y), dadas por
X X
pX (x) = p(x, y) e pY (y) = p(x, y).
y x

Exemplo 1.23. [Devore, 2016] (Continuação Exemplo 1.21)Encontre as marginais de X e Y .


Solução: Os possı́veis valores de X são ΩX = {100, 250}, Assim,

pX (100) = P(X = 100) = p(100, 0) + p(100, 100) + p(100, 200) = 0.5


e

pX (250) = P(X = 250) = p(250, 0) + p(250, 100) + p(250, 200) = 0.5


Portanto a f.m.p. marginal de X é dada por

X 100 250
pX (x) 0.5 0.5

Similarmente, os possı́veis valores de Y são ΩX = {0, 100, 200}. Assim

pY (0) = P(Y = 0) = p(100, 0) + p(250, 0) = 0.25

pY (100) = P(Y = 100) = p(100, 100) + p(250, 100) = 0.25

pY (250) = P(Y = 250) = p(100, 250) + p(250, 250) = 0.50


Portanto a f.m.p. marginal de Y é dada por

Y 0 100 250
pY (y) 0.25 0.25 0.5

Assim, P(Y > 100) = pY (100) + pY (250) = 0.75.

Exemplo 1.24. [Magalhães e Lima, 2004] Uma região foi subdividida em 10 sub-regiões Em cada uma
delas foram observadas duas variáveis: número de poços artesianos (X) e número de rios presentes na
sub-região (Y). Os resultados foram os seguintes:

Sub-região 1 2 3 4 5 6 7 8 9 10
X 0 0 0 0 1 2 1 2 2 0
Y 1 2 1 0 1 0 0 1 2 2

Considerando que escolhemos uma das sub-regiões ao acaso, isto é, cada sub-região têm a mesma
1
probabilidade 10 de ser escolhida, podemos construir a distribuição conjunta de (X, Y ).
36 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS

(X, Y ) p(x, y)
(0, 0) 0.10
(0, 1) 0.20
(0, 2) 0.20
(1, 0) 0.10
(1, 1) 0.10
(2, 0) 0.10
(2, 1) 0.10
(2, 2) 0.10
Total 1.00

Visualmente podemos montar a tabela a seguir, onde apresentamos as funções massa de probabi-
lidade marginais.

X \Y 0 1 2 P(X = x)
0 0.1 0.2 0.2 0.5
1 0.1 0.1 0 0.2
2 0.1 0.1 0.1 0.3
P(Y = y) 0.3 0.4 0.3 1

A seguir apresentamos as funções massa de probabilidade marginais.

X 0 1 2 Y 0 1 2
P(X = x) 0.5 0.2 0.3 P(Y = y) 0.3 0.4 0.3

Proposição 3. Seja X um vetor aleatório contı́nuo em (Ω, F, P). Então sua função densidade
de probabilidade satisfaz as seguintes propriedades:

(i) f (x) > 0, para todo x ∈ Rn ;


X
Z ∞ Z ∞
(ii) ··· f (x )dx = 1.
−∞ −∞ X

Cálculo de probabilidade através de variáveis aleatórias contı́nuas (caso particular):

Definição 1.10. [Devore, 2016] Seja (X, Y ) um vetor aleatório contı́nuo. Então, f (x, y) é a
função densidade de probabilidade conjunta de X e Y se, para qualquer conjunto bidimensional
A, temos que
Z Z
P((X, Y ) ∈ A) = f (x, y)dxdy.
A

Em particular, se A for tal que {(x, y), a 6 x 6 b, c 6 y 6 d}, então


Z bZ d
P((X, Y ) ∈ A) = P(a 6 x 6 b, c 6 y 6 d) = f (x, y)dxdy.
a c

Exemplo 1.25. [Devore,2016] Um banco opera tanto numa instalação drive-through como em guichê.
Em um dia selecionado ao acaso, assuma X= a proporção de tempo em que a instalação drive-through
1.3. VETORES ALEATÓRIOS 37

está em uso (ao menos um cliente está sendo atendido ou esperando para ser atendido) e Y = a
proporção de tempo em que o guichê de atendimento está em uso. Suponha que a função densidade
conjunta de (X, Y ) seja dada por:
6
+ y 2 ), se 0 6 x 6 1, 0 6 y 6 1;

f (x, y) = 5 (x
0, caso contrário.

(i) Verifique se f (x, y) é função densidade.

(ii) Calcule P(0 6 X 6 0.25, 0 6 Y 6 0.25).

Solução:
Z ∞ Z ∞
(i) Temos que f (x, y) > 0, para todo (x, y). Temos que verificar se f (x, y)dxdy = 1.
−∞ −∞

Z ∞ Z ∞ Z 1Z 1
6
f (x, y)dxdy = (x + y 2 )dxdy
−∞ −∞ 0 0 5
Z 1Z 1 Z 1Z 1
6 6 2
= xdxdy + y dxdy
0 0 5 0 0 5
Z 1 Z 1
6 6 2 6 6
= xdx + y dy = + = 1.
0 5 0 5 10 15

(ii) Para calcular Calcule P(0 6 X 6 0.25, 0 6 Y 6 0.25) fazemos

Z 0.25 Z 0.25
6
P(0 6 X 6 0.25, 0 6 Y 6 0.25) = (x + y 2 )dxdy
0 0 5

6 0.25 0.25 6 0.25 0.25 2


Z Z Z Z
= xdxdy + y dxdy
5 0 0 5 0 0
0.25 0.25
6 x2 6 y3 7
= + = = 0.0109.
20 2 20 3 640
0 0

Como acontece com a f.m.p. conjunta, cada uma das funções densidades marginais pode ser
calculada pela f.d.p. conjunta.

Definição 1.11. [Devore, 2016] As funções densidade de probabilidade marginais de X e de Y ,


representadas por fX (x) e fY (y), são das por
Z ∞
fX (x) = f (x, y)dy para − ∞ < x < ∞
−∞
Z ∞
fY (y) = f (x, y)dx para −∞<y <∞
−∞
38 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS

Exemplo 1.26. [Devore, 2016] (Continuação Exemplo 1.25). Seja

6
+ y 2 ), se 0 6 x 6 1, 0 6 y 6 1;

f (x, y) = 5 (x
0, caso contrário.

a função densidade de probabilidade conjunta de (X, Y ). Encontre as funções marginais.


Solução: A função densidade de probabilidade de X é dada por
Z ∞ Z 1
6 6 2
fX (x) = f (x, y)dy = (x + y 2 )dy = x + ,
−∞ 0 5 5 5
para 0 6 x 6 1. Da mesma forma, a função densidade de probabilidade de Y é dada por
Z ∞ Z 1
6 6 3
fY (y) = f (x, y)dx = (x + y 2 )dx = y 2 + .
−∞ 0 5 5 5
Assim,
Z 0.25
6 2 3 37
P(0.25 6 Y 6 0.75) = y + dy = = 0.4625.
0 5 5 80

Exemplo 1.27. [Dudewicz e Mishra, 1988] Seja f (·) a seguir uma função de três variáveis.

kxy 2 z, se 0 6 x 6 1, 0 6 y 6 1, 0 6 z 6

2;
f (x, y) =
0, caso contrário.

(i) Encontre k tal que f (·) seja uma função densidade de probabilidade.

(ii) Encontre as funções densidade marginais.

Solução:

1.4 Funções Condicionais

Definição 1.12. Sejam X e Y variáveis aleatórias discretas. Se P(Y = yj ) > 0, definimos a


função massa de probabilidade condicional de X, dado que ocorreu Y = yj por:

P(X = xi , Y = yj )
P(X = xi |Y = yj ) = ,
P(Y = yj )
para cada j fixo. Da mesma forma podemos definir a função massa de probabilidade condicional
de Y, dado que ocorreu X por

P(X = xi , Y = yj )
P(Y = yj |X = xi ) = ,
P(X = xi )
sempre que P(X = xi ) > 0.

Exemplo 1.28 (Rohatgi, 1976). Sejam X e Y variáveis aleatórias discretas com função massa de
probabilidade conjunta dada por
1.4. FUNÇÕES CONDICIONAIS 39

Y \X 0 1 2 3 P(Y = y)
3 3 6
1 0 8 8 0 8
1 1 2
3 8 0 0 8 8
1 3 3 1
P(X = x) 8 8 8 8 1

Encontre a função massa de probabilidade condicional P(X = xi |Y = yj ) e P(Y = yj |X = xi ).


Solução: Primeiramente calculamos P(X = xi |Y = yj ).

P(X = 0, Y = 1) 0
P(X = 0|Y = 1) = = =0
P(Y = 1) 6/8
P(X = 1, Y = 1) 3/8 1
P(X = 1|Y = 1) = = =
P(Y = 1) 6/8 2
P(X = 2, Y = 1) 3/8 1
P(X = 2|Y = 1) = = =
P(Y = 1) 6/8 2
P(X = 3, Y = 1) 0
P(X = 3|Y = 1) = = =0
P(Y = 1) 6/8
P(X = 0, Y = 3) 1/8 1
P(X = 0|Y = 3) = = =
P(Y = 3) 2/8 2
P(X = 1, Y = 3) 0
P(X = 1|Y = 3) = = =0
P(Y = 3) 2/8
P(X = 2, Y = 3) 0
P(X = 2|Y = 3) = = =0
P(Y = 3) 2/8
P(X = 3, Y = 3) 1/8 1
P(X = 3|Y = 3) = = =
P(Y = 3) 2/8 2
Agora calculamos P(Y = yj |X = xi ).

P(X = 0, Y = 1) 0
P(Y = 1|X = 0) = = =0
P(X = 0) 1/8
P(X = 0, Y = 3) 1/8
P(Y = 3|X = 0) = = =1
P(X = 0) 1/8
P(X = 1, Y = 1) 3/8
P(Y = 1|X = 1) = = =1
P(X = 1) 3/8
P(X = 1, Y = 3) 0
P(Y = 3|X = 1) = = =0
P(X = 1) 3/8
P(X = 2, Y = 1) 3/8
P(Y = 1|X = 2) = = =1
P(X = 2) 3/8
P(X = 2, Y = 3) 0
P(Y = 3|X = 2) = = =0
P(X = 2) 3/8
P(X = 3, Y = 1) 0
P(Y = 1|X = 3) = = =0
P(X = 3) 1/8
P(X = 3, Y = 3) 1/8
P(Y = 3|X = 3) = = =1
P(X = 3) 1/8
40 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS

Definição 1.13. Sejam X e Y variáveis aleatórias contı́nuas. Definimos a função densidade de


probabilidade condicional de X, dado que ocorreu Y = y por:

f (x, y)
fX|Y (x|y) = ,
fY (y)
Da mesma forma podemos definir a função densidade de probabilidade condicional de Y, dado
que ocorreu X por

f (x, y)
fY |X (y|x) = ·
fX (x)
Para variáveis aleatórias contı́nuas, a variável que está condicionando está fixa.

Exemplo 1.29. [Magalhães, 2006] Sejam X e Y variáveis aleatórias contı́nuas com função densidade
de probabilidade conjunta dada por

(x + y), se 0 6 x 6 1, 0 6 y 6 1;
f (x, y) =
0, caso contrário.
Encontre as funções densidade de probabilidade condicionais.
Solução: Primeiramente precisamos encontrar as funções densidade marginais.
 
Z 1 Z 1 1
y 2
fX (x) = f (x, y)dy = (x + y)dy = xy +  = x + 1 , 0 6 x 6 1;
0 0 2 2
0
 
1
1 1
x2
Z Z
fY (y) = f (x, y)dx = (x + y)dx = xy +  = y + 1, 0 6 y 6 1;
0 0 2 2
0

Assim, temos que

f (x, y) x+y
fX|Y (x|y) = = , 06x61
fY (y) y + 12
com 0 6 y 6 1 fixo.
Da mesma forma,

f (x, y) x+y
fY |X (y|x) = = , 06y61
fX (x) x + 12
com 0 6 x 6 1 fixo.

Exemplo 1.30. [Bussab e Morettin, 2017] Sejam X e Y variáveis aleatórias contı́nuas com função
densidade de probabilidade conjunta dada por

6(1 − x − y), se 0 < x < 1, 0 < y < 1 − x;
f (x, y) =
0, caso contrário.
Encontre as funções densidade de probabilidade condicionais.
Solução: Primeiramente precisamos encontrar as funções densidade marginais. O domı́nio de variação
dos pares (x, y) é o triângulo da Figura 1.15
As funções densidades marginais são dadas por
1.4. FUNÇÕES CONDICIONAIS 41

Figura 1.15: Domı́nio de variação de (X, Y ).


Fonte: Bussab e Morettin (2017).

1−x
1−x
y2
Z
fX (x) = 6(1 − x − y)dy = 6[y − xy − ] = 3(x − 1)2 , 0 < x < 1,
0 2
0
Z 1−y
fY (y) = 6(1 − x − y)dx = 3(y − 1)2 , 0 < y < 1.
0

Consequentemente, as funções densidades marginais são

f (x, y) 2(1 − x − y
fX|Y (x|y) = = , 0 < x < 1 − y,
fY (y) (y − 1)2
para 0 < y < 1 fixo.

f (x, y) 2(1 − x − y
fY |X (y|x) = = , 0 < y < 1 − x.
fX (x) (x − 1)2
para 0 < x < 1 fixo.

Figura 1.16: Função densidade condicional de X, dado Y = y0 .


Fonte: Bussab e Morettin (2017).
42 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS

1.5 Variáveis Aleatórias Independentes


Anteriormente, vimos em probabilidade que se dois eventos são independentes, então P(A ∩ B) =
P(A) × P(B). A seguir apresentamos uma definição análoga para variáveis aleatórias.

Definição 1.14. Duas variáveis aleatórias X e Y são independentes se, para cada par de valores
x e y, temos:

p(x, y) = pX (x) × pY (y), quado X e Y são v.a. discretas

f (x, y) = fX (x) × fY (y), quado X e Y são v.a. continuas

Exemplo 1.31. [Prob. Estat. IM-UFRJ, 2017] Considere a população de todos os apartamentos
que, em determinado dia, estejam anunciados para venda no site de uma imobiliária. Sejam X e
Y , receptivamente, o número de vagas de garagem e o número de varandas correspondente a um
apartamento anunciado no site.

Y
X 0 1 2 P(X = x)
0 0.2 0.15 0.15 0.5
1 0.16 0.12 0.12 0.4
2 0.04 0.03 0.03 0.1
P(Y = y) 0.4 0.3 0.3 1

Solução: Temos

p(0, 0) = 0.2 = 0.5 × 0.4 = pX (0)pY (0) p(1, 0) = 0.16 = 0.4 × 0.4 = pX (1)pY (0)

p(2, 0) = 0.04 = 0.1 × 0.4 = pX (2)pY (0) p(0, 1) = 0.15 = 0.5 × 0.3 = pX (0)pY (1)

p(1, 1) = 0.12 = 0.4 × 0.3 = pX (1)pY (1) p(2, 1) = 0.03 = 0.1 × 0.3 = pX (2)pY (1)

p(0, 2) = 0.15 = 0.5 × 0.3 = pX (0)pY (2) p(1, 2) = 0.12 = 0.4 × 0.3 = pX (1)pY (2)

p(2, 2) = 0.03 = 0.1 × 0.3 = pX (2)pY (2).

Portanto as variáveis aleatórias X e Y são independentes.

Exemplo 1.32. [Devore, 2016](Continuação do Exemplo 1.21) Uma grande agência de seguros presta
serviços a diversos clientes que compraram uma apólice de seguros residencial e uma outra para
automóvel. Para cada uma, deve ser especificado um mı́nimo dedutı́vel. para a apólice de automóvel
as opções são R$ 100,00 e R$ 250,00, enquanto, para uma apólice residencial, as opções são 0, R$
100,00 e R$ 200,00. Suponha que um indivı́duo com os dois referidos tipos de apólice seja selecionado
aleatoriamente do banco de dados da seguradora. Seja X = valor dedutı́vel na apólice do automóvel
e Y = valor dedutı́vel na apólice residencial. A função massa de probabilidade conjunta de (X, Y ) é
apresentada a seguir:
1.5. VARIÁVEIS ALEATÓRIAS INDEPENDENTES 43

X \Y 0 100 200
100 0.2 0.1 0.2
250 0.05 0.15 0.3

A f.m.p. marginal de X é dada por

X 100 250
pX (x) 0.5 0.5

A f.m.p. marginal de Y é dada por

Y 0 100 250
pY (y) 0.25 0.25 0.5

Verifique se as variáveis aleatórias X e Y são independentes.


Solução: Temos que

p(100, 100) = 0.10 6= (0.5)(0.25) = 0.125 = pX (100)pY (100).


De forma que as variáveis aleatórias X e Y são dependentes. A independência de X e Y exige que
cada entrada na tabela da função massa de probabilidade conjunta seja o produto das probabilidades
marginais. Se apenas uma das entradas falhar as variáveis aleatórias são dependentes.

Exemplo 1.33. [Bussab e Morettin, 2017] Seja (X, Y ) um vetor aleatório com função densidade de
probabilidade conjunta dada por

4xy, se 0 6 x 6 1, 0 6 y 6 1;
f (x, y) =
0, caso contrário.
Verifique se as variáveis aleatórias X e Y são independentes.
Solução: Primeiramente devemos encontrar as funções densidade marginais. Logo
 
Z ∞ Z 1 1
2
y 
fX (x) = f (x, y)dy = 4xydy = 4x  = 2x, 0 6 x 6 1.
−∞ 0 2
0
 
1
∞ 1
x2
Z Z
fY (y) = f (x, y)dx = 4xydx = 4y   = 2y, 0 6 y 6 1.
−∞ 0 2
0

Portanto,

f (x, y) = fX (x)fY (y).


Ou seja, as variáveis aleatórias X e Y são independentes.

Exemplo 1.34. [Rohatgi, 1976] Seja (X, Y ) um vetor aleatório com função densidade de probabilidade
conjunta dada por
 1+xy
f (x, y) = 4 , se − 1 < x < 1, −1 < y < 1;
0, caso contrário.
Verifique se as variáveis aleatórias X e Y são independentes.
44 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS

Solução: Primeiramente devemos encontrar as funções densidade marginais. Logo


 
Z ∞ Z 1 1
1 + xy y xy 2
fX (x) = f (x, y)dy = dy =  +  = 1 , −1 < x < 1.
−∞ −1 4 4 8 2
−1
 
1
∞ 1
yx2
Z Z
1 + xy x  = 1 , −1 < y < 1.
fY (y) = f (x, y)dx = dx =  +
−∞ −1 4 4 8 2
−1

Portanto,

f (x, y) 6= fX (x)fY (y).


Ou seja, as variáveis aleatórias X e Y são independentes.

1.6 Funções de Variável Aleatória


Nesta seção, inicialmente iremos estudar as funções de uma variável aleatória, isto é, funções do tipo
X 2 , eX , etc, ou seja, funções g(X), para alguma função g : R → R.

Resultado: Sendo X uma variável aleatória em (Ω, F, P), a função g : R → R também será uma
variável aleatória no mesmo espaço de probabilidade.

Figura 1.17: Funções de Variáveis Aleatórias.


Fonte: Blitzstein e Hwang (2019).

Conhecendo a função de distribuição, função massa de probabilidade ou função densidade de


probabilidade de X, desejamos obter o comportamento de g(X). Em termos matemáticos, dizemos
que Y = g(X) é uma transformação de X.
Para obtermos o comportamento probabilı́stico de transformações uma técnica muito conveniente,
principalmente para o caso discreto, é chamado de método direto. Ele consiste em realizar operações
algébricas simples, aplicando a definição da transformação diretamente na expressão da função de
distribuição (ou função densidade ou de massa de probabilidade conforme o caso).
Variável Aleatória Discreta: Para X uma variável aleatória discreta, com função de massa de
probabilidade conhecida, como podemos encontrar a função massa de probabilidade da função Y =
1.6. FUNÇÕES DE VARIÁVEL ALEATÓRIA 45

g(X)? No caso de g(·) uma função bijetiva, a resposta é direta: a imagem de Y é o conjunto de todos
os g(x) com x ∈ ΩX , e

P(Y = y) = P(g(X) = g(x)) = P(X = x).


O caso onde Y = g(X) é uma bijeção está ilustrado nas tabelas a seguir.

Fonte: Blitzstein e Hwang (2019).

Resultado: Dada uma variável aleatória X com função de distribuição (ou função massa ou
densidade de probabilidades) conhecida, a distribuição de uma variável aleatória Y = g(X),
onde h é uma função Borel-mensurável é determinada por

P(Y 6 y) = P(X ∈ g −1 (−∞, y]).

Exemplo 1.35. Seja X uma variável aleatória com função massa de probabilidade dada por

x 0 1 2
pX (x) 1/3 1/3 1/3

Encontre a função massa de probabilidade da função Y = 3X + 1.

Solução: Temos que Ax = {0, 1, 2} e Ay = {1, 4, 7}. Então,

1
P(Y = 1) = P(X = 0) =
3

1
P(Y = 4) = P(X = 1) =
3

1
P(Y = 7) = P(X = 2) =
3
Ou seja,

y 1 4 7
pY (y) 1/3 1/3 1/3

Se g(·) não é uma bijeção, então para um dado y podem existir múltiplos valores de x tal que
g(x) = y. Para calcular P(G(X) = y), é necessário somar a probabilidade de X para todos os valores
de X tal que P(G(X) = y).
46 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS

Teorema 1.1. Seja X uma variável aleatória discreta e g : R → R. Então a imagem de g(X) é
o conjunto de todos os y tal que g(x) = y para pelo menos um x na imagem de X, e a função
massa de probabilidade de Y = g(X) é dada por
X
P(Y = y) = P(g(X) = y) = P(X = x),
x:g(x)=y

para todo y pertencente a imagem de g(X).

Fonte: Meyer (2006).

Exemplo 1.36. Seja X uma variável aleatória com função massa de probabilidade dada por

x -2 -1 0 1 2
pX (x) 1/5 1/6 1/5 1/15 11/30

Encontre a função massa de probabilidade da função Y = X 2 .

Solução: Temos que Ax = {−2, −1, 0, 1, 2} e Ay = {0, 1, 4}. Então,


1
P(Y = 0) = P(X = 0) =
5
1 1 7
P(Y = 1) = P(X = −1) + P(X = 1) = + =
6 15 30
1 11 17
P(Y = 4) = P(X = −2) + P(X = 2) = + =
5 30 30
Ou seja,

y 0 1 4
pY (y) 1/5 7/30 17/30

Exemplo 1.37. Seja X uma variável aleatória com função massa de probabilidade dada por
 n
1
fX (x) = P(X = x) = , para x ∈ {1, 2, 3, · · · }.
2
Encontre a função massa de probabilidade da função

Y = 1, se X for par,

Y = −1, se X for ı́mpar,


1.6. FUNÇÕES DE VARIÁVEL ALEATÓRIA 47

Solução: Temos que Y = 1 para A = {2, 4, 6, 8, · · · } e Y = −1 para A = {1, 3, 5, 7, · · · }. Então, pelo


Teorema 1.1, temos

 n−1
1 1 1 X1 1
P(Y = 1) = 2 + 4 + 6 + · · · =
2 2 2 4 4
n>1

Ou seja, temos uma progressão geométrica. Logo

a1 1/4 1
P(Y = 1) = = = .
1−q 1 − (1/4) 3

Como ΩY = {−1, 1}, P(Y = −1) + P(Y = 1) = 1. Portanto,

1 2
P(Y = −1) = 1 − P(Y = 1) = 1 − = .
3 3

Exemplo 1.38. Seja X uma variável aleatória com distribuição Poisson, ou seja,

e−λ λx
pX (x) = P(X = x) = , x = 0, 1, 2, · · · , λ > 0,
x!

Considere a função Y = X 2 + 3. Encontra a função massa de probabilidade da variável aleatória


Y.

Solução: Temos que y = h(x) = x2 + 3, com Ax = {0, 1, 2, · · · } com Ay = {3, 4, 7, 12, 19, 28, · · · }.

A função inversa é dada por x = y − 3, e como não há valores negativos em A, tomamos a raiz
quadrada positiva de y − 3. Assim,


p e−λ λ y−3
P(Y = y) = P(X = y − 3) = √ , y ∈ Ay
y − 3!

e P(Y = y) = 0 caso contrário.

Variável Aleatória Contı́nua: Agora considere X uma variável aleatória contı́nua. Segue o seguinte
resultado.
48 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS

Resultado: Seja X uma variável aleatória contı́nua com função densidade de probabilidade
fX (x). Seja y = g(x) uma função estritamente monótona (crescente ou decrescente) e dife-
renciável para todo x (portanto contı́nua). Então a variável aleatória Y = g(X) é também
contı́nua.
Se g é diferenciável para todo x e g(x) > 0 para todo x, então g(·) é contı́nua e estritamente
crescente e a função inversa x = g −1 (y) existe e é estritamente crescente e é diferenciável. Então
a função de distribuição de Y = g(X) é dada por

FY (y) = P(Y 6 y) = P(g(X) 6 y) = P(X 6 g −1 (y)) = FX (g −1 (y)).


A função densidade de probabilidade Y = g(X) é obtida diferenciando a função de distribuição,
ou seja,

d d d
fY (y) = FY (y) = FX (g −1 (y)) = fX (g −1 (y)) (g −1 (y)) (1.18)
dy dy dy
Da mesma forma, se a derivada de g for negativa, então g é estritamente decrescente e temos

FY (y) = P(Y 6 y) = P(g(X) 6 y) = P(X > g −1 (y)) = 1 − P(X 6 g −1 (y)) = 1 − FX (g −1 (y)).

Derivando temos

d d d
fY (y) = FY (y) = [1 − FX (g −1 (y))] = −fX (g −1 (y)) (g −1 (y)). (1.19)
dy dy dy
Como g e g −1 são ambas estritamente decrescentes, d −1
dy (g (y)) é negativa e o resultado dado
pela equação 1.18 segue.

Exemplo 1.39. [Meyer, 2006] Seja X uma variável aleatória com função densidade de probabilidade
dada por

2x, se 0 < x < 1;
fX (x) =
0, caso contrário;
Considere a função Y = 3X +1. Encontra a função densidade de probabilidade da variável aleatória
Y.

Solução: No caso de variáveis aleatórias contı́nuas começamos encontrando a função de distribuição


(acumulada) da variável aleatória X.

 0, se x < 0;
FX (x) = x2 , se 0 6 x < 1;
1, sex > 1;

y−1
Aplicando o resultado acima temos, onde g −1 (y) = temos 3 ,
 
−1 d −1 y−1 1 2
fY (y) = fX (g (y)) (g (y)) = 2 = (y − 1).
dy 3 3 9
Desde que fX (x) > 0 para 0 < x < 1, encontramos que fY (y) > 0 para 1 < y < 4. Portanto,
2

9 (y − 1), se 1 < y < 4;
fY (y) =
0, caso contrário;
1.6. FUNÇÕES DE VARIÁVEL ALEATÓRIA 49

Existe uma maneira ligeiramente diferente de obtermos o mesmo resultado. Considere a função de
distribuição das variáveis aleatórias. Então,

FY (y) = P(Y 6 y) = P(3X + 1 6 y)


 
y−1
= P X6
3
 
y−1
= FX
3
Z y−1
y−1 2
 
3
= 2xdx = .
0 3

Portanto,

 0,
  2
se y < 1;
FY (y) = y−1
3 se 1 6 y < 4;


1, sey > 4;

Exemplo 1.40. [Meyer, 2006] Seja X uma variável aleatória com função densidade de probabilidade
dada por

1
fX (x) = I[1,3] (x).
2
Considere a função Y = eX . Encontra a função acumulada e densidade de probabilidade da
variável aleatória Y .

Solução: Observe que Y é uma variável aleatória contı́nua e com valores no intervalo [e, e3 ]. Sendo
FY (·) dua função de distribuição, temos de imediato que FY (y) = 0, se y < e, e FY (y) = 1, se y > e3 .
Para e 6 Y < e3 ,

FY (y) = P(Y 6 y) = P(eX 6 y)


Z log(y)
1
= P(X 6 log(y)) = I (x)dx
−∞ 2 [1,3]
log(y) − 1
= ·
2
Dessa forma,

 0, se y < e;
log(y)−1
FY (y) = 2 se e 6 Y < e3 ;
sey > e3 ;

1,
Derivando a função de distribuição obtemos a função densidade de probabilidade,

1
fY (y) = I 3 (y).
2y [e,e ]
50 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS

Para o caso de um vetor aleatório (X1 , X2 ), segue o resultado.

Resultado: Sejam X1 e X2 duas variáveis aleatórias discretas com função massa de probabilidade
conjunta p(x1 , x2 ) e defina Y = h(X1 , X2 ). A variável aleatória Y também é discreta com valores
no contra-domı́nio da função h. Sua função de probabilidade é dada por
X
pY (y) = P(Y = y) = P(h(X1 , X2 ) = y) = p(x1 , x2 ),
(x1 ,x2 )∈Ay

onde Ay = {(x1 , x2 ) : h(x1 , x2 ) = y}. ou seja, para cada y fixo, a soma se dá em todos os pares
(x1 , x2 ) cuja aplicação da função h resulta no valor y. A função de distribuição de Y pode ser
obtida de forma análoga.

Exemplo 1.41. [Magalhães e Lima, 2004] Em uma cidade de São Paulo, admite-se que o número de
anos apara completar o ensino fundamental (variável F) e o número de anos para completar o ensino
médio (variável M) têm função massa de probabilidade conjunta:

(F, M ) p(f, m)
(8., 3) 0.30
(8, 4) 0.10
(8, 5) 0.10
(9, 3) 0.20
(9, 4) 0.05
(9, 5) 0.10
(10, 4) 0.10
(10, 5) 0.05
Total 1.00

Suponha que exista o interesse em estudar as variáveis F + M e X × M .


Solução: Acrescentando, a tabela anterior, colunas correspondentes aos valores dessas novas variáveis
temos

(F, M ) p(f, m) F +M F ×M
(8., 3) 0.30 11 24
(8, 4) 0.10 12 32
(8, 5) 0.10 13 40
(9, 3) 0.20 12 27
(9, 4) 0.05 13 36
(9, 5) 0.10 14 45
(10, 4) 0.10 14 40
(10, 5) 0.05 15 50

Para obtermos a função massa de probabilidade de F + M , somamos as probabilidades nos valores


comuns. Por exemplo,

P(F + M = 13) = P(F = 8, M = 5) + P(F = 9, M = 4) = 0.1 + 0.05 = 0.15


Assim, obtemos as funções massa de probabilidade de F + M e F × M :

F +M 11 12 13 14 15
Prob 0.3 0.3 0.15 0.2 0.05
1.6. FUNÇÕES DE VARIÁVEL ALEATÓRIA 51

F ×M 24 27 32 36 40 45 50
Prob 0.3 0.2 0.1 0.05 0.2 0.1 0.05

Exemplo 1.42. [Bussab e Morettin, 2017] Considere a função massa de probabilidade conjunta dada a
seguir.

HH Y
H
0 1 2 3 pY (y)
X HHH
1 2 1 1
0 8 8 8 0 2
1 2 1 1
1 0 8 8 8 2
1 3 3 1
pX (x) 8 8 8 8 1

Encontre a função massa de probabilidade das funções de variáveis aleatórias X + Y e XY .


Solução: Inicialmente motamos a tabela a seguir.

(x, y) X +Y XY p(x, y)
1
(0,0) 0 0 8
(0,1) 1 0 0
2
(1,0) 1 0 8
1
(1,1) 2 1 8
1
(2,0) 2 0 8
2
(2,1) 3 2 8
(3,0) 3 0 0
1
(3,1) 4 3 8

A partir desta tabela, obtemos a distribuição de X + Y e XY , ilustradas nas tabelas a seguir.

x+y 0 1 2 3 4
1 2 2 2 1
p(x + y) 8 8 8 8 8

xy 0 1 2 3
4 1 2 1
p(xy) 8 8 8 8
52 CAPÍTULO 1. VARIÁVEIS E VETORES ALEATÓRIOS
Capı́tulo 2

Caracterı́sticas de Variáveis e Vetores Aleatórios

2.1 Propriedades: Variáveis Aleatórias Discretas


2.1.1. Esperança Matemática
Se repetirmos um experimento aleatório muitas vezes, o que acontece em média? Para responder essa
pergunta não é necessário realizar um experimento, basta conhecer a distribuição de probabilidade da
variável aleatória e calcular a sua esperança matemática.

Esperança
Se X é uma variável aleatória discreta com função massa de probabilidade pX (x), então
X X
E(X) = xpX (x) = xP(X = x). (2.1)
x∈ΩX x∈ΩX

onde o somatório se estende por todos os valores possı́veis de X.

Em geral, a média é vista como um valor representativo de X, estando localizada em algum ponto
no centro do domı́nio de valores de X. Uma interpretação mais precisa deste pensamento é a seguinte:
a esperança de X é o centro de gravidade da distribuição de probabilidades, no seguinte sentido
(ver Figura 2.1). Pensando as colunas do gráfico, que representam as probabilidades, como pesos
distribuı́dos ao longo de uma vara delgada, a média representa o ponto onde a vara se equilibraria.

Figura 2.1: Interpretação da esperança Matemática como centro de gravidade da distribuição.


54 CAPÍTULO 2. CARACTERÍSTICAS DE VARIÁVEIS E VETORES ALEATÓRIOS

Exemplo 2.1. Em determinado setor de uma loja de departamentos, o número de produtos vendidos
em um dia pelos funcionários é uma variável aleatória X com a seguinte distribuição de probabilidades
(esses números foram obtidos dos resultados de vários anos de estudo) - pX (x) probabilidade da venda:

x 0 1 2 3 4 5 6
pX (x) 0.1 0.4 0.2 0.1 0.1 0.05 0.05

Cada vendedor recebe comissões de venda, distribuı́das da seguinte forma: se ele vende até 2
produtos em um dia, ele ganha uma comissão de R$10,00 por produto vendido. A partir da terceira
venda, a comissão passa para R$50,00. Qual é o número médio de produtos vendidos por cada vendedor
e qual a comissão média de cada um deles?
Solução:
O número médio de vendas por funcionário é:

E(X) = 0 × 0.1 + 1 × 0.4 + 2 × 0.2 + 3 × 0.1 + 4 × 0.1 + 5 × 0.05 + 6 × 0.05 = 2.05.


Com relação à comissão, vamos construir sua fmp:

x 0 1 2 3 4 5 6
C 0 10 20 70 120 170 220
pX (x) 0.1 0.4 0.2 0.1 0.1 0.05 0.05

E(C) = 0 × 0.1 + 10 × 0.4 + 20 × 0.2 + 70 × 0.1 + 120 × 0.1 + 170 × 0.05 + 220 × 0.05 = 46.5.

ou seja, a comissão média por dia de cada vendedor é R$46,50.

Exemplo 2.2. Determine E(X), sendo a função de distribuição da variável aleatória X dada por


 0, se x < −2;
 1/2, se − 2 6 x < 0;


FX (x) = 5/8, se 0 6 x < 1;
7/8, se 1 6 x < 2;




1, se x > 2.

Solução:

Propriedades: Seja X uma variável aleatória discreta e a e b constantes reais diferentes de zero.

i) E(a) = a;

ii) E(aX) = aE(X);

iii) E(aX + b) = aE(X) + b.


2.1. PROPRIEDADES: VARIÁVEIS ALEATÓRIAS DISCRETAS 55

2.1.2. Variância
A esperança de uma variável aleatória X é uma medida de posição. No entanto, é possı́vel que duas
variáveis bem diferentes tenham a mesma esperança, como é o caso das duas distribuições apresentadas
na Figura 2.2.

Figura 2.2: Distribuições com mesma esperança e diferentes dispersões.

Como já visto no caso da Estatı́stica Descritiva, é necessário mensurar outros aspectos da distri-
buição, entre eles a dispersão dos dados. Esta será medida através da distância quadrática de cada
valor à média da distribuição.
Variância pode ser interpretada como uma medida de variabilidade em torno da média da variável
aleatória e é definida como

Variância
Var(X) = E[X − E(X)]2 . (2.2)

É comum denotar Var(X) por σ 2 .


Propriedades: Sejam a e b constantes.

i) Var(a) = 0;

ii) Var(aX) = a2 Var(X)

iii)

Var(X) = E[X − E(X)]2 = E[(X − EX)(X − EX)] = E[X 2 − 2XEX + (EX)2 ]


= EX 2 − (EX)2 .
56 CAPÍTULO 2. CARACTERÍSTICAS DE VARIÁVEIS E VETORES ALEATÓRIOS

2.1.3. Desvio padrão

Definição 2.1. O desvio padrão é definido como a raiz da variância, e em geral denotado pela
letra σ,
p
σ= Var(X). (2.3)

Exemplo 2.3. Um lojista mantém extensos registros das vendas diárias de um certo aparelho. O quadro
a seguir dá a distribuição de probabilidades do número de aparelhos vendidos em uma semana. Se é
de R$500,00 o lucro por unidade vendida, qual o lucro esperado em uma semana? Qual é o desvio
padrão do lucro?

x 0 1 2 3 4 5
pX (x) 0.1 0.1 0.2 0.3 0.2 0.1

Solução:
Seja X = número de aparelhos vendidos em uma semana e seja L o lucro semanal. Então, L =
500X.

E(X) = 2.7 aparelhos E(X 2 ) = 10.2 aparelhos2


Var(X) = 10.2 − (2.7)2 = 2.91 aparelhos2 DP(X) = 2.91 = 1.706 aparelhos
Com relação ao lucro semanal, temos que


E(L) = 500E(X) = R$1350.00 Var(L) = (500)2 Var(X) = 727500 DP(X) = 727500 = R$852.936

Exemplo 2.4. (2011-09) A variável aleatória discreta X assume apenas os valores 0, 1, 2, 3, 4 e 5. A


função densidade de probabilidade de X é dada por

P (X = 0) = P (X = 1) = P (X = 2) = P (X = 3) = a

P (X = 4) = P (X = 5) = b

P (X = 2) = 3P (X = 4).
Temos que E[.] e Var[.] denotam, respectivamente, esperança e variância. Verifique as seguintes
afirmativas.

(i) Para que a função densidade de probabilidade seja válida, a = 1/4 e b = 1/8.

(ii) E[X] = 3.

(iii) Var[X] = 12.

(iv) Defina Z = 3 + 4X. Então o valor esperado de Z é igual a 12.


2.2. PROPRIEDADES: VARIÁVEIS ALEATÓRIAS CONTÍNUAS 57

2.2 Propriedades: Variáveis Aleatórias Contı́nuas


2.2.1. Esperança Matemática
Para uma variável aleatória discreta X, E(X) foi obtido como a soma de x · pX (x) sobre todos os
valores de X com probabilidade positiva. Para variáveis aleatórias contı́nuas, substituı́mos a soma
pela integração e a f.m.p. pela f.d.p..

Definição 2.2. O valor médio ou valor esperado ou esperança matemática de uma v.a. X com
f.d.p. fX (x) é dada por
Z ∞
E(X) = xfX (x)dx. (2.4)
−∞

Exemplo 2.5. [Ross, 2010] Determine E(X), dada que a função densidade de probabilidade de X é

fX (x) = 2xI[0,1] (x) (2.5)

Solução:
Z ∞ Z 1 Z 1
3
E(X) = xfX (x)dx = x · 2xdx = 2x2 dx = .
−∞ 0 0 2

Proposição 1. Seja X uma v.a. contı́nua com função densidade de probabilidade fX (x), então
para qualquer função real g(·),
Z ∞
E(g(X)) = g(x)fX (x)dx. (2.6)
−∞

Exemplo 2.6 (Ross, 2010). Seja X uma v.a.a contı́nua com função densidade de probabilidade dada
por

fX (x) = I[0,1] (x) (2.7)


Calcule E eX .


Solução:
1
Z ∞ Z 1
X x x

E e = g(x)fX (x)dx = e dx = e = e − 1.
−∞ 0
0

Exemplo 2.7. [Magalhães, 2004] Seja X uma v.a.a contı́nua com função de distribuição dada por

 0, se x < 0;
2

 x
4 , se 0 6 x < 1;



(2x−1)
FX (x) = 4 , se 1 6 x < 2; (2.8)
−(x2 −6x+5)

, se 2 6 x < 3;



 4
1, se x > 3.

58 CAPÍTULO 2. CARACTERÍSTICAS DE VARIÁVEIS E VETORES ALEATÓRIOS

Calcule E (X) e E X 2 .


Solução: Primeiramente precisamos encontrar a função densidade de probabilidade. Para isso preci-
samos derivar FX (x) em relação a x. Assim,
 x
 2, se 0 6 x < 1;
1
fX (x) = 2, se 1 6 x < 2; (2.9)
 −(x−3)
2 , se 2 6 x < 3.
Analogamente,

x 1 (x − 3)
fX (x) = I (x) + I[1,2) (x) − I[2,3] (x).
2 [0,1) 2 2
Logo,
∞ 1 2 3
(x − 3)
Z Z Z Z
x 1 3
E (X) = xfX (x)dx = x dx + x dx − x dx = .
−∞ 0 2 1 2 2 2 2
Da mesma forma, pela Proposição 1, temos que
∞ 1 2 3
(x − 3)
Z Z Z Z
2 2 2x 21 8
x2

E X = x fX (x)dx = x dx + x dx − dx = .
−∞ 0 2 1 2 2 2 3

Proposição 2 (Magalhães, 2004). Sejam X e Y variáveis aleatórias cujo valor esperado existe.
Então:

(i) Se c é uma constante tal que P(X = c) = 1, então E(X) = c;

(ii) E(aX + b) = aE(X) + b;

(iii) E(X + Y ) = E(X) + E(Y ).

2.2.2. Variância
A variância de uma variável aleatória contı́nua é definida da mesma forma à de uma variável aleatória
discreta.

Definição 2.3. A variância de uma v.a. contı́nua X com f.d.p. fX (x) é dada por
Z ∞
Var(X) = (x − µ)2 fX (x)dx = E(X − µ)2 = E(X − E(X))2 , (2.10)
−∞

µ = E(X).
Alternativamente,

Var(X) = E(X 2 ) − [E(X)]2

Definição 2.4. O desvio padrão de uma v.a. contı́nua X com f.d.p. fX (x) é dada por
p
D.P.(X) = Var(X) (2.11)
2.2. PROPRIEDADES: VARIÁVEIS ALEATÓRIAS CONTÍNUAS 59

Exemplo 2.8. (Continuação Exemplo ??) Calcule Var(X) e D.P.(X).

Solução: Pela Definição 2.3 temos que


 2
8 3 5
Var(X) = − = .
3 2 12
e
r
5
D.P.(X) = = 0.6455.
12

Exemplo 2.9. (Continuação Exemplo 1.21) Calcule Var(X).

Solução: Pela Definição 2.3 temos que calcular E(X 2 ). Logo, pela Proposição 1, temos que
Z ∞ Z 1
1
E X2 = x2 fX (x)dx = 2x3 dx = .

−∞ 0 2

Como, E(X) = 23 , temos que


 2
1 2 1
Var(X) = − = .
2 3 18

Proposição 3 (Magalhães, 2004). Sejam X variável aleatória cujo valor esperado existe. Então:

(i) Se c é uma constante tal que P(X = c) = 1, então Var(X) = 0;

(ii) Se a e b são constantes quaisquer, então Var(aX + b) = a2 Var(X).

2.2.3. Covariância
Covariância é uma medida de dependência entre duas variáveis aleatórias e é definida como

Definição 2.5. Sejam X e Y duas variáveis aleatórias. Suponha que E(X), E(Y ), Var(X) e
Var(Y ) existam e são finitas. Então a Covariância entre X e Y é definida por

Cov(X, Y ) = E[(X − EX)(Y − EY )]. (2.12)


e é também finita.
Uma expressão alternativa para a Covariância entre X e Y é dada por

Cov(X, Y ) = E[XY ] − E(X)E(Y ). (2.13)

Observação 2.1. Esta definição é válida para variáveis aleatórias discretas e contı́nuas. A covariância
pode ser positiva, negativa ou nula.
60 CAPÍTULO 2. CARACTERÍSTICAS DE VARIÁVEIS E VETORES ALEATÓRIOS

Proposição 4. Sejam a, b, c e d constantes reais e não nulas. Então:

(i) Cov(X, X) = E[(X − EX)(X − EX)] = E[X − E(X)]2 = Var(X);

(ii) Cov(aX, bY ) = abCov(X, Y );

(iii) Cov(X, a) = 0 = Cov(Y, a);

(iv) Var(X ± Y ) = Var(X) + Var(Y ) ± 2Cov(X, Y );

(v) Se X e Y são independentes, então Cov(X, Y ) = 0, pois E(XY ) = E(X)E(Y );

(vi) Se X e Y são independentes, então Var(X ± Y ) = Var(X) + Var(Y );

(vii) Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z).

Observação 2.2. Cuidado: Se Cov(X, Y ) = 0, não significa que X e Y são independentes.

Exemplo 2.10. [Peternelli, 2004] Sabendo-se que Y = 3X − 5 e que E(X) = 2 e Var(X) = 1, calcule:

(i) E(Y );

(ii) Var(Y );

(iii) E(X + 3Y );

(iv) E(X 2 + Y 2 );

(v) Var(3X + 2Y ).

Solução:

(i) E(Y ) = E(35 − 5) = 3E(X) − 5 = 1;

(ii) Var(Y ) = Var(3X − 5) = 9Var(X) = 9;

(iii) E(X + 3Y ) = E(X) + 3E(Y ) = 5;

(iv) E(X 2 + Y 2 ) = E(X 2 ) + E(Y 2 ). Mas, E(X 2 ) = Var(X) + [E(X)]2 = 1 + 22 = 5 e E(Y 2 ) =


Var(Y ) + [E(Y )]2 = 9 + 12 = 10.
Portanto,
E(X 2 + Y 2 ) = E(X 2 ) + E(Y 2 ) = 5 + 10 = 15.

(v) Var(3X + 2Y ) = Var(3X + 6X − 10) = Var(9X − 10) = 81Var(X) = 81 × 1 = 81.

Exemplo 2.11. [Devore, 2016] (Continuação do Exemplo 1.21). Seja X = valor dedutı́vel na apólice
do automóvel e Y = valor dedutı́vel na apólice residencial. A função massa de probabilidade conjunta
de (X, Y ) é apresentada a seguir:

X \Y 0 100 200
100 0.2 0.1 0.2
250 0.05 0.15 0.3
2.2. PROPRIEDADES: VARIÁVEIS ALEATÓRIAS CONTÍNUAS 61

Calcule a Covariância entre X e Y .


Solução: Primeiramente vamos encontrar a f.m.p marginais de X e Y .
A f.m.p. marginal de X é dada por

X 100 250
pX (x) 0.5 0.5

A f.m.p. marginal de Y é dada por

Y 0 100 250
pY (y) 0.25 0.25 0.5

A f.m.p. de XY é calculada a seguir.

X Y X ·Y P(X = x, Y = y)
100 0 0 0.2
100 100 10000 0.1
100 200 20000 0.2
250 0 0 0.05
250 100 25000 0.15
250 200 50000 0.3

X ·Y 0 10000 20000 25000 50000


P(XY = xy) 0.25 0.1 0.2 0.15 0.3

Então,

E(X) = 100 × 0.5 + 250 × 0.5 = 175 E(Y ) = 0 × 0.25 + 100 × 0.25 + 200 × 0.5 = 125

E(XY ) = 0 × 0.25 + 10000 × 0.1 + 20000 × 0.2 + 25000 × 0.15 + 50000 × 0.3 = 23750

Portanto,

Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 23750 − (175 × 150) = 23750 − 21875 = 1875

Exemplo 2.12. [Bussab e Morettin, 2017] Sejam X e Y variáveis aleatórias contı́nuas com função
densidade de probabilidade conjunta de (X, Y ) apresentada a seguir:

x + y, se 0 < x < 1, 0 < y < 1;
f (x, y) =
0, caso contrário.
Calcule a Covariância entre X e Y .
Solução: Primeiramente devemos encontrar as funções densidade marginais de X e Y . Logo
 
Z ∞ Z 1 1
2
y  1
fX (x) = f (x, y)dy = (x + y)dy = xy + = x + , 0 < x < 1.
−∞ 0 2 2
0
 
1
Z ∞ Z 1 2
yx 1
fY (y) = f (x, y)dx = (x + y)dx =  + xy  = y + , 0 < y < 1.
−∞ 0 2 2
0
62 CAPÍTULO 2. CARACTERÍSTICAS DE VARIÁVEIS E VETORES ALEATÓRIOS

Agora calculamos,
 
1
1 1
x3 x2
Z   Z
1 x = 1+1 = 7
E(X) = x x+ dx = x2 + dx =  +
0 2 0 2 3 4 3 4 12
0
 
1
Z 1   Z 1 3 2
1 y  y y = 1+1 = 7
E(Y ) = y y+ dy = y2 + dy =  +
0 2 0 2 3 4 3 4 12
0

 
1
1 1
x2 x4 x3
Z   Z 
1  = 1 + 1 = 10 = 5
E(X 2 ) = x2 x + dx = x3 + dx =  +
0 2 0 2 4 6 4 6 24 12
0

 
1
Z 1   Z 1 2
 4 3
1 y y y  = 1 + 1 = 10 = 5
E(Y 2 ) = y2 y + dy = y3 + dy =  +
0 2 0 2 4 6 4 6 24 12
0

 2
5 2 2 7 5 49 11
Var(X) = E(X ) − [E(X)] = − = − =
12 12 12 144 144
 2
5
2 2 7 5 49 11
Var(Y ) = E(Y ) − [E(Y )] = − = − =
12 12 12 144 144
Para calcular Cov(X, Y ) precisamos primeiramente calcular E(XY ).

Z 1Z 1 Z 1Z 1
x2 y + xy 2 dxdy

E(XY ) = xy (x + y) dxdy =
0 0 0 0
1
1 3 1
x2 y 2 y y2
Z  Z 
x y
= + dy = + dy
0 3 2 0 3 2
0
1
y2 y 3
 
1 1 2 1
= + = + = = .
6 6 6 6 6 3
0

Portanto,

1 7 7 1
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = − =−
3 12 12 144

2.2.4. Correlação
Assim, como a covariância, a correlação também é uma medida de dependência entre variáveis alea-
tórias, mas com a propriedade de ser padronizada, ou seja, uma medida que varia entre -1 e 1. Logo,
correlação próxima a 1 ou -1 indica um alto grau de dependência, enquanto correlação próximo de
zero indica pouca dependência. A correlação entre duas variáveis aleatórias é definida como
2.2. PROPRIEDADES: VARIÁVEIS ALEATÓRIAS CONTÍNUAS 63

Definição 2.6. Sejam X e Y duas variáveis aleatórias. Suponha que E(X), E(Y ), Var(X) e
Var(Y ) existam e são finitas. Então a Coeficiente de Correlação entre X e Y , denotado por
ρ(X, Y ), é definido por

Cov(X, Y )
ρ(X, Y ) = p . (2.14)
Var(X)Var(Y )

Observação 2.3. Relação entre dependência e correlação:

(i) Se duas variáveis aleatórias são independentes, então a correlação entre elas é zero.

(ii) Se a correlação entre duas variáveis é zero, não necessariamente elas são independentes.

Proposição 5. Sejam X e Y duas variáveis aleatórias. Então:

(i) O Coeficiente de Correlação é adimensional;

(ii) −1 6 ρ(X, Y ) 6 1;

(iii) Se X e Y são independentes, então ρ(X, Y ) = 0, pois Cov(X, Y ) = 0;

(iv) Se X e Y são duas variáveis aleatórias tais que Y = aX + b, onde a, b são contantes
reais,com a 6= 0, então:

(a) ρ(X, Y ) = 1, se e somente se a > 0;


(b) ρ(X, Y ) = −1, se e somente se a < 0;

Observação 2.4. Coeficiente de Correlação Linear:

(i) O resultado acima mostra que o coeficiente de correlação é uma medida do grau de linearidade
da relação entre as variáveis aleatórias X e Y . Quanto mais próximo ρ(X, Y ) estiver de 1 ou de
-1, maior é o grau de linearidade.

(ii) ρ(X, Y ) > 0 indica que há uma tendência a que X e Y cresçam conjuntamente; ρ(X, Y ) < 0
indica que há uma tendência de Y decrescer á medida que X aumenta;

(iii) É importante ressaltar que um valor de ρ(X, Y ) próximo de zero não significa necessariamente a
ausência de uma relação entre X e Y . Este fato indica que a relação, se existir, não é linear.

Exemplo 2.13. [Devore, 2016] (Continuação do Exemplo 2.11 ) Calcule a Correlação entre X e Y .
Solução: Temos que E(X) = 175, E(Y ) = 125 e Cov(X, Y ) = 1875. Precisamos calcular a variância
de cada uma das variáveis aleatórias. Lembrando que a f.m.p. marginal de X é dada por

X 100 250
pX (x) 0.5 0.5

a f.m.p. marginal de Y é dada por

Y 0 100 250
pY (y) 0.25 0.25 0.5
64 CAPÍTULO 2. CARACTERÍSTICAS DE VARIÁVEIS E VETORES ALEATÓRIOS

Temos que calcular E(X 2 ) e E(Y 2 ). Logo,

E(X 2 ) = 1002 × 0.5 + 2502 × 0.5 = 36250 E(Y 2 ) = 02 × 0.25 + 1002 × 0.25 + 2002 × 0.5 = 22500

Var(X) = E(X 2 ) − [E(X)]2 = 36250 − (175)2 = 5625

Var(Y ) = E(Y 2 ) − [E(Y )]2 = 22500 − (125)2 = 6875


Então,

Cov(X, Y ) 1875 1875


ρ(X, Y ) = p =√ √ = = 0.301
Var(X)Var(Y ) 5625 6875 (75)(82, 92)

Exemplo 2.14. [Bussab e Morettin, 2017] (Continuação do Exemplo 2.12 ) Calcule a Correlação entre
X e Y.
Solução: Temos que
7 11
E(X) = E(Y ) = E(X 2 ) = E(Y 2 ) =
12 144
11
Var(X) = Var(Y ) =
144
1 7 7 1
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = − =−
3 12 12 144
Portanto,
1 1
Cov(X, Y ) − 144 − 144 1
ρ(X, Y ) = p = q q = 11 =− ·
Var(X)Var(Y ) 11 11 144
11
144 144

2.3 Esperança Condicional


Segundo (USP, 2016) a covariância e a correlação medem a relação linear entre duas variáveis aleatórias
e as tratam simetricamente. Muitas vezes, em ciências sociais, gostarı́amos de explicar uma variável,
chamada Y, em termos de outra variável, digamos X. Além disso, se Y for relacionada com X de uma
maneira não linear, gostarı́amos de ser informados sobre isso. Chamemos Y de variável explicada e X
de variável explicativa. Por exemplo, Y poderia ser o salário por hora e X poderia ser o número de
anos de educação formal.
Já definimos a função de densidade de probabilidade condicional de Y , dado X. Assim, pode-
rı́amos querer ver como a distribuição dos salários é alterada pelo nı́vel de educação. Porém, em
geral, queremos ter uma maneira simples de resumir essa distribuição. Um único número não será
suficiente, visto que a distribuição de Y , dado X = x, geralmente depende do valor de x. No entanto,
podemos resumir a relação entre Y e X verificando a esperança condicional de Y , dado X, algumas
vezes chamada média condicional. A ideia é a seguinte: suponha que saibamos que X assumiu um
valor particular, digamos x. Então, poderemos calcular o valor esperado de Y em decorrência de
conhecermos esse resultado de X. Representamos esse valor esperado por E(Y |X = x), ou algumas
vezes E(Y |x) como forma abreviada. De forma geral, quando x muda, E(Y |x) também muda.
Quando Y for uma variável aleatória discreta assumindo valores {y1 , · · · , yn }, então,
2.3. ESPERANÇA CONDICIONAL 65

m
X m
X
E(Y |x) = yj fY |X (yj |x) = yj P(Y = yj |X = x)
j=1 j=1

Quando Y for contı́nua, E(Y |x) será definida pela integração de yfY |X (y|x) sobre todos os valores
possı́veis de y, ou seja,
Z ∞
E(Y |x) = yfY |X (y|x)dy
−∞

Assim como no caso da esperança incondicional, a esperança condicional é uma média ponderada
de possı́veis valores de Y , mas agora os pesos refletem o fato de que X assumiu um valor especı́fico.
Assim, E(Y |x) é apenas alguma função de x, que nos diz como o valor esperado de Y varia com x.
Como um exemplo, seja (X, Y ) a população de todas as pessoas que trabalham, na qual X é anos
de educação, e Y é o salário por hora. Então, E(Y |X = 12) será o salário médio por hora de todas as
pessoas da população com 12 anos de educação (em termos gerais, correspondente à educação de ensino
médio). E(Y |X = 16) será o salário médio por hora de todas as pessoas com 16 anos de educação.
O gráfico de valores esperados com vários nı́veis de educação fornece informações importantes sobre
como os salários e a educação estão relacionados. Veja a Figura 2.3, para uma ilustração.

Figura 2.3: O valor esperado do salário por hora considerando vários nı́veis de educação.

Em princı́pio, o valor esperado do salário por hora pode ser encontrado a cada nı́vel de educação,
e essas esperanças podem ser resumidas em uma tabela. Como a educação pode variar amplamente -
e pode até mesmo ser medida em frações de um ano ?, essa é uma maneira excessivamente trabalhosa
de se mostrar a relação entre o salário médio e o grau de educação. Em econometria, geralmente
especificamos funções simples que capturam essa relação. Como um exemplo, suponha que o valor
esperado de SALÁRIO, dado EDUC, seja a função linear

E(SALÁRIO|EDU C) = 1.05 + 0.45EDU C


.
Se essa relação for válida na população das pessoas que trabalham, o salário médio das pessoas
com 8 anos de educação será 1.05 + 0.45(8) = 4.65, ou 4.65 dólares. O salário médio das pessoas com
66 CAPÍTULO 2. CARACTERÍSTICAS DE VARIÁVEIS E VETORES ALEATÓRIOS

16 anos de educação será 8.25 dólares. O coeficiente de EDUC implica que cada ano de educação
aumenta o salário por hora esperado em 0.45, ou 45 centavos de dólar.
As esperanças condicionais também podem ser funções não-lineares. Por exemplo, suponha que
E(Y |x) = 10/x, onde X é uma variável aleatória que sempre será maior que zero. Essa função está
traçada na Figura 2.4. Isso poderia representar uma função de demanda, na qual Y seria a quantidade
demandada e X seria o preço. Se Y e X forem relacionadas nesta forma, uma análise de associação
linear, tal como uma análise de correlação, seria incompleta.

Figura 2.4: Gráfico de E(Y |x) = 10/x.

Várias propriedades básicas das esperanças condicionais são úteis para derivações em análise eco-
nométrica.

(i) E[g(X)|X] = g(X), para qualquer função g(X).


Essa primeira propriedade significa que funções de X comportam-se como constantes quando
calculamos a esperança condicional de X. Por exemplo, E(X 2 )|X) = X 2 . Intuitivamente, isso
simplesmente significa que, se conhecermos X, também conheceremos X 2 .
(ii) Para as funções a(X) e b(X),
E[a(X)Y + b(X)|X] = a(X)E(Y |X) + b(X).

Por exemplo, podemos calcular com facilidade a esperança condicional de uma função tal como
XY + 2X 2 : E(XY + 2X 2 |X) = XE(Y |X) + 2X 2 .
A próxima propriedade interliga as noções de independência e esperanças condicionais.
(iii) Se X e Y forem independentes, então, E(Y |X) = E(Y ).
Essa propriedade significa que, se X e Y forem independentes, então, o valor esperado de Y , dado
X, não dependerá de X, caso em que E(Y |X) sempre será igual ao valor esperado (incondicional)
de Y . No exemplo do salário e educação, se salário fosse independente de educação, então, os
salários médios das pessoas com educação de ensino médio e com cursos superiores seriam os
mesmos. Como quase certamente esse resultado seria falso, não podemos assumir que salário e
educação sejam independentes.
Um caso especial da propriedade é o seguinte: se U e X forem independentes e E(U ) = 0, então,
E(U |X) = 0.
Também existem propriedades da esperança condicional que têm a ver com o fato de E(Y |X)
ser uma função de X, digamos E(Y |X) = h(X). Como X é uma variável aleatória, h(X)
2.4. VARIÂNCIA CONDICIONAL 67

também será uma variável aleatória. Além disso, h(X) tem uma distribuição de probabilidade e,
portanto, um valor esperado. De forma geral, o valor esperado de h(X) pode ser muito difı́cil de
ser calculado de forma direta. A lei das expectativas iteradas diz que o valor esperado de h(X)
é simplesmente igual ao valor esperado de Y . Escrevemos isso da seguinte maneira.

(iv) E(X) = E[E(X|Y )] , conhecida como Lei das Expectativas Totais (ou Lei Simples das Expecta-
tivas Iteradas).
Essa propriedade é de difı́cil compreensão à primeira vista. Ela significa que, se primeiro ob-
tivermos E(Y |X) como uma função de X e considerarmos seu valor esperado (em relação à
distribuição de X, é claro), então, acabaremos obtendo E(Y ). Isso não é tão óbvio, mas pode ser
derivado utilizando a definição dos valores esperados.
Suponha que Y =SALÁRIO e X =EDUC, onde SALÁRIO está medido em horas e EDUC em
anos. Suponha que o valor esperado de SALÁRIO, dado EDUC, seja E(SALÁRIO|EDU C) =
4 + 0.60EDU C. Além disso, E(EDU C) = 11.5. Então, a lei das expectativas iteradas sugere
que E(SALÁRIO) = E(4 + 0.60EDU C) = 4 + 0.60E(EDU C) = 4 + 0.60(11.5) = 10.90, ou 10.90
dólares por hora.

(v) Se E(Y |X) = E(Y ), então, Cov(X, Y ) = 0 [como também ρ(X, Y ) = 0]. De fato, qualquer função
de X é não-correlacionada com Y .
Essa propriedade significa que, se o conhecimento de X não altera o valor esperado de Y , então,
X e Y devem ser não-correlacionadas, o que implica que, se X e Y forem correlacionadas, então,
E(Y |X) deve depender de X.
A inversa desta propriedade não é verdadeira: se X e Y forem não-correlacionadas, E(Y |X)
poderá ainda depender de X. Por exemplo, suponha que Y = X 2 . Então, E(Y |X) = X 2 , que
claramente é uma função de X. Porém, como mencionado em nossa discussão sobre covariância
e correlação, é possı́vel que X e X 2 sejam não-correlacionadas. A esperança condicional captura
a relação não linear entre X e Y que uma análise de correlação deixaria passar despercebida.

2.4 Variância Condicional


Dadas as variáveis aleatórias X e Y , a variância de Y , condicional em X = x, será simplesmente a
variância associada à distribuição condicional de Y , dado X = x: E{[Y − E(Y |x)]2 |x}. A fórmula

Var(Y |X = x) = E(Y 2 |x) − [E(Y |x)]2

é frequentemente útil para os cálculos. Somente ocasionalmente teremos que calcular uma variância
condicional. Entretanto, teremos que fazer hipóteses a respeito e manipular as variâncias condicionais
para certos tópicos na análise de regressão.
Como um exemplo, defina 4Y=4POUPANÇA e X =RENDA (ambas medidas em termos anu-
ais, para a população de todas as famı́lias). Suponha que Var(P OU P AN ÇA|REN DA) = 400 +
0.25REN DA. Isso diz que, conforme aumente a renda, a variância dos nı́veis de poupança tam-
bém aumenta. É importante verificar que a relação entre as variâncias de POUPANÇA e RENDA é
totalmente separada da relação entre os valores esperados de POUPANÇA e RENDA.
Estabelecemos, portanto, uma propriedade importante da variância condicional.

Proposição 6. Se X e Y forem independentes, então, Var(Y |X) = Var(Y ).


Essa propriedade é bastante clara, pois a distribuição de Y , dado X, não depende de X, e
Var(Y |X) é apenas uma caracterı́stica dessa distribuição.
68 CAPÍTULO 2. CARACTERÍSTICAS DE VARIÁVEIS E VETORES ALEATÓRIOS

Exemplo 2.15. (Voltando ao Exemplo 1.20) Suponha que estamos interessados em estudar a compo-
sição de famı́lias com três crianças, quanto ao sexo. Definimos:
X= número de meninos;

1, se o primeiro filho for homem;
Y = .
0, se o primeiro filho for mulher;

Tabela 2.1: Distribuições de probabilidade unidimensionais.

x 0 1 2 3 y 0 1
1 3 3 1 1 1
pX (x) 8 8 8 8 pY (y) 2 2

Tabela 2.2: Distribuições de probabilidade conjunta do vetor aleatório (x, y).

Y \X 0 1 2 3 pY (y)
1 2 1 1
0 8 8 8 0 2
1 2 1 1
1 0 8 8 8 2
1 3 3 1
pX (x) 8 8 8 8 1

A partir da distribuição conjunta de (X, Y ) pode-se obter a distribuição condicional de X, ou


seja, a probabilidade condicional de cada valor de X, condicionada a um determinado valor de Y .
Aplicando a definição de probabilidade condicional, temos que:

P(X = 0, Y = 0) 1/8 1
P(X = 0|Y = 0) = = =
P(Y = 0) 1/2 4
P(X = 1, Y = 0) 2/8 1
P(X = 1|Y = 0) = = =
P(Y = 0) 1/2 2
P(X = 2, Y = 0) 1/8 1
P(X = 2|Y = 0) = = =
P(Y = 0) 1/2 4
P(X = 3, Y = 0) 0
P(X = 3|Y = 0) = = =0
P(Y = 0) 1/2
Assim, P(X = x|Y = 0), distribuição condicional de X dado que Y = 0 é, é dada por

x 0 1 2 3
1 1 1
pX|Y (x|0) 4 2 4 0

Sendo uma distribuição de probabilidades, podemos calcular sua esperança e sua variância:
X 1 1 1
E(X|Y = 0) = xP(X = x|Y = 0) = 0 × +1× +2× +3×0=1
x
4 2 4
X 1 1 1 3
E(X 2 |Y = 0) = x2 P(X = x|Y = 0) = 02 × + 12 × + 22 × + 32 × 0 =
x
4 2 4 2
3 1
Var(X|Y = 0) = E(X 2 |Y = 0) − [E(X|Y = 0)]2 = − 12 = .
2 2
2.4. VARIÂNCIA CONDICIONAL 69

Analogamente, obtém-se a distribuição de X dado que Y = 1 ou a distribuição de Y dado que


X = 0; por exemplo:

P(X = 0, Y = 0) 1/8
P(Y = 0|X = 0) = = =1
P(X = 0) 1/8
P(X = 0, Y = 1) 0
P(Y = 1|X = 0) = = =0
P(X = 0) 1/8

y 0 1
pY |X (y|0) 1 0

Assim,

E(Y |X = 0) = 0 E(Y 2 |X = 0) = 0 Var(Y |X = 0) = 0.


Da mesma forma,

P(X = 1, Y = 0) 2/8 2
P(Y = 0|X = 1) = = =
P(X = 1) 3/8 3
P(X = 1, Y = 1) 1/8 1
P(Y = 0|X = 1) = = =
P(X = 1) 3/8 3

y 0 1
2 1
pY |X (y|1) 3 3

Assim,
1 1 2
E(Y |X = 1) = E(Y 2 |X = 1) = Var(Y |X = 1) = .
3 3 9
Continuando,

y 0 1 2
1 2 → E(Y |X = 2) = 3
pY |X (y|2) 3 3

y 0 1
→ E(Y |X = 3) = 1
pY |X (y|3) 0 1

Portanto, temos E(Y |X = x) assume os valores 0, 31 , 23 e 1 e esses valores ocorrem quando X = 0,


X = 1, X = 2 e X = 3, respectivamente. Logo, as probabilidades de ocorrência de cada um deles são
exatamente as probabilidades de X assumir os seus valores, isto é, temos a seguinte distribuição:
1 2
e 0 3 3 1
1 3 3 1
E(Y |X = x) 8 8 8 8

A esperança dessa distribuição é


1 1 3 2 3 1 1
E(E(Y |X)) = 0 × + × + × + 1 × = = E(Y )
8 3 8 3 8 8 2
Para a distribuição condicional de X dado Y , temos os seguintes resultados:

x 0 1 2 3
1 1 1 → E(X|Y = 0) = 1
pX|Y (x|0) 4 2 4 0
70 CAPÍTULO 2. CARACTERÍSTICAS DE VARIÁVEIS E VETORES ALEATÓRIOS

x 0 1 2 3
1 1 1 → E(X|Y = 1) = 2
pX|Y (x|1) 0 4 2 4

e para a variável E(X|Y ) temos a seguinte distribuição de probabilidade

e 1 2
1 1
E(X|Y ) 2 2

A esperança dessa distribuição é

1 1 3
E(E(X|Y )) = 1 × + 2 × = = E(X)
2 2 2

Exemplo 2.16. A função densidade de probabilidade conjunta de X e Y é dada por

f (x, y) = (x + y)I(0,1) (x)I(0,1) (y).

Encontre a E(X|Y ) e E(Y |X)


Z 1
1
fX (x) = (x + y)dy = x + I(0,1) (x)
0 2

Z 1
1
fY (y) = (x + y)dx = y + I(0,1) (y)
0 2

x+y
fX|Y (x|y) = , x ∈ (0, 1)
y + 12

e y ∈ (0, 1) fixo.

x+y
fY |X (y|x) = , y ∈ (0, 1)
x + 12

e x ∈ (0, 1) fixo.
Assim,
Z 1 Z 1
x+y 2 + 3Y
E(X|Y ) = xfX|Y (x|y)dx = x 1 dx = 3(2Y + 1)
0 0 y+2

e y ∈ (0, 1) fixo.
Z 1 Z 1
x+y 2 + 3X
E(Y |X) = yfY |X (y|x)dy = y 1 dy = 3(2X + 1)
0 0 x+ 2

e x ∈ (0, 1) fixo.
2.5. FUNÇÃO GERADORA DE MOMENTOS 71

2.5 Função Geradora de Momentos

Definição 2.7. A função geradora de momentos da v.a. X é definida por

MX (t) = E(etX ),
desde que a esperança seja finita para todo t real em algum intervalo −t0 < t < t0 , com t0 > 0.

Observação 2.5. (i) Se X for uma v.a. discreta, com função massa de probabilidade fX (x) = P(X =
x), a função MX (t), denominada f.g.m. de X, é definida por

X
MX (t) = etx fX (x).
x∈ΩX

(ii) Se X for uma v.a. contı́nua, função densidade de probabilidade fX (·), definimos a f.g.m. por

Z ∞
MX (t) = etx fX (x)dx.
−∞

(iii) MX (0) = MX (t) |t=0 = E(e0x ) = 1.

Exemplo 2.17. Seja X ∼ B(n, p). Encontre a f.g.m. de X.

n n  
tX
X
tx
X
txn x
MX (t) = E(e ) = e fX (x) = e p (1 − p)n−x
x
x=0 x=0
n  
X n
= (et p)x (1 − p)n−x
x
x=0
= (e p + (1 − p))n , para todo t ∈ R,
t

pois
n  
X n
ax bn−x = (a + b)n .
i
i=0

Exemplo 2.18. Seja X ∼ P(λ), λ > 0. Encontre a f.g.m. de X.

e−λ λx
fX (x) = P(X = x) = , x = 0, 1, 2, · · · .
x!

X X e−λ λx X (et λ)x


MX (t) = E(etX ) = etx fX (x) = etx = e−λ .
x! x!
x>0 x>0 x>0

yj
Como ey =
P
j>0 j! , temos

tλ t
MX (t) = e−λ ee = e−λ(1−e ) , para todo t ∈ R.
72 CAPÍTULO 2. CARACTERÍSTICAS DE VARIÁVEIS E VETORES ALEATÓRIOS

Exemplo 2.19. Seja X ∼ N (0, 1). Encontre a f.g.m. de X.

Z ∞ Z ∞
tX 1 −x2 tx 1 −(x2 −2tx)
MX (t) = E(e ) = e √ e 2 dx = √ e 2 dx
−∞ 2π −∞ 2π
Z ∞ Z ∞
1 −(x−t)2 + t2 t2 1 −(x−t)2
= √ e 2 2 dx = e 2 √ e 2 dx.
−∞ 2π −∞ 2π
−(x−t)2
Temos que fX (x) = √1 e 2 é a função densidade de probabilidade de uma v.a. com distribui-

ção N (t, 1), logo
Z ∞
1 −(x−t)2
√ e 2 dx = 1.
−∞ 2π
Portanto,
t2
MX (t) = e 2 , para t ∈ R.

Teorema 2.1. Suponha que a f.g.m. da v.a. X exista para |t| < t0 , t0 > 0. Então, E(X n ) existe
para n = 1, 2, 3, · · · e temos que

∂ n MX (t)
E(X n ) = .
∂tn t=0

Prova: Temos que, para x ∈ R, a função ex , pode ser escrita na forma de uma série de Taylor como

(x)2 (x)3 (x)4


ex = 1 + x + + + ···
2! 3! 4!
Dessa forma

(tx)2 (tx)3 (tx)4


etx = 1 + tx + + + ···
2! 3! 4!
Seja t0 > 0, tal que E(etX ) seja finita em −t0 < t < t0 . Então,

t2 E(X 2 ) t3 E(X 3 ) tn E(X n )


MX (t) = E(etX ) = 1 + tE(X) + + + ··· + ···
2! 3! n!
Derivando a expressão acima em relação a t, temos

dMX (t) 0 E(X 2 ) E(X 3 ) E(X n )


= MX (t) = E(X) + 2t + 3t2 + · · · + ntn−1 ···
dt 2! 3! n!
0 (t)
Fazendo t = 0, verificamos que MX = E(X).
t=0
0 (t) em relação a t e aplicando t = 0, obtemos
Derivando MX

00
MX (t) = E(X 2 ).
t=0

Prosseguindo desta forma, pela n-ésima derivada, obtemos


2.5. FUNÇÃO GERADORA DE MOMENTOS 73

dn MX (t) (n)
= MX (t) = E(X n ).
dtn t=0 t=0

Observação 2.6.
h i2
00 0
Var(X) = E(X 2 ) − [E(X)]2 = MX (t) − MX (t)
t=0 t=0

Exemplo 2.20. Seja X uma v.a. com distribuição B(n, p). Obtenha E(X) e Var(X) através f.g.m.
Lembre que

MX (t) = (et p + (1 − p))n = (pet + q)n .

Logo,

0
MX (t) = n(pet + q)n−1 + (pet )

00
MX (t) = np[(n − 1)(pet + q)n−2 (pet )et + (pet + q)n−1 et ].

Fazendo t = 0, temos

E(X) = np

E(X 2 ) = np2 (n − 1) + np
= n2 p2 − np2 + np
= np(np − p + 1).

Portanto,

Var(X) = E(X 2 ) − [E(X)]2 = n2 p2 − np2 + np − n2 p2 = np(1 − p) = npq.

Teorema 2.2. Se duas v.a.’s têm f.g.m. que existem e são iguais, então elas têm a mesma função
de distribuição.

Exemplo 2.21. A f.g.m. da v.a. X é dada por


 4
1 t 2
MX (t) = e + .
3 3
Comparando a expressão acima com a f.g.m. de uma v.a. com distribuição B(n, p), podemos
concluir que X ∼ B(4, 1/3).
74 CAPÍTULO 2. CARACTERÍSTICAS DE VARIÁVEIS E VETORES ALEATÓRIOS

Teorema 2.3. Suponha que uma v.a. X tenha f.g.m. MX (t). Seja Y = αX + β. Então MY (t),
a f.g.m. da v.a. Y , será dada por

MY (t) = eβt MX (αt).

Prova: Seja Y = αX + β uma v.a. Então, sua f.g.m é dada por

MY (t) = E(etY ) = E(et(αX+β) ) = E(etαX etβ )

= etβ E(etαX ) = eβt MX (αt).

Exemplo 2.22. Seja X uma v.a. com distribuição N (µ, σ 2 ). Encontre a f.g.m. de X.
Lembre que Z = X−µσ possui distribuição N (0, 1). Então, X = σZ + µ, logo

MX (t) = E(etX ) = E(et(σX+µ) ) = E(etσX etµ )

= etµ E(etσX ) = eµt MX (σt)

(σt)2 (σt)2
= eµt e 2 = eµt+ 2 para t ∈ R.
Capı́tulo 3

Principais Distribuições

3.1 Principais Distribuições Discretos


3.1.1. Modelo Bernoulli
Qualquer experimento aleatório com somente dois resultados possı́veis “fracasso”e “sucesso”. Seja p a
probabilidade de sucesso e q a probabilidade de fracasso, com p + q = 1.
Notação: p = P(“sucesso”), q = P(“fracasso”).

Definição 3.1. Seja X o número de sucessos em uma única tentativa do experimento. A variável
aleatória X segue o modelo Bernoulli se assume apenas dois valores 0 e 1.

1, se ocorre sucesso;
X=
0, se ocorre fracsso.

Notação: X ∼ Ber(p)
A sua função de probabilidade é dada por

x 1−x q, se x = 0;
fX (x) = P(X = x) = p q =
p, se x = 1.
A sua função de distribuição é dada por

 0, se x < 0;
FX (x) = q, se 0 6 x < 1;
1, se x > 1.

Exemplo 3.1. Lançamento de uma moeda.

Exemplo 3.2. Uma urna contem 30 bolas brancas e 20 verdes. Retira-se uma bola dessa urna. Seja X
o número de bolas verdes. Encontre a função de probabilidade e a distribuição da variável aleatória
X.

Solução: 
1, bola verde;
X=
0, bola branca.
 x  1−x
2 3
fX (x) = P(X = x) = , x ∈ {0, 1}.
5 5
Ou seja, X ∼ Ber(p), onde p = 52 .
76 CAPÍTULO 3. PRINCIPAIS DISTRIBUIÇÕES

Proposição 1. Seja X ∼ Ber(p), então

(i) E(X) = p.

(ii) Var(X) = pq.

3.1.2. Modelo Binomial


Exemplo 3.3. Suponha que uma moeda é lançada 10 vezes e vamos definir a v.a. X = número de
caras. Suponhamos que a probabilidade de cara seja p e, por conseguinte, a probabilidade de coroa
é 1 − p. Os possı́veis valores de X são 0, 1, 2, . . . , 10. Vamos agora calcular a probabilidade de
cada um desses valores, estabelecendo a equivalência dos eventos envolvidos. Para isso vamos usar a
notação Ki = cara no i-ésimo lançamento e Ci = coroa no i-ésimo lançamento.

{X = 0} = {coroa nos 10 lançamentos} = {C1 ∩ · · · ∩ C10 }


Podemos considerar os lançamentos da moeda como eventos independentes. Logo,

P(X = 0) = P(C1 ) × · · · × P(C10 ) = (1 − p)10


O evento {X = 1} corresponde à ocorrência de 1 cara e 9 coroas. Uma sequência possı́vel de
resultados é KCCCCCCCCC e a probabilidade é

P(KCCCCCCCCC) = p(1 − p)9


 
10
Mas a sequência CKCCCCCCCC também resulta em {X = 1}. Na verdade existem tais
1
sequências, todas com a mesma probabilidade. Logo
 
10
P(X = 1) = p(1 − p)9 .
1
Analogamente, o evento {X = 2} corresponde à ocorrência de 2 caras e 8 coroas; uma sequência
possı́vel é KKCCCCCCCC, que tem probabilidade

P(KKCCCCCCCC) = p2 (1 − p)8
 
10
Mas, existem maneiras de colocar caras numa sequência de 10 lançamentos e todas tem a
2
mesma probabilidade. Portanto,
 
10 2
P(X = 2) = p (1 − p)8 .
2
Em geral, para qualquer valor de x temos
 
10 x
P(X = x) = p (1 − p)1−x , x = 0, 1, 2, · · · , 10.
x

O experimento Binomial e um experimento de Bernoulli repetido n vezes, independentemente.


Consideremos n tentativas independentes de um mesmo experimento aleatório. Cada tentativa
admite apenas dois resultados: fracasso com probabilidade q e sucesso com probabilidade p, onde p +
q = 1. Ou seja, um experimento de Bernoulli é repetido n vezes, independentemente. As probabilidades
de sucesso e fracasso são as mesmas para cada tentativa.
3.1. PRINCIPAIS DISTRIBUIÇÕES DISCRETOS 77

Definição 3.2. Seja X a variável aleatória número de sucessos nas n repetições independentes.
Diremos que X segue o modelo Binomial com parâmetros n e p e sua função de probabilidade
é dada por
 
n x
fX (x) = P(X = x) = p (1 − p)n−x , x ∈ {0, 1, · · · , n}.
x

Notação: X ∼ B(n, p), 0 < p 6 1.

Observação 3.1. Vamos verificar se fX (·) é função de probabilidade. Temos que fX (x) > 0, para todo
x∈Re
n n  
X X n
fX (x) = px (1 − p)n−x = (p + (1 − p))n = 1,
x
x=0 x=0

pois
n  
X n
aj (b)n−j = (a + b)n .
j
j=0

Logo fX (·) é função de probabilidade.

Proposição 2. Seja X ∼ B(n, p), então

(i) E(X) = np.

(ii) Var(X) = npq.

Nas Figuras 3.1 e 3.2 apresentamos a f.m.p. e acumulada para diferentes valores de p.

Figura 3.1: Função Massa de Probabilidade da v.a. X ∼ B(15, p).


78 CAPÍTULO 3. PRINCIPAIS DISTRIBUIÇÕES

Figura 3.2: Função de Distribuição (ou acumulada) da v.a. X ∼ B(15, p).

Exemplo 3.4. Uma moeda honesta é lançada 20 vezes. Qual a probabilidade de saı́rem 8 caras?

Solução: Temos que X é o número de sucessos (caras).

1
p = P(X = 1) = P(sucesso) = .
2
Logo, X ∼ B 20, 12


   x  20−x
20 1 1
P(X = x) = , x ∈ {0, 1, 2, 3, · · · , 20}.
x 2 2
Se x = 8, temos
   8  20−8
20 1 1
P(X = 8) = = 0, 12013.
8 2 2

Exemplo 3.5. Uma prova tipo teste tem 50 questões independentes. Cada questão tem 5 alternativas.
Apenas uma delas é a correta. Se um aluno resolve a prova respondendo a esmo a questão, qual a
probabilidade de tirar nota 5?

Solução: A v.a. X é o número de acertos, x ∈ {0, 1, · · · , n}. A probabilidade de acerto p = P(acerto) =


1 1
5 . Logo, X ∼ B(50, 5 ).
Portanto a função de probabilidade é dada por
   x  50−x
50 1 4
P(X = x) = .
x 5 5
Logo,
   25  50−25
50 1 4
P(X = 25) = = 0, 000002.
25 5 5
3.1. PRINCIPAIS DISTRIBUIÇÕES DISCRETOS 79

Exemplo 3.6. Um atirador acerta na mosca do alvo, 20% dos tiros. Se ele dá 10 tiros, qual a probabi-
lidade de ele acertar na mosca no máximo 1 vez?

Solução: Podemos pensar os tiros como experimentos de Bernoulli independentes, onde a probabilidade
de sucesso é p = 0, 20. Então, o problema pede P(X 6 1), onde X = {número de acertos em 10 tiros}.
Logo, X ∼ B(k, p), com k = 10 e p = 0, 20.
Então,

   
10 0 10−0 10
P(X 6 1) = P(X = 0) + P(X = 1) = 0, 2 0, 8 + 0, 21 0, 810−1 = 0, 37581.
0 1

Exemplo 3.7. Dois adversários A e B disputam uma série de 8 partidas de um determinado jogo. A
probabilidade de A ganhar uma partida é 0, 6 e não há empate. Qual é a probabilidade de A ganhar
a série?

Solução: Note que só podem ocorrer vitórias ou derrotas, o que significa que temos repetições de um
experimento de Bernoulli com probabilidade 0, 6 de sucesso (vitória). Assumindo a independência das
provas, se definimos X = {número de vitórias de A}, então XsimB(8; 0, 6) e o problema é calcular
P(X > 5) , isto é A ganha mais partidas que B.

8
X
P(X > 5) = P(X = x)
x=5
       
8 5 8−5 8 6 8−6 8 7 8−7 8
= 0, 6 0, 4 + 0, 6 0, 4 + 0, 6 0, 4 + 0, 68 0, 48−8
5 6 7 8

= 0, 5940864.

3.1.3. Modelo Poisson


Na distribuição Binomial, a variável de interesse era o número de sucessos em um intervalo discreto (n
repetições de um experimento 0-1). Muitas vezes, entretanto, o interesse reside no número de sucessos
em um intervalo contı́nuo, que pode ser o tempo, comprimento, etc.
A probabilidade de ocorrência de um sucesso no intervalo é proporcional ao intervalo. A probabi-
lidade de mais de um sucesso neste intervalo é bastante pequena com relação à probabilidade de um
sucesso.

Definição 3.3. Seja X o número de sucessos em um intervalo. A variável aleatória X segue o


modelo Poisson de parâmetro λ, λ > 0, se a sua função massa de probabilidade for dada por

e−λ λx
fX (x) = P(X = x) = , x = 0, 1, 2, · · · .
x!

Notação: X ∼ P(λ).
O parâmetro λ indica o número esperado de sucessos no intervalo (a taxa de ocorrência para uma
unidade de medida).
A distribuição de Poisson é largamente utilizada quando se deseja contar o número de sucessos que
ocorrem em intervalos de tempo, ou superfı́cie ou volume. Por exemplo
80 CAPÍTULO 3. PRINCIPAIS DISTRIBUIÇÕES

(i) carros que passam por um cruzamento por minuto, durante uma certa hora do dia;

(ii) erro tipográficos por página, em um material impresso;

(iii) defeitos por unidade (m2 , m3 , m etc.) por peça fabricada;

(iv) colônia de bactérias numa dada cultura por 0.01 mm2 , numa plaqueta de microscópio;

(v) mortes por ataque do coração por ano, numa cidade;

(vi) em problemas de filas em geral;

(vii) número de chamadas recebidas por um telefone durante cinco minutos;

(viii) número de falhas de um computador num dia de operação;

(ix) número de relatórios de acidentes enviados a uma companhia de seguros numa semana.

Observação 3.2. Seja X a v.a. definida como o número de eventos que ocorrem sobre um perı́odo de
tempo t. Substituı́mos λ na f.m.p. por tλ. Dessa forma,

e−tλ (tλ)x
fX (x) = P(X = x) = , x = 0, 1, 2, · · · .
x!
Exemplo 3.8. Em um livro de 800 páginas há 800 erros de impressão. Qual a probabilidade de que
uma página contenha pelo menos 3 erros?

Solução: Seja X o número de erros por página. Temos que λ = 1. Logo,

P(X > 3) = 1 − P(X < 3) = 1 − {P(X = 0) + P(X = 1) + P(X = 2)}


 −1 0
e−1 · 11 e−1 · 12

e ·1
= 1− + +
0! 1! 2!
= 1 − {0.367879 + 0.367879 + 0.183940}
= 1 − 0.919698 = 0.080302.

Exemplo 3.9. Em uma central telefônica chegam 300 telefonemas por hora. Qual a probabilidade de
que

(i) num minuto não haja nenhuma chamada?

(ii) em 2 minutos haja 2 chamados?

(iii) em t minutos não haja chamados?

Solução:

(i) Seja X a v.a. número de chamadas por minuto. Então, λ = 5.

e−5 · 50
P(X = 0) = = 0.006738.
0!
3.1. PRINCIPAIS DISTRIBUIÇÕES DISCRETOS 81

(ii) Em dois minutos, λ = 10. Então,

e−10 · 102
P(X = 2) = = 0.002270.
2!
(iii) Em t minutos, λ = 5t. Então,

e−5t · (5t)0
P(X = 0) = = e−5t .
0!

Exemplo 3.10. Em um certo tipo de fabricação de fita magnética, ocorrem cortes a uma taxa de um
corte por 2000 pés. Qual é a probabilidade de que um rolo com comprimento de 4000 pés apresente
no máximo dois cortes? Pelo menos dois cortes?

Solução: Seja Y = {número de cortes num rolo de 4000 pés}. Então, Y ∼ P (2).
Logo,
2
X
P(no máximo 2 cortes) = P(X 6 2) = P(X = x)
x=0
e−2 20 −2
e 21 e−2 22
= + +
0! 1! 2!

= 0, 676676.

P(pelo menos 2 cortes) = P(X > 2) = 1 − P(X < 2) = 1 − [P(X = 0) + P(X = 1)]
 −2 0
e−2 21

e 2
= 1− +
0! 1!

= 0, 593994.

Nas Figuras 3.3 e 3.4 apresentamos a f.m.p. e acumulada para diferentes valores de p.

Proposição 3. Seja X ∼ P(λ), então

(i) E(X) = λ.

(ii) Var(X) = λ.

3.1.4. Modelo Geométrico

Definição 3.4. Uma variável aleatória discreta X segue o modelo Geométrico com parâmetro p,
onde 0 < p < 1, se a sua função massa de probabilidade é dada por

fX (x) = P(X = x) = p(1 − p)x−1 , x = 1, 2, · · · .

Notação: X ∼ Geo(p), 0 < p < 1.


82 CAPÍTULO 3. PRINCIPAIS DISTRIBUIÇÕES

Figura 3.3: Função Massa de Probabilidade da v.a.X ∼ P (λ).

Figura 3.4: Função de Distribuição (ou acumulada) da v.a. X ∼ P (λ).

A variável aleatória X é o número de repetições necessárias até o aparecimento do primeiro sucesso.


P(X = x) é a probabilidade de fracasso nos primeiros k − 1 experimentos e sucesso no k− ésimo
experimento.
Função de distribuição

x
X x
X
FX (x) = P(X 6 x) = P(X = j) = p(1 − p)j−1 .
j=1 j=1

Tomando i = j − 1 na expressão acima, temos


3.1. PRINCIPAIS DISTRIBUIÇÕES DISCRETOS 83

x−1
X 1 − (1 − p)x−1+1
FX (x) = p (1 − p)i = p = 1 − (1 − p)x ,
1 − (1 − p)
i=0

Pn i 1−an+1
pois i=0 (a) = 1−a , para 0 < a < 1. Logo,

 0, se x < 1;
FX (x) =
1 − (1 − p)x , se x > 1.

Nas Figuras 3.5 e 3.6 apresentamos a f.m.p. e acumulada para diferentes valores de p.

Figura 3.5: Função Massa de Probabilidade da v.a. X ∼ Geo(p).

Proposição 4. Seja X ∼ Geo(p), então

i) E(X) = 1/p.
2−p
ii) E(X 2 ) = p2

1−p
iii) Var(X) = p2
.

Exemplo 3.11. Um atirador acerta na mosca do alvo, 20% dos tiros. Qual a probabilidade de ele
acertar na mosca pela primeira vez no 10º tiro?

Solução: Podemos pensar os tiros como experimentos independentes de Bernoulli (acerta ou não
acerta). A probabilidade de sucesso (acertar no alvo) é p = 0, 20. Estamos querendo o número de
tiros até o primeiro acerto e calcular a probabilidade desse número ser 10. Seja X = {número de tiros
até primeiro acerto}. Então, X ∼ Geo(0, 20). Queremos calcular P(X = 10). Logo,
84 CAPÍTULO 3. PRINCIPAIS DISTRIBUIÇÕES

Figura 3.6: Função Distribuição (acumulada) da v.a. X ∼ Geo(p).

P(X = 10) = 0, 2 × 0, 89 = 0, 02684.

Exemplo 3.12. As cinco primeiras repetições de um experimento custam R$10,00 cada. Todas as
repetições subsequentes custam R$5,00 cada. Suponha que o experimento seja repetido até que o
primeiro sucesso ocorra. Se a probabilidade de sucesso de uma repetição é igual a 0.9, e se as repetições
independentes, qual é o custo esperado?

Solução: Seja X={o número de tentativas} e C={o custo dos experimentos}. Sabemos que iremos
realizar o experimento até que o primeiro sucesso ocorra ou seja, temos uma Distribuição Geométrica,
ou seja X ∼ Geo(p), com p = 0, 9.
Queremos o custo esperado. O cálculo do custo é feito da seguinte forma:
- 5 primeiras tentativas: R$10,00 cada.
- Outras tentativas: R$5,00 cada.
Assim podemos escrever que:

5
X ∞
X
E(C) = 10 P(X = k) + 5 P(X = k).
k=1 k=6
Pn i 1−an+1
Como i=0 (a) = 1−a , para 0 < a < 1, temos que,

E(C) = 10 × 0, 9(0, 10 + 0, 11 + 0, 12 + 0, 13 + 0, 14 )
+5 × 1 − 0, 9(0, 10 + 0, 11 + 0, 12 + 0, 13 + 0, 14 )
 

= 10 × 0, 9 × 1, 1111 + 5[1 − 0, 9 × 1, 1111] = 9, 99995.


3.1. PRINCIPAIS DISTRIBUIÇÕES DISCRETOS 85

Exemplo 3.13. Em seu caminho matinal, você se aproxima de um determinado sinal de trânsito, que
está verde em 20% do tempo. Suponha que cada manhã represente um tentativa independente.

(a) Qual é a probabilidade de que a primeira manhã que a luz esteja verde seja a quarta manhã que
você se aproxima?

(b) Qual é a probabilidade de que a luz não esteja verde durante exatamente 10 manhãs consecutivas?

Solução:

(a) Qual é a probabilidade de que a primeira manhã que a luz esteja verde seja a quarta manhã que
você se aproxima?
A probabilidade de pegar sinal verde é de 20%. Queremos a probabilidade de que a primeira vez
que eu pegue o sinal verde seja na quarta tentativa. Ou seja estamos realizando repetições até
obter o sucesso.
Se X é a v.a que representa o número de tentativas até o primeiro sucesso, então X ∼ Geo(0, 2)
e queremos calcular P(X = 4). Assim,

P(X = 4) = 0, 2(1 − 0, 2)4−1 = 0, 1024.

(b) Qual é a probabilidade de que a luz não esteja verde durante exatamente 10 manhãs consecutivas?
Pra que a luz não esteja verde dentro das 10 primeiras manhãs consecutivas, concorda que a gente
tem que calcular a probabilidade de a gente só encontrar ela verde na décima primeira manhã pela
primeira vez? Vamos utilizar a mesma fórmula só que agora pra k = 11.
P(X = 11) = 0, 2(1 − 0, 2)11−1 = 0, 02147.

Exemplo 3.14. No Callcenter de uma empresa distribuidora de telefonia, apenas 35% das chamadas
são relacionadas a reclamações sobre erros nas faturas emitidas pela empresa. Pede-se:

(a) Qual a probabilidade da primeira reclamação sobre erro na fatura emitida da conta, ocorrer até a
2ª chamada.

(b) A média, desvio padrão desta variável aleatória.

Solução:

(a) Qual a probabilidade da primeira reclamação sobre erro na fatura emitida da conta, ocorrer até a
2ª chamada.
Queremos calcular a probabilidade do primeiro sucesso (reclamação sobre erro na fatura) acontecer
até a segunda chamada.
Temos duas situações então: a primeira reclamação acontecer na primeira chamada ou a primeira
reclamação acontecer na segunda chamada. Nos dois casos, vamos usar a distribuição geométrica
com p = 0, 35, isto por que queremos calcular a probabilidade do primeiro sucesso acontecer em
determinada tentativa.
Situações: na primeira k = 1 e na segunda k = 2 que é o número da tentativa em que acontece o
primeiro sucesso.
86 CAPÍTULO 3. PRINCIPAIS DISTRIBUIÇÕES

P(X = 1) = 0, 35 · 0, 650 = 0, 35 P(X = 2) = 0, 35 · 0, 651 = 0, 2275

A probabilidade que queremos é a soma das duas.

P(X 6 2) = 0, 35 + 0, 2275 = 0, 5775.

(b) A média, desvio padrão desta variável aleatória.


Para o caso de uma distribuição geométrica conhecemos a fórmula da média e da variância

1 1
E(X) = = = 2, 86
p 0, 35

(1 − p) 0, 65
Var(X) = = = 5, 31.
p2 0, 352
O desvio padrão é a raiz quadrada da variância:
p
DP (X) = 5, 31 = 2, 30.

3.2 Principais Distribuições Contı́nuas


3.2.1. Modelo Uniforme

Definição 3.5. Diremos que uma variável aleatória X segue o modelo Uniforme, no intervalo
[a, b] ∈ R, a < b, se sua função densidade for dada por
1
fX (x) = I (x).
b − a [a,b]

Notação: X ∼ Uc [a, b].


A função fX (·), conforme apresentada na definição acima, satisfaz as condições para ser densidade.
Ela é positiva e
Z ∞ Z b
1
fX (x)dx = dx = 1.
−∞ a b−a
A função de distribuição do modelo uniforme em [a, b] é dada por


 0, se x < a;



x−a
FX (x) =
 b−a , se a 6 x < b;




1, se x > b.

Proposição 5. Seja X ∼ Uc [a, b], então


a+b
i) E(X) = 2 .

(b−a)2
ii) Var(X) = 12 .
3.2. PRINCIPAIS DISTRIBUIÇÕES CONTÍNUAS 87

(a)

(b)

Figura 3.7: Distribuição U (a, b): (a) função densidade de probabilidade, (b) função de distribuição
acumulada.

Cálculo da Esperança Matemática:

b
∞ b
1 x2
Z Z
1
E(X) = x × fX (x)dx = x× dx =
−∞ a b−a b−a 2
a
b
x2 b2 − a2 b2 − a2

1 1 1
= = × = ×
b−a 2 b−a 2 b−a 2
a

1 (b − a) × (b + a) b+a
= × =
b−a 2 2
88 CAPÍTULO 3. PRINCIPAIS DISTRIBUIÇÕES

b
Z ∞ Z b  3
2 2 2 1 1 x
E(X ) = x × fX (x)dx = x × dx =
−∞ a b−a b−a 3
a
1 − b3 a3 1 (b − a) × (b2 + ab + a2 )
= × = ×
b−a 3 b−a 3
b2 + ab + a2
=
3

b+a 2
b2 + ab + a2
 
2 2
Var(X) = E(X ) − [E(X)] = −
2
2
b + ab + a 2 2
b + 2ab + a 2 4b + 4ab + 4a2 3b2 + 6ab + 3a2
2
= − = −
3 4 12 12
b2 − 2ab + a2 (b − a)2
= = ·.
12 12
Exemplo 3.15. Um ponto é escolhido ao acaso no intervalo [0, 2]. Qual a probabilidade de que esteja
ente 1 e 1.5?

Solução:
1

fX (x) = 2, se 0 6 x 6 2;
0, c.c.
1.5
Z 1.5
1 x 1
P(1 6 X 6 1.5) = dx = = ·
1 2 2 4
1

Exemplo 3.16. A dureza H de uma peça de aço pode ser pensada como uma variável aleatória com
distribuição uniforme no intervalo [50, 70] da escala de Rockwell. Calcular a probabilidade de que uma
peça tenha dureza entre 55 e 60.

Solução:
1

fX (x) = 20 , se 50 6 x 6 70;
0, c.c.
60
Z 60
1 x 1
P(55 6 X 6 60) = dx = = ·
55 20 20 4
55

Exemplo 3.17. A ocorrência de panes em qualquer ponto de uma rede telefônica de 7 km foi modelada
por uma distribuição Uniforme no intervalo [0, 7]. Qual é a probabilidade de que uma pane venha a
ocorrer nos primeiros 800 metros? E qual a probabilidade de que ocorra nos 3 km centrais da rede?

Solução: A função densidade da distribuição Uniforme é dada por


1
fX (x) = I[0,7] (x).
7
Assim, a probabilidade de ocorrer pane nos primeiros 800 metros é dada por
3.2. PRINCIPAIS DISTRIBUIÇÕES CONTÍNUAS 89

0,8
0, 8 − 0
Z
1
P (X 6 0, 8) = dx = = 0, 1142.
0 7 7
e a probabilidade de ocorrer pane nos 3 km centrais da rede é
Z 5
1
P (2 6 X 6 5) = dx = P (X 6 5) − P (X 6 2) = 5/7 − 2/7 ≈ 0, 4285.
2 7

Exemplo 3.18. Suponha que Y ∼ U [0, 5]. Qual a probabilidade que a equação 4x2 + 4Y x + 4 = 0,
tenha ambas as raı́zes reais?

Solução: Primeiramente observemos que para que uma equação de segundo grau tenha raı́zes reais é
necessário que o discriminante da equação de segundo grau seja maior ou igual a zero, ou seja, que a
fórmula abaixo seja maior ou igual a zero.

∆ = 16Y 2 − 64 > 0 ⇒ Y 2 > 4.

Assim queremos encontrar P(Y 2 > 4). Então,

Z 0 Z 2 
2 2 1
P(Y > 4) = 1 − P(Y 6 4) = 1 − P(−2 6 Y 6 2) = 1 − 0dy + dy
−2 0 5

2
x 2 3
= 1− =1− = ·
5 5 5
0

Assim a probabilidade de que ambas as raı́zes sejam reais é de 35 .

3.2.2. Modelo Normal


A distribuição normal é a mais importante de todas as distribuições. Muitas populações numéricas
possuem distribuição que podem ser ajustadas por uma curva normal apropriada. Os exemplos incluem
alturas, pesos e outras caracterı́sticas fı́sicas, erros em medidas em experimentos cientı́ficos, medidas
antropométricas em fósseis, tempos de reação em experimentos psicológicos, medidas de inteligência e
aptidão, pontuação em testes variados, e numerosas medidas e indicadores econômicos. Mesmo quando
a distribuição é discreta, a curva normal frequentemente fornece aproximação excelente.Além disso,
ainda que as próprias variáveis individuais não seja normalmente distribuı́das, as somas e as médias
das variáveis terão uma distribuição aproximadamente normal sob condições adequadas.

Definição 3.6. Uma v.a. X segue o modelo Normal se a sua densidade é dada por:

1 (x−µ)2
fX (x) = √ e− 2σ 2 I(−∞,∞) (x),
2πσ 2
com µ, σ ∈ R, σ > 0.

Notação: X ∼ N (µ, σ 2 ).
Caso Particular: Distribuição Normal Padrão: Quando, na Definição 2.3, temos µ = 0 e σ 2 = 1.
90 CAPÍTULO 3. PRINCIPAIS DISTRIBUIÇÕES

(a) µ ∈ {−2.0, −1.0, 0.0, 1.0, 2.0} e σ 2 = 3.0

(b) µ = 0, 0 e σ 2 ∈ {2.0, 4.0, 6.0, 8.0, 10.0}

Figura 3.8: Gráficos da função densidade de probabilidade da distribuição normal N (µ, σ 2 ).

Definição 3.7. Uma v.a. Z segue o modelo Normal se a sua densidade é dada por:
1 z2
fZ (z) = √ e− 2 I(−∞,∞) (z).

Notação: Z ∼ N (0, 1).


Observação 3.3. Seja Z ∼ N (0, 1). Então,
3.2. PRINCIPAIS DISTRIBUIÇÕES CONTÍNUAS 91

(i) fZ (z) é simétrica em relação à origem (ver Figura 3.9). Então,

FZ (z) = 1 − FZ (−z).

Figura 3.9: Simetria da Distribuição Normal.

1
(ii) fZ (z) tem um único ponto crı́tico em z = 0 e fZ (0) = 2π é o único máximo da função.

(iii) z = 1 e z = −1 são pontos de inflexão.

(iv) limz→∞ fZ (z) = 0 = limz→−∞ fZ (z).


R∞ z2
(v) √1 e− 2 dz = 1.
−∞ 2π
R
(vi) P(Z ∈ A) = A fZ (z)dz. Caso A = [a, b], com a < b, temos que

Z b
Figura 3.10: P(a 6 Z 6 b) = fZ (z)dz.
a

Exemplo 3.19 (Devore, 2016). Seja Z ∼ N (0, 1), isto é, a v.a. Z tem distribuição Normal padrão.
Calcule as seguintes probabilidades:

(i) P(Z 6 1.25);

(ii) P(Z > 1.25);


92 CAPÍTULO 3. PRINCIPAIS DISTRIBUIÇÕES

(iii) P(Z 6 −1.25);


(iv) P(−0.38 6 Z 6 1.25).
Solução: Será utilizada a Tabela da Distribuição Normal Padrão.

(i) P(Z 6 1.25) = FZ (1.25) é uma probabilidade que é tabulada. Pela Tabela da Distribuição
Normal Padrão na intersecção na linha marcada com 1.2 e da coluna marcada com 5 (que
significa 0.05). O número existente é 0.8944, portanto, P(Z 6 1.25) = 0.8944

Figura 3.11: Área da curva Normal Padrão: (a) P(Z 6 1.25); (b) P(Z > 1.25).

(ii) P(Z > 1.25) = 1 − P(Z 6 1.25) = 1 − 0.8944 = 0.1056;


(iii) P(Z 6 −1.25) = FZ (−1.25). Pela Tabela da Distribuição Normal Padrão na intersecção na
linha marcada com -1.2 e da coluna marcada com 5 (que significa 0.05). O número existente
é 0.1056, portanto, P(Z 6 −1.25) = 0.1056. Pela simetria da curva da distribuição Normal
Padrão, P(Z 6 −1.25) = P(Z > 1.25).
(iv) P(−0.38 6 Z 6 1.25) = FZ (1.25) − FZ (−0.38) = 0.8944 − 0.3520 = 0.5424.

Figura 3.12: P(−0.38 6 Z 6 1.25) como a diferença entre duas áreas da função de distribuição
(acumulada).

Proposição 6. Sendo X ∼ N (µ, σ 2 ), então Z = Z−µ


σ possui distribuição N (0, 1). Dessa forma,
   
a−µ X −µ b−µ a−µ b−µ
P(a 6 X 6 b) = P 6 6 =P 6Z6
σ σ σ σ σ
ou seja,
   
b−µ a−µ
P(a 6 X 6 b) = FZ − FZ
σ σ
onde
   
a−µ a−µ
P(X 6 a) = FZ e P(X > b) = 1 − FZ
σ σ
3.2. PRINCIPAIS DISTRIBUIÇÕES CONTÍNUAS 93

Exemplo 3.20 (Devore, 2016). Seja X ∼ N (µ, σ 2 ), com µ = 1.25 e σ = 0.46. Calcule P(1 6 X 6 1.75).
Solução: Temos que padronizar utilizando a distribuição Normal Padrão, ou seja,

 
1 − 1.25 X − 1.25 1.75 − 1.25
P(1 6 X 6 1.75) = P 6 6 = P (−0.54 6 Z 6 1.09)
0.46 0.46 0.46
= P(Z 6 1.09) − P(Z 6 −0.54) = FZ (1.09) − FZ (−0.54)
= 0.8621 − 0.2946 = 0.5675.

Figura 3.13: P(1 6 X 6 1.75) e P (−0.54 6 Z 6 1.09).

Observação 3.4. Seja X ∼ N (µ, σ 2 ). Então,

i) fX (x) é simétrica com relação à µ. Portanto,

P(X 6 µ) = 1/2 = P(X > µ)

P(X 6 µ − a) = P(X > µ + a).

ii) µ + σ e µ − σ são pontos de inflexão.

iii) Para X ∼ N (µ, σ 2 ), temos que

P(|X − µ| < kσ) = P(−kσ < X − µ < kσ) = P(µ − kσ < X < µ + kσ)
   
−kσ X −µ kσ X −µ
= P < < = P −k < <k
σ σ σ σ

= P(−k < Z < k) = P(|Z| < k) = FZ (k) − FZ (−k) = 2FZ (k) − 1,

X−µ
onde Z ∼ N (0, 1) e Z = σ .
Assim,

a) Para k = 1, P(|X − µ| < σ) = 2FZ (1) − 1 = 2 × 0.8413 − 1 = 0.6826.


b) Para k = 2, P(|X − µ| < 2σ) = 2FZ (2) − 1 = 2 × 0.9772 − 1 = 0.9544.
94 CAPÍTULO 3. PRINCIPAIS DISTRIBUIÇÕES

c) Para k = 3, P(|X − µ| < 3σ) = 2FZ (3) − 1 = 2 × 0.9987 − 1 = 0.9974.

Proposição 7. Seja X ∼ N (µ, σ 2 ), então

(i) E(X) = µ.

(ii) Var(X) = σ 2 .

A função de distribuição (acumulada) da distribuição normal é dada por


Z z
FZ (z) = fZ (t)dt.
−∞

Não existe uma fórmula fechada para esta distribuição.


Notação zα para os valores crı́ticos de z:
Em inferência estatı́stica, precisaremos dos valores do eixo z horizontal das medidas que encerram
pequenas áreas da cauda abaixo da curva normal padrão.

Notação: A quantidade zα representará o valor no eixo z para o qual uma área α abaixo da
curva da distribuição Normal Padrão fica à direita de zα . Ou seja,

P(Z > zα ) = α.

Uma vez que α é a área abaixo da curva da distribuição Z que encontra-se à direita de zα , 1 − α
é a área que encontra-se a esquerda. Assim, zα é o 100(1 − α)-ésimo percentil da distribuição normal
padrão. Os valores zα usualmente são considerados os valores crı́ticos de z.

Exemplo 3.21. A quantidade z0.05 é o 100(1 − 0.05)-ésimo = 950 percentil da distribuição normal
padrão, de modo que z0.05 = 1.645. A área abaixo da curva normal padrão à esquerda de −z0.05
também é 0.05.
3.2. PRINCIPAIS DISTRIBUIÇÕES CONTÍNUAS 95

(a) µ ∈ {−2.0, −1.0, 0.0, 1.0, 2.0} e σ 2 = 3.0

(b) µ = 0, 0 e σ 2 ∈ {2.0, 4.0, 6.0, 8.0, 10.0}

Figura 3.14: Função de distribuição (acumulada) da distribuição N (µ, σ 2 ).

Figura 3.15: Ilustração da notação zα .

Tabela 3.1: Percentis Normal Padrão e Valores Crı́ticos.

Percentil 90.00 95.00 97.50 99.00 99.50 99.90 99.95


α 0.100 0.050 0.025 0.010 0.005 0.001 0.001
Zα 1.280 1.645 1.960 2.330 2.580 3.080 3.270

O 100(1−α)-ésimo percentil da distribuição normal com média µ e variância σ 2 pode ser facilmente
relacionado com o 100(1 − α)-ésimo percentil da distribuição normal padrão.
96 CAPÍTULO 3. PRINCIPAIS DISTRIBUIÇÕES

Figura 3.16: Ilustração da notação z0.05 e −z0.05 .

Proposição 8. Relação entre os percentis:

100(1 − α)-ésimo percentil da N (µ, σ 2 ) = µ + 100(1 − α)-ésimo percentil da N (0, 1) × σ.

3.2.3. Aproximação da Binomial pela Normal

Proposição 9. [Aproximação da Binomial pela Normal] Seja X ∼ B(n, p). A medida que n
cresce a distribuição B(n, p) se aproxima da distribuição N (µ, σ 2 ), onde µ = np e σ 2 = npq.
As condições mais importantes são: np > 5 e n(1 − p) > 5.

A demonstração da validade desta aproximação é feita utilizando-se o Teorema do Limite Central,


que será estudado em tempo. Ver Figuras 3.17 e 3.18.

Cálculo da Probabilidade
Seja X ∼ B(n, p), tal que np > 5. Calcule P(a 6 X 6 b), para a, b ∈ N utilizando a Proposição 9,
ou seja utilizando uma variável aleatória Y ∼ N (µ, σ 2 ). Então,

P(a 6 X 6 b) ' P(a 6 Y 6 b)


" #
a − np Y − np b − np
= P p 6p 6p
np(1 − p) np(1 − p) np(1 − p)
" #
a − np b − np
= P p 6Z6 p ,
np(1 − p) np(1 − p)

onde Z ∼ N (0, 1).


A aproximação pode ser melhorada através do uso da Correção de Continuidade.

Correção de Continuidade
A correção de continuidade é um procedimento que pode ser aplicado para melhorar a aproxima-
ção de distribuições discretas através de distribuições contı́nuas. Em particular, na aproximação da
distribuição binomial pela normal temos o seguinte:
3.2. PRINCIPAIS DISTRIBUIÇÕES CONTÍNUAS 97

Figura 3.17: Aproximação da distribuição B(n, p) pela distribuição N (µ, σ 2 ), onde n = 100 e p ∈
{0.05, 0.2, 0.3, 0.5, 0.6, 0.7, 0.8, 0.95}.

 
1 1
P(a 6 X 6 b) ' P a − 6 Y 6 b +
2 2
" #
a − 12 − np Y − np b + 12 − np
= P p 6p 6p
np(1 − p) np(1 − p) np(1 − p)
" #
a − 1 − np b + 1 − np
= P p 2 6Z6 p 2
np(1 − p) np(1 − p)

onde Z ∼ N (0, 1).

Caso particular:
98 CAPÍTULO 3. PRINCIPAIS DISTRIBUIÇÕES

Figura 3.18: Aproximação da distribuição B(n, p) pela distribuição N (µ, σ 2 ), onde p = 0.25 e n ∈
{5, 10, 15, 20, 25, 30, 35, 40}.

 
1 1
P(X = a) ' P a − 6 Y 6 a +
2 2
" #
a − 21 − np Y − np a + 12 − np
= P p 6p 6p
np(1 − p) np(1 − p) np(1 − p)
" #
a − 1 − np a + 1 − np
= P p 2 6Z6 p 2
np(1 − p) np(1 − p)

Exemplo 3.22. Seja X ∼ B(225, 0.2). Calcule P(39 6 X 6 48).

Solução: Temos que E(X) = np = 225 × 0, 2 = 45 e Var(X) = np(1 − p) = 225 × 0, 2 × 0, 8 = 36. Logo
a distribuição da variável aleatória X pode ser aproximada pelo distribuição N (µ, σ 2 ), com µ = 45 e
σ 2 = 36. Ver Figura 3.19.
Valor Exato:
P(39 6 X 6 48) = 0, 5853.

Valor sem o fator de Correção:


3.2. PRINCIPAIS DISTRIBUIÇÕES CONTÍNUAS 99

Figura 3.19: Aproximação da distribuição B(225, 0, 2) pela distribuição N (µ, σ 2 ), onde µ = 45 e


σ 2 = 36.

P(39 6 X 6 48) ' P(39 6 Y 6 48)


 
39 − 45 Y − 45 48 − 45
= P 6 6
6 6 6
= P(−1, 0 6 Z 6 0, 5) = 0, 5328.

Valor com o fator de Correção:

P(39 6 X 6 48) ' P(39 − 0, 5 6 Y 6 48 + 0, 5)


 
39 − 0, 5 − 45 Y − 45 48 + 0, 5 − 45
= P 6 6
6 6 6
= P(−1, 08 6 Z 6 0, 58) = 0, 5808.

Cuidado na hora de calcular probabilidade com o fator de correção:

X ∼ B(n, p) Y ∼ N (µ, σ 2 )
P(a 6 X 6 b) P(a − 0, 5 6 Y 6 b + 0, 5)
P(X = k) P(k − 0, 5 6 Y 6 k + 0, 5)
P(X < k) P(Y < k − 0, 5)
P(X 6 k) P(Y 6 k + 0, 5)
P(X > k) P(Y > k + 0, 5)
P(X > k) P(Y > k − 0, 5)

Exemplo 3.23. Um sistema é formado por 100 componentes, cada um dos quais com confiabilidade
(probabilidade de funcionar adequadamente num certo perı́odo) igual a 0, 9. Se esses componentes
funcionarem de forma independente um do outro e se o sistema funcionar adequadamente enquanto
pelo menos 87 componentes estiverem funcionando, qual é a confiabilidade do sistema?
100 CAPÍTULO 3. PRINCIPAIS DISTRIBUIÇÕES

Solução: Seja X: número de componentes que funcionam adequadamente. Então X ∼ B(100, 0, 9).
Logo E(X) = np = 100 × 0, 9 = 90 e Var(X) = np(1 − p) = 100 × 0, 9 × 0, 1 = 9. Logo a distribuição
da variável aleatória X pode ser aproximada pelo distribuição N (µ, σ 2 ), com µ = 90 e σ 2 = 9
O sistema é confiável quando P(X > 87).
Valor Exato:
P(X > 87) = 0, 8761.
Valor sem o fator de Correção:

P(X > 87) ' P(Y > 87)


 
Y − 90 87 − 90
= P >
3 3
= P(Z > −1) = 0, 8413.

Valor com o fator de Correção:

P(X > 87) ' P(Y > 87 − 0.5)


 
Y − 90 87 − 0.5 − 90
= P >
3 3
= P(Z > −1.16) = 0, 8769.

Exemplo 3.24. Uma moeda honesta é lançada 100 vezes.

(a) Calcular a probabilidade do número de caras estar entre 40% e 70% dos lançamentos, inclusive.

(b) Determinar um intervalo simétrico em torno do número médio de caras, tal que a probabilidade
de observar um valor de X nesse intervalo é 80%.

Solução:

(a) Calcular a probabilidade do número de caras estar entre 40% e 70% dos lançamentos, inclusive.
Seja X:{número de caras em 100 lançamentos}. Então X ∼ B(100, 0.5). Logo E(X) = np =
100 × 0, 5 = 50 e Var(X) = np(1 − p) = 100 × 0, 5 × 0, 5 = 25. Logo a distribuição da variável
aleatória X pode ser aproximada pelo distribuição N (µ, σ 2 ), com µ = 50 e σ 2 = 25. Queremos
calcular P(40 6 X 6 70). Vamos utilizar o fator de correção. O Valor exato é 0.9824.

P(40 6 X 6 70) ' P(40 − 0.5 6 Y 6 70 + 0.5)


 
40 − 0.5 − 50 Y − 50 70 + 0.5 − 50
= P 6 6
5 5 5
= P(−2.1 6 Z 6 4.1) = 0, 9821.

(b) Determinar um intervalo simétrico em torno do número médio de caras, tal que a probabilidade
de observar um valor de X nesse intervalo é 80%.
Intervalo simétrico em torno da média: (50 − a, 50 + a). Assim temos que encontrar o valor de a
tal que
3.2. PRINCIPAIS DISTRIBUIÇÕES CONTÍNUAS 101

P(50 − a 6 X 6 50 + a) = 0, 8.

Para tanto, vamos utilizar a aproximação da Binomial pela Normal, com fator de correção.

P(50 − a 6 X 6 50 + a) ' P(50 − 0.5 − a 6 Y 6 50 + 0.5 + a)


 
50 − 0.5 − a − 50 Y − 50 50 + 0.5 + a − 50
= P 6 6
5 5 5
 
−0.5 − a 0.5 + a
= P 6Z6 = 0, 8.
5 5

Precismos encontrar o valor de a tal que

     
0.5 + a 0.5 + a 0.5 + a 0.5 + a
P − 6Z6 = P Z6 −P Z 6−
5 5 5 5
   
0.5 + a 0.5 + a
= FZ − FZ −
5 5
 
0.5 + a
= 1 − 2FZ − = 0, 8.
5

Assim,

   
0.5 + a 0.5 + a 0.8 − 1
1 − 2FZ − = 0, 8 −→ FZ − =− = 0.1
5 5 2

Pela tabela da distribuição Normal Padrão, temos que FZ (−1.281) ' 0.1000968. Logo,

0.5 + a
− = −1.281 −→ a = 5 × 1.281 − 0.5 −→ a = 5.905
5

Intervalo Procurado: [50 − 5.905; 50 + 5.905] = [44.095; 55.905].


Interpretação: A probabilidade de em 100 lançamentos termos entre 44 e 56 caras é aproximada-
mente 80%.
Probabilidade Exata: P(44 6 X 6 56), onde X ∼ B(100, 0.5) é de 0.8066521.

3.2.4. Aproximação da Poisson pela Normal

Proposição 10. [Aproximação da Poisson pela Normal] Seja X ∼ P (λ). A medida que λ cresce
a distribuição P (λ) se aproxima da distribuição N (µ, σ 2 ), onde µ = λ e σ 2 = λ. A condição
mais importante é: λ > 5.

A demonstração da validade desta aproximação é feita utilizando-se o Teorema do Limite Central,


que será estudado em tempo. Ver Figura 3.20.
102 CAPÍTULO 3. PRINCIPAIS DISTRIBUIÇÕES

Figura 3.20: Aproximação da distribuição P (λ) pela distribuição N (µ, σ 2 ), onde λ ∈


{2, 4, 6, 8, 10, 12, 14, 20}.

Exemplo 3.25. Um processo de produção produz 10 itens defeituosos por hora. Encontre a probabili-
dade de que entre 8 e 15, inclusive,sejam defeituosos numa retirada aleatória por hora.

Solução: Sabemos que X ∼ P (10). Então podemos calcular a probabilidade de maneira exata da
seguinte forma
15 −10 x
X e 10
P(8 6 X 6 15) = = 0.731039.
x!
x=8
Difı́cil de ser calculado a mão. Calculamos computacionalmente.
Vamos utilizar a aproximação Normal. Seja Y ∼ N (µ, σ 2 ), com µ = λ e σ 2 = λ.
Valor sem o fator de Correção:

P(8 6 X 6 15) ' P(8 6 Y 6 15)


 
8 − 10 Y − 10 15 − 10
= P √ 6 √ 6 √
10 10 10
= P(−0.63 6 Z 6 1.58) = 0.6785.

Valor com o fator de Correção:


3.2. PRINCIPAIS DISTRIBUIÇÕES CONTÍNUAS 103

P(8 6 X 6 15) ' P(8 − 0.5 6 Y 6 15 + 0.5)


 
8 − 0.5 − 10 Y − 10 15 + 0.5 − 10
= P √ 6 √ 6 √
10 10 10

= P(−0.79 6 Z 6 1.74) = 0.7443066.

Exemplo 3.26. Considere que o número de partı́culas em uma superfı́cie segue uma distribuição Pois-
son. Suponha que esperamos observar 1000 partı́culas por m2 . Analisamos um metro quadrado da
superfı́cie. Qual a probabilidade de observarmos entre 850 e 1050 partı́culas, inclusive?

Solução: Sabemos que X ∼ P (1000). Então podemos calcular a probabilidade de maneira exata da
seguinte forma

1050
X e−1000 1000x
P(850 6 X 6 1050) = = 0.9440.
x!
x=850

Impossı́vel de ser calculado a mão. Somente computacionalmente.


Vamos utilizar a aproximação Normal. Seja Y ∼ N (µ, σ 2 ), com µ = λ e σ 2 = λ. Valor sem o fator
de Correção:

P(850 6 X 6 1050) ' P(850 6 Y 6 1050)


 
850 − 1000 Y − 1000 1050 − 1000
= P √ 6 √ 6 √
1000 1000 1000
= P(−4.74 6 Z 6 1.58) = 0.9431.

Valor com o fator de Correção:

P(850 6 X 6 1050) ' P(850 − 0.5 6 Y 6 1050 + 0.5)


 
850 − 0.5 − 1000 Y − 1000 1050 + 0.5 − 1000
= P √ 6 √ 6 √
1000 1000 1000

= P(−4.76 6 Z 6 1.60) = 0.9449.

3.2.5. Modelo Chi-Quadrado χ2


104 CAPÍTULO 3. PRINCIPAIS DISTRIBUIÇÕES

Um caso importante da distribuição Γ(α, β), α, β > 0 é obtido, se tomarmos α = n/2 e β = 1/2,
onde n é um inteiro positivo. Obteremos uma famı́lia de distribuições de um parâmetro.
Se X ∼ Γ(α, β),

β α α−1 −βx
fX (x) = x e I(0,∞) (x).
Γ(α)
Tomando α = n/2 e β = 1/2, temos para x > 0,

(1/2)n/2 n −1 − z
fZ (z) = z 2 e 2 I(0,∞) (z)
Γ(n/2)
1 n z
= z 2 −1 e− 2 I(0,∞) (z).
2n/2 Γ(n/2)

A v.a. Z, que tem f.d.p. fZ (z), é chamada de chi-quadrado, com n graus de liberdade.

Notação: Z ∼ χ2n , ou Z ∼ χ2(n) .


Por ser um caso particular da distribuição Γ(α, β), a distribuição χ2n , tem esperança e variância
dados por

X ∼ Γ(α, β) Z ∼ χ2n


 

 

 
 n 1 
E(X) = αβ −→ α = , β = −→ E(Z) = n

 2 2 


 

 Var(X) = α2
 
Var(Z) = 2n.
β

Para n = 1, temos

1 1 z 1 −1 z
fZ (z) = z 2 −1 e− 2 I(0,∞) (z) = √ z 2 e− 2 I(0,∞) (z).
21/2 Γ(1/2) 2π
Para n = 2, temos

1 z 1 z
fZ (z) = z 0 e− 2 I(0,∞) (z) = e− 2 I(0,∞) (z),
2Γ(1) 2
a qual é a f.d.p da distribuição exponencial.
Para n > 30, podemos utilizar uma aproximação normal à distribuição chi-quadrado. Especifica-
mente, temos o seguinte resultado: Se Z ∼ χ2n , com n graus de liberdade, então a v.a.
√ √
Y = 2Z − 2n − 1 ∼ N (0, 1).

Exemplo 3.27. Consultando a tabela temos que, para n = 30, √ P(Z > 40.25) = 0.1.

Utilizando a relação acima, temos que z = 2 × 40, 256 − 2 × 30 − 1 = 1, 291.
Portanto, P(Y > 1, 291)]0.099, onde Y ∼ N (0, 1), que resulta em uma boa aproximação.

Exemplo 3.28. Considere Z ∼ N (0, 1) e a v.a. Y = Z 2 . Qual a distribuição de Y .

√ √ √ √
FY (y) = P(Y = y) = P(Z 2 < y) = P(− y < Z < y) = FZ ( y) − FZ (− y).

Derivando a expressão acima temos


3.2. PRINCIPAIS DISTRIBUIÇÕES CONTÍNUAS 105

(a)

(b)

Figura 3.21: Distribuição χ2n : (a) função densidade de probabilidade, (b) função de distribuição
acumulada.

1  √ √  1 √ √
fY (y) = FY0 (y) = √ FZ0 ( y) − FZ0 (− y) = √ [fZ ( y) − fZ (− y)]
2 y 2 y
 
1 1 1 1
= √ √ e−y/2 − √ e−y/2 ) = √ y −1/2 e−y/2
2 y 2π 2π 2π

Logo, Y ∼ χ21 .
106 CAPÍTULO 3. PRINCIPAIS DISTRIBUIÇÕES

Pn
Teorema 3.1. Sejam X1 , · · · , n v.a. independentes e identicamente distribuı́das e Sn = i=1 Xi .
Então,

i) Sn ∼ χ2n ⇐⇒ X1 ∼ χ21
Pn
ii) X1 ∼ N (0, 1) ⇐⇒ Sn = i=1 Xi ∼ χ2n

iii) Y1 ∼ χ2a e Y2 ∼ χ2b , Y1 e Y2 independentes, então Y1 + Y2 ∼ χ2a+b .

Observação 3.5. Seja X1 , · · · , Xn uma amostra aleatória, com Xj ∼ N (µ, σ 2 ), para j = 1, · · · , n.

1) Então,

n n
X (Xj − µ)2 X 2
= Yj ∼ χ2n ,
σ2
j=1 j=1

(Xj −µ)2
Yj = σ2
, para j = 1, · · · , n

n(X−µ)2
2) Seja Y 2 = σ2
.
Temos que,

σ2
E(X) = µ e Var(X) = ,
n


n(X−µ)
logo Y = σ ∼ N (0, 1).
n(X−µ)2
Portanto, Y 2 = σ2
∼ χ21 .

3) No item anterior, se substituirmos a média da população µ pela média amostral X, temos que

n
X (Xj − X)2
∼ χ2n−1 .
σ2
j=1

Como aplicação dessa relação, considera-se o estimador não tendencioso para a variância da amostra
(Xj −X)2
s2 = nj=1 n−1
P
. Assim,

n
(n − 1) X (Xj − X)2 (n − 1)s2
= ∼ χ2n−1 .
σ2 (n − 1) σ2
j=1

3.2.6. Distribuição t de student


3.2. PRINCIPAIS DISTRIBUIÇÕES CONTÍNUAS 107

Definição 3.8. Sejam X ∼ N (0, 1) e Y ∼ χ2n , X e Y v.a. independentes. Então, a v.a.



X nX
T =p = √ ,
Y /n Y
é dita ter distribuição t de student com n graus de liberdade.
A função densidade de probabilidade da v.a. T é dada por
−(n+1)/2
Γ( n+1 t2

2√)
fT (t) = 1− , t ∈ R.
Γ(n/2) nπ n

Notação: T ∼ tn ou T ∼ t(n).

Observação 3.6. 1) Caso particular: se n = 1, temos a distribuição Cauchy Padrão com α = 0 e β = 1,


onde

1
fT (t) = (1 + t2 )−1 , t ∈ R.
π

2) Para n grande, a distribuição t-student se aproxima da distribuição normal.

3) A f.d.p. da distribuição t-student é simétrica em t = 0 e lim fT (t) = 0 = lim fT (t)


t→∞ t→−∞

Figura 3.22: Distribuição tn : Função densidade de probabilidade.

Observação 3.7. Modelo Cauchy: Se X ∼ C(α, β), então


108 CAPÍTULO 3. PRINCIPAIS DISTRIBUIÇÕES

1
fX (x) = ,
πβ(1 + ( x−α 2
β ) )

onde α ∈ R e β > 0.
Propriedades: Seja X ∼ C(α, β), então

i) E(X) = @.

ii) Var(X) = @.

Observação 3.8. Propriedades: Seja X ∼ tn , então

i) E(X) = 0, se n > 1.
n
ii) Var(X) = n−2 , se n > 2.

3.2.7. Modelo F-Snedecor

Definição 3.9. Sejam X e Y v.a. independentes com distribuição χ2m e χ2n , respectivamente. A
v.a.

X/m nX
F = = ,
Y /n mY
é dita ter distribuição F-Snedecor com (m,n) graus de liberdade.
A função densidade de probabilidade da v.a. F é dada por

Γ( m+n
2 )
 m   m  m −1 
2 m −( m+n
2
)
fF (x) = x 1 + x I(0,∞) (x).
Γ( m n
2 )Γ( 2 ) n n n

Notação: F ∼ Fm,n ou F ∼ F (m, n).

Observação 3.9. Propriedades:


1
i) Se X ∼ F (m, n) então, X ∼ F (n, m).

ii) Se Z ∼ C(0, 1) = t1 , então Z 2 ∼ F (1, 1).


n
iii) E(F ) = n−2 , para n > 2.
n2 (2m+2n−4)
iv) Var(F ) = n(n−2)2 (n−4)
, para n > 4.

v) Se X ∼ tn , então X 2 ∼ F (1, n).


3.2. PRINCIPAIS DISTRIBUIÇÕES CONTÍNUAS 109

(a) m ∈ {1.0, · · · , 6.0} e n = 3, 0

(b) m = 3, 0 e n ∈ {1.0, · · · , 6.0}

Figura 3.23: Função Densidade de Probabilidade da distribuição F (m, n).

Você também pode gostar