Distri Bidi Continua

Material didático preparado pelo professor Maurı́cio Mota para a disciplina CC0285- Probabilidade II ministrado
em 2019.2.
1 Vetor Aleatório Bidimensional Contı́nuo .

1.1 Definição
A distribuição conjunta do vetor aleatório (X, Y ) é caracterizada por uma função, f (x, y), definida R × R com
valores reais satisfazendo:
(a) f (x, y) ≥ 0 para todo par (x, y) ∈ R × R.
R∞ R∞
(b) −∞ −∞
f (x, y) dy dx = 1
(c) Seja E um subconjunto do R × R então:

Z Z
P (E) = f (x, y) dy dx.
E
(d) O conjunto A = {(x, y) ∈ R × R | f (x, y) > 0} é chamado de suporte da densidade conjunta.

A condição (b) nos diz que o volume sob a superfı́cie representada por f (x, y) é igual a 1. A relação (c) fornece
a probabilidade do evento E. Se E = [a, b] × [c, d] então
Z b Z d
P (E) = f (x, y) dy dx.
a c
1.2 Vetor Aleatório Bidimensional com Distribuição Uniforme.

Dizemos que (X, Y ) tem um distribuição uniforme em uma região A se sua função de densidade conjunta de
probabilidade for constante, isto é,
1
f (x, y) = IA (x, y),
c
com c = área(A).
1.3 Distribuições Marginais

As marginais de X e Y são dadas por:
R∞
(a) fX (x) = −∞
f (x, y) dy.
R∞
(b) fY (y) = −∞
f (x, y) dx.
1
1.4 Independência
As variáveis X e Y com densidade conjunta f (x, y) e marginais fX (x) e fY (y), respectivamente, se
f (x, y) = fX (x) fY (y), ∀ (x, y) ∈ R × R.

Para mostrar a dependência basta encontrar um par (x0 , y0 ) tal que:
f (x0 , y0 ) 6= fX (x0 ) fY (y0 ).
1.5 Exemplo 1.
Seja
f (x, y) = xe−x(y+1) I(0,∞) (x) I(0,∞) (y).

Identifique a marginal de X.
Z ∞
fX (x) = f (x, y) dy
−∞
Z ∞
= xe−x(y+1) dy
0
Z ∞
= xe−xy e−x dy
0
Z ∞
= e−x xe−xy dy
0
= e−x I(0,∞) (x),
R∞
visto que 0
xe−xy dy = 1 que é a integral no suporte da exponencial com parâmetro λ = x.
Assim
X ∼ Exp(1).
Identifique a marginal de Y .
Z ∞
fY (y) = f (x, y) dx
−∞
Z ∞
= xe−(y+1)x dx
0
= IGG(a = 2, b = y + 1, c = 1)
Γ(2)
=
(1 + y)2
1
= I(0,∞) (y),
(1 + y)2
Assim
Y ∼ F (2, 2).
X e Y são independentes?
1 e−1
temos que f (1, 1) = e−2 , fX (1) = e−1 e fY (1) = e fX (1)fY (1) = .
4 4
Assim,
f (1, 1) 6= fX (1) × fY (1),

logo X e Y são dependentes.
2
1.6 Covariância e Correlação
Sejam X e Y variáveis aleatórias com momentos de segunda ordem finitos, isto é,
E(X 2 ) < ∞, E(Y 2 ) < ∞ e E(XY ) < ∞. Para calcularmos a variância de S = X + Y temos:
V (S) = E(S 2 ) − E 2 (S)

= E((X + Y )2 ) − [E(X + Y )]2
= E(X 2 + Y 2 + 2XY ) − [E(X) + E(Y )]2
= E(X 2 ) + E(Y 2 ) + 2E(XY ) − E 2 (X) − E 2 (Y ) − 2E(X)E(Y )
= E(X 2 ) − E 2 (X) + E(Y 2 ) − E 2 (Y ) + 2 [E(XY ) − E(X)E(Y )]
= V (X) + V (Y ) + 2 Cov(X, Y ).
Vamos definir covariância:

Sejam X e Y duas variáveis aleatórias definidas no mesmo espaço de probabilidade. A covariância entre X e
Y , denotada por Cov(X, Y ) definida por:
Cov(X, Y ) = E [(X − E(X))(Y − E(Y ))] .

Dessa definição surge uma fórmula mais operacional:
Cov(X, Y ) = E(XY ) − E(X)E(Y ).

Prova:
Cov(X, Y ) = E [(X − E(X))(Y − E(Y ))]

= E [XY − XE(Y ) − E(X)Y + E(X)E(Y )]
= E(XY ) − E(XE(Y )) − E(E(X)Y ) + E[E(X)E(Y )]
= E(XY ) − E(X)E(Y ) − E(X)E(Y ) + E(X)E(Y )
= E(XY ) − E(X)E(Y ).
Propriedades da Covariância:
a. Cov(X, Y ) = Cov(Y, X).

Prova:
b. Cov(X, X) = V (X).
Prova:
Cov(X, X) = E(X × X) − E(X) × E(X) = E(X 2 ) − E 2 (X) = V (X).
c. Cov(X, a) = 0, a constante.
Prova:
Cov(X, a) = E(X × a) − E(X) × E(a) = a × E(X) − a × E(X) = 0.
d. Cov(aX, bY ) = ab Cov(X, Y ), a e b constantes.

Prova:
Cov(aX, bY ) = E(aX × bY ) − E(aX) × E(bY ) = ab[E(XY ) − E(X)E(Y )] = ab Cov(X, Y ).
e. Cov(X, Y + Z) = Cov(X, Y ) + Cov(X, Z).

Prova:
Cov(X, Y + Z) = E[X × (Y + Z)] − E(X) × E(Y + Z),
Cov(X, Y + Z) = E[XY + XZ] − [E(X)E(Y ) + E(X)E(Z)]

Cov(X, Y + Z) = E[XY ] − E(X)E(Y ) + E(Y Z) − E(Y )E(Z) = Cov(X, Y ) + Cov(X, Z).
3
f.  
Xn m
X n X
X m
Cov  ai Xi , bj Yj  = ai bj Cov(Xi , Yj ).
i=1 j=1 i=1 j=1
n
X m
X
Prova: Sejam U = ai Xi e V = bj Yj . Logo
i=1 j=1
n
X m
X n X
X m
UV = ai Xi bj Yj = ai bj Xi Yj .
i=1 j=1 i=1 j=1
Logo,
n X
X m
E(U V ) = ai bj E[Xi Yj ].
i=1 j=1
n
X m
X
Por outro lado E[U ] = ai E(Xi ) e E[V ] = bj E[Yj ].
i=1 j=1
Mas,
n
X m
X n X
X m
E(U ).E(V ) = ai E(Xi ) × bj E[Yj ] = ai bj E(Xi )E(Yj ).
i=1 j=1 i=1 j=1
Logo,
X m
n X n X
X m
Cov(U, V ) = E(U V ) − E(U )E(V ) = ai bj E[Xi Yj ] − ai bj E(Xi )E(Yj ).
i=1 j=1 i=1 j=1
n X
X m
Cov(U, V ) = ai bj (E[Xi Yj ] − E(Xi )E(Yj )) .
i=1 j=1
Finalmente
n X
X m
Cov(U, V ) = ai bj Cov(Xi , Yj ).
i=1 j=1
g. !
n
X n
X n−1
X n
X
V (Sn ) = V Xi = V (Xi ) + 2 Cov(Xi , Xj ).
i=1 i=1 i=1 j=i+1
Prova:
V (Sn ) = Cov(Sn , Sn )
 
n
X n
X
= Cov  Xi , Xj 
i=1 j=1
n X
X n
= Cov(Xi , Xj )
i=1 j=1
Xn n
X n
X
= V (Xi ) + Cov(Xi , Xj )
i=1 i=1 j=1 j6=i
n
X n−1
X n
X
= V (Xi ) + 2 Cov(Xi , Xj ),
i=1 i=1 j=i+1
4
pois a covariância é simétrica.
A covariância entre X e Y mede o grau da associação linear das variáveis e é expresso nas unidades medidas
das variáveis. Uma medida de associação linear adimensional é o coeficiente de correlação que é definido por:
Cov(X, Y )
ρ = Cor(X, Y ) = p .
V (X)V (Y )
Fato: Se X e Y forem independentes a correlação é nula.
Prova:
ρ = E(XY ) − E(X)E(Y )
= E(X)E(Y ) − E(X)E(Y )
= 0.
Fato: Cov(X,Y)=0 não implica independência. Neste caso as variáveis são ditas não correlacionadas.
Fato O coeficiente de correlação varia no intervalo [−1, 1].
Prova: Sejam X uma variável com média µ1 e variância σ12 e Y uma variável com média µ2 e variância σ22 .
Seja ρ o coeficiente de correlação entre X e Y .
Considere
U = X − E(X) e V = Y − E(Y ).
Logo
E(U ) = E(V ) = 0, E(U 2 ) = V ar(U ) = V ar(X),
E(V 2 ) = V ar(V ) = V ar(Y ) e E(U V ) = E [(= X − E(X))(Y − E(Y ))] = Cov(X, Y ).
Considere a função
g(t) = E E(tU + V )2 ≥ 0 = E(U 2 )t2 + 2E(U V )t + E(V 2 ).

Para uma função quadrática ser não negativa é preciso que seu discriminante seja menor ou igual a zero. Assim,
∆ = 4E 2 (U V ) − 4E(U 2 )E(V 2 ) ≤ 0
= E 2 (U V ) − E(U 2 )E(V 2 ) ≤ 0.
Assim
E 2 (U V ) ≤ E(U 2 )E(V 2 ).
Esta é a famosa desigualdade de Cauchy-Schwarz.
[Cov(X, Y )]2 ≤ V (X)V (Y ),

extraindo a raiz quadrada
p
|Cov(X, Y )| ≤ V (X)V (Y ),
e finalmente,
|Cov(X, Y )|
|ρ| = p ≤ 1.
V (X)V (Y )
5
1.7 Momentos
Seja (X, Y ) um vetor aleatório com E(X) = µ1 , E(Y ) = µ2 , V ar(X) = σ12 , V ar(Y ) = σ22 e
covariância, σ12 = ρ σ1 σ2 . O vetor de médias é definido por:
µ = [µ1 , µ2 ]> .
A matriz de variâncias-covariâncias, Σ, é dada por:
σ12

σ12
Σ= ,
σ12 σ22
Para calcular a covariância entre X e Y precisamos calcular a E(XY ). Vamos generalizar para calcular a
esperança da função real, h(X, Y ), que é definida por:
Z ∞ Z ∞
E[h(X, Y )] = h(x, y) f (x, y) dy dx.
−∞ −∞
2 Distribuição Condicional.
2.1 Definição
Seja (X, Y ) uma variável aleatória bidimensional contı́nua (v.a.c) com função densidade de probabilidade conjunta
dada por f (x, y) e marginais fX (x) e fY (y). Seja x um ponto do suporte de X. A distribuição condicional de
Y |X = x é por definição:
f (x, y)
fY |X=x (y|x) = . (1)
fX (x)
Verifique que a definição 1 é uma legı́tima distribuição de probabilidade.

Devemos provar que:
i) fY |X=x (y|x) ≥ 0
Z ∞
ii) fY |X=x (y|x)dy = 1
−∞
A propriedade (i) é satisfeita pois no suporte temos f (x, y) > 0 e fY (y) > 0 e portanto temos uma razão
positiva. Fora do suporte temos f (x, y) = 0 e fY (y) > 0 logo temos uma razão nula. Assim a condição (i) é
satisfeita.
Vamos provar agora a condição (ii)
Z ∞ Z ∞
f (x, y)
fY |X=x (y|x)dy = dy
−∞ −∞ fX (x)
Z ∞
1
= f (x, y) dy
fX (x) −∞
1
= fX (x)
fX (x)
= 1.
6
2.2 Continuação do Exemplo 1
Calcule as distribuições condicionais do Exemplo 1.
A condicional de Y |X = x é dada por:
f (x, y)
fY |X=x (y|x) =
fX (x)
x e−x(1+y)
. =
e−x
−xy
= xe I(0,∞) (y).
Assim,
Y |X = x ∼ Exp(x).
A condicional de X|Y = y é dada por:
f (x, y)
fX|Y =y (y|x) =
fY (y)
x e−x(1+y)
. =
(1 + y)−2
= (1 + y)2 x e−(1+y)x I(0,∞) (y).
Assim,
X|Y = y ∼ Gama(r = 2, λ = (1 + y)).
2.3 Exemplo 2
Seja (X, Y ) com distribuição uniforme na região dada por:
A = {(x, y) | 0 ≤ x < y ≤ 2}.

A região dada é o triângulo com vértices nos pontos O(0, 0), B(0, 2) e C(2, 2) com área igual a 2. Assim a
densidade conjunta de (X, Y ) é dada por:
1
f (x, y) = I[0,2] (x) I[x,2] (y).
2
A marginal de X é dada por:
∞ 2
2−x
Z Z
1
fX (x) = f (x, y) dy = dy = I[0,2] (x),
−∞ x 2 2
que é a densidade da triangular com a = 0, b = 2 e c = 0.
2 2 2
Assim E(X) = ,V (X) = e E(X 2 ) = .
3 9 3
A distribuição condicional de Y |X = x é dada por:
1
f (x, y) 1
fY |X=x (y|x) = = 2 I(x,2) (y) = I(x,2) (y). (2)
fX (x) 2−x 2−x
2
Dizemos que a condicional de Y |X = x tem distribuição Uniforme com parâmetros a = x e b = 2.
E no caso geral dizemos
Y |X ∼ U (X, 2).
Vamos calcular a marginal de Y . Inicialmente vamos escrever a conjunta de outra maneira:
7
1
f (x, y) = I[0,2] (y) I[0,y] (x).
2
A marginal de Y é dada por:
Z ∞ Z y
1 y
fY (y) = f (x, y) dx = dy = I[0,2] (y),
−∞ 0 2 2
que é a densidade de uma triangular com a = 0, b = 2, c = 2.
Assim,
a+b+c 4
E(Y ) = = ,
3 3
a2 + b2 + c2 − ab − ac − bc 2
V (Y ) = = ,
18 9
e
2 16
E(Y 2 ) = V (Y ) + E 2 (Y ) = + = 2.
9 9
A distribuição condicional de X|Y = y é dada por:
1
f (x, y) 1
fX|Y =y (y|x) = = y2 I(0,y) (x) = I(0,y) (x). (3)
fY (y) y
2
Dizemos que a condicional de X|Y = y tem distribuição Uniforme com parâmetros a = 0 e b = y.
E no caso geral dizemos
X|Y ∼ U (0, Y ).
Vamos definir agora os momentos em relação à origem da distribuição condicional.
3 Momentos em Relação à Origem

Z ∞
E(Y r |X = x) = y r fY |X=x (y|x) dy, r = 1, 2, 3, 4, . . . . (4)
−∞
Observe que E(Y r |X = x) é uma função de x.

Calcule o primeiro momento em relação à origem da condicional do exemplo 2.
Como a distribuição é uniforme temos:
2+x
E(Y |X = x) = .
2
Assim
X +2
V = E(Y |X) = = h(X),
2
é também uma variável aleatória contı́nua.
Vamos achar a lei de V , sua média e variância.
Seja G(v) a acumulada de V . Logo
X +2
G(v) = P (V ≤ v) = P ( ≤ v) = P (X ≤ 2v − 2) = FX (2v − 2).
2
A f.d.p. de V é
(2 − 2v + 2)
g(v) = 2fX (2v − 2) = 2 I(0,2) (2v − 2) = 2(2 − v) I(1,2) (v),
2
assim,
V ∼ triangular(a = 1, b = 2, c = 1)
Logo ,
8
1+2+1 4
E(V ) = E[E(Y |X)] = = = E(Y ).
3 3
A variância de V é dada por:
a2 + b2 + c2 − ab − ac − bc 2
V ar(V ) = V ar(E(Y |X)) = = .
18 18
Note que Y |X ∼ U (X, 2), assim
(2 − X)2 (X − 2)2
V ar(Y |X) = = ,
12 12
e
E[(X − 2)2 ] E(X 2 ) − 4E(X) + 4] 1

E[V ar(Y |X)] = = = .
12 12 6
Uma fórmula bastante útil nos diz que:
1 1 2
V (Y ) = E[V ar(Y |X)] + V [E(Y |X)] =+ = .
6 18 9
O segundo momento em relação à origem da condicional do exemplo 2
Z 2
2 1
E(Y |X = x) = y2 dy
x 2−x
Z 2
1
= y 2 dy
2−x x
1 y 3 2
=
2−x 3 x

1 8 − x3
=
2−x 3
1 (2 − x)(4 + 2x + x2 )
=
2−x 3
4 + 2x + x2
= .
3
Note que
4 + 2X + X 2
E(Y 2 |X) = .
3
Assim,
2 2
4 + 2E(X) + E(X 2
) 4+2 +
E(Y 2 ) = EE[(Y 2 |X)] = = 3 3 = 2.
3 3
3.1 Variância Condicional

A variância condicional de Y |X = x
Z ∞
2
V (Y |X) = (y − E(Y |X = x)) f (y|x) dy,
−∞
que também pode calculada como:
V (Y |X) = E[(Y 2 |X) − E 2 [E(Y |X)].

Vamos mostrar agora as propriedades apresentadas:
Fato 1: E(E(Y |X)) = E(Y ).
9
Prova: Sabemos que E(Y |X) = h(X). Assim,
Z ∞
E[E(Y |X)] = E(Y |X = x) fX (x) dx
−∞
Z ∞ Z ∞
= y f (y|x) fX (x) dydx
−∞ −∞
Z ∞Z ∞
= y f (x, y) dydx
−∞ −∞
Z ∞Z ∞
= y f (x, y) dxdy
−∞ −∞
Z ∞ Z ∞
= y f (x, y) dx dy
−∞ −∞
Z ∞
= y fY (y) dy
−∞
= E(Y ).
Fato 2: V (Y ) = V [E(Y |X)] + E[V (Y |X)].
Prova: Vamos mostrar que V [E(Y |X)] = V (Y ) − E[V (Y |X)].
= E E(Y 2 |X) − E 2 [Y |X]

E [V (Y |X)]
= E E(Y 2 |X) − E E 2 [Y |X]

= E(Y 2 ) − E E 2 [Y |X]

= V (Y ) + E 2 (Y ) − E E 2 [Y |X]

= V (Y ) − E E 2 [Y |X] − [E(Y )]2

h i
2
= V (Y ) − E E 2 [Y |X] − [E(E(Y |X)]

= V (Y ) − V (E(Y |X)),
Fato 3: Cov(X, Y ) = Cov(X, E(Y |X)).
Prova:
Cov(X, E(Y |X)) = E [XE(Y |X)] − E(X).E[E(Y |X)]

= E [E(XY |X)] − E(X).E(Y )
= E(XY ) − E(X).E(Y )
= Cov(X, Y ).
Fato 4: Seja (X, Y ) um vetor aleatório bidimensional contı́nuo e h(X, Y ) uma função unidimensional das duas
variáveis. A esperança condicional de h(X, Y ) dado X = x é definida por:
10
Z ∞
E [E(h(X, Y )|X = x)] = h(x, y)fY |X=x (y|x) dy.
−∞
Fato 5: Seja (X, Y ) um vetor aleatório bidimensional contı́nuo. Seja g(Y ) uma função real de Y com esperança
finita.
Assim
E[g(Y )] = E [E(g(Y )|X)] . (5)
Em particular,
E[Y ] = E [E(Y |X)] . (6)
Fato 6: A esperança condicional µY |x = E(Y |X = x) é chamada de curva de regressão de Y em x.
Fato 7: Se a esperança condicional µY |x = E(Y |X = x) = a + bx então:

então:
Cov(X, Y ) σY
b= =ρ e a = E(Y ) − bE(X).
V (X) σX
Prova: Como E(Y |X) = a + bX temos que:
E(Y ) = E[E(Y |X)] = E(a + bX) = a + bE(X),

e portanto
a = E(Y ) − bE(X).
Multiplicando por X temos
XE(Y |X) = E(XY |X) = aX + bX 2 .

Aplicando o operador esperança temos:
E(XY ) = E(E(XY |X) = aE(X) + bE(X 2 ).

Logo,
E(XY ) = [E(Y ) − bE(X)]E(X) + bE(X 2 ) = E(X)E(Y ) + b[E(X 2 ) − E 2 (X)],

assim,
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = bV (X),

e portanto
11
Cov(X, Y ) ρσX σY σY
b= = 2 =ρ .
V (X) σX σX
Fato 8: Se a esperança condicional µY |x = E(Y |X = x) = a + bx e µX|y = E(X|Y = y) = c + dy então:
bd = ρ2 ,
e ρ tem o sinal comum de b e d.
Prova:
σY σX
bd = ρ ×ρ
σX σY
= ρ2 .
Fato 9: : Seja (X, Y ) um vetor aleatório bidimensional contı́nuo. Sejam g1 (.) e g2 (.) funções de uma única
variável. Então:
a.
E[(g1 (Y ) + g1 (Y ))|X = x] = E[g1 (Y )|X = x] + E[g2 (Y )|X = x].
b.
E [g1 (Y ) × g2 (X)|X = x] = g2 (x) × E[g1 (Y )|X = x].
Fato 10: Seja (X, Y ) um vetor aleatório bidimensional contı́nuo. Seja MY (t) a função geradora de momentos
de Y . Então:
MY (t) = E(etY ) = E E(etY |X) = E MY |X=x (t) .

Fato 11: Seja (X, Y ) um vetor aleatório bidimensional contı́nuo. Seja MX,Y (t1 , t2 ) a função geradora bivariada
de momentos de (X, Y ). Então:
Z ∞
t1 X+t2 Y
M(X,Y ) (t1 , t2 ) = E(e )= et1 x+t2 y f (x, y) dydx.
−∞
Além disso
MX (t) = M(X,Y ) (t, 0) eMY (t) = M(X,Y ) (0, t) .
4 Previsão
Vamos apresentar a seção 7.6 da oitava edição do livro do Sheldon Ross- Probabilidade -Um curso moderno com
aplicações.
Às vezes surge uma situação em que o valor de uma variável aleatória X é observado e então, com base no valor
observado, tenta-se prever o valor de uma segunda variável aleatória Y . Suponha que g(X) represente o preditor;
isto é, se X é observado como sendo igual a x, então g(x) nos fornece uma predição para o valor de Y . Claramente,
queremos escolher g de forma que g(X) se aproxime de Y . Um possı́vel critério é escolher g de forma a minimizar
2
E [Y − g(X)] .
12
Mostraremos agora que, de acordo com esse critério, o melhor preditor de Y é
g(X) = E(Y |X).

Proposição 6.1
2
E [Y − g(X)] ≥ E [(Y − E(Y |X))]2 .

Demonstração. Vamos calcular inicialmente a E (Y − g(X))2 |X .
E (Y − g(X))2 |X = E (Y − E(Y |X) + E(Y |X) − g(X))2 |X

E (Y − E(Y |X)|X)2 + (E(Y |X) − g(X))2 |X

=
+2E [(Y − E(Y |X)|X).(E(Y |X) − g(X))|X] .
Como dado X , E(Y |X) − g(X) é constante temos que:
E [(Y − E(Y |X)|X).(E(Y |X) − g(X))|X] = (E(Y |X) − g(X)).E [(Y − E(Y |X)|X)]
= (E(Y |X) − g(X)).[E(Y |X) − E(Y |X)]
= 0.
Assim,
E (Y − g(X))2 |X = E (Y − E(Y |X)|X)2 + (E(Y |X) − g(X))2 |X ,

Como (E(Y |X) − g(X))2 |X ≥ 0 temos que:
E (Y − g(X))2 |X ≥ E (Y − E(Y |X)|X)2 .

Vamos calcular a esperança em ambos os lados :
E E (Y − g(X))2 |X ≥ E E (Y − E(Y |X)|X)2 .

Logo,
2
E [Y − g(X)] ≥ E [(Y − E(Y |X))]2 .

Observação: Um segundo argumento mais intuitivo porém menos rigoroso, que pode ser utilizado para verificar
a proposição 6.1 é dado a seguir. É simples verificar que
E[(Y − c)2 ],
é minimizado em c = E(Y ). Assim, se queremos predizer o valor de Y quando não dispomos de dados para
isso, a melhor predição possı́vel , no sentido de minimizar o erro quadrático médio, é dizer que Y será igual a
sua média. Entretanto, se o valor da variável aleatória é observado como sendo x, então o problema da predição
permanece exatamente igual ao caso anterior com a exceção de que todas as probabilidades e as esperanças estão
agora condicionadas ao evento X = x. Com isso a melhor predição nesta situação é dizer que Y será igual ao seu
valor esperado condicional dado que X = x, o que estabelece a Proposição 6.1.
Exemplo 6a. Suponha que o filho de um homem com altura x, em cm, atinge uma altura que é normalmente
distribuı́da com média (x + 2, 54) e variância 10,16 cm2 . Qual é a melhor predição da altura que o filho irá atingir
se o seu pai tem 1,83 m de altura?
Solução: Formalmente, este modelo pode ser escrito como: Seja X, a altura do pai e Y , a altura do filho.
Y = X + 2, 54 + e,
em que e é uma variável aleatória, com média 0 e variância 10,16 e independente de X. A melhor predição
E[Y |X = 183] é portanto igual a
13
E(Y |X = 183) = E(X + 2, 54 + e|X = 183)
= E(X) + 2, 54 + E(e|X)
= E(X) + 2, 54 + E(e), pela independência
= 183 + 2, 54 + 0
= 185, 54 cm
Exemplo 6b Suponha que, se um sinal com valor s é enviado do ponto A, o valor recebido no ponto B seja
normalmente distribuı́do com parâmetros (s, 1). Se S, o valor enviado em A, é normalmente distribuı́do com
parâmetros (µ, σ 2 ), qual é a melhor estimativa para o sinal enviado se R, o valor recebido em B, é igual a r?
Solução.
Pelo enunciado temos que S ∼ N (µ, σ 2 ) e R|S = s ∼ N (s, 1).
A f.d.p. de S é dada por:
(s − µ)2
1 −
fS (s) = √ e 2σ 2 ,
2π σ
A f.d.p. de R|S = s é dada por:
(r − s)2
1 −
fS|R=r (s|r) = √ e 2 .
2π
A densidade conjunta de (S, R) é dada por:
fS,R (r, s) = fS (s)fS|R=r (s|r)

(s − µ)2
 
1
− (r−s)2 +
1

2 σ2
= e
2πσ
(s − µ)2
 
1
− (s−r)2 +
1

2 σ2
= e
2πσ
Vamos analisar a expressão
(s − µ)2
(s − r)2 + ,
σ2
para completar um quadrado da forma (s − c)2 . Vamos utilizar o resultado:
( Livro Estatı́stica Bayesiana, Paulino C.D. et all-pags 147 e 148)
Para completar os quadrados use a identidade:
d1 d2
d1 (z − c1 )2 + d2 (z − c2 )2 = (d1 + d2 )(z − c)2 + (c1 − c2 )2 ,
d1 + d2
d1 c1 + d2 c2
em que c = .
d1 + d2
Assim,
1
d1 = 1, d2 = , c1 = r e c2 = µ,
σ2
Logo,
µ
r+2 µ + rσ 2
c= σ = .
1 1 + σ2
1+ 2
σ
1 1 + σ2
d1 + d2 = 1 + 2
= .
σ σ2
14
d1 d2 1
= ,
d1 + d2 1 + σ2
e
(c1 − c2 )2 = (r − µ)2 .
Note que o núcleo
(z − c)2
(d1 + d2 )(z − c)2 = ,
1
d1 + d2
Como 1/2 foi posto em evidência então é o núcleo de uma normal com média c e variância
1 σ2
σ∗2 = .
d1 + d2 1 + σ2
Mas,
d1 d2 r−µ
(c1 − c2 )2 = .
d1 + d2 2(1 + σ 2 )
Assim
(r − µ)2 (s − c)2
− −
1 2 2σ∗2 .
fS,R (r, s) = e 2(1 + σ ) e
2πσ
A marginal de R é dada por:
Z ∞
fR (s) = f (r, s) ds
−∞
(r − µ)2 Z √ (s − c)2
− ∞ −
1 2 1 1 + σ2 2σ∗2 ds
= p e 2(1 + σ ) √ e
2π(1 + σ 2 ) −∞ 2π σ
(r − µ)2 Z (s − c)2
− ∞ −
1 2 1 2σ∗2 ds
= p e 2(1 + σ ) √ e
2π(1 + σ 2 ) −∞ 2π σ∗
(r − µ)2
−
1 2
= p e 2(1 + σ ) .
2π(1 + σ 2 )
Logo, R ∼ N (µ, (1 + σ 2 ))
A distribuição condicional de S|R = r é dada por:
(s − c)2
−
1 2σ∗2 ,
fS|R=r (s|r) = √ e
2π σ∗
que é normal com:
µ + rσ 2 1 σ2
E(S|R = r) = 2
= 2
µ+ r,
1+σ 1+σ 1 + σ2
e
σ2
V ar(S|R) = .
1 + σ2
15
Escrever a média condicional (melhor preditor)como acabamos de fazer é informativo, pois isto mostra que ela
é ponderada de µ, o valor do sinal a priori, e r, o valor recebido. Os pesos relativos dados a µ e r tem entre sia
mesma proporção que 1(a variância condicional do sinal recebido quando s é enviado ) tem para σ 2 ( a variância
do sinal enviado).
Às vezes, acontece da distribuição de probabilidade conjunta de X e Y não ser completamente conhecida, ou se
for conhecida, ela ser tal que o cálculo de E[Y |X = x] seja matematicamente intratável. Se, no entanto, a média,
a variância e a correlação de X e Y são conhecidos, então podemos pelo menos determinar o melhor preditor de Y
com respeito a X.
Para obter o melhor preditor de Y , g(X) = a + bX, precisamos escolher a e b que minimizem
h(a, b) = E[(Y − g(X))2 ] = E[(Y − a − bX)2 ].

Vamos desenvolver o quadrado:
h(a, b) = E(Y 2 − 2aY − 2bXY + a2 + b2 X 2 + 2abX),

e finalmente,
h(a, b) = E(Y 2 ) − 2aE(Y ) − 2bE(XY ) + a2 + b2 E(X 2 ) + 2abE(X).

Vamos calcular as derivadas parciais:
∂h(a, b)
= −2E(Y ) + 2a + 2bE(X) = 0 (7)
∂a
e
∂h(a, b)
= −2E(XY ) − 2aE(X) + 2bE(X 2 ) = 0 (8)
∂b
Assim obtemos o sistema linear:
a + E(X) b = E(Y )
e
E(X) a + E(X 2 ) b = E(XY )

O determinante principal é dado por:

1 E(X) = E(X 2 ) − E 2 (X) = V (X).

∆P =
E(X) E(X 2 )
O determinante para a incógnita b é dado por:

1 E(Y )
∆B = = E(XY ) − E(X)E(Y ) = Cov(X, Y ).
E(X) E(XY )
E assim
∆b Cov(X, Y ) ρσX σY σY
b= = = =ρ .
∆P V (X) V (X) σX
O valor de a é dado por:
a = E(Y ) − bE(X).
O melhor preditor linear de Y com respeito a X
é
σY
E(Y ) + ρ (X − E(X)).
σX
O erro médio quadrático desse preditor é dado por:
16
2 !
σY
EQM = E Y − E(Y ) − ρ [(X − E(X)] .
σX
Assim,
σ 2 σY
2 Y 2
EQM = E [Y − E(Y )] + ρ E [X − E(X)] − 2ρ E ([(X − E(X))(Y − E(Y ))] .
σX σX
Logo,
EQM = V (Y ) + ρ2 V (Y ) − ρ2 V (Y ) = (1 − ρ2 ) V (Y ).
Observamos que, se a correlação está próxima de +1 ou de −1, então o erro quadrático do melhor preditor
linear é aproximadamente nulo.
Exemplo 6d Um exemplo no qual a esperança condicional de Y dado X é linear em X, e portanto no qual o
melhor preditor linear de Y com respeito a X é o melhor preditor possı́vel , é aquele em que X e Y tem uma
distribuição normal bivariada. Neste caso
σY
E(Y |X = x) = E(Y ) + ρ (X − E(X)).
σX
Vamos agora refazer alguns exemplos da seção 7.5.
Um minerador está preso em uma mina contendo 3 portas. A primeira porta leva a um túnel que o levará
á saı́da após 3 horas de viagem. A segunda porta leva a um túnel que fará com que ele retorne à mina após 5
horas de viagem. A terceira porta leva a um túnel que fará com que ele retorne à mina após 7 horas de viagem.
Se considerarmos que o minerador pode escolher qualquer uma das portas com igual probabilidade, qual o tempo
esperado para que ele chegue à saı́da?
Solução:
Suponha que X represente o tempo ,em horas, até que o minerador consiga sair e Y o número da porta que ele
escolheu (1,2, ou 3). Assim,
A distribuição de Y é dada por:
1
P (Y = y) = I{1,2,3} (y).
3
Vamos calcular o valor esperado de X usando esperança condicional.
E(X) = E(E(X|Y ))
= E(X|Y = 1)P (Y = 1) + E(X|Y = 2)P (Y = 2) + E(X|Y = 3)P (Y = 3)
1
= [E(X|Y = 1) + E(X|Y = 2) + E(X|Y = 3)] .
3
No entanto,
E(X|Y = 1) = 3,
com certeza após 3 horas ele conseguirá sair da mina.
Mas,
E(X|Y = 2) = E[5 + X ∗ ] = 5 + E(X∗) = 5 + E(X),

pois se o minerador escolher a segunda porta ele gastará 5 horas e volta ao ponto inicial. Seja X∗ o tempo que
ele levará para deixar a mina e esta variável terá mesma distribuição de X.
De maneira similar temos:
E(X|Y = 3) = E[7 + X ∗ ] = 7 + E(X∗) = 7 + E(X).

Desta maneira
1 1
E(X) = [3 + 5 + E(X) + 7 + E(X)] = [15 + 2E(X)],
3 3
17
3E(X) = 15 + 2E(X),
e
E(X) = 15 horas.
Vamos calcular agora V (X) = E(X 2 ) − E 2 (X.)
E(X 2 ) = E(E(X 2 |Y ))
= E(X 2 |Y = 1)P (Y = 1) + E(X 2 |Y = 2)P (Y = 2) + E(X 3 |Y = 3)P (Y = 3)
1
E(X 2 |Y = 1) + E(X 2 |Y = 2) + E(X 2 |Y = 3) .

=
3
No entanto,
E(X 2 |Y = 1) = 32 = 9,
com certeza após 3 horas ele conseguirá sair da mina.
Mas,
E(X 2 |Y = 2) = E[(5 + X ∗ )2 ] = 25 + 10E(X∗) + E(X∗2 ) = 25 + 10E(X) + E(X 2 ) = 175 + E(X 2 ),
pois se o minerador escolher a segunda porta ele gastará 5 horas e volta ao ponto inicial. Seja X∗ o tempo que
ele levará para deixar a mina e esta variável terá mesma distribuição de X.
De maneira similar temos:
E(X|Y = 3) = E[()7 + X ∗ )2 ] = 49 + 14E(X∗) + E(X∗2 ) = 49 + 14E(X) + E(X 2 ) = 259 + E(X 2 ).
Desta maneira
1 1
E(X 2 ) = [9 + 175 + E(X 2 ) + 259 + E(X 2 )] = [334 + 2E(X 2 )],
3 3
3E(X 2 ) = 334 + 2E(X 2 ),

e
E(X 2 ) = 334 horas2 .
e
V (X) = E(X 2 ) − E 2 (X.) = 334 − 225 = 109 horas2
.
Exemplo 5d
Suponha que o número de pessoas que entram em uma loja de departamentos em determinado dia seja uma
variável aleatória com média 50. Suponha ainda que as quantias de dinheiro gastas por esses clientes sejam variáveis
independentes com média comum 800 reais. Finalmente, suponha também que a quantia gasta por um cliente seja
independente do número total de clientes que entram na loja. Qual é a quantidade esperada de dinheiro gasta na
loja em um dado dia?
Solução: Se N representa o número de clientes que entram na loja e Xi a quantidade de dinheiro gasta pelo
i-ésimo cliente, então a quantidade total de dinheiro gasta pode ser escrita como
N
X
SN = Xi .
i=1
Queremos calcular E(SN ) usando argumentos de esperança condicional. Assim,

"N #
X
E(SN ) = E [SN |N ] = E Xi |N .
i=1
18
Mas,
" N
# " n #
X X
E Xi |N = n = E Xi |N
i=1 i=1
" n #
X
= E Xi , pela independencia entre Xi e N
i=1
= n(X), onde E(X) = E(Xi ).
O que implica que

"N #
X
E Xi |N = N E(X).
i=1
Assim, "N #
X
E(SN ) = E [SN |N ] = E Xi |N = E[N E(X)] = E(N )E(X),
i=1
que é a famosa equação de Wald.

Como isso, em nosso exemplo, a quantidade esperada de dinheiro gasta na loja é dada por:
E(SN ) = 50 × 800 = 4000 reais.

Vamos mostrar agora que:
V ar(SN ) = E(N ) V ar(X) + [E(X)]2 V ar(N ).

Solução:
Sabemos que:
V ar[SN |N = n] = V ar(X1 + X2 + . . . + Xn |N = n)
= V ar(X1 + X2 + . . . + Xn )
= nV ar(X)
Assim,
V ar(SN |N ) = N var(X).
V ar(SN ) = E[V ar(SN )|N ] + V ar[E(SN |N )]

= E[N V ar(X)] + V ar[E(X)N ]
= E[N ] V ar(X) + [E(X)]2 V ar(N ).
5 Função de Distribuição Acumulada Bidimensional

Seja (X, Y ) um vetor aleatório contı́nuo bidimensional com função densidade conjunta dada por f(X,Y ) (x, y). A
Função de Distribuição Conjunta Bidimensional Contı́nua do vetor aleatório (X, Y ) é definida por:
F : R2 → [0, 1]
Z x Z y
F (x, y) = P (X ≤ x, Y ≤ y) = f(X,Y ) (u, v)dv du.
−∞ −∞
19
1. Propriedades da Função de Distribuição Acumulada Bivariada de Qualquer Tipo.
a. F (−∞ , y) = lim F (x, y) = 0 ∀ y.

x→−∞
b. F (x, −∞ ) = lim F (x, y) = 0 ∀ x.

y→−∞
c. lim F (x, y) = F (∞ , ∞) = 1.
x→∞,y→∞
d. Se x1 < x2 e y1 < y2 , então:
P (x1 < X ≤ x2 , y1 < Y ≤ y2 ) = F (x2 , y2 ) − F (x2 , y1 ) − F (x1 , y2 ) + F (x1 , y1 ) ≥ 0.
e. F (x, y) é contı́nua à direita em cada argumento, isto é,
lim F (x + h, y) = lim F (x, y + h) = F (x, y).

0<h→0 0<h→0
Além disso:
a. FX (x) = F(X,Y ) (x, ∞).

b. FY (y) = F(X,Y ) (∞ , y).
c. Se X e Y são independentes então: F(X,Y ) (x, y) = FX (x)FY (y), ∀ (x, y) ∈ R2 .
d. p
max(0, FX (x) + FY (y) − 1) ≤ F(X,Y ) (x, y) ≤ FX (x)FY (y), ∀ (x, y) ∈ R2 .
Vamos calcular a acumulada bidimensional dos quatro exemplos a seguir:
20
2. Calcule a função de distribuição acumulada do vetor aleatório bidimensional (X, Y ) com f.d.p.c dada por:
f (x, y) = e−(x+y) I (0 , ∞) (x) I (0 , ∞) (y).
1
f (x, y) = I (0 , 2) (x) I (0 , 2) (y).
4
3
f (x, y) = (x2 + xy) I (0 , 2) (x) I (0 , 4) (y).
80
f (x, y) = 2 I (0 , 1) (x) I (x , 1) (y).

6. Verifique se G é uma função de distribuição acumulada do vetor aleatório bidimensional (X, Y ).
h i
G(x, y) = 1 − 2 e−2(x+y) I (0 , ∞) (x) I (0 , ∞) (y).
6 Transformação no Caso Bidimensional

1. Teorema 1: Sejam X1 e X2 variáveis aleatórias com função densidade de probabilidade conjunta f (x1 , x2 ).
Seja o suporte
A = {(x1 , x2 ) ∈ R2 ; f (x1 , x2 ) > 0}.

Suponha que:
i. y1 = h1 (x1 , x2 ) e y2 = h2 (x1 , x2 ) definam uma transformação biunı́voca de A em B.

ii. As derivadas parciais de primeira ordem de x1 = g1−1 (x1 , x2 ) = w1 (y1 , y2 ) e
x2 = g2−1 (x1 , x2 ) = w2 (y1 , y2 ) sejam funções contı́nuas em B.
iii. O jacobiano da transformação:

∂x1 ∂x1
∂y1 ∂y2
J = ∂x2 ∂x2 ,
∂y1 ∂y2
seja diferente de zero em B.
A densidade de Y1 = h1 (X1 , X2 ) e Y2 = h2 (X1 , X2 ) com suporte B é dada por:
g(y1 , y2 ) = f (w1 (y1 , y2 ), w2 (y1 , y2 )) |J| IB (y1 , y2 ).
2. Teorema 2: Sejam X1 e X2 variáveis aleatórias com função densidade de probabilidade conjunta f (x1 , x2 ).
Suponha que o suporte
A = {(x1 , x2 ) ∈ R2 ; f (x1 , x2 ) > 0},

possa ser decomposto em uma partição A1 , A2 , . . . , Am .
Suponha ainda que:
21
i. y1 = h1 (x1 , x2 ) e y2 = h2 (x1 , x2 ) definam uma transformação biunı́voca de Ai em B para i = 1, 2, . . . , m.
−1
ii. As derivadas parciais de primeira ordem de x1i = g1i (x1 , x2 ) = w1i (y1 , y2 ) e
−1
x2i = g2i (x1 , x2 ) = w2i (y1 , y2 ),i = 1, 2, . . . , m, sejam funções contı́nuas em B.

∂x1i ∂x1i
∂y1 ∂y2
Ji = ,

∂x2i ∂x2i
∂y1 ∂y2
A densidade de Y1 = h1 (X1 , X2 ) e Y2 = h2 (X1 , X2 ) com suporte B é dada por:
m
X
g(y1 , y2 ) = f (w1i (y1 , y2 ), w2i (y1 , y2 )) |Ji | IB (y1 , y2 ).
i=1
3. Teorema 3: Sejam X1 , X2 , . . . , Xn variáveis aleatórias com função densidade de probabilidade conjunta

f (x1 , x2 , . . . , xn ). Seja o suporte
A = {(x1 , x2 , . . . , xn ) ∈ Rn ; f (x1 , x2 , . . . , xn ) > 0}.
Suponha que:
i. y1 = h1 (x1 , x2 , . . . , xn ), y2 = h2 (x1 , x2 , . . . , xn ), . . . , yn = hn (x1 , x2 , . . . , xn ) definam uma transformação

biunı́voca de A em B.
ii. As derivadas parciais de primeira ordem de x1 = g1−1 (x1 , x2 ) = w1 (y1 , y2 , . . . , yn ),
x2 = g2−1 (x1 , x2 , . . . , xn ) = w2 (y1 , y2 , . . . , yn ), . . . , xn = gn−1 (x1 , x2 , . . . , xn ) = wn (y1 , y2 , . . . , yn ) sejam
funções contı́nuas em B.

∂x1 ∂x1
... ∂x1
∂y1 ∂y2 ∂yn
... ... ... . . .

J = ∂x 2 ∂x2
... ∂x2
∂yn ,

∂y1 ∂y2
... ... ... ...
∂xn ∂xn ∂xn
∂y
1 ∂y2 ... ∂y n
A densidade de Y1 = h1 (X1 , X2 , . . . , Xn ), Y2 = h2 (X1 , X2 , . . . , Xn ), . . . , hn (X1 , X2 ), . . . , Xn ) com suporte B

é dada por:
g(y1 , y2 , . . . , yn ) = f (w1 (y1 , y2 , . . . , yn ), . . . , wn (y1 , y2 , . . . , yn )) |J| IB (y1 , y2 , . . . , yn ).
22
4. Teorema 4: Sejam X1 , X2 , . . . , Xn variáveis aleatórias com função densidade de probabilidade conjunta
f (x1 , x2 , . . . , xn ). Seja o suporte
A = {(x1 , x2 , . . . , xn ) ∈ Rn ; f (x1 , x2 , . . . , xn ) > 0},
Suponha que ele possa ser decomposto em uma partição A1 , A2 , . . . , Am

Suponha ainda que:
i. y1 = h1 (x1 , x2 , . . . , xn ), y2 = h2 (x1 , x2 , . . . , xn ), . . . , yn = hn (x1 , x2 , . . . , xn ) definam uma transformação

biunı́voca de Ai em B, i = 1, 2, . . . , m.
−1
ii. As derivadas parciais de primeira ordem de x1 = g1i (x1 , x2 ) = w1i (y1 , y2 , . . . , yn ),
−1 −1
x2 = g2i (x1 , x2 , . . . , xn ) = w2i (y1 , y2 , . . . , yn ), . . . , xn = gni (x1 , x2 , . . . , xn ) = wni (y1 , y2 , . . . , yn ) sejam
funções contı́nuas em B.

∂x1i ∂x1i
... ∂x1i
∂y1 ∂y2 ∂yn
... ... ... . . .

Ji = ∂x 2i ∂x2i
... ∂x2i
∂yn ,

∂y1 ∂y2
... ... ... ...
∂xni ∂xni ∂xni
∂y
1 ∂y2 ... ∂y n
seja diferente de zero em B, i = 1, 2, . . . , m.
A densidade de Y1 = h1 (X1 , X2 , . . . , Xn ), . . . , Xn ), Y2 = h2 (X1 , X2 , . . . , Xn ), . . . , hn (X1 , X2 ), . . . , Xn ) com

suporte B é dada por:
m
X
g(y1 , y2 , . . . , yn ) = f (w1i (y1 , y2 , . . . , yn ), . . . , wni (y1 , y2 , . . . , yn )) |Ji | IB (y1 , y2 , . . . , yn ).
i=1
7 Transformações do Vetor Aleatório Contı́nuo Bidimensional

(X,Y).
Seja (X, Y ) um vetor aleatório contı́nuo bidimensional com função densidade de probabilidade conjunta dada por
f (x, y) com suporte A. Sejam fX (x) e fY (y) as marginais.
7.1 Função Densidade de Probabilidade da Soma S=X+Y.
Z ∞
fS (s) = f (x, s − x)dx,
−∞
se X e Y forem Independentes
Z ∞
fS (s) = fX (x)fY (s − x)dx.
−∞
Prova: Considere a variável auxiliar A = X.

Temos que:
x = a = w1 (s, a) e y = s − a = w2 (s, a).
O Jacobiano da transformação é dado por:
23
∂x ∂x

∂s =0 ∂a = 1
J = = −1,
∂y ∂y

∂s =1 ∂a = −1
A única condição é que o Jacobiano seja diferente de zero em B.
Assim
|J| = 1.
A densidade de S = h1 (X, Y ) = X + Y e A = h2 (X, Y ) = X com suporte B é dada por:
g(s, a) = f (w1 (s, a), w2 (s, a)) |J| IB (s, a).

Assim,
g(s, a) = f (a, s − a) IB (s, a).

A densidade de S é dada por:
Z ∞
fS (s) = f (a, s − a)da,
−∞
que pode ser posto na forma x = a

Z ∞
fS (s) = f (x, s − x)dx.
−∞
Se X e Y forem independentes forem

Z ∞
fS (s) = fX (x)Fy (s − x)dx.
−∞
Exemplos: Calcule a distribuição da soma S = X + Y .
1.
f (x, y) = (x + y) IA (x) IA (y), A = [0, 1].
Solução: Como 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1
temos 0 ≤ x + y ≤ 2, isto é, 0 ≤ s ≤ 2.
Z ∞
fS (s) = f (x, s − x)dx
−∞
Z ∞
= (x + s − x) I[0,1] (x) I[0,1] (s − x)dx
−∞
Z ∞
= s I[0,1] (x) I[0,1] (s − x)dx
−∞
Z b
= s 1 dx
a
= s(b − a),
A variação de x entre a e b sai das inequações:
I[0,1] (x) = 1,
o que acarreta
0≤x≤1 (9)
24
Por outro lado
I[0,1] (s − x) = 1,
nos leva a:
0 ≤ s − x ≤ 1 ou
s−1≤x≤s (10)
.
De (1) e (2) temos:
max(0, s − 1) ≤ x ≤ min(1, s) (11)
.
logo a = max(0, s − 1) e b = min(1, s)
fS (s) = s[(min(1, s) − max(0, s − 1)] I[0,2] (s).
Que também pode ser posta na forma:
fS (s) = s2 I[0,1] (s) + s(2 − s) I[1,2] .
2. X ∼ Exp(1), Y ∼ Exp(1), independentes. A conjunta de (X, Y ) é dada por:
f (x, y) = exp[−(x + y)] I(0,∞) (x) I(0,∞) (y).
Como x > 0 e y > 0 temos que s = x + y > 0.

Z ∞
fS (s) = f (x, s − x)dx
−∞
Z ∞
= exp[−(x + s − x)] I(0,∞) (x) I(0,∞) (s − x)dx
−∞
Z ∞
= exp(−s) I(0,∞) (x) I(0,∞) (s − x)dx
−∞
Z b
= exp(−s) 1 dx
a
= exp(−s)(b − a),
I(0,∞) (x) = 1,
o que acarreta
x>0 (12)
.
Por outro lado
I(0,∞) (s − x) = 1,
nos leva a:
25
s−x>0
x≤s (13)
.
De (4) e (5) temos:
0≤x≤s (14)
.
logo a = 0, b = s e b − a = s
fS (s) = s e−s I(0,∞ (s),
que é a densidade da gama (2,1).
3. X ∼ U [0, 2] Y ∼ U [0, 2], X e Y independentes.

A conjunta de (X, Y ) é dada por:
1
f (x, y) = IA (x) IA (y), A = [0, 2]).
4
Solução: Como 0 ≤ x ≤ 2 e 0 ≤ y ≤ 2
temos 0 ≤ x + y ≤ 4, isto é, 0 ≤ s ≤ 4.
Z ∞
fS (s) = f (x, s − x)dx
−∞
Z ∞
1
= I[0,2] (x) I[0,2] (s − x)dx
−∞ 4
Z ∞
1
= I[0,2] (x) I[0,2] (s − x)dx
4 −∞
Z b
1
= s 1 dx
4 a
b−a
= ,
4
I[0,2] (x) = 1,
o que acarreta
0≤x≤2 (15)
.
Por outro lado
I[0,2] (s − x) = 1,
nos leva a:
0 ≤ s − x ≤ 2 ou
26
s−2≤x≤s (16)
.
De (1) e (2) temos:
max(0, s − 2) ≤ x ≤ min(2, s) (17)
.
logo a = max(0, s − 2) e b = min(2, s)
(min(2, s) − max(0, s − 2)
fS (s) = I[0,4] (s).
4
Que também pode ser posta na forma:
s 4−s
fS (s) = I[0,2] (s) + I[2,4] ,
4 4
que é a densidade da triangular com a = 0, b = 4 e c = 2.
4. Seja (X, Y ) com distribuição uniforme na região:
A = {(x, y) ∈ R2 | x > 0, y > 0 e x + y ≤ 1}.
A área de A vale 1/2. Assim a f.d.p. c. de (X, Y ) é dada por:
f (x, y) = 2I(0,1) (x) I(0,1−x) (y).
Como 0 < x + y ≤ 1 temos que 0 < s ≤ 1

Z ∞
fS (s) = f (x, s − x)dx
−∞
Z ∞
= 2 I(0,1] (x) I(0,1−x] (s − x)dx
−∞
Z b
= 2 1 dx
a
= 2(b − a).
I[0,1] (x) = 1,
o que acarreta
0≤x≤1 (18)
.
Por outro lado
I[0,1−x] (s − x) = 1,
nos leva a:
0≤s−x≤1−x
27
ou
Da inequação
0≤s−x
temos que
x≤s (19)
.
Da inequação
s−x≤1−x
temos que
s ≤ 1.
De (10) e (11) temos:
0 ≤ x ≤ min(1, s) = s (20)
.
logo a = 0 e b = s.
fS (s) = 2s I(0,1] (s),
que é a densidade da beta(2,1).
7.2 Função Densidade de Probabilidade da Diferença D=X-Y.
Z ∞
fD (d) = f (d + y, y)dy,
−∞
Z ∞
fD (d) = fX (d + y)fY (y)dx.
−∞
Prova: Considere a variável auxiliar A = Y . Temos que: d = x − y e a = y .Assim

x = d + a = w1 (d, a) e y = d = w2 (d, a).
∂x ∂x

∂d =1 ∂a = 1
J = = 1,

∂y ∂y

∂d =0 ∂a =1
Assim |J| = 1.
A densidade de D = h1 (X, Y ) = X − Y e A = h2 (X, Y ) = Y com suporte B é dada por:
g(d, a) = f (w1 (d, a), w2 (d, a)) |J| IB (d, a).
Assim,
g(d, a) = f (d + a, a) ; IB (d, a).
28
A densidade de D é dada por:
Z ∞
fD (d) = f (d + a, a)da,
−∞
que pode ser posto na forma y = a

Z ∞
fD (d) = f (d + y, y)dy.
−∞

Z ∞
fD (d) = fX (d + y)fY (y)dy.
−∞
Exemplos: Calcule a distribuição da diferença D = X − Y .

f (x, y) = IA (x) IA (y), A = [0, 1]).
Solução: Como 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1
temos −1 ≤ x − y ≤ 1, isto é, −1 ≤ d ≤ 1.
Z ∞
fD (d) = f (d + y, y)dy
−∞
Z ∞
= I(0,1) (d + y)I(0,1) (y)
−∞
Z b
= dy
a
= (b − a),
I[0,1] (y) = 1,
o que acarreta
0≤y≤1 (21)
.
Por outro lado
I[0,1] (d + y) = 1,
nos leva a:
0≤d+y ≤1
ou
−d ≤ y ≤ 1 − d
temos que
−d ≤ y ≤ 1 − d (22)
29
.
De (10) e (11) temos:
max(0, −d) ≤ y ≤ min(1, 1 − d) (23)
.
logo a = max(0, −d) e b = min(1, 1 − d) e
b − a = min(1, 1 − d) − max(0, −d).
Sabemos que
2min(a, b) = a + b − |a − b|.
Logo,
2min(1, 1 − d) = 1 + 1 − d − |d| = 2 − d − |d|.
Logo,
2min(1, 1 − d) = 1 + 1 − d − |d| = 2 − d − |d|.
Sabemos que
2max(a, b) = a + b + |a − b|.
Logo,
2max(0, −d) = 0 − d + |d| = −d + |d|.
Assim,
2(b − a) = 2[min(1, 1 − d) − max(0, −d)] = [2 − d − |d| + d − |d|] = 2[1 − |d|]
Assim,
fD (d) = 2[1 − |d|] I[−1,1] (d),
que é a densidade da triangular com parâmetros a = −1, b = 1 e c = 0.

6. X ∼ Exp(1), Y ∼ Exp(1), independentes.
f (x, y) = exp[−(x + y)] I(0,∞) (x) I(0,∞) (y).
Como x > 0 e y > 0 temos que −∞ < d = x − y < ∞.
30
Z ∞
fD (d) = f (d + y, y)dy
−∞
Z ∞
= exp[−(d + y + y)] I(0,∞) (d + y) I(0,∞) (y)dy
−∞
Z ∞
= exp(−d) exp[−2y] I(0,∞) (d + y) I(0,∞) (y)dy
−∞
Z ∞
= exp(−d) exp[−2y] dy
max(0,−d)
1
= exp(−d) exp[−2max(0, −d)]
2
1
= exp[−(d + 2max(0, −d)]
2
1
= exp[−|d|].
2
Vamos explicar com detalhes a mágica utilizada.
A variação de y sai das inequações:
I(0,∞) (y) = 1,
o que acarreta
y>0 (24)
.
Por outro lado
I(0,∞) (d + y) = 1,
nos leva a:
d+y >0
y ≤ −d (25)
.
De (13) e (14) temos:
y ≤ max(0, −d) (26)
.
Por outro lado sabemos que
a + b + |a − b|
max(a, b) = ,
2
assim,
2max(a, b) = a + b + |a − b|.
Fazendo a = 0 e b = −d temos:
2max(0, −d) = 0 − d + |0 + d| = −d + |d|,
31
que nos leva a:
d + 2max(0, −d) = |d|.

1
fD (d) = exp[−|d|] I(−∞,∞) (d),
2
que é a densidade da Laplace padrão (0,1).
7.3 Função Densidade de Probabilidade do Produto U=XY.
Z ∞
1 u
fU (u) = f (x, )dx,
−∞ |x| x
Z ∞
1 u
fU (u) = fX (x)fY ( ))dx.
−∞ |x| x
Prova: Considere a variável auxiliar A = X. Temos que: u = xy e a = x .Assim
u
x = a = w1 (u, a) e y = = w2 (u, a).
a
∂x ∂x

∂u =0
∂a =1
1
J = =− ,

∂y 1 ∂y u a
∂u = a ∂a = − a2

seja diferente de zero em B, isto é, que a não seja nulo..
Assim
1
|J| = .
|a|
A densidade de U = h1 (X, Y ) = XY e A = h2 (X, Y ) = X com suporte B é dada por:
g(u, a) = f (w1 (u, a), w2 (u, a)) |J| IB (u, a).

Assim,
1 u
g(u, a) = ; ; f (a, ) ; IB (u, a).
|a| a
A densidade de U é dada por:
Z ∞
1 u
fU (u) = f (a, )da,
−∞ |a| a
que pode ser posto na forma x = a
Z ∞
1 u
fU (u) = ; f (a, )dx.
−∞ |a| x
Z ∞
1 u
fU (u) = ; fX (x)fY ( )dx.
−∞ |x| x
Exemplos: Calcule a distribuição do produto U = XY
32
f (x, y) = IA (x) IA (y), A = [0, 1]).
Solução: Como 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1
temos 0 ≤ xy ≤ 1, isto é, 0 ≤ u ≤ 1.
Z ∞
1 u
fU (u) = fX (x)fY ( )dx
−∞ |x| x
Z ∞
1 u
= I(0,1) ( ) I(0,1) (x)dx
−∞ |x| x
Z 1
1
= dx
u x
= −ln(u) I(0,1) (u)
A f.d.p. de U = XY é dada por:
fU (u) = −ln(u) I(0,1) (u).

f (x, y) = exp[−(x + y)] I(0,∞) (x) I(0,∞) (y).
Como x > 0 e y > 0 temos que u = xy > 0.

Z ∞
1 u
fU (u) = fX (x)fY ( )dx
−∞ |x| x
Z ∞
1 u u
= exp[−( + x)] I(0,∞) ( ) I(0,∞) (x)dx
−∞ |x| x x
Z ∞
1 u
= exp[−( + x)]dx,
0 x x
que não tem uma forma fechada.

A f.d.p de U = XY é dada por:
Z ∞
1 u
fU (u) = exp[−( + x)]dx I(0,∞) (u).
0 x x
X
7.4 Função Densidade de Probabilidade do Quociente V = Y
.
Z ∞
fV (v) = |y|f (vy, y)dy,
−∞
Z ∞
fV (v) = |y|fX (vy)fY (y)dy.
−∞
33
x
Prova: Considere a variável auxiliar A = Y . Temos que: v = e a = y. Assim
y
x = va = w1 (v, a) e y = a = w2 (v, a).
∂x ∂x

∂v =a ∂a = v
J = = a,

∂y ∂y

∂v =0 ∂a =1
que é diferente de zero em B desde que a não seja nulo.
Assim |J| = |a|.
X
A densidade de V = h1 (X, Y ) = e A = h2 (X, Y ) = Y com suporte B é dada por:
Y
g(v, a) = f (w1 (v, a), w2 (v, a)) |J| IB (v, a).
Assim,
g(v, a) = |a| f (va, a) ; IB (v, a).
A densidade de V é dada por:

Z ∞
fV (v) = |a| f (va, a)da,
−∞
que pode ser posto na forma y = a

Z ∞
fV (v) = |y| f (vy, y)dy.
−∞

Z ∞
fD (d) = fX (d + y)fY (y)dy.
−∞
X
Exemplos: Calcule a distribuição do quociente V = .
Y
f (x, y) = exp[−(x + y)] I(0,∞) (x) I(0,∞) (y).

x
Como x > 0 e y > 0 temos que v = > 0.
y
Z ∞
fV (v) = |x| fX (vy)fY (y)dy
−∞
Z ∞
= |x|exp[−(vy + y)] I(0,∞) (vy) I(0,∞) (y)dy
−∞
Z ∞
= yexp[−(1 + v)y]dy
0
Z ∞
1
= y(1 + v)exp[−(1 + v)y]dy
1+v 0
1
= E(Y ∗), Y ∗ ∼ exp(1 + v)
1+v
1
= I(0,∞) (v),
(1 + v)2
34
que é a densidade da F (2, 2).
f (x, y) = IA (x) IA (y), A = [0, 1]).
Solução: Como 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1
x
temos 0 ≤ ≤ ∞, isto é, 0 ≤ v ≤ ∞.
y
∞
|
Z
fV (v) = | fX (vy)fY (y)dy
−∞ y
Z ∞
= |y| I(0,1) (vy) I(0,1) (y)dy
−∞
Z b
= ydy
a
b − a2
2
=
2
A variação de y sai das inequações:
I(0,1) (y) = 1,
o que acarreta
0<y<1 (27)
.
Por outro lado
I(0,∞) (vy) = 1,
nos leva a:
0 < vy < 10
0 < y < 1/v (28)
.
De (19) e (20) temos:
0 < y ≤ min(1, 1/v) (29)
.
X
A f.d.p. de V = é dada por:
Y
2
[min(1, 1/v)]
fV (v) = I(0,∞) (v),
2
que pode ser posta na forma:
1 1
fV (v) = I(0,1) (v) + 2 I(1,∞) (v)
2 2v
35
11. X ∼ N (0, 1) Y ∼ N (0, 1), X e Y independentes.
1 x2 + y 2
f (x, y) = exp[− ] IA (x) IA (y), A = (−∞, ∞).
2π 2
Solução: Como −∞ < x < ∞ e −∞ < y < ∞
x
temos −∞ < < ∞, isto é, −∞ < v < ∞.
y
Z ∞
fV (v) = |y| fX (vy)fY (y)dy
−∞
∞
v2 y2 + y2
Z
1
= |y| exp[− ] I(−∞,∞) (vy) I(−∞,∞) (y)dy
−∞ 2π 2
∞
(1 + v 2 )y 2
Z
1
= |y| exp[− ] dy
2π −∞ 2
Z ∞
2 (1 + v 2 )y 2
= y exp[− ]
2π 0 2
1 1 + v2
= IGG(a = 2, b = , c = 2)
π 2
1 1
=
π 1 + v2
2
2
1
= I(−∞,∞) (v),
π(1 + v 2 )
que é a densidade da Cauchy padrão.
7.5 Função Densidade de Probabilidade do Máximo V=Max(X,Y).
Z v
fV (v) = [f (u, v) + f (v, u)]du IB (v),
−∞
fV (v) = [fX (v)FY (v) + FX (v)fY (v)] IB (v).

se X e Y forem Independentes e Identicamente Distribuı́das(i.i.d)
fV (s) = 2F (v)f (v)I(v)A ,

em que F é a função de distribuição acumulada com de X e de Y e f a f.d.p. com suporte A.
7.6 Função Densidade de Probabilidade do Mı́nimo U=Min(X,Y).
Z ∞
fU (u) = [f (u, v) + f (v, u)]dv IB (u),
u
fU (u) = {fX (v) [1 − FY (u)] + [1 − FX (u)] fY (u)} IB (u).

36
fU (u) = 2[1 − F (u)]f (u)I(u)A ,
em que F é a função de distribuição acumulada com de X e de Y e f a f.d.p. com suporte A.
7.7 Função Densidade de Probabilidade Conjunta de (U,V)=(Min(X,Y) , Max(X,Y)).
f(U,V ) (u, v) = [f(X,Y ) (u, v) + f(X,Y ) (v, u)]I{−∞<u<v<∞} ,

e X e Y forem Independentes
f(U,V ) (u, v) = [fX (u)fY (v) + fX (v)fY (u)]I{−∞<u<v<∞} ,
f(U,V ) (u, v) = 2f (u)f (v)I{−∞<u<v<∞} .
37

Distri Bidi Continua

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Distri Bidi Continua

Enviado por

Direitos autorais:

Formatos disponíveis

Material didático preparado pelo professor Maurı́cio Mota para a disciplina CC0285- Probabilidade II ministrado

1 Vetor Aleatório Bidimensional Contı́nuo .

(c) Seja E um subconjunto do R × R então:

(d) O conjunto A = {(x, y) ∈ R × R | f (x, y) > 0} é chamado de suporte da densidade conjunta.

1.2 Vetor Aleatório Bidimensional com Distribuição Uniforme.

1.3 Distribuições Marginais

f (x, y) = fX (x) fY (y), ∀ (x, y) ∈ R × R.

f (x0 , y0 ) 6= fX (x0 ) fY (y0 ).

f (x, y) = xe−x(y+1) I(0,∞) (x) I(0,∞) (y).

f (1, 1) 6= fX (1) × fY (1),

V (S) = E(S 2 ) − E 2 (S)

Vamos definir covariância:

Cov(X, Y ) = E [(X − E(X))(Y − E(Y ))] .

Cov(X, Y ) = E(XY ) − E(X)E(Y ).

Cov(X, Y ) = E [(X − E(X))(Y − E(Y ))]

a. Cov(X, Y ) = Cov(Y, X).

d. Cov(aX, bY ) = ab Cov(X, Y ), a e b constantes.

Cov(aX, bY ) = E(aX × bY ) − E(aX) × E(bY ) = ab[E(XY ) − E(X)E(Y )] = ab Cov(X, Y ).

e. Cov(X, Y + Z) = Cov(X, Y ) + Cov(X, Z).

Cov(X, Y + Z) = E[X × (Y + Z)] − E(X) × E(Y + Z),

Cov(X, Y + Z) = E[XY + XZ] − [E(X)E(Y ) + E(X)E(Z)]

Fato O coeficiente de correlação varia no intervalo [−1, 1].

E(V 2 ) = V ar(V ) = V ar(Y ) e E(U V ) = E [(= X − E(X))(Y − E(Y ))] = Cov(X, Y ).

[Cov(X, Y )]2 ≤ V (X)V (Y ),

Verifique que a definição 1 é uma legı́tima distribuição de probabilidade.

X|Y = y ∼ Gama(r = 2, λ = (1 + y)).

A = {(x, y) | 0 ≤ x < y ≤ 2}.

3 Momentos em Relação à Origem

Observe que E(Y r |X = x) é uma função de x.

E[(X − 2)2 ] E(X 2 ) − 4E(X) + 4] 1

3.1 Variância Condicional

que também pode calculada como:

V (Y |X) = E[(Y 2 |X) − E 2 [E(Y |X)].

Fato 1: E(E(Y |X)) = E(Y ).

Fato 2: V (Y ) = V [E(Y |X)] + E[V (Y |X)].

Prova: Vamos mostrar que V [E(Y |X)] = V (Y ) − E[V (Y |X)].

= E E(Y 2 |X) − E 2 [Y |X]

= V (Y ) − E E 2 [Y |X] − [E(Y )]2

Fato 3: Cov(X, Y ) = Cov(X, E(Y |X)).

Cov(X, E(Y |X)) = E [XE(Y |X)] − E(X).E[E(Y |X)]

E[g(Y )] = E [E(g(Y )|X)] . (5)

E[Y ] = E [E(Y |X)] . (6)

Fato 6: A esperança condicional µY |x = E(Y |X = x) é chamada de curva de regressão de Y em x.

Fato 7: Se a esperança condicional µY |x = E(Y |X = x) = a + bx então:

Prova: Como E(Y |X) = a + bX temos que:

E(Y ) = E[E(Y |X)] = E(a + bX) = a + bE(X),

XE(Y |X) = E(XY |X) = aX + bX 2 .

E(XY ) = E(E(XY |X) = aE(X) + bE(X 2 ).

E(XY ) = [E(Y ) − bE(X)]E(X) + bE(X 2 ) = E(X)E(Y ) + b[E(X 2 ) − E 2 (X)],

Cov(X, Y ) = E(XY ) − E(X)E(Y ) = bV (X),

Fato 8: Se a esperança condicional µY |x = E(Y |X = x) = a + bx e µX|y = E(X|Y = y) = c + dy então:

MY (t) = E(etY ) = E E(etY |X) = E MY |X=x (t) .

MX (t) = M(X,Y ) (t, 0) eMY (t) = M(X,Y ) (0, t) .

g(X) = E(Y |X).

E (Y − g(X))2 |X = E (Y − E(Y |X) + E(Y |X) − g(X))2 |X

E (Y − E(Y |X)|X)2 + (E(Y |X) − g(X))2 |X

Como dado X , E(Y |X) − g(X) é constante temos que:

E (Y − g(X))2 |X = E (Y − E(Y |X)|X)2 + (E(Y |X) − g(X))2 |X ,

E (Y − g(X))2 |X ≥ E (Y − E(Y |X)|X)2 .

Vamos calcular a esperança em ambos os lados :

E E (Y − g(X))2 |X ≥ E E (Y − E(Y |X)|X)2 .

fS,R (r, s) = fS (s)fS|R=r (s|r)

Vamos analisar a expressão