Você está na página 1de 37

Material didático preparado pelo professor Maurı́cio Mota para a disciplina CC0285- Probabilidade II ministrado

em 2019.2.

1 Vetor Aleatório Bidimensional Contı́nuo .


1.1 Definição
A distribuição conjunta do vetor aleatório (X, Y ) é caracterizada por uma função, f (x, y), definida R × R com
valores reais satisfazendo:
(a) f (x, y) ≥ 0 para todo par (x, y) ∈ R × R.

R∞ R∞
(b) −∞ −∞
f (x, y) dy dx = 1

(c) Seja E um subconjunto do R × R então:


Z Z
P (E) = f (x, y) dy dx.
E

(d) O conjunto A = {(x, y) ∈ R × R | f (x, y) > 0} é chamado de suporte da densidade conjunta.


A condição (b) nos diz que o volume sob a superfı́cie representada por f (x, y) é igual a 1. A relação (c) fornece
a probabilidade do evento E. Se E = [a, b] × [c, d] então
Z b Z d
P (E) = f (x, y) dy dx.
a c

1.2 Vetor Aleatório Bidimensional com Distribuição Uniforme.


Dizemos que (X, Y ) tem um distribuição uniforme em uma região A se sua função de densidade conjunta de
probabilidade for constante, isto é,
1
f (x, y) = IA (x, y),
c
com c = área(A).

1.3 Distribuições Marginais


As marginais de X e Y são dadas por:

R∞
(a) fX (x) = −∞
f (x, y) dy.

R∞
(b) fY (y) = −∞
f (x, y) dx.

1
1.4 Independência
As variáveis X e Y com densidade conjunta f (x, y) e marginais fX (x) e fY (y), respectivamente, se

f (x, y) = fX (x) fY (y), ∀ (x, y) ∈ R × R.


Para mostrar a dependência basta encontrar um par (x0 , y0 ) tal que:

f (x0 , y0 ) 6= fX (x0 ) fY (y0 ).

1.5 Exemplo 1.
Seja

f (x, y) = xe−x(y+1) I(0,∞) (x) I(0,∞) (y).


Identifique a marginal de X.

Z ∞
fX (x) = f (x, y) dy
−∞
Z ∞
= xe−x(y+1) dy
0
Z ∞
= xe−xy e−x dy
0
Z ∞
= e−x xe−xy dy
0
= e−x I(0,∞) (x),
R∞
visto que 0
xe−xy dy = 1 que é a integral no suporte da exponencial com parâmetro λ = x.
Assim
X ∼ Exp(1).

Identifique a marginal de Y .

Z ∞
fY (y) = f (x, y) dx
−∞
Z ∞
= xe−(y+1)x dx
0
= IGG(a = 2, b = y + 1, c = 1)
Γ(2)
=
(1 + y)2
1
= I(0,∞) (y),
(1 + y)2
Assim
Y ∼ F (2, 2).

X e Y são independentes?
1 e−1
temos que f (1, 1) = e−2 , fX (1) = e−1 e fY (1) = e fX (1)fY (1) = .
4 4
Assim,

f (1, 1) 6= fX (1) × fY (1),


logo X e Y são dependentes.

2
1.6 Covariância e Correlação
Sejam X e Y variáveis aleatórias com momentos de segunda ordem finitos, isto é,
E(X 2 ) < ∞, E(Y 2 ) < ∞ e E(XY ) < ∞. Para calcularmos a variância de S = X + Y temos:

V (S) = E(S 2 ) − E 2 (S)


= E((X + Y )2 ) − [E(X + Y )]2
= E(X 2 + Y 2 + 2XY ) − [E(X) + E(Y )]2
= E(X 2 ) + E(Y 2 ) + 2E(XY ) − E 2 (X) − E 2 (Y ) − 2E(X)E(Y )
= E(X 2 ) − E 2 (X) + E(Y 2 ) − E 2 (Y ) + 2 [E(XY ) − E(X)E(Y )]
= V (X) + V (Y ) + 2 Cov(X, Y ).

Vamos definir covariância:


Sejam X e Y duas variáveis aleatórias definidas no mesmo espaço de probabilidade. A covariância entre X e
Y , denotada por Cov(X, Y ) definida por:

Cov(X, Y ) = E [(X − E(X))(Y − E(Y ))] .


Dessa definição surge uma fórmula mais operacional:

Cov(X, Y ) = E(XY ) − E(X)E(Y ).


Prova:

Cov(X, Y ) = E [(X − E(X))(Y − E(Y ))]


= E [XY − XE(Y ) − E(X)Y + E(X)E(Y )]
= E(XY ) − E(XE(Y )) − E(E(X)Y ) + E[E(X)E(Y )]
= E(XY ) − E(X)E(Y ) − E(X)E(Y ) + E(X)E(Y )
= E(XY ) − E(X)E(Y ).

Propriedades da Covariância:

a. Cov(X, Y ) = Cov(Y, X).


Prova:
b. Cov(X, X) = V (X).
Prova:
Cov(X, X) = E(X × X) − E(X) × E(X) = E(X 2 ) − E 2 (X) = V (X).

c. Cov(X, a) = 0, a constante.
Prova:
Cov(X, a) = E(X × a) − E(X) × E(a) = a × E(X) − a × E(X) = 0.

d. Cov(aX, bY ) = ab Cov(X, Y ), a e b constantes.


Prova:

Cov(aX, bY ) = E(aX × bY ) − E(aX) × E(bY ) = ab[E(XY ) − E(X)E(Y )] = ab Cov(X, Y ).

e. Cov(X, Y + Z) = Cov(X, Y ) + Cov(X, Z).


Prova:

Cov(X, Y + Z) = E[X × (Y + Z)] − E(X) × E(Y + Z),

Cov(X, Y + Z) = E[XY + XZ] − [E(X)E(Y ) + E(X)E(Z)]


Cov(X, Y + Z) = E[XY ] − E(X)E(Y ) + E(Y Z) − E(Y )E(Z) = Cov(X, Y ) + Cov(X, Z).

3
f.  
Xn m
X n X
X m
Cov  ai Xi , bj Yj  = ai bj Cov(Xi , Yj ).
i=1 j=1 i=1 j=1

n
X m
X
Prova: Sejam U = ai Xi e V = bj Yj . Logo
i=1 j=1
n
X m
X n X
X m
UV = ai Xi bj Yj = ai bj Xi Yj .
i=1 j=1 i=1 j=1

Logo,

n X
X m
E(U V ) = ai bj E[Xi Yj ].
i=1 j=1
n
X m
X
Por outro lado E[U ] = ai E(Xi ) e E[V ] = bj E[Yj ].
i=1 j=1
Mas,

n
X m
X n X
X m
E(U ).E(V ) = ai E(Xi ) × bj E[Yj ] = ai bj E(Xi )E(Yj ).
i=1 j=1 i=1 j=1

Logo,

X m
n X n X
X m
Cov(U, V ) = E(U V ) − E(U )E(V ) = ai bj E[Xi Yj ] − ai bj E(Xi )E(Yj ).
i=1 j=1 i=1 j=1

n X
X m
Cov(U, V ) = ai bj (E[Xi Yj ] − E(Xi )E(Yj )) .
i=1 j=1

Finalmente

n X
X m
Cov(U, V ) = ai bj Cov(Xi , Yj ).
i=1 j=1

g. !
n
X n
X n−1
X n
X
V (Sn ) = V Xi = V (Xi ) + 2 Cov(Xi , Xj ).
i=1 i=1 i=1 j=i+1

Prova:

V (Sn ) = Cov(Sn , Sn )
 
n
X n
X
= Cov  Xi , Xj 
i=1 j=1
n X
X n
= Cov(Xi , Xj )
i=1 j=1
Xn n
X n
X
= V (Xi ) + Cov(Xi , Xj )
i=1 i=1 j=1 j6=i
n
X n−1
X n
X
= V (Xi ) + 2 Cov(Xi , Xj ),
i=1 i=1 j=i+1

4
pois a covariância é simétrica.
A covariância entre X e Y mede o grau da associação linear das variáveis e é expresso nas unidades medidas
das variáveis. Uma medida de associação linear adimensional é o coeficiente de correlação que é definido por:

Cov(X, Y )
ρ = Cor(X, Y ) = p .
V (X)V (Y )
Fato: Se X e Y forem independentes a correlação é nula.
Prova:

ρ = E(XY ) − E(X)E(Y )
= E(X)E(Y ) − E(X)E(Y )
= 0.
Fato: Cov(X,Y)=0 não implica independência. Neste caso as variáveis são ditas não correlacionadas.

Fato O coeficiente de correlação varia no intervalo [−1, 1].

Prova: Sejam X uma variável com média µ1 e variância σ12 e Y uma variável com média µ2 e variância σ22 .
Seja ρ o coeficiente de correlação entre X e Y .

Considere
U = X − E(X) e V = Y − E(Y ).
Logo
E(U ) = E(V ) = 0, E(U 2 ) = V ar(U ) = V ar(X),

E(V 2 ) = V ar(V ) = V ar(Y ) e E(U V ) = E [(= X − E(X))(Y − E(Y ))] = Cov(X, Y ).

Considere a função
g(t) = E E(tU + V )2 ≥ 0 = E(U 2 )t2 + 2E(U V )t + E(V 2 ).
 

Para uma função quadrática ser não negativa é preciso que seu discriminante seja menor ou igual a zero. Assim,

∆ = 4E 2 (U V ) − 4E(U 2 )E(V 2 ) ≤ 0
= E 2 (U V ) − E(U 2 )E(V 2 ) ≤ 0.
Assim
E 2 (U V ) ≤ E(U 2 )E(V 2 ).
Esta é a famosa desigualdade de Cauchy-Schwarz.

[Cov(X, Y )]2 ≤ V (X)V (Y ),


extraindo a raiz quadrada
p
|Cov(X, Y )| ≤ V (X)V (Y ),
e finalmente,

|Cov(X, Y )|
|ρ| = p ≤ 1.
V (X)V (Y )

5
1.7 Momentos
Seja (X, Y ) um vetor aleatório com E(X) = µ1 , E(Y ) = µ2 , V ar(X) = σ12 , V ar(Y ) = σ22 e
covariância, σ12 = ρ σ1 σ2 . O vetor de médias é definido por:

µ = [µ1 , µ2 ]> .
A matriz de variâncias-covariâncias, Σ, é dada por:

σ12
 
σ12
Σ= ,
σ12 σ22
Para calcular a covariância entre X e Y precisamos calcular a E(XY ). Vamos generalizar para calcular a
esperança da função real, h(X, Y ), que é definida por:
Z ∞ Z ∞
E[h(X, Y )] = h(x, y) f (x, y) dy dx.
−∞ −∞

2 Distribuição Condicional.
2.1 Definição
Seja (X, Y ) uma variável aleatória bidimensional contı́nua (v.a.c) com função densidade de probabilidade conjunta
dada por f (x, y) e marginais fX (x) e fY (y). Seja x um ponto do suporte de X. A distribuição condicional de
Y |X = x é por definição:

f (x, y)
fY |X=x (y|x) = . (1)
fX (x)

Verifique que a definição 1 é uma legı́tima distribuição de probabilidade.


Devemos provar que:

i) fY |X=x (y|x) ≥ 0

Z ∞
ii) fY |X=x (y|x)dy = 1
−∞

A propriedade (i) é satisfeita pois no suporte temos f (x, y) > 0 e fY (y) > 0 e portanto temos uma razão
positiva. Fora do suporte temos f (x, y) = 0 e fY (y) > 0 logo temos uma razão nula. Assim a condição (i) é
satisfeita.
Vamos provar agora a condição (ii)

Z ∞ Z ∞
f (x, y)
fY |X=x (y|x)dy = dy
−∞ −∞ fX (x)
Z ∞
1
= f (x, y) dy
fX (x) −∞
1
= fX (x)
fX (x)
= 1.

6
2.2 Continuação do Exemplo 1
Calcule as distribuições condicionais do Exemplo 1.
A condicional de Y |X = x é dada por:

f (x, y)
fY |X=x (y|x) =
fX (x)
x e−x(1+y)
. =
e−x
−xy
= xe I(0,∞) (y).

Assim,

Y |X = x ∼ Exp(x).
A condicional de X|Y = y é dada por:

f (x, y)
fX|Y =y (y|x) =
fY (y)
x e−x(1+y)
. =
(1 + y)−2
= (1 + y)2 x e−(1+y)x I(0,∞) (y).

Assim,

X|Y = y ∼ Gama(r = 2, λ = (1 + y)).

2.3 Exemplo 2
Seja (X, Y ) com distribuição uniforme na região dada por:

A = {(x, y) | 0 ≤ x < y ≤ 2}.


A região dada é o triângulo com vértices nos pontos O(0, 0), B(0, 2) e C(2, 2) com área igual a 2. Assim a
densidade conjunta de (X, Y ) é dada por:
1
f (x, y) = I[0,2] (x) I[x,2] (y).
2
A marginal de X é dada por:
∞ 2
2−x
Z Z
1
fX (x) = f (x, y) dy = dy = I[0,2] (x),
−∞ x 2 2
que é a densidade da triangular com a = 0, b = 2 e c = 0.
2 2 2
Assim E(X) = ,V (X) = e E(X 2 ) = .
3 9 3
A distribuição condicional de Y |X = x é dada por:

1
f (x, y) 1
fY |X=x (y|x) = = 2 I(x,2) (y) = I(x,2) (y). (2)
fX (x) 2−x 2−x
2
Dizemos que a condicional de Y |X = x tem distribuição Uniforme com parâmetros a = x e b = 2.
E no caso geral dizemos
Y |X ∼ U (X, 2).
Vamos calcular a marginal de Y . Inicialmente vamos escrever a conjunta de outra maneira:

7
1
f (x, y) = I[0,2] (y) I[0,y] (x).
2
A marginal de Y é dada por:
Z ∞ Z y
1 y
fY (y) = f (x, y) dx = dy = I[0,2] (y),
−∞ 0 2 2
que é a densidade de uma triangular com a = 0, b = 2, c = 2.
Assim,
a+b+c 4
E(Y ) = = ,
3 3
a2 + b2 + c2 − ab − ac − bc 2
V (Y ) = = ,
18 9
e
2 16
E(Y 2 ) = V (Y ) + E 2 (Y ) = + = 2.
9 9
A distribuição condicional de X|Y = y é dada por:

1
f (x, y) 1
fX|Y =y (y|x) = = y2 I(0,y) (x) = I(0,y) (x). (3)
fY (y) y
2
Dizemos que a condicional de X|Y = y tem distribuição Uniforme com parâmetros a = 0 e b = y.
E no caso geral dizemos
X|Y ∼ U (0, Y ).
Vamos definir agora os momentos em relação à origem da distribuição condicional.

3 Momentos em Relação à Origem


Z ∞
E(Y r |X = x) = y r fY |X=x (y|x) dy, r = 1, 2, 3, 4, . . . . (4)
−∞

Observe que E(Y r |X = x) é uma função de x.


Calcule o primeiro momento em relação à origem da condicional do exemplo 2.
Como a distribuição é uniforme temos:
2+x
E(Y |X = x) = .
2
Assim
X +2
V = E(Y |X) = = h(X),
2
é também uma variável aleatória contı́nua.
Vamos achar a lei de V , sua média e variância.
Seja G(v) a acumulada de V . Logo
X +2
G(v) = P (V ≤ v) = P ( ≤ v) = P (X ≤ 2v − 2) = FX (2v − 2).
2
A f.d.p. de V é

(2 − 2v + 2)
g(v) = 2fX (2v − 2) = 2 I(0,2) (2v − 2) = 2(2 − v) I(1,2) (v),
2
assim,
V ∼ triangular(a = 1, b = 2, c = 1)
Logo ,

8
1+2+1 4
E(V ) = E[E(Y |X)] = = = E(Y ).
3 3
A variância de V é dada por:

a2 + b2 + c2 − ab − ac − bc 2
V ar(V ) = V ar(E(Y |X)) = = .
18 18
Note que Y |X ∼ U (X, 2), assim

(2 − X)2 (X − 2)2
V ar(Y |X) = = ,
12 12
e

E[(X − 2)2 ] E(X 2 ) − 4E(X) + 4] 1


E[V ar(Y |X)] = = = .
12 12 6
Uma fórmula bastante útil nos diz que:
1 1 2
V (Y ) = E[V ar(Y |X)] + V [E(Y |X)] =+ = .
6 18 9
O segundo momento em relação à origem da condicional do exemplo 2

Z 2
2 1
E(Y |X = x) = y2 dy
x 2−x
Z 2
1
= y 2 dy
2−x x
1 y 3 2
=
2−x 3 x

1 8 − x3
=
2−x 3
1 (2 − x)(4 + 2x + x2 )
=
2−x 3
4 + 2x + x2
= .
3
Note que

4 + 2X + X 2
E(Y 2 |X) = .
3
Assim,
2 2
4 + 2E(X) + E(X 2
) 4+2 +
E(Y 2 ) = EE[(Y 2 |X)] = = 3 3 = 2.
3 3

3.1 Variância Condicional


A variância condicional de Y |X = x
Z ∞
2
V (Y |X) = (y − E(Y |X = x)) f (y|x) dy,
−∞

que também pode calculada como:

V (Y |X) = E[(Y 2 |X) − E 2 [E(Y |X)].


Vamos mostrar agora as propriedades apresentadas:

Fato 1: E(E(Y |X)) = E(Y ).

9
Prova: Sabemos que E(Y |X) = h(X). Assim,

Z ∞
E[E(Y |X)] = E(Y |X = x) fX (x) dx
−∞
Z ∞ Z ∞
= y f (y|x) fX (x) dydx
−∞ −∞
Z ∞Z ∞
= y f (x, y) dydx
−∞ −∞
Z ∞Z ∞
= y f (x, y) dxdy
−∞ −∞
Z ∞ Z ∞ 
= y f (x, y) dx dy
−∞ −∞
Z ∞
= y fY (y) dy
−∞
= E(Y ).

Fato 2: V (Y ) = V [E(Y |X)] + E[V (Y |X)].

Prova: Vamos mostrar que V [E(Y |X)] = V (Y ) − E[V (Y |X)].

= E E(Y 2 |X) − E 2 [Y |X]


 
E [V (Y |X)]
= E E(Y 2 |X) − E E 2 [Y |X]
   

= E(Y 2 ) − E E 2 [Y |X]
 

= V (Y ) + E 2 (Y ) − E E 2 [Y |X]
 

= V (Y ) − E E 2 [Y |X] − [E(Y )]2


   
h  i
2
= V (Y ) − E E 2 [Y |X] − [E(E(Y |X)]


= V (Y ) − V (E(Y |X)),

Fato 3: Cov(X, Y ) = Cov(X, E(Y |X)).

Prova:

Cov(X, E(Y |X)) = E [XE(Y |X)] − E(X).E[E(Y |X)]


= E [E(XY |X)] − E(X).E(Y )
= E(XY ) − E(X).E(Y )
= Cov(X, Y ).

Fato 4: Seja (X, Y ) um vetor aleatório bidimensional contı́nuo e h(X, Y ) uma função unidimensional das duas
variáveis. A esperança condicional de h(X, Y ) dado X = x é definida por:

10
Z ∞
E [E(h(X, Y )|X = x)] = h(x, y)fY |X=x (y|x) dy.
−∞

Fato 5: Seja (X, Y ) um vetor aleatório bidimensional contı́nuo. Seja g(Y ) uma função real de Y com esperança
finita.
Assim

E[g(Y )] = E [E(g(Y )|X)] . (5)

Em particular,

E[Y ] = E [E(Y |X)] . (6)

Fato 6: A esperança condicional µY |x = E(Y |X = x) é chamada de curva de regressão de Y em x.

Fato 7: Se a esperança condicional µY |x = E(Y |X = x) = a + bx então:


então:
Cov(X, Y ) σY
b= =ρ e a = E(Y ) − bE(X).
V (X) σX

Prova: Como E(Y |X) = a + bX temos que:

E(Y ) = E[E(Y |X)] = E(a + bX) = a + bE(X),


e portanto

a = E(Y ) − bE(X).
Multiplicando por X temos

XE(Y |X) = E(XY |X) = aX + bX 2 .


Aplicando o operador esperança temos:

E(XY ) = E(E(XY |X) = aE(X) + bE(X 2 ).


Logo,

E(XY ) = [E(Y ) − bE(X)]E(X) + bE(X 2 ) = E(X)E(Y ) + b[E(X 2 ) − E 2 (X)],


assim,

Cov(X, Y ) = E(XY ) − E(X)E(Y ) = bV (X),


e portanto

11
Cov(X, Y ) ρσX σY σY
b= = 2 =ρ .
V (X) σX σX

Fato 8: Se a esperança condicional µY |x = E(Y |X = x) = a + bx e µX|y = E(X|Y = y) = c + dy então:

bd = ρ2 ,
e ρ tem o sinal comum de b e d.

Prova:

σY σX
bd = ρ ×ρ
σX σY
= ρ2 .

Fato 9: : Seja (X, Y ) um vetor aleatório bidimensional contı́nuo. Sejam g1 (.) e g2 (.) funções de uma única
variável. Então:

a.
E[(g1 (Y ) + g1 (Y ))|X = x] = E[g1 (Y )|X = x] + E[g2 (Y )|X = x].

b.
E [g1 (Y ) × g2 (X)|X = x] = g2 (x) × E[g1 (Y )|X = x].

Fato 10: Seja (X, Y ) um vetor aleatório bidimensional contı́nuo. Seja MY (t) a função geradora de momentos
de Y . Então:

MY (t) = E(etY ) = E E(etY |X) = E MY |X=x (t) .


   

Fato 11: Seja (X, Y ) um vetor aleatório bidimensional contı́nuo. Seja MX,Y (t1 , t2 ) a função geradora bivariada
de momentos de (X, Y ). Então:
Z ∞
t1 X+t2 Y
M(X,Y ) (t1 , t2 ) = E(e )= et1 x+t2 y f (x, y) dydx.
−∞

Além disso

MX (t) = M(X,Y ) (t, 0) eMY (t) = M(X,Y ) (0, t) .

4 Previsão
Vamos apresentar a seção 7.6 da oitava edição do livro do Sheldon Ross- Probabilidade -Um curso moderno com
aplicações.
Às vezes surge uma situação em que o valor de uma variável aleatória X é observado e então, com base no valor
observado, tenta-se prever o valor de uma segunda variável aleatória Y . Suponha que g(X) represente o preditor;
isto é, se X é observado como sendo igual a x, então g(x) nos fornece uma predição para o valor de Y . Claramente,
queremos escolher g de forma que g(X) se aproxime de Y . Um possı́vel critério é escolher g de forma a minimizar
2
E [Y − g(X)] .

12
Mostraremos agora que, de acordo com esse critério, o melhor preditor de Y é

g(X) = E(Y |X).


Proposição 6.1
2
E [Y − g(X)] ≥ E [(Y − E(Y |X))]2 .
 
 
Demonstração. Vamos calcular inicialmente a E (Y − g(X))2 |X .

E (Y − g(X))2 |X = E (Y − E(Y |X) + E(Y |X) − g(X))2 |X


   

E (Y − E(Y |X)|X)2 + (E(Y |X) − g(X))2 |X


   
=
+2E [(Y − E(Y |X)|X).(E(Y |X) − g(X))|X] .

Como dado X , E(Y |X) − g(X) é constante temos que:

E [(Y − E(Y |X)|X).(E(Y |X) − g(X))|X] = (E(Y |X) − g(X)).E [(Y − E(Y |X)|X)]
= (E(Y |X) − g(X)).[E(Y |X) − E(Y |X)]
= 0.

Assim,

E (Y − g(X))2 |X = E (Y − E(Y |X)|X)2 + (E(Y |X) − g(X))2 |X ,


     
 
Como (E(Y |X) − g(X))2 |X ≥ 0 temos que:

E (Y − g(X))2 |X ≥ E (Y − E(Y |X)|X)2 .


   

Vamos calcular a esperança em ambos os lados :

E E (Y − g(X))2 |X ≥ E E (Y − E(Y |X)|X)2 .


     

Logo,
2
E [Y − g(X)] ≥ E [(Y − E(Y |X))]2 .
 

Observação: Um segundo argumento mais intuitivo porém menos rigoroso, que pode ser utilizado para verificar
a proposição 6.1 é dado a seguir. É simples verificar que

E[(Y − c)2 ],
é minimizado em c = E(Y ). Assim, se queremos predizer o valor de Y quando não dispomos de dados para
isso, a melhor predição possı́vel , no sentido de minimizar o erro quadrático médio, é dizer que Y será igual a
sua média. Entretanto, se o valor da variável aleatória é observado como sendo x, então o problema da predição
permanece exatamente igual ao caso anterior com a exceção de que todas as probabilidades e as esperanças estão
agora condicionadas ao evento X = x. Com isso a melhor predição nesta situação é dizer que Y será igual ao seu
valor esperado condicional dado que X = x, o que estabelece a Proposição 6.1.
Exemplo 6a. Suponha que o filho de um homem com altura x, em cm, atinge uma altura que é normalmente
distribuı́da com média (x + 2, 54) e variância 10,16 cm2 . Qual é a melhor predição da altura que o filho irá atingir
se o seu pai tem 1,83 m de altura?
Solução: Formalmente, este modelo pode ser escrito como: Seja X, a altura do pai e Y , a altura do filho.

Y = X + 2, 54 + e,
em que e é uma variável aleatória, com média 0 e variância 10,16 e independente de X. A melhor predição
E[Y |X = 183] é portanto igual a

13
E(Y |X = 183) = E(X + 2, 54 + e|X = 183)
= E(X) + 2, 54 + E(e|X)
= E(X) + 2, 54 + E(e), pela independência
= 183 + 2, 54 + 0
= 185, 54 cm

Exemplo 6b Suponha que, se um sinal com valor s é enviado do ponto A, o valor recebido no ponto B seja
normalmente distribuı́do com parâmetros (s, 1). Se S, o valor enviado em A, é normalmente distribuı́do com
parâmetros (µ, σ 2 ), qual é a melhor estimativa para o sinal enviado se R, o valor recebido em B, é igual a r?
Solução.
Pelo enunciado temos que S ∼ N (µ, σ 2 ) e R|S = s ∼ N (s, 1).
A f.d.p. de S é dada por:

(s − µ)2
1 −
fS (s) = √ e 2σ 2 ,
2π σ
A f.d.p. de R|S = s é dada por:

(r − s)2
1 −
fS|R=r (s|r) = √ e 2 .

A densidade conjunta de (S, R) é dada por:

fS,R (r, s) = fS (s)fS|R=r (s|r)


(s − µ)2
 
1
− (r−s)2 +
1

2 σ2
= e
2πσ
(s − µ)2
 
1
− (s−r)2 +
1

2 σ2
= e
2πσ

Vamos analisar a expressão

(s − µ)2
(s − r)2 + ,
σ2
para completar um quadrado da forma (s − c)2 . Vamos utilizar o resultado:
( Livro Estatı́stica Bayesiana, Paulino C.D. et all-pags 147 e 148)
Para completar os quadrados use a identidade:
d1 d2
d1 (z − c1 )2 + d2 (z − c2 )2 = (d1 + d2 )(z − c)2 + (c1 − c2 )2 ,
d1 + d2
d1 c1 + d2 c2
em que c = .
d1 + d2
Assim,
1
d1 = 1, d2 = , c1 = r e c2 = µ,
σ2
Logo,
µ
r+2 µ + rσ 2
c= σ = .
1 1 + σ2
1+ 2
σ
1 1 + σ2
d1 + d2 = 1 + 2
= .
σ σ2

14
d1 d2 1
= ,
d1 + d2 1 + σ2
e
(c1 − c2 )2 = (r − µ)2 .
Note que o núcleo

(z − c)2
(d1 + d2 )(z − c)2 = ,
1
d1 + d2
Como 1/2 foi posto em evidência então é o núcleo de uma normal com média c e variância

1 σ2
σ∗2 = .
d1 + d2 1 + σ2
Mas,
d1 d2 r−µ
(c1 − c2 )2 = .
d1 + d2 2(1 + σ 2 )
Assim

(r − µ)2 (s − c)2
− −
1 2 2σ∗2 .
fS,R (r, s) = e 2(1 + σ ) e
2πσ

A marginal de R é dada por:

Z ∞
fR (s) = f (r, s) ds
−∞

(r − µ)2 Z √ (s − c)2
− ∞ −
1 2 1 1 + σ2 2σ∗2 ds
= p e 2(1 + σ ) √ e
2π(1 + σ 2 ) −∞ 2π σ

(r − µ)2 Z (s − c)2
− ∞ −
1 2 1 2σ∗2 ds
= p e 2(1 + σ ) √ e
2π(1 + σ 2 ) −∞ 2π σ∗
(r − µ)2

1 2
= p e 2(1 + σ ) .
2π(1 + σ 2 )

Logo, R ∼ N (µ, (1 + σ 2 ))
A distribuição condicional de S|R = r é dada por:

(s − c)2

1 2σ∗2 ,
fS|R=r (s|r) = √ e
2π σ∗
que é normal com:

µ + rσ 2 1 σ2
E(S|R = r) = 2
= 2
µ+ r,
1+σ 1+σ 1 + σ2
e

σ2
V ar(S|R) = .
1 + σ2

15
Escrever a média condicional (melhor preditor)como acabamos de fazer é informativo, pois isto mostra que ela
é ponderada de µ, o valor do sinal a priori, e r, o valor recebido. Os pesos relativos dados a µ e r tem entre sia
mesma proporção que 1(a variância condicional do sinal recebido quando s é enviado ) tem para σ 2 ( a variância
do sinal enviado).
Às vezes, acontece da distribuição de probabilidade conjunta de X e Y não ser completamente conhecida, ou se
for conhecida, ela ser tal que o cálculo de E[Y |X = x] seja matematicamente intratável. Se, no entanto, a média,
a variância e a correlação de X e Y são conhecidos, então podemos pelo menos determinar o melhor preditor de Y
com respeito a X.
Para obter o melhor preditor de Y , g(X) = a + bX, precisamos escolher a e b que minimizem

h(a, b) = E[(Y − g(X))2 ] = E[(Y − a − bX)2 ].


Vamos desenvolver o quadrado:

h(a, b) = E(Y 2 − 2aY − 2bXY + a2 + b2 X 2 + 2abX),


e finalmente,

h(a, b) = E(Y 2 ) − 2aE(Y ) − 2bE(XY ) + a2 + b2 E(X 2 ) + 2abE(X).


Vamos calcular as derivadas parciais:

∂h(a, b)
= −2E(Y ) + 2a + 2bE(X) = 0 (7)
∂a
e
∂h(a, b)
= −2E(XY ) − 2aE(X) + 2bE(X 2 ) = 0 (8)
∂b
Assim obtemos o sistema linear:

a + E(X) b = E(Y )
e

E(X) a + E(X 2 ) b = E(XY )


O determinante principal é dado por:

1 E(X) = E(X 2 ) − E 2 (X) = V (X).

∆P =
E(X) E(X 2 )
O determinante para a incógnita b é dado por:

1 E(Y )
∆B = = E(XY ) − E(X)E(Y ) = Cov(X, Y ).
E(X) E(XY )
E assim

∆b Cov(X, Y ) ρσX σY σY
b= = = =ρ .
∆P V (X) V (X) σX
O valor de a é dado por:

a = E(Y ) − bE(X).
O melhor preditor linear de Y com respeito a X

σY
E(Y ) + ρ (X − E(X)).
σX
O erro médio quadrático desse preditor é dado por:

16
 2 !
σY
EQM = E Y − E(Y ) − ρ [(X − E(X)] .
σX
Assim,
   σ 2   σY
2 Y 2
EQM = E [Y − E(Y )] + ρ E [X − E(X)] − 2ρ E ([(X − E(X))(Y − E(Y ))] .
σX σX

Logo,

EQM = V (Y ) + ρ2 V (Y ) − ρ2 V (Y ) = (1 − ρ2 ) V (Y ).
Observamos que, se a correlação está próxima de +1 ou de −1, então o erro quadrático do melhor preditor
linear é aproximadamente nulo.
Exemplo 6d Um exemplo no qual a esperança condicional de Y dado X é linear em X, e portanto no qual o
melhor preditor linear de Y com respeito a X é o melhor preditor possı́vel , é aquele em que X e Y tem uma
distribuição normal bivariada. Neste caso
σY
E(Y |X = x) = E(Y ) + ρ (X − E(X)).
σX
Vamos agora refazer alguns exemplos da seção 7.5.
Um minerador está preso em uma mina contendo 3 portas. A primeira porta leva a um túnel que o levará
á saı́da após 3 horas de viagem. A segunda porta leva a um túnel que fará com que ele retorne à mina após 5
horas de viagem. A terceira porta leva a um túnel que fará com que ele retorne à mina após 7 horas de viagem.
Se considerarmos que o minerador pode escolher qualquer uma das portas com igual probabilidade, qual o tempo
esperado para que ele chegue à saı́da?
Solução:
Suponha que X represente o tempo ,em horas, até que o minerador consiga sair e Y o número da porta que ele
escolheu (1,2, ou 3). Assim,
A distribuição de Y é dada por:
1
P (Y = y) = I{1,2,3} (y).
3
Vamos calcular o valor esperado de X usando esperança condicional.

E(X) = E(E(X|Y ))
= E(X|Y = 1)P (Y = 1) + E(X|Y = 2)P (Y = 2) + E(X|Y = 3)P (Y = 3)
1
= [E(X|Y = 1) + E(X|Y = 2) + E(X|Y = 3)] .
3

No entanto,

E(X|Y = 1) = 3,
com certeza após 3 horas ele conseguirá sair da mina.
Mas,

E(X|Y = 2) = E[5 + X ∗ ] = 5 + E(X∗) = 5 + E(X),


pois se o minerador escolher a segunda porta ele gastará 5 horas e volta ao ponto inicial. Seja X∗ o tempo que
ele levará para deixar a mina e esta variável terá mesma distribuição de X.
De maneira similar temos:

E(X|Y = 3) = E[7 + X ∗ ] = 7 + E(X∗) = 7 + E(X).


Desta maneira
1 1
E(X) = [3 + 5 + E(X) + 7 + E(X)] = [15 + 2E(X)],
3 3

17
3E(X) = 15 + 2E(X),
e
E(X) = 15 horas.
Vamos calcular agora V (X) = E(X 2 ) − E 2 (X.)

E(X 2 ) = E(E(X 2 |Y ))
= E(X 2 |Y = 1)P (Y = 1) + E(X 2 |Y = 2)P (Y = 2) + E(X 3 |Y = 3)P (Y = 3)
1
E(X 2 |Y = 1) + E(X 2 |Y = 2) + E(X 2 |Y = 3) .

=
3

No entanto,

E(X 2 |Y = 1) = 32 = 9,
com certeza após 3 horas ele conseguirá sair da mina.
Mas,

E(X 2 |Y = 2) = E[(5 + X ∗ )2 ] = 25 + 10E(X∗) + E(X∗2 ) = 25 + 10E(X) + E(X 2 ) = 175 + E(X 2 ),

pois se o minerador escolher a segunda porta ele gastará 5 horas e volta ao ponto inicial. Seja X∗ o tempo que
ele levará para deixar a mina e esta variável terá mesma distribuição de X.
De maneira similar temos:

E(X|Y = 3) = E[()7 + X ∗ )2 ] = 49 + 14E(X∗) + E(X∗2 ) = 49 + 14E(X) + E(X 2 ) = 259 + E(X 2 ).

Desta maneira
1 1
E(X 2 ) = [9 + 175 + E(X 2 ) + 259 + E(X 2 )] = [334 + 2E(X 2 )],
3 3

3E(X 2 ) = 334 + 2E(X 2 ),


e
E(X 2 ) = 334 horas2 .
e
V (X) = E(X 2 ) − E 2 (X.) = 334 − 225 = 109 horas2
.
Exemplo 5d
Suponha que o número de pessoas que entram em uma loja de departamentos em determinado dia seja uma
variável aleatória com média 50. Suponha ainda que as quantias de dinheiro gastas por esses clientes sejam variáveis
independentes com média comum 800 reais. Finalmente, suponha também que a quantia gasta por um cliente seja
independente do número total de clientes que entram na loja. Qual é a quantidade esperada de dinheiro gasta na
loja em um dado dia?
Solução: Se N representa o número de clientes que entram na loja e Xi a quantidade de dinheiro gasta pelo
i-ésimo cliente, então a quantidade total de dinheiro gasta pode ser escrita como
N
X
SN = Xi .
i=1

Queremos calcular E(SN ) usando argumentos de esperança condicional. Assim,


"N #
X
E(SN ) = E [SN |N ] = E Xi |N .
i=1

18
Mas,

" N
# " n #
X X
E Xi |N = n = E Xi |N
i=1 i=1
" n #
X
= E Xi , pela independencia entre Xi e N
i=1
= n(X), onde E(X) = E(Xi ).

O que implica que


"N #
X
E Xi |N = N E(X).
i=1

Assim, "N #
X
E(SN ) = E [SN |N ] = E Xi |N = E[N E(X)] = E(N )E(X),
i=1

que é a famosa equação de Wald.


Como isso, em nosso exemplo, a quantidade esperada de dinheiro gasta na loja é dada por:

E(SN ) = 50 × 800 = 4000 reais.


Vamos mostrar agora que:

V ar(SN ) = E(N ) V ar(X) + [E(X)]2 V ar(N ).


Solução:
Sabemos que:

V ar[SN |N = n] = V ar(X1 + X2 + . . . + Xn |N = n)
= V ar(X1 + X2 + . . . + Xn )
= nV ar(X)

Assim,

V ar(SN |N ) = N var(X).

V ar(SN ) = E[V ar(SN )|N ] + V ar[E(SN |N )]


= E[N V ar(X)] + V ar[E(X)N ]
= E[N ] V ar(X) + [E(X)]2 V ar(N ).

5 Função de Distribuição Acumulada Bidimensional


Seja (X, Y ) um vetor aleatório contı́nuo bidimensional com função densidade conjunta dada por f(X,Y ) (x, y). A
Função de Distribuição Conjunta Bidimensional Contı́nua do vetor aleatório (X, Y ) é definida por:

F : R2 → [0, 1]

Z x Z y
F (x, y) = P (X ≤ x, Y ≤ y) = f(X,Y ) (u, v)dv du.
−∞ −∞

19
1. Propriedades da Função de Distribuição Acumulada Bivariada de Qualquer Tipo.

a. F (−∞ , y) = lim F (x, y) = 0 ∀ y.


x→−∞

b. F (x, −∞ ) = lim F (x, y) = 0 ∀ x.


y→−∞

c. lim F (x, y) = F (∞ , ∞) = 1.
x→∞,y→∞

d. Se x1 < x2 e y1 < y2 , então:

P (x1 < X ≤ x2 , y1 < Y ≤ y2 ) = F (x2 , y2 ) − F (x2 , y1 ) − F (x1 , y2 ) + F (x1 , y1 ) ≥ 0.

e. F (x, y) é contı́nua à direita em cada argumento, isto é,

lim F (x + h, y) = lim F (x, y + h) = F (x, y).


0<h→0 0<h→0

Além disso:

a. FX (x) = F(X,Y ) (x, ∞).


b. FY (y) = F(X,Y ) (∞ , y).
c. Se X e Y são independentes então: F(X,Y ) (x, y) = FX (x)FY (y), ∀ (x, y) ∈ R2 .
d. p
max(0, FX (x) + FY (y) − 1) ≤ F(X,Y ) (x, y) ≤ FX (x)FY (y), ∀ (x, y) ∈ R2 .

Vamos calcular a acumulada bidimensional dos quatro exemplos a seguir:

20
2. Calcule a função de distribuição acumulada do vetor aleatório bidimensional (X, Y ) com f.d.p.c dada por:

f (x, y) = e−(x+y) I (0 , ∞) (x) I (0 , ∞) (y).

3. Calcule a função de distribuição acumulada do vetor aleatório bidimensional (X, Y ) com f.d.p.c dada por:

1
f (x, y) = I (0 , 2) (x) I (0 , 2) (y).
4

4. Calcule a função de distribuição acumulada do vetor aleatório bidimensional (X, Y ) com f.d.p.c dada por:

3
f (x, y) = (x2 + xy) I (0 , 2) (x) I (0 , 4) (y).
80

5. Calcule a função de distribuição acumulada do vetor aleatório bidimensional (X, Y ) com f.d.p.c dada por:

f (x, y) = 2 I (0 , 1) (x) I (x , 1) (y).


6. Verifique se G é uma função de distribuição acumulada do vetor aleatório bidimensional (X, Y ).
h i
G(x, y) = 1 − 2 e−2(x+y) I (0 , ∞) (x) I (0 , ∞) (y).

6 Transformação no Caso Bidimensional


1. Teorema 1: Sejam X1 e X2 variáveis aleatórias com função densidade de probabilidade conjunta f (x1 , x2 ).
Seja o suporte

A = {(x1 , x2 ) ∈ R2 ; f (x1 , x2 ) > 0}.


Suponha que:

i. y1 = h1 (x1 , x2 ) e y2 = h2 (x1 , x2 ) definam uma transformação biunı́voca de A em B.


ii. As derivadas parciais de primeira ordem de x1 = g1−1 (x1 , x2 ) = w1 (y1 , y2 ) e
x2 = g2−1 (x1 , x2 ) = w2 (y1 , y2 ) sejam funções contı́nuas em B.
iii. O jacobiano da transformação:

∂x1 ∂x1
∂y1 ∂y2
J = ∂x2 ∂x2 ,
∂y1 ∂y2
seja diferente de zero em B.
A densidade de Y1 = h1 (X1 , X2 ) e Y2 = h2 (X1 , X2 ) com suporte B é dada por:

g(y1 , y2 ) = f (w1 (y1 , y2 ), w2 (y1 , y2 )) |J| IB (y1 , y2 ).

2. Teorema 2: Sejam X1 e X2 variáveis aleatórias com função densidade de probabilidade conjunta f (x1 , x2 ).
Suponha que o suporte

A = {(x1 , x2 ) ∈ R2 ; f (x1 , x2 ) > 0},


possa ser decomposto em uma partição A1 , A2 , . . . , Am .
Suponha ainda que:

21
i. y1 = h1 (x1 , x2 ) e y2 = h2 (x1 , x2 ) definam uma transformação biunı́voca de Ai em B para i = 1, 2, . . . , m.
−1
ii. As derivadas parciais de primeira ordem de x1i = g1i (x1 , x2 ) = w1i (y1 , y2 ) e
−1
x2i = g2i (x1 , x2 ) = w2i (y1 , y2 ),i = 1, 2, . . . , m, sejam funções contı́nuas em B.
iii. O jacobiano da transformação:

∂x1i ∂x1i
∂y1 ∂y2
Ji = ,

∂x2i ∂x2i
∂y1 ∂y2
seja diferente de zero em B.
A densidade de Y1 = h1 (X1 , X2 ) e Y2 = h2 (X1 , X2 ) com suporte B é dada por:
m
X
g(y1 , y2 ) = f (w1i (y1 , y2 ), w2i (y1 , y2 )) |Ji | IB (y1 , y2 ).
i=1

3. Teorema 3: Sejam X1 , X2 , . . . , Xn variáveis aleatórias com função densidade de probabilidade conjunta


f (x1 , x2 , . . . , xn ). Seja o suporte

A = {(x1 , x2 , . . . , xn ) ∈ Rn ; f (x1 , x2 , . . . , xn ) > 0}.

Suponha que:

i. y1 = h1 (x1 , x2 , . . . , xn ), y2 = h2 (x1 , x2 , . . . , xn ), . . . , yn = hn (x1 , x2 , . . . , xn ) definam uma transformação


biunı́voca de A em B.
ii. As derivadas parciais de primeira ordem de x1 = g1−1 (x1 , x2 ) = w1 (y1 , y2 , . . . , yn ),
x2 = g2−1 (x1 , x2 , . . . , xn ) = w2 (y1 , y2 , . . . , yn ), . . . , xn = gn−1 (x1 , x2 , . . . , xn ) = wn (y1 , y2 , . . . , yn ) sejam
funções contı́nuas em B.
iii. O jacobiano da transformação:

∂x1 ∂x1
... ∂x1
∂y1 ∂y2 ∂yn
... ... ... . . .

J = ∂x 2 ∂x2
... ∂x2
∂yn ,

∂y1 ∂y2
... ... ... ...
∂xn ∂xn ∂xn
∂y
1 ∂y2 ... ∂y n

seja diferente de zero em B.

A densidade de Y1 = h1 (X1 , X2 , . . . , Xn ), Y2 = h2 (X1 , X2 , . . . , Xn ), . . . , hn (X1 , X2 ), . . . , Xn ) com suporte B


é dada por:

g(y1 , y2 , . . . , yn ) = f (w1 (y1 , y2 , . . . , yn ), . . . , wn (y1 , y2 , . . . , yn )) |J| IB (y1 , y2 , . . . , yn ).

22
4. Teorema 4: Sejam X1 , X2 , . . . , Xn variáveis aleatórias com função densidade de probabilidade conjunta
f (x1 , x2 , . . . , xn ). Seja o suporte

A = {(x1 , x2 , . . . , xn ) ∈ Rn ; f (x1 , x2 , . . . , xn ) > 0},

Suponha que ele possa ser decomposto em uma partição A1 , A2 , . . . , Am


Suponha ainda que:

i. y1 = h1 (x1 , x2 , . . . , xn ), y2 = h2 (x1 , x2 , . . . , xn ), . . . , yn = hn (x1 , x2 , . . . , xn ) definam uma transformação


biunı́voca de Ai em B, i = 1, 2, . . . , m.
−1
ii. As derivadas parciais de primeira ordem de x1 = g1i (x1 , x2 ) = w1i (y1 , y2 , . . . , yn ),
−1 −1
x2 = g2i (x1 , x2 , . . . , xn ) = w2i (y1 , y2 , . . . , yn ), . . . , xn = gni (x1 , x2 , . . . , xn ) = wni (y1 , y2 , . . . , yn ) sejam
funções contı́nuas em B.
iii. O jacobiano da transformação:

∂x1i ∂x1i
... ∂x1i
∂y1 ∂y2 ∂yn
... ... ... . . .

Ji = ∂x 2i ∂x2i
... ∂x2i
∂yn ,

∂y1 ∂y2
... ... ... ...
∂xni ∂xni ∂xni
∂y
1 ∂y2 ... ∂y n

seja diferente de zero em B, i = 1, 2, . . . , m.

A densidade de Y1 = h1 (X1 , X2 , . . . , Xn ), . . . , Xn ), Y2 = h2 (X1 , X2 , . . . , Xn ), . . . , hn (X1 , X2 ), . . . , Xn ) com


suporte B é dada por:

m
X
g(y1 , y2 , . . . , yn ) = f (w1i (y1 , y2 , . . . , yn ), . . . , wni (y1 , y2 , . . . , yn )) |Ji | IB (y1 , y2 , . . . , yn ).
i=1

7 Transformações do Vetor Aleatório Contı́nuo Bidimensional


(X,Y).

Seja (X, Y ) um vetor aleatório contı́nuo bidimensional com função densidade de probabilidade conjunta dada por
f (x, y) com suporte A. Sejam fX (x) e fY (y) as marginais.

7.1 Função Densidade de Probabilidade da Soma S=X+Y.

Z ∞
fS (s) = f (x, s − x)dx,
−∞

se X e Y forem Independentes
Z ∞
fS (s) = fX (x)fY (s − x)dx.
−∞

Prova: Considere a variável auxiliar A = X.


Temos que:
x = a = w1 (s, a) e y = s − a = w2 (s, a).
O Jacobiano da transformação é dado por:

23
∂x ∂x


∂s =0 ∂a = 1
J = = −1,
∂y ∂y


∂s =1 ∂a = −1
A única condição é que o Jacobiano seja diferente de zero em B.
Assim
|J| = 1.
A densidade de S = h1 (X, Y ) = X + Y e A = h2 (X, Y ) = X com suporte B é dada por:

g(s, a) = f (w1 (s, a), w2 (s, a)) |J| IB (s, a).


Assim,

g(s, a) = f (a, s − a) IB (s, a).


A densidade de S é dada por:
Z ∞
fS (s) = f (a, s − a)da,
−∞

que pode ser posto na forma x = a


Z ∞
fS (s) = f (x, s − x)dx.
−∞

Se X e Y forem independentes forem


Z ∞
fS (s) = fX (x)Fy (s − x)dx.
−∞

Exemplos: Calcule a distribuição da soma S = X + Y .

1.
f (x, y) = (x + y) IA (x) IA (y), A = [0, 1].

Solução: Como 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1
temos 0 ≤ x + y ≤ 2, isto é, 0 ≤ s ≤ 2.
A densidade de S é dada por:
Z ∞
fS (s) = f (x, s − x)dx
−∞
Z ∞
= (x + s − x) I[0,1] (x) I[0,1] (s − x)dx
−∞
Z ∞
= s I[0,1] (x) I[0,1] (s − x)dx
−∞
Z b
= s 1 dx
a
= s(b − a),

A variação de x entre a e b sai das inequações:

I[0,1] (x) = 1,

o que acarreta

0≤x≤1 (9)

24
Por outro lado
I[0,1] (s − x) = 1,
nos leva a:
0 ≤ s − x ≤ 1 ou

s−1≤x≤s (10)

.
De (1) e (2) temos:

max(0, s − 1) ≤ x ≤ min(1, s) (11)

.
logo a = max(0, s − 1) e b = min(1, s)
A densidade de S é dada por:

fS (s) = s[(min(1, s) − max(0, s − 1)] I[0,2] (s).

Que também pode ser posta na forma:

fS (s) = s2 I[0,1] (s) + s(2 − s) I[1,2] .

2. X ∼ Exp(1), Y ∼ Exp(1), independentes. A conjunta de (X, Y ) é dada por:

f (x, y) = exp[−(x + y)] I(0,∞) (x) I(0,∞) (y).

Como x > 0 e y > 0 temos que s = x + y > 0.


A densidade de S é dada por:
Z ∞
fS (s) = f (x, s − x)dx
−∞
Z ∞
= exp[−(x + s − x)] I(0,∞) (x) I(0,∞) (s − x)dx
−∞
Z ∞
= exp(−s) I(0,∞) (x) I(0,∞) (s − x)dx
−∞
Z b
= exp(−s) 1 dx
a
= exp(−s)(b − a),

A variação de x entre a e b sai das inequações:

I(0,∞) (x) = 1,

o que acarreta

x>0 (12)

.
Por outro lado
I(0,∞) (s − x) = 1,
nos leva a:

25
s−x>0

x≤s (13)

.
De (4) e (5) temos:

0≤x≤s (14)

.
logo a = 0, b = s e b − a = s
A densidade de S é dada por:

fS (s) = s e−s I(0,∞ (s),

que é a densidade da gama (2,1).

3. X ∼ U [0, 2] Y ∼ U [0, 2], X e Y independentes.


A conjunta de (X, Y ) é dada por:

1
f (x, y) = IA (x) IA (y), A = [0, 2]).
4
Solução: Como 0 ≤ x ≤ 2 e 0 ≤ y ≤ 2
temos 0 ≤ x + y ≤ 4, isto é, 0 ≤ s ≤ 4.
A densidade de S é dada por:
Z ∞
fS (s) = f (x, s − x)dx
−∞
Z ∞
1
= I[0,2] (x) I[0,2] (s − x)dx
−∞ 4
Z ∞
1
= I[0,2] (x) I[0,2] (s − x)dx
4 −∞
Z b
1
= s 1 dx
4 a
b−a
= ,
4

A variação de x entre a e b sai das inequações:

I[0,2] (x) = 1,

o que acarreta

0≤x≤2 (15)

.
Por outro lado
I[0,2] (s − x) = 1,
nos leva a:
0 ≤ s − x ≤ 2 ou

26
s−2≤x≤s (16)

.
De (1) e (2) temos:

max(0, s − 2) ≤ x ≤ min(2, s) (17)

.
logo a = max(0, s − 2) e b = min(2, s)
A densidade de S é dada por:

(min(2, s) − max(0, s − 2)
fS (s) = I[0,4] (s).
4
Que também pode ser posta na forma:

s 4−s
fS (s) = I[0,2] (s) + I[2,4] ,
4 4
que é a densidade da triangular com a = 0, b = 4 e c = 2.
4. Seja (X, Y ) com distribuição uniforme na região:

A = {(x, y) ∈ R2 | x > 0, y > 0 e x + y ≤ 1}.

A área de A vale 1/2. Assim a f.d.p. c. de (X, Y ) é dada por:

f (x, y) = 2I(0,1) (x) I(0,1−x) (y).

Como 0 < x + y ≤ 1 temos que 0 < s ≤ 1


A densidade de S é dada por:
Z ∞
fS (s) = f (x, s − x)dx
−∞
Z ∞
= 2 I(0,1] (x) I(0,1−x] (s − x)dx
−∞
Z b
= 2 1 dx
a
= 2(b − a).

A variação de x entre a e b sai das inequações:

I[0,1] (x) = 1,

o que acarreta

0≤x≤1 (18)

.
Por outro lado
I[0,1−x] (s − x) = 1,
nos leva a:

0≤s−x≤1−x

27
ou
Da inequação
0≤s−x
temos que

x≤s (19)

.
Da inequação
s−x≤1−x
temos que
s ≤ 1.

De (10) e (11) temos:

0 ≤ x ≤ min(1, s) = s (20)

.
logo a = 0 e b = s.
A densidade de S é dada por:

fS (s) = 2s I(0,1] (s),

que é a densidade da beta(2,1).

7.2 Função Densidade de Probabilidade da Diferença D=X-Y.

Z ∞
fD (d) = f (d + y, y)dy,
−∞

se X e Y forem Independentes
Z ∞
fD (d) = fX (d + y)fY (y)dx.
−∞

Prova: Considere a variável auxiliar A = Y . Temos que: d = x − y e a = y .Assim


x = d + a = w1 (d, a) e y = d = w2 (d, a).
O Jacobiano da transformação é dado por:

∂x ∂x


∂d =1 ∂a = 1
J = = 1,

∂y ∂y

∂d =0 ∂a =1
seja diferente de zero em B.
Assim |J| = 1.
A densidade de D = h1 (X, Y ) = X − Y e A = h2 (X, Y ) = Y com suporte B é dada por:

g(d, a) = f (w1 (d, a), w2 (d, a)) |J| IB (d, a).

Assim,

g(d, a) = f (d + a, a) ; IB (d, a).

28
A densidade de D é dada por:
Z ∞
fD (d) = f (d + a, a)da,
−∞

que pode ser posto na forma y = a


Z ∞
fD (d) = f (d + y, y)dy.
−∞

Se X e Y forem independentes forem


Z ∞
fD (d) = fX (d + y)fY (y)dy.
−∞

Exemplos: Calcule a distribuição da diferença D = X − Y .


5. X ∼ U [0, 1] Y ∼ U [0, 1], X e Y independentes.
A conjunta de (X, Y ) é dada por:

f (x, y) = IA (x) IA (y), A = [0, 1]).

Solução: Como 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1
temos −1 ≤ x − y ≤ 1, isto é, −1 ≤ d ≤ 1.
A densidade de D é dada por:
Z ∞
fD (d) = f (d + y, y)dy
−∞
Z ∞
= I(0,1) (d + y)I(0,1) (y)
−∞
Z b
= dy
a
= (b − a),

A variação de x entre a e b sai das inequações:

I[0,1] (y) = 1,

o que acarreta

0≤y≤1 (21)

.
Por outro lado
I[0,1] (d + y) = 1,
nos leva a:

0≤d+y ≤1
ou

−d ≤ y ≤ 1 − d
temos que

−d ≤ y ≤ 1 − d (22)

29
.
De (10) e (11) temos:

max(0, −d) ≤ y ≤ min(1, 1 − d) (23)

.
logo a = max(0, −d) e b = min(1, 1 − d) e

b − a = min(1, 1 − d) − max(0, −d).

Sabemos que

2min(a, b) = a + b − |a − b|.

Logo,

2min(1, 1 − d) = 1 + 1 − d − |d| = 2 − d − |d|.

Logo,

2min(1, 1 − d) = 1 + 1 − d − |d| = 2 − d − |d|.

Sabemos que

2max(a, b) = a + b + |a − b|.

Logo,

2max(0, −d) = 0 − d + |d| = −d + |d|.

Assim,

2(b − a) = 2[min(1, 1 − d) − max(0, −d)] = [2 − d − |d| + d − |d|] = 2[1 − |d|]

Assim,

fD (d) = 2[1 − |d|] I[−1,1] (d),

que é a densidade da triangular com parâmetros a = −1, b = 1 e c = 0.


6. X ∼ Exp(1), Y ∼ Exp(1), independentes.
A conjunta de (X, Y ) é dada por:

f (x, y) = exp[−(x + y)] I(0,∞) (x) I(0,∞) (y).

Como x > 0 e y > 0 temos que −∞ < d = x − y < ∞.

30
A densidade de D é dada por:
Z ∞
fD (d) = f (d + y, y)dy
−∞
Z ∞
= exp[−(d + y + y)] I(0,∞) (d + y) I(0,∞) (y)dy
−∞
Z ∞
= exp(−d) exp[−2y] I(0,∞) (d + y) I(0,∞) (y)dy
−∞
Z ∞
= exp(−d) exp[−2y] dy
max(0,−d)
1
= exp(−d) exp[−2max(0, −d)]
2
1
= exp[−(d + 2max(0, −d)]
2
1
= exp[−|d|].
2
Vamos explicar com detalhes a mágica utilizada.
A variação de y sai das inequações:

I(0,∞) (y) = 1,

o que acarreta

y>0 (24)

.
Por outro lado
I(0,∞) (d + y) = 1,
nos leva a:

d+y >0

y ≤ −d (25)

.
De (13) e (14) temos:

y ≤ max(0, −d) (26)

.
Por outro lado sabemos que

a + b + |a − b|
max(a, b) = ,
2
assim,

2max(a, b) = a + b + |a − b|.

Fazendo a = 0 e b = −d temos:

2max(0, −d) = 0 − d + |0 + d| = −d + |d|,

31
que nos leva a:

d + 2max(0, −d) = |d|.


A densidade de D é dada por:

1
fD (d) = exp[−|d|] I(−∞,∞) (d),
2
que é a densidade da Laplace padrão (0,1).

7.3 Função Densidade de Probabilidade do Produto U=XY.

Z ∞
1 u
fU (u) = f (x, )dx,
−∞ |x| x
se X e Y forem Independentes
Z ∞
1 u
fU (u) = fX (x)fY ( ))dx.
−∞ |x| x
Prova: Considere a variável auxiliar A = X. Temos que: u = xy e a = x .Assim
u
x = a = w1 (u, a) e y = = w2 (u, a).
a
O Jacobiano da transformação é dado por:

∂x ∂x


∂u =0
∂a =1
1
J = =− ,

∂y 1 ∂y u a
∂u = a ∂a = − a2


seja diferente de zero em B, isto é, que a não seja nulo..
Assim
1
|J| = .
|a|
A densidade de U = h1 (X, Y ) = XY e A = h2 (X, Y ) = X com suporte B é dada por:

g(u, a) = f (w1 (u, a), w2 (u, a)) |J| IB (u, a).


Assim,

1 u
g(u, a) = ; ; f (a, ) ; IB (u, a).
|a| a
A densidade de U é dada por:
Z ∞
1 u
fU (u) = f (a, )da,
−∞ |a| a
que pode ser posto na forma x = a
Z ∞
1 u
fU (u) = ; f (a, )dx.
−∞ |a| x
Se X e Y forem independentes forem
Z ∞
1 u
fU (u) = ; fX (x)fY ( )dx.
−∞ |x| x
Exemplos: Calcule a distribuição do produto U = XY

32
7. X ∼ U [0, 1] Y ∼ U [0, 1], X e Y independentes.
A conjunta de (X, Y ) é dada por:

f (x, y) = IA (x) IA (y), A = [0, 1]).

Solução: Como 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1
temos 0 ≤ xy ≤ 1, isto é, 0 ≤ u ≤ 1.
A densidade de U é dada por:
Z ∞
1 u
fU (u) = fX (x)fY ( )dx
−∞ |x| x
Z ∞
1 u
= I(0,1) ( ) I(0,1) (x)dx
−∞ |x| x
Z 1
1
= dx
u x
= −ln(u) I(0,1) (u)

A f.d.p. de U = XY é dada por:

fU (u) = −ln(u) I(0,1) (u).

8. X ∼ Exp(1), Y ∼ Exp(1), independentes.


A conjunta de (X, Y ) é dada por:

f (x, y) = exp[−(x + y)] I(0,∞) (x) I(0,∞) (y).

Como x > 0 e y > 0 temos que u = xy > 0.


A densidade de U é dada por:
Z ∞
1 u
fU (u) = fX (x)fY ( )dx
−∞ |x| x
Z ∞
1 u u
= exp[−( + x)] I(0,∞) ( ) I(0,∞) (x)dx
−∞ |x| x x
Z ∞
1 u
= exp[−( + x)]dx,
0 x x

que não tem uma forma fechada.


A f.d.p de U = XY é dada por:
Z ∞
1 u
fU (u) = exp[−( + x)]dx I(0,∞) (u).
0 x x

X
7.4 Função Densidade de Probabilidade do Quociente V = Y
.

Z ∞
fV (v) = |y|f (vy, y)dy,
−∞

se X e Y forem Independentes
Z ∞
fV (v) = |y|fX (vy)fY (y)dy.
−∞

33
x
Prova: Considere a variável auxiliar A = Y . Temos que: v = e a = y. Assim
y
x = va = w1 (v, a) e y = a = w2 (v, a).
O Jacobiano da transformação é dado por:

∂x ∂x


∂v =a ∂a = v
J = = a,

∂y ∂y

∂v =0 ∂a =1
que é diferente de zero em B desde que a não seja nulo.
Assim |J| = |a|.
X
A densidade de V = h1 (X, Y ) = e A = h2 (X, Y ) = Y com suporte B é dada por:
Y

g(v, a) = f (w1 (v, a), w2 (v, a)) |J| IB (v, a).

Assim,

g(v, a) = |a| f (va, a) ; IB (v, a).

A densidade de V é dada por:


Z ∞
fV (v) = |a| f (va, a)da,
−∞

que pode ser posto na forma y = a


Z ∞
fV (v) = |y| f (vy, y)dy.
−∞

Se X e Y forem independentes forem


Z ∞
fD (d) = fX (d + y)fY (y)dy.
−∞

X
Exemplos: Calcule a distribuição do quociente V = .
Y
9. X ∼ Exp(1), Y ∼ Exp(1), independentes.
A conjunta de (X, Y ) é dada por:

f (x, y) = exp[−(x + y)] I(0,∞) (x) I(0,∞) (y).


x
Como x > 0 e y > 0 temos que v = > 0.
y
A densidade de V é dada por:
Z ∞
fV (v) = |x| fX (vy)fY (y)dy
−∞
Z ∞
= |x|exp[−(vy + y)] I(0,∞) (vy) I(0,∞) (y)dy
−∞
Z ∞
= yexp[−(1 + v)y]dy
0
Z ∞
1
= y(1 + v)exp[−(1 + v)y]dy
1+v 0
1
= E(Y ∗), Y ∗ ∼ exp(1 + v)
1+v
1
= I(0,∞) (v),
(1 + v)2

34
que é a densidade da F (2, 2).
10. X ∼ U [0, 1] Y ∼ U [0, 1], X e Y independentes.
A conjunta de (X, Y ) é dada por:

f (x, y) = IA (x) IA (y), A = [0, 1]).

Solução: Como 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1
x
temos 0 ≤ ≤ ∞, isto é, 0 ≤ v ≤ ∞.
y
A densidade de V é dada por:

|
Z
fV (v) = | fX (vy)fY (y)dy
−∞ y
Z ∞
= |y| I(0,1) (vy) I(0,1) (y)dy
−∞
Z b
= ydy
a
b − a2
2
=
2

A variação de y sai das inequações:

I(0,1) (y) = 1,

o que acarreta

0<y<1 (27)

.
Por outro lado
I(0,∞) (vy) = 1,
nos leva a:

0 < vy < 10

0 < y < 1/v (28)

.
De (19) e (20) temos:

0 < y ≤ min(1, 1/v) (29)

.
X
A f.d.p. de V = é dada por:
Y
2
[min(1, 1/v)]
fV (v) = I(0,∞) (v),
2
que pode ser posta na forma:

1 1
fV (v) = I(0,1) (v) + 2 I(1,∞) (v)
2 2v

35
11. X ∼ N (0, 1) Y ∼ N (0, 1), X e Y independentes.
A conjunta de (X, Y ) é dada por:

1 x2 + y 2
f (x, y) = exp[− ] IA (x) IA (y), A = (−∞, ∞).
2π 2
Solução: Como −∞ < x < ∞ e −∞ < y < ∞
x
temos −∞ < < ∞, isto é, −∞ < v < ∞.
y
A densidade de V é dada por:
Z ∞
fV (v) = |y| fX (vy)fY (y)dy
−∞

v2 y2 + y2
Z
1
= |y| exp[− ] I(−∞,∞) (vy) I(−∞,∞) (y)dy
−∞ 2π 2

(1 + v 2 )y 2
Z
1
= |y| exp[− ] dy
2π −∞ 2
Z ∞
2 (1 + v 2 )y 2
= y exp[− ]
2π 0 2
1 1 + v2
= IGG(a = 2, b = , c = 2)
π 2
1 1
=
π 1 + v2
2
2
1
= I(−∞,∞) (v),
π(1 + v 2 )

que é a densidade da Cauchy padrão.

7.5 Função Densidade de Probabilidade do Máximo V=Max(X,Y).

Z v
fV (v) = [f (u, v) + f (v, u)]du IB (v),
−∞

se X e Y forem Independentes

fV (v) = [fX (v)FY (v) + FX (v)fY (v)] IB (v).


se X e Y forem Independentes e Identicamente Distribuı́das(i.i.d)

fV (s) = 2F (v)f (v)I(v)A ,


em que F é a função de distribuição acumulada com de X e de Y e f a f.d.p. com suporte A.

7.6 Função Densidade de Probabilidade do Mı́nimo U=Min(X,Y).

Z ∞
fU (u) = [f (u, v) + f (v, u)]dv IB (u),
u
se X e Y forem Independentes

fU (u) = {fX (v) [1 − FY (u)] + [1 − FX (u)] fY (u)} IB (u).


se X e Y forem Independentes e Identicamente Distribuı́das(i.i.d)

36
fU (u) = 2[1 − F (u)]f (u)I(u)A ,

em que F é a função de distribuição acumulada com de X e de Y e f a f.d.p. com suporte A.

7.7 Função Densidade de Probabilidade Conjunta de (U,V)=(Min(X,Y) , Max(X,Y)).

f(U,V ) (u, v) = [f(X,Y ) (u, v) + f(X,Y ) (v, u)]I{−∞<u<v<∞} ,


e X e Y forem Independentes

f(U,V ) (u, v) = [fX (u)fY (v) + fX (v)fY (u)]I{−∞<u<v<∞} ,

se X e Y forem Independentes e Identicamente Distribuı́das(i.i.d)

f(U,V ) (u, v) = 2f (u)f (v)I{−∞<u<v<∞} .

37

Você também pode gostar