Escolar Documentos
Profissional Documentos
Cultura Documentos
Matemática Aplicada
Volume I – Fundamentos
CreateSpace
2023
Introdução à Estatı́stica Matemática Aplicada
Volume I – Fundamentos
© 2011-2023 por Adriano J. B. V. Azevedo Filho
Todos os direitos reservados.
ISBN 978-1-4421-7220-3
3a Edição (versão 2.0 em revisão - não circular)
Sobre o autor
O autor é Ph.D. em Engenharia / Economia de Sistemas e Pesquisa Operacio-
nal pela Stanford University e professor sênior no Departamento de Economia,
Administração e Sociologia da Universidade de São Paulo, no Campus de Piracicaba.
Atua nas áreas de estatı́stica, data science, análise de decisões e gerenciamento de ris-
cos, engenharia econômica e pesquisa operacional. Recebeu os prêmios Fundação
Bunge (Moinho Santista) em 1989 e Prêmio Nacional de Metrologia, em 2003.
Sumário
v
6.7 Função caracterı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.8 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . 64
Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
vi
Lista de Figuras
vii
Capı́tulo 5
5.1 Introdução
Este capı́tulo apresenta os conceitos de esperança matemática, variância,
outras noções relacionadas, definidos a partir do material discutido nos 2
capı́tulos anteriores. A apresentação também inclui as noções de momento
absoluto, momento central, quantil, percentil, assimetria e curtose.
1
Capı́tulo 5 - Esperança e conceitos relacionados 2
Fazendo uma analogia com noções utilizadas pela fı́sica, a esperança ma-
temática indicaria o centro de gravidade ou centróide da distribuição de proba-
bilidade. Seria possı́vel equilibrar a distribuição sobre um cursor posicionado
no valor da esperança, da maneira ilustrada na Figura 5.1, para uma função de
densidade. Para distribuições simétricas, a esperança coincide com o ponto
no eixo x pelo qual passa o eixo vertical de simetria, podendo ser facilmente
identificada.
f (x)
E(X )
centro de gravidade
ΩX ≡ {x1 , x2 , . . . , xn }.
e
Z ∞
E[g (X )] = g (x) fX (x)d x (caso contı́nuo).
−∞
que essa função atende os requisitos técnicos1 para a integração, sendo “bem
comportada”.
Essa última noção de esperança pode ser estendida para o caso de funções
considerando n variáveis como argumento, com as mesmas considerações so-
bre integração indicadas no parágrafo anterior. A próxima definição mostra
um resultado um pouco mais geral para funções com 2 variáveis.
Alguns exemplos
1
fX (x) = I[1,∞) (x) ,
x2
pode-se verificar facilmente que fX (·) é de fato uma função de
densidade dado que
1. fX (x) ≥ 0, ∀x ∈ R.
R∞ 1
2. −∞ fX (x)d x = [− x ]∞1 = 1.
1. E(k) = k.
2. E(kX ) = k E(X ).
3. E(X + k) = E(X ) + k.
Prova: Para o caso contı́nuo (similar para o discreto).
Z∞
E(X + k) = (x + k) f (x)d x
−∞
Z∞ Z ∞
= x f (x)d x + k f (x)d x
−∞ −∞
= E(X ) + k. □
E[a g1 (X ) + b g2 (Y )] = a E[g1 (X )] +
b E[g2 (Y )].
g ′′ (µ x )
E[g (X )] ≈ g (µ x ) + V [X ],
2
onde µ x = E(X ) e V (X ) é a variância de X , definida na
próxima seção (veja derivação do resultado no Ex. 5.6).
A prova das propriedades 1, 2 e 4 é trivial e pode ser realizada pelo uso direto
da definição de esperança para o caso discreto e/ou contı́nuo. A proprie-
dade 8 depende do conceito de covariância, que será introduzido na próxima
seção. A prova das propriedades que não foram apresentadas é sugerida como
um exercı́cio ao leitor. O resultado da propriedade 9 é aproximado, obtido
a partir da expansão da série de Taylor bivariada até os termos de segunda
ordem (Mood et al., 1974, p. 181). Para o caso particular de uma função de
X , definido na propriedade 10, veja a derivação no Ex. 5.6.
O próximo exemplo ilustra o uso das propriedades da esperança (mais
exemplos dessas propriedades são descritos após a apresentação das proprie-
dades da variância).
L = q1 P1 + q2 P2 − c,
E(L) = E(q1 P1 + q2 P2 − c)
= E(q1 P1 ) + E(q2 P2 ) − E(c)
= q1 E(P1 ) + q1 E(P2 ) − c
= q1 µ1 + q2 µ2 − c.
g ′′ (µ x )
g (X ) ≈ g (µ x ) + g ′ (µ x )(X − µ x ) + (X − µ x )2
2
Logo,
g ′′ (µ x )
E[g (X )] ≈ g (µ x ) + E[(X − µ x )2 ]
2
g ′′ (µ x )
≈ g (µ x ) + V [X ]
2
reconhecendo, na última passagem que E[X − µ x ] = 0 e que
V (X ) = E[(X − µ x )2 ] é a variância de X (veja a próxima seção
para detalhes sobre a variância). Em uma aproximação de pri-
meira ordem terı́amos E[g (X )] ≈ g (E[X ]).
Capı́tulo 5 - Esperança e conceitos relacionados 10
V (X ), V [X ] ou σX2 ,
é dada à seguir:
ou
V (X ) = E(X 2 ) − [E(X )]2 .
Isso significa que
n
X
V (X ) = [xi − E(X )]2 · fX (xi )
i=1
no caso discreto, ou
Z ∞
V (X ) = [x − E(X )]2 · fX (x) d x
−∞
1
Pr(|X − µ| ≥ k σ) ≤ .
k2
O resultado é válido para X com qualquer distribuição que tenha µ e
σ finitos.
4
Pr(|X − µ| ≥ k σ) ≤ .
9k 2
O resultado é válido para k ≥ 1, 633, para toda variável aleatória com
distribuição unimodal que tenha µ e σ finitos.
Capı́tulo 5 - Esperança e conceitos relacionados 12
Alguns exemplos
σ x ≈ 0,71
CV% ≈ 71%
Exemplo 5.8 – Roleta 0 a 10 (variância) – No caso da roleta
verificou-se que para X tem-se µ x = 5 (Exemplo 5.2) logo a
variância de X poderia ser computada por:
Z 10
1 25
V (X ) = (x − 5)2 dx =
0 10 3
5
σx = p
3
1
CV = p .
3
Exemplo 5.9 – Mudança de escala – Se X é uma variável aleatória
com esperança µ e variância σ 2 , e a e b são constantes, obtenha
o desvio-padrão e o coeficiente de variação de Y = aX + b . Veja
as propriedades da variância em próxima seção para melhor en-
tendimento desses resultados.
Solução:
V (Y ) = a 2 σ 2 e DP(Y ) = aσ
Capı́tulo 5 - Esperança e conceitos relacionados 13
aσ
CV(Y ) = e CV(Y ) = CV(X ), se b = 0.
aµ + b
Isso significa que o desvio padrão depende da unidade utili-
zada para caracterizar a variável aleatória. O coeficiente de
variação, por outro lado, é independente da unidade utilizada,
para fenômenos cuja medida utiliza a escala razão3 .
4
Pr(|X − µ| ≥ 3σ) ≤ ≈ 0,04938.
9 · 32
Se a distribuição de X fosse uma Normal, o valor dessa probabi-
lidade desejada seria conhecido exatamente, sendo igual a 0,003
(arredondada para 3 decimais).
Cov(X , Y )
ρX Y = .
σ x σy
e
ρX Y ≈ −0, 0909.
1. V (k) = 0.
Capı́tulo 5 - Esperança e conceitos relacionados 15
2. V (kX ) = k 2 V (X ).
Prova: Pelo desenvolvimento da definição de variância:
3. V (X + k) = V (X ).
4. V (g (X )) ≈ [g ′ (E[X ])]2 V (X )
V (aX + b Y ) = a 2V (X ) + b 2V (Y ) +
2a b Cov(X , Y ).
V (X Y ) ≈ E 2 (X )V (Y ) + E 2 (Y )V (X ) +
2E(X )E(Y )Cov(X , Y ).
8. Covariância:
Cov(X , a + b X + cY ) = b V (X ) + c Cov(X , Y ).
Y = k1 X1 + k2 X2 + . . . + k m X m ,
V (Y ) = k′ V k,
V (Y ) = V (X1 ) + V (X2 ) + . . . + V (X m ),
X −µ
Z= .
σ
1
E(Z) = E(X − µ)
σ
1 1
= [E(X ) − E(µ)] = [µ − µ] = 0.
σ σ
X − µ
V (Z) = V
σ
1
= V (X − µ)
σ2
1 1
= V (X ) = σ 2 = 1.
σ2 σ2
Logo, V (Z) = 1.
por:
C f = θCi (1 + R1 ) + (1 − θ)Ci (1 + R2 )
onde θ ∈ [0, 1] representa a proporção do capital investido no
investimento 1, e (1 − θ) a proporção no investimento 2.
Rearranjando a última expressão, verifica-se que
C f = Ci [1 + θR1 + (1 − θ)R2 ].
R = θR1 + (1 − θ)R2 .
σ22 − ρσ1 σ2
θ∗ = .
σ12 + σ22 − 2ρσ1 σ2
X1 + X2 + . . . + Xn
E(X n ) = E
n
E(X1 ) + E(X2 ) + . . . + E(Xn )
=
n
n ·µ
= = µ.
n
Pela aplicação das propriedades da variância, observando que n é
uma constante, que os valores são independentes e que V (Xi ) =
σ 2 , tem-se
X1 + X2 + . . . + Xn
V (X n ) = V
n
1
= V (X1 ) + V (X2 ) + . . . + V (Xn )
n 2
n · σ2 σ2
= = .
n2 n
Logo, os dois resultados solicitados são:
σ2
E(X n ) = µ e V (X n ) = .
n
por Z ∞
E(Y |x) = y fY |X (y|x)d y
−∞
no caso contı́nuo, ou
X
E(Y |x) = y fY |X (y|x).
Ωy
= E(Y ),
Capı́tulo 5 - Esperança e conceitos relacionados 22
E(Y ) = EX [E(Y |X )]
7
EX [E(Y |X )] = ,
12
que é o valor de E(Y ) já obtido anteriomente (observe que
E(X ) = E(Y ) nesse caso).
mas,
n Z
X ∞
EZ [EX |Z (X |Z)] = x fX |Z (x|i) d x fZ (i).
i=1 −∞
Variância condicional
V (Y ) = EX [V (Y |X )] + VX [E(Y |X )].
Cov(X , Y )
ρX Y = p ,
V (X )V (Y )
mas,
Cov(X , Y ) = Cov(X , a + b X + ϵ) = b V (X ),
logo
b 2V (X )
ρ2X Y = .
V (Y )
Por outro lado,
E[Y |X = x] = a + b x e E[Y |X = X ] = a + b X
Capı́tulo 5 - Esperança e conceitos relacionados 26
V [E(Y |X )] = b 2V (X ),
Prova: Z ∞ Z ∞
E(X Y ) = x y fX Y (x, y)d x d y.
−∞ −∞
e
Z ∞ Z ∞
E(X Y ) = x y fX (x) fY (y)d x d y
−∞ −∞
Z∞ Z ∞
= x fX (x)d x y fY (y)d y
−∞ −∞
= E(X )E(Y ). □
2. Cov(X , Y ) = 0 ̸⇒ X ⊥⊥ Y.
será equivalente a
Cov(X , Y ) = 0.
Y = X 2.
µ′r = E(X r ).
µ r = E[(X − µX ) r ],
onde µX é a esperança de X .
Exemplo 5.17 – Variância – Quando r = 2 o momento central
é representado pela variância. Ademais, a variância pode ser re-
presentada em termos de momentos absolutos por:
X1 , X2 , . . . , Xn
i=1 (Xi − X )r
Pn
Mr = .
n
Quantil e percentil
F (x) ≥ q.
Mediana e moda
(A) (B)
Normal
Exercı́cios
Partes de alguns exercı́cios que envolvem perguntas sobre distribuições de
probabilidade, já foram solicitadas anteriormente em outros capı́tulos.
P = 10000 × (1 − D),
Exercı́cio 5.7 –
1
fX (x) = k(x + )I[0,1] (x)
2
representa a distribuição de probabilidade da variável aleatória
X.
(a) Ache o valor de k que torna essa função uma função de den-
sidade. (pedido no capı́tulo anterior)
(b) Obtenha a função cumulativa, a esperança e a variância de
X . (função foi pedida no capı́tulo anterior)
(c) Se Y = aX + b , onde a e b são constantes, obtenha a dis-
tribuição de probabilidade, a esperança e a variância de Y .
(distribuição no capı́tulo anterior)
Defina
Y = k′ X
e observe que V é a matriz de covariância. Obtenha V(Y). Obte-
nha também a matriz de correlação, que é uma matriz onde cada
elemento representa ρi, j , onde i, j são os ı́ndices das variáveis e
as posições na matriz, em termos de linhas e colunas.
Capı́tulo 5 - Esperança e conceitos relacionados 39
120P
−200 + = 0.
1 + R∗
Como P é incerto, a taxa interna de retorno do investimento
também é incerta no momento em que o investimento é reali-
zado. Com base nessas informações responda:
1
fX (x) = I (x).
100 [100,200]
Responda:
1
fX (x) = I(1,k) (x)
x
(a) Qual o valor de k que torna a função apresentada uma
função de densidade (vista no capı́tulo anterior)
(b) Qual seria a função cumulativa de X ? Calcule FX (1, 2)?
(vista no capı́tulo anterior)
(c) Qual a esperança e variância de X ?
Capı́tulo 5 - Esperança e conceitos relacionados 42
Y = 4X
2πσ
Exercı́cio 5.28 – Se X ⊥
⊥ Y , prove ou desprove:
V (X Y ) = V (X )V (Y ).
Capı́tulo 5 - Esperança e conceitos relacionados 43
V (g (X )) ≈ [g ′ (E[X ])]2 V (X ).
k k k k 1 1
+ + + · · · + = k(1 + + · · · + ).
k k −1 k −2 1 2 k
k 2k (k − 2)k (k − 1)k
V (N ) = + + ··· + + .
(k − 1)2 (k − 2)2 22 12
i=1 (Xi − X n )
Pn 2
2
Sn = .
n −1
Essas duas fórmulas, que definem a média e a variância amos-
trais, são estimadores de µ e σ 2 . Estimadores não-tendenciosos
Capı́tulo 5 - Esperança e conceitos relacionados 45
XA = p + k + eA
fX Y Z (0, 1, 0) = a
f (1, 0, 0) = b
XYZ
fX Y Z (0, 0, 1) = 0, 2,
Capı́tulo 5 - Esperança e conceitos relacionados 48
1 1
⃗ ⃗
e − 2 (x−µ)
T V−1 (x−µ)
fX (x) = p 1
,
(2π) |V|2 2
X1
E(X1 )
X2
..
onde X = .. , ⃗=
µ ,
.
.
E(X p )
Xp
σ11 σ12 ... σ1 p
σ21 σ22 ... σ2 p
V= .
.. .. .. ..
. . .
σ p1 σ p2 ... σp p
e σi j = Cov(Xi , X j ). Faça o Ex. ??, do Capı́tulo ??, como uma
introdução a este exercı́cio.
1
fY |X (y|x) = p p e g (x,y)
2π 1 − ρ2 σy
Capı́tulo 5 - Esperança e conceitos relacionados 49
onde
1 σy
g (x, y) = − [y − (µ y + ρ (x − µ x ))]2 .
2σy2 (1 − ρ2 ) σx
Referências
Drake, A. 1967. Fundamentals of Applied Probabilistic Analysis. McGraw-
Hill, New York.
Grimmett, G.& Stirzaker, D. 2001. Probability and Random Processes. 3rd
edition, Oxford University Press.
Feller, W. 1968. An Introduction to Probability Theory and its Applications -
Vol 1. John Wiley and Sons, New York.
Capı́tulo 5 - Esperança e conceitos relacionados 50
6.1 Introdução
Este capı́tulo apresenta os conceitos de função geradora de momentos
(f.g.m.), cumulantes e função caracterı́stica, que são freqüentemente utiliza-
dos em desenvolvimentos teóricos em estatı́stica. Esses conceitos estão inti-
mamente relacionados às noções de esperança matemática e momentos, des-
critos no capı́tulo anterior. Essas noções, em particular, serão utilizadas para
demonstrações associadas à Lei dos grandes números e ao Teorema do limite
central, examinados no Capı́tulo ??.
51
Capı́tulo 6 - Função geradora de momentos e função caracterı́stica 52
no caso discreto.
Essa função, nos dois casos, será definida para uma variável
aleatória X qualquer se m(t ) ≤ ∞ dentro de uma região
aberta ao redor da origem, na qual −ϵ ≤ t ≤ ϵ onde ϵ > 0,
que caracteriza o raio de convergência da função (se existir).
d r m(t )
= E(X r ).
d t r t =0
Assim, o uso da última expressão leva a uma forma alternativa para obter
os momentos absolutos associados a uma distribuição de probabilidade, desde
que seja conhecida (e exista) sua função geradora de momentos.
Capı́tulo 6 - Função geradora de momentos e função caracterı́stica 53
m(t ) = E(e t X )
Z∞
= λe t x e −λx d x
0
λ x(t −λ) ∞
= e
(t − λ) 0
λ h
x(t −λ)
i
= lim e −1 .
(t − λ) x→∞
λ
m(t ) = .
λ− t
d m(t ) λ d m(t ) 1
= e = E(X ) = .
(λ − t )2 λ
dt d t t =0
d 2 m(t ) 2λ d 2 m(t ) 2
= e = E(X 2 ) = .
2 (λ − t )3 2 λ2
dt dt t =0
2 1 1
V (X ) = E(X 2 ) − E 2 (X ) = − = .
λ2 λ2 λ2
Capı́tulo 6 - Função geradora de momentos e função caracterı́stica 54
Y = a + b X temos mY (t ) = e a t mX (b t ).
mY (t ) = E[e t Y ]
= E[e t (a+b X ) ] = e t a E[e t b X ]
′
Fazendo a substituição t ′ = t b pode-se concluir que E[e t X ] =
mX (t ′ ). Fazendo novamente a troca de t ′ por t b chega-se ao
resultado desejado. □
Os próximos parágrafos mostram resultados associados a: identificação
de distribuições pela f.g.m., caracterização da f.g.m. através da série de Tay-
lor, definição da f.g.m. para o caso multivariado e uso na independência de
variáveis aleatórias.
Capı́tulo 6 - Função geradora de momentos e função caracterı́stica 56
X , Z ∼ Exponencial(λ), X ⊥⊥ Z.
λ
,
λ− t
Capı́tulo 6 - Função geradora de momentos e função caracterı́stica 57
λ 2
mY (t ) =
λ− t
Comparando essa f.g.m. com as descritas na Tabela 6.1 pode-
se concluir que a f.g.m. é idêntica à da distribuição chamada
Gama, com r = 2. Assim, pode-se concluir, pelo teorema
recém-apresentado, que a distribuição de Y é uma Gama, com
parâmetros λ e r = 2.
Sn = X1 + X2 + . . . + Xn .
1 2 2 1 3 3
etx = 1 + t x + t x + t x ···
2! 3!
de onde pode-se concluir, substituindo x pela variável aleatória X e pela
aplicação do operador de esperança matemática, que
mX (t ) = E(e t X )
1 2 1
= 1 + t E[X ] + t E[X 2 ] + t 3 E[X 3 ] · · ·
2! 3!
n
X t i E(X i )
= lim
n→∞
i=0
i!
Essa série será convergente se mX (t ) < ∞ para t dentro de uma região que
inclua a origem [veja Grimmett & Stirzacker, 2001, p. 181-183, para detalhes
adicionais]. Isso é equivalente a dizer que todos os momentos absolutos serão
finitos nesse caso, e que
d r mX (0)
= E(X r ).
dt r
Quando a expansão pela série de Taylor é utilizada, para uma situação que a
f.g.m. é definida, temos [veja Lehmann, 1998, p. 582]:
r
X t k E(X k )
mX (t ) = E(e t X ) = + o(t r ). (6.3)
k=0
k!
d r g(t )
kr = .
d t r t =0
onde
tX
g(t ) = ln E(e )
é chamada função geradora de cumulantes, que pode ser re-
presentada por
∞
X tj
g(t ) = kj .
j =1
j!
k1 = µX e k2 = σX2 .
Cumulantes e momentos
Um resultado geral útil para a derivação dos cumulantes e sua relação com os
momentos absolutos de X é dado por
n−1
X n −1
kn = µ′n − ki µ′n−i .
i=1
i − 1
µ′1 = k1
µ′2 = k2 − k21
µ′3 = k3 + 3k1 k2 + k31
µ′4 = k4 + 4k3 k1 + 3k22 + 6k2 k21 + k41
..
.
Uma extensão desse último resultado permite a obtenção dos momentos cen-
trais pela simples eliminação dos termos que incluem k1 das expressões equi-
Capı́tulo 6 - Função geradora de momentos e função caracterı́stica 61
µ1 = 0
µ2 = k2
µ3 = k3
µ4 = k4 + 3k22
..
.
ϕX (t ) = E(e i t X )
Z ∞
= e i t x f (x) d x
−∞
p
onde i = −1 é o número imaginário, utilizado no contexto dos números
complexos. O caso discreto segue uma definição similar, com um somatório
substituindo a integral. A função caracterı́stica é uma função bem compor-
tada, observando-se
(k)
e que ϕX (0) = i k E(X k ), onde a notação o(t k ) é definida
no Capı́tulo ??. Essa expressão nada mais é que a expansão
por série de Taylor da função caracterı́stica.
3. Se ϕX (t ) e ϕY (t ) são as funções caracterı́sticas de X e Y ,
duas variáveis aleatórias independentes, é verdade que a
função caracterı́stica de Z = X + Y será definida por
ϕZ (t ) = ϕX (t )ϕY (t ).
ϕZ (t ) = e i t a ϕX (b t ).
d k ϕX (0)
E(X k ) = i−k .
dtk
A seguir é apresentada uma propriedade que facilita a obtenção da função
caracterı́stica a partir do conhecimento da f.g.m., quando esta existir.
Capı́tulo 6 - Função geradora de momentos e função caracterı́stica 64
ϕX (t ) = mX (i t )
1 2 2
= e i t µ− 2 t σ
.
Exercı́cios
Exercı́cio 6.1 – Se X é uma variável aleatória com fX (x) =
θ f1 (x)+(1−θ) f2 (x), onde θ ∈ [0, 1], e fi (x) são distribuições de
probabilidade com esperança µi , variância σi2 , e função geradora
de momentos mi (t ), i = 1, 2, responda:
1 (x−b )2
−
fX (x) = p e 2a2
2πa
k1 = E(X ) e k2 = V (X ),
1
ϕX (t ) = 1 − t 2 + o(t 2 ).
2
Capı́tulo 6 - Função geradora de momentos e função caracterı́stica 67
Referências
Ablowitz, M. & Fokas, A. 2003. Complex Variables - Introduction and
Applications. 2th. edition, Cambridge University Press.
Desigualdades de Interesse
Estatı́stico
7.1 Introdução
Este capı́tulo apresenta algumas desigualdades importantes para desenvolvi-
mentos teóricos em estatı́stica: Markov, Chebychev, Cantelli, Vysochanskij-
Petunin, Hölder, Cauchy-Schwartz, Minkowski e Jensen.
Algumas dessas desigualdades são utilizadas nas demonstrações apresenta-
das no próximo capı́tulo envolvendo modos de convergência e dois importan-
tes resultados teóricos da estatı́stica: a Lei dos grandes números e o Teorema
do limite central.
Como é comum o uso da função valor absoluto f (x) = |x| nos desen-
volvimento envolvendo desigualdades, é recomendável que o leitor revise as
propriedades dessas funções antes de iniciar a leitura deste capı́tulo.
68
Capı́tulo 7 - Desigualdades de interesse estatı́stico 69
E(Y )
Pr(Y ≥ a) ≤ .□
a
1 1
E(N ) = k(1 + + · · · + ),
2 k
onde N é uma variável aleatória que caracteriza o número de
envelopes de figurinhas necessário para se completar um álbum
contendo k figurinhas direrentes (assumindo uma figurinha em
cada envelope). Estabeleça um limite superior para a probabili-
dade de precisarmos de 1000 ou mais envelopes para completar-
mos o album, na situação em que k = 50.
Nesse caso, temos, aproximadamente, E(N ) = 224, 96. Logo,
pela aplicação direta da desigualdade de Markov, podemos con-
cluir que:
224, 96
Pr(N ≥ 1000) ≤ ≤ 0,225.
1000
Assim, o valor 0,225 seria um limite máximo para a probabili-
dade de serem nescessários 1000 ou mais envelopes para comple-
tar esse álbum.
σ2 σ2
Pr(|Y − µ| ≥ b ) ≤ ou Pr(|Y − µ| < b ) ≥ 1 − .
b2 b2
Prova: Usando o resultado da desigualdade de Markov generali-
zada (Teorema 7.2) com |X | = |Y − µ| e g (y) = y 2 , chega-se
a
E[(Y − µ)2 ]
Pr(|Y − µ| ≥ b ) ≤ .
b2
Mas, como E[(Y − µ)2 ] = σ 2 , conclui-se que
σ2
Pr(|Y − µ| ≥ b ) ≤ .
b2
Rearranjando a última expressão, chega-se ao resultado alterna-
tivo
σ2
Pr(|Y − µ| < b ) ≥ 1 − . □
b2
2
Do ponto de vista histórico, essa desigualdade foi inicialmente provada em 1853 por Bi-
enaymé, um francês pioneiro da estatı́stica (Hald, 2006). Chebyshev, por outro lado, provou
o resultado em 1867 e popularizou seu uso na prova de resultados fundamentais da estatı́stica.
Por essa razão, a desigualdade também é chamada de Bienaymé-Chebyshev. A desigualdade
de Markov, leva o sobrenome de A. Markov, aluno de Chebyshev, mas pode ter sido obra de
Chebyshev, pois aparece em textos desse autor anteriores às publicações de Markov.
Capı́tulo 7 - Desigualdades de interesse estatı́stico 72
1
Pr(|Y − µ| ≥ k σ) ≤ .
k2
Alguns exemplos a seguir ilustram aplicações do teorema.
V (Y )
Pr(|Y − µ| < b ) ≥ 1 −
b2
ou
V (Y )
Pr(−b < Y − µ < b ) ≥ 1 − ;
b2
substituindo µ = 5 e V (Y ) = 1 chega-se a
1
Pr(5 − b < Y < 5 + b ) ≥ 1 − .
b2
A questão pede que se infira algo sobre Pr(3 < Y < 7) e para isso
bastaria a substituição de b = 2 na última expressão para chegar
a
1 3
Pr(3 < Y < 7) ≥ 1 − = .
4 4
Exemplo 7.3 – Aplicação de Chebyshev II – Obtenha um limite
máximo para a probabilidade da variável aleatória Y estar fora
do intervalo (µ − 4σ, µ + 4σ) onde µ e σ são, respectivamente,
a esperança e o desvio padrão de Y .
σ2 1
Pr(|Y − µ| ≥ 4σ) ≤ ou Pr(|Y − µ| ≥ 4σ) ≤ .
16 · σ 2 16
Capı́tulo 7 - Desigualdades de interesse estatı́stico 73
σ2 1
Pr(Y − µ ≥ k) ≤ ou Pr(Y − µ ≥ kσ) ≤ .
k2 k2
Prova: Como é verdade, pela desigualdade Chebyshev para o caso
bilateral, que
σ2
Pr(|Y − µ| ≥ k) ≤ ,
k2
pode-se concluir que
ou
σ2 1
Pr(Y − µ ≥ k) ≤ ou Pr(Y − µ ≥ kσ) ≤ .
σ +k
2 2 1 + k2
Prova: Veja Lim (2011) para uma prova rigorosa (e extensa) desse
resultado.
Para a situação em que é possı́vel assumir que a variável aleatória tem uma
distribuição de probabilidade unimodal, é possı́vel encontrar limites me-
nos conservadores que os estabelecidos por Chebyshev para probabilidades,
através da desigualdade de Vysochanskij-Petunin.
4 4σ 2
Pr(|Y − µ| ≥ kσ) ≤ ou Pr(|Y − µ| ≥ k) ≤ .
9k 2 9k 2
Prova: Veja Vysochanskij e Petunin (1980).
h(t ) = E[(t X − Y )2 ].
Cov(X , Y )
ρX Y = ,
σX σ Y
ou
E[(X − E(X ))(Y − E(Y ))]
ρX Y = p .
E[(X − E(X ))2 ] E[(X − E(X ))2 ]
p
[E(ZT )]2
ρ2X Y = .
E(Z 2 )E(T 2 )
ou seja,
[E(ZT )]2
≤ 1.
E(Z 2 )E(T 2 )
Consequentemente,
ρ2X Y ≤ 1 ou 1 ≤ ρX Y ≤ 1.□
( p−1)
dividindo os dois lados da desigualdade por E(Z p ) p , chega-se
a
1 1
E(Z p )1/ p ≤ E(|X | p ) p + E(|Y | p ) p
g(x)
l(x)
g(x)
g(x0)=l(x0)
l(x)
x
x0
a + b E[X ] ≤ E[g (X )]
V (X ) = E(X 2 ) − E 2 (X ),
|µ − m| ≤ σ.
|µ − m| = |E(X − m)|.
Esse último exemplo pode ter o seu entendimento facilitado por uma breve re-
visão das propriedades básicas do valor absoluto sumarizadas no Apêndice ??.
Os próximos dois exemplos mostram duas aplicações da desigualdade de
Jensen a problemas ligados à teoria de decisão em condição de risco e à eco-
nomia.
P = Q 1/ε ,
D = P · Q.
D = P · P ε = P 1+ε .
Para que essa última condição ocorra, a função D(·) deve ser con-
vexa (pela desigualdade de Jensen), o que pode ser determinado
pela derivada segunda da função D(·). No caso,
d 2D
= ε(1 + ε)P ε−1 ,
dp 2
Capı́tulo 7 - Desigualdades de interesse estatı́stico 83
Exercı́cios
Exercı́cio 7.1 – Se X é uma variável aleatória com E(X ) = 3
e E(X 2 ) = 13, use a desigualdade de Chebyshev para achar um
limite mı́nimo para Pr(−2 < X < 8).
µ4
γ2 = − 3,
σ4
1
H (n) ≈ ln n + γ + ,
2n
onde γ = 0,57721.... é a chamada constante de Euler-Macheroni.
Considere também a série
1 1 1 1
S(n) = lim 1 + + + ··· + + .
n→∞ 2 2 32 (n − 1)2 n2
π2
lim S(n) = .
n→∞ 6
(a) Verifique a qualidade da aproximação dada para a série
harmônica, fazendo um gráfico do valor dessa série e de sua
aproximação para valores de n variando de 1 a 1000. Qual
seriam o valores do módulo dos erros da aproximação para
os seguintes valores de n: 10, 50, 100.
(b) Use a aproximação dada para argumentar que a série
harmônica não converge na medida que n → ∞.
Capı́tulo 7 - Desigualdades de interesse estatı́stico 86
n 2n (n − 2)n (n − 1)n
+ + ··· + + ≤ 2n 2 .
(n − 1)2 (n − 2)2 22 12
1
E(N ) ≈ n ln n + nγ + e V (N ) ≤ 2k 2 .
2