Livroestat2023 - Cap 5, 6 e 7 (Revisão 1.0)

Introdução à Estatı́stica
Matemática Aplicada
Volume I – Fundamentos
Para engenharia, economia, finanças e atuária
Problemas e exercı́cios resolvidos
Capı́tulo 5. Esperança Matemática e Conceitos Relacionados

Capı́tulo 6. Função Geradora de Momentos e Conceitos Afins
Capı́tulo 7. Desigualdades de Interesse Estatı́stico
Adriano Azevedo Filho
Versão 2.0 preliminar da 3a edição

(em revisão - não circular)
CreateSpace
2023
Introdução à Estatı́stica Matemática Aplicada
Volume I – Fundamentos
© 2011-2023 por Adriano J. B. V. Azevedo Filho
Todos os direitos reservados.
ISBN 978-1-4421-7220-3
3a Edição (versão 2.0 em revisão - não circular)
É proibida a reprodução total ou parcial

em qualquer meio ou forma.
Dados Internacionais de Catalogação na Publicação (CIP)
Azevedo Filho, Adriano J. B. V.

Introdução à Estatı́stica Matemática Aplicada:
Volume I - Fundamentos /
Adriano Azevedo Filho - 3a ed. - Scotts Valley:
CreateSpace, 2023
xii, 160 f.: il.; 21,6cm
ISBN 978-1-4421-7220-3
1. estatı́stica matemática
I. Azevedo Filho, Adriano J. B. V. II. Tı́tulo
CDD-519.5
Sobre o autor
O autor é Ph.D. em Engenharia / Economia de Sistemas e Pesquisa Operacio-
nal pela Stanford University e professor sênior no Departamento de Economia,
Administração e Sociologia da Universidade de São Paulo, no Campus de Piracicaba.
Atua nas áreas de estatı́stica, data science, análise de decisões e gerenciamento de ris-
cos, engenharia econômica e pesquisa operacional. Recebeu os prêmios Fundação
Bunge (Moinho Santista) em 1989 e Prêmio Nacional de Metrologia, em 2003.
Sumário
Lista de Figuras vii
5 Esperança Matemática e Conceitos Relacionados 1

5.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
5.2 Esperança matemática - E(·) . . . . . . . . . . . . . . . . . . . . . . 1
5.3 Propriedades da esperança . . . . . . . . . . . . . . . . . . . . . . . 7
5.4 Variância e conceitos associados . . . . . . . . . . . . . . . . . . . 10
5.5 Covariância e correlação . . . . . . . . . . . . . . . . . . . . . . . . 13
5.6 Propriedades da variância e covariância . . . . . . . . . . . . . . . 14
5.7 Esperança e variância condicionais . . . . . . . . . . . . . . . . . . 20
5.8 Resultados associados à independência . . . . . . . . . . . . . . . 26
5.9 Momentos absolutos e centrais . . . . . . . . . . . . . . . . . . . . 28
5.10 Outras medidas estatı́sticas úteis . . . . . . . . . . . . . . . . . . . 29
5.11 Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
6 Função Geradora de Momentos, Cumulantes e Função Ca-

racterı́stica 51
6.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6.2 Função geradora de momentos (f.g.m.) . . . . . . . . . . . . . . . 51
6.3 F.g.m. na identificação de distribuições . . . . . . . . . . . . . . . 56
6.4 Caracterização da f.g.m. por série de Taylor . . . . . . . . . . . 58
6.5 F.g.m. conjunta e caracterização da independência . . . . . . . 59
6.6 Cumulantes e funções geradoras de cumulantes . . . . . . . . . 59
v
6.7 Função caracterı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.8 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . 64
Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
7 Desigualdades de Interesse Estatı́stico 68

7.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7.2 Desigualdade de Markov . . . . . . . . . . . . . . . . . . . . . . . . 68
7.3 Desigualdades de Chebyshev, Cantelli e Vysochanskij-Petunin 71
7.4 Desigualdades de Hölder, Cauchy-Schwartz e Minkowsky . . 75
7.5 Desigualdade de Jensen . . . . . . . . . . . . . . . . . . . . . . . . . 78
7.6 Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
vi
Lista de Figuras
5.1 Esperança: centro de gravidade da distribuição . . . . . . . . . . 2

5.2 Assimetria em distribuições . . . . . . . . . . . . . . . . . . . . . . 31
5.3 Coeficiente de assimetria nulo não garante simetria . . . . . . . 32
5.4 Curtose em distribuições . . . . . . . . . . . . . . . . . . . . . . . . 33
7.1 Função convexa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
vii
Capı́tulo 5
Esperança Matemática e Conceitos

Relacionados
5.1 Introdução
Este capı́tulo apresenta os conceitos de esperança matemática, variância,
outras noções relacionadas, definidos a partir do material discutido nos 2
capı́tulos anteriores. A apresentação também inclui as noções de momento
absoluto, momento central, quantil, percentil, assimetria e curtose.
5.2 Esperança matemática - E(·)

A noção de esperança matemática, ou média teórica, de uma variável aleatória
X , representada usualmente por
E(X ), E[X ], µ x , ou < X >
é um dos conceitos mais importantes da estatı́stica, sendo utilizado ampla-

mente em desenvolvimentos teóricos e aplicados. O texto utilizará as pri-
meiras três representações.
O leitor deve ter cuidado em entender que o significado da palavra
esperança em estatı́stica é técnico, diferindo substancialmente do utilizado em
nossa linguagem comum, o qual frequentemente está associado ao desejo de
que algo aconteça. A esperança matemática de uma variável aleatória pode, até
mesmo, ser um valor numérico que não está dentro dos valores que a variável
aleatória pode assumir.
1
Capı́tulo 5 - Esperança e conceitos relacionados 2
Parte dos resultados importantes da estatı́stica estão associados exata-

mente à relação que têm os estimadores obtidos a partir de amostras apro-
priadas e a esperança matemática. O exemplo mais simples é o caso do es-
timador definido pela “média aritmética” de n valores amostrados de forma
apropriada, computado por
Pn
Xi
X n = i=1 .
n
Esse estimador (média) converge (no contexto probabilı́stico) para a
esperança matemática (ou média teórica), na medida que n → ∞. Esse resul-
tado, em particular, decorre de um importante teorema dentro da estatı́stica
chamado de Lei dos grandes números, que será visto no Capı́tulo ??, junta-
mente com noções de convergência utilizadas em estatı́stica.
Esperança e centro de gravidade
Fazendo uma analogia com noções utilizadas pela fı́sica, a esperança ma-
temática indicaria o centro de gravidade ou centróide da distribuição de proba-
bilidade. Seria possı́vel equilibrar a distribuição sobre um cursor posicionado
no valor da esperança, da maneira ilustrada na Figura 5.1, para uma função de
densidade. Para distribuições simétricas, a esperança coincide com o ponto
no eixo x pelo qual passa o eixo vertical de simetria, podendo ser facilmente
identificada.
f (x)
E(X )
centro de gravidade
Figura 5.1: Esperança: centro de gravidade da distribuição

Definição de esperança matemática
Em seguida, será definida formalmente a noção de esperança matemática, nos

casos discreto e contı́nuo.
Esperança matemática – para uma variável aleatória discreta X

define-se esperança matemática por:
n
X
E(X ) = xi fX (xi ), (caso discreto)
i=1
em que X é uma variável aleatória com
ΩX ≡ {x1 , x2 , . . . , xn }.
Se X é uma variável aleatória contı́nua,

Z∞
E(X ) = x fX (x) d x, (caso contı́nuo).
−∞
Outra definição equivalente, mais utilizada em desenvolvi-

mentos teóricos e equivalente à anterior, é dada por
Z ∞ Z 0
E(X ) = [1 − FX (x)]d x − FX (x)d x.
0 −∞
O conceito de esperança pode ser facilmente estendido ao caso de uma

função de uma variável aleatória X , representada por g (X )
Esperança matemática de g (X ) – Para uma função g (·) cujo ar-
gumento é a variável aleatória X , pode-se definir
n
X
E[g (X )] = g (xi ) fX (xi ) (caso discreto),
i=1
e
Z ∞
E[g (X )] = g (x) fX (x)d x (caso contı́nuo).
−∞
Em alguns problemas de integração a noção de integral utilizada pode

ser importante em função da natureza da função g (x). A definição assume
que essa função atende os requisitos técnicos1 para a integração, sendo “bem
comportada”.
Essa última noção de esperança pode ser estendida para o caso de funções
considerando n variáveis como argumento, com as mesmas considerações so-
bre integração indicadas no parágrafo anterior. A próxima definição mostra
um resultado um pouco mais geral para funções com 2 variáveis.
Esperança matemática da função g (X , Y ) – Para uma função

g (X , Y ), com distribuição de probabilidade conjunta de X
e Y definida por
fX Y (x, y),
tem-se
Z ∞ Z ∞
E[g (X , Y )] = g (x, y) fX Y (x, y) d x d y.
−∞ −∞
O caso de funções dependentes de n variáveis aleatórias é

uma extensão direta desse resultado.
Alguns exemplos
Os exemplos apresentados à seguir ilustram a obtenção da esperança ma-

temática em situações discretas e contı́nuas, já examinadas em capı́tulos ante-
riores.
Exemplo 5.1 – Bolas vermelhas e brancas (esperança) – Consi-

dere a situação do Exemplo da variável aleatória X representando
o número de bolas brancas em 2 bolas sorteadas com reposição
de uma urna com 1 bola vermelha e 1 bola branca, usado nos
1
A noção de integral de Riemann, usualmente apresentada em cursos de cálculo, é sufi-
ciente para o entendimento da apresentação. Contudo, em certas situações essa noção não
será adequada, sendo necessárias as noções mais gerais de integral de Lebesgue ou mesmo de
Lebesgue-Stieltjes. Essas generalizações possibilitam a obtenção de integrais de uma ampla
classe de funções que não são “bem comportadas”, não tratáveis no contexto de Riemann.
O texto, contudo, não fará uma distinção entre essas noções, que são tratadas na literatura
especı́fica de cálculo e na teoria da medida. Isso pode não ser muito importante para a maior
parte dos leitores, mas o conceito de integral assumido nos desenvolvimentos é o de Lebesgue.
capı́tulos anteriores. Nesse caso,

n
X
E(X ) = xi fX (xi )
i =1
= 0,25 · 0 + 0,50 · 1 + 0,25 · 2
= 1.
Definindo Y = X 2 , ou seja, g (x) = x 2 , seria possı́vel calcular a

esperança de Y utilizando:
n
X
E(X 2 ) = xi2 fX (xi )
i=1
= 0,25 · 02 + 0,50 · 12 + 0,25 · 22
= 1,5.
Exemplo 5.2 – Roleta 0 a 10 (esperança) – No caso do Exem-

plo ?? envolvendo uma roleta graduada de [0, 10), visto em
capı́tulos anteriores, a variável aleatória X representa o valor ob-
tido em um sorteio. Nesse caso,
Z∞ Z 10
1
E(X ) = x fX (x)d x = x · dx
−∞ 0 10
2 10
x
= = 5.
20 0
Para Y = X 2 , pode-se calcular a esperança de Y utilizando:

Z ∞ Z 10
2 1
E(Y ) = x fX (x)d x = x2 · dx
−∞ 0 10
3 10

x 100
= =
30 0 3
Exemplo 5.3 – Função de densidade (esperança) – No caso das

variáveis aleatórias X , Y , definidas no capı́tulo anterior com dis-
tribuição de probabilidade conjunta
fX Y (x, y) = (x + y)I[0,1] (x)I[0,1] (y)

já verificamos que
fX (x) = (x + 0, 5)I[0,1] (x)
e, para esse caso, pode-se obter

R1R1 1
• E(X Y ) = 0 0 x y(x + y)d x d y = 3 .
R1 7
• E(X ) = 0 x(x + 0, 5)d x = 12 .
R1 5
• E(X 2 ) = 0 x 2 (x + 0, 5)d x = 12 .
Restrições à obtenção de E(X )

A esperança matemática pode não ser definida em algumas situações, em
razão da não-convergência da soma ou da integral utilizada na sua definição.
Esse problema não é muito frequente mas pode ocorrer2 . O próximo exem-
plo ilustra essa possibilidade.
Exemplo 5.4 – Esperança indefinida – Para uma variável aleatória

contı́nua X , com função de densidade definida por
1
fX (x) = I[1,∞) (x) ,
x2
pode-se verificar facilmente que fX (·) é de fato uma função de
densidade dado que
1. fX (x) ≥ 0, ∀x ∈ R.
R∞ 1
2. −∞ fX (x)d x = [− x ]∞1 = 1.
Contudo, nesse caso, a obtenção de E(X ) levará a um resultado

indefinido, dado que a integral não converge para um valor finito:
Z∞
1
E(X ) = x d x = [ln x]∞ 1 = x→∞
lim ln x = ∞.
1 x2
De um modo geral, os conceitos fundamentados na noção de

esperança dependem da convergência das integrais (ou somas)
2
A distribuição de Cauchy, por exemplo, que caracteriza a razão de duas variáveis aleatórias
com distribuição Normal, não tem momentos finitos.
e isso pode não ocorrer, como mostrou o exemplo. Mui-

tos resultados da estatı́stica assumem (às vezes implicitamente),
como condição de regularidade para sua validade, a existência
da esperança matemática (e outras grandezas) para as variáveis
aleatórias envolvidas.
5.3 Propriedades da esperança

São relacionadas à seguir algumas propriedades fundamentais associadas à
esperança matemática, onde k, a e b são constantes, X e Y são variáveis
aleatórias e gi (·), ∀i são funções. Os resultados dependem da existência da
esperança para a situação de interesse.
1. E(k) = k.
2. E(kX ) = k E(X ).
3. E(X + k) = E(X ) + k.
Prova: Para o caso contı́nuo (similar para o discreto).
Z∞
E(X + k) = (x + k) f (x)d x
−∞
Z∞ Z ∞
= x f (x)d x + k f (x)d x
−∞ −∞
= E(X ) + k. □
4. E[k g (X )] = k E[g (X )].

5. |E(X )| ≤ E(|X |)
Prova: Por aplicação direta da desigualdade de Jensen vista

no Capı́tulo 7, observando que a função valor absoluto é
convexa.
6. Esperança de uma função linear:
E[a g1 (X ) + b g2 (Y )] = a E[g1 (X )] +
b E[g2 (Y )].
7. E[g1 (X )] ≤ E[g2 (X )] se g1 (x) ≤ g2 (x), ∀x ∈ R.

Prova: Se g1 (x) ≤ g2 (x), tem-se que g1 (x) − g2 (x) ≤ 0.
Aplicando E(·) nos dois lados da expressão, e substituindo

a variável aleatória, chega-se a E[g1 (X ) − g2 (X )] ≤ 0, de
onde decorre diretamente que E[g1 (X )] ≤ E[g2 (X )]. □
8. Esperança do produto:
E(X Y ) = E(X )E(Y ) + Cov(X , Y ).
9. Esperança do quociente (aproximada):
X E(X ) Cov(X , Y ) E[X ]

E ≈ − + V (Y ).
Y E(Y ) E [Y ]
2 E[Y 3 ]
10. Esperança de g (X ) (aproximada):
g ′′ (µ x )
E[g (X )] ≈ g (µ x ) + V [X ],
2
onde µ x = E(X ) e V (X ) é a variância de X , definida na
próxima seção (veja derivação do resultado no Ex. 5.6).
A prova das propriedades 1, 2 e 4 é trivial e pode ser realizada pelo uso direto
da definição de esperança para o caso discreto e/ou contı́nuo. A proprie-
dade 8 depende do conceito de covariância, que será introduzido na próxima
seção. A prova das propriedades que não foram apresentadas é sugerida como
um exercı́cio ao leitor. O resultado da propriedade 9 é aproximado, obtido
a partir da expansão da série de Taylor bivariada até os termos de segunda
ordem (Mood et al., 1974, p. 181). Para o caso particular de uma função de
X , definido na propriedade 10, veja a derivação no Ex. 5.6.
O próximo exemplo ilustra o uso das propriedades da esperança (mais
exemplos dessas propriedades são descritos após a apresentação das proprie-
dades da variância).
Exemplo 5.5 – Esperança do lucro – Suponha que um produtor,

em 1 mês, estará produzindo as quantidades q1 e q2 de dois pro-
dutos cujo preços recebidos são incertos e representados pelas
variáveis aleatórias P1 e P2 .
O custo é conhecido e definido por c. Obtenha a esperança do
lucro (L), dado que se sabe que E(P1 ) = µ1 e E(P2 ) = µ2 .
Solução: No caso tem-se que
L = q1 P1 + q2 P2 − c,
em que q1 , q2 e c são constantes conhecidas. Mas pelas proprie-

dades da esperança,
E(L) = E(q1 P1 + q2 P2 − c)
= E(q1 P1 ) + E(q2 P2 ) − E(c)
= q1 E(P1 ) + q1 E(P2 ) − c
= q1 µ1 + q2 µ2 − c.
Exemplo 5.6 – Aproximação para E[g (X )] – Em muitas

situações, pode não ser possı́vel encontrar uma expressão
analı́tica para E[g (X )]. Nesses casos, pode-se recorrer a uma
aproximação, com apoio de uma expansão da função g (x) pela
série de Taylor, nas redondezas do ponto x0 = E(X ) = µ x .
Mantendo-se os termos da expansão da série de Taylor para g (x),
até a segunda ordem temos que
g ′′ (µ x )
g (X ) ≈ g (µ x ) + g ′ (µ x )(X − µ x ) + (X − µ x )2
2
Logo,
g ′′ (µ x )
E[g (X )] ≈ g (µ x ) + E[(X − µ x )2 ]
2
g ′′ (µ x )
≈ g (µ x ) + V [X ]
2
reconhecendo, na última passagem que E[X − µ x ] = 0 e que
V (X ) = E[(X − µ x )2 ] é a variância de X (veja a próxima seção
para detalhes sobre a variância). Em uma aproximação de pri-
meira ordem terı́amos E[g (X )] ≈ g (E[X ]).
5.4 Variância e conceitos associados

A variância teórica é uma das principais medidas de dispersão ou variabilidade
(ao redor da esperança) de uma variável aleatória. É importante distinguir o
conceito de variância (teórica), da chamada variância amostral. Estimadores
da variância, em condições apropriadas, irão convergir para a variância teórica
na medida que n cresce, pela Lei dos grandes números (vista no Capı́tulo ??).
A definição formal de variância (teórica) de uma variável aleatória X , re-
presentada no texto por
V (X ), V [X ] ou σX2 ,
é dada à seguir:
Variância (teórica) – para uma variável aleatória X define-se a

variância (teórica) de X , representada por V (X ) ou σ x2 por
V (X ) = E[(X − E(X ))2 ]
ou
V (X ) = E(X 2 ) − [E(X )]2 .
Isso significa que
n
X
V (X ) = [xi − E(X )]2 · fX (xi )
i=1
no caso discreto, ou
Z ∞
V (X ) = [x − E(X )]2 · fX (x) d x
−∞
no caso contı́nuo. A existência da variância depende da

convergência dos somatórios ou da integral.
Desvio padrão – para uma variável aleatória X define-se o desvio

padrão (teórico), representado por σ x , por
p
σ x = V (X ).
Em alguns desenvolvimentos será utilizada a notação

DP(X ) para indicar o desvio padrão da variável aleatória
X.
É difı́cil interpretar diretamente a magnitude da variância, dado que ela

é medida em unidades ao quadrado da variável aleatória associada a ela. O
desvio padrão, por se tratar da raiz quadrada da variância, é medido na mesma
unidade do fenômeno original, sendo de mais fácil interpretação.
Coeficiente de variação – para uma variável aleatória X , define-

se o coeficiente de variação (teórico) por:
σx
CV(X ) = .
µx
O coeficiente de variação não será definido quando E(X ) =

0. Em muitas situações o CV é expresso na forma percen-
tual.
Desvio padrão σ e dispersão da variável aleatória
Alguns resultados apresentados a seguir, alguns deles consequência de desi-

gualdades examinadas no Capı́tulo 7, facilitam a visualização do significado
do desvio padrão como medida de dispersão.
Nesses resultados, µ e σ representam a esperança matemática e o desvio
padrão da variável X , caso existam, e k é uma constante:
• Aplicação da desigualdade de Chebyshev:
1
Pr(|X − µ| ≥ k σ) ≤ .
k2
O resultado é válido para X com qualquer distribuição que tenha µ e
σ finitos.
• Aplicação da desigualdade de Vysochanskij–Petunin:
4
Pr(|X − µ| ≥ k σ) ≤ .
9k 2
O resultado é válido para k ≥ 1, 633, para toda variável aleatória com
distribuição unimodal que tenha µ e σ finitos.
• Distribuição Normal (resultado exato): Pr(|X − µ| ≥ σ) = 0, 317,

Pr(|X − µ| ≥ 2σ) = 0, 046 e Pr(|X − µ| ≥ 3σ) = 0, 003 (resultado
arredondado para 3 decimais).
Alguns exemplos
Nos desenvolvimentos deste capı́tulo, quando se falar em variância, desvio

padrão e coeficiente de variação, o entendimento deve ser o das versões
teóricas desses conceitos. Exemplos a seguir ilustram a obtenção desses con-
ceitos e algumas aplicações.
Exemplo 5.7 – Bolas vermelhas e brancas (variância) – No caso
da urna, verificou-se no Exemplo 5.1 que para a variável aleatória
X tem-se E[X ] = µ x = 1. Logo, a variância, desvio padrão e
coeficiente de variação de X podem ser computados por:
V (X ) = (0 − 1)2 · 0,25 + (1 − 1)2 · 0,5 + (2 − 1)2 · 0,25 = 0,50
σ x ≈ 0,71
CV% ≈ 71%
Exemplo 5.8 – Roleta 0 a 10 (variância) – No caso da roleta
verificou-se que para X tem-se µ x = 5 (Exemplo 5.2) logo a
variância de X poderia ser computada por:
Z 10
1 25
V (X ) = (x − 5)2 dx =
0 10 3
5
σx = p
3
1
CV = p .
3
Exemplo 5.9 – Mudança de escala – Se X é uma variável aleatória
com esperança µ e variância σ 2 , e a e b são constantes, obtenha
o desvio-padrão e o coeficiente de variação de Y = aX + b . Veja
as propriedades da variância em próxima seção para melhor en-
tendimento desses resultados.
Solução:
V (Y ) = a 2 σ 2 e DP(Y ) = aσ
aσ
CV(Y ) = e CV(Y ) = CV(X ), se b = 0.
aµ + b
Isso significa que o desvio padrão depende da unidade utili-
zada para caracterizar a variável aleatória. O coeficiente de
variação, por outro lado, é independente da unidade utilizada,
para fenômenos cuja medida utiliza a escala razão3 .
Exemplo 5.10 – Limite para a probabilidade de extremos – Se

X é uma variável aleatória com esperança µ, variância σ 2 e
distribuição de probabilidade unimodal, qual seria o máximo va-
lor possı́vel para Pr(|X − µ| ≥ 3σ)? Mostre que esse máximo é
inferior a 5%.
Solução: Pela aplicação direta da desigualdade de Vysochans-
kij–Petunin, com k = 3, chega-se a
4
Pr(|X − µ| ≥ 3σ) ≤ ≈ 0,04938.
9 · 32
Se a distribuição de X fosse uma Normal, o valor dessa probabi-
lidade desejada seria conhecido exatamente, sendo igual a 0,003
(arredondada para 3 decimais).
5.5 Covariância e correlação

Para duas variáveis aleatórias X e Y define-se a covariância (teórica) por
Cov(X , Y ) = E[(X − E(X ))(Y − E(Y ))]

= E(X Y ) − E(X )E(Y ).
O coeficiente de correlação (teórico) é definido por
Cov(X , Y )
ρX Y = .
σ x σy
O seguinte teorema apresenta os limites para os valores possı́veis para o

coeficiente de correlação.
3
Para fenômenos medidos na escala razão (altura, peso, valor monetário, etc.) a conversão
de unidades se processa pela multiplicação por uma constante. Na escala intervalar (ex. tem-
peratura) a mudança de unidades exige uma transformação do tipo Y = aX + b .
Teorema 5.1 – Limites para o coeficiente de correlação – O coefi-

ciente de correlação é um número entre -1 e 1.
Prova: Pela aplicação da desigualdade de Cauchy-Schwartz, apre-
sentada no Exemplo 7.4 do Capı́tulo 7.
A covariância e o coeficiente de correlação medem a intensidade da

associação entre as variáveis em questão, servindo para definir uma condição
necessária para independência.
Em particular, tem-se
Cov(X , X ) = E[(X − E(X ))2 ] = V (X ),
o que mostra que a variância é um caso particular da covariância de uma

variável aleatória com ela mesma.
Exemplo 5.11 – Função de densidade (covariância) – Pode-se ve-

rificar, pela aplicação das definições, que as variáveis aleatórias X
e Y definidas pela distribuição de probabilidade conjunta
fX Y (x, y) = (x + y)I[0,1] (x)I[0,1] (y)
tem covariância definida por:
Cov(X , Y ) = E(X Y ) − E(X )E(Y ) ≈ −0, 006944,
e
ρX Y ≈ −0, 0909.
5.6 Propriedades da variância e covariância

São apresentadas à seguir algumas propriedades fundamentais associadas à
variância e covariância, onde k, a, b e c representam constantes, e X e Y ,
representam variáveis aleatórias:
1. V (k) = 0.
2. V (kX ) = k 2 V (X ).
Prova: Pelo desenvolvimento da definição de variância:
V (kX ) = E[(kX − E(kX ))2 ]

= E[k 2 (X − E(X ))2 ]
= k 2 V (X ). □
3. V (X + k) = V (X ).
4. V (g (X )) ≈ [g ′ (E[X ])]2 V (X )
Aproximação obtida através de uma expansão pela série de

Taylor da função g (x) ao redor do ponto E[X ]. O leitor
deve obter o resultado como exercı́cio.
5. Variância da soma:
V (aX + b Y ) = a 2V (X ) + b 2V (Y ) +
2a b Cov(X , Y ).
6. Variância do produto (aproximada):
V (X Y ) ≈ E 2 (X )V (Y ) + E 2 (Y )V (X ) +
2E(X )E(Y )Cov(X , Y ).
7. Variância do quociente (aproximada):

X E[X ] 2 V [X ] V [Y ] Cov(X , Y )
V ≈ + −2
Y E[Y ] E 2 [X ] E 2 [Y ] E[X ]E[Y ]
8. Covariância:
Cov(X , a + b X + cY ) = b V (X ) + c Cov(X , Y ).
As provas das propriedade 1, 3, 5 e 8 são triviais, ficando a tı́tulo de

exercı́cio para o leitor. Os resultados das propriedades 6 e 7 são aproxima-
dos. Veja Mood et al. (1974, p. 181) para a demonstração desses resultados,
que dependem do uso da série de Taylor. O resultado geral aproximado para

V (g (X , Y )) é também apresentado nessa última referência.
Caso geral da variância da soma
A propriedade 4 (variância da soma) vista na seção anterior pode ser facil-

mente estendida para o caso de m variáveis. Na situação geral, se
Y = k1 X1 + k2 X2 + . . . + k m X m ,
onde os ki s são constantes e os Xi s são variáveis aleatórias, é possı́vel demons-

trar que, usando notação matricial,
V (Y ) = k′ V k,
σ11 σ12 σ1m

 
  ...
k1
 .. 
 σ21 σ22 ... σ2m 
onde k =  . , V =  .. .. .. ,
 
..
 . . . . 
km
σ m1 σ m2 . . . σ m m
e σi j = Cov(Xi , X j ), lembrando que Cov(Xi , Xi ) = V (Xi ). A matrix V é usu-

almente chamada de matriz de variância-covariância ou matriz de covariância.
Uma representação equivalente desse último resultado seria
n
X X
V (Y ) = ki2V (Xi ) + ki k j Cov(Xi , X j ).
i=1 i ̸= j
O resultado geral da variância descrito no parágrafo anterior pode ser

simplificado para
V (Y ) = V (X1 ) + V (X2 ) + . . . + V (X m ),
se Cov(Xi , X j ) = 0, para i ̸= j , resultado, por exemplo, da mútua inde-

pendência dos Xi s, algo que será visto proximamente na Seção 5.8.
Alguns exemplos são apresentados à seguir para ilustrar o uso de propri-
edades da esperança (vistas na seção anterior) e da variância.
Exemplo 5.12 – Esperança e variância de variável padronizada –

É comum em estatı́stica a padronização ou estandardização de
variáveis aleatórias. Se X é uma variável aleatória qualquer, com

esperança µ e variância σ 2 , uma variável aleatória Z que repre-
senta a padronização de X é definida por
X −µ
Z= .
σ
Mostre que a variável padronizada Z tem esperança 0 e desvio

padrão 1.
Solução: Como
X − µ
E(Z) = E ,
σ
pelas propriedades da esperança, como µ e σ são constantes,
1
E(Z) = E(X − µ)
σ
1 1
= [E(X ) − E(µ)] = [µ − µ] = 0.
σ σ
Logo, E(Z) = 0. Pelas propriedades da variância,
X − µ
V (Z) = V
σ
1
= V (X − µ)
σ2
1 1
= V (X ) = σ 2 = 1.
σ2 σ2
Logo, V (Z) = 1.
Exemplo 5.13 – Variância mı́nima do retorno – Suponha que um

investidor pretende saber quanto alocar de seu capital inicial Ci
em 2 investimentos cujas taxas de retorno anual (incertas no mo-
mento do investimento) são representadas por R1 e R2 . Assim, o
capital final, C f , obtido ao final do perı́odo de um ano será dado
por:
C f = θCi (1 + R1 ) + (1 − θ)Ci (1 + R2 )
onde θ ∈ [0, 1] representa a proporção do capital investido no
investimento 1, e (1 − θ) a proporção no investimento 2.
Rearranjando a última expressão, verifica-se que
C f = Ci [1 + θR1 + (1 − θ)R2 ].
O retorno global nos dois investimentos, a partir de uma

alocação θ, será definido por R onde
R = θR1 + (1 − θ)R2 .
Suponha que E(Ri ) = µi e V (Ri ) = σi2 , para i = 1, 2, e o coe-

ficiente de correlação entre os retornos, representado por ρ, são
conhecidos.
Nesse caso, assuma µ1 = µ2 = µ e a preferência do investidor é
por alocações que ofereçam a menor variância (um indicador de
risco em finanças). Verifique o impacto de θ na E(R) e o valor
de θ que leva à menor variância do retorno global.
Solução: Pelo enunciado, tem-se
E(R) = E[θR1 + (1 − θ)R2 ].
Mas θ é uma variável de decisão e portanto uma constante na ex-

pressão. Logo, usando as propriedade da esperança, e lembrando
que E(R1 ) = E(R2 ) = µ,
E(R) = θE[R1 ] + (1 − θ)E[R2 ]

= θµ + (1 − θ)µ = µ,
ou seja, a esperança do retorno não será alterada por θ.

Com relação à variância,
V (R) = V [θR1 + (1 − θ)R2 ],

e usando a propriedade associada à variância da soma,
V (R) = θ2 σ12 + (1 − θ)2 σ22 + 2θ(1 − θ)ρσ1 σ2
dado que Cov(R1 , R2 ) = ρσ1 σ2 , pela definição do coeficiente de

correlação ρ. A variância de R é portanto uma função da variável
de decisão θ e das constantes σ1 , σ2 e ρ. Pelas preferências do in-
vestidor, deve ser definido o valor de θ que minimiza essa última
expressão. Para isso pode-se utilizar a condição de primeira or-
dem4
dV (R)
= 0,
dθ
devendo-se encontrar o valor de θ que soluciona essa condição.
Como
dV (R)
= 2θσ12 − 2(1 − θ)σ22 + 2ρσ1 σ2 (1 − 2θ),
dθ
o valor de θ que faz essa expressão ficar idêntica a zero, e que
levará V (R) ao mı́nimo, será
σ22 − ρσ1 σ2
θ∗ = .
σ12 + σ22 − 2ρσ1 σ2
O leitor pode verificar que no caso particular em que σ12 = σ22 , a

solução será θ∗ = 1/2, ou seja, colocar metade do capital em cada
investimento.
Exemplo 5.14 – Esperança e variância da média – Suponha que

X1 , X2 , . . . , Xn representa uma amostra tamanho n (i.i.d.) de uma
variável aleatória X , com E(X ) = µ e V (X ) = σ 2 . A média
aritmética simples é definida por
Pn
Xi
X n = i =1
n
4
A condição de segunda ordem para minimização será atendida nesse caso, como o leitor
pode verificar.
e usada frequentemente como um estimador de µ. Obtenha a

esperança e variância desse estimador, ou seja E(X n ) e V (X n ).
Solução: A esperança e variância de X n serão obtidas à se-

guir. Utilizando-se das propriedades da esperança vistas anteri-
ormente, e observando que E(Xi ) = µ, tem-se
X1 + X2 + . . . + Xn
E(X n ) = E
n
E(X1 ) + E(X2 ) + . . . + E(Xn )
=
n
n ·µ
= = µ.
n
Pela aplicação das propriedades da variância, observando que n é
uma constante, que os valores são independentes e que V (Xi ) =
σ 2 , tem-se
X1 + X2 + . . . + Xn
V (X n ) = V
n
1
= V (X1 ) + V (X2 ) + . . . + V (Xn )

n 2
n · σ2 σ2
= = .
n2 n
Logo, os dois resultados solicitados são:
σ2
E(X n ) = µ e V (X n ) = .
n
5.7 Esperança e variância condicionais

Esperança condicional
Da mesma forma que se define a distribuição condicional, é possı́vel também

se definir as noções de esperança condicional e variância condicional.
Esperança condicional – se a distribuição condicional de Y dado

x é
fY |X (y|x),
define-se esperança condicional de Y dado que X = x, aqui
representada por
EY |x (Y |x) ou E(Y |X = x),
por Z ∞
E(Y |x) = y fY |X (y|x)d y
−∞
no caso contı́nuo, ou
X
E(Y |x) = y fY |X (y|x).
Ωy
no caso discreto. Esse resultado é também chamado de re-

gressão (teórica).
Teorema 5.2 – Esperança da esperança – Se X e Y são variáveis

aleatórias, é verdade que
E(Y ) = EX [EY |X (Y |X )].
Prova: Temos que (para o caso contı́nuo)

Z ∞
EY |X (Y |X ) = y fY |X (y|X )d y
−∞
que é uma variável aleatória por ser função de X . Logo

Z∞ Z∞
EX [EY |X (Y |X )] = y fY |X (y|x)d y fX (x)d x

−∞ −∞
Z ∞ Z ∞
= y fX Y (x, y)d y d x
−∞ −∞
= E(Y ),
usando o fato de que
fX Y (x, y) = fY |X (y|x) fX (x). □
A prova do caso discreto pode se realizar usando um argumento

parecido, utilizando-se os somatórios em lugar das integrais. Esse
teorema também é chamado de Lei da esperança total.
Exemplo 5.15 – Função de densidade (esperança condicional ou

regressão teórica) – Considere as variáveis aleatórias X e Y defi-
nidas pela distribuição de probabilidade conjunta
fX Y (x, y) = (x + y) I[0,1] (x)I[0,1] (y)
vista anteriormente. Em exemplo desenvolvido em capı́tulo an-

terior foi obtido o resultado
x+y
fY |X (y|x) = I (x)I[0,1] (y).
x + 0, 5 [0,1]
Logo, é possı́vel encontrar a esperança condicional ou regressão

(teórica) de Y dado x por
1
x+y
Z
E(Y |x) = y dy
0 x + 0, 5
3x + 2
= .
6x + 3
Para valores definidos de x a regressão indica os valores da
esperança condicional da variável aleatória Y . Pelo resultado do
último teorema (esperança da esperança), é verdade que
E(Y ) = EX [E(Y |X )]
como será verificado à seguir.

1
3x + 2
Z
EX [E(Y |X )] = f (x)d x,
0 6x + 3 X
Pela substituição do resultado anterior (Exercı́cio ??)
fX (x) = (x + 0,5) I[0,1] (x)
na integral e realizando a integração, chega-se a
7
EX [E(Y |X )] = ,
12
que é o valor de E(Y ) já obtido anteriomente (observe que
E(X ) = E(Y ) nesse caso).
Teorema 5.3 – Decomposição da esperança – Se A1 , . . . , An são

eventos mutuamente exclusivos e coletivamente exaustivos, e X
é uma variável aleatória, é verdade que
n
X
E(X ) = E(X |Ai ) Pr(Ai ).
i=1
Prova: Suponha que Z é uma variável aleatória que assume valor

i quando o evento Ai ocorre. Logo, pelo resultado do teorema
anterior (esperança da esperança), é verdade que
EZ [EX |Z (X |Z)] = E(X ).
mas,
n Z
X ∞
EZ [EX |Z (X |Z)] = x fX |Z (x|i) d x fZ (i).

i=1 −∞
Fazendo a substituição fZ (i) = Pr(Z = i) = Pr(Ai ) na última ex-

pressão e observando que o termo na integral é E(X |Ai ), conclui-
se que
X n
E(X ) = E(X |Ai ) Pr(Ai ). □
i=1
.
Variância condicional
À seguir é apresentada a definição da variância condicional de Y dado X = x,

que é representada por V (Y |X = x).
Variância condicional – Se a esperança condicional de Y dado

X = x é representada por E(Y |X = x), define-se a variância
Y condicional a X = x por
V (Y |X = x) = E[(Y − E(Y |X = x))2 |X = x]
ou, alternativamente, por
V (Y |X = x) = E(Y 2 |X = x) − [E(Y |X = x)]2 .
Teorema 5.4 – Lei da variância total – Se X e Y são variáveis

aleatórias, é verdade que
V (Y ) = EX [V (Y |X )] + VX [E(Y |X )].
O interessante desse resultado é que oferece uma decomposição

da variância em 2 termos aditivos. O primeiro deles é usualmente
chamado de componente não-explicado da variância e o segundo
de componente explicado da variância.
Prova: Pela definição da variância de Y e aplicação do teorema da
esperança da esperança, tem-se
V (Y ) = E(Y 2 ) − [E(Y )]2

= E[E(Y 2 |X )] − [E(E(Y |X ))]2
Mas, o argumento da esperança do termo da esquerda na última

expressão pode ser substituı́do pela sua definição em termos da
variância, chegando-se a
V (Y ) = E[V (Y |X ) + (E(Y |X ))2 ] − [E(E(Y |X ))]2

= E[V (Y |X )] + E[(E(Y |X ))2 ] − [E(E(Y |X ))]2 .
Os dois últimos termos da direita podem ser reconhecidos como

sendo V [E(Y |X )] (substitua Z = E(Y |X ), para visualizar me-
lhor esse resultado), concluindo-se que
V (Y ) = E[V (Y |X )] + V [E(Y |X )]. □

O próximo exemplo mostra a relação entre os termos da decomposição

da variância derivados do resultado do último teorema e o coeficiente de
correlação, em um modelo linear usual em estatı́stica.
Exemplo 5.16 – Variância total – Considere a variável aleatória Y

definida por
Y = a + bX + ϵ
onde a e b são constantes, e X e ϵ são variáveis aleatórias com
correlação zero, com E(ϵ) = 0. Pela lei da variância total tem-se
que
V (Y ) = E[V (Y |X )] + V [E(Y |X )].
Se ρX Y representa o coeficiente de correlação entre Y e X , mos-
tre que
V [E(Y |X )]
ρ2X Y = ,
V (Y )
ou seja, o coeficiente de correlação ao quadrado pode ser defi-
nido pela proporção representada pela participação relativa do
componente da variância explicado por X na variância total de
Y , nesse modelo linear.
Prova: O coeficiente de correlação é definido por
Cov(X , Y )
ρX Y = p ,
V (X )V (Y )
mas,
Cov(X , Y ) = Cov(X , a + b X + ϵ) = b V (X ),
logo
b 2V (X )
ρ2X Y = .
V (Y )
Por outro lado,
E[Y |X = x] = a + b x e E[Y |X = X ] = a + b X
de onde pode-se concluir que
V [E(Y |X )] = b 2V (X ),
que é exatamente o númerador da definição de ρ2X Y . □
5.8 Resultados associados à independência

Os próximos teoremas apresentam resultados relacionados à noção de inde-
pendência, no contexto de variáveis aleatórias e esperança matemática. O
último teorema desta seção mostra a relação existente entre os conceitos de
independência e correlação.
Teorema 5.5 – Esperança e independência – Se X e Y são
variáveis aleatórias independentes é verdade que E(X Y ) =
E(X )E(Y ), ou seja,
X ⊥⊥ Y ⇒ E(X Y ) = E(X )E(Y ).
Prova: Z ∞ Z ∞
E(X Y ) = x y fX Y (x, y)d x d y.
−∞ −∞
Mas pela independência de X e Y ,
fX Y (x, y) = fX (x) fY (y)
e
Z ∞ Z ∞
E(X Y ) = x y fX (x) fY (y)d x d y
−∞ −∞
Z∞ Z ∞
= x fX (x)d x y fY (y)d y
−∞ −∞
= E(X )E(Y ). □
Teorema 5.6 – Covariância e Independência – A independência

entre duas variáveis aleatórias X e Y implica que a covariância
(e a correlação) entre elas será zero. O contrário, contudo, não
será necessariamente válido em todos os casos, ou seja,
1. X ⊥⊥ Y ⇒ Cov(X , Y ) = 0.
2. Cov(X , Y ) = 0 ̸⇒ X ⊥⊥ Y.
Prova: Parte 1 - se as variáveis são independentes tem-se que
Cov(X , Y ) = E[(X − E(X ))(Y − E(Y ))]
será equivalente a
E[X − E(X )]E[Y − E(Y )],
em função do teorema que garante independência para funções

de variáveis independentes, concluindo-se diretamente que
Cov(X , Y ) = 0.
Parte 2 - a prova será realizada por contra-exemplo. Considere

uma variável aleatória X , caracterizada por uma distribuição
simétrica ao redor de zero. Nesse caso, é evidente que E(X ) = 0.
Ocorre, adicionalmente, que para uma distribuição como essa,
pode-se demonstrar5 que E(X 3 ) = 0. Considere agora uma outra
variável aleatória Y , definida por:
Y = X 2.
Claramente X e Y não são independentes, dado que ao se conhe-

cer o valor de X , será imediatamente conhecido o valor de Y .
Tem-se que, nesse caso,
Cov(X , Y ) = Cov(X , X 2 ) = E(X 3 ) − E(X )E(X 2 ).
Mas, como X tem uma distribuição simétrica ao redor de zero,

pode-se concluir que E(X ) = 0 e E(X 3 ) = 0. Consequente-
mente, Cov(X , Y ) = 0. Assim, foram encontradas 2 variáveis
aleatórias que não são independentes mas têm covariância (e
também correlação) iguais a zero. □
5
Usando o teorema da decomposição da esperança, visto anteriormente, e considerando
X contı́nuo, considere o evento A definido por X ≤ 0. Assim, é verdade que E(X 3 ) =
E(X 3 |A) Pr(A) + E(X 3 |A) Pr(A). Mas pela simetria da distribuição, E(X 3 |A) = −E(X 3 |A)
e Pr(A) = Pr(A), de onde se conclui que E(X 3 ) = 0. Esse argumento é válido para demonstrar
que E(X n ) = 0 para distribuições simétricas ao redor de zero, quando n é ı́mpar.
5.9 Momentos absolutos e centrais

As principais noções associadas a momentos absolutos e momentos centrais,
no contexto teórico e amostral, são introduzidas à seguir:
Momento absoluto – para uma variável aleatória X define-se mo-
mento absoluto (teórico) de ordem r ou simplesmente mo-
mento de ordem r de X , representado aqui por µ′r por
µ′r = E(X r ).
O leitor pode facilmente notar que a esperança matemática

ou média teórica seria representada pelo primeiro mo-
mento (momento de ordem 1) de X .
Momento central – para uma variável aleatória X define-se o mo-
mento central (teórico) de ordem r de X por:
µ r = E[(X − µX ) r ],
onde µX é a esperança de X .
Exemplo 5.17 – Variância – Quando r = 2 o momento central
é representado pela variância. Ademais, a variância pode ser re-
presentada em termos de momentos absolutos por:
V (X ) = E(X 2 ) − E 2 (X ) = µ′2 − (µ′1 )2
Usualmente, se não for especificado o tipo de momento subentende-se

que são momentos absolutos.
Os momentos absolutos e amostrais (teóricos) tem a sua contraparte
amostral. Para definição desses momentos amostrais, considere que
X1 , X2 , . . . , Xn
é uma amostra aleatória i.i.d. de uma variável aleatória X com distribuição

fX (x).
Momento absoluto amostral – define-se momento amostral ou
momento absoluto amostral de ordem r representado aqui
por M r′ por
n
′
X Xr
Mr = .
i =1
n
O leitor pode facilmente notar que a média aritmética (X )

corresponde ao primeiro momento amostral (momento
amostral de ordem 1).
Momento central amostral – define-se o momento central amostral
de ordem r por:
i=1 (Xi − X )r
Pn
Mr = .
n
5.10 Outras medidas estatı́sticas úteis

Os próximos parágrafos mostram algumas noções utilizadas para
caracterização de variáveis aleatórias.
Quantil e percentil
A noção de quantil q, representada aqui por ξq , e a noção análoga de percen-

til q% , representada por ξq% , servem para identificar certos valores de uma
variável aleatória que atendam as seguintes propriedades:
Quantil q – Para uma dada variável aleatória X , define-se o quan-

til q, ou ξq , como sendo o menor valor de X = x tal que:
F (x) ≥ q.
Percentil q% – Para uma dada variável aleatória X , define-se o

percentil q% , ou ξq% , como sendo o menor valor de X = x
tal que:
q
F (x) ≥ % .
100
O percentil nada mais é que o quantil expresso na forma
percentual.
Exemplo 5.18 – Bolas vermelhas e brancas (quantil) – Para o

exemplo da urna, onde X é o número de bolas brancas, tem-se
que o quantil 0,25 seria definido por 0 e o quantil 0,50 definido
por 1 pois estes são os mı́nimos valores de x que atendem a
FX (0) ≥ 0,25 e FX (1) ≥ 0,50.

No caso, os valores 0 e 1 seriam, respectivamente, os valores cor-

respondentes ao percentil 25% e ao percentil 50%.
Exemplo 5.19 – Roleta 0 a 10 (quantil) – No caso da roleta, onde

X vai ser definido com igual densidade de probabilidade entre
[0, 10), tem-se que o quantil 0,25 ou ξ0,25 será definido por 2,5 e
o quantil 0,50 ou ξ0,50 definido por 5 pois estes são os mı́nimos
valores de x que atendem a
FX (2,5) ≥ 0,25 e FX (5) ≥ 0,50.
A terminologia quartil pode ser utilizada para representar ξ0,25 , ξ0,50 e

ξ0,75 , que seriam, respectivamente, o primeiro, o segundo e o terceiro quartil.
Mediana e moda
Ao lado da esperança matemática, duas outras medidas de tendência central

são usadas em estatı́stica. Em algumas situações essas medidas são utiliza-
das como uma aproximação para o valor da esperança (por serem mais fa-
cilmente calculáveis em alguns casos) ou como medida auxiliar para indicar a
tendência central da distribuição utilizando um critério diferente do utilizado
pela esperança. Para algumas distribuições de interesse o valor da esperança,
da mediana e da moda são de fato os mesmos (isso ocorre para funções de
densidade simétricas como a Normal, por exemplo).
Mediana – Para uma variável aleatória X a mediana é definida

por
med(X ) = ξ0,50 .
ou seja, a mediana é idêntica ao quantil 0,5 da variável
aleatória X . Para o caso contı́nuo, isso seria equivalente
a obter med(X ), de forma que
Z med(X )
fX (u)d u = 0,50.
−∞
Exemplo 5.20 – Mediana para situações anteriores – No caso do

exemplo da urna, com 1 bola vermelha e 1 bola branca, em que
sorteamos 2 bolas com reposição, e X representa o número de
bolas brancas no resultado, med(X ) = ξ0,50 = 1. No caso da

roleta examinado anteriormente, med(X ) = ξ0,50 = 5.
Moda - para uma variável aleatória X , a moda será representada

por moda(X ), como o valor X = x que leva a distribui-
ção de probabilidade associada a X ao máximo global (su-
premo).
Exemplo 5.21 – Moda para exemplos anteriores (urna e roleta)

– No caso do exemplo da urna, moda(X )= 1. No caso da
roleta moda(X ) seria definida por qualquer valor de x tal que
x ∈ [0,10), ou seja, há infinitas modas.
Medidas de Assimetria e Curtose
Os desenvolvimentos mais frequentes em estatı́stica utilizam os momentos

absolutos de ordem 1 e 2 (associados à E(X ) e E(X 2 )) e o momento central
de ordem 2 (associado à V(X)). Em alguns casos, contudo, há interesse em
se descrever detalhadamente a função de densidade utilizando informações
associadas a outros momentos de ordem superior.
O momento central de ordem 3, representado por µ3 , está usualmente
associado à assimetria da função de densidade. É possı́vel demonstrar-se que
o sinal de µ3 está associado com a direção da assimetria da distribuição (ne-
gativo para a esquerda e positivo para a direita). Na Figura 5.2 a função de
densidade (A) é assimétrica para a direita, apresentando µ3 > 0, já a função
(B) é assimétrica para a esquerda e apresenta µ3 < 0.
Assimetria Negativa Assimetria Positiva
(A) (B)
Figura 5.2: Assimetria em distribuições
Distribuições simétricas como a Normal ou a Uniforme apresentam

µ3 = 0. Por outro lado, µ3 = 0 não garante necessariamente que a distri-
buição seja simétrica. Os dois casos são ilustrados na Figura 5.3. Para evitar
Assimetria zero Assimetria zero
Figura 5.3: Coeficiente de assimetria nulo não garante simetria
a dependência nas unidades é usual utilizar-se um coeficiente de assimetria,

construı́do a partir de µ3 e σ (desvio padrão):
µ3
γ1 = (coeficiente de assimetria).
σ3
O momento central de ordem 4, representado por µ4 , indica quanto a

função de densidade tem um “pico” mais pronunciado que o da distribuição
Normal, algo que é qualificado como a curtose da distribuição. O indicador
µ4
γ2 = − 3 (coeficiente de curtose)
σ4
é chamado coeficiente de curtose, sendo utilizado para obtenção de uma medida

de curtose que seja independente de unidade. Valores positivos de γ2 sugerem
uma distribuição com um pico mais pronunciado que o da Normal, chamada
de leptocúrtica. Se o pico for menos pronunciado então, tipicamente, o va-
lor do coeficiente de curtose será negativo, sendo a distribuição chamada pla-
ticúrtica. Um valor próximo de zero para γ2 indica uma situação mais similar
à da distribuição Normal. A Figura 5.4 ilustra esses casos.
O valor mı́nimo possı́vel para o coeficiente de curtose γ2 é -2 (veja Ex. 7.9
para a demonstração desse resultado). Esse valor é obtido para uma variável
aleatória com distribuição Bernoulli com p = 1/2.
5.11 Considerações finais

Este capı́tulo apresentou os conceitos de esperança matemática, variância,
momentos e outras noções relacionadas, as quais são definidas a partir das
definições associadas a distribuições de probabilidade desenvolvidas nos 2
Coef. de Curtose Coef. de Curtose

Positivo Negativo
Normal
Figura 5.4: Curtose em distribuições
capı́tulos anteriores. O próximo capı́tulo examinará o conceito de função ge-

radora de momentos, o qual facilita a obtenção de muitos resultados teóricos
importantes associados a distribuições de probabilidade e variáveis aleatórias.
Exercı́cios
Partes de alguns exercı́cios que envolvem perguntas sobre distribuições de
probabilidade, já foram solicitadas anteriormente em outros capı́tulos.
Exercı́cio 5.1 – Dados – No exemplo apresentado no texto cor-

respondente ao lançamento de dois dados com faces numeradas
de 1 a 6 definiu-se X como uma variável aleatória representando
a soma do resultado obtido em cada dado. Obtenha a função de
massa e com ela calcule a esperança e variância de X .
Exercı́cio 5.2 – Dados de uma face – Considere um jogo que con-

siste no lançamento de 6 dados especiais. Cada dado tem 5 faces
lisas (sem numeração) e uma face numerada, variando de 1 a 6
(um número para cada dado). Suponha que X representa a soma
dos resultados obtidos nos 6 dados após um lançamento (se o re-
sultado de um dado for a face lisa, ele é contado como zero). Esse
jogo era comum em festas na Europa na idade média, pagando-se
altos prêmios para valores elevados de X .
(a) Obtenha a esperança e variância de X (dica: esse é um caso

em que obtenção pela definição será mais complicada.)
(b) Obtenha a probabilidade do jogador obter cada um dos três
maiores valores de X .
(c) Suponha que um prêmio em dinheiro será pago em
proporção ao valor apostado, se o jogador obtiver o maior
valor possı́vel no jogo. Qual deve ser o valor do prêmio, de
forma que a esperança de ganho para o promotor do jogo
seja de $0,1 por $1 apostado. O promotor do jogo retêm o
valor apostado em todos os casos.
Exercı́cio 5.3 – Prove, usando as definições para o caso contı́nuo,

as propriedades da esperança que não foram provadas no texto.
Exercı́cio 5.4 – Prove, usando as definições para o caso contı́nuo,

as propriedades da variância que não foram provadas no texto
(exceto as que envolverem aproximações).
Exercı́cio 5.5 – Dardos II – Uma pessoa está atirando dardos em

um alvo circular com raio de 1 metro. O prêmio recebido por
cada dardo atirado depende da distância ao centro deste alvo,
sendo calculado pela fórmula:
P = 10000 × (1 − D),
onde P é o valor do prêmio e D é a distância em metros entre

o dardo e o centro do alvo. Se a probabilidade da pessoa acertar
qualquer ponto do alvo é idêntica e caso erre o alvo pode atirar
novamente,
1. Apresente a distribuição de probabilidade de D. (dica: ache

primeiro a função cumulativa)
2. Apresente a distribuição de probabilidade de P .
3. Calcule sua esperança e variância.
Exercı́cio 5.6 – Se f1 (x) e f2 (x) são funções de densidade, e defi-

nimos
f (x) = α1 f1 (x) + α2 f2 (x)
onde α1 + α2 = 1, α1 ≥ 0, α2 ≥ 0, responda:
(a) Se µ1 e µ2 são as esperanças associadas a f1 (x) e f2 (x), e

σ12 , σ22 são as variâncias, ache a esperança e a variância da
variável aleatória associada a de f (x).
Exercı́cio 5.7 –
1
fX (x) = k(x + )I[0,1] (x)
2
representa a distribuição de probabilidade da variável aleatória
X.
(a) Ache o valor de k que torna essa função uma função de den-
sidade. (pedido no capı́tulo anterior)
(b) Obtenha a função cumulativa, a esperança e a variância de
X . (função foi pedida no capı́tulo anterior)
(c) Se Y = aX + b , onde a e b são constantes, obtenha a dis-
tribuição de probabilidade, a esperança e a variância de Y .
(distribuição no capı́tulo anterior)
Exercı́cio 5.8 – Papel-tesoura-pedra – Num “jogo” chamado

papel-pedra-tesoura n pessoas mostram uma das mãos represen-
tando uma pedra (mão fechada), papel (mão aberta) e tesoura
(mão com os dedos formando um V). Pedra ganha de tesoura
(pois pedra danifica tesoura); tesoura ganha de papel (tesoura
corta papel) e papel ganha de pedra (papel embrulha pedra). Se
2 pessoas estão jogando esse jogo, defina uma variável aleatória
representando o número de jogadas necessárias para que o jogo
termine (o jogo termina quando uma pessoa ganha o jogo). Mos-
tre a distribuição de probabilidade dessa variável aleatória e cal-
cule sua esperança e variância. Faça o mesmo para um jogo de 3
pessoas.
Exercı́cio 5.9 – Sultão e mulheres – Um sultão das arábias resolve

baixar um decreto visando aumentar o número de mulheres no
paı́s e simultaneamente reduzir a taxa de natalidade. Para isso de-
termina que as novas famı́lias só tenham filhos até que consigam
1 menina e nesse ponto parem de ter filhos. Assim, raciocinando
o sultão, como em 50% dos casos ocorrerá uma menina no pri-
meiro nascimento, isso garantirá um incremento substancial no
proporção relativa de mulheres do paı́s. Determine o tamanho

esperado das famı́lias desse paı́s e a frequência esperada de mulhe-
res após a implementação da polı́tica (isso nas novas famı́lias que
não tem filhos antes da polı́tica ser implementada). Ocorrerá o
aumento desejado na frequência de mulheres?
Exercı́cio 5.10 – Opção de venda – Uma opção de venda é um ins-

trumento financeiro importante (vendido por terceiros) que dá
ao possuidor o direito (e não uma obrigação) de vender um dado
bem a um preço definido, numa data (ou perı́odo) fixado. Esse
preço definido é chamado preço de exercı́cio. Suponha que hoje
é o dia 0 e você irá produzir um produto para venda no dia 3. O
preço desse produto no dia 0 é $ 200 e deve variar nos próximos
dias segundo um processo aleatório no qual o preço em um dia
1
será o preço do dia anterior mais $ 10 com probabilidade 2 ou o
1
preço do dia anterior menos $ 10 com probabilidade 2 . Repre-
sente por Y o preço do produto no dia 3. Observe que se você
possui uma opção de venda para esse produto no dia 3 com preço
de exercı́cio $ 200, você nunca venderá o produto por menos de $
200. Se o preço no mercado for inferior a $ 200, a opção dá a você
o direito de vendê-lo a $ 200, o qual você obviamente exercerá.
Se o preço do produto for superior a $ 200 você obviamente não
exercerá essa opção pois será preferı́vel vender o produto a esse
preço superior a $ 200.
(a) Obtenha a distribuição de probabilidade, a esperança e o

desvio padrão de Y .
(b) Suponha que você tem uma opção de venda para o produto
que dá o direito de vendê-lo no dia 3 por $ 200. Represente
por P o preço que você receberá por ele considerando essa
opção que você tem. Qual é a distribuição de probabili-
dade, a esperança e o desvio padrão de P ?
(c) Suponha que no dia 0 você pode vender essa “opção de
venda” para outra pessoa. Qual seria o preço mı́nimo que
você venderia essa opção? argumente (a resposta não é ne-
cessariamente única).
Exercı́cio 5.11 – Craps II – Com relação ao exercı́cio relativo ao

jogo de dados “Craps”, descrito no capı́tulo anterior, numa dada
jogada, se para cada $ 1 apostado o jogador recebe $ 2 (com pro-

babilidade 0, 49293) se ganha e $ 0 se perde (com probabilidade
1 − 0, 49293), responda:
(a) Defina uma variável aleatória X que represente a receita

bruta do jogador para cada $ 1 apostado em uma jogada,
mostre sua distribuição de probabilidade e função cumula-
tiva. Faça uma ilustração dessas funções.
(b) Defina uma variável aleatória Y que represente o ganho
lı́quido do jogador em função de X , para cada $ 1 apostado.
Mostre sua distribuição de probabilidade, sua esperança e
variância.
(c) Obtenha a função geradora de momentos de Y e mostre
como você poderia utilizá-la para obter E(Y ).
(d) Defina uma outra variável Z que represente o ganho lı́quido
do cassino em função de X , para cada $ 1 apostado em uma
jogada. Mostre sua distribuição de probabilidade.
(e) Ache Cov(Y, Z) e ρY,Z . São Y e Z independentes?
(f) Qual a esperança, desvio padrão e coeficiente de variação do
ganho lı́quido para o cassino de uma jogada cuja aposta é $
100.000 ? Qual a probabilidade do cassino tomar prejuı́zo
com essa jogada?
(g) Qual a esperança, desvio padrão e coeficiente de variação
do ganho lı́quido para o cassino de 100.000 jogadas inde-
pendentes de $ 1?
(h) Considerando os resultados das estratégias utilizadas nos 2
últimos ı́tens, qual a melhor estratégia do ponto de vista do
cassino?
Exercı́cio 5.12 – Média-variância do retorno I – Considere a

situação do Exemplo 5.13 relativo a alocação de capital que leva
à variância mı́nima do retorno.
1. Mostre que, na situação em que as esperanças de retorno

são as mesmas (como no exemplo), e quando ρ < 1, sempre
a diversificação (divisão do capital nos dois investimentos)
será a melhor estratégia para minimizar a variância do re-
torno R.
2. O que acontece quando ρ = 1?

3. Qual é a melhor situação para o investidor com relação a
ρ?
Exercı́cio 5.13 – Média-variância do retorno II – Considere a
situação do Exemplo 5.13, mas que em lugar de somente dois
investimentos o investidor pode investir em n investimentos,
com retornos incertos R1 , R2 , . . . , Rn . Suponha que para esses
investimentos os retornos são mutuamente independentes e as
variâncias dos retornos são idênticas.
1. Será vantajosa a diversificação nesse caso, dado que todos
os n investimentos têm a mesma esperança de retorno e a
mesma variância?
2. Indique uma estratégia de investimento que praticamente
eliminará o risco (medido pela variância) para o investidor,
nessa situação?
Exercı́cio 5.14 – Média-variância do retorno III – Considere a
situação do Exemplo 5.13 relativo a alocação de capital que leva à
variância mı́nima do retorno. Suponha que para o investimento
1 tem-se E(R1 ) = 10% e V (R1 ) = 1, para o investimento 2 tem-se
E(R2 ) = 11% e V (R2 ) = 2 e ρ = 0,3 é o coeficiente de correlação
entre eles. Suponha também que o investidor sempre preferirá o
investimento que tenha maior média e menor variância. Mostre
que essa estratégia de colocar todo o capital em R1 não será ótima.
Exercı́cio 5.15 – Variância matricial – Considere as seguintes
definições:
     
X1 2 9 −4 9
X =  X2 , k =  4  e V =  −4 16 0  .
X3 7 9 0 9
Defina
Y = k′ X
e observe que V é a matriz de covariância. Obtenha V(Y). Obte-
nha também a matriz de correlação, que é uma matriz onde cada
elemento representa ρi, j , onde i, j são os ı́ndices das variáveis e
as posições na matriz, em termos de linhas e colunas.
Exercı́cio 5.16 – Fixação do preço – Uma empresa está plane-

jando um investimento que considera um desembolso de $ 200
no perı́odo 0 para produzir 120 unidades de um produto para ser
vendido no perı́odo 1, a um preço P que hoje é incerto, repre-
sentado por uma distribuição uniforme entre [1;b], onde b ̸= 1,
com E(P ) = $ 2. A taxa interna de retorno de um investimento,
é o valor da taxa de juros r que torna o valor presente do fluxo
de caixa do investimento igual a zero, ou seja, nesse caso, o valor
R∗ que soluciona:
120P
−200 + = 0.
1 + R∗
Como P é incerto, a taxa interna de retorno do investimento
também é incerta no momento em que o investimento é reali-
zado. Com base nessas informações responda:
(a) Especifique o valor do parâmetro b da distribuição associ-

ada ao preço.
(b) Obtenha os valores de E(R∗ ) e V (R∗ ).
(c) Suponha que o investidor pode fixar o preço futuro no va-
lor da esperança da distribuição de probabilidade do preço,
a um custo adicional no perı́odo 0 de $ 5. Qual seria a taxa
interna de retorno do investimento com essa estratégia?
(d) No caso dele não poder fixar o preço futuro, qual seria a
distribuição de probabilidade que representa a taxa interna
de retorno, antes da realização do investimento?
(e) Qual é a probabilidade dessa taxa interna de retorno ser
igual ou inferior a 7% na situação do ı́tem anterior?
Exercı́cio 5.17 – Sorveteiro – Um sorveteiro que trabalha com

carrinho na rua tem o seguinte problema: ele deve decidir sobre
q, quantos sorvetes comprar para vender durante o dia. Se com-
prar pouco, o sorvete acabará logo, o que limitará seu lucro. Se
comprar muito, sobrará sorvete, que não poderá ser vendido no
próximo dia, pois não estará em boas condições (e não pode ser
devolvido). Cada sorvete custa $ 1 e pode ser vendido por $ 1, 5,
se existir demanda. Suponha que ele estima que a quantidade
demandada de sorvetes num dia, representada por X , pode ser

caracterizada por uma função de densidade definida por
1
fX (x) = I (x).
100 [100,200]
Responda:
• Se L representa o lucro obtido pelo sorveteiro, obtenha

E(L) para a decisão q = 180. (Solução: E(L) = 42.)
• Qual seria seria a decisão ótima com relação a q que maxi-
mizaria E(L)? (Solução: q ∗ = 400/3)
Exercı́cio 5.18 – Se X é uma variável aleatória com esperança

matemática µ, mostre que E[(X − b )2 ] é minimizada quando
b = µ.
Exercı́cio 5.19 – Se X é uma variável aleatória com mediana m,

mostre que E(|X − b |) é minimizada quando b = m. Compare
esse resultado com o resultado do exercı́cio anterior. Essa me-
dida, E(|X − b |), é chamada de desvio absoluto médio (teórico)
com relação à mediana ou à média (em função de b ), podendo ser
uma medida de alternativa ao desvio padrão para caracterização
da dispersão de uma variável aleatória com relação à centrali-
dade da distribuição.
Rm Dica: use o fato de que E(|X − b |) =
E(|X − m|) + 2 b (x − b ) fX (x)d x.
Exercı́cio 5.20 – Controle de natalidade II – Considerando o

exercı́cio em capı́tulo anterior relativo à gravidez (Ex. ??), defina
uma variável aleatória correspondente ao número de relações
sem preservativo necessárias para uma gravidez (assumiu-se na-
quele exercı́cio que a probabilidade de gravidez em uma relação
1
qualquer é 28 ).
1. Apresente a distribuição de probabilidade dessa variável

aleatória.
2. Ache a função geradora de momentos e calcule a esperança
e desvio padrão dessa variável.
3. Repita os 2 ı́tens anteriores considerando uma situação em
que se utiliza um preservativo 95% eficaz.
Exercı́cio 5.21 – Ladrão II – No exercıcio do “ladrão” apresen-

tado em capı́tulo anterior (Ex. ??), se em cada roubo bem su-
cedido o ladrão consegue R$ 10.000, calcule a esperança ma-
temática e variância do número de roubos bem sucedidos e to-
tal de dinheiro acumulado que o ladrão conseguirá antes que seja
preso. Assuma que ele sempre realizará seus assaltos nos horários
de menor probabilidade de captura e apenas 1 guarda fará a vis-
toria num horário determinado aleatoriamente entre 9 e 10 da
noite (use os dados que precisar do exercı́cio do ladrão apresen-
tado anteriormente para resposta).
Exercı́cio 5.22 – Se X é uma variável aleatória com função gera-

dora de momentos m(t ) conhecida, qual é a função geradora de
momentos de Y = kX . Mostre o resultado algébrico se X tem
distribuição Normal (pesquise a função geradora de momentos
da distribuição Normal).
Exercı́cio 5.23 – Se X é uma variável aleatória com fX (x) =

θ f1 (x)+(1−θ) f2 (x), onde θ ∈ [0, 1], e fi (x) são distribuições de
probabilidade com esperança µi , variância σi2 , e função geradora
de momentos mi (t ), i = 1, 2, responda:
(a) Ache a esperança e variância de X em função de µi e σi2 ,i =

1, 2.
(b) Encontre a função geradora de momentos de X em função
de mi (t ), i = 1, 2.
Exercı́cio 5.24 – Considere que X é uma variável aleatória que

apresenta uma função de densidade definida por
1
fX (x) = I(1,k) (x)
x
(a) Qual o valor de k que torna a função apresentada uma
função de densidade (vista no capı́tulo anterior)
(b) Qual seria a função cumulativa de X ? Calcule FX (1, 2)?
(vista no capı́tulo anterior)
(c) Qual a esperança e variância de X ?
(d) Se definirmos uma variável aleatória Y como
Y = 4X
qual seria a variância e a esperança de Y

(e) Encontre a mediana e a moda dessa distribuição.
Exercı́cio 5.25 – Encontro II – Duas pessoas marcaram se encon-

trar entre 3 e 4 horas em um dado lugar. Existe igual chance
de cada pessoa chegar a qualquer momento entre 3 e 4 horas.
Se X representa o tempo de espera, compute a função cumula-
tiva de X , sua distribuição de probabilidade, sua esperança e sua
variância.
Exercı́cio 5.26 – Se X é uma variável aleatória com distribuição

Normal, definida por
(x−µ)2
1 −
f (x) = p e 2σ 2
2πσ
com esperança µ = 10 e variância σ 2 = 4, e consideramos 2 even-

tos: A ≡ 4 ≤ X ≤ 10 e B ≡ 2 ≤ X ≤ 14.
(a) Obtenha Pr(A) e Pr(B).
(b) Obtenha Pr(A ∪ B).
(c) Os eventos A e B são independentes?
(d) Se Y = 25 − 2X obtenha: E(Y ), V (Y ), fY (y), FY (9).
Exercı́cio 5.27 – Indique se as seguintes proposições são falsas ou

verdadeiras, justificando sua resposta através de uma prova. Nas
proposições, X e Y são variáveis aleatórias, a e b são constantes.
(a) Se E(X Y ) = E(X )E(Y ) então X e Y são independentes.
(b) V (X + 2Y ) = V (X − 2Y ).
(c) Se Y = a + b X , com V (X ) = V (Y ) = 1, tem-se b = ρX Y ,
onde ρX Y é o coeficiente de correlação entre X e Y .
Exercı́cio 5.28 – Se X ⊥
⊥ Y , prove ou desprove:
V (X Y ) = V (X )V (Y ).
Exercı́cio 5.29 – Suponha que X é uma variável aleatória medida

em kg e Y representa essa mesma variável medida em lb. O des-
vio padrão e o coeficiente de variação de Y serão os mesmos de
X ? e se X é medido em graus Celsius e Y representa o mesmo
fenômeno medido em graus Fahrenheit?
Exercı́cio 5.30 – Mostre que uma aproximação para V (g (X )),

onde g (·) é uma função diferenciável, pode ser obtida por
V (g (X )) ≈ [g ′ (E[X ])]2 V (X ).
Exemplifique o resultado mostrando uma aproximação para

V (ln X ).
Dica: considere uma aproximação da função g (X ) por uma série
de Taylor até a primeira ordem, ao redor do ponto E[X ].
Exercı́cio 5.31 – Se X é uma v.a. com função de massa definida

por
fX (x) = (1 − p) x−1 p
onde p ∈ (0, 1], e x ∈ {1, 2, 3, . . . , ∞} mostre que fX (x) atende as
1
propriedades de uma função de massa, e que E(X ) = p e V (X ) =
1− p
p2
.
Exercı́cio 5.32 – Colecionador de figurinhas I – Suponha que uma

empresa vende figurinhas com retratos de k jogadores de futebol
famosos em envelopes fechados. Cada envelope contém exata-
mente 1 figurinha. A empresa distribui as figurinhas nos envelo-
pes aleatoriamente, de maneira que a probabilidade de se encon-
trar a figurinha de um dado jogador em um envelope qualquer
1
é sempre k . Para completar o “álbum” é necessário obter as k
figurinhas diferentes.
(a) Se você já tem k −1 figurinhas diferentes e só falta uma para
completar o álbum, qual será a probabilidade de que você
precise comprar mais de k envelopes adicionais para obter
a figurinha faltante?
(b) Em média, quantos envelopes precisarão ser comprados
para que se complete um álbum com k figurinhas diferen-
tes a partir do inı́cio? Mostre que a esperança do número
de envelopes comprados para se completar um álbum com

k figurinhas diferentes é
k k k k 1 1
+ + + · · · + = k(1 + + · · · + ).
k k −1 k −2 1 2 k
(c) Resolva o ı́tem anterior para uma situação em que k = 50,

verificando que nesse caso, E(N ) ≈ 224, 96.
(d) Obtenha a variância de N , número total de envelopes com-
prados para completar o álbum. Mostre que, para um dado
k,
k 2k (k − 2)k (k − 1)k
V (N ) = + + ··· + + .
(k − 1)2 (k − 2)2 22 12
Verifique que no caso em que k = 50, V (N ) ≈ 3837,87.
(Dica: defina uma variável aleatória N para indicar o total de

envelopes comprados para completar o álbum, onde N = N1 +
N2 +. . .+Nk , com N j representando o número de envelopes que
serão comprados para que se obtenha a j -ésima figurinha dife-
rente, dado que a ( j − 1)-ésima figurinha diferente já foi obtida,
observando que os Ni s serão independentes. Considere o resul-
tado da questão anterior em sua solução. Veja a continuação do
problema no capı́tulo sobre desigualdades.)
Exercı́cio 5.33 – Estimador não-tendencioso – Um estimador é

uma fórmula que depende de uma amostra de observações utili-
zado para estimar uma certa grandeza de interesse. Assuma que
X1 , X2 , . . . , Xn é uma amostra i.i.d. de uma variável aleatória X
com esperança µ e variância σ 2 e
Pn
Xi
X n = i =1
n
i=1 (Xi − X n )
Pn 2
2
Sn = .
n −1
Essas duas fórmulas, que definem a média e a variância amos-
trais, são estimadores de µ e σ 2 . Estimadores não-tendenciosos
são aqueles cuja esperança matemática é idêntica a grandeza que

se deseja estimar.
(a) Mostre que a média e variância amostrais são estimadores

não-tendenciosos, respectivamente, de µ e σ 2 .
(b) Suponha que deseja utilizar um estimador para µ definido
por
t (X1 , X2 ) = θX1 + (1 − θ)X2
onde θ ∈ [0, 1]. Mostre que esse estimador é não-
tendencioso para qualquer valor de µ.
(c) A variância de um estimador não-tendencioso é uma me-
dida da precisão desse estimador. Com relação ao estima-
dor apresentado no último ı́tem, qual seria o valor de θ que
minimiza a variância desse estimador?
Exercı́cio 5.34 – Se X , Y e ϵ são variáveis aleatórias e a e b são

constantes, onde Y = a + b X + ϵ, E(ϵ) = 0 e
(a) correlação entre X e Y .

(b) E[Y |X ].
(c) Mostre os 2 componentes aditivos que caracterizam a
decomposição de V (Y ) obtida a partir da lei da variância
total.
Exercı́cio 5.35 – Se X é uma variável aleatória com fX (x) = (a +

2
b x 2 )I[0,1] (x), ache os valores de a e b de forma que E(X ) = 3 .
Exercı́cio 5.36 – Se X , Y e ε são variáveis aleatórias com

esperança zero e variâncias σX2 , σY2 , σε2 , e sabemos que Y =
b X + ε, onde X e ε são independentes, mostre que:
(a) Cov(Y, X ) = b σX2

b 2 σX2
(b) ρ2X ,Y =
b 2 σX2 + σε2
Exercı́cio 5.37 – Preços no mercado – Suponha que num levan-

tamento de preços no mercado, 2 informantes representados por
A e B estão sendo considerados, produzindo as informações XA

e XB , definidas por
XA = p + k + eA
onde p é o preço do produto praticado, k é um viés constante

conhecido e eA é um erro aleatório com E(eA) = 0 e V (eA) = σ 2 ;
e,
XB = p + eB
onde p é o preço do produto praticado, e eB é um erro aleatório
com E(eB ) = 0 e V (eB ) = 4σ 2 . Os erros têm distribuição conhe-
cida com E(eA eB ) = 0, eV(p)=4, sendo p, eA e eB mutuamente
independentes.
(a) Obtenha E(XA), E(XB ),Var(XA),Var(XB ).

(b) Obtenha Cov(eA, eB ). São eA e eB independentes? Explique.
(c) Qual é o coeficiente de correlação entre XA e XB informa-
dos num dado dia? são eles independentes?
(d) E se p for conhecido, são XA e XB independentes?
Exercı́cio 5.38 – Considere uma população de n indivı́duos.

Para o indivı́duo i, Xi , Yi e Zi representam medidas de 3 atribu-
tos especı́ficos. Para esse mesmo indivı́duo, Ti = a + b Xi + cZi ,
onde a, b e c são constantes conhecidas. Com relação a essa
situação responda:
(a) Obtenha Cov(Y, T ) assumindo como conhecidos a, b, c,

Cov(Y, X ) e Cov(Y, Z).
(b) Obtenha r (Y, T ) assumindo como conhecidos a, b, c,
r (Y, X ), r (Y, Z), D P (X ), D P (T ), D P (Y ), D P (Z). r () é
o coeficiente de correlação e D P () é o desvio padrão.
Exercı́cio 5.39 – Distribuição simétrica em 0: momento abso-

luto ı́mpar nulo – Se X é uma variável aleatória com E(X ) = 0,
simétrica ao redor da origem, ou seja, fX (x) = fX (−x), mostre
que para n sendo um número ı́mpar, E[X n ] = 0.
Exercı́cio 5.40 – Distribuição simétrica: momento central ı́mpar

nulo – Mostre que se uma variável aleatória X tem uma
distribuição simétrica ao redor da sua esperança µ, ou seja,
fX (µ + δ) = fX (µ − δ), é verdade que os momentos centrais
ı́mpares serão todos nulos, ou seja, µi = E[(X − µ)i ] = 0, para i
ı́mpar. Verifique que o resultado do exercı́cio anterior pode ser
obtido como uma caso particular desse resultado.
Exercı́cio 5.41 – Apresente um exemplo de 2 variáveis aleatórias

discretas que tenham apenas dois pontos com probabilidade di-
ferente de zero, e que tenham correlação zero mas não sejam in-
dependentes.
Exercı́cio 5.42 – No exercı́cio do par ou ı́mpar apresentado no

capı́tulo anterior, obtenha a correlação entre X e Y .
Exercı́cio 5.43 – Quantil – O Quantil(q) de uma distribuição de

probabilidade associada a uma variável aleatória X , caracterizada
num domı́nio Ω, é definido como o mı́nimo valor x ∈ Ω tal que
Pr(X ≤ x) ≥ q. Considere as seguintes distribuições de probabi-
lidade:

2 x
1. fX (x) = p (1 − p)2−x I{0,1,2} (x).
x
2. fX (x) = θe −θx I[0,∞) (x).
(a) Encontre Quantil(0,95) para as duas distribuições, conside-

rando p = 0,2 e θ = 10.
(b) Mostre que, no caso da distribuição 2.,
Quantil(q) = FX−1 (q)
onde FX−1 (q) é a função inversa da função cumulativa de X .
Exercı́cio 5.44 – Trivariada – Considere a distribuição conjunta

das variáveis aleatórias X , Y e Z:
 fX Y Z (0, 1, 0) = a

f (1, 0, 0) = b
 XYZ
fX Y Z (0, 0, 1) = 0, 2,
e fX Y Z (x, y, z) = 0 para outros valores de x, y, z. Sabe-se,

também, que E[X + 2Y ] = 1, 5. Pergunta-se
(a) Obtenha os valores de a e b .

(b) Obtenha as distribuições marginais fX (x), fY (y) e fZ (z).
(c) Encontre o coeficiente de correlação entre Y e Z.
(d) São X e Y independentes?
(e) São X e Y condicionalmente independentes dado Z?
Exercı́cio 5.45 – Normal multivariada – A distribuição Normal

multivariada é definida por
1 1
⃗ ⃗
e − 2 (x−µ)
T V−1 (x−µ)
fX (x) = p 1
,
(2π) |V|2 2
X1
 
E(X1 )
 
 X2 
..
onde X =  .. , ⃗=
µ ,
   
.
.
E(X p )
 
Xp
σ11 σ12 ... σ1 p
 
 σ21 σ22 ... σ2 p 
V= .
 
 .. .. .. .. 
. . . 
σ p1 σ p2 ... σp p
e σi j = Cov(Xi , X j ). Faça o Ex. ??, do Capı́tulo ??, como uma
introdução a este exercı́cio.
(a) Mostre que no caso bivariado, independência entre X e Y

é uma condição suficiente e necessária para Cov(X , Y ) = 0.
Esse é um caso onde Cov(X , Y ) = 0 implica independência.
(b) Mostre que a distribuição condicional de Y dado X = x é
dada por
1
fY |X (y|x) = p p e g (x,y)
2π 1 − ρ2 σy
onde
1 σy
g (x, y) = − [y − (µ y + ρ (x − µ x ))]2 .
2σy2 (1 − ρ2 ) σx
(c) Mostre que

σy
E(Y |X = x) = µy + ρ (x − µX ).
σx
Observe que se X e Y tem distribuição conjunta Normal

multivariada, a curva de regressão de Y em função de X é
linear.
Exercı́cio 5.46 – Mostre que, para uma variável aleatória com
distribuição Bernoulli com p = 1/2 o coeficiente de curtose γ2 é
-2.
Exercı́cio 5.47 – Obtenha uma expressão aproximada para a
E[g (X )] utilizando uma expansão da série de Taylor até a quarta
ordem. Parte (a): Mostre o resultado em termos de µ x , σ x , γ1
e γ2 (esperança, desvio padrão, coeficiente de assimetria e co-
eficiente de curtose). Exemplifique o resultado, obtendo uma
aproximação para ln X . Parte (b): mostre que no caso de X
com distribuição Normal a aproximação de quarta ordem de-
pende apenas dos termos até a expansão em segunda ordem, po-
dendo ser representada em termos de µ x e σ. Use para esse re-
sultado o fato de que, para a Normal, temos E[(X − µ x )3 ] = 0
(resultado válido para qualquer distribuição simétrica ao redor
da esperança) e E[(X − µ x )4 ] = 3σ 4 .
Referências
Drake, A. 1967. Fundamentals of Applied Probabilistic Analysis. McGraw-
Hill, New York.
Grimmett, G.& Stirzaker, D. 2001. Probability and Random Processes. 3rd
edition, Oxford University Press.
Feller, W. 1968. An Introduction to Probability Theory and its Applications -
Vol 1. John Wiley and Sons, New York.
Lindley, D. V. 1980. Introduction to Probability and Statistics from a Bayesian

Viewpoint - Part I (Probability). Cambridge University Press, Cambridge.
Mood, A., Graybill, F. A and Boes, D. 1974. Introduction to the Theory of

Statistics. McGraw-Hill, New York.
Ross, S. M. 2007. Introduction to Probability Models. 9th edition, Prentice-

Hall, New York.
Capı́tulo 6
Função Geradora de Momentos,

Cumulantes e Função Caracterı́stica
6.1 Introdução
Este capı́tulo apresenta os conceitos de função geradora de momentos
(f.g.m.), cumulantes e função caracterı́stica, que são freqüentemente utiliza-
dos em desenvolvimentos teóricos em estatı́stica. Esses conceitos estão inti-
mamente relacionados às noções de esperança matemática e momentos, des-
critos no capı́tulo anterior. Essas noções, em particular, serão utilizadas para
demonstrações associadas à Lei dos grandes números e ao Teorema do limite
central, examinados no Capı́tulo ??.
6.2 Função geradora de momentos (f.g.m.)

A função geradora de momentos (absolutos) ou simplesmente f.g.m., re-
presentada aqui por m(t ), é utilizada como um método alternativo para
caracterização da distribuição de probabilidade de uma variável aleatória, faci-
litando a sua identificação em desenvolvimentos teóricos e a própria obtenção
de seus momentos, quando existentes.
A f.g.m. é definida para um grande número de variáveis aleatórias, como
veremos nos próximos parágrafos. Em alguns casos, contudo, ela pode
não existir. A função caracterı́stica, vista mais ao final do capı́tulo, é uma
generalização da noção de f.g.m. desenvolvida no contexto dos números
complexos, sempre existindo para qualquer distribuição de probabilidade
51
Capı́tulo 6 - Função geradora de momentos e função caracterı́stica 52
(ao contrário da f.g.m., que pode não existir). Em desenvolvimentos mais

avançados, pode-se utilizar a função caracterı́stica como substituta mais geral
da f.g.m., evitando suas potenciais limitações. Como a função caracterı́stica
demanda conhecimentos de operações envolvendo números complexos, pode
ser mais fácil, inicialmente, conhecer a f.g.m., que só depende de operações
envolvendo números reais.
Função geradora de momentos – Para uma variável aleatória X ,
define-se sua a função geradora de momentos, representada
aqui por m(t ), por
Z∞
tX
m(t ) = E(e ) = e t x fX (x)d x
−∞
para o caso contı́nuo e

n
e t x j fX (xi )
X
m(t ) = E(e t X ) =
j =1
no caso discreto.
Essa função, nos dois casos, será definida para uma variável
aleatória X qualquer se m(t ) ≤ ∞ dentro de uma região
aberta ao redor da origem, na qual −ϵ ≤ t ≤ ϵ onde ϵ > 0,
que caracteriza o raio de convergência da função (se existir).
Se a f.g.m. existir (for finita dentro do raio de convergência), pode-se

verificar facilmente, utilizando o caso contı́nuo, que a derivada de ordem r
de m(t ) com relação a t será dada por
Z∞
d r m(t )
= x r e t x fX (x)d x.
dtr −∞
Mas, fazendo t = 0, conclui-se o resultado desejado:
d r m(t )
= E(X r ).
d t r t =0

Assim, o uso da última expressão leva a uma forma alternativa para obter
os momentos absolutos associados a uma distribuição de probabilidade, desde
que seja conhecida (e exista) sua função geradora de momentos.
Exemplo 6.1 – F.g.m da Exponencial – Se X é uma variável

aleatória com distribuição de probabilidade chamada Exponen-
cial, definida por:
fX (x) = λe −λx I[0,∞) (x), λ > 0
pode-se verificar, aplicando a definição da f.g.m., que
m(t ) = E(e t X )
Z∞
= λe t x e −λx d x
0
λ x(t −λ) ∞
= e
(t − λ) 0
λ h
x(t −λ)
i
= lim e −1 .
(t − λ) x→∞
Mas, o limite da última expressão tenderá a 0 se λ > t . Isso ocor-

rerá dado que na f.g.m. o interesse é pela região em que t → 0
e, na distribuição Exponencial, temos λ > 0. Resulta portanto,
dessas considerações, que
λ
m(t ) = .
λ− t
Derivando esta f.g.m., tem-se que
d m(t ) λ d m(t ) 1
= e = E(X ) = .
(λ − t )2 λ

dt d t t =0
Da mesma forma, pode-se computar
d 2 m(t ) 2λ d 2 m(t ) 2
= e = E(X 2 ) = .
2 (λ − t )3 2 λ2

dt dt t =0
Pela definição de variância, chega-se a
2 1 1
V (X ) = E(X 2 ) − E 2 (X ) = − = .
λ2 λ2 λ2
O exemplo apresentado a seguir ilustra a obtenção da f.g.m. da

distribuição Normal padronizada.
Exemplo 6.2 – F.g.m da Normal padronizada – Obtenha a f.g.m.

de uma variável aleatória X com distribuição Normal padroni-
zada, ou seja, com E(X ) = 0 e V (X ) = 1.
1 − x2
Solução: Nesse caso temos fX (x) = p e 2 ,e
2π
Z∞
1 x2
mX (t ) = E(e ) =tX
e t x p e− 2 d x
−∞ 2π
Z∞
1 2t x−x 2
= p e 2 d x.
−∞ 2π
Pela soma e subtração de t 2 no numerador do expoente da expo-

nencial dessa última expressão (uma técnica chamada de comple-
tar o quadrado) e organizando o resultado, chega-se a
Z∞
1 t 2 −(x−t )2
mX (t ) = p e 2 dx
−∞ 2π
Z∞
t2 1 (x−t )2
= e 2 p e − 2 d x.
−∞ 2π
A função na integral pode ser reconhecida como sendo uma

distribuição Normal com µ = t e σ 2 = 1, cuja integral nos li-
mites estabelecidos terá valor 1. Logo, pode-se concluir que
1 2
mX (t ) = e 2 t .
Utilizando procedimentos similares aos desenvolvidos no último exemplo,

o leitor pode obter (como um bom exercı́cio) a f.g.m. de uma distribuição
Normal qualquer com E(X ) = µ e V (X ) = σ 2 , que é definida por
1 2 2
mX (t ) = e t µ+ 2 t σ
. (6.1)
A Tabela 6.1, relaciona a f.g.m. de algumas distribuições de interesse. É

incluı́do o caso da f.g.m. de uma constante que é útil para demonstrações
relativas à Lei dos grandes números, apresentadas no Capı́tulo ??.
Tabela 6.1: Funções geradoras de momentos de algumas distribuições

Nome da Distribuição
Distribuição f (x) f.g.m.
Constante k I{k} (x) etk
1 e b t − eat
Uniforme I (x)
b − a [a,b ] (b − a)t
(x−µ)2
1 − 1 2
Normal p e 2σ 2 e t µ+ 2 t σ2
2πσ
r
1 r r −1 −λx λ

Gama λ x e I[0,∞) (x)
Γ (r ) λ− t
Obs: Veja detalhes adicionais sobre essas distribuições na Tabela ??.
O teorema descrito a seguir mostra um resultado que facilita a obtenção

da f.g.m. de Y = a + b X quando a f.g.m. de X é conhecida.
Teorema 6.1 – F.g.m. de Y = a + b X – Se X é uma variável
aleatória com f.g.m. mX (t ) conhecida, e
Y = a + b X temos mY (t ) = e a t mX (b t ).
Prova: Nesse caso temos
mY (t ) = E[e t Y ]
= E[e t (a+b X ) ] = e t a E[e t b X ]
′
Fazendo a substituição t ′ = t b pode-se concluir que E[e t X ] =
mX (t ′ ). Fazendo novamente a troca de t ′ por t b chega-se ao
resultado desejado. □
Os próximos parágrafos mostram resultados associados a: identificação
de distribuições pela f.g.m., caracterização da f.g.m. através da série de Tay-
lor, definição da f.g.m. para o caso multivariado e uso na independência de
variáveis aleatórias.
6.3 F.g.m. na identificação de distribuições

A função geradora de momentos (f.g.m.) pode ser utilizada para o reconhe-
cimento de distribuições, em desenvolvimentos teóricos. Esse uso da f.g.m.
é garantido pelo próximo teorema.
Teorema 6.2 – Identificação de distribuições – Se mX (t ) e mY (t )

são, respectivamente, as funções geradoras de momentos (f.g.m.)
associadas às variáveis aleatórias X e Y , e essas f.g.m.s são
idênticas, então pode-se concluir que as funções cumulativas de
probabilidade associadas às duas variáveis são idênticas.
Prova: Veja Mood et al. (1974, p.160) para detalhes.
Os próximos exemplos ilustram o uso da f.g.m. para a identificação de

distribuições em situações envolvendo funções de variáveis aleatórias.
Exemplo 6.3 – Soma de Exponenciais – Deseja-se conhecer a dis-

tribuição de Y = X +Z, onde X e Z são duas variáveis aleatórias
independentes com distribuição Exponencial(λ), ou seja,
X , Z ∼ Exponencial(λ), X ⊥⊥ Z.
A f.g.m. de Y será dada por
mY (t ) = E[e t (X +Z) ] = E[e t X e t Z ]
mas, como X e Z são independentes, funções de X e Z também

serão independentes. Logo,
mY (t ) = E[e t X e t Z ] = E[e t X ]E[e t Z ],
por propriedade da esperança de variáveis independentes. Mas,

os termos da direita são exatamente as f.g.m.s de X e Z. Mas essa
função, para a distribuição Exponencial é
λ
,
λ− t
obtida no último exemplo. Finalmente, substituindo esse resul-

tado na definição da f.g.m. de Y
λ 2
mY (t ) =
λ− t
Comparando essa f.g.m. com as descritas na Tabela 6.1 pode-
se concluir que a f.g.m. é idêntica à da distribuição chamada
Gama, com r = 2. Assim, pode-se concluir, pelo teorema
recém-apresentado, que a distribuição de Y é uma Gama, com
parâmetros λ e r = 2.
Exemplo 6.4 – Distribuição de X n – Se X1 , X2 , . . ., Xn é uma

amostra i.i.d. de uma variável aleatória com f.g.m. definida por
mX (t ), qual será a f.g.m. de X n ?
Solução: É conveniente definir X n por Sn /n, onde
Sn = X1 + X2 + . . . + Xn .
A f.g.m. de Sn será caracterizada por
mSn (t ) = E[e t (X1 +X2 +...+Xn ) ]

= E[e t X1 ] E[e t X2 ] . . . E[e t Xn ]
= [mX (t )]n
pela independência dos Xi s. Logo a f.g.m. de X n será dada por

n
1

mX (t ) = mX ( t ) (6.2)
n n
pela utilização do resultado do Teorema 6.1. Se, por exemplo, X
tem distribuição Normal, com E(X ) = µ e V (X ) = σ 2 , tem-se
que
1 2 2 1
mX (t ) = e t µ+ 2 t σ
e mX (t ) = e t µ+ 2n t
2σ 2
,
n
pela aplicação do resultado na Eq. 6.2. Essa f.g.m. é a de uma

Normal com esperança µ e variância σ 2 /n.
6.4 Caracterização da f.g.m. por série de Taylor

Diversos desenvolvimentos teóricos utilizam a caracterização da f.g.m. por
sua expansão através da série de Taylor, ao redor de um ponto de interesse. A
expansão de e t x ao redor do ponto x = 0 leva a
1 2 2 1 3 3
etx = 1 + t x + t x + t x ···
2! 3!
de onde pode-se concluir, substituindo x pela variável aleatória X e pela
aplicação do operador de esperança matemática, que
mX (t ) = E(e t X )
1 2 1
= 1 + t E[X ] + t E[X 2 ] + t 3 E[X 3 ] · · ·
2! 3!
n
X t i E(X i )
= lim
n→∞
i=0
i!
Essa série será convergente se mX (t ) < ∞ para t dentro de uma região que
inclua a origem [veja Grimmett & Stirzacker, 2001, p. 181-183, para detalhes
adicionais]. Isso é equivalente a dizer que todos os momentos absolutos serão
finitos nesse caso, e que
d r mX (0)
= E(X r ).
dt r
Quando a expansão pela série de Taylor é utilizada, para uma situação que a
f.g.m. é definida, temos [veja Lehmann, 1998, p. 582]:
r
X t k E(X k )
mX (t ) = E(e t X ) = + o(t r ). (6.3)
k=0
k!
A notação o(t r ) é explicada em detalhe no Capı́tulo ??, significando, em

sı́ntese, termos de ordem de magnitude inferior a t r .
6.5 F.g.m. conjunta e caracterização da

independência
Para variáveis aleatórias X e Y , define-se a função geradora de momentos
conjunta de X e Y por
mX ,Y (t1 , t2 ) = E[e t1 X +t2 Y ],
para −ϵ ≤ ti ≤ ϵ, 0 < ϵ → 0, e i ∈ {1, 2}. O próximo teorema estabelece uma

condição de independência baseada nessa definição.
Teorema 6.3 – Independência de funções geradoras – Se mX (t1 ) e

mY (t2 ) são, respectivamente, as funções geradoras de momentos
associadas às variáveis aleatórias X e Y , e mX ,Y (t1 , t2 ) é a função
geradora de momentos conjunta de X e Y é verdade que
X e Y independentes ⇔ mX ,Y (t1 , t2 ) = mY (t1 )mX (t2 ),
para todos os t1 , t2 numa vizinhança [−k, k] × [−k, k] ao redor

da origem.
Prova: Se X e Y são independentes, funções deles também serão
independentes por resultado mostrado em capı́tulo anterior
E[e t1 X +t2 Y ] = E[e t1 X e t2 Y ]

= E[e t1 X ]E[e t2 Y ]
dado que a esperança do produto de funções de variáveis indepen-

dentes também será independente. Para a prova da outra parte
do resultado veja Mood et al. (1974, p.161). □
6.6 Cumulantes e funções geradoras de cumulantes

A função geradora de cumulantes, representada aqui por g(t ), está muito as-
sociada à f.g.m., sendo caracterizada pela próxima definição.
Cumulante e função geradora de cumulantes – Para

uma variável aleatória X , define-se o cumulante de ordem
r , representado por k r , por
d r g(t )
kr = .
d t r t =0
onde
tX
g(t ) = ln E(e )
é chamada função geradora de cumulantes, que pode ser re-
presentada por
∞
X tj
g(t ) = kj .
j =1
j!
Pela definição, o leitor pode demonstrar a tı́tulo de exercı́cio que, para

uma variável aleatória X qualquer, é verdade que
k1 = µX e k2 = σX2 .
Veja Moran (2002, pp. 66 e 266) para detalhes.
Cumulantes e momentos
Um resultado geral útil para a derivação dos cumulantes e sua relação com os
momentos absolutos de X é dado por
n−1
X n −1
kn = µ′n − ki µ′n−i .
i=1
i − 1
Desse resultado pode-se obter (veja Moran 2002, p. 267):
µ′1 = k1
µ′2 = k2 − k21
µ′3 = k3 + 3k1 k2 + k31
µ′4 = k4 + 4k3 k1 + 3k22 + 6k2 k21 + k41
..
.
Uma extensão desse último resultado permite a obtenção dos momentos cen-
trais pela simples eliminação dos termos que incluem k1 das expressões equi-
valentes para os momentos absolutos:
µ1 = 0
µ2 = k2
µ3 = k3
µ4 = k4 + 3k22
..
.
A partir desses resultados é possı́vel estabelecer a relação entre os vários

momentos. Por exemplo, o momento central de ordem 3 pode ser definido a
partir dos momentos absolutos de diferentes ordens por:
µ3 = µ′3 − 3µ′1 µ′2 − 4(µ′1 )3 .
6.7 Função caracterı́stica

A função caracterı́stica é uma versão mais geral da noção de função geradora
de momentos, caracterizada no contexto dos números complexos. Esta seção
apenas sintetiza alguns resultados mais usuais relativos à função caracterı́stica.
Para uma abordagem mais detalhada sobre funções caracterı́sticas, o leitor
pode consultar Moran (2002) ou Lukacs (1960), um texto clássico sobre o
assunto.
A vantagem principal da função caracterı́stica é que sempre é definida
para qualquer distribuição de probabilidade (algo que pode não ocorrer com
a f.g.m.). Por essa razão, muitos desenvolvimentos teóricos mais avançados
em estatı́stica utilizam a função caracterı́stica em lugar da f.g.m. visando dar
mais generalidade aos resultados. A própria definição de função geradora de
cumulantes, vista na seção anterior, em sua forma mais geral, pode ser feita a
partir da função caracterı́stica.
Definição da função caracterı́stica e propriedades
Para uma variável aleatória X contı́nua, a função caracterı́stica é definida por
ϕX (t ) = E(e i t X )
Z ∞
= e i t x f (x) d x
−∞
p
onde i = −1 é o número imaginário, utilizado no contexto dos números
complexos. O caso discreto segue uma definição similar, com um somatório
substituindo a integral. A função caracterı́stica é uma função bem compor-
tada, observando-se
ϕX (0) = 1 e |ϕX (t )| ≤ 1 (∀t ).
O leitor deve ter muito cuidado com as integrais (e operações algébricas

em geral) envolvendo números complexos, cujas regras são diferentes das usu-
almente utilizadas no contexto dos números reais, sendo detalhadas em textos
especializados no assunto como Ablowitz & Fokas (2003) e Brown & Chur-
chill (2008). Em particular, as integrais podem exigir o conceito de integral
de linha (também chamada de integral de contorno). Datta & Ghosh (2007)
mostram técnicas para evitar a integral de linha no contexto de funções ca-
racterı́sticas.
Uma outra representação útil da função caracterı́stica, obtida a partir da
Fórmula de Euler, é dada por
ϕX (t ) = E[cos(t X )] + i E[sen(t X )].
Alguns resultados importantes relativos à função caracterı́stica são suma-

rizados no próximo teorema.
Teorema 6.4 – Resultados sobre a função caracterı́stica – Os se-

guintes resultados são válidos para a função caracterı́stica:
(k)
1. Se ϕX (0), a derivada de ordem k da função caracterı́stica
de X avaliada no ponto t = 0, existe, é verdade que: (a)
E(|X k |) < ∞ se k é par; e, (b) E(|X k−1 |) < ∞ se k éı́mpar.
2. Se E(|X k |) < ∞ é verdade que

k
X E(X j )
ϕX (t ) = (i t ) j + o(t k ).
j =0
j!
(k)
e que ϕX (0) = i k E(X k ), onde a notação o(t k ) é definida
no Capı́tulo ??. Essa expressão nada mais é que a expansão
por série de Taylor da função caracterı́stica.
3. Se ϕX (t ) e ϕY (t ) são as funções caracterı́sticas de X e Y ,
duas variáveis aleatórias independentes, é verdade que a
função caracterı́stica de Z = X + Y será definida por
ϕZ (t ) = ϕX (t )ϕY (t ).
4. Se a e b são constantes, ϕX (t ) é a função caracterı́stica de

X e Z = a + b X , a função caracterı́stica de Z será dada por
ϕZ (t ) = e i t a ϕX (b t ).
5. Se duas variáveis aleatórias X e Y tem a mesma função ca-

racterı́stica, as suas distribuições de probabilidade serão as
mesmas (e vice-versa).
Prova: A demonstração desses resultados é apresentada em Grim-

mett & Stirzaker (2001, pp. 182-184). Muitos desses resultados
são extensões dos resultados apresentados anteriormente para a
função geradora de momentos.
Da função caracterı́stica é possı́vel definir os momentos da distribuição de

X (desde que existam, pela propriedade 2 do último teorema) de uma forma
relativamente similar à realizada na função geradora de momentos, por
d k ϕX (0)
E(X k ) = i−k .
dtk
A seguir é apresentada uma propriedade que facilita a obtenção da função
caracterı́stica a partir do conhecimento da f.g.m., quando esta existir.
Função caracterı́stica e a f.g.m.
Quando a f.g.m. de uma variável aleatória X existir, a função caracterı́stica

de X será definida a partir da f.g.m. pelo resultado do teorema a seguir.
Teorema 6.5 – Função caracterı́stica a partir da f.g.m. – Se mX (t )

é a função geradora de momentos de uma variável aleatória X ,
que tem todos os seus momentos finitos, ou seja, |E(X k )| <
∞ (∀k), é verdade que a função caracterı́stica de X , será definida
por:
ϕX (t ) = mX (i t ).
Prova: Veja o resultado em Grimmett & Stirzaker (2001, p. 184)
e referências citadas por esses autores.
Assim, por exemplo, se X tem distribuição Normal, partindo da sua f.g.m.

definida na Tabela 6.1 por
1 2 2
mX (t ) = e t µ+ 2 t σ
pode-se chegar, pelo resultado do último teorema, à função caracterı́stica

dessa distribuição, que será definida (lembrando que i 2 = −1) por
ϕX (t ) = mX (i t )
1 2 2
= e i t µ− 2 t σ
.
6.8 Considerações Finais

Este capı́tulo apresentou noções como: função geradora de momentos, cu-
mulantes e função caracterı́stica. Essas noções são utilizadas para o reconhe-
cimento de distribuições de probabilidade em situações envolvendo funções
de variáveis aleatórias, assim como no processo da obtenção de momentos,
entre outras aplicações. Especificamente, algumas dessas noções (f.g.m.. e
função caracterı́stica) são utilizadas em demonstrações relacionadas à Lei dos
grandes números e ao Teorema do limite central, apresentadas no Capı́tulo ??.
Exercı́cios
θ f1 (x)+(1−θ) f2 (x), onde θ ∈ [0, 1], e fi (x) são distribuições de
probabilidade com esperança µi , variância σi2 , e função geradora
de momentos mi (t ), i = 1, 2, responda:
(a) Encontre a função geradora de momentos de X em função

de mi (t ), i = 1, 2.
Exercı́cio 6.2 – Se X é uma variável aleatória que assume valor 0

com probabilidade 1/2 e valor 2 com probabilidade 1/2. Encon-
tre a função geradora de momentos de X e a partir dela obtenha
E(X ) e V (X ).

I[0,1] (x), encontre a função geradora de momentos de X e a partir
dela obtenha E(X ) e V (X ).
Exercı́cio 6.4 – Encontre a função geradora de momento de uma

variável aleatória X que tem uma distribuição Normal de proba-
bilidade definida por
(x−µ) 2
1 −
fX (x) = p e 2σ 2 .
2πσ
Dica: utilize a técnica de completar o quadrado utilizada no texto

para derivar a f.g.m. da Normal padronizada (Exemplo 6.2).
Exercı́cio 6.5 – Assumindo que X tem uma distribuição Normal

de probabilidade definida por
1 (x−b )2
−
fX (x) = p e 2a2
2πa
e sua função geradora de momentos (f.g.m.) é dada por

1 2 2
mX (t ) = e b t + 2 ta
,
obtenha E(X ) e V (X ), a partir de mX (t ).

Exercı́cio 6.6 – Mostre que, para uma variável aleatória X qual-

quer, é verdade que
k1 = E(X ) e k2 = V (X ),
onde k r é o cumulante de ordem r de X .
Exercı́cio 6.7 – Se X1 , X2 , . . . , Xn são variáveis aleatórias mutua-

mente independentes, mostre que a função geradora de momen-
tos de
Y = X1 + X2 + . . . , Xn
é definida pelo produto das funções geradoras de momentos de
X1 , X2 , . . . , Xn . Mostre detalhadamente as propriedades e teore-
mas que garantem o resultado.
Exercı́cio 6.8 – Se X n foi obtido de uma amostra i.i.d.

X1 , X2 , . . . , Xn e temos
p
n(X n − µ x )
Y= ∼ Normal(0, 1)
σx
mostre que X n tem distribuição Normal(µ x , σ x2 /n).
Exercı́cio 6.9 – Mostre que se X tem distribuição Normal(0, 1),

ou seja, uma Normal padronizada, e Y = X σ + µ, Y terá uma
distribuição Normal(µ, σ 2 ), ou seja uma distribuição Normal
com esperança µ e variância σ 2 .
Exercı́cio 6.10 – Mostre em detalhes a obtenção da função ca-

racterı́stica da distribuição Normal, com esperança µ e variância
σ 2 , a partir da f.g.m. dessa distribuição, a partir do resultado
apresentado no Teorema 6.5. Obtenha a função caracterı́stica da
Normal padronizada.
Exercı́cio 6.11 – Mostre que para uma variável aleatória X , com

E(X ) = 0 e V (X ) = 1, a função caracterı́stica de X pode ser
representada por
1
ϕX (t ) = 1 − t 2 + o(t 2 ).
2
Referências
Ablowitz, M. & Fokas, A. 2003. Complex Variables - Introduction and
Applications. 2th. edition, Cambridge University Press.
Brown, J. & Churchill, R. 2008. Complex Variables and Applications. 8th.

edition, McGraw-Hill.
Datta, G. & Ghosh, M. 2007. Characteristic Functions without Contour

Integrals. The American Statistician, 61(1): 67-70.
Drake, A. 1967. Fundamentals of Applied Probabilistic Analysis. McGraw-

Hill, New York.


Lindley, D. V. 1980. Introduction to Probability and Statistics from a Bayesian

Viewpoint - Part I (Probability). Cambridge University Press, Cambridge.
Lukacs, E. 1960. Characteristic Functions. London: Charles Griffin &

Company Limited.
Mood, A., Graybill, F. A and Boes, D. 1974. Introduction to the Theory of

Moran, P. 2002. Introduction to Probability Theory. Oxford: Clarendon

Press (Reprinted with Corrections by Oxford University Press).

Hall, New York.
Capı́tulo 7
Desigualdades de Interesse
Estatı́stico
7.1 Introdução
Este capı́tulo apresenta algumas desigualdades importantes para desenvolvi-
mentos teóricos em estatı́stica: Markov, Chebychev, Cantelli, Vysochanskij-
Petunin, Hölder, Cauchy-Schwartz, Minkowski e Jensen.
Algumas dessas desigualdades são utilizadas nas demonstrações apresenta-
das no próximo capı́tulo envolvendo modos de convergência e dois importan-
tes resultados teóricos da estatı́stica: a Lei dos grandes números e o Teorema
do limite central.
Como é comum o uso da função valor absoluto f (x) = |x| nos desen-
volvimento envolvendo desigualdades, é recomendável que o leitor revise as
propriedades dessas funções antes de iniciar a leitura deste capı́tulo.
7.2 Desigualdade de Markov

A desigualdade de Markov estabelece um resultado geral de importância
teórica que permite inferências probabilı́sticas a respeito de uma variável
aleatória. Essas inferências produzem limites conservadores para a proba-
bilidade sem que seja necessário o conhecimento da distribuição de probabi-
lidade. Somente o conhecimento da esperança matemática é demandado para
a operacionalização da desigualdade.
68
Capı́tulo 7 - Desigualdades de interesse estatı́stico 69
Teorema 7.1 – Desigualdade de Markov – Se Y é uma variável

aleatória que somente assume valores estritamente positivos
(Y > 0) com esperança finita e a > 0 é um valor real qualquer, é
verdade que
E(Y )
Pr(Y ≥ a) ≤ .
a
Prova: A prova será desenvolvida para uma variável aleatória
contı́nua1 . Pela definição da esperança e assumindo Y > 0 e
a > 0, tem-se que
Z∞ Za Z∞
E(Y ) = y fY (y)d y = y fY (y)d y + y fY (y)d y,
0 0 a
logo, pode-se concluir que

Z∞ Z ∞
E(Y ) ≥ y fY (y)d y ≥ a fY (y)d y = a Pr(Y ≥ a),
a a
o que leva diretamente ao resultado desejado
E(Y )
Pr(Y ≥ a) ≤ .□
a
Teorema 7.2 – Desigualdade de Markov generalizada – Se X é

uma variável aleatória com esperança finita, a é um valor real
qualquer (positivo), e g (·) é uma função g : [0, ∞] → [0, ∞]
contı́nua, estritamente crescente e não negativa, é verdade que
E[g (|X |)]

Pr[|X | ≥ a] ≤ .
g (a)
Prova: pela versão básica da desigualdade de Markov, verifica-se

que
E[g (|X |)]
Pr[g (|X |) ≥ g (a)] ≤ ,
g (a)
1
Para o caso geral, considere uma variável X que assume valor 0 quando Y < a e valor
a quando Y ≥ a. Assim sendo, é claro que sempre observaremos X ≤ Y , ou, aplicando a
esperança dos dois lados da expressão chegamos E(X ) ≤ E(Y ), mas E(X ) = 0 Pr(Y < 0) +
a Pr(Y ≥ a) = a Pr(Y ≥ a). Logo temos a Pr(Y ≥ a) ≤ E(Y ), de onde decorre diretamente o
resultado do teorema.
mas em função das restrições especificadas para a função g (·), que

garante uma única inversa, temos
Pr[g (|X |) ≥ g (a)] = Pr[ |X | ≥ a],
o que completa a prova. □
Exemplo 7.1 – Aplicação da desigualdade de Markov – No

Exercı́cio 5.32 (colecionador de figurinhas) do capı́tulo 5,
verificou-se que
1 1
E(N ) = k(1 + + · · · + ),
2 k
onde N é uma variável aleatória que caracteriza o número de
envelopes de figurinhas necessário para se completar um álbum
contendo k figurinhas direrentes (assumindo uma figurinha em
cada envelope). Estabeleça um limite superior para a probabili-
dade de precisarmos de 1000 ou mais envelopes para completar-
mos o album, na situação em que k = 50.
Nesse caso, temos, aproximadamente, E(N ) = 224, 96. Logo,
pela aplicação direta da desigualdade de Markov, podemos con-
cluir que:
224, 96
Pr(N ≥ 1000) ≤ ≤ 0,225.
1000
Assim, o valor 0,225 seria um limite máximo para a probabili-
dade de serem nescessários 1000 ou mais envelopes para comple-
tar esse álbum.
Um exemplo significativo da aplicação da desigualdade de Markov ocorre

em um corolário desse resultado, que é a desigualdade de Chebyshev, vista a
seguir.
7.3 Desigualdades de Chebyshev, Cantelli e

Vysochanskij-Petunin
Desigualdade de Chebyshev
A desigualdade de Chebyshev ou Bienaymé-Chebyshev2 é derivada facil-

mente da desigualdade de Markov, possibilitando a obtenção de resultados en-
volvendo a noção de convergência em probabilidade envolvendo a variância,
examinados no capı́tulo ??.
Teorema 7.3 – Desigualdade de Chebyshev – Se Y é uma variável

aleatória com esperança e variância finitas, representadas respec-
tivamente por µ e σ 2 > 0, e b > 0, é verdade que
σ2 σ2
Pr(|Y − µ| ≥ b ) ≤ ou Pr(|Y − µ| < b ) ≥ 1 − .
b2 b2
Prova: Usando o resultado da desigualdade de Markov generali-
zada (Teorema 7.2) com |X | = |Y − µ| e g (y) = y 2 , chega-se
a
E[(Y − µ)2 ]
Pr(|Y − µ| ≥ b ) ≤ .
b2
Mas, como E[(Y − µ)2 ] = σ 2 , conclui-se que
σ2
Pr(|Y − µ| ≥ b ) ≤ .
b2
Rearranjando a última expressão, chega-se ao resultado alterna-
tivo
σ2
Pr(|Y − µ| < b ) ≥ 1 − . □
b2
2
Do ponto de vista histórico, essa desigualdade foi inicialmente provada em 1853 por Bi-
enaymé, um francês pioneiro da estatı́stica (Hald, 2006). Chebyshev, por outro lado, provou
o resultado em 1867 e popularizou seu uso na prova de resultados fundamentais da estatı́stica.
Por essa razão, a desigualdade também é chamada de Bienaymé-Chebyshev. A desigualdade
de Markov, leva o sobrenome de A. Markov, aluno de Chebyshev, mas pode ter sido obra de
Chebyshev, pois aparece em textos desse autor anteriores às publicações de Markov.
Um corolário importante desse último teorema decorre do caso em que b =

kσ, e k é uma constante positiva:
1
Pr(|Y − µ| ≥ k σ) ≤ .
k2
Alguns exemplos a seguir ilustram aplicações do teorema.
Exemplo 7.2 – Aplicação de Chebychev – Se X é uma variável

aleatória, o que poderia ser inferido sobre probabilidade de Y
estar compreendido no intervalo entre 3 e 7, se E(Y ) = 5 e
V (Y ) = 1?
Solução: Do resultado do exemplo anterior, pela desigualdade de
Chebyshev, tem-se que
V (Y )
Pr(|Y − µ| < b ) ≥ 1 −
b2
ou
V (Y )
Pr(−b < Y − µ < b ) ≥ 1 − ;
b2
substituindo µ = 5 e V (Y ) = 1 chega-se a
1
Pr(5 − b < Y < 5 + b ) ≥ 1 − .
b2
A questão pede que se infira algo sobre Pr(3 < Y < 7) e para isso
bastaria a substituição de b = 2 na última expressão para chegar
a
1 3
Pr(3 < Y < 7) ≥ 1 − = .
4 4
Exemplo 7.3 – Aplicação de Chebyshev II – Obtenha um limite
máximo para a probabilidade da variável aleatória Y estar fora
do intervalo (µ − 4σ, µ + 4σ) onde µ e σ são, respectivamente,
a esperança e o desvio padrão de Y .
Solução: Pela desigualdade de Chebyshev, é verdade que
σ2 1
Pr(|Y − µ| ≥ 4σ) ≤ ou Pr(|Y − µ| ≥ 4σ) ≤ .
16 · σ 2 16
Os limites para as probabilidades estabelecidos pelos últimos dois teore-

mas são conservadores para fins práticos. No último exemplo, se sabemos que
Y tem uma distribuição Normal, por exemplo, a probabilidade seria menor
que 0,001. O interessante do resultado, e ai está sua grande importância e
generalidade, é que ele é válido para qualquer distribuição de probabilidade
que tenha esperança e variância finitas.
As próximas seções apresentam algumas extensões úteis da desigualdade
de Chebyshev para a situação unilateral e para a situação de distribuições uni-
modais.
Extensão I: Chebyshev unilateral e Cantelli
Em algumas situações, pode ser útil a especificação de limites para probabili-

dades unilaterais. Nesse caso, existe uma versão unilateral da desigualdade de
Chebyshev bilateral, que é fácil de ser derivada mas é relativamente conser-
vadora. Uma opção melhor, para essas situações, é dada pela desigualdade de
Cantelli. Essas duas possibilidades são descritas nos próximos teoremas.
Teorema 7.4 – Chebyshev unilateral – Se Y é uma variável

aleatória com E(Y ) = µ e V (Y ) = σ 2 > 0 finitas, e k > 0, é
verdade que
σ2 1
Pr(Y − µ ≥ k) ≤ ou Pr(Y − µ ≥ kσ) ≤ .
k2 k2
Prova: Como é verdade, pela desigualdade Chebyshev para o caso
bilateral, que
σ2
Pr(|Y − µ| ≥ k) ≤ ,
k2
pode-se concluir que
Pr(|Y − µ| ≥ k) = Pr((Y − µ ≤ −k) ∪ (Y − µ ≥ k))
ou
Pr(|Y − µ| ≥ k) = Pr(Y − µ ≤ −k) + Pr(Y − µ ≥ k),

dado que os eventos (Y −µ ≤ −k) e (Y −µ ≥ k) são mutuamente

exclusivos. Desses resultados decorre
σ2 σ2
Pr(Y −µ ≤ −k)+Pr(Y −µ ≥ k) ≤ ou Pr(Y −µ ≥ k) ≤ . □
k2 k2
Teorema 7.5 – Desigualdade de Cantelli – Se Y é uma variável

aleatória com E(Y ) = µ e V (Y ) = σ 2 finitas, e k > 0, é verdade
que
σ2 1
Pr(Y − µ ≥ k) ≤ ou Pr(Y − µ ≥ kσ) ≤ .
σ +k
2 2 1 + k2
Prova: Veja Lim (2011) para uma prova rigorosa (e extensa) desse
resultado.
Extensão II: Desigualdade de Vysochanskij-Petunin
Para a situação em que é possı́vel assumir que a variável aleatória tem uma
distribuição de probabilidade unimodal, é possı́vel encontrar limites me-
nos conservadores que os estabelecidos por Chebyshev para probabilidades,
através da desigualdade de Vysochanskij-Petunin.
Teorema 7.6 – Desigualdade de Vysochanskij-Petunin – Se Y é

variável aleatória com E(Y ) = µ e V (Y ) = σ 2 > 0 finitas, e
umap
k > 3/8 ≈ 1, 63299, é verdade que
4 4σ 2
Pr(|Y − µ| ≥ kσ) ≤ ou Pr(|Y − µ| ≥ k) ≤ .
9k 2 9k 2
Prova: Veja Vysochanskij e Petunin (1980).
Um resultado similar e mais antigo, mas relacionado à moda da distribuição

é a chamada desigualdade de Gauss, estabelecida por Gauss em 1883. O resul-
tado de Vysochanskij-Petunin é, em geral, mais útil pois estabelece o resultado
em termos da esperança da distribuição.
7.4 Desigualdades de Hölder, Cauchy-Schwartz e

Minkowsky
As três desigualdades tratadas nesta seção, Hölder e Cauchy-Schwartz estão
relacionadas pelo fato da segunda (Cauchy-Schwartz) e terceira (Minkowsky)
serem facilmente demonstráveis a partir da primeira (Hölder). Essas desi-
gualdades, em suas versões mais focadas em desenvolvimentos estatı́sticos,
são apresentadas pelos próximos teoremas.
Teorema 7.7 – Desigualdade de Hölder – Considerando 2

1 1
variáveis aleatórias X e Y , e p, q ∈ (1, ∞), com p + q = 1, é
verdade que
E(|X Y |) ≤ E(|X p |)1/ p E(|Y q |)1/q .
O resultado depende da existência das esperanças envolvidas.

Prova: Veja por exemplo Hardy et al. (1988).
O resultado decorrente da desigualdade de Cauchy-Schwartz é sumari-

zado pelo teorema a seguir. Essa desigualdade é um caso especial da desigual-
dade de Hölder, na situação em que p = q = 2. A apresentação do teorema
inclui uma prova alternativa comumente utilizada, a qual é particularmente
interessante.
Teorema 7.8 – Desigualdade de Cauchy-Schwartz – Para 2

variáveis aleatórias X e Y , com o primeiro e segundo momentos
finitos, é verdade que:
[E(X Y )]2 ≤ E(X 2 )E(Y 2 ).
Prova: Considere uma função h(t ) definida por
h(t ) = E[(t X − Y )2 ].
Pela definição, é evidente que h(t ) ≥ 0. Desenvolvendo o termo

da esperança matemática, chega-se a
h(t ) = t 2 E(X 2 ) − 2t E(X Y ) + E(Y 2 ),
que é uma equação do segundo grau em t . Pela definição de h(t ),

há duas situações de interesse possı́veis, h(t ) > 0 e h(t ) = 0. Se
h(t ) > 0, as raı́zes dessa equação serão complexas, com o delta da

fórmula de Báskara negativo, ou seja,
4[E(X Y )]2 − 4E(X 2 )E(Y 2 ) < 0.
Consequentemente, nesse caso,
[E(X Y )]2 < E(X 2 )E(Y 2 ).
Por outro lado, se h(t ) = 0, a outra situação possı́vel, tem-se que

o delta da fórmula de Báskara é igual a zero, ou seja,
[E(X Y )]2 = E(X 2 )E(Y 2 ).
Decorre desses resultados que
[E(X Y )]2 ≤ E(X 2 )E(Y 2 ).□
O próximo exemplo ilustra uma aplicação desse último teorema.
Exemplo 7.4 – Coeficiente de correlação entre -1 e 1 – Prove que

o coeficiente de correlação ρ é um número entre -1 e 1. Essa
prova pode ser realizada por uma aplicação direta da desigual-
dade de Cauchy-Schwartz.
Prova: o coeficiente de correlação ρX Y de duas variáveis

aleatórias X e Y é definido por:
Cov(X , Y )
ρX Y = ,
σX σ Y
ou
E[(X − E(X ))(Y − E(Y ))]
ρX Y = p .
E[(X − E(X ))2 ] E[(X − E(X ))2 ]
p
Fazendo as substituições: Z = X − E(X ) e T = Y − E(Y ) chega-

se a
E(ZT )
ρX Y = p .
E(Z 2 ) E(T 2 )
p
Elevando ao quadrado os dois termos, resulta
[E(ZT )]2
ρ2X Y = .
E(Z 2 )E(T 2 )
Pela desigualdade de Cauchy-Schwartz,
[E(ZT )]2 ≤ E(Z 2 )E(T 2 )
ou seja,
[E(ZT )]2
≤ 1.
E(Z 2 )E(T 2 )
Consequentemente,
ρ2X Y ≤ 1 ou 1 ≤ ρX Y ≤ 1.□
A seguir é apresentado o teorema que descreve o resultado chamado de

desigualdade de Minkowski, o qual é demonstrado pela aplicação da desigual-
dade de Hölder.
Teorema 7.9 – Desigualdade de Minkowski – Considerando 2

variáveis aleatórias X e Y , com p ≥ 1, é verdade que
E(|X + Y | p )1/ p ≤ E(|X p |)1/ p + E(|Y p |)1/ p .
O resultado depende da convergência da esperanças envolvidas.
Prova: Para simplificar a notação considere a substituição Z =

|X + Y |, o que leva a
E(Z p ) = E(ZZ p−1 ) ≤ E(|X |Z p−1 ) + E(|Y |Z p−1 ),
dado que |X + Y | ≤ |X | + |Y | é válido em geral. Fazendo uma

nova substituição D = Z p−1 e usando o resultado da desigual-
dade de Hölder, é verdade que
1 1 1 1
E(|X |D) ≤ E(|X | p ) p E(D q ) q e E(|Y |D) ≤ E(|Y | p ) p E(D q ) q ,
onde 1/ p + 1/q = 1 pela restrição imposta por Hölder, temos

que 1/q = ( p − 1)/ p ou q = p/(1 − p). Logo, retornando a
variável Z, e fazendo as devidas substituições, temos que
1 ( p+1) 1 ( p−1)
E(Z p ) ≤ E(|X | p ) p E(Z p ) p + E(|Y | p ) p E(Z p ) p
( p−1)
dividindo os dois lados da desigualdade por E(Z p ) p , chega-se
a
1 1
E(Z p )1/ p ≤ E(|X | p ) p + E(|Y | p ) p
que pela substituição de Z por |X + Y | leva ao resultado

desejado. □
7.5 Desigualdade de Jensen

Essa desigualdade envolve aplicações da esperança matemática no contexto
de funções côncavas ou convexas de variáveis aleatórias. Esses resultados são
particularmente úteis não só em estatı́stica, mas também em economia, em
finanças e na teoria de decisão em condição de risco, entre outras aplicações.
Alguns desses resultados serão apresentados nos exemplos desta seção.
Antes da apresentação do teorema, serão introduzidas algumas definições:
Função convexa – uma função g (·), com domı́nio e contra-

domı́nio em R, é convexa se para todo x0 ∈ R pode-se defi-
nir uma reta l (x) = a + b x, que passa pelo ponto (x0 , g (x0 ))
com
g (x) ≥ l (x), ∀x ∈ R.
Essa definição é ilustrada na Figura 7.1. Verifica-se também,
para uma função convexa, que para dois pontos x e y em R
e um dado α ∈ [0, 1], tem-se
g (αx + (1 − α)y) ≤ α g (x) + (1 − α)g (y).
Além disso, se a função convexa for diferenciável em todos

os seu pontos, sua a derivada segunda será sempre positiva.
g(x)
l(x)
g(x)
g(x0)=l(x0)
l(x)
x
x0
Figura 7.1: Função convexa
Função côncava – é um caso similar ao da função convexa, em

que a reta desenhada (Figura 7.1) fica sempre sobre a função
g (x) ou
g (x) ≤ l (x), ∀x ∈ R.
Se função g (x) for diferenciável, ela será côncava se a sua
derivada segunda for negativa.
Teorema 7.10 – Desigualdade de Jensen – Para uma variável

aleatória qualquer X e uma função convexa, contı́nua e dife-
renciável g (x), é verdade que
g (E[X ]) ≤ E[g (X )] ( g (x) convexa).
Se a função g (x) for côncava, a desigualdade da última expressão

será invertida, de forma que
g (E[X ]) ≥ E[g (X )] ( g (x) côncava).
Prova: Será provado somente o caso convexo (o caso côncavo

segue argumento similar). Como a função é convexa, pode-se
construir uma reta passando pelo ponto [E[X ], g (E[X ])], defi-
nida por a + b x, de forma que a + b x ≤ g (x), ∀x ∈ R. Logo, por
propriedade da esperança tem-se que
a + b E[X ] ≤ E[g (X )]
Mas, por construção, a + b E[X ] = g (E[X ]) logo
g (E[X ]) ≤ E[g (X )],
que é o resultado desejado. □
Os próximos exemplos mostram aplicações desse resultado.
Exemplo 7.5 – Variância não pode ser negativa – Prove que a

variância é sempre um número não-negativo.
Prova: Como visto anteriormente,
V (X ) = E(X 2 ) − E 2 (X ),
mas como g (x) = x 2 é convexa, pode-se concluir, pela desigual-

dade de Jensen, que E(X 2 ) ≥ E 2 (X ) e isso implica V (X ) ≥ 0.
Exemplo 7.6 – Esperança e mediana – Mostre que se µ e m

são, respectivamente, a esperança e a mediana de uma variável
aleatória X , com desvio padrão σ, é verdade que
|µ − m| ≤ σ.
Solução: Pelas propriedades da esperança
|µ − m| = |E(X − m)|.
Mas, pela desigualdade de Jensen, observando que a função valor

absoluto é convexa, temos que
|E(X − m)| ≤ E(|X − m|).
Como a mediana minimiza o valor do termo da direita da última

desigualdade (veja Ex. 5.19 no Capı́tulo 5), temos que
Æ
E(|X − m|) ≤ E(|X − µ|) = E( (X − µ)2 ).
p
Mas, pela desigualdade de Jensen, observando que a função · é
côncava,
Æ Æ
E( (X − µ)2 ) ≤ E((X − µ)2 ) = σ.
Juntando todos os resultados, conclui-se que |µ − m| ≤ σ. □
Esse último exemplo pode ter o seu entendimento facilitado por uma breve re-
visão das propriedades básicas do valor absoluto sumarizadas no Apêndice ??.
Os próximos dois exemplos mostram duas aplicações da desigualdade de
Jensen a problemas ligados à teoria de decisão em condição de risco e à eco-
nomia.
Exemplo 7.7 – Decisão e risco – Dentro da teoria da decisão en-

volvendo riscos assume-se frequentemente que o indivı́duo es-
colhe suas decisões de acordo com o paradigma da utilidade es-
perada, ou seja, se esse indivı́duo pode escolher entre dois in-
vestimentos que tenham retornos representados pelas variáveis
aleatórias R1 e R2 , o indivı́duo selecionará o investimento i que
maximiza E(U (Ri )), onde U (·) é sua função utilidade. Usu-
almente se assume que U (·) é contı́nua e diferenciável, com
U ′ (x) > 0 e U ′′ (x) < 0, ou seja uma função estritamente
côncava. Considerando um investimento 1 cujo retorno é repre-
sentado uma variável aleatória R, e um investimento 2 cujo re-
torno é exatamente E(R) com certeza, mostre que um indivı́duo
com U (·) atendendo às pressuposições apresentadas escolherá
sempre o investimento 2.
Solução: Como U (·) é estritamente côncava tem-se que, direta-
mente pela desigualdade de Jensen,
E[U (R)] < U (E[R]),
ou seja, o agente sempre preferirá o investimento que ofereça

E(R) com certeza, em lugar de um retorno aleatório R.
Exemplo 7.8 – Estabilização de preços – Num determinado mer-

cado tem-se que a demanda pode ser representada por:
P = Q 1/ε ,
onde P representa preço e Q quantidade demandada.

Nesse mercado Q é uma variável aleatória (como ocorre em ge-

ral no caso de produtos agrı́colas, uma vez iniciado o processo
de produção). Se representarmos por D o dispêndio total dos
consumidores tem-se que
D = P · Q.
Nessa situação, para uma dada realização da oferta Q o preço

seria determinado pela demanda com dispêndio:
D = P · P ε = P 1+ε .
Qual seria o efeito para os consumidores de uma polı́tica que, a

custo zero, levaria à completa estabilização do preço na média?
Solução: Nessa situação pode-se comparar a média do dispêndio
sem a polı́tica (primeiro caso) com o dispêndio realizado à preços
estabilizados na média (segundo caso).
O primeiro caso poderia ser representado por E(D(P )) e o se-
gundo caso por D(E(P )), onde D(P ) representa o dispêndio
dos consumidores para um dado preço P (que é uma variável
aleatória dependente de Q). Se os consumidores só estão pre-
ocupados com o dispêndio médio (entendido como a esperança
do dispêndio), seria possı́vel argumentar que a situação mais de-
sejável para eles seria o caso em que o dispêndio médio fosse o
menor.
Mas isso pode ser determinado diretamente pelo resultado da
desigualdade de Jensen e o valor da elasticidade ε. Para que a
polı́tica de estabilização seja a mais vantajosa para os consumido-
res deve-se verificar:
E(D(P )) ≥ D(E(P )).
Para que essa última condição ocorra, a função D(·) deve ser con-
vexa (pela desigualdade de Jensen), o que pode ser determinado
pela derivada segunda da função D(·). No caso,
d 2D
= ε(1 + ε)P ε−1 ,
dp 2
e para que a função D(·) seja estritamente convexa a derivada se-

gunda deve ser positiva. Isso dependerá do valor absoluto da elas-
ticidade (que em geral tem sinal negativo) dado que o termo em
P ε−1 é sempre positivo. Para que isso ocorra deve-se verificar que
|ε| > 1, que é o caso em que a demanda do produto em questão é
elástica com relação a preços.
7.6 Considerações finais

Este capı́tulo apresentou diversas desigualdades de interesse estatı́stico, junta-
mente com exemplos de sua aplicação. O próximo capı́tulo discute modos de
convergência em estatı́stica e alguns dos principais resultados da Estatı́stica:
a Lei dos grandes números e o Teorema do limite central.
Exercı́cios
Exercı́cio 7.1 – Se X é uma variável aleatória com E(X ) = 3
e E(X 2 ) = 13, use a desigualdade de Chebyshev para achar um
limite mı́nimo para Pr(−2 < X < 8).
Exercı́cio 7.2 – Se X é uma variável aleatória com esperança µ e

variância σ 2 seria possı́vel termos
Pr(µ − 2σ < X < µ + 2σ) = 0, 60?
Exercı́cio 7.3 – Critérios de amostragem – Um pesquisador está

amostrando uma certa grandeza de uma população, representada
pela variável aleatória X . Se o processo amostral é i.i.d. e os
valores amostrados são X1 , X2 , . . . , Xn , mostre qual terá que ser o
tamanho mı́nimo da amostra para garantir por Chebyshev que a
distância entre a média amostral e a esperança de X possa exceder
5% do desvio padrão de X , com probabilidade que não supere
1%. (O resultado obtido será bem conservador)
Exercı́cio 7.4 – Desigualdade de Hölder – Se X e Y são variáveis

aleatórias, demonstre que a desigualdade de Cauchy-Schwartz é
um caso particular da desigualdade de Hölder (dica: use a desi-
gualdade de Jensen no seu argumento)
Exercı́cio 7.5 – Jensen I – Se X é uma variável aleatória definida

no domı́nio (0, ∞), demonstre que
E[ln(X )] < ln[E(X )].
Exercı́cio 7.6 – Jensen II – Use a desigualdade de Jensen para

mostrar que
x1 + x2 + . . . + xn p
≥ n x1 x2 · · · xn ,
n
onde x1 , x2 , . . . , xn ∈ (0, ∞). Ou seja, que a média aritmética é
sempre maior ou igual à média geométrica.
Dica: observe que os valores x1 , . . . , xn podem ser interpretados
como sendo os elementos do espaço amostral de uma variável
aleatória discreta X , com probabilidade 1/n de cada resultado.
A função logaritmo, por outro lado, é claramente côncava e pela
desigualdade de Jensen é verdade que
ln(E[X ]) ≥ E[ln(X )].
Encontre E[X ] e E[ln(X)] para esse caso em função da definição

de X para chegar ao resultado desejado.
Exercı́cio 7.7 – No exemplo da estabilização de preços especifi-
que as condições necessárias para que os consumidores fiquem
prejudicados com a polı́tica de estabilização na média.
Exercı́cio 7.8 – Para a variável aleatória X são conhecidos E(|X |)
e E(|X |2 ). A partir dessas informações, como poderia estabelecer
um limite superior para Pr(|X | ≥ a) que seja o menor possı́vel,
utilizando os resultados associados às desigualdades de Markov e
Chebychev.
Exercı́cio 7.9 – O coeficiente de curtose é definido por
µ4
γ2 = − 3,
σ4
onde µ4 = E[(X − µ)4 ], com E[X ] = µ e V [X ] = σ 2 . Mostre

que o menor valor que pode ocorrer para γ2 é -2. (Dica: use a
desigualdade de Jensen)
Exercı́cio 7.10 – Vysochanskij-Petunin unilateral – Usando o

mesmo argumento utilizado para derivação da versão unilateral
da desigualdade de Chebyshev, derive uma versão unilateral para
a desigualdade de Vysochanskij-Petunin.
Exercı́cio 7.11 – Série Harmônica e Problema de Bessel – Con-

sidere a série
1 1 1 1
H (n) = 1 + + + ··· + + ,
2 3 n −1 n
conhecida como série harmônica. Não há uma expressão
analı́tica compacta que caracterize exatamente o valor de H (n)
para um dado n (como ocorre na série geométrica). Contudo,
há aproximações muito boas, como por exemplo:
1
H (n) ≈ ln n + γ + ,
2n
onde γ = 0,57721.... é a chamada constante de Euler-Macheroni.
Considere também a série
1 1 1 1
S(n) = lim 1 + + + ··· + + .
n→∞ 2 2 32 (n − 1)2 n2
Essa série (associada ao chamado problema de Bessel) é conver-

gente, algo demonstrado por Euler em 1735, de forma que
π2
lim S(n) = .
n→∞ 6
(a) Verifique a qualidade da aproximação dada para a série
harmônica, fazendo um gráfico do valor dessa série e de sua
aproximação para valores de n variando de 1 a 1000. Qual
seriam o valores do módulo dos erros da aproximação para
os seguintes valores de n: 10, 50, 100.
(b) Use a aproximação dada para argumentar que a série
harmônica não converge na medida que n → ∞.
(c) Usando o resultado dado para o problema de Bessel, mostre

que
n 2n (n − 2)n (n − 1)n
+ + ··· + + ≤ 2n 2 .
(n − 1)2 (n − 2)2 22 12
Exercı́cio 7.12 – Colecionador de figurinhas II – Considere os

resultados do Ex. 5.32 do capı́tulo 5. No exercı́cio anterior, N
representa o número total de envelopes de figurinhas necessário
para completar um álbum com k = 50 figurinhas diferentes. Es-
pecificamente, responda:
1. Usando os resultados do exercı́cio anterior e do Ex. 5.32

mostre que:
1
E(N ) ≈ n ln n + nγ + e V (N ) ≤ 2k 2 .
2
2. Assumindo que o valor de E(N ) e V (N ) coincidem, res-

pectivamente, com o valor aproximado de E(N ), e com o
limite superior de V (N ), do ı́tem anterior, obtenha limites
máximos para Pr(N ≥ 400), que é a probabilidade de pre-
cisarmos 400 ou mais envelopes para completar o álbum,
utilizando as desigualdades de Markov, Chebychev unilate-
ral e Cantelli.
3. Qual desigualdade ofereceu o resultado mais útil no ı́tem
anterior? Argumente.
4. Utilize o computador para resolver exatamente os valores
de E(N ) e V (N ) considerando os resultados do Ex. 5.32.
Obtenha os limites máximos para Pr(N ≥ 400), conside-
rando as desigualdades de Markov, Chebychev unilateral e
Cantelli. Qual delas é mais útil ?
5. Seria possı́vel utilizar o resultado associado à desigual-
dade de Vysochanskij-Petunin unilateral (desenvolvida no
Ex.7.10) para estabelecer um limite superior para Pr(N ≥
400)?
Referências
Billingsley, P. 1999. Convergence of Probability Measures. 2nd edition, John
Wiley and Sons.


Lehmann, E. L. 1998. Elements of Large Sample Theory. Springer, New

York.
Lim, K. G. 2011. Probability and Finance. World Scientific Publishing.
Hardy, G., Littlewood, J. & Pólya, G. 1988. Inequalities. Cambridge Uni-

versity Press (Reprint of the 1952 edition ed.), Cambridge.
Mood, A., Graybill, F. A. and Boes, D. 1974. Introduction to the Theory of

Pukelsheim, F. 1994. The Three Sigma Rule. The American Statistician,

48(2):88-91.

Hall, New York.
Vysochanskij, D. F. and Petunin, Y. I. 1980. Justification of the 3σ rule for

unimodal distributions. Theory of Probability and Mathematical Statistics,
21: 25–36.

Livroestat2023 - Cap 5, 6 e 7 (Revisão 1.0)

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Livroestat2023 - Cap 5, 6 e 7 (Revisão 1.0)

Enviado por

Direitos autorais:

Formatos disponíveis

Introdução à Estatı́stica

Para engenharia, economia, finanças e atuária

Problemas e exercı́cios resolvidos

Capı́tulo 5. Esperança Matemática e Conceitos Relacionados

Adriano Azevedo Filho

Versão 2.0 preliminar da 3a edição

É proibida a reprodução total ou parcial

Dados Internacionais de Catalogação na Publicação (CIP)

Azevedo Filho, Adriano J. B. V.

Lista de Figuras vii

5 Esperança Matemática e Conceitos Relacionados 1

6 Função Geradora de Momentos, Cumulantes e Função Ca-

7 Desigualdades de Interesse Estatı́stico 68

5.1 Esperança: centro de gravidade da distribuição . . . . . . . . . . 2

7.1 Função convexa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

Esperança Matemática e Conceitos

5.2 Esperança matemática - E(·)

E(X ), E[X ], µ x , ou < X >

é um dos conceitos mais importantes da estatı́stica, sendo utilizado ampla-

Parte dos resultados importantes da estatı́stica estão associados exata-

Esperança e centro de gravidade

Figura 5.1: Esperança: centro de gravidade da distribuição

Definição de esperança matemática

Em seguida, será definida formalmente a noção de esperança matemática, nos

Esperança matemática – para uma variável aleatória discreta X

em que X é uma variável aleatória com

Se X é uma variável aleatória contı́nua,

Outra definição equivalente, mais utilizada em desenvolvi-

O conceito de esperança pode ser facilmente estendido ao caso de uma

Em alguns problemas de integração a noção de integral utilizada pode

Esperança matemática da função g (X , Y ) – Para uma função

O caso de funções dependentes de n variáveis aleatórias é

Os exemplos apresentados à seguir ilustram a obtenção da esperança ma-

Exemplo 5.1 – Bolas vermelhas e brancas (esperança) – Consi-

capı́tulos anteriores. Nesse caso,

Definindo Y = X 2 , ou seja, g (x) = x 2 , seria possı́vel calcular a

Exemplo 5.2 – Roleta 0 a 10 (esperança) – No caso do Exem-

Para Y = X 2 , pode-se calcular a esperança de Y utilizando:

Exemplo 5.3 – Função de densidade (esperança) – No caso das

fX Y (x, y) = (x + y)I[0,1] (x)I[0,1] (y)

já verificamos que

fX (x) = (x + 0, 5)I[0,1] (x)

e, para esse caso, pode-se obter

Restrições à obtenção de E(X )

Exemplo 5.4 – Esperança indefinida – Para uma variável aleatória

Contudo, nesse caso, a obtenção de E(X ) levará a um resultado

De um modo geral, os conceitos fundamentados na noção de

e isso pode não ocorrer, como mostrou o exemplo. Mui-

5.3 Propriedades da esperança

4. E[k g (X )] = k E[g (X )].

Prova: Por aplicação direta da desigualdade de Jensen vista

7. E[g1 (X )] ≤ E[g2 (X )] se g1 (x) ≤ g2 (x), ∀x ∈ R.

Aplicando E(·) nos dois lados da expressão, e substituindo

E(X Y ) = E(X )E(Y ) + Cov(X , Y ).

9. Esperança do quociente (aproximada):

X E(X ) Cov(X , Y ) E[X ]

10. Esperança de g (X ) (aproximada):

Exemplo 5.5 – Esperança do lucro – Suponha que um produtor,

Solução: No caso tem-se que

em que q1 , q2 e c são constantes conhecidas. Mas pelas proprie-

Exemplo 5.6 – Aproximação para E[g (X )] – Em muitas

5.4 Variância e conceitos associados