Você está na página 1de 92

Introdução à Estatı́stica

Matemática Aplicada
Volume I – Fundamentos

Para engenharia, economia, finanças e atuária

Problemas e exercı́cios resolvidos

Capı́tulo 5. Esperança Matemática e Conceitos Relacionados


Capı́tulo 6. Função Geradora de Momentos e Conceitos Afins
Capı́tulo 7. Desigualdades de Interesse Estatı́stico

Adriano Azevedo Filho

Versão 2.0 preliminar da 3a edição


(em revisão - não circular)

CreateSpace
2023
Introdução à Estatı́stica Matemática Aplicada
Volume I – Fundamentos
© 2011-2023 por Adriano J. B. V. Azevedo Filho
Todos os direitos reservados.

ISBN 978-1-4421-7220-3
3a Edição (versão 2.0 em revisão - não circular)

É proibida a reprodução total ou parcial


em qualquer meio ou forma.

Dados Internacionais de Catalogação na Publicação (CIP)

Azevedo Filho, Adriano J. B. V.


Introdução à Estatı́stica Matemática Aplicada:
Volume I - Fundamentos /
Adriano Azevedo Filho - 3a ed. - Scotts Valley:
CreateSpace, 2023
xii, 160 f.: il.; 21,6cm
ISBN 978-1-4421-7220-3
1. estatı́stica matemática
I. Azevedo Filho, Adriano J. B. V. II. Tı́tulo
CDD-519.5

Sobre o autor
O autor é Ph.D. em Engenharia / Economia de Sistemas e Pesquisa Operacio-
nal pela Stanford University e professor sênior no Departamento de Economia,
Administração e Sociologia da Universidade de São Paulo, no Campus de Piracicaba.
Atua nas áreas de estatı́stica, data science, análise de decisões e gerenciamento de ris-
cos, engenharia econômica e pesquisa operacional. Recebeu os prêmios Fundação
Bunge (Moinho Santista) em 1989 e Prêmio Nacional de Metrologia, em 2003.
Sumário

Lista de Figuras vii

5 Esperança Matemática e Conceitos Relacionados 1


5.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
5.2 Esperança matemática - E(·) . . . . . . . . . . . . . . . . . . . . . . 1
5.3 Propriedades da esperança . . . . . . . . . . . . . . . . . . . . . . . 7
5.4 Variância e conceitos associados . . . . . . . . . . . . . . . . . . . 10
5.5 Covariância e correlação . . . . . . . . . . . . . . . . . . . . . . . . 13
5.6 Propriedades da variância e covariância . . . . . . . . . . . . . . . 14
5.7 Esperança e variância condicionais . . . . . . . . . . . . . . . . . . 20
5.8 Resultados associados à independência . . . . . . . . . . . . . . . 26
5.9 Momentos absolutos e centrais . . . . . . . . . . . . . . . . . . . . 28
5.10 Outras medidas estatı́sticas úteis . . . . . . . . . . . . . . . . . . . 29
5.11 Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

6 Função Geradora de Momentos, Cumulantes e Função Ca-


racterı́stica 51
6.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6.2 Função geradora de momentos (f.g.m.) . . . . . . . . . . . . . . . 51
6.3 F.g.m. na identificação de distribuições . . . . . . . . . . . . . . . 56
6.4 Caracterização da f.g.m. por série de Taylor . . . . . . . . . . . 58
6.5 F.g.m. conjunta e caracterização da independência . . . . . . . 59
6.6 Cumulantes e funções geradoras de cumulantes . . . . . . . . . 59

v
6.7 Função caracterı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.8 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . 64
Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

7 Desigualdades de Interesse Estatı́stico 68


7.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7.2 Desigualdade de Markov . . . . . . . . . . . . . . . . . . . . . . . . 68
7.3 Desigualdades de Chebyshev, Cantelli e Vysochanskij-Petunin 71
7.4 Desigualdades de Hölder, Cauchy-Schwartz e Minkowsky . . 75
7.5 Desigualdade de Jensen . . . . . . . . . . . . . . . . . . . . . . . . . 78
7.6 Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

vi
Lista de Figuras

5.1 Esperança: centro de gravidade da distribuição . . . . . . . . . . 2


5.2 Assimetria em distribuições . . . . . . . . . . . . . . . . . . . . . . 31
5.3 Coeficiente de assimetria nulo não garante simetria . . . . . . . 32
5.4 Curtose em distribuições . . . . . . . . . . . . . . . . . . . . . . . . 33

7.1 Função convexa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

vii
Capı́tulo 5

Esperança Matemática e Conceitos


Relacionados

5.1 Introdução
Este capı́tulo apresenta os conceitos de esperança matemática, variância,
outras noções relacionadas, definidos a partir do material discutido nos 2
capı́tulos anteriores. A apresentação também inclui as noções de momento
absoluto, momento central, quantil, percentil, assimetria e curtose.

5.2 Esperança matemática - E(·)


A noção de esperança matemática, ou média teórica, de uma variável aleatória
X , representada usualmente por

E(X ), E[X ], µ x , ou < X >

é um dos conceitos mais importantes da estatı́stica, sendo utilizado ampla-


mente em desenvolvimentos teóricos e aplicados. O texto utilizará as pri-
meiras três representações.
O leitor deve ter cuidado em entender que o significado da palavra
esperança em estatı́stica é técnico, diferindo substancialmente do utilizado em
nossa linguagem comum, o qual frequentemente está associado ao desejo de
que algo aconteça. A esperança matemática de uma variável aleatória pode, até
mesmo, ser um valor numérico que não está dentro dos valores que a variável
aleatória pode assumir.

1
Capı́tulo 5 - Esperança e conceitos relacionados 2

Parte dos resultados importantes da estatı́stica estão associados exata-


mente à relação que têm os estimadores obtidos a partir de amostras apro-
priadas e a esperança matemática. O exemplo mais simples é o caso do es-
timador definido pela “média aritmética” de n valores amostrados de forma
apropriada, computado por
Pn
Xi
X n = i=1 .
n
Esse estimador (média) converge (no contexto probabilı́stico) para a
esperança matemática (ou média teórica), na medida que n → ∞. Esse resul-
tado, em particular, decorre de um importante teorema dentro da estatı́stica
chamado de Lei dos grandes números, que será visto no Capı́tulo ??, junta-
mente com noções de convergência utilizadas em estatı́stica.

Esperança e centro de gravidade

Fazendo uma analogia com noções utilizadas pela fı́sica, a esperança ma-
temática indicaria o centro de gravidade ou centróide da distribuição de proba-
bilidade. Seria possı́vel equilibrar a distribuição sobre um cursor posicionado
no valor da esperança, da maneira ilustrada na Figura 5.1, para uma função de
densidade. Para distribuições simétricas, a esperança coincide com o ponto
no eixo x pelo qual passa o eixo vertical de simetria, podendo ser facilmente
identificada.

f (x)

E(X )

centro de gravidade

Figura 5.1: Esperança: centro de gravidade da distribuição


Capı́tulo 5 - Esperança e conceitos relacionados 3

Definição de esperança matemática

Em seguida, será definida formalmente a noção de esperança matemática, nos


casos discreto e contı́nuo.

Esperança matemática – para uma variável aleatória discreta X


define-se esperança matemática por:
n
X
E(X ) = xi fX (xi ), (caso discreto)
i=1

em que X é uma variável aleatória com

ΩX ≡ {x1 , x2 , . . . , xn }.

Se X é uma variável aleatória contı́nua,


Z∞
E(X ) = x fX (x) d x, (caso contı́nuo).
−∞

Outra definição equivalente, mais utilizada em desenvolvi-


mentos teóricos e equivalente à anterior, é dada por
Z ∞ Z 0
E(X ) = [1 − FX (x)]d x − FX (x)d x.
0 −∞

O conceito de esperança pode ser facilmente estendido ao caso de uma


função de uma variável aleatória X , representada por g (X )
Esperança matemática de g (X ) – Para uma função g (·) cujo ar-
gumento é a variável aleatória X , pode-se definir
n
X
E[g (X )] = g (xi ) fX (xi ) (caso discreto),
i=1

e
Z ∞
E[g (X )] = g (x) fX (x)d x (caso contı́nuo).
−∞

Em alguns problemas de integração a noção de integral utilizada pode


ser importante em função da natureza da função g (x). A definição assume
Capı́tulo 5 - Esperança e conceitos relacionados 4

que essa função atende os requisitos técnicos1 para a integração, sendo “bem
comportada”.
Essa última noção de esperança pode ser estendida para o caso de funções
considerando n variáveis como argumento, com as mesmas considerações so-
bre integração indicadas no parágrafo anterior. A próxima definição mostra
um resultado um pouco mais geral para funções com 2 variáveis.

Esperança matemática da função g (X , Y ) – Para uma função


g (X , Y ), com distribuição de probabilidade conjunta de X
e Y definida por
fX Y (x, y),
tem-se
Z ∞ Z ∞
E[g (X , Y )] = g (x, y) fX Y (x, y) d x d y.
−∞ −∞

O caso de funções dependentes de n variáveis aleatórias é


uma extensão direta desse resultado.

Alguns exemplos

Os exemplos apresentados à seguir ilustram a obtenção da esperança ma-


temática em situações discretas e contı́nuas, já examinadas em capı́tulos ante-
riores.

Exemplo 5.1 – Bolas vermelhas e brancas (esperança) – Consi-


dere a situação do Exemplo da variável aleatória X representando
o número de bolas brancas em 2 bolas sorteadas com reposição
de uma urna com 1 bola vermelha e 1 bola branca, usado nos
1
A noção de integral de Riemann, usualmente apresentada em cursos de cálculo, é sufi-
ciente para o entendimento da apresentação. Contudo, em certas situações essa noção não
será adequada, sendo necessárias as noções mais gerais de integral de Lebesgue ou mesmo de
Lebesgue-Stieltjes. Essas generalizações possibilitam a obtenção de integrais de uma ampla
classe de funções que não são “bem comportadas”, não tratáveis no contexto de Riemann.
O texto, contudo, não fará uma distinção entre essas noções, que são tratadas na literatura
especı́fica de cálculo e na teoria da medida. Isso pode não ser muito importante para a maior
parte dos leitores, mas o conceito de integral assumido nos desenvolvimentos é o de Lebesgue.
Capı́tulo 5 - Esperança e conceitos relacionados 5

capı́tulos anteriores. Nesse caso,


n
X
E(X ) = xi fX (xi )
i =1
= 0,25 · 0 + 0,50 · 1 + 0,25 · 2
= 1.

Definindo Y = X 2 , ou seja, g (x) = x 2 , seria possı́vel calcular a


esperança de Y utilizando:
n
X
E(X 2 ) = xi2 fX (xi )
i=1
= 0,25 · 02 + 0,50 · 12 + 0,25 · 22
= 1,5.

Exemplo 5.2 – Roleta 0 a 10 (esperança) – No caso do Exem-


plo ?? envolvendo uma roleta graduada de [0, 10), visto em
capı́tulos anteriores, a variável aleatória X representa o valor ob-
tido em um sorteio. Nesse caso,
Z∞ Z 10
1
E(X ) = x fX (x)d x = x · dx
−∞ 0 10
 2 10
x
= = 5.
20 0

Para Y = X 2 , pode-se calcular a esperança de Y utilizando:


Z ∞ Z 10
2 1
E(Y ) = x fX (x)d x = x2 · dx
−∞ 0 10
3 10
 
x 100
= =
30 0 3

Exemplo 5.3 – Função de densidade (esperança) – No caso das


variáveis aleatórias X , Y , definidas no capı́tulo anterior com dis-
tribuição de probabilidade conjunta

fX Y (x, y) = (x + y)I[0,1] (x)I[0,1] (y)


Capı́tulo 5 - Esperança e conceitos relacionados 6

já verificamos que

fX (x) = (x + 0, 5)I[0,1] (x)

e, para esse caso, pode-se obter


R1R1 1
• E(X Y ) = 0 0 x y(x + y)d x d y = 3 .
R1 7
• E(X ) = 0 x(x + 0, 5)d x = 12 .
R1 5
• E(X 2 ) = 0 x 2 (x + 0, 5)d x = 12 .

Restrições à obtenção de E(X )


A esperança matemática pode não ser definida em algumas situações, em
razão da não-convergência da soma ou da integral utilizada na sua definição.
Esse problema não é muito frequente mas pode ocorrer2 . O próximo exem-
plo ilustra essa possibilidade.

Exemplo 5.4 – Esperança indefinida – Para uma variável aleatória


contı́nua X , com função de densidade definida por

1
fX (x) = I[1,∞) (x) ,
x2
pode-se verificar facilmente que fX (·) é de fato uma função de
densidade dado que

1. fX (x) ≥ 0, ∀x ∈ R.
R∞ 1
2. −∞ fX (x)d x = [− x ]∞1 = 1.

Contudo, nesse caso, a obtenção de E(X ) levará a um resultado


indefinido, dado que a integral não converge para um valor finito:
Z∞
1
E(X ) = x d x = [ln x]∞ 1 = x→∞
lim ln x = ∞.
1 x2

De um modo geral, os conceitos fundamentados na noção de


esperança dependem da convergência das integrais (ou somas)
2
A distribuição de Cauchy, por exemplo, que caracteriza a razão de duas variáveis aleatórias
com distribuição Normal, não tem momentos finitos.
Capı́tulo 5 - Esperança e conceitos relacionados 7

e isso pode não ocorrer, como mostrou o exemplo. Mui-


tos resultados da estatı́stica assumem (às vezes implicitamente),
como condição de regularidade para sua validade, a existência
da esperança matemática (e outras grandezas) para as variáveis
aleatórias envolvidas.

5.3 Propriedades da esperança


São relacionadas à seguir algumas propriedades fundamentais associadas à
esperança matemática, onde k, a e b são constantes, X e Y são variáveis
aleatórias e gi (·), ∀i são funções. Os resultados dependem da existência da
esperança para a situação de interesse.

1. E(k) = k.
2. E(kX ) = k E(X ).
3. E(X + k) = E(X ) + k.
Prova: Para o caso contı́nuo (similar para o discreto).
Z∞
E(X + k) = (x + k) f (x)d x
−∞
Z∞ Z ∞
= x f (x)d x + k f (x)d x
−∞ −∞
= E(X ) + k. □

4. E[k g (X )] = k E[g (X )].


5. |E(X )| ≤ E(|X |)

Prova: Por aplicação direta da desigualdade de Jensen vista


no Capı́tulo 7, observando que a função valor absoluto é
convexa.
6. Esperança de uma função linear:

E[a g1 (X ) + b g2 (Y )] = a E[g1 (X )] +
b E[g2 (Y )].

7. E[g1 (X )] ≤ E[g2 (X )] se g1 (x) ≤ g2 (x), ∀x ∈ R.


Prova: Se g1 (x) ≤ g2 (x), tem-se que g1 (x) − g2 (x) ≤ 0.
Capı́tulo 5 - Esperança e conceitos relacionados 8

Aplicando E(·) nos dois lados da expressão, e substituindo


a variável aleatória, chega-se a E[g1 (X ) − g2 (X )] ≤ 0, de
onde decorre diretamente que E[g1 (X )] ≤ E[g2 (X )]. □
8. Esperança do produto:

E(X Y ) = E(X )E(Y ) + Cov(X , Y ).

9. Esperança do quociente (aproximada):

X  E(X ) Cov(X , Y ) E[X ]


E ≈ − + V (Y ).
Y E(Y ) E [Y ]
2 E[Y 3 ]

10. Esperança de g (X ) (aproximada):

g ′′ (µ x )
E[g (X )] ≈ g (µ x ) + V [X ],
2
onde µ x = E(X ) e V (X ) é a variância de X , definida na
próxima seção (veja derivação do resultado no Ex. 5.6).

A prova das propriedades 1, 2 e 4 é trivial e pode ser realizada pelo uso direto
da definição de esperança para o caso discreto e/ou contı́nuo. A proprie-
dade 8 depende do conceito de covariância, que será introduzido na próxima
seção. A prova das propriedades que não foram apresentadas é sugerida como
um exercı́cio ao leitor. O resultado da propriedade 9 é aproximado, obtido
a partir da expansão da série de Taylor bivariada até os termos de segunda
ordem (Mood et al., 1974, p. 181). Para o caso particular de uma função de
X , definido na propriedade 10, veja a derivação no Ex. 5.6.
O próximo exemplo ilustra o uso das propriedades da esperança (mais
exemplos dessas propriedades são descritos após a apresentação das proprie-
dades da variância).

Exemplo 5.5 – Esperança do lucro – Suponha que um produtor,


em 1 mês, estará produzindo as quantidades q1 e q2 de dois pro-
dutos cujo preços recebidos são incertos e representados pelas
variáveis aleatórias P1 e P2 .
O custo é conhecido e definido por c. Obtenha a esperança do
lucro (L), dado que se sabe que E(P1 ) = µ1 e E(P2 ) = µ2 .
Capı́tulo 5 - Esperança e conceitos relacionados 9

Solução: No caso tem-se que

L = q1 P1 + q2 P2 − c,

em que q1 , q2 e c são constantes conhecidas. Mas pelas proprie-


dades da esperança,

E(L) = E(q1 P1 + q2 P2 − c)
= E(q1 P1 ) + E(q2 P2 ) − E(c)
= q1 E(P1 ) + q1 E(P2 ) − c
= q1 µ1 + q2 µ2 − c.

Exemplo 5.6 – Aproximação para E[g (X )] – Em muitas


situações, pode não ser possı́vel encontrar uma expressão
analı́tica para E[g (X )]. Nesses casos, pode-se recorrer a uma
aproximação, com apoio de uma expansão da função g (x) pela
série de Taylor, nas redondezas do ponto x0 = E(X ) = µ x .
Mantendo-se os termos da expansão da série de Taylor para g (x),
até a segunda ordem temos que

g ′′ (µ x )
g (X ) ≈ g (µ x ) + g ′ (µ x )(X − µ x ) + (X − µ x )2
2
Logo,

g ′′ (µ x )
E[g (X )] ≈ g (µ x ) + E[(X − µ x )2 ]
2
g ′′ (µ x )
≈ g (µ x ) + V [X ]
2
reconhecendo, na última passagem que E[X − µ x ] = 0 e que
V (X ) = E[(X − µ x )2 ] é a variância de X (veja a próxima seção
para detalhes sobre a variância). Em uma aproximação de pri-
meira ordem terı́amos E[g (X )] ≈ g (E[X ]).
Capı́tulo 5 - Esperança e conceitos relacionados 10

5.4 Variância e conceitos associados


A variância teórica é uma das principais medidas de dispersão ou variabilidade
(ao redor da esperança) de uma variável aleatória. É importante distinguir o
conceito de variância (teórica), da chamada variância amostral. Estimadores
da variância, em condições apropriadas, irão convergir para a variância teórica
na medida que n cresce, pela Lei dos grandes números (vista no Capı́tulo ??).
A definição formal de variância (teórica) de uma variável aleatória X , re-
presentada no texto por

V (X ), V [X ] ou σX2 ,

é dada à seguir:

Variância (teórica) – para uma variável aleatória X define-se a


variância (teórica) de X , representada por V (X ) ou σ x2 por

V (X ) = E[(X − E(X ))2 ]

ou
V (X ) = E(X 2 ) − [E(X )]2 .
Isso significa que
n
X
V (X ) = [xi − E(X )]2 · fX (xi )
i=1

no caso discreto, ou
Z ∞
V (X ) = [x − E(X )]2 · fX (x) d x
−∞

no caso contı́nuo. A existência da variância depende da


convergência dos somatórios ou da integral.

Desvio padrão – para uma variável aleatória X define-se o desvio


padrão (teórico), representado por σ x , por
p
σ x = V (X ).
Capı́tulo 5 - Esperança e conceitos relacionados 11

Em alguns desenvolvimentos será utilizada a notação


DP(X ) para indicar o desvio padrão da variável aleatória
X.

É difı́cil interpretar diretamente a magnitude da variância, dado que ela


é medida em unidades ao quadrado da variável aleatória associada a ela. O
desvio padrão, por se tratar da raiz quadrada da variância, é medido na mesma
unidade do fenômeno original, sendo de mais fácil interpretação.

Coeficiente de variação – para uma variável aleatória X , define-


se o coeficiente de variação (teórico) por:
σx
CV(X ) = .
µx

O coeficiente de variação não será definido quando E(X ) =


0. Em muitas situações o CV é expresso na forma percen-
tual.

Desvio padrão σ e dispersão da variável aleatória

Alguns resultados apresentados a seguir, alguns deles consequência de desi-


gualdades examinadas no Capı́tulo 7, facilitam a visualização do significado
do desvio padrão como medida de dispersão.
Nesses resultados, µ e σ representam a esperança matemática e o desvio
padrão da variável X , caso existam, e k é uma constante:

• Aplicação da desigualdade de Chebyshev:

1
Pr(|X − µ| ≥ k σ) ≤ .
k2
O resultado é válido para X com qualquer distribuição que tenha µ e
σ finitos.

• Aplicação da desigualdade de Vysochanskij–Petunin:

4
Pr(|X − µ| ≥ k σ) ≤ .
9k 2
O resultado é válido para k ≥ 1, 633, para toda variável aleatória com
distribuição unimodal que tenha µ e σ finitos.
Capı́tulo 5 - Esperança e conceitos relacionados 12

• Distribuição Normal (resultado exato): Pr(|X − µ| ≥ σ) = 0, 317,


Pr(|X − µ| ≥ 2σ) = 0, 046 e Pr(|X − µ| ≥ 3σ) = 0, 003 (resultado
arredondado para 3 decimais).

Alguns exemplos

Nos desenvolvimentos deste capı́tulo, quando se falar em variância, desvio


padrão e coeficiente de variação, o entendimento deve ser o das versões
teóricas desses conceitos. Exemplos a seguir ilustram a obtenção desses con-
ceitos e algumas aplicações.
Exemplo 5.7 – Bolas vermelhas e brancas (variância) – No caso
da urna, verificou-se no Exemplo 5.1 que para a variável aleatória
X tem-se E[X ] = µ x = 1. Logo, a variância, desvio padrão e
coeficiente de variação de X podem ser computados por:

V (X ) = (0 − 1)2 · 0,25 + (1 − 1)2 · 0,5 + (2 − 1)2 · 0,25 = 0,50

σ x ≈ 0,71
CV% ≈ 71%
Exemplo 5.8 – Roleta 0 a 10 (variância) – No caso da roleta
verificou-se que para X tem-se µ x = 5 (Exemplo 5.2) logo a
variância de X poderia ser computada por:
Z 10
1 25
V (X ) = (x − 5)2 dx =
0 10 3
5
σx = p
3
1
CV = p .
3
Exemplo 5.9 – Mudança de escala – Se X é uma variável aleatória
com esperança µ e variância σ 2 , e a e b são constantes, obtenha
o desvio-padrão e o coeficiente de variação de Y = aX + b . Veja
as propriedades da variância em próxima seção para melhor en-
tendimento desses resultados.
Solução:
V (Y ) = a 2 σ 2 e DP(Y ) = aσ
Capı́tulo 5 - Esperança e conceitos relacionados 13

CV(Y ) = e CV(Y ) = CV(X ), se b = 0.
aµ + b
Isso significa que o desvio padrão depende da unidade utili-
zada para caracterizar a variável aleatória. O coeficiente de
variação, por outro lado, é independente da unidade utilizada,
para fenômenos cuja medida utiliza a escala razão3 .

Exemplo 5.10 – Limite para a probabilidade de extremos – Se


X é uma variável aleatória com esperança µ, variância σ 2 e
distribuição de probabilidade unimodal, qual seria o máximo va-
lor possı́vel para Pr(|X − µ| ≥ 3σ)? Mostre que esse máximo é
inferior a 5%.
Solução: Pela aplicação direta da desigualdade de Vysochans-
kij–Petunin, com k = 3, chega-se a

4
Pr(|X − µ| ≥ 3σ) ≤ ≈ 0,04938.
9 · 32
Se a distribuição de X fosse uma Normal, o valor dessa probabi-
lidade desejada seria conhecido exatamente, sendo igual a 0,003
(arredondada para 3 decimais).

5.5 Covariância e correlação


Para duas variáveis aleatórias X e Y define-se a covariância (teórica) por

Cov(X , Y ) = E[(X − E(X ))(Y − E(Y ))]


= E(X Y ) − E(X )E(Y ).

O coeficiente de correlação (teórico) é definido por

Cov(X , Y )
ρX Y = .
σ x σy

O seguinte teorema apresenta os limites para os valores possı́veis para o


coeficiente de correlação.
3
Para fenômenos medidos na escala razão (altura, peso, valor monetário, etc.) a conversão
de unidades se processa pela multiplicação por uma constante. Na escala intervalar (ex. tem-
peratura) a mudança de unidades exige uma transformação do tipo Y = aX + b .
Capı́tulo 5 - Esperança e conceitos relacionados 14

Teorema 5.1 – Limites para o coeficiente de correlação – O coefi-


ciente de correlação é um número entre -1 e 1.
Prova: Pela aplicação da desigualdade de Cauchy-Schwartz, apre-
sentada no Exemplo 7.4 do Capı́tulo 7.

A covariância e o coeficiente de correlação medem a intensidade da


associação entre as variáveis em questão, servindo para definir uma condição
necessária para independência.
Em particular, tem-se

Cov(X , X ) = E[(X − E(X ))2 ] = V (X ),

o que mostra que a variância é um caso particular da covariância de uma


variável aleatória com ela mesma.

Exemplo 5.11 – Função de densidade (covariância) – Pode-se ve-


rificar, pela aplicação das definições, que as variáveis aleatórias X
e Y definidas pela distribuição de probabilidade conjunta

fX Y (x, y) = (x + y)I[0,1] (x)I[0,1] (y)

tem covariância definida por:

Cov(X , Y ) = E(X Y ) − E(X )E(Y ) ≈ −0, 006944,

e
ρX Y ≈ −0, 0909.

5.6 Propriedades da variância e covariância


São apresentadas à seguir algumas propriedades fundamentais associadas à
variância e covariância, onde k, a, b e c representam constantes, e X e Y ,
representam variáveis aleatórias:

1. V (k) = 0.
Capı́tulo 5 - Esperança e conceitos relacionados 15

2. V (kX ) = k 2 V (X ).
Prova: Pelo desenvolvimento da definição de variância:

V (kX ) = E[(kX − E(kX ))2 ]


= E[k 2 (X − E(X ))2 ]
= k 2 V (X ). □

3. V (X + k) = V (X ).
4. V (g (X )) ≈ [g ′ (E[X ])]2 V (X )

Aproximação obtida através de uma expansão pela série de


Taylor da função g (x) ao redor do ponto E[X ]. O leitor
deve obter o resultado como exercı́cio.
5. Variância da soma:

V (aX + b Y ) = a 2V (X ) + b 2V (Y ) +
2a b Cov(X , Y ).

6. Variância do produto (aproximada):

V (X Y ) ≈ E 2 (X )V (Y ) + E 2 (Y )V (X ) +
2E(X )E(Y )Cov(X , Y ).

7. Variância do quociente (aproximada):


X  E[X ] 2 V [X ] V [Y ] Cov(X , Y ) 
V ≈ + −2
Y E[Y ] E 2 [X ] E 2 [Y ] E[X ]E[Y ]

8. Covariância:

Cov(X , a + b X + cY ) = b V (X ) + c Cov(X , Y ).

As provas das propriedade 1, 3, 5 e 8 são triviais, ficando a tı́tulo de


exercı́cio para o leitor. Os resultados das propriedades 6 e 7 são aproxima-
dos. Veja Mood et al. (1974, p. 181) para a demonstração desses resultados,
Capı́tulo 5 - Esperança e conceitos relacionados 16

que dependem do uso da série de Taylor. O resultado geral aproximado para


V (g (X , Y )) é também apresentado nessa última referência.

Caso geral da variância da soma

A propriedade 4 (variância da soma) vista na seção anterior pode ser facil-


mente estendida para o caso de m variáveis. Na situação geral, se

Y = k1 X1 + k2 X2 + . . . + k m X m ,

onde os ki s são constantes e os Xi s são variáveis aleatórias, é possı́vel demons-


trar que, usando notação matricial,

V (Y ) = k′ V k,

σ11 σ12 σ1m


 
  ...
k1
 .. 
 σ21 σ22 ... σ2m 
onde k =  . , V =  .. .. .. ,
 
..
 . . . . 
km
σ m1 σ m2 . . . σ m m

e σi j = Cov(Xi , X j ), lembrando que Cov(Xi , Xi ) = V (Xi ). A matrix V é usu-


almente chamada de matriz de variância-covariância ou matriz de covariância.
Uma representação equivalente desse último resultado seria
n
X X
V (Y ) = ki2V (Xi ) + ki k j Cov(Xi , X j ).
i=1 i ̸= j

O resultado geral da variância descrito no parágrafo anterior pode ser


simplificado para

V (Y ) = V (X1 ) + V (X2 ) + . . . + V (X m ),

se Cov(Xi , X j ) = 0, para i ̸= j , resultado, por exemplo, da mútua inde-


pendência dos Xi s, algo que será visto proximamente na Seção 5.8.
Alguns exemplos são apresentados à seguir para ilustrar o uso de propri-
edades da esperança (vistas na seção anterior) e da variância.

Exemplo 5.12 – Esperança e variância de variável padronizada –


É comum em estatı́stica a padronização ou estandardização de
Capı́tulo 5 - Esperança e conceitos relacionados 17

variáveis aleatórias. Se X é uma variável aleatória qualquer, com


esperança µ e variância σ 2 , uma variável aleatória Z que repre-
senta a padronização de X é definida por

X −µ
Z= .
σ

Mostre que a variável padronizada Z tem esperança 0 e desvio


padrão 1.
Solução: Como
X − µ
E(Z) = E ,
σ
pelas propriedades da esperança, como µ e σ são constantes,

1
E(Z) = E(X − µ)
σ
1 1
= [E(X ) − E(µ)] = [µ − µ] = 0.
σ σ

Logo, E(Z) = 0. Pelas propriedades da variância,

X − µ
V (Z) = V
σ
1
= V (X − µ)
σ2
1 1
= V (X ) = σ 2 = 1.
σ2 σ2

Logo, V (Z) = 1.

Exemplo 5.13 – Variância mı́nima do retorno – Suponha que um


investidor pretende saber quanto alocar de seu capital inicial Ci
em 2 investimentos cujas taxas de retorno anual (incertas no mo-
mento do investimento) são representadas por R1 e R2 . Assim, o
capital final, C f , obtido ao final do perı́odo de um ano será dado
Capı́tulo 5 - Esperança e conceitos relacionados 18

por:
C f = θCi (1 + R1 ) + (1 − θ)Ci (1 + R2 )
onde θ ∈ [0, 1] representa a proporção do capital investido no
investimento 1, e (1 − θ) a proporção no investimento 2.
Rearranjando a última expressão, verifica-se que

C f = Ci [1 + θR1 + (1 − θ)R2 ].

O retorno global nos dois investimentos, a partir de uma


alocação θ, será definido por R onde

R = θR1 + (1 − θ)R2 .

Suponha que E(Ri ) = µi e V (Ri ) = σi2 , para i = 1, 2, e o coe-


ficiente de correlação entre os retornos, representado por ρ, são
conhecidos.
Nesse caso, assuma µ1 = µ2 = µ e a preferência do investidor é
por alocações que ofereçam a menor variância (um indicador de
risco em finanças). Verifique o impacto de θ na E(R) e o valor
de θ que leva à menor variância do retorno global.
Solução: Pelo enunciado, tem-se

E(R) = E[θR1 + (1 − θ)R2 ].

Mas θ é uma variável de decisão e portanto uma constante na ex-


pressão. Logo, usando as propriedade da esperança, e lembrando
que E(R1 ) = E(R2 ) = µ,

E(R) = θE[R1 ] + (1 − θ)E[R2 ]


= θµ + (1 − θ)µ = µ,

ou seja, a esperança do retorno não será alterada por θ.


Com relação à variância,

V (R) = V [θR1 + (1 − θ)R2 ],


Capı́tulo 5 - Esperança e conceitos relacionados 19

e usando a propriedade associada à variância da soma,

V (R) = θ2 σ12 + (1 − θ)2 σ22 + 2θ(1 − θ)ρσ1 σ2

dado que Cov(R1 , R2 ) = ρσ1 σ2 , pela definição do coeficiente de


correlação ρ. A variância de R é portanto uma função da variável
de decisão θ e das constantes σ1 , σ2 e ρ. Pelas preferências do in-
vestidor, deve ser definido o valor de θ que minimiza essa última
expressão. Para isso pode-se utilizar a condição de primeira or-
dem4
dV (R)
= 0,

devendo-se encontrar o valor de θ que soluciona essa condição.
Como
dV (R)
= 2θσ12 − 2(1 − θ)σ22 + 2ρσ1 σ2 (1 − 2θ),

o valor de θ que faz essa expressão ficar idêntica a zero, e que
levará V (R) ao mı́nimo, será

σ22 − ρσ1 σ2
θ∗ = .
σ12 + σ22 − 2ρσ1 σ2

O leitor pode verificar que no caso particular em que σ12 = σ22 , a


solução será θ∗ = 1/2, ou seja, colocar metade do capital em cada
investimento.

Exemplo 5.14 – Esperança e variância da média – Suponha que


X1 , X2 , . . . , Xn representa uma amostra tamanho n (i.i.d.) de uma
variável aleatória X , com E(X ) = µ e V (X ) = σ 2 . A média
aritmética simples é definida por
Pn
Xi
X n = i =1
n
4
A condição de segunda ordem para minimização será atendida nesse caso, como o leitor
pode verificar.
Capı́tulo 5 - Esperança e conceitos relacionados 20

e usada frequentemente como um estimador de µ. Obtenha a


esperança e variância desse estimador, ou seja E(X n ) e V (X n ).

Solução: A esperança e variância de X n serão obtidas à se-


guir. Utilizando-se das propriedades da esperança vistas anteri-
ormente, e observando que E(Xi ) = µ, tem-se

X1 + X2 + . . . + Xn 
E(X n ) = E
n
E(X1 ) + E(X2 ) + . . . + E(Xn )
=
n
n ·µ
= = µ.
n
Pela aplicação das propriedades da variância, observando que n é
uma constante, que os valores são independentes e que V (Xi ) =
σ 2 , tem-se

X1 + X2 + . . . + Xn 
V (X n ) = V
n
1
= V (X1 ) + V (X2 ) + . . . + V (Xn )

n 2

n · σ2 σ2
= = .
n2 n
Logo, os dois resultados solicitados são:

σ2
E(X n ) = µ e V (X n ) = .
n

5.7 Esperança e variância condicionais


Esperança condicional

Da mesma forma que se define a distribuição condicional, é possı́vel também


se definir as noções de esperança condicional e variância condicional.
Capı́tulo 5 - Esperança e conceitos relacionados 21

Esperança condicional – se a distribuição condicional de Y dado


x é
fY |X (y|x),
define-se esperança condicional de Y dado que X = x, aqui
representada por

EY |x (Y |x) ou E(Y |X = x),

por Z ∞
E(Y |x) = y fY |X (y|x)d y
−∞

no caso contı́nuo, ou
X
E(Y |x) = y fY |X (y|x).
Ωy

no caso discreto. Esse resultado é também chamado de re-


gressão (teórica).

Teorema 5.2 – Esperança da esperança – Se X e Y são variáveis


aleatórias, é verdade que

E(Y ) = EX [EY |X (Y |X )].

Prova: Temos que (para o caso contı́nuo)


Z ∞
EY |X (Y |X ) = y fY |X (y|X )d y
−∞

que é uma variável aleatória por ser função de X . Logo


Z∞ Z∞
EX [EY |X (Y |X )] = y fY |X (y|x)d y fX (x)d x
 
−∞ −∞
Z ∞ Z ∞
= y fX Y (x, y)d y d x
−∞ −∞

= E(Y ),
Capı́tulo 5 - Esperança e conceitos relacionados 22

usando o fato de que

fX Y (x, y) = fY |X (y|x) fX (x). □

A prova do caso discreto pode se realizar usando um argumento


parecido, utilizando-se os somatórios em lugar das integrais. Esse
teorema também é chamado de Lei da esperança total.

Exemplo 5.15 – Função de densidade (esperança condicional ou


regressão teórica) – Considere as variáveis aleatórias X e Y defi-
nidas pela distribuição de probabilidade conjunta

fX Y (x, y) = (x + y) I[0,1] (x)I[0,1] (y)

vista anteriormente. Em exemplo desenvolvido em capı́tulo an-


terior foi obtido o resultado
x+y
fY |X (y|x) = I (x)I[0,1] (y).
x + 0, 5 [0,1]

Logo, é possı́vel encontrar a esperança condicional ou regressão


(teórica) de Y dado x por
1
x+y
Z
E(Y |x) = y dy
0 x + 0, 5
3x + 2
= .
6x + 3
Para valores definidos de x a regressão indica os valores da
esperança condicional da variável aleatória Y . Pelo resultado do
último teorema (esperança da esperança), é verdade que

E(Y ) = EX [E(Y |X )]

como será verificado à seguir.


1
3x + 2
Z
EX [E(Y |X )] = f (x)d x,
0 6x + 3 X
Capı́tulo 5 - Esperança e conceitos relacionados 23

Pela substituição do resultado anterior (Exercı́cio ??)

fX (x) = (x + 0,5) I[0,1] (x)

na integral e realizando a integração, chega-se a

7
EX [E(Y |X )] = ,
12
que é o valor de E(Y ) já obtido anteriomente (observe que
E(X ) = E(Y ) nesse caso).

Teorema 5.3 – Decomposição da esperança – Se A1 , . . . , An são


eventos mutuamente exclusivos e coletivamente exaustivos, e X
é uma variável aleatória, é verdade que
n
X
E(X ) = E(X |Ai ) Pr(Ai ).
i=1

Prova: Suponha que Z é uma variável aleatória que assume valor


i quando o evento Ai ocorre. Logo, pelo resultado do teorema
anterior (esperança da esperança), é verdade que

EZ [EX |Z (X |Z)] = E(X ).

mas,
n Z
X ∞
EZ [EX |Z (X |Z)] = x fX |Z (x|i) d x fZ (i).

i=1 −∞

Fazendo a substituição fZ (i) = Pr(Z = i) = Pr(Ai ) na última ex-


pressão e observando que o termo na integral é E(X |Ai ), conclui-
se que
X n
E(X ) = E(X |Ai ) Pr(Ai ). □
i=1
.

Variância condicional

À seguir é apresentada a definição da variância condicional de Y dado X = x,


que é representada por V (Y |X = x).
Capı́tulo 5 - Esperança e conceitos relacionados 24

Variância condicional – Se a esperança condicional de Y dado


X = x é representada por E(Y |X = x), define-se a variância
Y condicional a X = x por

V (Y |X = x) = E[(Y − E(Y |X = x))2 |X = x]

ou, alternativamente, por

V (Y |X = x) = E(Y 2 |X = x) − [E(Y |X = x)]2 .

Teorema 5.4 – Lei da variância total – Se X e Y são variáveis


aleatórias, é verdade que

V (Y ) = EX [V (Y |X )] + VX [E(Y |X )].

O interessante desse resultado é que oferece uma decomposição


da variância em 2 termos aditivos. O primeiro deles é usualmente
chamado de componente não-explicado da variância e o segundo
de componente explicado da variância.
Prova: Pela definição da variância de Y e aplicação do teorema da
esperança da esperança, tem-se

V (Y ) = E(Y 2 ) − [E(Y )]2


= E[E(Y 2 |X )] − [E(E(Y |X ))]2

Mas, o argumento da esperança do termo da esquerda na última


expressão pode ser substituı́do pela sua definição em termos da
variância, chegando-se a

V (Y ) = E[V (Y |X ) + (E(Y |X ))2 ] − [E(E(Y |X ))]2


= E[V (Y |X )] + E[(E(Y |X ))2 ] − [E(E(Y |X ))]2 .

Os dois últimos termos da direita podem ser reconhecidos como


sendo V [E(Y |X )] (substitua Z = E(Y |X ), para visualizar me-
lhor esse resultado), concluindo-se que

V (Y ) = E[V (Y |X )] + V [E(Y |X )]. □


Capı́tulo 5 - Esperança e conceitos relacionados 25

O próximo exemplo mostra a relação entre os termos da decomposição


da variância derivados do resultado do último teorema e o coeficiente de
correlação, em um modelo linear usual em estatı́stica.

Exemplo 5.16 – Variância total – Considere a variável aleatória Y


definida por
Y = a + bX + ϵ
onde a e b são constantes, e X e ϵ são variáveis aleatórias com
correlação zero, com E(ϵ) = 0. Pela lei da variância total tem-se
que
V (Y ) = E[V (Y |X )] + V [E(Y |X )].
Se ρX Y representa o coeficiente de correlação entre Y e X , mos-
tre que
V [E(Y |X )]
ρ2X Y = ,
V (Y )
ou seja, o coeficiente de correlação ao quadrado pode ser defi-
nido pela proporção representada pela participação relativa do
componente da variância explicado por X na variância total de
Y , nesse modelo linear.

Prova: O coeficiente de correlação é definido por

Cov(X , Y )
ρX Y = p ,
V (X )V (Y )
mas,

Cov(X , Y ) = Cov(X , a + b X + ϵ) = b V (X ),

logo
b 2V (X )
ρ2X Y = .
V (Y )
Por outro lado,

E[Y |X = x] = a + b x e E[Y |X = X ] = a + b X
Capı́tulo 5 - Esperança e conceitos relacionados 26

de onde pode-se concluir que

V [E(Y |X )] = b 2V (X ),

que é exatamente o númerador da definição de ρ2X Y . □

5.8 Resultados associados à independência


Os próximos teoremas apresentam resultados relacionados à noção de inde-
pendência, no contexto de variáveis aleatórias e esperança matemática. O
último teorema desta seção mostra a relação existente entre os conceitos de
independência e correlação.
Teorema 5.5 – Esperança e independência – Se X e Y são
variáveis aleatórias independentes é verdade que E(X Y ) =
E(X )E(Y ), ou seja,

X ⊥⊥ Y ⇒ E(X Y ) = E(X )E(Y ).

Prova: Z ∞ Z ∞
E(X Y ) = x y fX Y (x, y)d x d y.
−∞ −∞

Mas pela independência de X e Y ,

fX Y (x, y) = fX (x) fY (y)

e
Z ∞ Z ∞
E(X Y ) = x y fX (x) fY (y)d x d y
−∞ −∞
Z∞ Z ∞
= x fX (x)d x y fY (y)d y
−∞ −∞
= E(X )E(Y ). □

Teorema 5.6 – Covariância e Independência – A independência


entre duas variáveis aleatórias X e Y implica que a covariância
(e a correlação) entre elas será zero. O contrário, contudo, não
será necessariamente válido em todos os casos, ou seja,
1. X ⊥⊥ Y ⇒ Cov(X , Y ) = 0.
Capı́tulo 5 - Esperança e conceitos relacionados 27

2. Cov(X , Y ) = 0 ̸⇒ X ⊥⊥ Y.

Prova: Parte 1 - se as variáveis são independentes tem-se que

Cov(X , Y ) = E[(X − E(X ))(Y − E(Y ))]

será equivalente a

E[X − E(X )]E[Y − E(Y )],

em função do teorema que garante independência para funções


de variáveis independentes, concluindo-se diretamente que

Cov(X , Y ) = 0.

Parte 2 - a prova será realizada por contra-exemplo. Considere


uma variável aleatória X , caracterizada por uma distribuição
simétrica ao redor de zero. Nesse caso, é evidente que E(X ) = 0.
Ocorre, adicionalmente, que para uma distribuição como essa,
pode-se demonstrar5 que E(X 3 ) = 0. Considere agora uma outra
variável aleatória Y , definida por:

Y = X 2.

Claramente X e Y não são independentes, dado que ao se conhe-


cer o valor de X , será imediatamente conhecido o valor de Y .
Tem-se que, nesse caso,

Cov(X , Y ) = Cov(X , X 2 ) = E(X 3 ) − E(X )E(X 2 ).

Mas, como X tem uma distribuição simétrica ao redor de zero,


pode-se concluir que E(X ) = 0 e E(X 3 ) = 0. Consequente-
mente, Cov(X , Y ) = 0. Assim, foram encontradas 2 variáveis
aleatórias que não são independentes mas têm covariância (e
também correlação) iguais a zero. □
5
Usando o teorema da decomposição da esperança, visto anteriormente, e considerando
X contı́nuo, considere o evento A definido por X ≤ 0. Assim, é verdade que E(X 3 ) =
E(X 3 |A) Pr(A) + E(X 3 |A) Pr(A). Mas pela simetria da distribuição, E(X 3 |A) = −E(X 3 |A)
e Pr(A) = Pr(A), de onde se conclui que E(X 3 ) = 0. Esse argumento é válido para demonstrar
que E(X n ) = 0 para distribuições simétricas ao redor de zero, quando n é ı́mpar.
Capı́tulo 5 - Esperança e conceitos relacionados 28

5.9 Momentos absolutos e centrais


As principais noções associadas a momentos absolutos e momentos centrais,
no contexto teórico e amostral, são introduzidas à seguir:
Momento absoluto – para uma variável aleatória X define-se mo-
mento absoluto (teórico) de ordem r ou simplesmente mo-
mento de ordem r de X , representado aqui por µ′r por

µ′r = E(X r ).

O leitor pode facilmente notar que a esperança matemática


ou média teórica seria representada pelo primeiro mo-
mento (momento de ordem 1) de X .
Momento central – para uma variável aleatória X define-se o mo-
mento central (teórico) de ordem r de X por:

µ r = E[(X − µX ) r ],

onde µX é a esperança de X .
Exemplo 5.17 – Variância – Quando r = 2 o momento central
é representado pela variância. Ademais, a variância pode ser re-
presentada em termos de momentos absolutos por:

V (X ) = E(X 2 ) − E 2 (X ) = µ′2 − (µ′1 )2

Usualmente, se não for especificado o tipo de momento subentende-se


que são momentos absolutos.
Os momentos absolutos e amostrais (teóricos) tem a sua contraparte
amostral. Para definição desses momentos amostrais, considere que

X1 , X2 , . . . , Xn

é uma amostra aleatória i.i.d. de uma variável aleatória X com distribuição


fX (x).
Momento absoluto amostral – define-se momento amostral ou
momento absoluto amostral de ordem r representado aqui
por M r′ por
n

X Xr
Mr = .
i =1
n
Capı́tulo 5 - Esperança e conceitos relacionados 29

O leitor pode facilmente notar que a média aritmética (X )


corresponde ao primeiro momento amostral (momento
amostral de ordem 1).
Momento central amostral – define-se o momento central amostral
de ordem r por:

i=1 (Xi − X )r
Pn
Mr = .
n

5.10 Outras medidas estatı́sticas úteis


Os próximos parágrafos mostram algumas noções utilizadas para
caracterização de variáveis aleatórias.

Quantil e percentil

A noção de quantil q, representada aqui por ξq , e a noção análoga de percen-


til q% , representada por ξq% , servem para identificar certos valores de uma
variável aleatória que atendam as seguintes propriedades:

Quantil q – Para uma dada variável aleatória X , define-se o quan-


til q, ou ξq , como sendo o menor valor de X = x tal que:

F (x) ≥ q.

Percentil q% – Para uma dada variável aleatória X , define-se o


percentil q% , ou ξq% , como sendo o menor valor de X = x
tal que:
q
F (x) ≥ % .
100
O percentil nada mais é que o quantil expresso na forma
percentual.

Exemplo 5.18 – Bolas vermelhas e brancas (quantil) – Para o


exemplo da urna, onde X é o número de bolas brancas, tem-se
que o quantil 0,25 seria definido por 0 e o quantil 0,50 definido
por 1 pois estes são os mı́nimos valores de x que atendem a

FX (0) ≥ 0,25 e FX (1) ≥ 0,50.


Capı́tulo 5 - Esperança e conceitos relacionados 30

No caso, os valores 0 e 1 seriam, respectivamente, os valores cor-


respondentes ao percentil 25% e ao percentil 50%.

Exemplo 5.19 – Roleta 0 a 10 (quantil) – No caso da roleta, onde


X vai ser definido com igual densidade de probabilidade entre
[0, 10), tem-se que o quantil 0,25 ou ξ0,25 será definido por 2,5 e
o quantil 0,50 ou ξ0,50 definido por 5 pois estes são os mı́nimos
valores de x que atendem a

FX (2,5) ≥ 0,25 e FX (5) ≥ 0,50.

A terminologia quartil pode ser utilizada para representar ξ0,25 , ξ0,50 e


ξ0,75 , que seriam, respectivamente, o primeiro, o segundo e o terceiro quartil.

Mediana e moda

Ao lado da esperança matemática, duas outras medidas de tendência central


são usadas em estatı́stica. Em algumas situações essas medidas são utiliza-
das como uma aproximação para o valor da esperança (por serem mais fa-
cilmente calculáveis em alguns casos) ou como medida auxiliar para indicar a
tendência central da distribuição utilizando um critério diferente do utilizado
pela esperança. Para algumas distribuições de interesse o valor da esperança,
da mediana e da moda são de fato os mesmos (isso ocorre para funções de
densidade simétricas como a Normal, por exemplo).

Mediana – Para uma variável aleatória X a mediana é definida


por
med(X ) = ξ0,50 .
ou seja, a mediana é idêntica ao quantil 0,5 da variável
aleatória X . Para o caso contı́nuo, isso seria equivalente
a obter med(X ), de forma que
Z med(X )
fX (u)d u = 0,50.
−∞

Exemplo 5.20 – Mediana para situações anteriores – No caso do


exemplo da urna, com 1 bola vermelha e 1 bola branca, em que
sorteamos 2 bolas com reposição, e X representa o número de
Capı́tulo 5 - Esperança e conceitos relacionados 31

bolas brancas no resultado, med(X ) = ξ0,50 = 1. No caso da


roleta examinado anteriormente, med(X ) = ξ0,50 = 5.

Moda - para uma variável aleatória X , a moda será representada


por moda(X ), como o valor X = x que leva a distribui-
ção de probabilidade associada a X ao máximo global (su-
premo).

Exemplo 5.21 – Moda para exemplos anteriores (urna e roleta)


– No caso do exemplo da urna, moda(X )= 1. No caso da
roleta moda(X ) seria definida por qualquer valor de x tal que
x ∈ [0,10), ou seja, há infinitas modas.

Medidas de Assimetria e Curtose

Os desenvolvimentos mais frequentes em estatı́stica utilizam os momentos


absolutos de ordem 1 e 2 (associados à E(X ) e E(X 2 )) e o momento central
de ordem 2 (associado à V(X)). Em alguns casos, contudo, há interesse em
se descrever detalhadamente a função de densidade utilizando informações
associadas a outros momentos de ordem superior.
O momento central de ordem 3, representado por µ3 , está usualmente
associado à assimetria da função de densidade. É possı́vel demonstrar-se que
o sinal de µ3 está associado com a direção da assimetria da distribuição (ne-
gativo para a esquerda e positivo para a direita). Na Figura 5.2 a função de
densidade (A) é assimétrica para a direita, apresentando µ3 > 0, já a função
(B) é assimétrica para a esquerda e apresenta µ3 < 0.

Assimetria Negativa Assimetria Positiva

(A) (B)

Figura 5.2: Assimetria em distribuições

Distribuições simétricas como a Normal ou a Uniforme apresentam


µ3 = 0. Por outro lado, µ3 = 0 não garante necessariamente que a distri-
buição seja simétrica. Os dois casos são ilustrados na Figura 5.3. Para evitar
Capı́tulo 5 - Esperança e conceitos relacionados 32

Assimetria zero Assimetria zero

Figura 5.3: Coeficiente de assimetria nulo não garante simetria

a dependência nas unidades é usual utilizar-se um coeficiente de assimetria,


construı́do a partir de µ3 e σ (desvio padrão):
µ3
γ1 = (coeficiente de assimetria).
σ3

O momento central de ordem 4, representado por µ4 , indica quanto a


função de densidade tem um “pico” mais pronunciado que o da distribuição
Normal, algo que é qualificado como a curtose da distribuição. O indicador
µ4
γ2 = − 3 (coeficiente de curtose)
σ4

é chamado coeficiente de curtose, sendo utilizado para obtenção de uma medida


de curtose que seja independente de unidade. Valores positivos de γ2 sugerem
uma distribuição com um pico mais pronunciado que o da Normal, chamada
de leptocúrtica. Se o pico for menos pronunciado então, tipicamente, o va-
lor do coeficiente de curtose será negativo, sendo a distribuição chamada pla-
ticúrtica. Um valor próximo de zero para γ2 indica uma situação mais similar
à da distribuição Normal. A Figura 5.4 ilustra esses casos.
O valor mı́nimo possı́vel para o coeficiente de curtose γ2 é -2 (veja Ex. 7.9
para a demonstração desse resultado). Esse valor é obtido para uma variável
aleatória com distribuição Bernoulli com p = 1/2.

5.11 Considerações finais


Este capı́tulo apresentou os conceitos de esperança matemática, variância,
momentos e outras noções relacionadas, as quais são definidas a partir das
definições associadas a distribuições de probabilidade desenvolvidas nos 2
Capı́tulo 5 - Esperança e conceitos relacionados 33

Coef. de Curtose Coef. de Curtose


Positivo Negativo

Normal

Figura 5.4: Curtose em distribuições

capı́tulos anteriores. O próximo capı́tulo examinará o conceito de função ge-


radora de momentos, o qual facilita a obtenção de muitos resultados teóricos
importantes associados a distribuições de probabilidade e variáveis aleatórias.

Exercı́cios
Partes de alguns exercı́cios que envolvem perguntas sobre distribuições de
probabilidade, já foram solicitadas anteriormente em outros capı́tulos.

Exercı́cio 5.1 – Dados – No exemplo apresentado no texto cor-


respondente ao lançamento de dois dados com faces numeradas
de 1 a 6 definiu-se X como uma variável aleatória representando
a soma do resultado obtido em cada dado. Obtenha a função de
massa e com ela calcule a esperança e variância de X .

Exercı́cio 5.2 – Dados de uma face – Considere um jogo que con-


siste no lançamento de 6 dados especiais. Cada dado tem 5 faces
lisas (sem numeração) e uma face numerada, variando de 1 a 6
(um número para cada dado). Suponha que X representa a soma
dos resultados obtidos nos 6 dados após um lançamento (se o re-
sultado de um dado for a face lisa, ele é contado como zero). Esse
jogo era comum em festas na Europa na idade média, pagando-se
altos prêmios para valores elevados de X .
Capı́tulo 5 - Esperança e conceitos relacionados 34

(a) Obtenha a esperança e variância de X (dica: esse é um caso


em que obtenção pela definição será mais complicada.)
(b) Obtenha a probabilidade do jogador obter cada um dos três
maiores valores de X .
(c) Suponha que um prêmio em dinheiro será pago em
proporção ao valor apostado, se o jogador obtiver o maior
valor possı́vel no jogo. Qual deve ser o valor do prêmio, de
forma que a esperança de ganho para o promotor do jogo
seja de $0,1 por $1 apostado. O promotor do jogo retêm o
valor apostado em todos os casos.

Exercı́cio 5.3 – Prove, usando as definições para o caso contı́nuo,


as propriedades da esperança que não foram provadas no texto.

Exercı́cio 5.4 – Prove, usando as definições para o caso contı́nuo,


as propriedades da variância que não foram provadas no texto
(exceto as que envolverem aproximações).

Exercı́cio 5.5 – Dardos II – Uma pessoa está atirando dardos em


um alvo circular com raio de 1 metro. O prêmio recebido por
cada dardo atirado depende da distância ao centro deste alvo,
sendo calculado pela fórmula:

P = 10000 × (1 − D),

onde P é o valor do prêmio e D é a distância em metros entre


o dardo e o centro do alvo. Se a probabilidade da pessoa acertar
qualquer ponto do alvo é idêntica e caso erre o alvo pode atirar
novamente,

1. Apresente a distribuição de probabilidade de D. (dica: ache


primeiro a função cumulativa)
2. Apresente a distribuição de probabilidade de P .
3. Calcule sua esperança e variância.

Exercı́cio 5.6 – Se f1 (x) e f2 (x) são funções de densidade, e defi-


nimos
f (x) = α1 f1 (x) + α2 f2 (x)
onde α1 + α2 = 1, α1 ≥ 0, α2 ≥ 0, responda:
Capı́tulo 5 - Esperança e conceitos relacionados 35

(a) Se µ1 e µ2 são as esperanças associadas a f1 (x) e f2 (x), e


σ12 , σ22 são as variâncias, ache a esperança e a variância da
variável aleatória associada a de f (x).

Exercı́cio 5.7 –

1
fX (x) = k(x + )I[0,1] (x)
2
representa a distribuição de probabilidade da variável aleatória
X.

(a) Ache o valor de k que torna essa função uma função de den-
sidade. (pedido no capı́tulo anterior)
(b) Obtenha a função cumulativa, a esperança e a variância de
X . (função foi pedida no capı́tulo anterior)
(c) Se Y = aX + b , onde a e b são constantes, obtenha a dis-
tribuição de probabilidade, a esperança e a variância de Y .
(distribuição no capı́tulo anterior)

Exercı́cio 5.8 – Papel-tesoura-pedra – Num “jogo” chamado


papel-pedra-tesoura n pessoas mostram uma das mãos represen-
tando uma pedra (mão fechada), papel (mão aberta) e tesoura
(mão com os dedos formando um V). Pedra ganha de tesoura
(pois pedra danifica tesoura); tesoura ganha de papel (tesoura
corta papel) e papel ganha de pedra (papel embrulha pedra). Se
2 pessoas estão jogando esse jogo, defina uma variável aleatória
representando o número de jogadas necessárias para que o jogo
termine (o jogo termina quando uma pessoa ganha o jogo). Mos-
tre a distribuição de probabilidade dessa variável aleatória e cal-
cule sua esperança e variância. Faça o mesmo para um jogo de 3
pessoas.

Exercı́cio 5.9 – Sultão e mulheres – Um sultão das arábias resolve


baixar um decreto visando aumentar o número de mulheres no
paı́s e simultaneamente reduzir a taxa de natalidade. Para isso de-
termina que as novas famı́lias só tenham filhos até que consigam
1 menina e nesse ponto parem de ter filhos. Assim, raciocinando
o sultão, como em 50% dos casos ocorrerá uma menina no pri-
meiro nascimento, isso garantirá um incremento substancial no
Capı́tulo 5 - Esperança e conceitos relacionados 36

proporção relativa de mulheres do paı́s. Determine o tamanho


esperado das famı́lias desse paı́s e a frequência esperada de mulhe-
res após a implementação da polı́tica (isso nas novas famı́lias que
não tem filhos antes da polı́tica ser implementada). Ocorrerá o
aumento desejado na frequência de mulheres?

Exercı́cio 5.10 – Opção de venda – Uma opção de venda é um ins-


trumento financeiro importante (vendido por terceiros) que dá
ao possuidor o direito (e não uma obrigação) de vender um dado
bem a um preço definido, numa data (ou perı́odo) fixado. Esse
preço definido é chamado preço de exercı́cio. Suponha que hoje
é o dia 0 e você irá produzir um produto para venda no dia 3. O
preço desse produto no dia 0 é $ 200 e deve variar nos próximos
dias segundo um processo aleatório no qual o preço em um dia
1
será o preço do dia anterior mais $ 10 com probabilidade 2 ou o
1
preço do dia anterior menos $ 10 com probabilidade 2 . Repre-
sente por Y o preço do produto no dia 3. Observe que se você
possui uma opção de venda para esse produto no dia 3 com preço
de exercı́cio $ 200, você nunca venderá o produto por menos de $
200. Se o preço no mercado for inferior a $ 200, a opção dá a você
o direito de vendê-lo a $ 200, o qual você obviamente exercerá.
Se o preço do produto for superior a $ 200 você obviamente não
exercerá essa opção pois será preferı́vel vender o produto a esse
preço superior a $ 200.

(a) Obtenha a distribuição de probabilidade, a esperança e o


desvio padrão de Y .
(b) Suponha que você tem uma opção de venda para o produto
que dá o direito de vendê-lo no dia 3 por $ 200. Represente
por P o preço que você receberá por ele considerando essa
opção que você tem. Qual é a distribuição de probabili-
dade, a esperança e o desvio padrão de P ?
(c) Suponha que no dia 0 você pode vender essa “opção de
venda” para outra pessoa. Qual seria o preço mı́nimo que
você venderia essa opção? argumente (a resposta não é ne-
cessariamente única).

Exercı́cio 5.11 – Craps II – Com relação ao exercı́cio relativo ao


jogo de dados “Craps”, descrito no capı́tulo anterior, numa dada
Capı́tulo 5 - Esperança e conceitos relacionados 37

jogada, se para cada $ 1 apostado o jogador recebe $ 2 (com pro-


babilidade 0, 49293) se ganha e $ 0 se perde (com probabilidade
1 − 0, 49293), responda:

(a) Defina uma variável aleatória X que represente a receita


bruta do jogador para cada $ 1 apostado em uma jogada,
mostre sua distribuição de probabilidade e função cumula-
tiva. Faça uma ilustração dessas funções.
(b) Defina uma variável aleatória Y que represente o ganho
lı́quido do jogador em função de X , para cada $ 1 apostado.
Mostre sua distribuição de probabilidade, sua esperança e
variância.
(c) Obtenha a função geradora de momentos de Y e mostre
como você poderia utilizá-la para obter E(Y ).
(d) Defina uma outra variável Z que represente o ganho lı́quido
do cassino em função de X , para cada $ 1 apostado em uma
jogada. Mostre sua distribuição de probabilidade.
(e) Ache Cov(Y, Z) e ρY,Z . São Y e Z independentes?
(f) Qual a esperança, desvio padrão e coeficiente de variação do
ganho lı́quido para o cassino de uma jogada cuja aposta é $
100.000 ? Qual a probabilidade do cassino tomar prejuı́zo
com essa jogada?
(g) Qual a esperança, desvio padrão e coeficiente de variação
do ganho lı́quido para o cassino de 100.000 jogadas inde-
pendentes de $ 1?
(h) Considerando os resultados das estratégias utilizadas nos 2
últimos ı́tens, qual a melhor estratégia do ponto de vista do
cassino?

Exercı́cio 5.12 – Média-variância do retorno I – Considere a


situação do Exemplo 5.13 relativo a alocação de capital que leva
à variância mı́nima do retorno.

1. Mostre que, na situação em que as esperanças de retorno


são as mesmas (como no exemplo), e quando ρ < 1, sempre
a diversificação (divisão do capital nos dois investimentos)
será a melhor estratégia para minimizar a variância do re-
torno R.
Capı́tulo 5 - Esperança e conceitos relacionados 38

2. O que acontece quando ρ = 1?


3. Qual é a melhor situação para o investidor com relação a
ρ?
Exercı́cio 5.13 – Média-variância do retorno II – Considere a
situação do Exemplo 5.13, mas que em lugar de somente dois
investimentos o investidor pode investir em n investimentos,
com retornos incertos R1 , R2 , . . . , Rn . Suponha que para esses
investimentos os retornos são mutuamente independentes e as
variâncias dos retornos são idênticas.
1. Será vantajosa a diversificação nesse caso, dado que todos
os n investimentos têm a mesma esperança de retorno e a
mesma variância?
2. Indique uma estratégia de investimento que praticamente
eliminará o risco (medido pela variância) para o investidor,
nessa situação?
Exercı́cio 5.14 – Média-variância do retorno III – Considere a
situação do Exemplo 5.13 relativo a alocação de capital que leva à
variância mı́nima do retorno. Suponha que para o investimento
1 tem-se E(R1 ) = 10% e V (R1 ) = 1, para o investimento 2 tem-se
E(R2 ) = 11% e V (R2 ) = 2 e ρ = 0,3 é o coeficiente de correlação
entre eles. Suponha também que o investidor sempre preferirá o
investimento que tenha maior média e menor variância. Mostre
que essa estratégia de colocar todo o capital em R1 não será ótima.
Exercı́cio 5.15 – Variância matricial – Considere as seguintes
definições:
     
X1 2 9 −4 9
X =  X2 , k =  4  e V =  −4 16 0  .
X3 7 9 0 9

Defina
Y = k′ X
e observe que V é a matriz de covariância. Obtenha V(Y). Obte-
nha também a matriz de correlação, que é uma matriz onde cada
elemento representa ρi, j , onde i, j são os ı́ndices das variáveis e
as posições na matriz, em termos de linhas e colunas.
Capı́tulo 5 - Esperança e conceitos relacionados 39

Exercı́cio 5.16 – Fixação do preço – Uma empresa está plane-


jando um investimento que considera um desembolso de $ 200
no perı́odo 0 para produzir 120 unidades de um produto para ser
vendido no perı́odo 1, a um preço P que hoje é incerto, repre-
sentado por uma distribuição uniforme entre [1;b], onde b ̸= 1,
com E(P ) = $ 2. A taxa interna de retorno de um investimento,
é o valor da taxa de juros r que torna o valor presente do fluxo
de caixa do investimento igual a zero, ou seja, nesse caso, o valor
R∗ que soluciona:

120P
−200 + = 0.
1 + R∗
Como P é incerto, a taxa interna de retorno do investimento
também é incerta no momento em que o investimento é reali-
zado. Com base nessas informações responda:

(a) Especifique o valor do parâmetro b da distribuição associ-


ada ao preço.
(b) Obtenha os valores de E(R∗ ) e V (R∗ ).
(c) Suponha que o investidor pode fixar o preço futuro no va-
lor da esperança da distribuição de probabilidade do preço,
a um custo adicional no perı́odo 0 de $ 5. Qual seria a taxa
interna de retorno do investimento com essa estratégia?
(d) No caso dele não poder fixar o preço futuro, qual seria a
distribuição de probabilidade que representa a taxa interna
de retorno, antes da realização do investimento?
(e) Qual é a probabilidade dessa taxa interna de retorno ser
igual ou inferior a 7% na situação do ı́tem anterior?

Exercı́cio 5.17 – Sorveteiro – Um sorveteiro que trabalha com


carrinho na rua tem o seguinte problema: ele deve decidir sobre
q, quantos sorvetes comprar para vender durante o dia. Se com-
prar pouco, o sorvete acabará logo, o que limitará seu lucro. Se
comprar muito, sobrará sorvete, que não poderá ser vendido no
próximo dia, pois não estará em boas condições (e não pode ser
devolvido). Cada sorvete custa $ 1 e pode ser vendido por $ 1, 5,
se existir demanda. Suponha que ele estima que a quantidade
Capı́tulo 5 - Esperança e conceitos relacionados 40

demandada de sorvetes num dia, representada por X , pode ser


caracterizada por uma função de densidade definida por

1
fX (x) = I (x).
100 [100,200]
Responda:

• Se L representa o lucro obtido pelo sorveteiro, obtenha


E(L) para a decisão q = 180. (Solução: E(L) = 42.)
• Qual seria seria a decisão ótima com relação a q que maxi-
mizaria E(L)? (Solução: q ∗ = 400/3)

Exercı́cio 5.18 – Se X é uma variável aleatória com esperança


matemática µ, mostre que E[(X − b )2 ] é minimizada quando
b = µ.

Exercı́cio 5.19 – Se X é uma variável aleatória com mediana m,


mostre que E(|X − b |) é minimizada quando b = m. Compare
esse resultado com o resultado do exercı́cio anterior. Essa me-
dida, E(|X − b |), é chamada de desvio absoluto médio (teórico)
com relação à mediana ou à média (em função de b ), podendo ser
uma medida de alternativa ao desvio padrão para caracterização
da dispersão de uma variável aleatória com relação à centrali-
dade da distribuição.
Rm Dica: use o fato de que E(|X − b |) =
E(|X − m|) + 2 b (x − b ) fX (x)d x.

Exercı́cio 5.20 – Controle de natalidade II – Considerando o


exercı́cio em capı́tulo anterior relativo à gravidez (Ex. ??), defina
uma variável aleatória correspondente ao número de relações
sem preservativo necessárias para uma gravidez (assumiu-se na-
quele exercı́cio que a probabilidade de gravidez em uma relação
1
qualquer é 28 ).

1. Apresente a distribuição de probabilidade dessa variável


aleatória.
2. Ache a função geradora de momentos e calcule a esperança
e desvio padrão dessa variável.
3. Repita os 2 ı́tens anteriores considerando uma situação em
que se utiliza um preservativo 95% eficaz.
Capı́tulo 5 - Esperança e conceitos relacionados 41

Exercı́cio 5.21 – Ladrão II – No exercıcio do “ladrão” apresen-


tado em capı́tulo anterior (Ex. ??), se em cada roubo bem su-
cedido o ladrão consegue R$ 10.000, calcule a esperança ma-
temática e variância do número de roubos bem sucedidos e to-
tal de dinheiro acumulado que o ladrão conseguirá antes que seja
preso. Assuma que ele sempre realizará seus assaltos nos horários
de menor probabilidade de captura e apenas 1 guarda fará a vis-
toria num horário determinado aleatoriamente entre 9 e 10 da
noite (use os dados que precisar do exercı́cio do ladrão apresen-
tado anteriormente para resposta).

Exercı́cio 5.22 – Se X é uma variável aleatória com função gera-


dora de momentos m(t ) conhecida, qual é a função geradora de
momentos de Y = kX . Mostre o resultado algébrico se X tem
distribuição Normal (pesquise a função geradora de momentos
da distribuição Normal).

Exercı́cio 5.23 – Se X é uma variável aleatória com fX (x) =


θ f1 (x)+(1−θ) f2 (x), onde θ ∈ [0, 1], e fi (x) são distribuições de
probabilidade com esperança µi , variância σi2 , e função geradora
de momentos mi (t ), i = 1, 2, responda:

(a) Ache a esperança e variância de X em função de µi e σi2 ,i =


1, 2.
(b) Encontre a função geradora de momentos de X em função
de mi (t ), i = 1, 2.

Exercı́cio 5.24 – Considere que X é uma variável aleatória que


apresenta uma função de densidade definida por

1
fX (x) = I(1,k) (x)
x
(a) Qual o valor de k que torna a função apresentada uma
função de densidade (vista no capı́tulo anterior)
(b) Qual seria a função cumulativa de X ? Calcule FX (1, 2)?
(vista no capı́tulo anterior)
(c) Qual a esperança e variância de X ?
Capı́tulo 5 - Esperança e conceitos relacionados 42

(d) Se definirmos uma variável aleatória Y como

Y = 4X

qual seria a variância e a esperança de Y


(e) Encontre a mediana e a moda dessa distribuição.

Exercı́cio 5.25 – Encontro II – Duas pessoas marcaram se encon-


trar entre 3 e 4 horas em um dado lugar. Existe igual chance
de cada pessoa chegar a qualquer momento entre 3 e 4 horas.
Se X representa o tempo de espera, compute a função cumula-
tiva de X , sua distribuição de probabilidade, sua esperança e sua
variância.

Exercı́cio 5.26 – Se X é uma variável aleatória com distribuição


Normal, definida por
(x−µ)2
1 −
f (x) = p e 2σ 2

2πσ

com esperança µ = 10 e variância σ 2 = 4, e consideramos 2 even-


tos: A ≡ 4 ≤ X ≤ 10 e B ≡ 2 ≤ X ≤ 14.
(a) Obtenha Pr(A) e Pr(B).
(b) Obtenha Pr(A ∪ B).
(c) Os eventos A e B são independentes?
(d) Se Y = 25 − 2X obtenha: E(Y ), V (Y ), fY (y), FY (9).

Exercı́cio 5.27 – Indique se as seguintes proposições são falsas ou


verdadeiras, justificando sua resposta através de uma prova. Nas
proposições, X e Y são variáveis aleatórias, a e b são constantes.
(a) Se E(X Y ) = E(X )E(Y ) então X e Y são independentes.
(b) V (X + 2Y ) = V (X − 2Y ).
(c) Se Y = a + b X , com V (X ) = V (Y ) = 1, tem-se b = ρX Y ,
onde ρX Y é o coeficiente de correlação entre X e Y .

Exercı́cio 5.28 – Se X ⊥
⊥ Y , prove ou desprove:

V (X Y ) = V (X )V (Y ).
Capı́tulo 5 - Esperança e conceitos relacionados 43

Exercı́cio 5.29 – Suponha que X é uma variável aleatória medida


em kg e Y representa essa mesma variável medida em lb. O des-
vio padrão e o coeficiente de variação de Y serão os mesmos de
X ? e se X é medido em graus Celsius e Y representa o mesmo
fenômeno medido em graus Fahrenheit?

Exercı́cio 5.30 – Mostre que uma aproximação para V (g (X )),


onde g (·) é uma função diferenciável, pode ser obtida por

V (g (X )) ≈ [g ′ (E[X ])]2 V (X ).

Exemplifique o resultado mostrando uma aproximação para


V (ln X ).
Dica: considere uma aproximação da função g (X ) por uma série
de Taylor até a primeira ordem, ao redor do ponto E[X ].

Exercı́cio 5.31 – Se X é uma v.a. com função de massa definida


por
fX (x) = (1 − p) x−1 p
onde p ∈ (0, 1], e x ∈ {1, 2, 3, . . . , ∞} mostre que fX (x) atende as
1
propriedades de uma função de massa, e que E(X ) = p e V (X ) =
1− p
p2
.

Exercı́cio 5.32 – Colecionador de figurinhas I – Suponha que uma


empresa vende figurinhas com retratos de k jogadores de futebol
famosos em envelopes fechados. Cada envelope contém exata-
mente 1 figurinha. A empresa distribui as figurinhas nos envelo-
pes aleatoriamente, de maneira que a probabilidade de se encon-
trar a figurinha de um dado jogador em um envelope qualquer
1
é sempre k . Para completar o “álbum” é necessário obter as k
figurinhas diferentes.
(a) Se você já tem k −1 figurinhas diferentes e só falta uma para
completar o álbum, qual será a probabilidade de que você
precise comprar mais de k envelopes adicionais para obter
a figurinha faltante?
(b) Em média, quantos envelopes precisarão ser comprados
para que se complete um álbum com k figurinhas diferen-
tes a partir do inı́cio? Mostre que a esperança do número
Capı́tulo 5 - Esperança e conceitos relacionados 44

de envelopes comprados para se completar um álbum com


k figurinhas diferentes é

k k k k 1 1
+ + + · · · + = k(1 + + · · · + ).
k k −1 k −2 1 2 k

(c) Resolva o ı́tem anterior para uma situação em que k = 50,


verificando que nesse caso, E(N ) ≈ 224, 96.
(d) Obtenha a variância de N , número total de envelopes com-
prados para completar o álbum. Mostre que, para um dado
k,

k 2k (k − 2)k (k − 1)k
V (N ) = + + ··· + + .
(k − 1)2 (k − 2)2 22 12

Verifique que no caso em que k = 50, V (N ) ≈ 3837,87.

(Dica: defina uma variável aleatória N para indicar o total de


envelopes comprados para completar o álbum, onde N = N1 +
N2 +. . .+Nk , com N j representando o número de envelopes que
serão comprados para que se obtenha a j -ésima figurinha dife-
rente, dado que a ( j − 1)-ésima figurinha diferente já foi obtida,
observando que os Ni s serão independentes. Considere o resul-
tado da questão anterior em sua solução. Veja a continuação do
problema no capı́tulo sobre desigualdades.)

Exercı́cio 5.33 – Estimador não-tendencioso – Um estimador é


uma fórmula que depende de uma amostra de observações utili-
zado para estimar uma certa grandeza de interesse. Assuma que
X1 , X2 , . . . , Xn é uma amostra i.i.d. de uma variável aleatória X
com esperança µ e variância σ 2 e
Pn
Xi
X n = i =1
n

i=1 (Xi − X n )
Pn 2
2
Sn = .
n −1
Essas duas fórmulas, que definem a média e a variância amos-
trais, são estimadores de µ e σ 2 . Estimadores não-tendenciosos
Capı́tulo 5 - Esperança e conceitos relacionados 45

são aqueles cuja esperança matemática é idêntica a grandeza que


se deseja estimar.

(a) Mostre que a média e variância amostrais são estimadores


não-tendenciosos, respectivamente, de µ e σ 2 .
(b) Suponha que deseja utilizar um estimador para µ definido
por
t (X1 , X2 ) = θX1 + (1 − θ)X2
onde θ ∈ [0, 1]. Mostre que esse estimador é não-
tendencioso para qualquer valor de µ.
(c) A variância de um estimador não-tendencioso é uma me-
dida da precisão desse estimador. Com relação ao estima-
dor apresentado no último ı́tem, qual seria o valor de θ que
minimiza a variância desse estimador?

Exercı́cio 5.34 – Se X , Y e ϵ são variáveis aleatórias e a e b são


constantes, onde Y = a + b X + ϵ, E(ϵ) = 0 e

(a) correlação entre X e Y .


(b) E[Y |X ].
(c) Mostre os 2 componentes aditivos que caracterizam a
decomposição de V (Y ) obtida a partir da lei da variância
total.

Exercı́cio 5.35 – Se X é uma variável aleatória com fX (x) = (a +


2
b x 2 )I[0,1] (x), ache os valores de a e b de forma que E(X ) = 3 .

Exercı́cio 5.36 – Se X , Y e ε são variáveis aleatórias com


esperança zero e variâncias σX2 , σY2 , σε2 , e sabemos que Y =
b X + ε, onde X e ε são independentes, mostre que:

(a) Cov(Y, X ) = b σX2


b 2 σX2
(b) ρ2X ,Y =
b 2 σX2 + σε2

Exercı́cio 5.37 – Preços no mercado – Suponha que num levan-


tamento de preços no mercado, 2 informantes representados por
Capı́tulo 5 - Esperança e conceitos relacionados 46

A e B estão sendo considerados, produzindo as informações XA


e XB , definidas por

XA = p + k + eA

onde p é o preço do produto praticado, k é um viés constante


conhecido e eA é um erro aleatório com E(eA) = 0 e V (eA) = σ 2 ;
e,
XB = p + eB
onde p é o preço do produto praticado, e eB é um erro aleatório
com E(eB ) = 0 e V (eB ) = 4σ 2 . Os erros têm distribuição conhe-
cida com E(eA eB ) = 0, eV(p)=4, sendo p, eA e eB mutuamente
independentes.

(a) Obtenha E(XA), E(XB ),Var(XA),Var(XB ).


(b) Obtenha Cov(eA, eB ). São eA e eB independentes? Explique.
(c) Qual é o coeficiente de correlação entre XA e XB informa-
dos num dado dia? são eles independentes?
(d) E se p for conhecido, são XA e XB independentes?

Exercı́cio 5.38 – Considere uma população de n indivı́duos.


Para o indivı́duo i, Xi , Yi e Zi representam medidas de 3 atribu-
tos especı́ficos. Para esse mesmo indivı́duo, Ti = a + b Xi + cZi ,
onde a, b e c são constantes conhecidas. Com relação a essa
situação responda:

(a) Obtenha Cov(Y, T ) assumindo como conhecidos a, b, c,


Cov(Y, X ) e Cov(Y, Z).
(b) Obtenha r (Y, T ) assumindo como conhecidos a, b, c,
r (Y, X ), r (Y, Z), D P (X ), D P (T ), D P (Y ), D P (Z). r () é
o coeficiente de correlação e D P () é o desvio padrão.

Exercı́cio 5.39 – Distribuição simétrica em 0: momento abso-


luto ı́mpar nulo – Se X é uma variável aleatória com E(X ) = 0,
simétrica ao redor da origem, ou seja, fX (x) = fX (−x), mostre
que para n sendo um número ı́mpar, E[X n ] = 0.
Capı́tulo 5 - Esperança e conceitos relacionados 47

Exercı́cio 5.40 – Distribuição simétrica: momento central ı́mpar


nulo – Mostre que se uma variável aleatória X tem uma
distribuição simétrica ao redor da sua esperança µ, ou seja,
fX (µ + δ) = fX (µ − δ), é verdade que os momentos centrais
ı́mpares serão todos nulos, ou seja, µi = E[(X − µ)i ] = 0, para i
ı́mpar. Verifique que o resultado do exercı́cio anterior pode ser
obtido como uma caso particular desse resultado.

Exercı́cio 5.41 – Apresente um exemplo de 2 variáveis aleatórias


discretas que tenham apenas dois pontos com probabilidade di-
ferente de zero, e que tenham correlação zero mas não sejam in-
dependentes.

Exercı́cio 5.42 – No exercı́cio do par ou ı́mpar apresentado no


capı́tulo anterior, obtenha a correlação entre X e Y .

Exercı́cio 5.43 – Quantil – O Quantil(q) de uma distribuição de


probabilidade associada a uma variável aleatória X , caracterizada
num domı́nio Ω, é definido como o mı́nimo valor x ∈ Ω tal que
Pr(X ≤ x) ≥ q. Considere as seguintes distribuições de probabi-
lidade:
 
2 x
1. fX (x) = p (1 − p)2−x I{0,1,2} (x).
x
2. fX (x) = θe −θx I[0,∞) (x).

(a) Encontre Quantil(0,95) para as duas distribuições, conside-


rando p = 0,2 e θ = 10.
(b) Mostre que, no caso da distribuição 2.,

Quantil(q) = FX−1 (q)

onde FX−1 (q) é a função inversa da função cumulativa de X .

Exercı́cio 5.44 – Trivariada – Considere a distribuição conjunta


das variáveis aleatórias X , Y e Z:

 fX Y Z (0, 1, 0) = a

f (1, 0, 0) = b
 XYZ
fX Y Z (0, 0, 1) = 0, 2,
Capı́tulo 5 - Esperança e conceitos relacionados 48

e fX Y Z (x, y, z) = 0 para outros valores de x, y, z. Sabe-se,


também, que E[X + 2Y ] = 1, 5. Pergunta-se

(a) Obtenha os valores de a e b .


(b) Obtenha as distribuições marginais fX (x), fY (y) e fZ (z).
(c) Encontre o coeficiente de correlação entre Y e Z.
(d) São X e Y independentes?
(e) São X e Y condicionalmente independentes dado Z?

Exercı́cio 5.45 – Normal multivariada – A distribuição Normal


multivariada é definida por

1 1
⃗ ⃗
e − 2 (x−µ)
T V−1 (x−µ)
fX (x) = p 1
,
(2π) |V|2 2

X1
 
E(X1 )
 
 X2 
..
onde X =  .. , ⃗=
µ ,
   
.
.
E(X p )
 
Xp
σ11 σ12 ... σ1 p
 
 σ21 σ22 ... σ2 p 
V= .
 
 .. .. .. .. 
. . . 
σ p1 σ p2 ... σp p
e σi j = Cov(Xi , X j ). Faça o Ex. ??, do Capı́tulo ??, como uma
introdução a este exercı́cio.

(a) Mostre que no caso bivariado, independência entre X e Y


é uma condição suficiente e necessária para Cov(X , Y ) = 0.
Esse é um caso onde Cov(X , Y ) = 0 implica independência.
(b) Mostre que a distribuição condicional de Y dado X = x é
dada por

1
fY |X (y|x) = p p e g (x,y)
2π 1 − ρ2 σy
Capı́tulo 5 - Esperança e conceitos relacionados 49

onde
1 σy
g (x, y) = − [y − (µ y + ρ (x − µ x ))]2 .
2σy2 (1 − ρ2 ) σx

(c) Mostre que


σy
E(Y |X = x) = µy + ρ (x − µX ).
σx

Observe que se X e Y tem distribuição conjunta Normal


multivariada, a curva de regressão de Y em função de X é
linear.
Exercı́cio 5.46 – Mostre que, para uma variável aleatória com
distribuição Bernoulli com p = 1/2 o coeficiente de curtose γ2 é
-2.
Exercı́cio 5.47 – Obtenha uma expressão aproximada para a
E[g (X )] utilizando uma expansão da série de Taylor até a quarta
ordem. Parte (a): Mostre o resultado em termos de µ x , σ x , γ1
e γ2 (esperança, desvio padrão, coeficiente de assimetria e co-
eficiente de curtose). Exemplifique o resultado, obtendo uma
aproximação para ln X . Parte (b): mostre que no caso de X
com distribuição Normal a aproximação de quarta ordem de-
pende apenas dos termos até a expansão em segunda ordem, po-
dendo ser representada em termos de µ x e σ. Use para esse re-
sultado o fato de que, para a Normal, temos E[(X − µ x )3 ] = 0
(resultado válido para qualquer distribuição simétrica ao redor
da esperança) e E[(X − µ x )4 ] = 3σ 4 .

Referências
Drake, A. 1967. Fundamentals of Applied Probabilistic Analysis. McGraw-
Hill, New York.
Grimmett, G.& Stirzaker, D. 2001. Probability and Random Processes. 3rd
edition, Oxford University Press.
Feller, W. 1968. An Introduction to Probability Theory and its Applications -
Vol 1. John Wiley and Sons, New York.
Capı́tulo 5 - Esperança e conceitos relacionados 50

Lindley, D. V. 1980. Introduction to Probability and Statistics from a Bayesian


Viewpoint - Part I (Probability). Cambridge University Press, Cambridge.

Mood, A., Graybill, F. A and Boes, D. 1974. Introduction to the Theory of


Statistics. McGraw-Hill, New York.

Ross, S. M. 2007. Introduction to Probability Models. 9th edition, Prentice-


Hall, New York.
Capı́tulo 6

Função Geradora de Momentos,


Cumulantes e Função Caracterı́stica

6.1 Introdução
Este capı́tulo apresenta os conceitos de função geradora de momentos
(f.g.m.), cumulantes e função caracterı́stica, que são freqüentemente utiliza-
dos em desenvolvimentos teóricos em estatı́stica. Esses conceitos estão inti-
mamente relacionados às noções de esperança matemática e momentos, des-
critos no capı́tulo anterior. Essas noções, em particular, serão utilizadas para
demonstrações associadas à Lei dos grandes números e ao Teorema do limite
central, examinados no Capı́tulo ??.

6.2 Função geradora de momentos (f.g.m.)


A função geradora de momentos (absolutos) ou simplesmente f.g.m., re-
presentada aqui por m(t ), é utilizada como um método alternativo para
caracterização da distribuição de probabilidade de uma variável aleatória, faci-
litando a sua identificação em desenvolvimentos teóricos e a própria obtenção
de seus momentos, quando existentes.
A f.g.m. é definida para um grande número de variáveis aleatórias, como
veremos nos próximos parágrafos. Em alguns casos, contudo, ela pode
não existir. A função caracterı́stica, vista mais ao final do capı́tulo, é uma
generalização da noção de f.g.m. desenvolvida no contexto dos números
complexos, sempre existindo para qualquer distribuição de probabilidade

51
Capı́tulo 6 - Função geradora de momentos e função caracterı́stica 52

(ao contrário da f.g.m., que pode não existir). Em desenvolvimentos mais


avançados, pode-se utilizar a função caracterı́stica como substituta mais geral
da f.g.m., evitando suas potenciais limitações. Como a função caracterı́stica
demanda conhecimentos de operações envolvendo números complexos, pode
ser mais fácil, inicialmente, conhecer a f.g.m., que só depende de operações
envolvendo números reais.
Função geradora de momentos – Para uma variável aleatória X ,
define-se sua a função geradora de momentos, representada
aqui por m(t ), por
Z∞
tX
m(t ) = E(e ) = e t x fX (x)d x
−∞

para o caso contı́nuo e


n
e t x j fX (xi )
X
m(t ) = E(e t X ) =
j =1

no caso discreto.
Essa função, nos dois casos, será definida para uma variável
aleatória X qualquer se m(t ) ≤ ∞ dentro de uma região
aberta ao redor da origem, na qual −ϵ ≤ t ≤ ϵ onde ϵ > 0,
que caracteriza o raio de convergência da função (se existir).

Se a f.g.m. existir (for finita dentro do raio de convergência), pode-se


verificar facilmente, utilizando o caso contı́nuo, que a derivada de ordem r
de m(t ) com relação a t será dada por
Z∞
d r m(t )
= x r e t x fX (x)d x.
dtr −∞

Mas, fazendo t = 0, conclui-se o resultado desejado:

d r m(t )
= E(X r ).
d t r t =0

Assim, o uso da última expressão leva a uma forma alternativa para obter
os momentos absolutos associados a uma distribuição de probabilidade, desde
que seja conhecida (e exista) sua função geradora de momentos.
Capı́tulo 6 - Função geradora de momentos e função caracterı́stica 53

Exemplo 6.1 – F.g.m da Exponencial – Se X é uma variável


aleatória com distribuição de probabilidade chamada Exponen-
cial, definida por:

fX (x) = λe −λx I[0,∞) (x), λ > 0

pode-se verificar, aplicando a definição da f.g.m., que

m(t ) = E(e t X )
Z∞
= λe t x e −λx d x
0
λ ” x(t −λ) —∞
= e
(t − λ) 0

λ h
x(t −λ)
i
= lim e −1 .
(t − λ) x→∞

Mas, o limite da última expressão tenderá a 0 se λ > t . Isso ocor-


rerá dado que na f.g.m. o interesse é pela região em que t → 0
e, na distribuição Exponencial, temos λ > 0. Resulta portanto,
dessas considerações, que

λ
m(t ) = .
λ− t

Derivando esta f.g.m., tem-se que

d m(t ) λ d m(t ) 1
= e = E(X ) = .
(λ − t )2 λ

dt d t t =0

Da mesma forma, pode-se computar

d 2 m(t ) 2λ d 2 m(t ) 2
= e = E(X 2 ) = .
2 (λ − t )3 2 λ2

dt dt t =0

Pela definição de variância, chega-se a

2 1 1
V (X ) = E(X 2 ) − E 2 (X ) = − = .
λ2 λ2 λ2
Capı́tulo 6 - Função geradora de momentos e função caracterı́stica 54

O exemplo apresentado a seguir ilustra a obtenção da f.g.m. da


distribuição Normal padronizada.

Exemplo 6.2 – F.g.m da Normal padronizada – Obtenha a f.g.m.


de uma variável aleatória X com distribuição Normal padroni-
zada, ou seja, com E(X ) = 0 e V (X ) = 1.
1 − x2
Solução: Nesse caso temos fX (x) = p e 2 ,e

Z∞
1 x2
mX (t ) = E(e ) =tX
e t x p e− 2 d x
−∞ 2π
Z∞
1 2t x−x 2
= p e 2 d x.
−∞ 2π

Pela soma e subtração de t 2 no numerador do expoente da expo-


nencial dessa última expressão (uma técnica chamada de comple-
tar o quadrado) e organizando o resultado, chega-se a
Z∞
1 t 2 −(x−t )2
mX (t ) = p e 2 dx
−∞ 2π
Z∞
t2 1 (x−t )2
= e 2 p e − 2 d x.
−∞ 2π

A função na integral pode ser reconhecida como sendo uma


distribuição Normal com µ = t e σ 2 = 1, cuja integral nos li-
mites estabelecidos terá valor 1. Logo, pode-se concluir que
1 2
mX (t ) = e 2 t .

Utilizando procedimentos similares aos desenvolvidos no último exemplo,


o leitor pode obter (como um bom exercı́cio) a f.g.m. de uma distribuição
Normal qualquer com E(X ) = µ e V (X ) = σ 2 , que é definida por
1 2 2
mX (t ) = e t µ+ 2 t σ
. (6.1)
Capı́tulo 6 - Função geradora de momentos e função caracterı́stica 55

A Tabela 6.1, relaciona a f.g.m. de algumas distribuições de interesse. É


incluı́do o caso da f.g.m. de uma constante que é útil para demonstrações
relativas à Lei dos grandes números, apresentadas no Capı́tulo ??.

Tabela 6.1: Funções geradoras de momentos de algumas distribuições


Nome da Distribuição
Distribuição f (x) f.g.m.
Constante k I{k} (x) etk
1 e b t − eat
Uniforme I (x)
b − a [a,b ] (b − a)t
(x−µ)2
1 − 1 2
Normal p e 2σ 2 e t µ+ 2 t σ2
2πσ
‹r
1 r r −1 −λx λ

Gama λ x e I[0,∞) (x)
Γ (r ) λ− t
Obs: Veja detalhes adicionais sobre essas distribuições na Tabela ??.

O teorema descrito a seguir mostra um resultado que facilita a obtenção


da f.g.m. de Y = a + b X quando a f.g.m. de X é conhecida.
Teorema 6.1 – F.g.m. de Y = a + b X – Se X é uma variável
aleatória com f.g.m. mX (t ) conhecida, e

Y = a + b X temos mY (t ) = e a t mX (b t ).

Prova: Nesse caso temos

mY (t ) = E[e t Y ]
= E[e t (a+b X ) ] = e t a E[e t b X ]


Fazendo a substituição t ′ = t b pode-se concluir que E[e t X ] =
mX (t ′ ). Fazendo novamente a troca de t ′ por t b chega-se ao
resultado desejado. □
Os próximos parágrafos mostram resultados associados a: identificação
de distribuições pela f.g.m., caracterização da f.g.m. através da série de Tay-
lor, definição da f.g.m. para o caso multivariado e uso na independência de
variáveis aleatórias.
Capı́tulo 6 - Função geradora de momentos e função caracterı́stica 56

6.3 F.g.m. na identificação de distribuições


A função geradora de momentos (f.g.m.) pode ser utilizada para o reconhe-
cimento de distribuições, em desenvolvimentos teóricos. Esse uso da f.g.m.
é garantido pelo próximo teorema.

Teorema 6.2 – Identificação de distribuições – Se mX (t ) e mY (t )


são, respectivamente, as funções geradoras de momentos (f.g.m.)
associadas às variáveis aleatórias X e Y , e essas f.g.m.s são
idênticas, então pode-se concluir que as funções cumulativas de
probabilidade associadas às duas variáveis são idênticas.
Prova: Veja Mood et al. (1974, p.160) para detalhes.

Os próximos exemplos ilustram o uso da f.g.m. para a identificação de


distribuições em situações envolvendo funções de variáveis aleatórias.

Exemplo 6.3 – Soma de Exponenciais – Deseja-se conhecer a dis-


tribuição de Y = X +Z, onde X e Z são duas variáveis aleatórias
independentes com distribuição Exponencial(λ), ou seja,

X , Z ∼ Exponencial(λ), X ⊥⊥ Z.

A f.g.m. de Y será dada por

mY (t ) = E[e t (X +Z) ] = E[e t X e t Z ]

mas, como X e Z são independentes, funções de X e Z também


serão independentes. Logo,

mY (t ) = E[e t X e t Z ] = E[e t X ]E[e t Z ],

por propriedade da esperança de variáveis independentes. Mas,


os termos da direita são exatamente as f.g.m.s de X e Z. Mas essa
função, para a distribuição Exponencial é

λ
,
λ− t
Capı́tulo 6 - Função geradora de momentos e função caracterı́stica 57

obtida no último exemplo. Finalmente, substituindo esse resul-


tado na definição da f.g.m. de Y

λ 2
mY (t ) =
λ− t
Comparando essa f.g.m. com as descritas na Tabela 6.1 pode-
se concluir que a f.g.m. é idêntica à da distribuição chamada
Gama, com r = 2. Assim, pode-se concluir, pelo teorema
recém-apresentado, que a distribuição de Y é uma Gama, com
parâmetros λ e r = 2.

Exemplo 6.4 – Distribuição de X n – Se X1 , X2 , . . ., Xn é uma


amostra i.i.d. de uma variável aleatória com f.g.m. definida por
mX (t ), qual será a f.g.m. de X n ?
Solução: É conveniente definir X n por Sn /n, onde

Sn = X1 + X2 + . . . + Xn .

A f.g.m. de Sn será caracterizada por

mSn (t ) = E[e t (X1 +X2 +...+Xn ) ]


= E[e t X1 ] E[e t X2 ] . . . E[e t Xn ]
= [mX (t )]n

pela independência dos Xi s. Logo a f.g.m. de X n será dada por


˜n
1
•
mX (t ) = mX ( t ) (6.2)
n n
pela utilização do resultado do Teorema 6.1. Se, por exemplo, X
tem distribuição Normal, com E(X ) = µ e V (X ) = σ 2 , tem-se
que
1 2 2 1
mX (t ) = e t µ+ 2 t σ
e mX (t ) = e t µ+ 2n t
2σ 2
,
n

pela aplicação do resultado na Eq. 6.2. Essa f.g.m. é a de uma


Normal com esperança µ e variância σ 2 /n.
Capı́tulo 6 - Função geradora de momentos e função caracterı́stica 58

6.4 Caracterização da f.g.m. por série de Taylor


Diversos desenvolvimentos teóricos utilizam a caracterização da f.g.m. por
sua expansão através da série de Taylor, ao redor de um ponto de interesse. A
expansão de e t x ao redor do ponto x = 0 leva a

1 2 2 1 3 3
etx = 1 + t x + t x + t x ···
2! 3!
de onde pode-se concluir, substituindo x pela variável aleatória X e pela
aplicação do operador de esperança matemática, que

mX (t ) = E(e t X )
1 2 1
= 1 + t E[X ] + t E[X 2 ] + t 3 E[X 3 ] · · ·
2! 3!
n
X t i E(X i )
= lim
n→∞
i=0
i!

Essa série será convergente se mX (t ) < ∞ para t dentro de uma região que
inclua a origem [veja Grimmett & Stirzacker, 2001, p. 181-183, para detalhes
adicionais]. Isso é equivalente a dizer que todos os momentos absolutos serão
finitos nesse caso, e que

d r mX (0)
= E(X r ).
dt r

Quando a expansão pela série de Taylor é utilizada, para uma situação que a
f.g.m. é definida, temos [veja Lehmann, 1998, p. 582]:
r
X t k E(X k )
mX (t ) = E(e t X ) = + o(t r ). (6.3)
k=0
k!

A notação o(t r ) é explicada em detalhe no Capı́tulo ??, significando, em


sı́ntese, termos de ordem de magnitude inferior a t r .
Capı́tulo 6 - Função geradora de momentos e função caracterı́stica 59

6.5 F.g.m. conjunta e caracterização da


independência
Para variáveis aleatórias X e Y , define-se a função geradora de momentos
conjunta de X e Y por

mX ,Y (t1 , t2 ) = E[e t1 X +t2 Y ],

para −ϵ ≤ ti ≤ ϵ, 0 < ϵ → 0, e i ∈ {1, 2}. O próximo teorema estabelece uma


condição de independência baseada nessa definição.

Teorema 6.3 – Independência de funções geradoras – Se mX (t1 ) e


mY (t2 ) são, respectivamente, as funções geradoras de momentos
associadas às variáveis aleatórias X e Y , e mX ,Y (t1 , t2 ) é a função
geradora de momentos conjunta de X e Y é verdade que

X e Y independentes ⇔ mX ,Y (t1 , t2 ) = mY (t1 )mX (t2 ),

para todos os t1 , t2 numa vizinhança [−k, k] × [−k, k] ao redor


da origem.
Prova: Se X e Y são independentes, funções deles também serão
independentes por resultado mostrado em capı́tulo anterior

E[e t1 X +t2 Y ] = E[e t1 X e t2 Y ]


= E[e t1 X ]E[e t2 Y ]

dado que a esperança do produto de funções de variáveis indepen-


dentes também será independente. Para a prova da outra parte
do resultado veja Mood et al. (1974, p.161). □

6.6 Cumulantes e funções geradoras de cumulantes


A função geradora de cumulantes, representada aqui por g(t ), está muito as-
sociada à f.g.m., sendo caracterizada pela próxima definição.

Cumulante e função geradora de cumulantes – Para


uma variável aleatória X , define-se o cumulante de ordem
Capı́tulo 6 - Função geradora de momentos e função caracterı́stica 60

r , representado por k r , por

d r g(t )
kr = .
d t r t =0
onde
tX
g(t ) = ln E(e )
é chamada função geradora de cumulantes, que pode ser re-
presentada por

X tj
g(t ) = kj .
j =1
j!

Pela definição, o leitor pode demonstrar a tı́tulo de exercı́cio que, para


uma variável aleatória X qualquer, é verdade que

k1 = µX e k2 = σX2 .

Veja Moran (2002, pp. 66 e 266) para detalhes.

Cumulantes e momentos

Um resultado geral útil para a derivação dos cumulantes e sua relação com os
momentos absolutos de X é dado por
n−1  
X n −1
kn = µ′n − ki µ′n−i .
i=1
i − 1

Desse resultado pode-se obter (veja Moran 2002, p. 267):

µ′1 = k1
µ′2 = k2 − k21
µ′3 = k3 + 3k1 k2 + k31
µ′4 = k4 + 4k3 k1 + 3k22 + 6k2 k21 + k41
..
.

Uma extensão desse último resultado permite a obtenção dos momentos cen-
trais pela simples eliminação dos termos que incluem k1 das expressões equi-
Capı́tulo 6 - Função geradora de momentos e função caracterı́stica 61

valentes para os momentos absolutos:

µ1 = 0
µ2 = k2
µ3 = k3
µ4 = k4 + 3k22
..
.

A partir desses resultados é possı́vel estabelecer a relação entre os vários


momentos. Por exemplo, o momento central de ordem 3 pode ser definido a
partir dos momentos absolutos de diferentes ordens por:

µ3 = µ′3 − 3µ′1 µ′2 − 4(µ′1 )3 .

6.7 Função caracterı́stica


A função caracterı́stica é uma versão mais geral da noção de função geradora
de momentos, caracterizada no contexto dos números complexos. Esta seção
apenas sintetiza alguns resultados mais usuais relativos à função caracterı́stica.
Para uma abordagem mais detalhada sobre funções caracterı́sticas, o leitor
pode consultar Moran (2002) ou Lukacs (1960), um texto clássico sobre o
assunto.
A vantagem principal da função caracterı́stica é que sempre é definida
para qualquer distribuição de probabilidade (algo que pode não ocorrer com
a f.g.m.). Por essa razão, muitos desenvolvimentos teóricos mais avançados
em estatı́stica utilizam a função caracterı́stica em lugar da f.g.m. visando dar
mais generalidade aos resultados. A própria definição de função geradora de
cumulantes, vista na seção anterior, em sua forma mais geral, pode ser feita a
partir da função caracterı́stica.
Capı́tulo 6 - Função geradora de momentos e função caracterı́stica 62

Definição da função caracterı́stica e propriedades

Para uma variável aleatória X contı́nua, a função caracterı́stica é definida por

ϕX (t ) = E(e i t X )
Z ∞
= e i t x f (x) d x
−∞
p
onde i = −1 é o número imaginário, utilizado no contexto dos números
complexos. O caso discreto segue uma definição similar, com um somatório
substituindo a integral. A função caracterı́stica é uma função bem compor-
tada, observando-se

ϕX (0) = 1 e |ϕX (t )| ≤ 1 (∀t ).

O leitor deve ter muito cuidado com as integrais (e operações algébricas


em geral) envolvendo números complexos, cujas regras são diferentes das usu-
almente utilizadas no contexto dos números reais, sendo detalhadas em textos
especializados no assunto como Ablowitz & Fokas (2003) e Brown & Chur-
chill (2008). Em particular, as integrais podem exigir o conceito de integral
de linha (também chamada de integral de contorno). Datta & Ghosh (2007)
mostram técnicas para evitar a integral de linha no contexto de funções ca-
racterı́sticas.
Uma outra representação útil da função caracterı́stica, obtida a partir da
Fórmula de Euler, é dada por

ϕX (t ) = E[cos(t X )] + i E[sen(t X )].

Alguns resultados importantes relativos à função caracterı́stica são suma-


rizados no próximo teorema.

Teorema 6.4 – Resultados sobre a função caracterı́stica – Os se-


guintes resultados são válidos para a função caracterı́stica:
(k)
1. Se ϕX (0), a derivada de ordem k da função caracterı́stica
de X avaliada no ponto t = 0, existe, é verdade que: (a)
E(|X k |) < ∞ se k é par; e, (b) E(|X k−1 |) < ∞ se k éı́mpar.
Capı́tulo 6 - Função geradora de momentos e função caracterı́stica 63

2. Se E(|X k |) < ∞ é verdade que


k
X E(X j )
ϕX (t ) = (i t ) j + o(t k ).
j =0
j!

(k)
e que ϕX (0) = i k E(X k ), onde a notação o(t k ) é definida
no Capı́tulo ??. Essa expressão nada mais é que a expansão
por série de Taylor da função caracterı́stica.
3. Se ϕX (t ) e ϕY (t ) são as funções caracterı́sticas de X e Y ,
duas variáveis aleatórias independentes, é verdade que a
função caracterı́stica de Z = X + Y será definida por

ϕZ (t ) = ϕX (t )ϕY (t ).

4. Se a e b são constantes, ϕX (t ) é a função caracterı́stica de


X e Z = a + b X , a função caracterı́stica de Z será dada por

ϕZ (t ) = e i t a ϕX (b t ).

5. Se duas variáveis aleatórias X e Y tem a mesma função ca-


racterı́stica, as suas distribuições de probabilidade serão as
mesmas (e vice-versa).

Prova: A demonstração desses resultados é apresentada em Grim-


mett & Stirzaker (2001, pp. 182-184). Muitos desses resultados
são extensões dos resultados apresentados anteriormente para a
função geradora de momentos.

Da função caracterı́stica é possı́vel definir os momentos da distribuição de


X (desde que existam, pela propriedade 2 do último teorema) de uma forma
relativamente similar à realizada na função geradora de momentos, por

d k ϕX (0)
E(X k ) = i−k .
dtk
A seguir é apresentada uma propriedade que facilita a obtenção da função
caracterı́stica a partir do conhecimento da f.g.m., quando esta existir.
Capı́tulo 6 - Função geradora de momentos e função caracterı́stica 64

Função caracterı́stica e a f.g.m.

Quando a f.g.m. de uma variável aleatória X existir, a função caracterı́stica


de X será definida a partir da f.g.m. pelo resultado do teorema a seguir.

Teorema 6.5 – Função caracterı́stica a partir da f.g.m. – Se mX (t )


é a função geradora de momentos de uma variável aleatória X ,
que tem todos os seus momentos finitos, ou seja, |E(X k )| <
∞ (∀k), é verdade que a função caracterı́stica de X , será definida
por:
ϕX (t ) = mX (i t ).
Prova: Veja o resultado em Grimmett & Stirzaker (2001, p. 184)
e referências citadas por esses autores.

Assim, por exemplo, se X tem distribuição Normal, partindo da sua f.g.m.


definida na Tabela 6.1 por
1 2 2
mX (t ) = e t µ+ 2 t σ

pode-se chegar, pelo resultado do último teorema, à função caracterı́stica


dessa distribuição, que será definida (lembrando que i 2 = −1) por

ϕX (t ) = mX (i t )
1 2 2
= e i t µ− 2 t σ
.

6.8 Considerações Finais


Este capı́tulo apresentou noções como: função geradora de momentos, cu-
mulantes e função caracterı́stica. Essas noções são utilizadas para o reconhe-
cimento de distribuições de probabilidade em situações envolvendo funções
de variáveis aleatórias, assim como no processo da obtenção de momentos,
entre outras aplicações. Especificamente, algumas dessas noções (f.g.m.. e
função caracterı́stica) são utilizadas em demonstrações relacionadas à Lei dos
grandes números e ao Teorema do limite central, apresentadas no Capı́tulo ??.
Capı́tulo 6 - Função geradora de momentos e função caracterı́stica 65

Exercı́cios
Exercı́cio 6.1 – Se X é uma variável aleatória com fX (x) =
θ f1 (x)+(1−θ) f2 (x), onde θ ∈ [0, 1], e fi (x) são distribuições de
probabilidade com esperança µi , variância σi2 , e função geradora
de momentos mi (t ), i = 1, 2, responda:

(a) Encontre a função geradora de momentos de X em função


de mi (t ), i = 1, 2.

Exercı́cio 6.2 – Se X é uma variável aleatória que assume valor 0


com probabilidade 1/2 e valor 2 com probabilidade 1/2. Encon-
tre a função geradora de momentos de X e a partir dela obtenha
E(X ) e V (X ).

Exercı́cio 6.3 – Se X é uma variável aleatória com fX (x) =


I[0,1] (x), encontre a função geradora de momentos de X e a partir
dela obtenha E(X ) e V (X ).

Exercı́cio 6.4 – Encontre a função geradora de momento de uma


variável aleatória X que tem uma distribuição Normal de proba-
bilidade definida por
(x−µ) 2
1 −
fX (x) = p e 2σ 2 .
2πσ

Dica: utilize a técnica de completar o quadrado utilizada no texto


para derivar a f.g.m. da Normal padronizada (Exemplo 6.2).

Exercı́cio 6.5 – Assumindo que X tem uma distribuição Normal


de probabilidade definida por

1 (x−b )2

fX (x) = p e 2a2
2πa

e sua função geradora de momentos (f.g.m.) é dada por


1 2 2
mX (t ) = e b t + 2 ta
,

obtenha E(X ) e V (X ), a partir de mX (t ).


Capı́tulo 6 - Função geradora de momentos e função caracterı́stica 66

Exercı́cio 6.6 – Mostre que, para uma variável aleatória X qual-


quer, é verdade que

k1 = E(X ) e k2 = V (X ),

onde k r é o cumulante de ordem r de X .

Exercı́cio 6.7 – Se X1 , X2 , . . . , Xn são variáveis aleatórias mutua-


mente independentes, mostre que a função geradora de momen-
tos de
Y = X1 + X2 + . . . , Xn
é definida pelo produto das funções geradoras de momentos de
X1 , X2 , . . . , Xn . Mostre detalhadamente as propriedades e teore-
mas que garantem o resultado.

Exercı́cio 6.8 – Se X n foi obtido de uma amostra i.i.d.


X1 , X2 , . . . , Xn e temos
p
n(X n − µ x )
Y= ∼ Normal(0, 1)
σx

mostre que X n tem distribuição Normal(µ x , σ x2 /n).

Exercı́cio 6.9 – Mostre que se X tem distribuição Normal(0, 1),


ou seja, uma Normal padronizada, e Y = X σ + µ, Y terá uma
distribuição Normal(µ, σ 2 ), ou seja uma distribuição Normal
com esperança µ e variância σ 2 .

Exercı́cio 6.10 – Mostre em detalhes a obtenção da função ca-


racterı́stica da distribuição Normal, com esperança µ e variância
σ 2 , a partir da f.g.m. dessa distribuição, a partir do resultado
apresentado no Teorema 6.5. Obtenha a função caracterı́stica da
Normal padronizada.

Exercı́cio 6.11 – Mostre que para uma variável aleatória X , com


E(X ) = 0 e V (X ) = 1, a função caracterı́stica de X pode ser
representada por

1
ϕX (t ) = 1 − t 2 + o(t 2 ).
2
Capı́tulo 6 - Função geradora de momentos e função caracterı́stica 67

Referências
Ablowitz, M. & Fokas, A. 2003. Complex Variables - Introduction and
Applications. 2th. edition, Cambridge University Press.

Brown, J. & Churchill, R. 2008. Complex Variables and Applications. 8th.


edition, McGraw-Hill.

Datta, G. & Ghosh, M. 2007. Characteristic Functions without Contour


Integrals. The American Statistician, 61(1): 67-70.

Drake, A. 1967. Fundamentals of Applied Probabilistic Analysis. McGraw-


Hill, New York.

Grimmett, G.& Stirzaker, D. 2001. Probability and Random Processes. 3rd


edition, Oxford University Press.

Feller, W. 1968. An Introduction to Probability Theory and its Applications -


Vol 1. John Wiley and Sons, New York.

Lindley, D. V. 1980. Introduction to Probability and Statistics from a Bayesian


Viewpoint - Part I (Probability). Cambridge University Press, Cambridge.

Lukacs, E. 1960. Characteristic Functions. London: Charles Griffin &


Company Limited.

Mood, A., Graybill, F. A and Boes, D. 1974. Introduction to the Theory of


Statistics. McGraw-Hill, New York.

Moran, P. 2002. Introduction to Probability Theory. Oxford: Clarendon


Press (Reprinted with Corrections by Oxford University Press).

Ross, S. M. 2007. Introduction to Probability Models. 9th edition, Prentice-


Hall, New York.
Capı́tulo 7

Desigualdades de Interesse
Estatı́stico

7.1 Introdução
Este capı́tulo apresenta algumas desigualdades importantes para desenvolvi-
mentos teóricos em estatı́stica: Markov, Chebychev, Cantelli, Vysochanskij-
Petunin, Hölder, Cauchy-Schwartz, Minkowski e Jensen.
Algumas dessas desigualdades são utilizadas nas demonstrações apresenta-
das no próximo capı́tulo envolvendo modos de convergência e dois importan-
tes resultados teóricos da estatı́stica: a Lei dos grandes números e o Teorema
do limite central.
Como é comum o uso da função valor absoluto f (x) = |x| nos desen-
volvimento envolvendo desigualdades, é recomendável que o leitor revise as
propriedades dessas funções antes de iniciar a leitura deste capı́tulo.

7.2 Desigualdade de Markov


A desigualdade de Markov estabelece um resultado geral de importância
teórica que permite inferências probabilı́sticas a respeito de uma variável
aleatória. Essas inferências produzem limites conservadores para a proba-
bilidade sem que seja necessário o conhecimento da distribuição de probabi-
lidade. Somente o conhecimento da esperança matemática é demandado para
a operacionalização da desigualdade.

68
Capı́tulo 7 - Desigualdades de interesse estatı́stico 69

Teorema 7.1 – Desigualdade de Markov – Se Y é uma variável


aleatória que somente assume valores estritamente positivos
(Y > 0) com esperança finita e a > 0 é um valor real qualquer, é
verdade que
E(Y )
Pr(Y ≥ a) ≤ .
a
Prova: A prova será desenvolvida para uma variável aleatória
contı́nua1 . Pela definição da esperança e assumindo Y > 0 e
a > 0, tem-se que
Z∞ Za Z∞
E(Y ) = y fY (y)d y = y fY (y)d y + y fY (y)d y,
0 0 a

logo, pode-se concluir que


Z∞ Z ∞
E(Y ) ≥ y fY (y)d y ≥ a fY (y)d y = a Pr(Y ≥ a),
a a

o que leva diretamente ao resultado desejado

E(Y )
Pr(Y ≥ a) ≤ .□
a

Teorema 7.2 – Desigualdade de Markov generalizada – Se X é


uma variável aleatória com esperança finita, a é um valor real
qualquer (positivo), e g (·) é uma função g : [0, ∞] → [0, ∞]
contı́nua, estritamente crescente e não negativa, é verdade que

E[g (|X |)]


Pr[|X | ≥ a] ≤ .
g (a)

Prova: pela versão básica da desigualdade de Markov, verifica-se


que
E[g (|X |)]
Pr[g (|X |) ≥ g (a)] ≤ ,
g (a)
1
Para o caso geral, considere uma variável X que assume valor 0 quando Y < a e valor
a quando Y ≥ a. Assim sendo, é claro que sempre observaremos X ≤ Y , ou, aplicando a
esperança dos dois lados da expressão chegamos E(X ) ≤ E(Y ), mas E(X ) = 0 Pr(Y < 0) +
a Pr(Y ≥ a) = a Pr(Y ≥ a). Logo temos a Pr(Y ≥ a) ≤ E(Y ), de onde decorre diretamente o
resultado do teorema.
Capı́tulo 7 - Desigualdades de interesse estatı́stico 70

mas em função das restrições especificadas para a função g (·), que


garante uma única inversa, temos

Pr[g (|X |) ≥ g (a)] = Pr[ |X | ≥ a],

o que completa a prova. □

Exemplo 7.1 – Aplicação da desigualdade de Markov – No


Exercı́cio 5.32 (colecionador de figurinhas) do capı́tulo 5,
verificou-se que

1 1
E(N ) = k(1 + + · · · + ),
2 k
onde N é uma variável aleatória que caracteriza o número de
envelopes de figurinhas necessário para se completar um álbum
contendo k figurinhas direrentes (assumindo uma figurinha em
cada envelope). Estabeleça um limite superior para a probabili-
dade de precisarmos de 1000 ou mais envelopes para completar-
mos o album, na situação em que k = 50.
Nesse caso, temos, aproximadamente, E(N ) = 224, 96. Logo,
pela aplicação direta da desigualdade de Markov, podemos con-
cluir que:
224, 96
Pr(N ≥ 1000) ≤ ≤ 0,225.
1000
Assim, o valor 0,225 seria um limite máximo para a probabili-
dade de serem nescessários 1000 ou mais envelopes para comple-
tar esse álbum.

Um exemplo significativo da aplicação da desigualdade de Markov ocorre


em um corolário desse resultado, que é a desigualdade de Chebyshev, vista a
seguir.
Capı́tulo 7 - Desigualdades de interesse estatı́stico 71

7.3 Desigualdades de Chebyshev, Cantelli e


Vysochanskij-Petunin
Desigualdade de Chebyshev

A desigualdade de Chebyshev ou Bienaymé-Chebyshev2 é derivada facil-


mente da desigualdade de Markov, possibilitando a obtenção de resultados en-
volvendo a noção de convergência em probabilidade envolvendo a variância,
examinados no capı́tulo ??.

Teorema 7.3 – Desigualdade de Chebyshev – Se Y é uma variável


aleatória com esperança e variância finitas, representadas respec-
tivamente por µ e σ 2 > 0, e b > 0, é verdade que

σ2 σ2
Pr(|Y − µ| ≥ b ) ≤ ou Pr(|Y − µ| < b ) ≥ 1 − .
b2 b2
Prova: Usando o resultado da desigualdade de Markov generali-
zada (Teorema 7.2) com |X | = |Y − µ| e g (y) = y 2 , chega-se
a
E[(Y − µ)2 ]
Pr(|Y − µ| ≥ b ) ≤ .
b2
Mas, como E[(Y − µ)2 ] = σ 2 , conclui-se que

σ2
Pr(|Y − µ| ≥ b ) ≤ .
b2
Rearranjando a última expressão, chega-se ao resultado alterna-
tivo
σ2
Pr(|Y − µ| < b ) ≥ 1 − . □
b2
2
Do ponto de vista histórico, essa desigualdade foi inicialmente provada em 1853 por Bi-
enaymé, um francês pioneiro da estatı́stica (Hald, 2006). Chebyshev, por outro lado, provou
o resultado em 1867 e popularizou seu uso na prova de resultados fundamentais da estatı́stica.
Por essa razão, a desigualdade também é chamada de Bienaymé-Chebyshev. A desigualdade
de Markov, leva o sobrenome de A. Markov, aluno de Chebyshev, mas pode ter sido obra de
Chebyshev, pois aparece em textos desse autor anteriores às publicações de Markov.
Capı́tulo 7 - Desigualdades de interesse estatı́stico 72

Um corolário importante desse último teorema decorre do caso em que b =


kσ, e k é uma constante positiva:

1
Pr(|Y − µ| ≥ k σ) ≤ .
k2
Alguns exemplos a seguir ilustram aplicações do teorema.

Exemplo 7.2 – Aplicação de Chebychev – Se X é uma variável


aleatória, o que poderia ser inferido sobre probabilidade de Y
estar compreendido no intervalo entre 3 e 7, se E(Y ) = 5 e
V (Y ) = 1?
Solução: Do resultado do exemplo anterior, pela desigualdade de
Chebyshev, tem-se que

V (Y )
Pr(|Y − µ| < b ) ≥ 1 −
b2
ou
V (Y )
Pr(−b < Y − µ < b ) ≥ 1 − ;
b2
substituindo µ = 5 e V (Y ) = 1 chega-se a

1
Pr(5 − b < Y < 5 + b ) ≥ 1 − .
b2

A questão pede que se infira algo sobre Pr(3 < Y < 7) e para isso
bastaria a substituição de b = 2 na última expressão para chegar
a
1 3
Pr(3 < Y < 7) ≥ 1 − = .
4 4
Exemplo 7.3 – Aplicação de Chebyshev II – Obtenha um limite
máximo para a probabilidade da variável aleatória Y estar fora
do intervalo (µ − 4σ, µ + 4σ) onde µ e σ são, respectivamente,
a esperança e o desvio padrão de Y .

Solução: Pela desigualdade de Chebyshev, é verdade que

σ2 1
Pr(|Y − µ| ≥ 4σ) ≤ ou Pr(|Y − µ| ≥ 4σ) ≤ .
16 · σ 2 16
Capı́tulo 7 - Desigualdades de interesse estatı́stico 73

Os limites para as probabilidades estabelecidos pelos últimos dois teore-


mas são conservadores para fins práticos. No último exemplo, se sabemos que
Y tem uma distribuição Normal, por exemplo, a probabilidade seria menor
que 0,001. O interessante do resultado, e ai está sua grande importância e
generalidade, é que ele é válido para qualquer distribuição de probabilidade
que tenha esperança e variância finitas.
As próximas seções apresentam algumas extensões úteis da desigualdade
de Chebyshev para a situação unilateral e para a situação de distribuições uni-
modais.

Extensão I: Chebyshev unilateral e Cantelli

Em algumas situações, pode ser útil a especificação de limites para probabili-


dades unilaterais. Nesse caso, existe uma versão unilateral da desigualdade de
Chebyshev bilateral, que é fácil de ser derivada mas é relativamente conser-
vadora. Uma opção melhor, para essas situações, é dada pela desigualdade de
Cantelli. Essas duas possibilidades são descritas nos próximos teoremas.

Teorema 7.4 – Chebyshev unilateral – Se Y é uma variável


aleatória com E(Y ) = µ e V (Y ) = σ 2 > 0 finitas, e k > 0, é
verdade que

σ2 1
Pr(Y − µ ≥ k) ≤ ou Pr(Y − µ ≥ kσ) ≤ .
k2 k2
Prova: Como é verdade, pela desigualdade Chebyshev para o caso
bilateral, que
σ2
Pr(|Y − µ| ≥ k) ≤ ,
k2
pode-se concluir que

Pr(|Y − µ| ≥ k) = Pr((Y − µ ≤ −k) ∪ (Y − µ ≥ k))

ou

Pr(|Y − µ| ≥ k) = Pr(Y − µ ≤ −k) + Pr(Y − µ ≥ k),


Capı́tulo 7 - Desigualdades de interesse estatı́stico 74

dado que os eventos (Y −µ ≤ −k) e (Y −µ ≥ k) são mutuamente


exclusivos. Desses resultados decorre
σ2 σ2
Pr(Y −µ ≤ −k)+Pr(Y −µ ≥ k) ≤ ou Pr(Y −µ ≥ k) ≤ . □
k2 k2

Teorema 7.5 – Desigualdade de Cantelli – Se Y é uma variável


aleatória com E(Y ) = µ e V (Y ) = σ 2 finitas, e k > 0, é verdade
que

σ2 1
Pr(Y − µ ≥ k) ≤ ou Pr(Y − µ ≥ kσ) ≤ .
σ +k
2 2 1 + k2

Prova: Veja Lim (2011) para uma prova rigorosa (e extensa) desse
resultado.

Extensão II: Desigualdade de Vysochanskij-Petunin

Para a situação em que é possı́vel assumir que a variável aleatória tem uma
distribuição de probabilidade unimodal, é possı́vel encontrar limites me-
nos conservadores que os estabelecidos por Chebyshev para probabilidades,
através da desigualdade de Vysochanskij-Petunin.

Teorema 7.6 – Desigualdade de Vysochanskij-Petunin – Se Y é


variável aleatória com E(Y ) = µ e V (Y ) = σ 2 > 0 finitas, e
umap
k > 3/8 ≈ 1, 63299, é verdade que

4 4σ 2
Pr(|Y − µ| ≥ kσ) ≤ ou Pr(|Y − µ| ≥ k) ≤ .
9k 2 9k 2
Prova: Veja Vysochanskij e Petunin (1980).

Um resultado similar e mais antigo, mas relacionado à moda da distribuição


é a chamada desigualdade de Gauss, estabelecida por Gauss em 1883. O resul-
tado de Vysochanskij-Petunin é, em geral, mais útil pois estabelece o resultado
em termos da esperança da distribuição.
Capı́tulo 7 - Desigualdades de interesse estatı́stico 75

7.4 Desigualdades de Hölder, Cauchy-Schwartz e


Minkowsky
As três desigualdades tratadas nesta seção, Hölder e Cauchy-Schwartz estão
relacionadas pelo fato da segunda (Cauchy-Schwartz) e terceira (Minkowsky)
serem facilmente demonstráveis a partir da primeira (Hölder). Essas desi-
gualdades, em suas versões mais focadas em desenvolvimentos estatı́sticos,
são apresentadas pelos próximos teoremas.

Teorema 7.7 – Desigualdade de Hölder – Considerando 2


1 1
variáveis aleatórias X e Y , e p, q ∈ (1, ∞), com p + q = 1, é
verdade que

E(|X Y |) ≤ E(|X p |)1/ p E(|Y q |)1/q .

O resultado depende da existência das esperanças envolvidas.


Prova: Veja por exemplo Hardy et al. (1988).

O resultado decorrente da desigualdade de Cauchy-Schwartz é sumari-


zado pelo teorema a seguir. Essa desigualdade é um caso especial da desigual-
dade de Hölder, na situação em que p = q = 2. A apresentação do teorema
inclui uma prova alternativa comumente utilizada, a qual é particularmente
interessante.

Teorema 7.8 – Desigualdade de Cauchy-Schwartz – Para 2


variáveis aleatórias X e Y , com o primeiro e segundo momentos
finitos, é verdade que:

[E(X Y )]2 ≤ E(X 2 )E(Y 2 ).

Prova: Considere uma função h(t ) definida por

h(t ) = E[(t X − Y )2 ].

Pela definição, é evidente que h(t ) ≥ 0. Desenvolvendo o termo


da esperança matemática, chega-se a

h(t ) = t 2 E(X 2 ) − 2t E(X Y ) + E(Y 2 ),

que é uma equação do segundo grau em t . Pela definição de h(t ),


há duas situações de interesse possı́veis, h(t ) > 0 e h(t ) = 0. Se
Capı́tulo 7 - Desigualdades de interesse estatı́stico 76

h(t ) > 0, as raı́zes dessa equação serão complexas, com o delta da


fórmula de Báskara negativo, ou seja,

4[E(X Y )]2 − 4E(X 2 )E(Y 2 ) < 0.

Consequentemente, nesse caso,

[E(X Y )]2 < E(X 2 )E(Y 2 ).

Por outro lado, se h(t ) = 0, a outra situação possı́vel, tem-se que


o delta da fórmula de Báskara é igual a zero, ou seja,

[E(X Y )]2 = E(X 2 )E(Y 2 ).

Decorre desses resultados que

[E(X Y )]2 ≤ E(X 2 )E(Y 2 ).□

O próximo exemplo ilustra uma aplicação desse último teorema.

Exemplo 7.4 – Coeficiente de correlação entre -1 e 1 – Prove que


o coeficiente de correlação ρ é um número entre -1 e 1. Essa
prova pode ser realizada por uma aplicação direta da desigual-
dade de Cauchy-Schwartz.

Prova: o coeficiente de correlação ρX Y de duas variáveis


aleatórias X e Y é definido por:

Cov(X , Y )
ρX Y = ,
σX σ Y
ou
E[(X − E(X ))(Y − E(Y ))]
ρX Y = p .
E[(X − E(X ))2 ] E[(X − E(X ))2 ]
p

Fazendo as substituições: Z = X − E(X ) e T = Y − E(Y ) chega-


se a
E(ZT )
ρX Y = p .
E(Z 2 ) E(T 2 )
p
Capı́tulo 7 - Desigualdades de interesse estatı́stico 77

Elevando ao quadrado os dois termos, resulta

[E(ZT )]2
ρ2X Y = .
E(Z 2 )E(T 2 )

Pela desigualdade de Cauchy-Schwartz,

[E(ZT )]2 ≤ E(Z 2 )E(T 2 )

ou seja,
[E(ZT )]2
≤ 1.
E(Z 2 )E(T 2 )
Consequentemente,

ρ2X Y ≤ 1 ou 1 ≤ ρX Y ≤ 1.□

A seguir é apresentado o teorema que descreve o resultado chamado de


desigualdade de Minkowski, o qual é demonstrado pela aplicação da desigual-
dade de Hölder.

Teorema 7.9 – Desigualdade de Minkowski – Considerando 2


variáveis aleatórias X e Y , com p ≥ 1, é verdade que

E(|X + Y | p )1/ p ≤ E(|X p |)1/ p + E(|Y p |)1/ p .

O resultado depende da convergência da esperanças envolvidas.

Prova: Para simplificar a notação considere a substituição Z =


|X + Y |, o que leva a

E(Z p ) = E(ZZ p−1 ) ≤ E(|X |Z p−1 ) + E(|Y |Z p−1 ),

dado que |X + Y | ≤ |X | + |Y | é válido em geral. Fazendo uma


nova substituição D = Z p−1 e usando o resultado da desigual-
dade de Hölder, é verdade que
1 1 1 1
E(|X |D) ≤ E(|X | p ) p E(D q ) q e E(|Y |D) ≤ E(|Y | p ) p E(D q ) q ,
Capı́tulo 7 - Desigualdades de interesse estatı́stico 78

onde 1/ p + 1/q = 1 pela restrição imposta por Hölder, temos


que 1/q = ( p − 1)/ p ou q = p/(1 − p). Logo, retornando a
variável Z, e fazendo as devidas substituições, temos que
1 ( p+1) 1 ( p−1)
E(Z p ) ≤ E(|X | p ) p E(Z p ) p + E(|Y | p ) p E(Z p ) p

( p−1)
dividindo os dois lados da desigualdade por E(Z p ) p , chega-se
a
1 1
E(Z p )1/ p ≤ E(|X | p ) p + E(|Y | p ) p

que pela substituição de Z por |X + Y | leva ao resultado


desejado. □

7.5 Desigualdade de Jensen


Essa desigualdade envolve aplicações da esperança matemática no contexto
de funções côncavas ou convexas de variáveis aleatórias. Esses resultados são
particularmente úteis não só em estatı́stica, mas também em economia, em
finanças e na teoria de decisão em condição de risco, entre outras aplicações.
Alguns desses resultados serão apresentados nos exemplos desta seção.
Antes da apresentação do teorema, serão introduzidas algumas definições:

Função convexa – uma função g (·), com domı́nio e contra-


domı́nio em R, é convexa se para todo x0 ∈ R pode-se defi-
nir uma reta l (x) = a + b x, que passa pelo ponto (x0 , g (x0 ))
com
g (x) ≥ l (x), ∀x ∈ R.
Essa definição é ilustrada na Figura 7.1. Verifica-se também,
para uma função convexa, que para dois pontos x e y em R
e um dado α ∈ [0, 1], tem-se

g (αx + (1 − α)y) ≤ α g (x) + (1 − α)g (y).

Além disso, se a função convexa for diferenciável em todos


os seu pontos, sua a derivada segunda será sempre positiva.
Capı́tulo 7 - Desigualdades de interesse estatı́stico 79

g(x)
l(x)

g(x)
g(x0)=l(x0)

l(x)

x
x0

Figura 7.1: Função convexa

Função côncava – é um caso similar ao da função convexa, em


que a reta desenhada (Figura 7.1) fica sempre sobre a função
g (x) ou
g (x) ≤ l (x), ∀x ∈ R.
Se função g (x) for diferenciável, ela será côncava se a sua
derivada segunda for negativa.

Teorema 7.10 – Desigualdade de Jensen – Para uma variável


aleatória qualquer X e uma função convexa, contı́nua e dife-
renciável g (x), é verdade que

g (E[X ]) ≤ E[g (X )] ( g (x) convexa).

Se a função g (x) for côncava, a desigualdade da última expressão


será invertida, de forma que

g (E[X ]) ≥ E[g (X )] ( g (x) côncava).

Prova: Será provado somente o caso convexo (o caso côncavo


segue argumento similar). Como a função é convexa, pode-se
construir uma reta passando pelo ponto [E[X ], g (E[X ])], defi-
nida por a + b x, de forma que a + b x ≤ g (x), ∀x ∈ R. Logo, por
Capı́tulo 7 - Desigualdades de interesse estatı́stico 80

propriedade da esperança tem-se que

a + b E[X ] ≤ E[g (X )]

Mas, por construção, a + b E[X ] = g (E[X ]) logo

g (E[X ]) ≤ E[g (X )],

que é o resultado desejado. □

Os próximos exemplos mostram aplicações desse resultado.

Exemplo 7.5 – Variância não pode ser negativa – Prove que a


variância é sempre um número não-negativo.
Prova: Como visto anteriormente,

V (X ) = E(X 2 ) − E 2 (X ),

mas como g (x) = x 2 é convexa, pode-se concluir, pela desigual-


dade de Jensen, que E(X 2 ) ≥ E 2 (X ) e isso implica V (X ) ≥ 0.

Exemplo 7.6 – Esperança e mediana – Mostre que se µ e m


são, respectivamente, a esperança e a mediana de uma variável
aleatória X , com desvio padrão σ, é verdade que

|µ − m| ≤ σ.

Solução: Pelas propriedades da esperança

|µ − m| = |E(X − m)|.

Mas, pela desigualdade de Jensen, observando que a função valor


absoluto é convexa, temos que

|E(X − m)| ≤ E(|X − m|).

Como a mediana minimiza o valor do termo da direita da última


desigualdade (veja Ex. 5.19 no Capı́tulo 5), temos que
Æ
E(|X − m|) ≤ E(|X − µ|) = E( (X − µ)2 ).
Capı́tulo 7 - Desigualdades de interesse estatı́stico 81
p
Mas, pela desigualdade de Jensen, observando que a função · é
côncava,
Æ Æ
E( (X − µ)2 ) ≤ E((X − µ)2 ) = σ.

Juntando todos os resultados, conclui-se que |µ − m| ≤ σ. □

Esse último exemplo pode ter o seu entendimento facilitado por uma breve re-
visão das propriedades básicas do valor absoluto sumarizadas no Apêndice ??.
Os próximos dois exemplos mostram duas aplicações da desigualdade de
Jensen a problemas ligados à teoria de decisão em condição de risco e à eco-
nomia.

Exemplo 7.7 – Decisão e risco – Dentro da teoria da decisão en-


volvendo riscos assume-se frequentemente que o indivı́duo es-
colhe suas decisões de acordo com o paradigma da utilidade es-
perada, ou seja, se esse indivı́duo pode escolher entre dois in-
vestimentos que tenham retornos representados pelas variáveis
aleatórias R1 e R2 , o indivı́duo selecionará o investimento i que
maximiza E(U (Ri )), onde U (·) é sua função utilidade. Usu-
almente se assume que U (·) é contı́nua e diferenciável, com
U ′ (x) > 0 e U ′′ (x) < 0, ou seja uma função estritamente
côncava. Considerando um investimento 1 cujo retorno é repre-
sentado uma variável aleatória R, e um investimento 2 cujo re-
torno é exatamente E(R) com certeza, mostre que um indivı́duo
com U (·) atendendo às pressuposições apresentadas escolherá
sempre o investimento 2.
Solução: Como U (·) é estritamente côncava tem-se que, direta-
mente pela desigualdade de Jensen,

E[U (R)] < U (E[R]),

ou seja, o agente sempre preferirá o investimento que ofereça


E(R) com certeza, em lugar de um retorno aleatório R.

Exemplo 7.8 – Estabilização de preços – Num determinado mer-


cado tem-se que a demanda pode ser representada por:

P = Q 1/ε ,

onde P representa preço e Q quantidade demandada.


Capı́tulo 7 - Desigualdades de interesse estatı́stico 82

Nesse mercado Q é uma variável aleatória (como ocorre em ge-


ral no caso de produtos agrı́colas, uma vez iniciado o processo
de produção). Se representarmos por D o dispêndio total dos
consumidores tem-se que

D = P · Q.

Nessa situação, para uma dada realização da oferta Q o preço


seria determinado pela demanda com dispêndio:

D = P · P ε = P 1+ε .

Qual seria o efeito para os consumidores de uma polı́tica que, a


custo zero, levaria à completa estabilização do preço na média?
Solução: Nessa situação pode-se comparar a média do dispêndio
sem a polı́tica (primeiro caso) com o dispêndio realizado à preços
estabilizados na média (segundo caso).
O primeiro caso poderia ser representado por E(D(P )) e o se-
gundo caso por D(E(P )), onde D(P ) representa o dispêndio
dos consumidores para um dado preço P (que é uma variável
aleatória dependente de Q). Se os consumidores só estão pre-
ocupados com o dispêndio médio (entendido como a esperança
do dispêndio), seria possı́vel argumentar que a situação mais de-
sejável para eles seria o caso em que o dispêndio médio fosse o
menor.
Mas isso pode ser determinado diretamente pelo resultado da
desigualdade de Jensen e o valor da elasticidade ε. Para que a
polı́tica de estabilização seja a mais vantajosa para os consumido-
res deve-se verificar:

E(D(P )) ≥ D(E(P )).

Para que essa última condição ocorra, a função D(·) deve ser con-
vexa (pela desigualdade de Jensen), o que pode ser determinado
pela derivada segunda da função D(·). No caso,

d 2D
= ε(1 + ε)P ε−1 ,
dp 2
Capı́tulo 7 - Desigualdades de interesse estatı́stico 83

e para que a função D(·) seja estritamente convexa a derivada se-


gunda deve ser positiva. Isso dependerá do valor absoluto da elas-
ticidade (que em geral tem sinal negativo) dado que o termo em
P ε−1 é sempre positivo. Para que isso ocorra deve-se verificar que
|ε| > 1, que é o caso em que a demanda do produto em questão é
elástica com relação a preços.

7.6 Considerações finais


Este capı́tulo apresentou diversas desigualdades de interesse estatı́stico, junta-
mente com exemplos de sua aplicação. O próximo capı́tulo discute modos de
convergência em estatı́stica e alguns dos principais resultados da Estatı́stica:
a Lei dos grandes números e o Teorema do limite central.

Exercı́cios
Exercı́cio 7.1 – Se X é uma variável aleatória com E(X ) = 3
e E(X 2 ) = 13, use a desigualdade de Chebyshev para achar um
limite mı́nimo para Pr(−2 < X < 8).

Exercı́cio 7.2 – Se X é uma variável aleatória com esperança µ e


variância σ 2 seria possı́vel termos

Pr(µ − 2σ < X < µ + 2σ) = 0, 60?

Exercı́cio 7.3 – Critérios de amostragem – Um pesquisador está


amostrando uma certa grandeza de uma população, representada
pela variável aleatória X . Se o processo amostral é i.i.d. e os
valores amostrados são X1 , X2 , . . . , Xn , mostre qual terá que ser o
tamanho mı́nimo da amostra para garantir por Chebyshev que a
distância entre a média amostral e a esperança de X possa exceder
5% do desvio padrão de X , com probabilidade que não supere
1%. (O resultado obtido será bem conservador)

Exercı́cio 7.4 – Desigualdade de Hölder – Se X e Y são variáveis


aleatórias, demonstre que a desigualdade de Cauchy-Schwartz é
um caso particular da desigualdade de Hölder (dica: use a desi-
gualdade de Jensen no seu argumento)
Capı́tulo 7 - Desigualdades de interesse estatı́stico 84

Exercı́cio 7.5 – Jensen I – Se X é uma variável aleatória definida


no domı́nio (0, ∞), demonstre que

E[ln(X )] < ln[E(X )].

Exercı́cio 7.6 – Jensen II – Use a desigualdade de Jensen para


mostrar que
x1 + x2 + . . . + xn p
≥ n x1 x2 · · · xn ,
n
onde x1 , x2 , . . . , xn ∈ (0, ∞). Ou seja, que a média aritmética é
sempre maior ou igual à média geométrica.
Dica: observe que os valores x1 , . . . , xn podem ser interpretados
como sendo os elementos do espaço amostral de uma variável
aleatória discreta X , com probabilidade 1/n de cada resultado.
A função logaritmo, por outro lado, é claramente côncava e pela
desigualdade de Jensen é verdade que

ln(E[X ]) ≥ E[ln(X )].

Encontre E[X ] e E[ln(X)] para esse caso em função da definição


de X para chegar ao resultado desejado.
Exercı́cio 7.7 – No exemplo da estabilização de preços especifi-
que as condições necessárias para que os consumidores fiquem
prejudicados com a polı́tica de estabilização na média.
Exercı́cio 7.8 – Para a variável aleatória X são conhecidos E(|X |)
e E(|X |2 ). A partir dessas informações, como poderia estabelecer
um limite superior para Pr(|X | ≥ a) que seja o menor possı́vel,
utilizando os resultados associados às desigualdades de Markov e
Chebychev.
Exercı́cio 7.9 – O coeficiente de curtose é definido por

µ4
γ2 = − 3,
σ4

onde µ4 = E[(X − µ)4 ], com E[X ] = µ e V [X ] = σ 2 . Mostre


que o menor valor que pode ocorrer para γ2 é -2. (Dica: use a
desigualdade de Jensen)
Capı́tulo 7 - Desigualdades de interesse estatı́stico 85

Exercı́cio 7.10 – Vysochanskij-Petunin unilateral – Usando o


mesmo argumento utilizado para derivação da versão unilateral
da desigualdade de Chebyshev, derive uma versão unilateral para
a desigualdade de Vysochanskij-Petunin.

Exercı́cio 7.11 – Série Harmônica e Problema de Bessel – Con-


sidere a série
1 1 1 1
H (n) = 1 + + + ··· + + ,
2 3 n −1 n
conhecida como série harmônica. Não há uma expressão
analı́tica compacta que caracterize exatamente o valor de H (n)
para um dado n (como ocorre na série geométrica). Contudo,
há aproximações muito boas, como por exemplo:

1
H (n) ≈ ln n + γ + ,
2n
onde γ = 0,57721.... é a chamada constante de Euler-Macheroni.
Considere também a série
1 1 1 1
S(n) = lim 1 + + + ··· + + .
n→∞ 2 2 32 (n − 1)2 n2

Essa série (associada ao chamado problema de Bessel) é conver-


gente, algo demonstrado por Euler em 1735, de forma que

π2
lim S(n) = .
n→∞ 6
(a) Verifique a qualidade da aproximação dada para a série
harmônica, fazendo um gráfico do valor dessa série e de sua
aproximação para valores de n variando de 1 a 1000. Qual
seriam o valores do módulo dos erros da aproximação para
os seguintes valores de n: 10, 50, 100.
(b) Use a aproximação dada para argumentar que a série
harmônica não converge na medida que n → ∞.
Capı́tulo 7 - Desigualdades de interesse estatı́stico 86

(c) Usando o resultado dado para o problema de Bessel, mostre


que

n 2n (n − 2)n (n − 1)n
+ + ··· + + ≤ 2n 2 .
(n − 1)2 (n − 2)2 22 12

Exercı́cio 7.12 – Colecionador de figurinhas II – Considere os


resultados do Ex. 5.32 do capı́tulo 5. No exercı́cio anterior, N
representa o número total de envelopes de figurinhas necessário
para completar um álbum com k = 50 figurinhas diferentes. Es-
pecificamente, responda:

1. Usando os resultados do exercı́cio anterior e do Ex. 5.32


mostre que:

1
E(N ) ≈ n ln n + nγ + e V (N ) ≤ 2k 2 .
2

2. Assumindo que o valor de E(N ) e V (N ) coincidem, res-


pectivamente, com o valor aproximado de E(N ), e com o
limite superior de V (N ), do ı́tem anterior, obtenha limites
máximos para Pr(N ≥ 400), que é a probabilidade de pre-
cisarmos 400 ou mais envelopes para completar o álbum,
utilizando as desigualdades de Markov, Chebychev unilate-
ral e Cantelli.
3. Qual desigualdade ofereceu o resultado mais útil no ı́tem
anterior? Argumente.
4. Utilize o computador para resolver exatamente os valores
de E(N ) e V (N ) considerando os resultados do Ex. 5.32.
Obtenha os limites máximos para Pr(N ≥ 400), conside-
rando as desigualdades de Markov, Chebychev unilateral e
Cantelli. Qual delas é mais útil ?
5. Seria possı́vel utilizar o resultado associado à desigual-
dade de Vysochanskij-Petunin unilateral (desenvolvida no
Ex.7.10) para estabelecer um limite superior para Pr(N ≥
400)?
Referências
Billingsley, P. 1999. Convergence of Probability Measures. 2nd edition, John
Wiley and Sons.

Feller, W. 1968. An Introduction to Probability Theory and its Applications -


Vol 1. John Wiley and Sons, New York.

Grimmett, G.& Stirzaker, D. 2001. Probability and Random Processes. 3rd


edition, Oxford University Press.

Lehmann, E. L. 1998. Elements of Large Sample Theory. Springer, New


York.

Lim, K. G. 2011. Probability and Finance. World Scientific Publishing.

Hardy, G., Littlewood, J. & Pólya, G. 1988. Inequalities. Cambridge Uni-


versity Press (Reprint of the 1952 edition ed.), Cambridge.

Mood, A., Graybill, F. A. and Boes, D. 1974. Introduction to the Theory of


Statistics. McGraw-Hill, New York.

Pukelsheim, F. 1994. The Three Sigma Rule. The American Statistician,


48(2):88-91.

Ross, S. M. 2007. Introduction to Probability Models. 9th edition, Prentice-


Hall, New York.

Vysochanskij, D. F. and Petunin, Y. I. 1980. Justification of the 3σ rule for


unimodal distributions. Theory of Probability and Mathematical Statistics,
21: 25–36.

Você também pode gostar