Você está na página 1de 17

A DES IG UALD AD E DE CHEBY CH EV

HÉLIO BERNARDO LOPES

O PROBLEMA

Seja X uma variável aleatória contínua, definida em R, com


função densidade de probabilidade dada por:

1
 2 x ⇐ x ∈[ 0,2]


 0 ⇐ x ∉[ 0,2]


O valor médio de X - o seu primeiro momento ordinário, portanto -


e o seu segundo momento ordinário valem, respectivamente:

2
E[ X ] = ∫
0
x 21 xdx = 4
3

E [ X 2 ] = ∫ x 2 21 xdx = 2
2

pelo que a variância de X toma o valor:


2
 4 2
V [ X ] = E[ X 2 ] − ( E[ X ] ) = 2 −   = ⋅
2

 3 9

Admita-se, agora, que se pretende calcular a seguinte


probabilidade:
 4 2
P X − < .
 3 3 

Ora, tendo-se:

4 2 4− 2 4+ 2
X− < ⇔ <X<
3 3 3 3

o valor da probabilidade procurada vale:

4+ 2
3


4~ 2
1
2 xdx ≅ 0,629 ⋅
3

Esta é, pois, uma estimativa da probabilidade de que a variável


aleatória X assuma valores no intervalo:

4 − 2 4 + 2 
 , 
 3 3 

centrado no valor médio de X:

4
E[ X ] = µ X =
3
e de semi-amplitude igual ao desvio-padrão de X:

2
σX = ⋅
3
Neste caso, foi possível obter o valor da probabilidade procurada,
conseguido com a precisão que se entendeu, dado ser conhecida a
distribuição da variável aleatória X em causa.
Pode, porém, acontecer que se conheçam o valor médio e o
desvio-padrão da variável aleatória, mas se desconheça a
correspondente distribuição, o que impossibilita o cálculo tal como
anteriormente apresentado. É para uma situação deste tipo que a
Desigualdade de Chebychev se mostra de enorme utilidade.

Este importante instrumento da Teoria da Probabilidade é válido


para uma qualquer variável aleatória, com a única condição de ser finito
o valor da respectiva variância, o que acarreta que os dois primeiros
momentos ordinários o sejam também.

Este resultado é válido, por igual, para o caso de distribuições


discretas, mas acarreta, em qualquer caso e como seria sempre de
esperar, uma imprecisão na estimativa achada para a probabilidade do
acontecimento em causa.

A DESIGUALDADE DE MARKOV

A Desigualdade de Markov, cuja demonstração se omite aqui, mas


que pode encontrar-se nos manuais dos autores portugueses mais
consagrados, constitui o suporte para se chegar à Desigualdade de
Chebychev.

Seja, então, g ( X ) uma função mensurável da variável aleatória


X , e que não assuma valores negativos, ou seja, g ( X ) ≥0. Então, se
existir o valor médio de g ( X ) , E [ g ( X )] , ter-se-á que:

E [ g ( X )]
∀c ∈R + , P[ g ( X ) ≥ c] ≤ ⋅
c
Torna-se, assim, evidente que, no caso de se ter:

g( X ) = X

a Desigualdade de Markov conduz ao seu corolário:

E[ X ]
P[ X ≥ c] ≤ ⋅
c
Retomando o exemplo da distribuição inicial, facilmente se pode
mostrar que:

2
 4 1 2 2
P X ≥  =
 3 ∫ 1
2 xdx =
4
[ x ] 43 = 0,(5).
4
3

Em contrapartida, se se desconhecesse a distribuição da variável


aleatória X , e se recorresse ao anterior resultado, particularização da
Desigualdade de Markov, obter-se-ia:

4
 4 3
P X ≥  ≤ 4 =1
 3 3

o que, sendo inteiramente evidente, seria, por igual, de uma completa


inutilidade, dado que a probabilidade de um qualquer acontecimento
não pode assumir um valor superior à unidade.

A DESIGUALDADE DE CHEBYCHEV

A partir da Desigualdade de Markov, tome-se:

g( X ) = ( X − µ X ) 2 ∧ c = t 2 σ X2

onde µ X e σ X são, respectivamente, o valor médio e o desvio-padrão


de X , e onde t ∈ R + . Virá, então, por substituição na Desigualdade de
Markov:

[
E ( X − µX )2 ]= σ X2 1
[
P ( X − µX ) ≥ t σ
2 2 2
X ]≤ t 2σ X2 2 2 = 2
t σX t

ou seja:

[
P X − µ X < tσ X ≥ 1 − ] 1
t2

Esta expressão, ou a imediatamente anterior, constitui a importante
Desigualdade de Chebychev, para o caso de uma única variável
aleatória.

O que a última expressão mostra é que a probabilidade de que a


variável aleatória X assuma valores num intervalo centrado no valor
médio de X e com semi-amplitude tσ X , é, no mínimo, de:

1
1− ⋅
t2
Seja, então, estimar:

 4 1  4 2 2   5 
P X − <  = P X − < ⋅  = P  X ∈ 1,  ⋅
 3 3  3 2 3    3 

Se se conhecer a distribuição de X , esta probabilidade vale:

  5  5

P  X ∈ 1,  = ∫ 21 xdx = 0,(4).


3

  3  1

Contudo, se essa distribuição for desconhecida, e se recorrer à


Desigualdade de Chebychev, virá, dado ser:

2
t=
2
que a mesma fornece:

 4 2 2 1
P X − < ⋅  ≥ 1− 2 = −1
 3 2 3   2
 
 2 
o que, sendo naturalmente evidente, é também cabalmente inútil. Ou
seja, −1 é o limite mínimo para a probabilidade procurada.

Note-se que se pode deduzir, a partir da Desigualdade de Markov,


uma outra propriedade mais particular, mas exigindo o conhecimento de
maior informação.

Assim, se para a variável aleatória X se conhecer o momento


absoluto ordinário de ordem r ∈ R + , tem-se que é válido o resultado:

P[ X ≥ c] ≤
[
E X
r
]
r
c

onde c ∈ R + . Veja-se, como aplicação do que acaba de referir-se, o


seguinte

EXEMPLO. Suponha-se, então, que se conhece o momento absoluto


ordinário de quinta ordem, cujo valor é:

[
E X
5
] ≅ 9,14
e se pretende calcular:

 3
P X ≥  ⋅
 2

Deitando mão da anterior propriedade, ter-se-á:

 3  9,14
P X ≥  ≤ ≅ 1,20 ⋅
 2   3 5
 
 2

Ora, se a distribuição fosse conhecida, o valor da probabilidade em


causa seria:
 3 2 7
P  X ≥  = ∫3 21 xdx = = 0,4375
 2 2 16

o que mostra que o limite superior conseguido anteriormente, sendo


evidente, está muito longe de trazer o que quer que seja de útil como
informação. É, tal como se disse anteriormente, o preço a pagar pelo
facto de se desconhecer a distribuição da variável aleatória em causa, e
também pelo distanciamento da distribuição em estudo face ao modelo
gaussiano.

O que já pôde perceber-se é que, ao nível do exemplo inicialmente


considerado, a Desigualdade de Chebychev se mostrou bastante
redundante, já que a informação que produziu foi relativamente inútil.
Tal é, claro está, o custo que a sua generalidade comporta.

O único caminho para melhorar o valor das suas contribuições é o


de restringir o conjunto das distribuições a que se aplica, havendo
necessidade de se conhecer, ao menos, que o seu comportamento tem
maior proximidade com o de tipo gaussiano.

Uma tal melhoria também pode conseguir-se, contudo, se forem


conhecidos momentos de ordem superior à segunda. É o que se passa
com o caso de uma variável aleatória de valor médio nulo, µ = 0 ,
variância σ 2 , e se for conhecido o momento absoluto ordinário de quarta
ordem:

µ4 = E X [ 4
]
obtendo-se, então:

µ4 − σ 4
P[ X ≥ tσ ] ≤
µ4 + t 4 σ 4 − 2 t 2 σ 4

com t > 1.
Veja-se, agora, um outro caso, já numa situação muito mais
próxima do modelo gaussiano, que se apresenta com o seguinte
EXEMPLO. Seja, então, uma variável aleatória, X , normal, de valor
médio e variância, respectivamente, 6 e 0,36:

X ~ N ( 6;0,36) .

Nestas circunstâncias, o desvio-padrão de X vale:

σ X = 0,6 .

Se se pretender calcular a probabilidade do acontecimento:

X −6 <1

virá, recorrendo à tabela da lei normal reduzida:

P[ X − 6 < 1] ≅ 0,905.

Em contrapartida, se se desconhecer a distribuição de X e se


recorrer à Desigualdade de Chebychev, obter-se-á:

 1  1
P[ X − 6 < 1] = P  X − 6 < ⋅ 0,6 ≥ 1 − 2 = 0,64
 0,6   1 
 
 0,6 

dado ter-se aqui:

1
t= = 1,(6). •
0,6

Por aqui se vê, pois, que a Desigualdade de Chebychev forneceu


um limite mínimo para a probabilidade procurada, embora muito distante
do valor estimado no caso de ser conhecida a distribuição da variável
aleatória em estudo, agora com um comportamento muito mais próximo
do gaussiano que no caso do exemplo anterior.

UM CASO PARTICULAR IMPORTANTE


Admita-se, agora, que se possuem n variáveis aleatórias,
semelhantes e independentes, cada uma com valor médio µ e
variância σ 2 , sendo n ∈ N.

A média aritmética das n variáveis aleatórias é a nova variável


aleatória:

∑X i
i =1
X =
n
cujo valor médio e variância são, respectivamente:

[ ]
E X = µ
σ2
V[ X ] =
n
Recorrendo à Desigualdade de Markov, mas tomando agora a nova
função g : R→R, definida por:

g( X ) = ( X − µ )
2

para a qual:

[
E ( X − µ)
2
] =
σ2
n
virá:

[ ]
P ( X − µ ) ≥ t 2σ 2 ≤
2 σ2
2 2 ⇔ P X − µ ≥ tσ ≤
nt σ
[ 1
        nt
2 ⋅ ]
(1)

A expressão (1) é, pois, a da Desigualdade de Chebychev, quando


a variável aleatória em causa é a média aritmética de n variáveis
aleatórias, semelhantes e independentes, situação que se coloca
frequentemente na prática. A este propósito, veja-se o seguinte

EXEMPLO. Tomando, ainda, os dados do anterior exemplo, e


admitindo que se tomou uma amostra de dimensão 100 da referida
população, mas desconhecendo que se está perante uma distribuição
normal, ter-se-á:

[ ]
E X = 6
0,36
V[ X ] = = 0,0036
100
pelo que será:

σ X = 0,06.

Se neste caso se pretender estimar um valor para a probabilidade


do acontecimento:

X −6 <1

virá:

 
( )
P X − 6 < 1 = P X − 6 <

1
0,06
⋅ 0,06 ≥ 1 −

1
 1 
2 ≈ 0,999964
100 
 0,06 
Esta é uma estimativa do mínimo da probabilidade procurada. De
facto, se se soubesse que:

X −6
X ~ N ( 6;0,0036) ⇔ Z = ~ N ( 0;1)
0,06

tirar-se-ia da tabela da lei normal reduzida que:

[
P X − 6 < 1 ≅ 1.]
A maior aproximação entre a anterior estimativa, 0,999964, e o
valor real, quando se conhece a distribuição, deve-se ao facto de se ter
usado uma amostra já grande, através da distribuição da sua média
aritmética. •

UM SEGUNDO CASO PARTICULAR IMPORTANTE

A Desigualdade de Chebychev a que se chegou inicialmente refere-


se a um intervalo centrado no valor médio da variável aleatória em
causa.

Podem considerar-se, contudo, intervalos centrados num valor real


qualquer, τ , não necessariamente coincidente com o valor médio.

Retomando a Desigualdade de Markov e fazendo:

g( X ) = ( X − τ )
2

ter-se-á:

[
E ( X −τ)
2
]
[
P ( X −τ) ≥ t σ
2 2 2
]≤ t σ
2 2

ou seja:

P[ X − τ ≥ tσ ] ≤
E [ ( ( X − µ) + ( µ − τ ) ) ] 2

t 2σ 2
ou ainda:

P[ X − τ ≥ tσ ] ≤
[
E ( X − µ)
2
] + 2( µ − τ ) E[ X − µ ] + E[ ( µ − τ ) ]
2

t 2σ 2
ou, finalmente:
1 ( µ −τ)
2

P[ X − τ ≥ tσ ] ≤ 2 + 2 2
        t   t σ
 
(2)

dado que o primeiro momento central de X é nulo:

E[ X − µ ] = 0

e que:

[
E ( µ −τ) ] = ( µ −τ)
2 2

E[ ( X − µ ) ] = σ .
2 2

A expressão (2) pode tomar a forma:

1 ( µ −τ)
2

P[ X − τ < tσ ] ≥ 1 − 2 − 2 2
  t   t σ
 
( 3)

onde (3) fornece uma estimativa do limite inferior da probabilidade de X


assumir valores no intervalo:

] τ − tσ , τ + tσ [
centrado em τ e não em µ .
De igual modo, se se tiver a função:

g( X ) = ( X − τ )
2

a Desigualdade de Chebychev virá neste outro formato:


( µ −τ) 2

( 1
)
P X − τ < tσ ≥ 1 − 2 − 2 2
nt t σ
que é também de muito fácil obtenção.

UM TERCEIRO CASO PARTICULAR IMPORTANTE

A Desigualdade de Chebychev pode apresentar-se de um modo


mais geral. Considerem-se, então, n ∈N, variáveis aleatórias
independentes, X i , ( i = 1,..., n ), todas elas de média nula, µ = 0 , e
variância, σ i2 , ( i = 1,..., n ).

Seja, agora, a variável aleatória:

n
X = X 1 + ⋅ ⋅⋅ + X n = ∑ X i
i =1

para a qual se tem:

] = E[ ( X ] = ∑σ
n
E[ X + ⋅⋅⋅ + X n ) = ∑n .
2 2 2 2
1 i
i =1

Sejam, então, os acontecimentos:

D1 = X 1 < t ∑n
D2 = X 1 + X 2 < t ∑n
.........................................
Dn = X 1 + ⋅ ⋅⋅ + X n < t ∑n

A Desigualdade de Chebychev garante, então, que:

1 n  1
P( D1 ∩ D2 ∩...∩ Dn ) ≥ 1 − 2 ⇔ P Di  ≥ 1 − 2 ⋅
t  i =1  t
Trata-se de uma propriedade de essencial interesse para a
obtenção de uma condição suficiente para a conhecida lei forte dos
grandes números.

O CASO ESTOCÁSTICO

O conceito de processo estocástico constitui, pode dizer-se assim,


uma generalização do de variável aleatória. De facto, o processo
estocástico mais não é que um conjunto de variáveis aleatórias, todas
igualmente distribuídas, mas cada uma delas dependente de um
parâmetro definido em certo domínio.

Para certo valor desse parâmetro obtém-se uma variável aleatória,


com a referida distribuição. Em contrapartida, para certo valor da
variável aleatória, obtém-se uma função do parâmetro antes referido,
definido no domínio considerado.

Ao domínio onde se encontra definido o parâmetro considerado dá-


se o nome de conjunto-índice do processo estocástico correspondente.

De um modo geral, os casos mais importantes são aqueles em que


o parâmetro do processo estocástico é a variável tempo. Se o conjunto-
índice é o conjunto dos números naturais, N, ou o dos inteiros, Z, ou
uma sua parte própria, o processo estocástico diz-se de parâmetro
discreto. Se o conjunto-índice é o corpo real, ou uma sua parte própria,
o processo estocástico designa-se de parâmetro contínuo.

Também no caso de um processo estocástico:

{ X (t ): t ∈ T}
onde t é o parâmetro do processo, com valores no domínio T , se pode
considerar uma função de valor médio do processo estocástico.

Em torno desta função de valor médio dispõem-se, para um e outro


lado, as diversas realizações do processo estocástico, cada uma
definida para um certo valor de t ∈ T .

É, então, possível mostrar que, se o processo estocástico:


{ X (t ): t ∈[ a , b] }
for diferenciável em média quadrática, e fazendo:

{ [ ]}
1
2 2
g1 ( t ) = E X ( t )

{ [ ]}
1
2 2
g 2 (t ) = E X (t ) '

se tem:

  1
[ ]
b
E  sup X 2 (t )  ≤ g12 ( a ) + g12 (b) + ∫ g1 ( t ) ⋅ g 2 ( t )dt .
t ∈[ a ,b ]  2 a

E desta propriedade se pode obter, como corolário, a Desigualdade


de Markov para o caso dum processo estocástico nas condições
indicadas:

 
E  sup X 2 (t ) 
∀c ∈ R+ ,   t ∈[ a ,b ] 
P  sup X (t ) > c ≤ 2
t ∈[ a ,b ]  c

Se for m(t ) a função de valor médio do processo estocástico X ( t ) ,


pode obter-se a Desigualdade de Chebychev para o caso de um
processo estocástico nas condições referidas, ou seja:

 2 b
⋅ σ X ' ( t ) dt 
σ + σ 2
∫ σ
[ ]
P X (t ) − m(t ) ≤ c ≥ 1 − 
X ( a )

2c 2
X ( b )
+ a X (t )

c2


 

onde t ∈ [a,b] e c ∈ R + . Trata-se, pois, de um limite inferior para a


probabilidade de o processo estocástico se situar no interior de certa
região centrada na sua função de valor médio.
Se se considerarem duas realizações do processo estocástico em
causa, sejam X e Y , ambas com valor médio nulo e variância unitária,
e se for ρ o coeficiente de correlação entre as duas realizações -
variáveis aleatórias, portanto -, pode mostrar-se que se tem:

[ ]
E max{ X , Y } ≤ 1 + 1 − ρ 2

e também que:

1+ 1− ρ2
[ ]
P X − E [ X ] ≥ tσ X ∨ Y − E [ Y ] ≥ tσ Y ≤
t2

E é claro que se for Y constante, será ρ = 0 , obtendo-se, então, a


expressão já antes achada para a Desigualdade de Chebychev no caso
de uma só variável aleatória:

1
[ ]
P X − E [ X ] ≥ tσ X ≤
t2

Fica assim tratada a Desigualdade Chebychev mas numa variedade


muito mais vasta de situações que as normalmente contempladas nos
textos de uso corrente ao nível dos cursos de licenciatura onde o tema
está usualmente presente.

BIBLIOGRAFIA

MELLO, F. Galvão de (1993): Probabilidades e Estatística, Conceitos e


Métodos Fundamentais - Volume I, Escolar Editora, Lisboa.

MURTEIRA, Bento José Ferreira (1990): Probabilidades e Estatística -


Volume I, 2ª Edição Revista, Editora McGraw-Hill de Portugal, Lda..

OLIVEIRA, J. Tiago de (1990): Probabilidades e Estatística: Conceitos,


Métodos e Aplicações, Volume I, Editora McGraw-Hill de Portugal, Lda..

PARZEN, Emanuel (1972): Processos Estocasticos, Paraninfo, Madrid.