Você está na página 1de 2

Terceira Aula Entropia Conjunta

Seja X um vetor aleatório, X=[A, B], onde A e B são variáveis


aleatórias discretas, assumindo um número finito de valores
Teorema possíveis ai e bj, respectivamente.
Para ∀ inteiro positivo n de distribuição de probabilidade P={p1, Então, a entropia para o vetor X pode ser escrita como:
p2, p3, ... pn}, temos que
H ( X ) = H ( A, B) =
H(p1, p2, p3, ... pn) ≤ log2n, −∑ p( A = ai , B = bj )log2 p( A = ai , B = bj )
i, j
Generalizando, se X = [X1, X2, X3,... Xn] então podemos escrever:
prevalecendo a igualdade se e somente se
1
pi = ∀1 ≤ i ≤ n H ( X ) = H ( X 1, X 2 ,X 3 ... X n ) =
n − ∑ p ( x i , x j , ... x k ) lo g p ( x i , x j , ...x k )
2
ou seja, distribuição uniforme i , j ...k

Entropia Condicional
A incerteza acerca de X dado que Y=y pode ser definida como:
Teorema
Se X e Y são duas variáveis aleatórias que assumem um H ( X | Y = y) = −∑ p( x = xi | Y = y)log 2 p( x = xi | Y = y)
número finito de valores, então i
A entropia condicional H(X|Y) chamada equivocação de X em
H(X,Y) ≤ H(X) + H(Y) relação a Y, será o valor médio esperado ponderado para
todas as possíveis ocorrências de Y:

com a igualdade prevalecendo se e somente se X e Y forem H ( X / Y ) = ∑ p( y j ) H ( X / Y = y j )


independentes. j
H ( X | Y ) = − ∑ p ( y j ) p ( x i | y j ) lo g 2 p ( x i | y j )
i, j
= − ∑ p ( x i , y j ) lo g 2 p ( x i | y j )
i, j

Teorema
(1) H ( X , Y ) = H ( X ) + H (Y | X ) = H (Y ) + H ( X | Y ) p ( a , b ) = p (b ) p ( a | b ) = p ( a ) p (b | a )

(2) p ( a , b ) = p ( b ) p ( a | b ) = p ( a ) p (b | a ) De forma análoga pode-se provar que

(3) p( xi ) = ∑ p( xi , y j )
j H(X,Y)=H (Y)+H(X|Y).
Para provar (1) sabendo de (2) e (3)
sabendo que
H ( X , Y ) = −∑ p ( xi , y j )log 2 p ( xi , y j )
i, j log( p ( xi , y j ) ) = log( p ( y j ) p ( xi / y j ) ) =
(
= −∑ p ( xi , y j )log 2 p( xi ) p ( y j | xi ) ) log( p ( y j ) ) + log( p ( xi / y j ) )
i, j
= −∑ log 2 p ( xi )∑ p ( xi , y j ) − ∑ p( xi , y j )log 2 p ( y j | xi )
i j i, j
= −∑ p ( xi )log 2 p( xi ) + H (Y | X )
i
= H ( X ) + H (Y | X )

1
Resolução
Exemplo 1: Em Sistemas de memória usamos bits de paridade para b é um gerador deparidade par
detectar erros. a a
Seja A uma fonte de informação com alfabeto A = {0, 1, 2, 3}. Seja cada Sendo: 00 01 10 11 00 01 10 11
símbolo an igualmente provável e 0 1 0 0 1
0 1/2 0 0 1/2 b
seja B = {0,1} um gerador de paridade par com função b
1 0 1/2 1/2 0 1 0 1 1 0
0, se a = 0 ou a = 3 p(a/b) p(b/a)
bj 
1, se a = 1 ou a = 2 p(ai)=1/4 e p(bi)=1/2

Calcule H(A), H(B) e H(A,B). Podemos calcular:

Sabendo que: H ( A) = 4 ⋅ 0, 25 ⋅ log 2 4 = log 2 4 = 2 bits


H(X,Y)=H (Y)+H(X|Y). H ( B ) = 2 ⋅ 0,50 ⋅ log 2 2 = log 2 2 = 1 bit
H (Y ) = ∑ p ( y j ) log 2 p ( y j ) H ( A, B ) = H ( A) + H ( B | A) = H ( A) = 2 bits
j H ( B , A) = H ( B ) + H ( A | B ) =
H ( X | Y ) = −∑ p( y j ) p( xi | y j )log2 p( xi | y j )
1 bit + 2 ⋅  0,5 ⋅ ( 0,5 log 2 2 + 0,5 log 2 2 )  = 2 bits
i, j

Exemplo 2: Dado (X,Y) com a seguinte distribuição


conjunta. Calcule H(X), H(Y), H(X/Y), H(Y/X)
Resolução
X p( y j ) = ∑ p(xi , y j )
p(x,y) 1 2 3 4 i 1 1 1 7
H(X ) = log 2 + log 4 + 2 log 8 = bits = 1,75bits
1 1/8 1/16 1/32 1/32 1/4 2 4 8 4
2 1/16 1/8 1/32 1/32 1/4 H (Y ) = log 4 = 2bits
Y
3 1/16 1/16 1/16 1/16 1/4 1  1 1 1  
H(X /Y) = 2 log 2 + log 4 + 2 log 8  + log 4 + log 1 =
4 1/4 0 0 0 1/4 4   2 4 8  
p(xi ) = ∑ p(xi , y j ) 1/2 1/4 1/8 1/8 1 7  11
j
X  2 + 2  = bits = 1,375bits
4 4  8
Resolução p(xi , y j )
p(x/y) 1 2 3 4 p(xi / y j ) = 11 27
1 1/2 1/4 1/8 1/8 p( y j ) H ( X , Y ) = H (Y ) + H ( X / Y ) = 2 + = = 3,375bits
8 8
2 1/4 1/2 1/8 1/8 27 7 13
Y H (Y / X ) = H ( X , Y ) − H ( X ) = − = bits = 1,625bits
3 1/4 1/4 1/4 1/4 8 4 8
4 1 0 0 0

Entropia de n-gramas e a Regra da Cadeia Exemplo


Suponha um n-grama (s0, s1-,... sn-1) produzido pela fonte A. A Suponha uma fonte sem memória com A = {0,1} tendo símbolos
entropia do n-grama é dada por H(a0, a1,... an-1), onde os equiprováveis emitindo 6 símbolos. Seguindo o sexto símbolo,
argumentos at indicam que o símbolo de índice t é uma letra suponha que um sétimo símbolo, soma módulo 2 (XOR) dos outros
de A. seis símbolos, seja transmitido. Qual a entropia do 7-
grama? Sabemos que:
H(a0, a1,... an-1) = H(a0) + H(a1, a2,... an-1 | a0) H (a0 , a1, a2 ...a6 ) = H (a0 ) + H (a1 | a0 ) + H (a2 | a0 , a1 ) +
Repetindo o argumento teremos H (a3 | a0 , a1, a2 ) + H (a4 | a0 ...a3 ) + H ( a5 | a0 ...a4 ) + H ( a6 | a0 ...a5 )
H(a0, a1,... an-1) = H(a0) + H(a1 | a0) + H(a2 | a0, a1) + ... + H(an-1 | Como a fonte é sem memória, os primeiros seis símbolos da seqüência são
a0,... an-2) independentes, portanto:
Este resultado é conhecido como a regra da cadeia para a H ( a 0 , a1 , a 2 ...a 6 ) = H ( a 0 ) + H ( a1 ) + H ( a 2 )
entropia. n −1 + H ( a 3 ) + H ( a 4 ) + H ( a 5 ) + H ( a 6 | a 0 ...a 5 )
H (a0 , a1,...an −1 ) ≤ ∑ H (ai ) Como todos os eventos são equiprováveis H é máxima e, neste caso,
i =0 necessita de um bit para ser transmitida. O último termo é zero pois não há
Com a igualdade valendo se e somente se todos os símbolos na incerteza por este ser em função dos seis primeiros que, neste caso, foram
seqüência são independentes, neste caso, fonte é dita ser sem memória. dados. Assim:
Caso contrário a fonte é dita ser com memória ou markoviana. H ( a0 , a1 , a2 , K , a6 ) = 1 + 1 + 1 + 1 + 1 + 1 + 0 = 6 bits

Você também pode gostar