Você está na página 1de 2

Quarta Aula Informação Mútua

Entropia Relativa
É uma medida da distância entre duas distribuições É a entropia relativa entre a distribuição conjunta p(x,y) de duas
variáveis aleatórias X e Y e o produto das distribuições p(x)p(y)
p ( xi )
D( p || q) = ∑ p( xi ) log
i q( xi ) p ( xi , y j )
I ( X ; Y ) = ∑∑ p ( xi , y j ) log
Por exemplo: Dado uma variável aleatória X com distribuição i j p( xi ) p ( y j )
q. Se ao invés de usarmos a distribuição q, usarmos a
distribuição p para construir um código para esta variável, o
= D( p ( x, y ) || p( x) p( y ) )
seu comprimento médio será H(p). Porém, na verdade, nós
precisamos de um código para a variável X com
comprimento médio dado por H(p)+D(p||q)
Teorema: D ( p || q ) ≥ 0
com igualdade se e somente se p=q

Exemplo Informação Mútua


Redução na incerteza de X devido ao conhecimento de Y ou a
Seja X={0,1} e considere duas distribuições p e q para X. redução na incerteza de Y devido ao conhecimento de X

Sendo p(1) = r e q(1) = s. Então p ( xi , y j )


I ( X ; Y ) = ∑∑ p ( xi , y j ) log
r 1− r p( xi ) p ( y j )
D( p || q ) = r log + (1 − r ) log i j
s 1− s p( y j ) p( xi / y j )
s 1− s = ∑∑ p ( xi , y j ) log
D(q || p ) = s log + (1 − s ) log p ( xi ) p ( y j )
r 1− r i j

Se r = s → D ( p || q) = D (q || p) = 0 = −∑ log p( xi )∑ p ( xi , y j ) + ∑∑ p( xi , y j ) log p ( xi / y j )
Se r = 1 / 2, s = 1 / 4 então i j i j

2  
D( p || q ) = 0,5 log 2 + 0,5 log
= 1 − 0,5 log 3 = 0,2075bits = −∑ p ( xi ) log p( xi ) −  − ∑∑ p( xi , y j ) log p ( xi / y j ) 
3 i  i j 
1 3
D(q || p ) = 0,25 log + 0,75 log = 0,75 log 3 − 1 = 0,1887bits = H (X ) − H(X /Y)
2 2
Podemos mostrar que I(X;Y) = H(Y) - H(Y/X).

Informação Mútua e Entropia Teorema


Dadas duas variáveis aleatórias X e Y, podemos escrever que a
Sabendo que H ( X / Y ) = H ( X , Y ) − H (Y )
informação mútua ligando as duas variáveis será dada por:
Encontramos I ( X ; Y ) = H ( X ) − H ( X , Y ) + H (Y )
I ( X ; Y ) = H ( X ) + H (Y ) − H ( X , Y )
H(X) H(Y)
= H(X ) − H(X | Y)
= H (Y ) − H (Y | X )
I(X;Y)
H(X/Y) H(Y/X) I ( X ;Y ) ≥ 0
com igualdade se e somente se X e Y forem independentes
Teorema: H(X /Y) ≤ H (X )
com igualdade se e somente se X e Y forem independentes

1
Exemplo Codificação da Fonte
Seja X e Y com a seguinte distribuição conjunta
X Um codificador de fonte é um elemento de processamento de
p(X,Y) 1 2 dados que toma como entrada um n-grama de um alfabeto-
fonte A e produz como saída um m---grama do alfabeto código
1 0 3/4 3/4
B. Estes m-gramas são chamados palavras-código.
Y
2 1/8 1/8 1/4
C:A→B
1/8 7/8
O codificador tem como objetivos processar a entrada de tal
1 7 8
H ( X ) = log 8 + log = 0,544bits forma que a informação média transmitida (ou armazenada) por
8 8 7
uso do canal aproxime-se de H(A), encontrar códigos
3 4 1
H (Y ) = log + log 4 = 0,811bits decodificáveis univocamente, isto é, para todo elemento de A
4 3 4 haja apenas um B e vice-versa.
H ( X / Y = 1) = 0 H ( X / Y = 2) = 1bit
H ( X / Y ) = p (Y = 1) H ( X / Y = 1) + p (Y = 2) H ( X / Y = 2) C (a ) a b ⇒ C −1 (b) a a
3 1 Um codificador também deve encontrar códigos que possam
= 0 + 1 = 0,25bits
4 4 ser decodificados instantaneamente.

Exemplo
Seja uma fonte de quatro símbolos A={a0, a1, a2, a3-} que
possuem probabilidades P-A={0,5; 0,3; 0,15; 0,05}. Seja C um Somente a título de curiosidade vamos repetir o exemplo acima no
codificador que mapeia os símbolos de A em cadeias de dígitos caso de uma codificação {00, 01, 10, 11}, teríamos obviamente um
binários {0, 10, 110, 111} respectivamente. Qual é o número número médio de bits por símbolo de 2 bits e a eficiência seria, neste
médio de dígitos binários por símbolo? Qual a eficiência do caso:
codificador?
Com a codificação C teríamos um número médio de bits por símbolo
n = 1 ⋅ 0,5 + 2 ⋅ 0,3 + 3 ⋅ 0,15 + 3 ⋅ 0,05 = 1,7 bits
H ( A) 1,6477
A entropia (incerteza) da fonte original é dada por:
η= = = 82, 4%
H ( A) = 0,5log 2
1
+ 0,3log 2
1
+ 0,15log 2
1
+ 0,05log 2
1 n 2
0,5 0,3 0,15 0,05
= 1,6477 bits
Dado que a eficiência η é dada pela entropia dividida pelo número
médio de bits temos que: H ( A) 1,6477
η= = = 97%
n 1,7

Códigos de Comprimento Fixo Exemplo


Considere |A| = 10. Codificando cada letra da fonte em um
Seja a seqüência SL = α1, α2, ... αL, com αi ∈ A, 1 ≤ i ≤ L e |A|
código binário |B| = 2 qual será o valor de T, considerando L =
= n podemos, portanto, ter nL L-gramas diferentes.
1?
Se quiséssemos codificar estas seqüências usando palavras-
T T
código de comprimento T sobre um alfabeto B de m símbolos, ≥ log m n ≥ log 2 10 T ≥ 3,3219
L 1

T Como o comprimento de uma palavra código deve ser um número


mT ≥ n L ⇒ ≥ log m n inteiro (obviamente) temos que T = 4 bits.
L
Se escolhermos usar menos que logmn letras-código por letra-
fonte, então precisaríamos relaxar na nossa insistência em
sempre sermos capazes de decodificar a seqüência fonte a
partir da palavra-código.

Você também pode gostar