Você está na página 1de 8

Entropia, Entropia Relativa

e Informacao M utua
Miguel Barao (mjsb@di.uevora.pt)
Departamento de Informatica
Universidade de

Evora
13 de Marco de 2003
1 Introducao
Suponhamos que uma fonte gera smbolos a um determinado ritmo e que os smbolos sao obtidos
aleatoriamente a partir de um alfabeto nito X = {A, B, C, D}. Suponhamos ainda que todos os
smbolos sao equiprovaveis. Uma possvel sequencia de smbolos seria a seguinte:
CDBDDCBDADBAACCB (1)
Se quisermos representar esta sequencia num computador, surgem-nos imediatamente duas questoes:
1. De que forma se pode representar esta sequencia usando apenas os smbolos binarios 0 e 1?
2. Quantos bits sao necessarios para a representar?
Vamos comecar por responder `a segunda questao, deixando para mais tarde a primeira.
Se temos um alfabeto com quatro smbolos, precisamos de log
2
4 = 2 bits para representar cada
smbolo. Assim, a sequencia anterior precisaria de 16 2 = 32 bits para ser representada. Um
codigo possvel seria o seguinte:
A = 00, B = 01, C = 10, D = 11.
A sequencia anterior seria representada pela sequencia binaria
10110111111001110011010000101001.
De forma geral, para um alfabeto X de tamanho n em que todos os smbolos sao equiprovaveis,
cada smbolo necessita de log
2
n bits para ser representado.
Como a probabilidade de sair um dado smbolo x
i
e de
p(x
i
) =
1
n
,
o n umero de bits necessario para representar cada smbolo pode ser escrito em funcao da probabili-
dade dos smbolos da seguinte forma:
nbits = log
2
n = log
2
1
p(x
i
)
= log
2
p(x
i
),
para qualquer i.
No exemplo anterior, os smbolos eram todos equiprovaveis. Pode, no entanto, dar-se o caso
de haver smbolos que ocorrem com maior frequencia que outros. Consideremos um caso concreto.
1
Suponhamos que temos o mesmo alfabeto X = {A, B, C, D} em que os smbolos ocorrem com
probabilidades {
1
2
,
1
4
,
1
8
,
1
8
}, respectivamente. Sera possvel tirar partido destas probabilidades de
forma a codicar os smbolos tal que se usem, em media, menos bits por smbolo? A resposta a
esta pergunta e: SIM! (tente arranjar um codigo que consiga este objectivo. Por exemplo, usando
codigos de comprimento diferente para cada smbolo).
2 Entropia, Entropia Conjunta e Entropia Condicional
O conceito de entropia na teoria da informacao tem origem no trabalho de Shannon [Sha48] que
mostra que processos aleatorios tais como a fala ou a m usica tem uma complexidade abaixo da qual
o sinal nao pode ser comprimido. A esta complexidade ele chamou entropia
1
.
Suponhamos que X e uma v.a. discreta com alfabeto X e distribuicao de probabilidade p(x) =
Pr(X = x), x X.
Denicao 2.1. A entropia H(X) de uma v.a. discreta X e denida por
H(X)
def
=

xX
p(x) log p(x) (2)
em que o logaritmo e na base 2 (todos os logaritmos daqui em diante sao na base 2 excepto quando
explicitamente indicado) e a entropia e expressa em bits.
Se X p(x) e frequente usar a distribuicao p em vez da v.a. X e portanto pode escrever-se H(p)
com o mesmo signicado que H(X).
Como primeiro exerccio, pode aplicar-se a denicao de entropia ao problema proposto na
seccao 1.
Exemplo 2.1. Pretende calcular-se a entropia da v.a. X, em que os smbolos do alfabeto X =
{A, B, C, D} sao todos equiprovaveis. Aplicando a denicao de entropia (2) obtem-se
H(X) = 4
_
1
4
log
1
4
_
= 2 bits,
que coincide exactamente com o n umero de bits necessario para codicar cada smbolo. Sera coin-
cidencia? Se repararmos na denicao de entropia, verica-se que ela pode escrever-se como o valor
esperado de log p(x), i.e.,
H(X) = E [log p(X)] .
Como log p(x) representa, no caso de smbolos equiprovaveis, o n umero de bits necessario para
representar cada smbolo, entao H(X) e o valor esperado de uma constante: o n umero de bits por
smbolo.
Vejamos o que acontece agora no caso em que os smbolos nao sao equiprovaveis. Se conseguirmos
escrever um codigo em que cada smbolo pode ser representado com log p(x
i
) bits, i.e., um codigo
em que os smbolos mais provaveis usam menos bits, entao a entropia pode ser interpretada como
o comprimento medio dos codigos. Ja sabemos que um codigo destes existe se os smbolos sao
equiprovaveis.

E o codigo apresentado na seccao 1. Falta saber se tambem e possvel criar um
codigo com esta propriedade no caso dos smbolos nao serem equiprovaveis.
1
O nome entropia deriva da fsica, em particular da fsica estatstica, onde era usado como medida do estado de
desordem de um sistema.
2
Exemplo 2.2. Um codigo possvel para o segundo caso da seccao 1 em que os smbolos {A, B, C, D}
tem probabilidade {
1
2
,
1
4
,
1
8
,
1
8
} e o seguinte:
A = 0, B = 10, C = 110, D = 111

E possivel observar neste exemplo que:


1. Os comprimentos dos codigos coincidem com os obtidos pela formula log p(x). Por exemplo,
o comprimento do codigo C e de tres bits e log
1
8
= 3.
2. A entropia de X e H(X) =
1
2
1 +
1
4
2 +
1
8
3 +
1
8
3 = 1.75 bits. Ou seja, sao necessarios
1.75 bits em media para codicar cada smbolo (no caso dos smbolos equiprovaveis eram
necessarios 2 bits).
3. Uma mensagem gerada com as probabilidades indicadas acima e, por exemplo, a seguinte:
ABBDBABAAADBABCA (3)
Esta mensagem seria codicada como
0101011110010000111100101100 (4)
usando apenas 28 bits, o que da uma media de
28
16
= 1.75 bits por smbolo.
4. A mensagem codicada pode ser descodicada de forma unvoca (tente descodicar a men-
sagem (4)). Repare que nenhum dos codigos e prexo de outro, e portanto nao ha ambiguidade
na descodicacao da mensagem. Um codigo deste tipo chama-se codigo de prexo.
O exemplo anterior foi construdo articialmente para ilustrar o conceito de entropia. Nao e
necessariamente verdade que se consiga construir um codigo de prexo como o anterior, em que o
comprimento do codigo de um smbolo x
i
X e exactamente igual a log p(x
i
). Em geral, isso nao
acontece. Assim, a entropia e apenas um limite mnimo teorico para o n umero de bits por smbolo
atingvel num codigo de prexo.

E no entanto, um conceito fundamental e muito importante.
Em seguida extende-se a denicao de entropia para o caso de distribuicoes conjuntas de varias
variaveis aleatorias e dene-se entropia condicional.
Denicao 2.2. A entropia conjunta H(X, Y ) das variaveis aleatorias X e Y com distribuicao de
probabilidade conjunta p(x, y) e denida como
H(X, Y )
def
=

xX

yY
p(x, y) log p(x, y), (5)
ou equivalentemente,
H(X, Y )
def
=E [log p(X, Y )] . (6)
A entropia conjunta de n variaveis aleatorias e denida de forma analoga.
Denicao 2.3. Se (X, Y ) p(x, y), entao a entropia condicional H(Y |X) e denida como
H(Y |X)
def
=

xX
p(x)H(Y |X = x)
=

xX
p(x)

yY
p(y|x) log p(y|x)
=

xX

yY
p(x, y) log p(y|x)
= E
p(x,y)
[log p(Y |X)]
(7)
3
Teorema 2.1 (Regra da cadeia). A entropia verica a seguinte propriedade:
H(X, Y ) = H(Y |X) +H(X). (8)
Demonstracao. Esta regra deriva da regra da cadeia nas probabilidades, em que sabemos que
p(x, y) = p(y|x)p(x).
Aplicando o logaritmo a esta equacao e depois o valor esperado relativamente a p(x, y), obtem-se o
resultado enunciado no teorema.
Como exemplo de aplicacao das duas denicoes anteriores (entropia conjunta e entropia condi-
cional) e da regra da cadeia, vamos considerar uma mensagem escrita em portugues.
Exemplo 2.3. Suponha-se que uma fonte gerou a mensagem
O MANUEL VEM JANTAR A CASA
com smbolos obtidos do alfabeto X = {, A, B, C, . . . , Z}. Neste exemplo, e ao contrario do que
acontecia nos casos anteriores, os smbolos (letras) nao sao gerados de forma independente uns dos
outros, e.g., se a fonte gerar a letra B, a probabilidade de a letra seguinte ser outro B ou um
espaco e zero uma vez que a lngua portuguesa nao o permite, mas a probabilidade de a seguir sair
a letra U ou R ja nao e zero, uma vez que a palavra poderia ser BURRO ou ABRIR. Assim,
podemos denir uma distribuicao de probabilidade para as letras que ocorrem a seguir ao B. Esta
distribuicao e a distribuicao de probabilidade condicional P(X
2
|X
1
= B). Genericamente, temos
denida uma distribuicao condicional p(x
k+1
|x
k
) em que x
k
e a k-esima letra da mensagem e x
k+1
a letra seguinte.
Podemos agora calcular a entropia conjunta de uma sequencia de duas letras. Suponhamos que
X
1
e X
2
sao duas variaveis aleatorias correspondentes `as duas primeiras letras da frase. Qual e a
entropia conjunta H(X
1
, X
2
)? Pela regra da cadeia temos que
H(X
1
, X
2
) = H(X
1
) +H(X
2
|X
1
).
Aplicando as denicoes de entropia e entropia condicional, obtemos o resultado pretendido.
Na realidade, para uma mensagem como a do exemplo anterior, a distribuicao de probabilidade
de um smbolo x
k
nao depende apenas do smbolo anterior, mas de todos os smbolos que o precedem.
A expressao da entropia conjunta da frase completa e uma soma de entropias condicionais envolvendo
cada smbolo e todos os smbolos passados,
H(X
1
, . . . , X
n
) =
n

i=1
H(X
i
|X
i1
, . . . , X
1
). (9)
A entropia goza das seguintes propriedades que se apresentam em seguida sem demonstracao (os
detalhes estao em [CT91]).
1. A entropia e sempre nao-negativa: H(X) 0;
2. Se H(Y |X) = 0 entao Y = g(X), i.e., se a entropia condicional se anula entao a v.a. Y nao
contem informacao adicional relativamente `aquela contida em X.
4
3 Entropia Relativa e Entropia Relativa Condicional
A entropia relativa D(pq) mede a ineciencia de assumir que uma distribuicao e q quando a
distribuicao verdadeira e p. Por exemplo, se soubermos a distribuicao verdadeira de uma variavel
aleatoria, podemos construir um codigo com comprimento medio H(p). No entanto, se usarmos um
codigo desenhado para uma distribuicao q, haveria uma desadequacao do codigo `a variavel aleatoria
e seriam necessarios H(p) +D(pq) bits em media para descrever a variavel aleatoria.
Denicao 3.1. A entropia relativa ou divergencia de Kullback-Leibler entre duas distribuicoes p e
q e denida por
D(pq)
def
=

xX
p(x) log
p(x)
q(x)
= E
p(x)
_
log
p(X)
q(X)
_
.
(10)
Usa-se a convencao de que 0 log
0
q
= 0 e p log
p
0
= .
Exemplo 3.1. Considere-se o problema em que fonte gera smbolos do alfabeto X = {A, B, C, D}
com probabilidades p(x) dadas respectivamente por {
1
2
,
1
4
,
1
8
,
1
8
}. Usando um codigo de prexo
desenhado especicamente para esta fonte e possvel atingir um n umero medio de bits por smbolo
igual `a entropia H(X), que neste caso e de 1.75 bits como se viu na seccao anterior. Se em vez deste,
usarmos o codigo {00, 01, 10, 11} desenhado para o caso em que as probabilidades dos smbolos eram
todas iguais a q(x) =
1
4
, i.e., com comprimento de codigo igual a log
1
4
= 2 bits, o n umero medio
de bits por smbolo e
E
p(x)
[log q(X)] =
1
2
2 +
1
4
2 +
1
8
2 +
1
8
2 = 2. (11)
Ou seja, pelo facto usarmos um codigo que nao foi desenhado para a fonte, necessitamos de usar
mais 0.25 bits por smbolo. Essa ineciencia e a diferenca entre o n umero de medio de bits necessario
em cada um dos casos que, conforme se pode vericar facilmente, e igual `a entropia relativa D(pq)
E
p(x)
[log q(X)]
. .
2 bits
H(X)
. .
1.75 bits
= E
p(x)
[log q(X)] E
p(x)
[log p(X)]
= E
p(x)
[log q(X) + log p(X)]
= E
p(x)
_
log
p(X)
q(X)
_
= D(pq).
(12)
Denicao 3.2 (*). A entropia relativa condicional D(p(y|x)q(y|x)) e obtida a partir da entropia
relativa entre p(y|x) e q(y|x) fazendo a media ponderada com p(x)
D(p(y|x)q(y|x))
def
=

xX
p(x)

yY
p(y|x) log
p(y|x)
q(y|x)
= E
p(x,y)
_
log
p(Y |X)
q(Y |X)
_
.
(13)
5
4 Informacao M utua e Informacao M utua Condicional
De forma informal, a informacao m utua e uma medida da quantidade de informacao que uma variavel
aleatoria contem `acerca da outra.
Denicao 4.1. Considere duas variaveis aleatorias X e Y com distribuicao conjunta p(x, y) e
distribuicoes marginais p(x) e p(y). A informacao m utua I(X; Y ) e a entropia relativa entre a
distribuicao conjunta e o produto das marginais
I(X; Y )
def
=

xX

yY
p(x, y) log
p(x, y)
p(x)p(y)
= D(p(x, y)p(x)p(y))
= E
p(x,y)
_
log
p(X, Y )
p(X)p(Y )
_
.
(14)
Exemplo 4.1. Considere duas variaveis aleatorias independentes X e Y com distribuicoes de prob-
abilidade p(x) e p(y). Qual a informacao m utua I(X; Y )? Resp.: Como as v.a. sao independentes,
temos que p(x, y) = p(x)p(y), e portanto
I(X; Y ) = E
p(x,y)
_
log
p(X, Y )
p(X)p(Y )
_
= E
p(x,y)
_
log
p(X)p(Y )
p(X)p(Y )
_
= 0.
(15)
Este resultado era esperado uma vez que X e Y sao independentes.
Denicao 4.2 (*). A informacao m utua condicional das variaveis aleatorias X e Y dado Z e
denida por
I(X; Y |Z)
def
=H(X|Z) H(X|Y, Z)
= E
p(x,y,z)
_
log
p(X, Y |Z)
p(X|Z)p(Y |Z)
_
.
(16)
5 Propriedades
Nesta seccao apresenta-se um conjunto de propriedades gozadas pela entropia, entropia relativa e
informacao m utua. As demonstracoes em falta estao no captulo 2 de [CT91].
Teorema 5.1 (Relacao entre informacao m utua e entropia).
I(X; Y ) = I(Y ; X) (17)
I(X; X) = H(X) (18)
I(X; Y ) = H(X) H(X|Y ) (19)
I(X; Y ) = H(Y ) H(Y |X) (20)
I(X; Y ) = H(X) +H(Y ) H(X, Y ) (21)
A gura 1 ilustra estas relacoes usando um diagrama de Venn.
Demonstracao. Fica como exerccio provar cada uma das igualdades (17)(21).
6
H(X,Y)
H(X|Y) I(X;Y) H(Y|X)
H(X)
H(Y)
Figura 1: Relacao entre a entropia e a informacao m utua.
Teorema 5.2 (Regra da cadeia para a entropia).
H(X
1
, . . . , X
n
) =
n

i=1
H(X
i
|X
i1
, . . . , X
1
) (22)
Teorema 5.3 (Regra da cadeia para a entropia relativa).
D(p(x, y)q(x, y)) = D(p(x)q(x)) +D(p(y|x)q(y|x)) (23)
Teorema 5.4 (Regra da cadeia para a informacao m utua).
I(X
1
, . . . , X
n
; Y ) =
n

i=1
I(X
i
; Y |X
i1
, . . . , X
1
) (24)
Teorema 5.5 (Desigualdade da informacao).
D(pq) 0 (25)
A igualdade verica-se se e so se p(x) = q(x) para todo o x X.
Corolario (Nao negatividade da informacao m utua). Para quaisquer duas variaveis aleatorias
X e Y ,
I(X; Y ) 0 (26)
com igualdade se e so se X e Y sao independentes.
Teorema 5.6. H(X) log |X|, em que |X| e o n umero de elementos de X. A igualdade verica-se
se e so se X tem distribuicao uniforme em X.
Demonstracao. Seja u(x) =
1
|X|
uma distribuicao uniforme em X. Entao
D(pu) =

xX
p(x) log
p(x)
u(x)
= log |X| H(X).
7
Como a entropia relativa e sempre nao negativa D(pu) 0, temos que
log |X| H(X) 0.
Teorema 5.7 (Condicionamento reduz a entropia).
H(X|Y ) H(X) (27)
com igualdade se e so se X e Y sao independentes.
Demonstracao.
0 I(X; Y ) = H(X) H(X|Y )
Teorema 5.8. Se X
1
, . . . , X
n
sao obtidos de acordo com p(x
1
, . . . , x
n
), entao
H(X
1
, . . . , X
n
)
n

i=1
H(X
i
) (28)
com igualdade se e so se as v.a. X
i
sao independentes.
Demonstracao. Aplicando a regra da cadeia para a entropia seguida do teorema 5.7, obtem-se o
resultado pretendido.
Referencias
[CT91] Thomas M. Cover and Joy A. Thomas. Elements of Information Theory. John-Wiley, 1991.
[Sha48] Claude E. Shannon. A mathematical theory of communication. The Bell System Technical
Journal, 27:279423, 623656, 1948.
8

Você também pode gostar