Você está na página 1de 7

Teoria da informao

Rodrigo Pavo (rpavao@gmail.com)

junho de 2011

A teoria da informao um ramo da matemtica que estuda quanticao


da informao. Essa teoria teve seus pilares estabelecidos por Claude Shan-
non (1948) que formalizou conceitos com aplicaes na teoria da comunicao
e estatstica. A teoria da informao foi desenvolvida originalmente para com-
presso de dados, para transmisso e armazenamento destes. Porm, foi plane-
jada para aplicao ampla, e tm sido usada em muitas outras reas.
A medida de entropia de Shannon aproximadamente igual da complexi-
dade de Kolmogorov, que oferece a explicao computacional de que a complex-
idade de um objeto dada pelo tamanho do menor programa de computador
capaz de descrev-lo. Por exemplo, o objeto 11111111111111111111, que no
parece aleatrio, poderia ser descrito sucintamente por for i=1:20 print 1 en-
quanto 10111000110001111000, que parece aleatrio, no poderia ser descrito
por um programa to curto, pois precisa da descrio literal do objeto print
10111000110001111000.
O presente texto foi elaborado com base no segundo captulo do livro  El-
ements of Information Theory , que apresenta os conceitos fundamentais da
teoria. Estes conceitos foram descritos nos moldes apresentados pelos autores
do livro, acrescentando exemplos e simplicaes desenvolvidos pelo autor do
presente texto ou publicados na fonte Wikipedia. Para facilitar a compreen-
so, os clculos descritos neste texto foram implementados em uma planilha do
Excel, disponvel em http://www.ib.usp.br/rpavao/entropia.xls.

Entropia

O conceito de informao muito amplo para ser capturado por uma nica
denio. No entanto, para qualquer distribuio de probabilidades, possvel
denir uma quantidade denominada  entropia que tem muitas propriedades
que esto de acordo com a noo intuitiva do que uma medida de informao
deveria ser. Entropia a medida de incerteza de uma varivel aleatria, dada
P
pela equao H= pi log(1/pi ), em que pi indica a probabilidade de evento da
distribuio de probabilidades de uma varivel aleatria discreta. No presente

1
2

texto, usamos log base 2, e, assim, a entropia expressa em bits. A entropia


do lance de uma moeda honesta 1 bit (pcara = pcoroa = 0.5; log(1/pcara ) =
log(1/pcoroa ) = 1; H = pcara log(1/pcara ) + pcoroa log(1/pcoroa ) = 0.5 1 +
0.5 1 = 1).
Note que entropia uma funo da distribuio da varivel aleatria; no
depende, portanto, dos valores assumidos por ela, refere-se apenas s suas prob-
abilidades. Outra explicao possvel para o conceito de entropia da distribuio
de probabilidades (H ) a de que esta uma mdia ponderada das entropias dos
eventos dessa distribuio (hi ). A entropia do evento i dada por hi = log(1/pi ).
No exemplo dos lances da moeda honesta, a entropia dos evento cara de 1 bit,
assim como a entropia do evento coroa; a mdia ponderada (com probabilidade
0.5 para cada um dos eventos) tambm de 1 bit.
A Figura 1 apresenta as relaes entre h, p h e H em funo dos valores de
probabilidade de um evento binrio (em que a varivel aleatria inclui apenas
os eventos 0 ou 1). O valor de entropia (H ) zero quando p=0 ou p = 1, pois
nessa condio no h incerteza; por outro lado, a incerteza mxima quando
p = 0.5 (eventos equiprovveis), o que corresponde ao valor mximo da entropia.

Figura 1  Relaes entre h, p h e H em funo das probabilidades p de


um evento binrio. A entropia do evento (h) dada por log(1/p); a entropia
do evento ponderada pela sua probabilidade (p h) dada por p log(1/p); a
entropia da distribuio de probabilidades (H ) dada pela soma das entropias
dos eventos ponderada pelas suas probabilidades.

Uma estratgia bastante intuitiva para entender o conceito de entropia


atravs da aplicao da codicao tima de mensagens. Um determinado sis-
tema codicador foi projetado para receber como entradas sries de eventos A,
B, C e D e responder como sadas sries de 0 ou 1. Se os eventos A, B, C e D
so equiprovveis nas mensagens (p = 0.25 cada), a codicao tima para cada
evento deve conter 2 bits (11, 10, 01 e 00, respectivamente), conforme descrito
pela frmula de entropia do evento (h). A entropia das mensagens, dada pela
3

frmula de entropia da distribuio de probabilidades (H ), tambm tem o valor


de 2 bits, que representa o tamanho mdio por evento descrito. Se os eventos
A, B, C e D so apresentados com as probabilidades 0.5, 0.25, 0.125 e 0.125,
respectivamente, a codicao tima para os eventos deve conter 1, 2, 3 e 3 bits
(1, 01, 001 e 000, respectivamente) conforme descrito pela frmula de entropia
do evento (h). A entropia das mensagens dada pela frmula de entropia da
distribuio de probabilidades (H ), tem o valor de 1.75 bits, que representa o
tamanho mdio por evento descrito. Note que nesse contexto de codicao
tima de mensagens, a entropia H uma medida da quantidade de informao
requerida, na mdia, para descrever a varivel aleatria.

Notas sobre entropia


Alm do log base 2, que expressa entropia em bits, outras bases poderiam ser
usadas, como 3, 4, 5, 6, 7, 10 ou e, e a entropia seria expressa em trits, quarts,
quints, sexts, septs, dits ou nats, respectivamente. A troca de base pode ser
feita por Hb (X) = (logb a) Ha (X).
A conveno 0 log0 = 0 usada na teoria da informao; essa conveno
facilmente justicada por continuidade, uma vez que x log(x) tende a zero
quando x tende a zero (ver Figura 1). Assim, a adio de termos com probabil-
idade zero no muda a entropia.
Os valores de entropia (H e h) so sempre maiores ou iguais a zero. A prova
disso que 0 pi 1, o que implica em log(1/pi ) 0.

Entropia conjunta, entropia condicional e informao mtua

A teoria da informao tambm capaz de lidar com um par de variveis


aleatrias. capaz de quanticar, por exemplo, a quantidade informao as-
sociada s variveis aleatrias conjuntamente (a entropia conjunta, H(X; Y )),
a quantidade de informao de uma varivel aleatria dado que outra varivel
aleatria conhecida (a entropia condicional, H(X|Y )) e tambm a quantidade
de informao que uma varivel aleatria contm acerca da outra (informao
mtua, I(X; Y )). As relaes entre essas medidas so expressas no diagrama
da Figura 2.

Figura 2  Relaes entre entropia e informao mtua.


4

P P
y px;y log px;y . Essa
1
A entropia conjunta dada por H(X; Y ) = x
denio no realmente nova, pois X; Y pode ser considerada uma varivel
aleatria nica, com uma distribuio probabilstica de eventos xi e yi concate-
nados, na forma xi &yi . Dessa forma, a equao da entropia para uma varivel
aleatria pode ser usada para quanticao da entropia conjunta, H(X; Y ) =
P
H(X&Y ) = px&y 1/px&y . P P
y px;y log py|x . Uma
1
A entropia condicional dada por H(X|Y ) = x
estratgia simples de clculo H(X|Y ) = H(X; Y ) H(Y ), em que os valores
H(X; Y ) e H(Y ) podem ser calculados pela equao da entropia para uma
varivel aleatria. Note que H(X|Y ) geralmente difere de H(Y |X); no entanto,
h a propriedade H(X) H(X|Y ) = H(Y ) H(Y |X), uma forma de obter a
informao mtua entre as distribuies.
P P p
A informao mtua dada por I(X; Y ) = x y px;y log pxx;y
py . Uma
estratgia simples de clculo I(X; Y ) = H(X) + H(Y ) H(X; Y ), em que os
valores H(X), H(Y ) e H(X; Y ) podem ser calculados pela equao da entropia
para uma varivel aleatria.
Uma implementao computacional para quanticao da entropia conjunta,
entropia condicional e informao mtua, capaz de lidar com mais de duas var-
iveis aleatrias, foi desenvolvidas para Matlab por Will Dwinnell; acesse as roti-
nas em http://www.mathworks.com/matlabcentral/leexchange/authors/85655.

Distncia

A distncia de KullbackLeibler, tambm chamada de entropia relativa, uma


medida da distncia entre duas distribuies de probabilidade. A distncia de
P P
KullbackLeibler D(p||q) = pi log(pi /qi ) = pi log(1/qi ) pi log(1/pi )
uma medida da inecincia dada por assumir que a distribuio de probabili-
dades q sendo que a verdadeira distribuio p. Nessa equao, pi e qi indicam
as probabilidades do evento i de uma varivel aleatria discreta nas distribuies
de probabilidade p e q. A aplicao na codicao tima de mensagens, seguindo
a mesma estratgia apresentada previamente, tambm facilita o entendimento
do conceito de distncia.
Se o sistema codicador fosse planejado para tratar os eventos A, B, C e
D nas mensagens, como se fossem equiprovveis (qi = 0.25 cada), a codicao
para cada evento teria 2 bits (11, 10, 01 e 00, respectivamente), conforme de-
scrito pela frmula de entropia do evento (h(q)). A entropia esperada das men-
sagens (H(q)), dada pela frmula de entropia da distribuio de probabilidades
q, tambm tem o valor de 2 bits, que representa o tamanho mdio esperado por
evento descrito. No entanto, a distribuio verdadeira dos eventos A, B, C e D
de pi = 0.5, 0.25, 0.125 e 0.125, respectivamente, e a codicao tima para
os eventos envolveria h(pi ) = 1, 2, 3 e 3 bits (1, 01, 001 e 000, respectivamente);
denindo, ento, que a entropia das mensagens verdadeira de H(p) = 1.75
bits. No entanto, a aplicao da codicao para distribuio q , com h(qi ) = 2
bits para cada evento para a distribuio p resulta em inecincia (i.e. gasto
adicional de bits) para os eventos A, B, C e D de log(pi /qi ) = 1, 0, =1 e =1 bit,
5

respectivamente (note que inecincia de =1 bit representa economia de 1 bit).


As inecincias ponderadas pelas probabilidades verdadeiras dos eventos resulta
em pi log(pi /qi ) = 0.5, 0, =0.125 e =0.125 bit, respectivamente. A inecincia
mdia por evento descrito pela codicao para distribuio q para distribuio
verdadeira p de D(p||q) = 0.25 bit. Nesse caso, a D(p||q) observada foi igual
diferena entre H(p) e H(q), porm essa relao encontrada apenas em alguns
casos.
Outras relaes so encontradas com outras distribuies, como no exemplo
em que os eventos A, B, C e D tm distribuio esperada dada por qi = 0.5,
0.25, 0.125 0.125 (h(qi ) = 1, 2, 3 e 3 bits e H(q) = 1.75 bits) e distribuio
e
verdadeira dada por pi = 0.125, 0.125, 0.25 e 0.5 (h(pi ) = 3, 3, 2 e 1 bits e
H(p) = 1.75 bits). Nesse caso, a inecincia para os eventos seria de log(pi /qi ) =
=2, =1, 1 e 2 bits, e as inecincias ponderadas pelas probabilidades verdadeiras
seriam pi log(pi /qi ) = =0.25, =0.125, 0.25 e 1 bit, respectivamente. Assim, a
inecincia mdia por evento descrito pela codicao para distribuio q para
distribuio verdadeira p seria de D(p||q) = 0.875 bit.
Assim, se a verdadeira distribuio de uma varivel aleatria fosse con-
hecida, seria possvel construir um cdigo com descrio mdia de tamanho
H(p). Se, no entanto, fosse usado um cdigo para uma distribuio q, seriam
necessrios H(p) + D(p||q) bits, na mdia, para descrever a varivel aleatria.
Essa quantidade de informao denominada entropia cruzada, que consiste
do nmero mdio de bits para identicar um evento de uma distribuio ver-
dadeira p usando
P um esquema de codicao baseado na distribuio q , dada
por H(p; q) = pi log(1/qi ) = H(p)+D(p||q). Note que a notao de entropia
cruzada a mesma da entropia conjunta; os conceitos, entretanto, so distintos.
A Figura 3 apresenta diferentes distribuies probabilsticas de trinta even-
tos, a inecincia ponderada associada a cada evento (pi log(pi /qi )) e a soma
destas, que consiste na distncia de KullbackLeibler (D(p||q)). Note que os
valores de inecincia ponderada maiores do que zero correspondem a eventos
que ocorrem na distribuio verdadeira com maior probabilidade do que na dis-
tribuio esperada. J eventos com inecincia ponderada menor do que zero
(i.e., eventos com codicao mais econmica do que a codicao tima) so
eventos que ocorrem na distribuio verdadeira com menor probabilidade do que
na distribuio esperada; por serem pouco frequentes na distribuio verdadeira,
sua inecincia (negativa), quando ponderada pelo pi baixo tem importncia re-
duzida na denio do valor de distncia nal  essa propriedade garante que
os valores de distncia nunca sejam negativos. Finalmente, os eventos com
mesma probabilidade nas distribuies esperada e verdadeira esto associados
a inecincia igual a zero.
6

Figura 3  Distncias de Kullback-Leibler entre diferentes distribuies de


probabilidade de trinta eventos discretos. As curvas ajustadas foram inseridas
apenas para facilitar a visualizao das distribuies.

Notas sobre distncia


As convenes 0 log(0/q) = 0 e p log(p/0) = so usadas na teoria da
informao; essas convenes so justicadas por continuidade.
Nos casos em que se deseja diferenciar entre as distncias D(p||q1) e D(p||q2)
que envolvem distribuies q1 e q2 que no apresentam alguns dos eventos
presentes na distribuio p, uma possibilidade modicar sutilmente as dis-
tribuies, denindo uma probabilidade irrisria mnima para os eventos. Esse
procedimento foi aplicado aos valores de probabilidade das distribuies apresen-
tadas na Figura 3, cujos valores originais variavam entre 0 e 0.19, e os usados
para os clculos variavam entre 0.01 e 0.14 (com a aplicao desse procedi-
mento D(p||q1) = D(p||q2) = 0.70 bits e D(p||q3) = 1.83 bits; sem a aplicao,
D(p||q1) = D(p||q2) = D(p||q3) = ).
Os valores de D(p||q) so sempre maiores que zero (se as distribuies p e q
so diferentes) ou iguais a zero (se as distribuies p e q so iguais).
Apesar do nome, a distncia de Kullback-Leibler no propriamente uma
distncia entre as distribuies, uma vez que ela no simtrica e no satisfaz
a desigualdade triangular, da geometria euclidiana. Essa caracterstica est
representada na Figura 3, em que os valores das probabilidades so os mesmos
7

(porm referentes a eventos diferentes): D(p||q2) = D(q2||q3) = 0.70 bits, e


D(p||q3) = 1.83 p e q3 no pode ser obtida pela
bits. Isto , a distncia entre
soma da distncia p a q2 com a distncia q2 a q3 (0.7 + 0.7 6= 1.83).
Alm disso, em geral o valor de D(p||q) diferente do valor de D(q||p).

Referncias

[1] Cover TM, Thomas, JA, 1991. Elements of Information Theory. Wiley-
Interscience, New York.

[2] http://en.wikipedia.org/wiki/File: KL-Gauss-Example.png

[3] http://pt.wikipedia.org/wiki/Complexidade_de_Kolmogorov#Objetivo_
da_complexidade_de_Kolmogorov

Você também pode gostar