Você está na página 1de 12

A teoria da informa��o estuda a quantifica��o, armazenamento e comunica��o da

informa��o. Ela foi originalmente proposta por Claude E. Shannon em 1948 para achar
os limites fundamentais no processamento de sinais e opera��es de comunica��o como
as de compress�o de dados, em um artigo divisor de �guas intitulado "A Mathematical
Theory of Communication". Agora essa teoria tem v�rias aplica��es nas mais diversas
�reas, incluindo infer�ncia estat�stica, processamento de linguagem natural,
criptografia, neuroci�ncia computacional, evolu��o, computa��o qu�ntica, dentre
outras.

A medida chave em teoria da informa��o � a entropia. A entropia quantifica a


quantidade de incerteza envolvida no valor de uma vari�vel aleat�ria ou na sa�da de
um processo aleat�rio. Por exemplo, a sa�da de um cara ou coroa de uma moeda
honesta (com duas sa�das igualmente prov�veis) fornece menos informa��o (menor
entropia) do que especificar a sa�da da rolagem de um dado de seis faces (com seis
sa�das igualmente prov�veis). Algumas outras medidas importantes em teoria da
informa��o s�o informa��o m�tua, informa��o condicional e capacidade de um canal.

Aplica��es de t�picos fundamentais da teoria da informa��o incluem compress�o sem


perdas de dados (e.g ZIP), e compress�o de dados (e.g MP3 e JPEG).

O campo est� na intersec��o da matem�tica, estat�stica, ci�ncia da computa��o,


f�sica, neurobiologia e engenharia el�trica. Seu impacto � crucial, por exemplo, no
sucesso das miss�es da sonda Voyager no espa�o, no entendimento desde buracos
negros at� da consci�ncia humana como na teoria de integra��o da informa��o (do
ingl�s, Integrated Information Theory), proposta por Giulio Tononi.

�ndice [esconder]
1 Contexto hist�rico
2 Vari�veis aleat�rias discretas
3 As grandezas da Teoria da Informa��o
3.1 Escolhendo destinos e o bit de informa��o
3.2 Informa��o de Shannon (h) ou surpresa
3.3 Entropia (H)
3.3.1 A entropia do dado de seis faces
3.3.2 Moeda boa, moeda m�
4 Uma vis�o conceitual da grandeza entropia
5 Entropia da distribui��o conjunta
6 Teorema de codifica��o da fonte
6.1 Enviando n�meros de 1 a 8
7 Informa��o M�tua
7.1 Considera��es Iniciais
7.2 Entropia condicional
7.3 Independ�ncia Estat�stica
7.4 Entropia condicional e ru�do
8 Refer�ncias
9 Ver tamb�m
10 Liga��es externas
Contexto hist�rico[editar | editar c�digo-fonte]
O marco que estabeleceu a teoria da informa��o e chamou imediatamente a aten��o
mundial foi o artigo A Mathematical Theory of Communication escrito por Claude
Shannon de julho a outubro de 1948.

Antes deste artigo, algumas abordagens te�ricas ainda que limitadas vinham sendo
desenvolvidas nos laborat�rios da Bell, todas implicitamente assumindo eventos de
igual probabilidade. O artigo Certain Factors Affecting Telegraph Speed de Harry
Nyquist escrito em 1924 cont�m uma se��o te�rica que quantifica intelig�ncia e a
velocidade de transmiss�o pela qual ela pode ser transmitida por um sistema de
comunica��o, estabelecendo a rela��o {\displaystyle W=K\log {m}} {\displaystyle
W=K\log {m}}, onde {\displaystyle W} W � a velocidade de transmiss�o da
intelig�ncia, {\displaystyle m} m � o n�mero de n�veis de tens�o para cada
intervalo de tempo, e {\displaystyle K} K � uma constante. Em 1928, Ralph Hartley
publicou o artigo Transmission of Information, onde aparece a palavra informa��o
como uma quantidade mensur�vel que a capacidade do destinat�rio distinguir
diferentes sequ�ncias de s�mbolos, levando � express�o {\displaystyle H=\log
{S^{n}}=n\log {S}} {\displaystyle H=\log {S^{n}}=n\log {S}}, onde {\displaystyle S}
S e {\displaystyle n} n representam, respectivamente, o n�mero de s�mbolos
poss�veis e o n�mero de s�mbolos na transmiss�o. Inicialmente, a unidade natural da
transmiss�o foi definida como sendo o d�gito decimal, sendo, posteriormente,
renomeada para hartley em uma clara homenagem. Alan Turing em 1940, durante a 2�
Guerra Mundial, aplicou ideias similares como parte da an�lise estat�stica para
decifrar a criptografia da m�quina alem� Enigma.

Boa parte da matem�tica por tr�s da teoria da informa��o com eventos de diferentes
probabilidades foi desenvolvida para os campos da termodin�mica por Ludwig
Boltzmann e J. Willard Gibbs. As conex�es entre as entropias da informa��o e
termodin�mica, incluindo as importantes contribui��es de Rolf Landauer na d�cada de
1960, s�o exploradas na Entropia termodin�mica e teoria da informa��o.

No artigo seminal de Shannon, introduz-se pela primeira vez um modelo quantitativo


e qualitativo da comunica��o, apresentando-a como um processo estat�stico
subjacente � teoria da informa��o. Shannon inicia seu artigo dizendo

"O problema fundamental da comunica��o � reproduzir em um dado ponto, exata ou


aproximadamente, uma mensagem produzida em outro ponto."

Com este artigo vieram � tona os conceitos

de entropia da informa��o e redund�ncia de uma fonte, e sua aplica��o no teorema de


codifica��o da fonte;
de informa��o m�tua e capacidade de um canal com ru�do, incluindo a promessa de
comunica��o sem perdas estabelecida no teorema de codifica��o de canais-ruidosos;
da lei de Shannon-Hartley para a capacidade de um canal Gaussiano;
do bit - uma nova forma de enxergar a unidade fundamental da informa��o.
Vari�veis aleat�rias discretas[editar | editar c�digo-fonte]
Antes de prosseguir � importante definir a nota��o utilizada para as vari�veis
aleat�rias discretas. Dado uma vari�vel aleat�ria {\displaystyle R} R, que pode
assumir {\displaystyle m} m valores, podemos representa-la como:

{\displaystyle R=\{r_{1},...,r_{m}\}} {\displaystyle R=\{r_{1},...,r_{m}\}}

Onde {\displaystyle r_{i}} r_i � o i-�simo valor que pode ser assumido pela
vari�vel. Cada um dos {\displaystyle m} m valores podem acontecer com probabilidade
{\displaystyle p} p, n�o necessariamente iguais. A distribui��o de probabilidades
de {\displaystyle R} R � representada como:

{\displaystyle p(R)=\{p_{1},...,p_{m}\}} {\displaystyle p(R)=\{p_{1},...,p_{m}\}}

Nesse caso {\displaystyle p_{i}} p_{i}, com {\displaystyle 1\leq i\leq m}


{\displaystyle 1\leq i\leq m}, representa a probabilidade do valor {\displaystyle
r_{i}} {\displaystyle r_{i}} acontecer. Esse tipo de distribui��o pode ser
representada com um gr�fico de barras como na figura a seguir.

Distribui��o de probabilidades de uma vari�vel discreta.


Para uma dada distribui��o de probabilidades a condi��o {\displaystyle \sum
_{i=0}^{n}p_{i}=1} {\displaystyle \sum _{i=0}^{n}p_{i}=1} � cumprida.

*
Dado duas vari�veis aleat�rias {\displaystyle X} X e {\displaystyle Y} Y, cada uma
podendo assumir quatro valores, logo {\displaystyle X=\{x_{1},x_{2},x_{3},x_{4}\}}
{\displaystyle X=\{x_{1},x_{2},x_{3},x_{4}\}} e {\displaystyle Y=\
{y_{1},y_{2},y_{3},y_{4}\}} {\displaystyle Y=\{y_{1},y_{2},y_{3},y_{4}\}}, com
distribui��es de probabilidade {\displaystyle p(X)=\
{p(x_{1}),p(x_{2}),p(x_{3}),p(x_{4})\}} {\displaystyle p(X)=\
{p(x_{1}),p(x_{2}),p(x_{3}),p(x_{4})\}} e {\displaystyle p(Y)=\
{p(y_{1}),p(y_{2}),p(y_{3}),p(y_{4})\}} {\displaystyle p(Y)=\
{p(y_{1}),p(y_{2}),p(y_{3}),p(y_{4})\}}. A distribui��o conjunta das vari�veis pode
ser determinada medindo-se a frequ�ncia de ocorr�ncia dos pares {\displaystyle
B_{ij}={x_{i},y_{j}}} {\displaystyle B_{ij}={x_{i},y_{j}}}, com {\displaystyle
i,j\leq 4} {\displaystyle i,j\leq 4}.

Medindo o n�mero de ocorr�ncias dos pares {\displaystyle B_{ij}} {\displaystyle


B_{ij}}, em uma amostragem de tamanho {\displaystyle n} n suficientemente grande, �
poss�vel determinar as probabilidades de cada par dividindo o n�mero de ocorr�ncias
de cada um deles por {\displaystyle n} n. Dando a distribui��o de probabilidades
conjunta (do ingl�s, joint probability distribution).

A distribui��o conjunta pode ser por um histograma tridimensional, como o mostrado


a seguir.

Distribui��o de probabilidade conjunta das vari�veis X e Y.


� partir da distribui��o conjunta de {\displaystyle X,Y} {\displaystyle X,Y}, �
poss�vel voltar as distribui��es de {\displaystyle X} X ou de {\displaystyle Y} Y
(chamadas de distribui��es marginais), atrav�s de um processo chamado
marginaliza��o. Por exemplo, se quisermos obter o valor da distribui��o
{\displaystyle p(X)} {\displaystyle p(X)} para {\displaystyle X=x_{i}}
{\displaystyle X=x_{i}} ent�o devemos faze-lo somando por todos os {\displaystyle
m_{y}} {\displaystyle m_{y}} valores de {\displaystyle Y} Y para {\displaystyle
X=x_{i}} {\displaystyle X=x_{i}}:

{\displaystyle p(X=x_{i})=\sum _{j=0}^{m_{y}}p(x_{i},y_{j})} {\displaystyle


p(X=x_{i})=\sum _{j=0}^{m_{y}}p(x_{i},y_{j})}

Fazendo isso fixando cada um dos poss�veis valores de $X$, obtemos a distribui��o
marginal {\displaystyle p(X)} {\displaystyle p(X)}:

{\displaystyle p(X)=\sum _{j=0}^{m_{y}}p(X,y_{j})=\


{p(x_{1}),p(x_{2}),p(x_{3}),p(x_{4})\}} {\displaystyle p(X)=\sum
_{j=0}^{m_{y}}p(X,y_{j})=\{p(x_{1}),p(x_{2}),p(x_{3}),p(x_{4})\}}

Para obter a distribui��o marginal {\displaystyle p(Y)} {\displaystyle p(Y)} basta


seguir o mesmo procedimento, fixando {\displaystyle Y} Y, em cada um de seus
poss�veis valores:

{\displaystyle p(Y)=\sum _{i=0}^{m_{x}}p(x_{i},Y)=\


{p(y_{1}),p(y_{2}),p(y_{3}),p(y_{4})\}} {\displaystyle p(Y)=\sum
_{i=0}^{m_{x}}p(x_{i},Y)=\{p(y_{1}),p(y_{2}),p(y_{3}),p(y_{4})\}}

As grandezas da Teoria da Informa��o[editar | editar c�digo-fonte]


A teoria da informa��o � baseada na teoria de probabilidades e estat�stica. Ela
preocupa-se com medidas de informa��o das distribui��es associadas com vari�veis
aleat�rias. Grandezas importantes da teoria da informa��o s�o a entropia, uma
medida de informa��o de uma �nica vari�vel aleat�ria, e informa��o m�tua, uma
medida de informa��o em comum entre das vari�veis aleat�rias.
Na formula��o das grandezas da teoria da informa��o, escolheu-se utilizar bases
logar�tmicas (para manter propriedades como a aditividade da entropia), mais
especificamente a entropia de Shannon � definida com logaritmos na base 2. A
unidade utilizada para quantificar informa��o � o bit (baseado no logaritmo base
2), muito embora outras existam, como o nat (baseada no logaritmo natural), e o
hartley (baseado no logaritmo na base 10).

Tendo citado as aplica��es da teoria da informa��o, seu contexto hist�rico de


surgimento e mencionado as grandezas envolvidas, chegou o momento de discutir mais
a fundo alguns dos conceitos bases da teoria, come�ando pela unidade de informa��o,
o bit.

Escolhendo destinos e o bit de informa��o[editar | editar c�digo-fonte]


A fim de entender de forma intuitiva o que significa dizer 1 bit de informa��o,
imagine a seguinte situa��o, um viajante, decide sair de sua cidade, no ponto
marcado com a letra "A" na figura abaixo e chegar ao seu destino no ponto "D".

Caminho percorrido pelo viajante. Em cada bifurca��o ele recebia a instru��o


esquerda (0) direita (1) at� alcan�ar seu destino final.
O caminho entre "A" e "D", possui v�rias bifurca��es (como os pontos "B" e "C"),
como o viajante desconhece o caminho, em cada cidade que ele passa (representado
pelas bifurca��es) ele pede informa��o, perguntando se deve seguir a direita ou a
esquerda. Na figura anterior dizer que ele deve seguir a esquerda � o mesmo que
mostrar o d�gito bin�rio 0 a ele, e um sinal de que deve seguir a direita o mesmo
que mostrar o d�gito1.

Dessa forma, como � poss�vel ver pela figura, ele ter� que pedir informa��o nos
pontos "A", "B" e "C", note que independente do destino ( {\displaystyle \
{000,001,011,...\}} {\displaystyle \{000,001,011,...\}}) o n�mero de perguntas para
alcan�a-lo (nesse caso) � sempre tr�s. Ou seja, escolher entre oito destinos requer
tr�s perguntas:

{\displaystyle 8{\text{ destinos}}=2^{3}{\text{ destinos}}} {\displaystyle 8{\text{


destinos}}=2^{3}{\text{ destinos}}}

Note que o o expoente do n�mero dois na equa��o anterior � igual ao n�mero de


perguntas feitas. Defini-se ent�o que para escolher entre um dos oito poss�veis
destinos � necess�ria uma quantidade de informa��o igual a {\displaystyle 3bits}
{\displaystyle 3bits}.

Aplicando logaritmo de base dois na express�o anterior, temos:

{\displaystyle 3=\log _{2}8\quad [bits]} {\displaystyle 3=\log _{2}8\quad [bits]}

� importante salientar, que como o viajante poderia ter escolhido qualquer um dos
destinos finais poss�veis, eles s�o todos equiprov�veis, com probabilidade
{\displaystyle p=1/8} {\displaystyle p=1/8}.

De forma an�loga, para o caso em que se tem {\displaystyle m} m poss�veis destinos,


e supondo que o viajante possa escolher qualquer um deles com igual probabilidade,
a quantidade de informa��o, em bits, para alcan�ar um dos poss�veis destinos � dada
pela rela��o a seguir

{\displaystyle n=\log _{2}m\quad [bits]} {\displaystyle n=\log _{2}m\quad [bits]}

Com isso conclui-se que {\displaystyle n} n bits � a informa��o necess�ria para se


escolher entre {\displaystyle m} m alternativas equiprov�veis, ou {\displaystyle
1bit} {\displaystyle 1bit} � a quantidade de informa��o necess�ria para escolher
entre duas alternativas equiprov�veis.

{\displaystyle n=\log _{2}2=1bit} {\displaystyle n=\log _{2}2=1bit}

Informa��o de Shannon (h) ou surpresa[editar | editar c�digo-fonte]


Usarei de outro exemplo para explicar a medida de Informa��o de Shannon
{\displaystyle h} h ou surpresa. Imagine nesse caso, uma moeda desonesta
(enviesada), que tem probabilidade {\displaystyle p_{cara}=0.9} {\displaystyle
p_{cara}=0.9} de dar cara e probabilidade {\displaystyle p_{coroa}=0.1}
{\displaystyle p_{coroa}=0.1} de dar coroa.

Por voc� estar acostumado que a jogada dessa moeda quase sempre d� cara, esse
resultado n�o te surpreende. Mas um resultado coroa te surpreende por conta da
"raridade" do evento. Pensando nisso, uma forma natural de se definir essa
surpresa que se tem, seria como algo proporcional ao inverso da probabilidade
{\displaystyle p} p de ocorr�ncia do evento, de modo que quando menor essa
probabilidade maior a surpresa.

Shannon definiu essa grandeza como:

{\displaystyle h=log_{2}{\dfrac {1}{p}}} {\displaystyle h=log_{2}{\dfrac {1}{p}}}

Utilizando o logaritmo na base dois mant�m-se a propriedade de aditividade dessa


grandeza.

Dessa maneira podemos calcular a surpresa da jogada da moeda retornar cara


( {\displaystyle h_{cara}} {\displaystyle h_{cara}}) ou coroa ( {\displaystyle
h_{coroa}} {\displaystyle h_{coroa}}) de acordo com a defini��o anterior.

{\displaystyle h_{cara}=log_{2}{\dfrac {1}{0.9}}=0.152} {\displaystyle


h_{cara}=log_{2}{\dfrac {1}{0.9}}=0.152}

e,

{\displaystyle h_{coroa}=log_{2}{\dfrac {1}{0.1}}=3.322} {\displaystyle


h_{coroa}=log_{2}{\dfrac {1}{0.1}}=3.322}

De fato, {\displaystyle h_{coroa}>h_{cara}} {\displaystyle h_{coroa}>h_{cara}}, que


surpresa!

Entropia (H)[editar | editar c�digo-fonte]


A fim de chegar na formula��o matem�tica da entropia, imagine por exemplo uma
vari�vel aleat�ria {\displaystyle X} X, que pode assumir dois valores distintos
{\displaystyle x_{1}} {\displaystyle x_{1}} e {\displaystyle x_{2}} x_2 com
probabilidades {\displaystyle p_{1}} p_{1} e {\displaystyle p_{2}} {\displaystyle
p_{2}}, respectivamente. Seguindo a nota��o definida na se��o: Vari�veis aleat�rias
discretas, temos:

{\displaystyle X=\{x_{1},x_{2}\}} {\displaystyle X=\{x_{1},x_{2}\}}

e,

{\displaystyle p(X)=\{p_{1},p_{2}\}} {\displaystyle p(X)=\{p_{1},p_{2}\}}

A informa��o de Shannon associada a cada um dos valores �:

{\displaystyle h_{1}=log_{2}{\dfrac {1}{p_{1}}}} {\displaystyle h_{1}=log_{2}


{\dfrac {1}{p_{1}}}}
e,

{\displaystyle h_{2}=log_{2}{\dfrac {1}{p_{2}}}} {\displaystyle h_{2}=log_{2}


{\dfrac {1}{p_{2}}}}

Na pr�tica, geralmente n�s n�o estamos interessados em saber a surpresa de um valor


em particular que uma vari�vel aleat�ria pode assumir, e sim a surpresa associada
com todos os poss�veis valores que essa vari�vel aleat�ria pode ter. De modo a
obter a surpresa associada a todos poss�veis valores que {\displaystyle X} X pode
assumir, defini-se a entropia {\displaystyle H(X)} {\displaystyle H(X)} como a
informa��o de Shannon m�dia:

{\displaystyle H(X)=p_{1}h_{1}+p_{2}h_{2}=p_{1}log_{2}{\dfrac {1}{p_{1}}}


+p_{2}log_{2}{\dfrac {1}{p_{2}}}=\sum _{i=1}^{2}p_{i}log_{2}{\dfrac {1}{p_{i}}}}
{\displaystyle H(X)=p_{1}h_{1}+p_{2}h_{2}=p_{1}log_{2}{\dfrac {1}{p_{1}}}
+p_{2}log_{2}{\dfrac {1}{p_{2}}}=\sum _{i=1}^{2}p_{i}log_{2}{\dfrac {1}{p_{i}}}}

Caso {\displaystyle X} X, possa assumir {\displaystyle m} m valores, a express�o


anterior pode ser escrita de modo mais geral.

{\displaystyle H(X)=-\sum _{i=0}^{m}p_{i}log_{2}p_{i}} {\displaystyle H(X)=-\sum


_{i=0}^{m}p_{i}log_{2}p_{i}}

A entropia do dado de seis faces[editar | editar c�digo-fonte]


Uma aplica��o direta para a equa��o da entropia definida anteriormente pode ser
obtida com o exemplo um dado de seis faces. Representando o dado pela vari�vel
aleat�ria {\displaystyle X} X, temos que:

{\displaystyle X=\{1,2,3,4,5,6\}} {\displaystyle X=\{1,2,3,4,5,6\}}

e,

{\displaystyle p(X)=\{1/6,1/6,1/6,1/6,1/6,1/6\}} {\displaystyle p(X)=\


{1/6,1/6,1/6,1/6,1/6,1/6\}}

Desse modo a entropia �:

{\displaystyle H(X)=-\sum _{i=0}^{6}p_{i}log_{2}p_{i}=-6{\dfrac {1}{6}}\log _{2}


{\dfrac {1}{6}}=2.585bits} {\displaystyle H(X)=-\sum _{i=0}^{6}p_{i}log_{2}p_{i}=-
6{\dfrac {1}{6}}\log _{2}{\dfrac {1}{6}}=2.585bits}

Moeda boa, moeda m�[editar | editar c�digo-fonte]


Considere a moeda honesta, representada pela vari�vel aleat�ria {\displaystyle
M_{1}} {\displaystyle M_{1}}:

{\displaystyle M_{1}=\{cara,coroa\}=\{0,1\}} {\displaystyle M_{1}=\{cara,coroa\}=\


{0,1\}}

e,

{\displaystyle p(M_{1})=\{p_{cara}=0.5,p_{coroa}=0.5\}} {\displaystyle p(M_{1})=\


{p_{cara}=0.5,p_{coroa}=0.5\}}

E a moeda enviesada, como aquela utilizada para exemplificar a informa��o de


Shannon, representada pela vari�vel aleat�ria {\displaystyle M_{2}} {\displaystyle
M_{2}}.

{\displaystyle M_{2}=\{cara,coroa\}=\{0,1\}} {\displaystyle M_{2}=\{cara,coroa\}=\


{0,1\}}
e,

{\displaystyle p(M_{2})=\{p_{cara}=0.9,p_{coroa}=0.1\}} {\displaystyle p(M_{2})=\


{p_{cara}=0.9,p_{coroa}=0.1\}}

Note que um resultado cara � representado pelo d�gito 0 e um resultado coroa por
um d�gito 1. A entropia de cada uma das moedas pode ser calculada, sendo ent�o:

{\displaystyle H(M_{1})=-\sum _{i=0}^{2}p{i}log_{2}p_{i}=-2{\dfrac {1}{2}}\log _{2}


{\dfrac {1}{2}}=1bit} {\displaystyle H(M_{1})=-\sum _{i=0}^{2}p{i}log_{2}p_{i}=-
2{\dfrac {1}{2}}\log _{2}{\dfrac {1}{2}}=1bit}

e,

{\displaystyle H(M_{2})=-\sum _{i=0}^{2}p{i}log_{2}p_{i}=-(0.9\log _{2}0.9+0.1\log


_{2}0.1)=0.469bits} {\displaystyle H(M_{2})=-\sum _{i=0}^{2}p{i}log_{2}p_{i}=-
(0.9\log _{2}0.9+0.1\log _{2}0.1)=0.469bits}

Nesse caso a entropia da moeda honesta � maior do que a da moeda desonesta, mas
qual o significado disso? O que a medida de entropia pode me dizer? Essas quest�es
ser�o abordadas na pr�xima se��o, onde uma abordagem conceitual de entropia ser�
tratada.

Uma vis�o conceitual da grandeza entropia[editar | editar c�digo-fonte]


Fundamentalmente a entropia � uma medida de incerteza. Isso pode ser visto no
exemplo anterior, na moeda honesta � muito dif�cil dizer qual ser� o resultado
antes de joga-la, algu�m pode arriscar dizer que o resultado ser� cara ou coroa,
mas a incerteza continua maior do que no caso da moeda enviesada (logo com entropia
tamb�m maior), onde podemos prever com certa tranquilidade que o resultado da
jogada ser� cara.

No fundo, essa incerteza est� ligada � previsibilidade do valor que ser� assumido
por uma dada vari�vel aleat�ria, prever um valor sorteado entre 100 valores
equiprov�veis (por exemplo, adivinhar o n�mero que sa�ra em um dado de 100 faces) �
mais dif�cil do que prever esse valor, caso esse dado seja enviesado e uma das
faces tenha probabilidade alta de aparecer.

Agora sabemos tamb�m que a entropia � uma medida de informa��o, como uma coisa se
relaciona a outra?

Justamente por ter mais incerteza sobre a poss�vel sa�da de uma vari�vel aleat�ria,
voc� precisa de mais informa��o, para "advinhar" essa sa�da. Isso � an�logo ao
n�mero de perguntas que o nosso viajante da se��o "Escolhendo destinos e o bit de
informa��o" teve de fazer para chegar ao seu destino. Desse modo quanto maior a
entropia maior a incerteza e maior a informa��o que voc� precisa para "advinhar"
uma poss�vel sa�da que a vari�vel aleat�ria pode apresentar.

Para ilustrar o que foi dito, considere a seguinte situa��o, estacionaram seu carro
em um estacionamento de 8 vagas dispostas como no desenho abaixo, para adivinhar em
que vaga ele est� voc� tem permiss�o de realizar perguntas sim ou n�o.

Esquema do estacionamento.
Voc� pode come�ar: "O carro est� na direita?", caso a resposta seja sim, isso
restringe as poss�veis vagas pela metade, sendo elas as vagas 3, 4, 7 e 8. A
pr�xima perguntar pode ser: "O carro est� ao norte?", com uma resposta n�o, restam
duas possibilidades, a vaga 7 ou 8. Uma ultima pergunta: "O carro est� a direita?",
basta para determinar em qual delas seu carro est�. Nesse caso cada resposta
sim/n�o te da 1 bit de informa��o. Como s�o necess�rias tr�s perguntamos podemos
dizer que a entropia {\displaystyle H} {\displaystyle H} � igual a 3 bits.

Assim fica f�cil entender a ideia de que a entropia est� relacionada com a
quantidade de informa��o necess�ria para "advinhar" a resposta (ou uma poss�vel
sa�da de uma vari�vel aleat�ria).

No exemplo das vagas, como a probabilidade do carro estar em qualquer uma das vagas
� igual, cada bit de informa��o diminui o n�mero de respostas poss�veis pela
metade.

Entropia da distribui��o conjunta[editar | editar c�digo-fonte]


A defini��o de entropia para uma distribui��o conjunta {\displaystyle P(X,Y)}
{\displaystyle P(X,Y)} pode ser obtida de forma direta da defini��o de entropia,
por analogia, sendo:

{\displaystyle H(X,Y)=-\sum _{i=0}^{m_{x}}\sum _{j=0}^{m_{y}}p_{ij}\log _{2}p_{ij}}


{\displaystyle H(X,Y)=-\sum _{i=0}^{m_{x}}\sum _{j=0}^{m_{y}}p_{ij}\log _{2}p_{ij}}

Onde {\displaystyle p_{ij}} {\displaystyle p_{ij}} � a probabilidade de ocorr�ncia


do par {\displaystyle B_{ij}={x_{i},y_{j}}} {\displaystyle B_{ij}={x_{i},y_{j}}}.
Essa defini��o � de particular import�ncia para quando definirmos informa��o m�tua.

Teorema de codifica��o da fonte[editar | editar c�digo-fonte]


O teorema de codifica��o da fonte � fundamental para todos os meios de comunica��o,
uma vez que ele estabelece limites de como mensagens podem ser transmitidas e al�m
disso, ele mostra que existem maneiras mais e menos eficientes de se fazer isso,
dependendo da mensagem enviada. Aqui apenas uma ideia do que ele se trata ser�
dada, para entendimento maior consulte as refer�ncias.

Antes de mais nada considere um canal, sem fonte de ru�do, onde uma mensagem �
codificada em sua fonte (source) por um encoder, enviada pelo canal at� seu
destino, decodificada por um decoder e interpretada pela pessoa alvo.

Esquema de um canal sem ru�do.


Define-se a Capacidade do canal {\displaystyle C} {\displaystyle C} como sendo
numericamente igual ao n�mero de d�gitos bin�rios comunicados por segundo. Se
tivermos 1 bit por d�gito bin�rio a capacidade � definida em unidades de bits por
segundo. Essa defini��o pode ser mais bem explorada matematicamente, mas para os
fins aqui propostos, a defini��o dada � suficiente.

\par Dada as defini��es, imagine que se deseja transmitir uma s�rie de $m$
s�mbolos, representados pela vari�vel {\displaystyle S=\{s_{1},..,s_{m}\}}
{\displaystyle S=\{s_{1},..,s_{m}\}}, sendo {\displaystyle p(S)} {\displaystyle
p(S)} a distribui��o de probabilidades de {\displaystyle S} {\displaystyle S} e
{\displaystyle H(S)} {\displaystyle H(S)} sua entropia. O teorema de codifica��o
da fonte pode ser enunciado como segue:

"Dada a distribui��o $S$ com entropia $H(S)$, medida em bits por simbolo $s$, e um
canal com capacidade $C$ bits por segundo. Ent�o � poss�vel codificar os s�mbolos
$s$ enviados pela fonte de tal modo que a mensagem seja transmitida na capacidade
m�xima $C$ do canal."

Enviando n�meros de 1 a 8[editar | editar c�digo-fonte]


Imagine uma fonte que envia n�meros de 1 a 8, com igual probabilidade
{\displaystyle p=1/8} {\displaystyle p=1/8}, ent�o temos nossa vari�vel
{\displaystyle S=\{1,2,3,4,5,6,7,8\}} {\displaystyle S=\{1,2,3,4,5,6,7,8\}},
podemos determinar a entropia de {\displaystyle S} {\displaystyle S}como sendo
{\displaystyle H(S)=3{\mathtt {bits/s{\acute {i}}mbolo}}} {\displaystyle
H(S)=3{\mathtt {bits/s{\acute {i}}mbolo}}}.

Caso os n�meros sejam transmitidos por um canal com capacidade {\displaystyle


C=3bits/s} {\displaystyle C=3bits/s}, o teorema de codifica��o da fonte garante
que existe um modo de codificar os s�mbolos em {\displaystyle S} {\displaystyle S}
de modo tal que eles sejam transmitidos com capacidade m�xima {\displaystyle C}
{\displaystyle C}, no caso 3 bits/s.

Um modo de codificar os valores de 1 a 8, seria representa-los por n�meros bin�rios


de {\displaystyle 3=log_{2}8} {\displaystyle 3=log_{2}8} d�gitos bin�rios, como na
tabela a seguir, que indica o simbolo e sua respectivo c�digo.

Simbolo C�digo
1 000
2 001
3 010
4 011
5 100
6 101
7 110
8 111
Sendo {\displaystyle L} {\displaystyle L} o n�mero de d�gitos bin�rios utilizado
por c�digo para cada simbolo de {\displaystyle S} {\displaystyle S}. A efici�ncia
{\displaystyle \epsilon } {\displaystyle \epsilon } � um n�mero entre 0 e 1,
calculada como a raz�o da entropia de {\displaystyle S} {\displaystyle S} por
{\displaystyle L} {\displaystyle L}.

{\displaystyle \epsilon ={\dfrac {H}{L}}} {\displaystyle \epsilon ={\dfrac {H}{L}}}

Nesse caso,

{\displaystyle \epsilon ={\dfrac {3{\mathtt {bits/s{\acute {i}}mbolo}}}{3{\mathtt


{d{\acute {i}}gitosbin{\acute {a}}rios/s{\acute {i}}mbolo}}}}=1{\mathtt
{bit/d{\acute {i}}gitosbin{\acute {a}}rios}}} {\displaystyle \epsilon ={\dfrac
{3{\mathtt {bits/s{\acute {i}}mbolo}}}{3{\mathtt {d{\acute {i}}gitosbin{\acute
{a}}rios/s{\acute {i}}mbolo}}}}=1{\mathtt {bit/d{\acute {i}}gitosbin{\acute
{a}}rios}}}

Para esse caso simples � muito f�cil encontrar a codifica��o necess�ria para
transmitir os s�mbolos com m�xima efici�ncia. Mas para maioria dos casos n�o �
assim, e s�o necess�rios algoritmos mais rebuscados, como por exemplo a codifica��o
de Huffman, que n�o ser� discutida aqui, mas consiste em codificar os s�mbolos mais
frequentes com c�digos mais simples (que usam menos d�gitos bin�rios por exemplo).
O c {\displaystyle Y} {\displaystyle Y}�digo Morse (figura abaixo), se baseia nesse
princ�pio, onde letras como o E mais frequentes na l�ngua inglesa s�o representados
por sequ�ncia mais simples, e outras letras menos frequentes como o J por
sequ�ncias mais complicadas, isso ajuda a aumentar a efici�ncia com a qual a
mensagem � enviada.

C�digo Morse.
� importante salientar que o c�digo Morse precede o artigo de Shannon, sendo
portanto desconhecidos esses limites te�ricos para comunicar informa��o.

Informa��o M�tua[editar | editar c�digo-fonte]


Considera��es Iniciais[editar | editar c�digo-fonte]
Dado duas vari�veis aleat�rias {\displaystyle X} {\displaystyle X} e , a informa��o
m�tua {\displaystyle I(X,Y)} {\displaystyle I(X,Y)} entre elas, � a quantidade de
informa��o m�dia que ganhamos sobre {\displaystyle Y} {\displaystyle Y} ap�s
observar um valor isolado de {\displaystyle X} {\displaystyle X}

A informa��o m�tua entre {\displaystyle X} {\displaystyle X} e {\displaystyle Y}


{\displaystyle Y} � definida como:

{\displaystyle I(X,Y)=\sum _{i=1}^{m_{x}}\sum _{j=1}^{m_{y}}p(x_{i},y_{j})\log _{2}


{\dfrac {p(x_{i},y_{j})}{p(x_{i})p(y_{j})}}} {\displaystyle I(X,Y)=\sum
_{i=1}^{m_{x}}\sum _{j=1}^{m_{y}}p(x_{i},y_{j})\log _{2}{\dfrac {p(x_{i},y_{j})}
{p(x_{i})p(y_{j})}}}

Para {\displaystyle m_{x}} {\displaystyle m_{x}} valores de {\displaystyle X}


{\displaystyle X} e {\displaystyle m_{y}} {\displaystyle m_{y}} valores de
{\displaystyle Y} {\displaystyle Y}. A express�o anterior pode ser trabalhada de
forma a ser escrita como:

{\displaystyle H(X,Y)=H(X)+H(Y)-I(X,Y)} {\displaystyle H(X,Y)=H(X)+H(Y)-I(X,Y)}

Onde {\displaystyle H(X,Y)} {\displaystyle H(X,Y)} � entropia da distribui��o


conjunta dada j� definida anteriormente.

Entropia condicional[editar | editar c�digo-fonte]


Um modo alternativo de enxergar o conceito de informa��o m�tua pode ser obtido
considerando-se a entropia da sa�da em rela��o ao ru�do do canal. Se n�o conhecemos
o valor da entrada {\displaystyle X} {\displaystyle X} ent�o nossa incerteza sobre
o valor de {\displaystyle Y} {\displaystyle Y} � dado por sua entropia
{\displaystyle H(Y)} {\displaystyle H(Y)}. Mas se conhecemos o valor de
{\displaystyle X} {\displaystyle X} ent�o nossa incerteza sobre {\displaystyle Y}
{\displaystyle Y} � reduzida de {\displaystyle H(Y)} {\displaystyle H(Y)} para um
valor chamado de entropia condicional {\displaystyle H(Y|X)} {\displaystyle H(Y|
X)}, que � a incerteza m�dia do valor de {\displaystyle Y} {\displaystyle Y} ap�s
{\displaystyle X} {\displaystyle X} ser observado. Assim:

{\displaystyle I(X,Y)=H(Y)-H(Y|X)} {\displaystyle I(X,Y)=H(Y)-H(Y|X)}

Como informa��o m�tua e uma grandeza sim�trica:

{\displaystyle I(Y,X)=H(X)-H(X|Y)} {\displaystyle I(Y,X)=H(X)-H(X|Y)}

Onde {\displaystyle H(X,Y)} {\displaystyle H(X,Y)} � a incerteza m�dia que temos


sobre o valor de {\displaystyle X} {\displaystyle X} ap�s temos observado
{\displaystyle Y} {\displaystyle Y}, e portanto a incerteza m�dia em {\displaystyle
X} {\displaystyle X} que n�o pode ser atribu�da a {\displaystyle Y} {\displaystyle
Y}.

Independ�ncia Estat�stica[editar | editar c�digo-fonte]


Se {\displaystyle X} {\displaystyle X} e {\displaystyle Y} {\displaystyle Y} s�o
estatisticamente independentes, ent�o conhecer um valor de {\displaystyle X}
{\displaystyle X} n�o nos d� nenhuma informa��o sobre {\displaystyle Y}
{\displaystyle Y} e vice versa. Nesse caso cada valor de probabilidade da
distribui��o conjunta pode ser escrito como:

{\displaystyle p(x_{i},y_{j})=p(x_{i})p(y_{j})} {\displaystyle


p(x_{i},y_{j})=p(x_{i})p(y_{j})}

Substituindo na defini��o de informa��o m�tua, e realizando algumas manipula��es


temos:

{\displaystyle H(X)+H(Y)-H(X,Y)=0} {\displaystyle H(X)+H(Y)-H(X,Y)=0}


O que significa que {\displaystyle I(X,Y)=0} {\displaystyle I(X,Y)=0}, como
esperado.

Entropia condicional e ru�do[editar | editar c�digo-fonte]


Diferente do que se considerou na se��o onde tratamos do teorema de codifica��o da
fonte, os canais geralmente possuem ru�do (figura abaixo). Por esse motivo se
considera que a sa�da do canal {\displaystyle Y} {\displaystyle Y} � igual a
entrada {\displaystyle X} {\displaystyle X} mas um ru�do do canal {\displaystyle
\eta } {\displaystyle \eta }, � poss�vel achar uma express�o do ru�do do canal como
a seguir.

Esquema de canal com ru�do.


{\displaystyle Y=X+\eta } {\displaystyle Y=X+\eta }

Da express�o {\textstyle I(X,Y)=H(Y)-H(Y|X)} {\textstyle I(X,Y)=H(Y)-H(Y|X)} nos


leva a:

{\displaystyle I(X,Y)=H(Y)-H([X+\eta ]|X)} {\displaystyle I(X,Y)=H(Y)-H([X+\eta ]|


X)}

Se o valor de {\displaystyle X} {\displaystyle X} � conhecido, ent�o a incerteza em


{\displaystyle X} {\displaystyle X} � zero, logo ele n�o tem nenhuma contribui��o
na entropia condicional {\displaystyle H([X+\eta ]|X)} {\displaystyle H([X+\eta ]|
X)}, dando:

{\displaystyle I(X,Y)=H(Y)-H(\eta |X)} {\displaystyle I(X,Y)=H(Y)-H(\eta |X)}

Entretanto o valor do ru�do {\displaystyle \eta } {\displaystyle \eta } �


independente do valor de {\displaystyle X} {\displaystyle X}, logo {\displaystyle
H(\eta |X)=H(\eta )} {\displaystyle H(\eta |X)=H(\eta )}, o que nos permite
reescrever a equa��o anterior como:

{\displaystyle I(X,Y)=H(Y)-H(\eta )} {\displaystyle I(X,Y)=H(Y)-H(\eta )}

Comparando as equa��es {\textstyle I(X,Y)=H(Y)-H(Y|X)} {\textstyle I(X,Y)=H(Y)-H(Y|


X)} e a anterior podemos concluir que:

{\displaystyle H(Y|X)=H(\eta )} {\displaystyle H(Y|X)=H(\eta )}

Logo, a entropia do ru�do � igual a entropia condicional {\displaystyle H(Y|X)}


{\displaystyle H(Y|X)}.

Refer�ncias[editar | editar c�digo-fonte]


[1] Stone J. (2014). Information Theory: A Tutorial Introduction. Sheffield: Sebtel
Press.

[2] MacKay D. (2003). Information Theory, Inference, and Learning Algorithms.


Cambridge: Cambridge University Press.

[3] Shannon C., Weaver W. (1949). The Mathematical Theory of Communication. Urbana,
IL: University of Illinois Press.

[4] Borst, A. \& Theunissen, F. Information theory and neural coding. Nature
Neurosci. 2, 947�957

(1999).
[5] Tononi, 2012 Integrated information theory of consciousness: an updated
account

Arch. Ital. Biol., 150 (2012), pp. 56�90.

Você também pode gostar