Escolar Documentos
Profissional Documentos
Cultura Documentos
informa��o. Ela foi originalmente proposta por Claude E. Shannon em 1948 para achar
os limites fundamentais no processamento de sinais e opera��es de comunica��o como
as de compress�o de dados, em um artigo divisor de �guas intitulado "A Mathematical
Theory of Communication". Agora essa teoria tem v�rias aplica��es nas mais diversas
�reas, incluindo infer�ncia estat�stica, processamento de linguagem natural,
criptografia, neuroci�ncia computacional, evolu��o, computa��o qu�ntica, dentre
outras.
�ndice [esconder]
1 Contexto hist�rico
2 Vari�veis aleat�rias discretas
3 As grandezas da Teoria da Informa��o
3.1 Escolhendo destinos e o bit de informa��o
3.2 Informa��o de Shannon (h) ou surpresa
3.3 Entropia (H)
3.3.1 A entropia do dado de seis faces
3.3.2 Moeda boa, moeda m�
4 Uma vis�o conceitual da grandeza entropia
5 Entropia da distribui��o conjunta
6 Teorema de codifica��o da fonte
6.1 Enviando n�meros de 1 a 8
7 Informa��o M�tua
7.1 Considera��es Iniciais
7.2 Entropia condicional
7.3 Independ�ncia Estat�stica
7.4 Entropia condicional e ru�do
8 Refer�ncias
9 Ver tamb�m
10 Liga��es externas
Contexto hist�rico[editar | editar c�digo-fonte]
O marco que estabeleceu a teoria da informa��o e chamou imediatamente a aten��o
mundial foi o artigo A Mathematical Theory of Communication escrito por Claude
Shannon de julho a outubro de 1948.
Antes deste artigo, algumas abordagens te�ricas ainda que limitadas vinham sendo
desenvolvidas nos laborat�rios da Bell, todas implicitamente assumindo eventos de
igual probabilidade. O artigo Certain Factors Affecting Telegraph Speed de Harry
Nyquist escrito em 1924 cont�m uma se��o te�rica que quantifica intelig�ncia e a
velocidade de transmiss�o pela qual ela pode ser transmitida por um sistema de
comunica��o, estabelecendo a rela��o {\displaystyle W=K\log {m}} {\displaystyle
W=K\log {m}}, onde {\displaystyle W} W � a velocidade de transmiss�o da
intelig�ncia, {\displaystyle m} m � o n�mero de n�veis de tens�o para cada
intervalo de tempo, e {\displaystyle K} K � uma constante. Em 1928, Ralph Hartley
publicou o artigo Transmission of Information, onde aparece a palavra informa��o
como uma quantidade mensur�vel que a capacidade do destinat�rio distinguir
diferentes sequ�ncias de s�mbolos, levando � express�o {\displaystyle H=\log
{S^{n}}=n\log {S}} {\displaystyle H=\log {S^{n}}=n\log {S}}, onde {\displaystyle S}
S e {\displaystyle n} n representam, respectivamente, o n�mero de s�mbolos
poss�veis e o n�mero de s�mbolos na transmiss�o. Inicialmente, a unidade natural da
transmiss�o foi definida como sendo o d�gito decimal, sendo, posteriormente,
renomeada para hartley em uma clara homenagem. Alan Turing em 1940, durante a 2�
Guerra Mundial, aplicou ideias similares como parte da an�lise estat�stica para
decifrar a criptografia da m�quina alem� Enigma.
Boa parte da matem�tica por tr�s da teoria da informa��o com eventos de diferentes
probabilidades foi desenvolvida para os campos da termodin�mica por Ludwig
Boltzmann e J. Willard Gibbs. As conex�es entre as entropias da informa��o e
termodin�mica, incluindo as importantes contribui��es de Rolf Landauer na d�cada de
1960, s�o exploradas na Entropia termodin�mica e teoria da informa��o.
Onde {\displaystyle r_{i}} r_i � o i-�simo valor que pode ser assumido pela
vari�vel. Cada um dos {\displaystyle m} m valores podem acontecer com probabilidade
{\displaystyle p} p, n�o necessariamente iguais. A distribui��o de probabilidades
de {\displaystyle R} R � representada como:
*
Dado duas vari�veis aleat�rias {\displaystyle X} X e {\displaystyle Y} Y, cada uma
podendo assumir quatro valores, logo {\displaystyle X=\{x_{1},x_{2},x_{3},x_{4}\}}
{\displaystyle X=\{x_{1},x_{2},x_{3},x_{4}\}} e {\displaystyle Y=\
{y_{1},y_{2},y_{3},y_{4}\}} {\displaystyle Y=\{y_{1},y_{2},y_{3},y_{4}\}}, com
distribui��es de probabilidade {\displaystyle p(X)=\
{p(x_{1}),p(x_{2}),p(x_{3}),p(x_{4})\}} {\displaystyle p(X)=\
{p(x_{1}),p(x_{2}),p(x_{3}),p(x_{4})\}} e {\displaystyle p(Y)=\
{p(y_{1}),p(y_{2}),p(y_{3}),p(y_{4})\}} {\displaystyle p(Y)=\
{p(y_{1}),p(y_{2}),p(y_{3}),p(y_{4})\}}. A distribui��o conjunta das vari�veis pode
ser determinada medindo-se a frequ�ncia de ocorr�ncia dos pares {\displaystyle
B_{ij}={x_{i},y_{j}}} {\displaystyle B_{ij}={x_{i},y_{j}}}, com {\displaystyle
i,j\leq 4} {\displaystyle i,j\leq 4}.
Fazendo isso fixando cada um dos poss�veis valores de $X$, obtemos a distribui��o
marginal {\displaystyle p(X)} {\displaystyle p(X)}:
Dessa forma, como � poss�vel ver pela figura, ele ter� que pedir informa��o nos
pontos "A", "B" e "C", note que independente do destino ( {\displaystyle \
{000,001,011,...\}} {\displaystyle \{000,001,011,...\}}) o n�mero de perguntas para
alcan�a-lo (nesse caso) � sempre tr�s. Ou seja, escolher entre oito destinos requer
tr�s perguntas:
� importante salientar, que como o viajante poderia ter escolhido qualquer um dos
destinos finais poss�veis, eles s�o todos equiprov�veis, com probabilidade
{\displaystyle p=1/8} {\displaystyle p=1/8}.
Por voc� estar acostumado que a jogada dessa moeda quase sempre d� cara, esse
resultado n�o te surpreende. Mas um resultado coroa te surpreende por conta da
"raridade" do evento. Pensando nisso, uma forma natural de se definir essa
surpresa que se tem, seria como algo proporcional ao inverso da probabilidade
{\displaystyle p} p de ocorr�ncia do evento, de modo que quando menor essa
probabilidade maior a surpresa.
e,
e,
e,
e,
Note que um resultado cara � representado pelo d�gito 0 e um resultado coroa por
um d�gito 1. A entropia de cada uma das moedas pode ser calculada, sendo ent�o:
e,
Nesse caso a entropia da moeda honesta � maior do que a da moeda desonesta, mas
qual o significado disso? O que a medida de entropia pode me dizer? Essas quest�es
ser�o abordadas na pr�xima se��o, onde uma abordagem conceitual de entropia ser�
tratada.
No fundo, essa incerteza est� ligada � previsibilidade do valor que ser� assumido
por uma dada vari�vel aleat�ria, prever um valor sorteado entre 100 valores
equiprov�veis (por exemplo, adivinhar o n�mero que sa�ra em um dado de 100 faces) �
mais dif�cil do que prever esse valor, caso esse dado seja enviesado e uma das
faces tenha probabilidade alta de aparecer.
Agora sabemos tamb�m que a entropia � uma medida de informa��o, como uma coisa se
relaciona a outra?
Justamente por ter mais incerteza sobre a poss�vel sa�da de uma vari�vel aleat�ria,
voc� precisa de mais informa��o, para "advinhar" essa sa�da. Isso � an�logo ao
n�mero de perguntas que o nosso viajante da se��o "Escolhendo destinos e o bit de
informa��o" teve de fazer para chegar ao seu destino. Desse modo quanto maior a
entropia maior a incerteza e maior a informa��o que voc� precisa para "advinhar"
uma poss�vel sa�da que a vari�vel aleat�ria pode apresentar.
Para ilustrar o que foi dito, considere a seguinte situa��o, estacionaram seu carro
em um estacionamento de 8 vagas dispostas como no desenho abaixo, para adivinhar em
que vaga ele est� voc� tem permiss�o de realizar perguntas sim ou n�o.
Esquema do estacionamento.
Voc� pode come�ar: "O carro est� na direita?", caso a resposta seja sim, isso
restringe as poss�veis vagas pela metade, sendo elas as vagas 3, 4, 7 e 8. A
pr�xima perguntar pode ser: "O carro est� ao norte?", com uma resposta n�o, restam
duas possibilidades, a vaga 7 ou 8. Uma ultima pergunta: "O carro est� a direita?",
basta para determinar em qual delas seu carro est�. Nesse caso cada resposta
sim/n�o te da 1 bit de informa��o. Como s�o necess�rias tr�s perguntamos podemos
dizer que a entropia {\displaystyle H} {\displaystyle H} � igual a 3 bits.
Assim fica f�cil entender a ideia de que a entropia est� relacionada com a
quantidade de informa��o necess�ria para "advinhar" a resposta (ou uma poss�vel
sa�da de uma vari�vel aleat�ria).
No exemplo das vagas, como a probabilidade do carro estar em qualquer uma das vagas
� igual, cada bit de informa��o diminui o n�mero de respostas poss�veis pela
metade.
Antes de mais nada considere um canal, sem fonte de ru�do, onde uma mensagem �
codificada em sua fonte (source) por um encoder, enviada pelo canal at� seu
destino, decodificada por um decoder e interpretada pela pessoa alvo.
\par Dada as defini��es, imagine que se deseja transmitir uma s�rie de $m$
s�mbolos, representados pela vari�vel {\displaystyle S=\{s_{1},..,s_{m}\}}
{\displaystyle S=\{s_{1},..,s_{m}\}}, sendo {\displaystyle p(S)} {\displaystyle
p(S)} a distribui��o de probabilidades de {\displaystyle S} {\displaystyle S} e
{\displaystyle H(S)} {\displaystyle H(S)} sua entropia. O teorema de codifica��o
da fonte pode ser enunciado como segue:
"Dada a distribui��o $S$ com entropia $H(S)$, medida em bits por simbolo $s$, e um
canal com capacidade $C$ bits por segundo. Ent�o � poss�vel codificar os s�mbolos
$s$ enviados pela fonte de tal modo que a mensagem seja transmitida na capacidade
m�xima $C$ do canal."
Simbolo C�digo
1 000
2 001
3 010
4 011
5 100
6 101
7 110
8 111
Sendo {\displaystyle L} {\displaystyle L} o n�mero de d�gitos bin�rios utilizado
por c�digo para cada simbolo de {\displaystyle S} {\displaystyle S}. A efici�ncia
{\displaystyle \epsilon } {\displaystyle \epsilon } � um n�mero entre 0 e 1,
calculada como a raz�o da entropia de {\displaystyle S} {\displaystyle S} por
{\displaystyle L} {\displaystyle L}.
Nesse caso,
Para esse caso simples � muito f�cil encontrar a codifica��o necess�ria para
transmitir os s�mbolos com m�xima efici�ncia. Mas para maioria dos casos n�o �
assim, e s�o necess�rios algoritmos mais rebuscados, como por exemplo a codifica��o
de Huffman, que n�o ser� discutida aqui, mas consiste em codificar os s�mbolos mais
frequentes com c�digos mais simples (que usam menos d�gitos bin�rios por exemplo).
O c {\displaystyle Y} {\displaystyle Y}�digo Morse (figura abaixo), se baseia nesse
princ�pio, onde letras como o E mais frequentes na l�ngua inglesa s�o representados
por sequ�ncia mais simples, e outras letras menos frequentes como o J por
sequ�ncias mais complicadas, isso ajuda a aumentar a efici�ncia com a qual a
mensagem � enviada.
C�digo Morse.
� importante salientar que o c�digo Morse precede o artigo de Shannon, sendo
portanto desconhecidos esses limites te�ricos para comunicar informa��o.
[3] Shannon C., Weaver W. (1949). The Mathematical Theory of Communication. Urbana,
IL: University of Illinois Press.
[4] Borst, A. \& Theunissen, F. Information theory and neural coding. Nature
Neurosci. 2, 947�957
(1999).
[5] Tononi, 2012 Integrated information theory of consciousness: an updated
account