Você está na página 1de 16

Probabilidade e Estatstica I Antonio Roque Aula 18

Introduo Teoria da Informao

O conceito de quantidade de informao associada a um evento foi introduzido


pelo engenheiro norte-americano Claude Shannon em seu livro Uma Teoria
Matemtica da Comunicao, publicado em 1948. Uma verso integral desse
livro pode ser obtida no seguinte site da Bell-labs (atualmente Lucent
Technologies), que a empresa para a qual Shannon trabalhava: http://cm.bell-
labs.com/cm/ms/what/shannonday/paper.html. Muitas outras referncias sobre a
teoria da informao podem ser obtidas pela Internet. Basta digitar information
theory em algum programa de busca.

O conceito de informao de difcil definio, pois engloba diferentes


significados. O que Shannon props foi uma definio matemtica de
informao. A idia geral a seguinte. Suponha que temos uma fonte de
informao que pode produzir trs smbolos diferentes: A, B e C. Os smbolos
so enviados pela fonte em seqncia, um aps o outro, em qualquer ordem. Por
exemplo: BBCACBAAABCCCABACABABBBCAAACABCAABAAB

Enquanto esperamos pelo prximo smbolo, estamos incertos sobre qual ser ele:
A, B ou C. Porm, quando o smbolo aparece a nossa incerteza diminui. Podemos
dizer que recebemos uma informao. Segundo esta viso, informao uma
diminuio na incerteza.

Se, por exemplo, a fonte s emitisse um smbolo: AAAA..., por exemplo, a nossa
incerteza sobre o prximo smbolo seria nula e a quantidade de informao ganha
pela apario de mais um novo smbolo A seria nula. Porm, se aps uma longa
seqncia de As aparecesse um B a nossa surpresa seria enorme e atribuiramos a
esse evento uma grande quantidade de informao. Segundo este raciocnio,
quanto mais raro um evento maior a quantidade de informao carregada por ele.
Em termos de probabilidades, poderamos dizer que eventos muito provveis
carregam pouca informao e eventos pouco provveis carregam muita
informao.

1
Probabilidade e Estatstica I Antonio Roque Aula 18
A definio feita por Shannon para a quantidade de informao associada a um
evento i em uma seqncia de eventos a seguinte. Se a probabilidade de
ocorrncia do evento i na seqncia for dada por pi, ento a quantidade de
informao Ii associada ao evento i ,
1
I i = log .
pi
Porqu foi usada a funo logaritmo? Uma primeira explicao que o logaritmo
uma funo crescente do seu argumento. Portanto, log(x) cresce com x. As
figuras abaixo mostram, os grficos das funes log10(x) e log2(x).

1.5

0.5

0
0 1 2 3 4 5 6 7 8 9 101112131415161718192021222324252627282930

6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 101112131415161718192021222324252627282930

Observe que a base do logaritmo altera o valor da funo, mas o seu


comportamento, em qualquer caso, basicamente o mesmo. A funo log(x)
crescente e vale zero para x = 1.

O fato de que log(1) = 0 compatvel com a noo de informao associada a um


evento apresentada acima. Um evento i cuja probabilidade de ocorrncia pi = 1
no traz qualquer informao consigo. Pela definio de Shannon, a quantidade
de informao associada a ele Ii = log(1/1) = log(1) = 0.

2
Probabilidade e Estatstica I Antonio Roque Aula 18
Por outro lado, um evento cuja probabilidade de ocorrncia seja muito pequena
tem uma grande quantidade de informao associada a ele, pois 1/pi cresce com a
diminuio de pi e, portanto, log(1/pi) cresce com a diminuio de pi.

Uma segunda explicao para o uso da funo logaritmo vem do fato de que
log(ab) = log a + log b ,
ou seja, o logaritmo do produto igual soma dos logaritmos. Esta propriedade
til para podermos calcular a quantidade de informao associada ocorrncia de
dois eventos, a e b. Quando duas fontes distintas emitem seqncias de sinais e,
num dado momento, os sinais que vemos das duas fontes so a e b, com suas
respectivas quantidades de informao sendo Ia e Ib, ento a nossa noo de
quantidade de informao associada observao dos dois sinais a de que ela
igual soma das quantidades de informao associadas aos eventos a e b
individualmente (quando os eventos a e b so independentes). exatamente isto
que a funo logaritmo implementa:

1 1 1 1 1
I ab = log = log = log + log = I a + I b .
pab pa pb pa pb

Dizemos que a quantidade de informao associada a um evento uma medida


aditiva.

Pode-se usar o logaritmo em qualquer base para se calcular a quantidade de


informao, desde que se use a mesma base para todos os clculos. A base usada
determina a unidade em que se mede a quantidade de informao. Se for usada a
base 2, a unidade o bit. Se for usada a base natural e, a unidade o nat. Se for
usada a base 10, a unidade no recebe um nome especial.

Em geral, as calculadoras e os programas de computador no nos do os valores


dos logaritmos na base 2. Porm, pode-se passar um logaritmo em qualquer base
para a base 2 usando o mtodo de mudana de base de logaritmos dado a seguir:

3
Probabilidade e Estatstica I Antonio Roque Aula 18
Pela definio de logaritmo, log a b = c significa que b = a c . Tomando o
c
logaritmo na base n desta ltima expresso, log n b = log n a = c log n a , mas

c = log a b . Logo, log a b = log n b log n a . Portanto, para passar de um logaritmo


na base z para um logaritmo na base 2,

log 2 b = log z b log z 2 .


Por exemplo, se z = 10 log10 2 = 0,30103 , o que implica que:

log 2 b = 3,323 x log10 b ,


isto , para passar de um log na base 10 (que pode ser calculado com qualquer
caluladora) para um log na base 2, basta multiplicar pelo fator 3,323.

Vamos voltar ao nosso exemplo inicial em que uma fonte pode emitir apenas os
smbolos A, B e C. Vamos supor que observamos os smbolos emitidos pela
fonte durante um longo tempo, de maneira que pudemos contar um total de N
smbolos emitidos. Ento, podemos calcular a probabilidade de ocorrncia de um
dado smbolo (A, B ou C) na seqncia pela frmula,
Fi
pi = , i = A, B ou C ,
N
onde Fi a freqncia de ocorrncia do smbolo i na seqncia (note que estamos
usando a definio freqentista de probabilidade). Em geral, se tivermos um
conjunto de m smbolos diferentes que ocorram em uma seqncia de N smbolos
a probabilidade de cada um dos m smbolos na seqncia definida por
Fi
pi = , i = 1, 2, ..., m .
N
Um exemplo est dado na prxima transparncia, contendo as freqncias das
letras do alfabeto no livro Dom Casmurro, de Machado de Assis, e as respectivas
quantidades de informao. O texto integral do livro (assim como de muitos
outros) encontra-se disponvel pela Internet.

4
Probabilidade e Estatstica I Antonio Roque Aula 18
i ai pi log2(1/pi)
1 A 0,1356 2,9
2 B 0,0088 6,8
3 C 0,0334 4,9
4 D 0,0478 4,4
5 E 0,1272 3,0
6 F 0,0100 6,6
7 G 0,0112 6,5
8 H 0,0138 6,2
9 I 0,0642 4,0
10 J 0,0034 8,2
11 K 0,000011 16,5
12 L 0,0278 5,2
13 M 0,0539 4,2
14 N 0,0493 4,3
15 O 0,1045 3,3
16 P 0,0279 5,2
17 Q 0,0151 6,0
18 R 0,0625 4,0
19 S 0,0809 3,6
20 T 0,0433 4,5
21 U 0,0491 4,3
22 V 0,0177 5,8
23 W 0,000011 16,5
24 X 0,0029 8,4
25 Y 0 _
26 Z 0,0047 7,7
27 0,0054 7,5

5
Probabilidade e Estatstica I Antonio Roque Aula 18
A maneira pela qual se pode obter as freqncias das letras para o clculo das
suas probabilidades a seguinte: Salve o texto obtido pela Internet no formato
.doc do MS Word. Com o texto aberto no MS Word, clique sobre o boto

Editar e depois sobre a opo substituir. Use os comandos Localizar e


Substituir por para localizar e substituir cada letra por ela mesma, escolhendo a
opo Susbtituir tudo. Ao final das substituies de cada letra, a janela que
aparece informa quantas substituies foram feitas. Esse o nmero de vezes que
a letra em questo aparece no texto (seja como maiscula, seja como minscula).

Uma outra grandeza importante na teoria da informao a entropia


informacional, ou entropia de Shannon. Ela definida como a mdia da
quantidade de informao contida em um conjunto de smbolos. Por exemplo,
para o caso dos trs smbolos, A, B e C, a entropia informacional

FA I A + FB I B + FC I C 1 1 1
H= = p A I A + p B I B + pC I C = p A log + p B log + pC log .
N p
A p
B p
C

De maneira geral, a entropia informacional H de um conjunto de smbolos


definida por
m
1
H = pi log .
i =1 pi

Como a unidade de quantidade de informao I o bit (tomando logaritmos na


base 2), as unidades de entropia informacional so bits por smbolo.

A entropia informacional do livro Dom Casmurro :


27
1
H = pi log = 4,0 bits por smbolo.
i =1 pi

Repetindo o mesmo processo descrito acima para outro livro de Machado de


Assis Memrias Pstumas de Brs Cubas obtemos que o valor da sua
entropia informacional , novamente, igual a 4,0.

6
Probabilidade e Estatstica I Antonio Roque Aula 18
O fato de que a entropia informacional teve o mesmo valor em dois diferentes
livros de Machado de Assis no uma caracterstica que possa ser usada para
distinguir o escritor Machado de Assis de qualquer outro escritor em lngua
portuguesa. Na realidade, se tomarmos uma amostra grande de livros em
portugus, escritos por diversos autores e em pocas diferentes (no somente de
literatura, mas sobre qualquer assunto) e calcularmos as suas respectivas
entropias informacionais, obteremos sempre valores prximos de 4,0. Isto
assim porque as freqncias das letras em um texto em portugus refletem uma
caracterstica da lngua portuguesa e no de um autor em particular.

Cada lngua tem uma distribuio caracterstica das letras do alfabeto. Por
exemplo, na lngua portuguesa as letras mais freqentes so as letras a e e,
com aproximadamente as mesmas freqncias iguais a 11%. Em seguida, temos a
letra o, com freqncia de aproximadamente 10%, a letra i, com freqncia
de aproximadamente 6,5% e as consoantes r, s, m e n, com freqncias
aproximadamente iguais a 5%. Por outro lado, as letras menos freqentes em
portugus so z, j, x, k, w e y, todas com freqncias inferiores a
0,5%. J em ingls, por exemplo, a letra mais freqente o e, com
aproximadamente 11% de freqncia. Depois, temos as letras a (8,5%), r
(7,6%), i (7,5%), o (7,2%) e t (7,0%). E as letras menos freqentes em
ingls so v (1%), x (0,3%), z (0,3%), j (0,2%) e q (0,2%)1.

Portanto, as freqncias das letras no devem variar significativamente de um


texto para outro, na mesma lngua, mas devem variar de uma lngua para outra.
Em princpio, isso pode ser utilizado para reconhecer a lngua em que um dado
texto est escrito.

A entropia informacional possui as seguintes propriedades:

1
Segundo o stio do Dicionrio Oxford: http://www.askoxford.com/asktheexperts/faq/aboutwords/frequency

7
Probabilidade e Estatstica I Antonio Roque Aula 18
A entropia informacional de um conjunto de smbolos sempre um nmero
positivo ou nulo: H 0. Ela igual a zero se e somente se um dos valores da
seqncia tiver probabilidade 1 e os demais tiverem probabilidades nulas.
Para verificar isto, seja pi = 1 e pj = 0 com j i. Ento, H = 1.log(1) = 0 (por
definio, 0.log(1/0) = 0).
O valor mximo da entropia ocorre quando a distribuio dos m valores na
seqncia de N smbolos for uniforme, isto , quando pi = 1/m. No vamos
provar isto aqui, mas podemos calcular qual este valor mximo de H. Ele
m
1 1 1 m
log = log(m) 1 = m log m = log m
H mx = .
i =1 m 1 m i =1 m
m
Intuitivamente, esta a situao de maior incerteza sobre os valores da
seqncia (quando mais difcil prever o prximo valor da seqncia dados
os valores anteriores).

Para termos um exemplo de como a entropia se comporta, vamos considerar o


caso em que s existem dois smbolos possveis, 0 e 1. Neste caso m = 2 e a
entropia mxima ocorre quando as probabilidades dos dois smbolos so iguais a
, Hmx = log22 = 1. O grfico de H versus a probabilidade de um dos dois
smbolos est dado a seguir (conhecendo a probabilidade de um dos dois
smbolos, pode-se conhecer a probabilidade do outro, pois p1 + p2 = 1).

8
Probabilidade e Estatstica I Antonio Roque Aula 18
Observe que a curva simtrica e cresce para o mximo quando os dois sinais
so igualmente provveis (p = ). Ela cai para zero sempre que um dos dois
sinais passa a dominar sobre o outro, tendo a sua probabilidade indo para 1.

Dado que o valor mximo que a entropia informacional de uma seqncia


composta por n smbolos pode ter ocorre no caso em que os eventos so
igualmente provveis (pi = 1/n), Hmx = log n, e dado que a entropia real de uma
n
1
seqncia qualquer desses n smbolos dada pela frmula H = pi log ,
i =1 pi
define-se a redundncia da seqncia como,
H
R = 1 .
H mx
A redundncia de uma seqncia um nmero entre 0 e 1 (ou entre 0 e 100%).
Quanto menor for a quantidade de informao mdia de uma seqncia (a sua
entropia H), maior ser a sua redundncia. Se H = 0, R = 1. Este um caso em
que a seqncia composta por apenas um smbolo. Por exemplo,
aaaaaaaaaaaaaaaaaaaaaaaaaaaaa. Se H = Hmx, R = 0.

Por exemplo, os dois livros de Machado de Assis citados anteriormente tm,


ambos, entropias informacionais iguais a H = 4,0. Os livros so compostos por 27
smbolos (as 26 letras do alfabeto mais o sinal -). Sendo assim, a mxima
entropia que os livros poderiam ter

log 2 27 = 4,755.
Portanto, a redundncia dos dois livros de Machado de Assis ,
4,0
R =1 = 0,1588 (15,88%).
4,755
Este valor , aproximadamente, a redundncia da lngua portuguesa (em torno de
15%). Isso quer dizer que, aproximadamente, 15% da quantidade de informao
transmitida em um texto em portugus redundante.

9
Probabilidade e Estatstica I Antonio Roque Aula 18
Uma quantidade associada redundncia a eficincia da seqncia, definda por,
H
E = 1 R = .
H max
No caso dos livros de Machado de Assis, a eficincia E = 0,8412 (84,12%).

Na realidade, a redundncia da lngua portuguesa ainda maior do que 15%. Isto


devido ao fato de que, alm das letras terem suas freqncias diferentes, elas
tambm se associam (em pares, trincas, qudruplas etc) com probabilidades
diferentes. Por exemplo, em portugus, a letra q sempre seguida pela letra
u, as consoantes p e b so antecedidas pela consoante m e no n etc.
Essas restries a mais contribuem para aumentar a redundncia da lngua.

Por que existe uma redundncia na lngua portuguesa (em nas outras lnguas
tambm)? Pelo fato de toda lngua ter regras, que so restries impostas ela.
Por exemplo, pense na seguinte seqncia de letras em portugus:
A pessoa q
Qual vocs acham que deve ser a prxima letra na seqncia? S pode ser um
u. A probabilidade de um u aps um q 1 (e a de qualquer outra letra 0).
Isso uma restrio imposta pela estrutura da lngua. Uma lngua que pudesse,
aps um q, ter qualquer uma das 27 letras do alfabeto (com probabilidades
iguais a 1/27) teria uma entropia maior.

Uma lngua com a mxima liberdade de escolha em que qualquer seqncia de


letras formasse um texto razovel teria entropia mxima e a sua redundncia
seria nula.

As lnguas naturais no so formadas por seqncias aleatrias de letras as


letras obedecem a regras na formao das palavras , e, portanto, as lnguas
naturais tm entropia menor que a mxima,

H < H max ,

10
Probabilidade e Estatstica I Antonio Roque Aula 18
e redundncia maior que zero.

O que mede a redundncia? Segundo o j citado livro de Shannon, a redundncia


a frao da estrutura da mensagem que no determinada pela livre escolha
do emissor, mas pelas regras estatsticas aceitas que regem o uso dos signos em
jogo.

O exemplo citado acima uma ilustrao disso. Aps a letra q o emissor da


escrita no tem liberdade de escolha, deve colocar um u. Outro exemplo em
portugus o fato de que se deve respeitar as concordncias de nmero
singular ou plural , de gnero masculino ou feminino e de tempo passado,
presente e futuro.

Por exemplo, no se pode escrever


A mulheres ou Os mulheres.
Na primeira respeita-se o gnero, mas no o nmero e na segunda respeita-se o
nmero, mas no o gnero.

Porque Shannon usou o termo redundncia para designar a frao da estrutura


da mensagem que no determinada pela livre escolha? Segundo suas palavras
(no j citado livro): Essa frao da mensagem desnecessria (e portanto
repetitiva ou redundante) no sentido de que se ela estiver faltando a mensagem
ainda assim estaria essencialmente completa, ou pelo menos poderia ser
completada.

A idia que as partes redundantes de uma mensagem no acrescentam nada de


novo a ela do ponto de vista da informao transmitida, sendo portanto
desnecessrias.

Podemos entender isso melhor fazendo uma comparao entre a lngua


portuguesa e a lngua inglesa.
11
Probabilidade e Estatstica I Antonio Roque Aula 18
No exemplo anterior, vimos que na lngua portuguesa o artigo definido tem que
concordar em gnero e nmero com o substantivo:
A mulher, as mulheres, o homem, os homens
J na lngua inglesa isso no necessrio, pois o artigo um s:
The woman, the women, the man, the men.

Este exemplo indica que a lngua inglesa deve ser menos redundante que a
portuguesa. Ou seja, em portugus h uma frao maior dos smbolos usados que
desnecessria do que em ingls. Como outro exemplo, pense nas conjugaes
verbais. Por exemplo,
Eu jogo I play
Tu jogas You play
Ele/Ela joga He/She plays
Ns jogamos We play
Vs jogais You play
Eles/Elas jogam They play.

No j citado livro de Shannon, ele escreve que a redundncia da lngua inglesa,


desprezando-se estruturas estatsticas acima de distncias maiores do que 8 letras,
aproximadamente igual a 50%. Isso quer dizer que quando se escreve em
ingls, metade daquilo que se escreve determinado pela estrutura da lngua (no
livre) e metade escolhido livremente.

Desta forma, a redundncia da lngua portuguesa deve ser maior que 50%. Se
voc quiser se convencer de que a redundncia do portugus maior do que a do
ingls, tente pegar um texto qualquer em ingls e traduza-o para o portugus. Em
geral, a traduo para o portugus vai ter mais palavras do que o original em
ingls. Como o contedo informacional dos dois textos o mesmo (se a traduo
estiver bem feita), isso indica que a lngua portuguesa usou mais smbolos que a
lngua inglesa para codificar a mesma informao.

12
Probabilidade e Estatstica I Antonio Roque Aula 18
Mudando das lnguas humanas para a linguagem da vida, vocs j devem ter lido
em livros de Biologia que o cdigo gentico redundante. De fato, a informao
gentica em uma molcula de mRNA est codificada em termos de palavras
(cdons) de trs letras (bases) retiradas de um alfabeto de quatro letras:
A: adenina, G: guanina, C: citosina, U: uracila.
Cada tripla determina um dentre um conjunto de 20 aminocidos que constituem
as protenas. Com 4 letras pode-se formar 64 elementos diferentes (4x4x4 = 43 =
64), mas existem apenas 20 aminocidos e um cdon de terminao, de maneira
que so apenas 21 sentidos diferentes que se podem formar com as triplas.

Os aminocidos esto listados abaixo. Notem que, em geral, h mais de uma


tripla diferente para codificar o mesmo aminocido.

Aminocidos

Alanina: {gcu, gcc, gca, gcg} - 4 Metionina: {aug} - 1

Asparagina: {aau, aac} - 2 Cistena: {ugu, ugc} - 2

Prolina: {ccu, ccc, cca, ccg} - 4 cido asprtico: {gau, gac} - 2

Glutamina: {caa, cag} - 2 cido glutmico: {gaa, gag} - 2

Arginina: {cgu, cgc, cga, cgg, aga, agg} - 2 Fenilalanina: {uuu, uuc} - 2

Serina: {ucu, ucc, uca, ucg, agu, agc} - 6 Glicina: {ggu, ggc, gga, ggg} - 4

Treonina: {au, acc, aa, acg} - 4 Histidina: {cau, cac} - 2

Valina: {guu, guc, gua, gug} - 4 Isoleucina: {auu, auc, aua} - 3

Triptofano: {ugg} - 1 Lisina: {aaa, aag} - 2

Leucina: {uua, uug, cuu, cuc, cua, cug} - 6 Tirosina: {uau, uac}- 2

STOP: {uaa, uag, uga} - 3

Ao lado de cada aminocido est colocado um nmero indicando de quantas


maneiras diferentes ele pode ser codificado.

13
Probabilidade e Estatstica I Antonio Roque Aula 18
Para calcular a redundncia do cdigo gentico, podemos raciocinar da seguinte
maneira:

Com 4 letras diferentes podemos formar 64 triplas diferentes. Portanto,


poderamos ter um conjunto de 64 diferentes aminocidos, cada um com uma
probabilidade de ocorrer em uma seqncia igual a pi = 1/64. A entropia
informacional de uma seqncia desses aminocidos seria (a entropia mxima),

log 2 64 = log 2 43 = log 2 26 = 6.

Porm, com as 4 letras pode-se formar apenas 21 smbolos diferentes, com


probabilidades diferentes. Por exemplo, existem 6 maneiras diferentes de se
codificar a serina enquanto que existe apenas uma maneira de se codificar o
triptofano. Portanto, a entropia de uma seqncia de aminocidos (codificados
por cdons) , de fato:
21
1
H = pi log , onde i cobre todos os possveis 21 smbolos diferentes.
i =1 pi

As probabilidades de cada aminocido podem ser determinadas a partir da tabela


anterior. Basta dividir o nmero de maneiras em que cada um pode ser codificado
por 64. Por exemplo,
palanina = 4/64 = 0,0625; pmetionina = 1/64 = 0,0156; pasparagina = 2/64 = 0,03125; etc

A entropia ento:
21
1 1 1 1
H = pi log = 0,0625. log + 0,0156. log + 0,03125. log + =
i =1 p
i 0,0625 0,0156 0,03125

= 4,218.
E a redundncia do cdigo gentico :
4,218
R =1 0,30.
6

14
Probabilidade e Estatstica I Antonio Roque Aula 18
A redundncia do cdigo gentico de 30% (menor que a das lnguas naturais).
O que significa dizer que um sinal (uma seqncia) de smbolos tem uma
entropia informacional de, por exemplo, 1,75 bits por smbolo? Significa que
podemos converter o sinal original em uma seqncia de 0s e 1s (dgitos
binrios) de maneira que em mdia existam 1,75 dgitos binrios por cada
smbolo do sinal original.

O em mdia aqui quer dizer que alguns smbolos vo precisar de mais dgitos
binrios para ser codificados (os mais raros) e que outros smbolos vo precisar
de menos dgitos binrios para ser codificados (os mais comuns).

Exemplo: Suponha que temos 4 smbolos:


A C G T,
com probabilidades de ocorrncia iguais a:
1 1 1 1
p A = ; pC = ; pG = ; pT = .
2 4 8 8
Estas probabilidades do as seguintes quantidades de informao para cada
smbolo:
1 1 1 1
I A = log 2 = 1 bit; I C = log 2 = 2 bits; I G = log 2 = 3 bits; I T = log 2 = 3 bits.
p A pC pG pT

Portanto, a entropia informacional de uma seqncia desses smbolos :


4
1 1 1 1
H = pi I i = .1 + .2 + .3 + .3 = 1,75 bits por smbolo .
i =1 2 4 8 8
Podemos codificar cada um dos quatro smbolos por um nmero de dgitos
binrios igual sua quantidade de informao. Por exemplo:
A=0 ;
C = 10 ;
G = 110 ;
T = 111 .
Portanto, uma seqncia como
ATCAGAAC,

15
Probabilidade e Estatstica I Antonio Roque Aula 18
que tem freqncias de ocorrncia dos 4 smbolos iguais s definidas acima, pode
ser codificada por
01111001100010.
14 dgitos binrios foram usados para codificar 8 smbolos, o que d uma mdia
de 14/8 = 1,75 bits por smbolo.

Um cdigo como o usado acima chamado de cdigo de Shannon-Fano. Um


cdigo de Shannon-Fano tem a propriedade de que podemos decodific-lo sem
precisar de espaos entre os smbolos. Note que o primeiro dgito permite
distinguir o smbolo A dos outros 3 smbolos. J o segundo dgito permite
distinguir o C dos smbolos G e T. Finalmente, o terceiro dgito permite
distinguir o G do T.

Suponhamos que temos uma fonte produzindo smbolos xi, cada um com uma
probabilidade pi. O cdigo de Shannon-Fano para uma seqncia de tais smbolos
pode ser obtido da seguinte maneira:

1. Ordenam-se os smbolos xi em ordem decrescente de probabilidades pi;


2. Dividem-se os smbolos em dois grupos de tal forma que a probabilidade de
um grupo seja o mais prximo possvel da probabilidade do outro grupo;
3. Um grupo codificado como zero (0) e o outro como um (1);
4. Repete-se o processo de forma recursiva at que cada grupo tenha apenas um
smbolo.

16

Você também pode gostar