Escolar Documentos
Profissional Documentos
Cultura Documentos
Enquanto esperamos pelo prximo smbolo, estamos incertos sobre qual ser ele:
A, B ou C. Porm, quando o smbolo aparece a nossa incerteza diminui. Podemos
dizer que recebemos uma informao. Segundo esta viso, informao uma
diminuio na incerteza.
Se, por exemplo, a fonte s emitisse um smbolo: AAAA..., por exemplo, a nossa
incerteza sobre o prximo smbolo seria nula e a quantidade de informao ganha
pela apario de mais um novo smbolo A seria nula. Porm, se aps uma longa
seqncia de As aparecesse um B a nossa surpresa seria enorme e atribuiramos a
esse evento uma grande quantidade de informao. Segundo este raciocnio,
quanto mais raro um evento maior a quantidade de informao carregada por ele.
Em termos de probabilidades, poderamos dizer que eventos muito provveis
carregam pouca informao e eventos pouco provveis carregam muita
informao.
1
Probabilidade e Estatstica I Antonio Roque Aula 18
A definio feita por Shannon para a quantidade de informao associada a um
evento i em uma seqncia de eventos a seguinte. Se a probabilidade de
ocorrncia do evento i na seqncia for dada por pi, ento a quantidade de
informao Ii associada ao evento i ,
1
I i = log .
pi
Porqu foi usada a funo logaritmo? Uma primeira explicao que o logaritmo
uma funo crescente do seu argumento. Portanto, log(x) cresce com x. As
figuras abaixo mostram, os grficos das funes log10(x) e log2(x).
1.5
0.5
0
0 1 2 3 4 5 6 7 8 9 101112131415161718192021222324252627282930
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 101112131415161718192021222324252627282930
2
Probabilidade e Estatstica I Antonio Roque Aula 18
Por outro lado, um evento cuja probabilidade de ocorrncia seja muito pequena
tem uma grande quantidade de informao associada a ele, pois 1/pi cresce com a
diminuio de pi e, portanto, log(1/pi) cresce com a diminuio de pi.
Uma segunda explicao para o uso da funo logaritmo vem do fato de que
log(ab) = log a + log b ,
ou seja, o logaritmo do produto igual soma dos logaritmos. Esta propriedade
til para podermos calcular a quantidade de informao associada ocorrncia de
dois eventos, a e b. Quando duas fontes distintas emitem seqncias de sinais e,
num dado momento, os sinais que vemos das duas fontes so a e b, com suas
respectivas quantidades de informao sendo Ia e Ib, ento a nossa noo de
quantidade de informao associada observao dos dois sinais a de que ela
igual soma das quantidades de informao associadas aos eventos a e b
individualmente (quando os eventos a e b so independentes). exatamente isto
que a funo logaritmo implementa:
1 1 1 1 1
I ab = log = log = log + log = I a + I b .
pab pa pb pa pb
3
Probabilidade e Estatstica I Antonio Roque Aula 18
Pela definio de logaritmo, log a b = c significa que b = a c . Tomando o
c
logaritmo na base n desta ltima expresso, log n b = log n a = c log n a , mas
Vamos voltar ao nosso exemplo inicial em que uma fonte pode emitir apenas os
smbolos A, B e C. Vamos supor que observamos os smbolos emitidos pela
fonte durante um longo tempo, de maneira que pudemos contar um total de N
smbolos emitidos. Ento, podemos calcular a probabilidade de ocorrncia de um
dado smbolo (A, B ou C) na seqncia pela frmula,
Fi
pi = , i = A, B ou C ,
N
onde Fi a freqncia de ocorrncia do smbolo i na seqncia (note que estamos
usando a definio freqentista de probabilidade). Em geral, se tivermos um
conjunto de m smbolos diferentes que ocorram em uma seqncia de N smbolos
a probabilidade de cada um dos m smbolos na seqncia definida por
Fi
pi = , i = 1, 2, ..., m .
N
Um exemplo est dado na prxima transparncia, contendo as freqncias das
letras do alfabeto no livro Dom Casmurro, de Machado de Assis, e as respectivas
quantidades de informao. O texto integral do livro (assim como de muitos
outros) encontra-se disponvel pela Internet.
4
Probabilidade e Estatstica I Antonio Roque Aula 18
i ai pi log2(1/pi)
1 A 0,1356 2,9
2 B 0,0088 6,8
3 C 0,0334 4,9
4 D 0,0478 4,4
5 E 0,1272 3,0
6 F 0,0100 6,6
7 G 0,0112 6,5
8 H 0,0138 6,2
9 I 0,0642 4,0
10 J 0,0034 8,2
11 K 0,000011 16,5
12 L 0,0278 5,2
13 M 0,0539 4,2
14 N 0,0493 4,3
15 O 0,1045 3,3
16 P 0,0279 5,2
17 Q 0,0151 6,0
18 R 0,0625 4,0
19 S 0,0809 3,6
20 T 0,0433 4,5
21 U 0,0491 4,3
22 V 0,0177 5,8
23 W 0,000011 16,5
24 X 0,0029 8,4
25 Y 0 _
26 Z 0,0047 7,7
27 0,0054 7,5
5
Probabilidade e Estatstica I Antonio Roque Aula 18
A maneira pela qual se pode obter as freqncias das letras para o clculo das
suas probabilidades a seguinte: Salve o texto obtido pela Internet no formato
.doc do MS Word. Com o texto aberto no MS Word, clique sobre o boto
FA I A + FB I B + FC I C 1 1 1
H= = p A I A + p B I B + pC I C = p A log + p B log + pC log .
N p
A p
B p
C
6
Probabilidade e Estatstica I Antonio Roque Aula 18
O fato de que a entropia informacional teve o mesmo valor em dois diferentes
livros de Machado de Assis no uma caracterstica que possa ser usada para
distinguir o escritor Machado de Assis de qualquer outro escritor em lngua
portuguesa. Na realidade, se tomarmos uma amostra grande de livros em
portugus, escritos por diversos autores e em pocas diferentes (no somente de
literatura, mas sobre qualquer assunto) e calcularmos as suas respectivas
entropias informacionais, obteremos sempre valores prximos de 4,0. Isto
assim porque as freqncias das letras em um texto em portugus refletem uma
caracterstica da lngua portuguesa e no de um autor em particular.
Cada lngua tem uma distribuio caracterstica das letras do alfabeto. Por
exemplo, na lngua portuguesa as letras mais freqentes so as letras a e e,
com aproximadamente as mesmas freqncias iguais a 11%. Em seguida, temos a
letra o, com freqncia de aproximadamente 10%, a letra i, com freqncia
de aproximadamente 6,5% e as consoantes r, s, m e n, com freqncias
aproximadamente iguais a 5%. Por outro lado, as letras menos freqentes em
portugus so z, j, x, k, w e y, todas com freqncias inferiores a
0,5%. J em ingls, por exemplo, a letra mais freqente o e, com
aproximadamente 11% de freqncia. Depois, temos as letras a (8,5%), r
(7,6%), i (7,5%), o (7,2%) e t (7,0%). E as letras menos freqentes em
ingls so v (1%), x (0,3%), z (0,3%), j (0,2%) e q (0,2%)1.
1
Segundo o stio do Dicionrio Oxford: http://www.askoxford.com/asktheexperts/faq/aboutwords/frequency
7
Probabilidade e Estatstica I Antonio Roque Aula 18
A entropia informacional de um conjunto de smbolos sempre um nmero
positivo ou nulo: H 0. Ela igual a zero se e somente se um dos valores da
seqncia tiver probabilidade 1 e os demais tiverem probabilidades nulas.
Para verificar isto, seja pi = 1 e pj = 0 com j i. Ento, H = 1.log(1) = 0 (por
definio, 0.log(1/0) = 0).
O valor mximo da entropia ocorre quando a distribuio dos m valores na
seqncia de N smbolos for uniforme, isto , quando pi = 1/m. No vamos
provar isto aqui, mas podemos calcular qual este valor mximo de H. Ele
m
1 1 1 m
log = log(m) 1 = m log m = log m
H mx = .
i =1 m 1 m i =1 m
m
Intuitivamente, esta a situao de maior incerteza sobre os valores da
seqncia (quando mais difcil prever o prximo valor da seqncia dados
os valores anteriores).
8
Probabilidade e Estatstica I Antonio Roque Aula 18
Observe que a curva simtrica e cresce para o mximo quando os dois sinais
so igualmente provveis (p = ). Ela cai para zero sempre que um dos dois
sinais passa a dominar sobre o outro, tendo a sua probabilidade indo para 1.
log 2 27 = 4,755.
Portanto, a redundncia dos dois livros de Machado de Assis ,
4,0
R =1 = 0,1588 (15,88%).
4,755
Este valor , aproximadamente, a redundncia da lngua portuguesa (em torno de
15%). Isso quer dizer que, aproximadamente, 15% da quantidade de informao
transmitida em um texto em portugus redundante.
9
Probabilidade e Estatstica I Antonio Roque Aula 18
Uma quantidade associada redundncia a eficincia da seqncia, definda por,
H
E = 1 R = .
H max
No caso dos livros de Machado de Assis, a eficincia E = 0,8412 (84,12%).
Por que existe uma redundncia na lngua portuguesa (em nas outras lnguas
tambm)? Pelo fato de toda lngua ter regras, que so restries impostas ela.
Por exemplo, pense na seguinte seqncia de letras em portugus:
A pessoa q
Qual vocs acham que deve ser a prxima letra na seqncia? S pode ser um
u. A probabilidade de um u aps um q 1 (e a de qualquer outra letra 0).
Isso uma restrio imposta pela estrutura da lngua. Uma lngua que pudesse,
aps um q, ter qualquer uma das 27 letras do alfabeto (com probabilidades
iguais a 1/27) teria uma entropia maior.
H < H max ,
10
Probabilidade e Estatstica I Antonio Roque Aula 18
e redundncia maior que zero.
Este exemplo indica que a lngua inglesa deve ser menos redundante que a
portuguesa. Ou seja, em portugus h uma frao maior dos smbolos usados que
desnecessria do que em ingls. Como outro exemplo, pense nas conjugaes
verbais. Por exemplo,
Eu jogo I play
Tu jogas You play
Ele/Ela joga He/She plays
Ns jogamos We play
Vs jogais You play
Eles/Elas jogam They play.
Desta forma, a redundncia da lngua portuguesa deve ser maior que 50%. Se
voc quiser se convencer de que a redundncia do portugus maior do que a do
ingls, tente pegar um texto qualquer em ingls e traduza-o para o portugus. Em
geral, a traduo para o portugus vai ter mais palavras do que o original em
ingls. Como o contedo informacional dos dois textos o mesmo (se a traduo
estiver bem feita), isso indica que a lngua portuguesa usou mais smbolos que a
lngua inglesa para codificar a mesma informao.
12
Probabilidade e Estatstica I Antonio Roque Aula 18
Mudando das lnguas humanas para a linguagem da vida, vocs j devem ter lido
em livros de Biologia que o cdigo gentico redundante. De fato, a informao
gentica em uma molcula de mRNA est codificada em termos de palavras
(cdons) de trs letras (bases) retiradas de um alfabeto de quatro letras:
A: adenina, G: guanina, C: citosina, U: uracila.
Cada tripla determina um dentre um conjunto de 20 aminocidos que constituem
as protenas. Com 4 letras pode-se formar 64 elementos diferentes (4x4x4 = 43 =
64), mas existem apenas 20 aminocidos e um cdon de terminao, de maneira
que so apenas 21 sentidos diferentes que se podem formar com as triplas.
Aminocidos
Arginina: {cgu, cgc, cga, cgg, aga, agg} - 2 Fenilalanina: {uuu, uuc} - 2
Serina: {ucu, ucc, uca, ucg, agu, agc} - 6 Glicina: {ggu, ggc, gga, ggg} - 4
Leucina: {uua, uug, cuu, cuc, cua, cug} - 6 Tirosina: {uau, uac}- 2
13
Probabilidade e Estatstica I Antonio Roque Aula 18
Para calcular a redundncia do cdigo gentico, podemos raciocinar da seguinte
maneira:
A entropia ento:
21
1 1 1 1
H = pi log = 0,0625. log + 0,0156. log + 0,03125. log + =
i =1 p
i 0,0625 0,0156 0,03125
= 4,218.
E a redundncia do cdigo gentico :
4,218
R =1 0,30.
6
14
Probabilidade e Estatstica I Antonio Roque Aula 18
A redundncia do cdigo gentico de 30% (menor que a das lnguas naturais).
O que significa dizer que um sinal (uma seqncia) de smbolos tem uma
entropia informacional de, por exemplo, 1,75 bits por smbolo? Significa que
podemos converter o sinal original em uma seqncia de 0s e 1s (dgitos
binrios) de maneira que em mdia existam 1,75 dgitos binrios por cada
smbolo do sinal original.
O em mdia aqui quer dizer que alguns smbolos vo precisar de mais dgitos
binrios para ser codificados (os mais raros) e que outros smbolos vo precisar
de menos dgitos binrios para ser codificados (os mais comuns).
15
Probabilidade e Estatstica I Antonio Roque Aula 18
que tem freqncias de ocorrncia dos 4 smbolos iguais s definidas acima, pode
ser codificada por
01111001100010.
14 dgitos binrios foram usados para codificar 8 smbolos, o que d uma mdia
de 14/8 = 1,75 bits por smbolo.
Suponhamos que temos uma fonte produzindo smbolos xi, cada um com uma
probabilidade pi. O cdigo de Shannon-Fano para uma seqncia de tais smbolos
pode ser obtido da seguinte maneira:
16