Escolar Documentos
Profissional Documentos
Cultura Documentos
Medidas de informação
• Incerteza
• Entropia
• Capacidade de canal
Medida da informação
Informação — tudo aquilo que é produzido por uma fonte para ser
transferido para o utilizador.
de vista:
1
I A = f ( PA ) = logb = − logb PA (0 ≤ PA ≤ 1)
PA
Se b=2 ⇒ bit
b=e ⇒ nat
b = 10 ⇒ hartley
seguintes propriedades:
1 1 1
I ij = log 2 = log 2 + log 2 = Ii + I j
Pi Pj Pi Pj
1 3
EXEMPLO: P0 = ; P1 =
4 4
1
Informação transportada pelo dígito 0: I 0 = − log 2 = 2 bits
4
3
Informação transportada pelo dígito 1: I1 = − log 2 = 0, 41 bits
4
independentes.
1Em Física Estatística a entropia de um sistema físico é definida por S = k ln Ω, em que k é a constante de Boltzmann
e Ω o número de estados acessíveis ao sistema. Esta função, que fornece uma medida quantitativa do grau de
casualidade do sistema, é semelhante na forma à entropia da Teoria da Informação.
Ω(p)
1
0.8
0.6
0.4
0.2
O ≤ H ( X ) ≤ log 2 M
↓ ↓
A fonte não fornece informação, em Máxima incerteza ou máxima liberdade de
média ⇒ não há incerteza quanto à escolha ⇒ todos os símbolos são
mensagem. equiprováveis (nenhum é favorecido).
EXEMPLO 1
1
R.: H = − log = 4,52 bits /carácter ♦ Limite Superior
23
EXEMPLO 2
A, E, O, T: p = 0,10
H, I, N, R, S: p = 0,07
C, D, F, L, M, P, U: p = 0,02
B, G, J, Q, V, X, Z: p = 0,01
R.:
H = −(4 × 0,10 log 2 0,1 + 5 × 0, 07 log 2 0, 07 + 7 × 0, 02 log 2 0, 02 + 7 × 0, 01log 2 0, 01) =
= 3,92 bits/carácter
Demonstração
Qi
A demonstração baseia-se na desigualdade ln x ≤ x − 1 . Seja ν = , em que
Pi
Qi e Pi são probabilidades discretas válidas, isto é,
M M
Pi , Qi ≥ 0 e ∑ Pi = ∑ Qi = 1
i =1 i =1
M M
Mas ∑ Qi − ∑ Pi = 1 − 1 = 0 e ln z = ln 2 log 2 z . Portanto,
i =1 i =1
M M M
− ln 2 ∑ Pi log 2 Pi ≤ − ln 2 ∑ Pi log 2 Qi ⇒ H ( X ) ≤ −∑ Pi log 2 Qi
i =1 i =1 i =1
1
Isto é válido para todos os valores de Qi, incluindo Qi = (porque não?).
M
M M
1
⇒ H ( X ) ≤ −∑ Pi log 2 = log 2 M ∑ Pi = log 2 M . c.q.d.
i =1 M i =1
• Pontos de ecrã: 350 000 ⇒ 608 pontos/linha ⇒ 608 × 575 = 349 600 pontos
− log 2 1 8 = 3 bits
• Em cada imagem: Preto & Branco: 3×349 600 = 1 048 800 bits/imagem
X Y
x1 p(y1|x2) y1
x2 y2
x3 y3
x4 y4
• p(y4|x4) •
• •
• •
xM yN
p ( y1 | x1 ) p ( y2 | x1 ) …
p( y N | x1 )
p( y | x ) p( y2 | x2 ) … p ( y N | x2 )
[ P(Y | X )] = 1 2
… … … …
p ( y1 | xM ) p ( y2 | xM ) … p( y N | xM )
w0
p(w0|x0)
x0 y0
w1
x1 y1
p(w2|x0)
w2
Exemplo:
0,6 0,4
0,2 0,3 0,5
[ P(W | X )] = [ P(Y | W )] = 0,5 0,5
0,4 0,5 0,1 0,7 0,3
0,62 0,38
⇒ [ P(Y | X )] = [ P(W | X )] × [ P(Y | W )] =
0,56 0,44
w0
p(w0|x0)
x0 y0
w1
x1 y1
p(w2|x0)
w2
x0 → w0 → y1, x0 → w1 → y1 e x0 → w2 → y1
p(y0|x1) p(y1|x0)
x1 y1
p(y1|x1)
X Y
x1 p(y1|x2) y1
x2 y2
x3 y3
x4 y4
• p(y4|x4) •
• •
• •
xM yN
= H P( y1 | xi ), P( y2 | xi ),… , P( y N | xi )
• Prova-se que H ( X , Y ) ≤ H ( X ) + H (Y ) .
M N
1
H ( X , Y ) = ∑∑ P( xi ) P( y j | xi ) log 2 =
i =1 j =1 P( xi ) P( y j | xi )
M N M N
= −∑∑ P ( xi ) P ( y j | xi ) log 2 P( xi ) − ∑∑ P( xi ) P( y j | xi ) log 2 P( y j | xi )
i =1 j =1 i =1 j =1
Mas
N N
• ∑ P( xi ) P( y j | xi ) log 2 P( xi ) = P( xi ) log 2 P( xi ) ∑ P( y j | xi ) = P( xi ) log 2 P( xi )
j =1 j =1
1
M N M
• −∑∑ P( xi ) P( y j | xi ) log 2 P( y j | xi ) = ∑ P( xi ) H (Y | xi ) = H (Y | X )
i =1 j =1 i =1
M
H ( X , Y ) = −∑ P( xi ) log 2 P( xi ) + H (Y | X ) =
⇒ i =1
= H ( X ) + H (Y | X )
• Como H ( X , Y ) ≤ H ( X ) + H (Y ) ⇒ H ( X | Y ) ≤ H ( X ) e H (Y | X ) ≤ H (Y )
yj
P(yj|xi) A B C
A 0 4/5 1/5
xi B 1/2 1/2 0
C 1/2 2/5 1/10
H (Y | X = A) = H (0, 4 5,1 5) = 0, 72
H (Y | X = B) = H (1 2,1 2, 0) = 1
9 16 2
H (Y | X ) = × 0, 72 + ×1 + ×1,36 = 0,93 bits/símbolo
27 27 27
xM yN
• A entropia da fonte de mensagens, H(X), depende apenas da fonte X. É a incerteza
em relação a xi, isto é, em relação a que símbolo será transmitido.
• A entropia da saída do canal, H(Y) — que é equivalente a uma nova fonte — depende
comunicação.
yj.
• Suponhamos que conhecemos xi (isto é, sabemos que símbolo foi enviado):
M M
H (Y | X ) = −∑∑ p ( xi ) p ( y j | xi )log 2 p( y j | xi ) Entropia condicional
i =1 j =1
É a incerteza de receber yj quando xi é enviado, isto é, é a incerteza média do
emissor em relação ao que será recebido.
• Suponhamos que conhecemos yj (isto é, sabemos que símbolo foi recebido):
M M
H ( X | Y ) = − ∑∑ p ( y j ) p ( xi | y j )log 2 p ( xi | y j ) Entropia condicional.
j =1 i =1
É a incerteza sobre xi ter sido enviado quando se recebe yj, ou a incerteza média
do receptor da mensagem em relação ao que foi realmente enviado. Por outras
palavras, é a incerteza sobre a entrada que resta depois da saída ter sido
observada.
A H ( X | Y ) chama-se equivocação do canal: é a medida da informação
perdida devido ao canal.
de observarmos a saída.
mesmas dúvidas que tínhamos sobre a entrada X, então não reduzimos incerteza
nenhuma: H ( X ) − H ( X | Y ) = 0 .
e a saída Y. Pode ser interpretada como um ganho de informação sobre X, que não
I ( X ;Y ) = H ( X ) − H ( X | Y )
I ( X ;Y ) = H ( X ) − H ( X | Y ) =
M M N
1 1
= ∑ p ( xi ) − ∑∑ p ( y j ) p ( xi | y j )log 2
i =1 log 2 p ( xi ) i =1 j =1 p ( xi | y j )
N
Mas P( xi ) = ∑ P( xi , y j ) , logo
j =1
M N
I ( X ;Y ) = ∑∑ p ( xi , y j ) log 2
1 p ( xi , y j )
+ log 2 =
p ( xi ) p( y j )
i =1 j =1
M N p ( xi , y j )
= ∑∑ p ( xi , y j )log 2 =
i =1 j =1 p ( xi ) p ( y j )
I ( xi , y j )
M N
= ∑∑ p ( xi , y j ) I ( xi , y j )
i =1 j =1
p ( xi , y j ) p ( y j | xi ) p ( xi | y j )
I ( xi , y j ) = log 2 = log 2 = log 2 .
p ( xi ) p ( y j ) p( y j ) p ( xi )
2 3 0 1 3
1 3 2 3 0 .
0 1 3 2 3
4 5 5
R.: a) Sendo P ( y j ) = ∑ P( xi ) P( y j | xi ) ⇒ { P( y1 ), P ( y2 ), P ( y3 )} = , ,
9 18 18
i
H (Y | X ) = ∑ P( xi ) H (Y | xi ) =
i
1 2 1 1 1 2 1 1 2
= H ,0, + H , ,0 + H 0, , = 0,92
2 3 3 3 3 3 6 3 3
P ( y1 | x2 ) 3
I ( x2 , y1 ) = log 2 = log 2 = −0, 42 bits/símbolo
P( y1 ) 4
↓ Variável X ↓ Variáveis X e Y
• H ( X , Y ) = H ( X ) + H (Y | X ) = H (Y ) + H ( X | Y )
• H ( X , Y ) ≤ H ( X ) + H (Y )
• H (X |Y) ≤ H (X )
• H (Y | X ) ≤ H (Y )
• I ( X ;Y ) = H ( X ) − H ( X | Y ) = H (Y ) − H (Y | X )
• I ( X ;Y ) = H ( X ) + H (Y ) − H ( X , Y )
H(X) H(Y)
H(X,Y)
diagrama!
• H ( X , Y ) = H ( X ) + H (Y | X ) = H (Y ) + H ( X | Y )
• H ( X , Y ) ≤ H ( X ) + H (Y )
• H (X |Y) ≤ H (X )
• H (Y | X ) ≤ H (Y )
• I ( X ;Y ) = H ( X ) − H ( X | Y ) = H (Y ) − H (Y | X )
• I ( X ;Y ) = H ( X ) + H (Y ) − H ( X , Y )
Teorema
Demonstração
P ( xi | y j ) P ( xi )
− I ( X ;Y ) = − log e∑∑ P( xi , y j )ln = log e∑∑ P( xi , y j )ln
i j P ( xi ) i j P( xi | y j )
Como lnν ≤ ν − 1 :
P( xi )
− I ( X , Y ) ≤ log e∑∑ P( xi , y j ) − 1 = log e∑∑ P( xi ) P ( y j ) − P( xi , y j ) =
i j P( xi | y j ) i j
= log e ∑ P ( xi ) ∑ P( y j ) − ∑∑ P ( xi , y j ) = 0
⇒ − I ( X ;Y ) ≤ 0
i j i j
1 1 1
Demonstração alternativa:
Sendo I ( X , Y ) = H ( X ) + H (Y ) − H ( X , Y ) e H ( X , Y ) ≤ H ( X ) + H (Y ) , então
I ( X ;Y ) = H ( X ) − H ( X | Y )
↑ ↑
Definição:
Cs = max I ( X ;Y ) (bits/símbolo)
pX ( x)
probabilidades da fonte.
1-p
0 • • 0
p
X p Y
1 • • 1
1-p
Cs
1
Se P(0 | 1) = P (1 | 0) = 0,5 , isto é, dada uma
0.8 determinada saída (1 ou 0) temos 50% de
0.6 probabilidades de acertarmos na entrada
realmente enviada ⇒ a capacidade do canal é
0.4
nula ⇒ nesse caso o canal não serve para
0.2
nada: basta "deitar uma moeda ao ar" no
destino.
0 0.2 0.4 0.6 0.8 1 p
Pe = 0
Pe = 0,01 Pe = 0,1
0,892
0• • 0
X 0,108 0,108 Y
1• • 1
0,892
(As probabilidades hipótese são muito mais elevadas que num caso real.
Tomaram-se para simplificar os cálculos).