Entropia Informação Mutua

Cover Capitulo 2 Samuel Mauro Garcia Murça
ENTROPIA, ENTROPIA RELATIVA E

INFORMAÇÕES MÚTUAS
Neste capítulo introduzimos a maioria das definições básicas necessárias para o
desenvolvimento subsequente da teoria. É irresistível brincar com suas relações e interpretações,
tendo fé em sua utilidade posterior. Após a definição de entropia e informações mútuas,
estabelecemos regras de cadeia, a não negatividade da informação mútua, a desigualdade de
processamento de dados e ilustramos essas definições examinando estatísticas suficientes e a
desigualdade de Fano.
O conceito de informação é muito amplo para ser capturado completamente por uma única
definição. No entanto, para qualquer distribuição de probabilidades, definimos uma quantidade
chamada entropia, que tem muitas propriedades que concordam com a noção intuitiva do que
uma medida de informação deve ser. Essa noção é estendida para definir informações mútuas,
que é uma medida da quantidade de informações que uma variável aleatória contém sobre outra.
Entropia então se torna a auto-informação de uma variável aleatória. A informação mútua é um
caso especial de uma quantidade mais geral chamada entropia relativa, que é uma medida da
distância entre duas distribuições de probabilidade. Todas essas quantidades estão intimamente
relacionadas e compartilham uma série de propriedades simples, algumas das quais derivamos
neste capítulo.
Nos capítulos posteriores, mostramos como essas quantidades surgem como respostas naturais a
uma série de perguntas na comunicação, estatística, complexidade e jogo. Esse será o teste final
do valor dessas definições.
2.1 ENTROPIA
Primeiro introduzimos o conceito de entropia, que é uma medida da incerteza de uma variável
aleatória. Seja X uma variável aleatória discreta com alfabeto X e função de massa de
probabilidade p(x) = Pr{X = x}, x ∈ X.
Denotamos a função de massa de probabilidade por p(x) em vez de pX(x), por conveniência.
Assim, p(x) e p(y) referem-se a duas variáveis aleatórias diferentes e são de fato diferentes
funções de massa de probabilidade, pX(x) e pY (y), respectivamente.
Definição A entropia H(X) de uma variável aleatória discreta X é definida por:
Também escrevemos H(p) para a quantidade acima. O logaritimo é de base 2 e a entropia é

expressa em bits. Por exemplo, a entropia de uma moeda justa é de 1 bit. Usaremos a convenção
que 0 log 0 = 0, que é facilmentejustificada pela continuidade desde x log x → 0 como x
→ 0. Adicionar termos de zeroprobabilidade não altera a entropia.
Se a base do logaritmo é b, denotamos a entropia como Hb(X). Se a base do logaritmo é e, a
entropia é medida em nats. A menos que seja especificado, levaremos todos os logaritmos para
a base 2, e, portanto, todas as entropias serão medidas em bits. Note que a entropia é uma
funcionalidade da distribuição de X. Não depende dos valores reais tomados pela variável
aleatória X, mas apenas das probabilidades.
Denotamos a expectativa(esperança/média) por E. Assim, se X ∼ p(x), o valor esperado da
variável aleatória g(X) é escrito:
ou mais simplesmente como Eg(X) quando a função de massa de probabilidade é entendida a

partir do contexto. Teremos um interesse peculiar na expectativa misteriosamente eu-referencial
de g(X) em p(x) quando g(X) = log 1/p(X).
Observação A entropia de X também pode ser interpretada como o valor esperado da variável
aleatório log(1/p(X)), onde X é desenhado de acordo com a função de probabilidade p(x).
Assim:
Esta definição de entropia está relacionada com a definição de entropia na termodinâmica;

algumas das ligações são exploradas mais tarde. É possível derivar a definição de entropia
axiomaticamente, definindo certas propriedades que a entropia de uma variável aleatória deve
satisfazer. Esta abordagem é ilustrada no Problema 2.46. Não usamos a abordagem axiomática
para justificar a definição de entropia; em vez disso, mostramos que surge como sendo o
problema de uma série de questões naturais, tais como "Qual é o comprimento médio da
descrição mais curta da variável aleatória?" Primeiro, derivamos consequências imediatas da
definição.
A segunda propriedade da entropia permite-nos mudar a base do logaritmo na definição. A

entropia pode ser alterada de uma base para outra multiplicando-se pelo fator apropriado.
Em particular, H(X) = 1 bit quando p = 1/2. O gráfico da função H(p)

é indicado na Figura 2.1. A figura ilustra algumas das propriedades básicas da entropia: É uma
função côncava da distribuição e equivale a 0 quando
p = 0 ou 1. Isto faz sentido, porque quando p = 0 ou 1, a variável não é aleatória e não há
incerteza. Da mesma forma, a incerteza é o máximo quando p = 1/2, que também corresponde
ao valor máximo da entropia.
Suponha que queremos determinar o valor de X com o número mínimo de perguntas binárias.
Uma primeira pergunta eficiente é "X = a?" Isto divide a probabilidade ao meio. Se a resposta à
primeira pergunta for não, a segunda pergunta pode ser "É X =b?" A terceira pergunta pode
ser: "É X =c?" O número esperado de perguntas binárias exigidas é de 1,75. Este acaba por ser
o número mínimo esperado de perguntas binárias necessárias para determinar o valor de X. No
capítulo 5 mostramos que o número mínimo esperado de perguntas binárias necessárias para
determinar X situa-se entre H(X) e H(X) + 1.
2.2 ENTROPIA CONJUNTA E ENTROPIA CONDICIONAL

Definimos a entropia de uma única variável aleatória na Seção 2.1. Agora estendemos a
definição para um par de variáveis aleatórias. Não há nada realmente novo nesta definição
porque (X, Y ) pode ser considerado como uma variável aleatória avaliada por vetores
separados.
Definição A entropia conjunta H(X, Y ) de um par de variações aleatórias discretas (X, Y )

com distribuição conjunta p(x, y) é definida como
que também pode ser expresso como:
Também definimos a entropia condicional de uma variável aleatória dada outra como o valor
esperado das entropias das distribuições condicionais, média sobre a variável aleatória de
condicionamento.
Definição Se (X, Y ) ∼ p(x, y),a entropia condicional H(Y| X) é definido como
A naturalidade da definição de entropia conjunta e entropia condicional exibida pelo fato de que
a entropia de um par de variáveis aleatórias é a entropia de uma mais a entropia condicional da
outra. Isso é provado no seguinte teorema.
Equivalentemente, podemos escrever:
e tomar a expectativa de ambos os lados da equação para obter o teorema.

A distribuição marginal de X é ( 1 2, 1 4, 1 8, 18) e a distribuição marginal de Y é ( 1 4, 1 4, 1

4, 1 4),e, portanto, H(X) = 7 4 bits e H(Y ) = 2 bits. Além disso,
Da mesma forma, H(Y| X) = 13 /8 bits e H(X, Y ) = 27 /8 bits.

Nota: H(Y| X) = H(X| Y) . No entanto, H(X) - H(X| Y) =
H(Y )- H(Y| X) , uma propriedade que exploramos mais tarde.
2.3 ENTROPIA RELATIVA E INFORMAÇÕES MÚTUAS
A entropia de uma variável aleatória é uma medida da incerteza da variável therandom; é uma
medida da quantidade de informação necessária na média para descrever a variável aleatória.
Nesta seção introduzimos dois conceitos relacionados: entropia relativa e informações mútuas.
A entropia relativa é uma medida da distância entre duas distribuições. Nas estatísticas, surge
como um logaritmo esperado da razão de probabilidade. A relativa entropia D (p|| q) é uma
medida da ineficiência de assumir que a distribuição é q quando a distribuição verdadeira é p.

Por exemplo, se conhecíssemos a verdadeira distribuição p da variável aleatória, poderíamos
construir um código com comprimento médio de descrição H(p). Se, em vez disso, usarmos o
código para uma distribuição q,precisaríamos de H(p) + D(p|| q) bits na ververa para
descrever a variável aleatória.
Definição A entropia relativa ou distância kullback-leibler entre duas funções de massa de

probabilidade p(x) e q(x) é definida como
Na definição acima, utilizamos a convenção de que 0 log 0 0 = 0 e a convenção (com base em

argumentos de continuidade) que 0 log (0/p) = 0 e p log (p/0) = ∞. Assim, se houver algum
símbolo x ∈ X de tal forma que p(x) > 0 e q(x) = 0, então D(p|| q) = ∞.
Em breve mostraremos que a entropia relativa é sempre nonnegativa e iszero se e somente se p

= q. No entanto, não é uma verdadeira distância entre as distribuições, uma vez que não é
simétrica e não satisfaz a qualidade dos triângulos. No entanto, muitas vezes é útil pensar na
entropia relativa como uma "distância" entre as distribuições.
Agora introduzimos informações mútuas, que é uma medida da quantidade de informações que
uma variável aleatória contém sobre outra variável derandom. É a redução da incerteza de uma
variável aleatória devido ao conhecimento do outro.
Definição Considere duas variáveis aleatórias X e Y com uma função de massa de

probabilidade conjunta p(x, y) e funções de massa de probabilidade marginal p(x) e p(y). As
informações mútuas I(X; Y) é a entropia relativa entre a distribuição conjunta e a distribuição
do produto p(x)p(y):
No capítulo 8 generalizamos essa definição para variáveis aleatórias contínuas e (8,54) para
variáveis aleatórias gerais que poderiam variáveis que poderiam de variáveis aleatórias discretas
e contínuas.
Exemplo 2.3.1 Let X = {0, 1} e considere duas distribuições p e q

em X. Deixe p(0) = 1 - r, p(1) = r, edeixar q(0) = 1 - s, q(1) = s. Então
considerando que
Note que D (p|| q) ≠D(q|| p) em geral.
2.4 RELAÇÃO ENTRE ENTROPIA E INFORMAÇÕES MÚTUAS

Podemos reescrever a definição de informações mútuas I (X; Y) como
Assim, as informações mútuas I (X; Y ) é a redução da incerteza de X devido ao conhecimento

de Y. Por simetria, ele também segue que
Assim, X diz tanto sobre Y quanto Y diz sobre X.

Desde H (X, Y ) = H (X) + H (Y| X) , como mostrado na Seção 2.2, temos
Finalmente, notamos que

Assim, a informação mútua de uma variável aleatória consigo mesma é a estofróia da variável
aleatória. Esta é a razão pela qual a entropia é às vezes referida como auto-informação.
Coletando esses resultados, temos o seguinte teorema.
Teorema 2.4.1 (Informação mútua e entropia)
A relação entre H (X), H (Y), H (X, Y), H (X| Y), H (Y| X) e eu(X; Y) é expresso em um
diagrama de Venn (Figura 2.2). Observe que as informações mútuas I(X; Y) corresponde à
intersecção das informações em X com as informações em Y.
Exemplo 2.4.1 Para a distribuição conjunta do Exemplo 2.2.1, é fácil calcular as informações
mútuas I(X; Y) = H(X) - H(X| Y) = H(Y ) -
H(Y| X) = 0. 375 bits.
2.5 REGRAS DE CADEIA PARA ENTROPIA, ENTROPIA RELATIVA E
INFORMAÇÕES MÚTUAS
Agora mostramos que a entropia de uma coleção de variáveis aleatórias é o soro das entropies
condicionais.
Teorema 2.5.1 (Regra da corrente para entropia) Let X1,X2, . . Então
Prova: Pela aplicação repetida das paraentropies regra de expansão de duas variáveis, temos
Agora definimos as informações mútuas condicionais como a redução da incerteza de X devido

ao conhecimento de Y quando Z é dado.
Definição As informações mútuas condicionais das variáveis aleatórias X
e Y dadas Z são definidas por
A informação mútua também satisfaz uma regra de cadeia.
Definimos uma versão condicional da entropia relativa.

Definição Para as funções de massa de probabilidade conjunta p(x, y) e q(x, y), a
entropia relativa condicional D(p(y| x) || q (y| x)) é a média dos entropies relativos entre as
funções de massa de probabilidade condicional p(y| x)
e q (y| x) média acima da função de massa de probabilidade p(x). Mais precisamente,
A notação para entropia relativa condicional não é explícita, uma vez que omitir a distribuição
p(x) da variável aleatória de condicionamento. No entanto, normalmente é compreendido a
partir do contexto.
A entropia relativa entre duas distribuições articulares em um par de variáveis aleatórias pode
ser expandida como a soma de uma entropia relativa e uma entropia relativa acondicionada. A
regra de cadeia para entropia relativa é usada na Secção 4.4 para provar uma versão da segunda
lei da termodinâmica.
2.6 A DESIGUALDADE DO JENSEN E SUAS CONSEQUÊNCIAS

Nesta seção provamos algumas propriedades simples das quantidades mais simples.
Começamos com as propriedades das funções convexas.
Definição A função f (x) é dita ser convexa ao longo de um intervalo (a, b)
se para cada x1, x2 ∈ (a, b) e 0 ≤ λ ≤ 1,
Diz-se que uma função f é estritamente convexa se a igualdade se mantiver apenas se λ = 0 ou

λ = 1.
Definição A função f é côncavo se -f é convexo. Uma função isconvex se ele sempre está
abaixo de qualquer acorde. Uma função é côncava se sempre estiver acima de qualquer acorde.
Exemplos de funções convexas incluem x2, | x| , x, x log x (para x ≥
0), e assim por diante. Exemplos de funções côncavas incluem log x e √x para
x ≥ 0. A Figura 2.3 mostra alguns exemplos de funções convexas e côncavas. Note que as
funções lineares ax + b são convexas e côncavas. A convexidade supõe muitas das
propriedades básicas das quantidades teóricos da informação, como entropia e informações
mútuas. Antes de provarmos algumas dessas propriedades, derivamos alguns resultados simples
para funções convexas.
Teorema 2.6.1 Se a função f tiver um segundo derivado que seja nonnegative (positivo)
durante um intervalo, a função é convexa (estritamente convexa) durante esse intervalo.
Prova: Usamos a expansão da série Taylor da função em torno de x0:
onde x∗ fica entre x0 e x. Por hipótese, f (x∗) ≥ 0, e assim o último termo é nonnegative para
todos x.
Deixamos x0 = λx1 + (1 - λ)x2 e tomar x = x1, paraobter
Da mesma forma, tomando x = x2,obtemos
Multiplicando (2,74) por λ e (2,75) por 1 - λ e adicionando, obtemos (2,72).

A prova de convexidade estrita prossegue na mesma linha.
O teorema 2.6.1 permite-nos verificar imediatamente a estrita convexidade de

x2, ex,e x log x para x ≥ 0, e a estrita concavidade de log x e √x para
x ≥ 0.
Deixe E denotar expectativa. Assim, EX = x∈X p(x)x na discreta e EX = xf (x) dx na caixa

contínua.
A próxima desigualdade é uma das mais utilizadas em matemática e que está por trás de muitos
dos resultados básicos na teoria da informação.
Teorema 2.6.2 (desigualdadedo Jensen) Se f é uma função convexa e X é uma variável

aleatória,
Além disso, se f é estritamente convexo, a igualdade em (2,76) implica que

X = EX com probabilidade 1 (ou seja, X é uma constante).
Prova: Comprovamos isso para distribuições discretas por indução sobre o número de pontos
de massa. A prova de condições para a igualdade quando f é estritamente convex é deixada ao
leitor.
Para uma distribuição de dois pontos em massa, a desigualdade se torna
que segue diretamente da definição de funções convexas. Suponha que o teorema seja
verdadeiro para distribuições com k - 1 pontos de massa. Thenwriting pi = pi /(1 - pk) para
i = 1, 2, ..
onde a primeira desigualdade se decorre da hipótese de indução e estes segundo segue a

definição de convexidade.
A prova pode ser estendida a distribuições contínuas por meio de argumentos de continuidade.
Agora usamos esses resultados para provar algumas das propriedades da entropia e da entropia
relacional. O seguinte teorema é de fundamental importância.
Teorema 2.6.3 (Desigualdade de informação) Deixe p(x), q(x), x ∈ X, sejamduas funções de
massa de probabilidade. Então
com igualdade se e somente se p(x) = q(x) para todos x.

Prova: Deixe A = {x : p(x) > 0} ser o conjunto de suporte de p(x). Então
onde (2.85) segue da desigualdade do Jensen. Uma vez que log t é uma função estritamente
côncava de t, temos igualdadeem (2,85) se e somente se q(x)/p(x) é constante em todos os
lugares [ou seja, q(x) = cp(x) para todos x]. Assim, x∈A q(x) = c x∈A p(x) = c. Temos
igualdade em (2,87) somente se x∈A q(x) = x∈X q(x) = 1, o que implica que c = 1. Por isso,
temos D (p|| q) = 0 se e somente se p(x) = q(x) para todos x .
Corolário (Nonnegativity de informações mútuas) Para quaisquer duas variáveis aleatórias,
X, Y,
com igualdade se e somente se X e Y são independentes.

Prova: I (X; Y) = D(p(x, y)|| p(x)p(y)) ≥ 0, com igualdade se e somente se p(x, y) = p(x)p(y)
(ou seja, X e Y são independentes).
corolário
com igualdade se e somente se p(y| x) = q(y| x) para todos y e x tais que p(x) > 0.
corolário
com igualdade se e somente se X e Y forem condicionalmente independentes dado Z.
Agora mostramos que a distribuição uniforme sobre a faixa X é a distribuição máxima de

entropia sobre esta faixa. Segue-se que qualquer variável aleatória com esta faixa tem uma
entropia não maior do que log | X| .
Registro de ≤ de ≤ | de 2,6.4 H(X) X| , onde | X| denota o número de elementos na faixa de

X,com igualdade se e apenas X tiver uma distribuição uniforme sobre X.
Prova: Let u(x) = 1 / | X| ser a função de massa de probabilidade uniforme sobre X,e deixar
p(x) ser a função de massa de probabilidade para X. Então
Portanto, pela innnegatividade da entropia relativa,
Teorema 2.6.5 (Condicionamento reduz entropia)(Informações não podem prejudicar)
com igualdade se e somente se X e Y são independentes.
Prova: 0 ≤ I (X; Y) - H(X) - H (X| Y) .

Intuitivamente, o teorema diz que conhecer outra variável aleatória Y
só pode reduzir a incerteza em X. Note que isso é verdade apenas na veracidade.
Especificamente, H(X| Y = y) pode ser maior ou menor que o orequal para H(X), mas na
média H(X| Y) = y p(y)H (X| Y = y) ≤
H(X). Por exemplo, em um caso judicial, novas evidências específicas podem aumentar a
certeza, mas, em média, as evidências diminuem a incerteza.
Em seguida, H (X) = H ( 1/8, 7/ 8) = 0. 544 bits, H (X| Y = 1) = 0 bits, eH

(X| Y = 2) = 1 bit. Calculamos H (X| Y ) = 3/ 4H(X| Y = 1) + ¼ H
(X| Y = 2) = 0. 25 bits. Assim, a incerteza em X é aumentada se Y = 2is observados e
diminuídos se Y = 1 for observado, mas a incerteza diminui a média.
Teorema 2.6.6
(Independência ligada à entropia) LetX1,X2, . . Então
com igualdade se e somente se o Xeu for independente.

Prova: Pela regra da cadeia para entropies,
onde a desigualdade segue diretamente do Teorema 2.6.5. Temos igualdade se e somente se

Xi é independente de Xi-1, . .
2.7 LOG SOMA DESIGUALDADE E SUAS APLICAÇÕES
Provamos agora uma simples consequência da concavidade do logaritmo, que será usado para
provar alguns resultados de concavidade para a entropia.
Teorema 2.7.1 (Desigualdade detroncos ) Para números não-inativos, a1, a2, a.
com igualdade se e somente se a i/ bi = const.

Novamente usamos a convenção de que 0 log 0 = 0, um log a0 = ∞ se um > 0 e0 log 00 =
0. Estes seguem facilmente da continuidade.
Prova: Assumir sem perda de generalidade que ai > 0 e bi > 0. A função f (t) = t log t é
estritamente convexa, uma vez que f (t) = 1t log e > 0 para t apositivo . Portanto, pela
desigualdade do Jensen, temos
que é a desigualdade da soma de troncos.
Agora usamos a desigualdade da soma de troncos para provar vários resultados de convexidade.
Começamos repromeleando Theorem 2.6.3, que afirma que D(p|| q) ≥ 0 de igualdade se e
somente se p(x) = q(x). Pela desigualdade da soma de troncos,
com igualdade se e somente se p(x) q(x) = c. Uma vez que p e q são funções de massa de
probabilidade, c = 1, e por isso temos D (p|| q) = 0 se e somente se
p(x) = q(x) para todos x .
Teorema 2.7.2 (Convexidade da entropia relativa) D(p|| q) é convexo no par (p, q); ou seja,
se (p1, q1) e (p2,q2) são dois pares de funções de massa de probabilidade, então
para todos os 0 ≤ λ ≤ 1.
Prova: Aplicamos a desigualdade de soma de troncos a um termo do lado esquerdo (2.105):
Somando isso em todos os x,obtemos a propriedade desejada.
Teorema 2.7.3 (Concavidade da entropia) H(p) é uma função côncava de p.

prova
onde u é a distribuição uniforme em | X| resultados. A concavidade de H segue diretamente

da convexidade de D.
Prova Alternativa: Que X1 seja uma variável aleatória com distribuição p1,assumindovalores
em um conjunto A. Que o X2 seja outra variável aleatória com distribuição p2 no mesmo
conjunto. Vamos
Deixe Z = Xφ. Em seguida, a distribuição de Z é λp1 + (1 - λ)p2. Agora, uma vez que o
condicionamento reduz a entropia, temos
ou equivalentemente,
H (P1 - (1 - 2)p) ≥ 'H' (p1) ' (1 - ')H (p2),
que comprova a concavidade da entropia em função da distribuição.
Uma das consequências da concavidade da entropia é que a mistura de dois gases de entropia
igual resulta em um gás com maior entropia.
Teorema 2.7.4 Let (X, Y ) ∼ p(x, y) = p(x)p(y| x) . A informação mútua I (X; Y ) é uma
função côncava de p(x) para p(y| fixos x) e uma função convexa de p(y| x) para p(x) fixo .
Prova: Para provar a primeira parte, expandimos as informações mútuas
Se p(y| x) é fixado, então p(y) é uma função linear de p(x). Assim, H (Y ),que é uma
funçãocôncava de p(y), é uma funçãocôncava de p(x). O segundo termo é uma função linear de
p(x). Portanto, a diferença é uma função côncava de p(x).
Para provar a segunda parte, fixamos p(x) e consideramos duas distribuições condicionais
diferentes p1(e| x) e p2(y| x) . As distribuições articulares correspondentes são p1(x, y) =
p(x)p1(y| x) e p2(x, y) = p(x)p2(y| x) , e seus respectivos marginais são p(x), p1(y) e p(x),
p2(y). Considere a distribuição acondicionada
(e| x) s.p.1(e| x) + (1 - )p2(e| x),

que é uma mistura de p1(y| x) e p2(y| x) onde 0 ≤ λ ≤ 1. A distribuição articular
correspondente também é uma mistura das distribuições articulares correspondentes,
p '(x, y)'p 1(x, y) + (1 - ')p2(x, y),
e a distribuição de Y também é uma mistura,
p s(y)
s p 1(y) + (1 - s)p2(y).
Portanto, se deixarmos qλ(x, y) = p(x)pλ(y) ser o produto das distribuições marginais, temos
qλ(x, y) = λq1(x, y) + (1 - λ)q2(x, y).
Uma vez que a informação mútua é a entropia relativa entre a distribuição conjunta e o produto
dos marginais, I (X; Y ) = D(pλ(x, y)||qλ(x, y))
e entropia relativa D (p|| q) é uma função convexa de (p, q), segue-se que a informação mútua
é uma função convexa da distribuição condicional.
2.8 DESIGUALDADE DE PROCESSAMENTO DE DADOS
A desigualdade de processamento de dados pode ser usada para mostrar que nenhuma
manipulação inteligente dos dados pode melhorar as inferências que podem ser feitas a partir
dos dados.
Definição Variáveis aleatórias X, Y, Z são ditas para formar uma cadeia markov nessa ordem
(denotada por X → Y → Z) se adistribuição condicional de Z depende apenas de Y e é
condicionalmente independente de X. Especificamente, X, Ye Z formam uma cadeia Markov
X → Y → Z se a função de massa de probabilidade conjunta puder ser escrita como
p(x, y, z) s p(x)p(y| x)p(z| e).

Algumas consequências simples são as seguintes:
*X → Y → Z se e somente se X e Z forem condicionalmente independentes Y. Markovity

implica independência condicional porque
Esta é a caracterização das cadeias Markov que podem ser estendidas para definir campos de
Markov, que sãoprocessos aleatórios n-dimensionais em que o interior e o exterior são
independentes dado os valores no limite.
X → Y → Z implica que Z → Y → X. Assim, às vezes, a condição é escrita X ↔ Y ↔ Z.
Se Z = f (Y ),então X → Y → Z.
*Podemos agora provar um teorema importante e útil demonstrando que nenhum processamento
de Y,determinístico ou aleatório, pode aumentar as informações que Y contém sobre X.
Teorema 2.8.1 (Desigualdade de processamento de dados) f X → Y → Z,depois I (X; Y) ≥

I (X; Z)
Prova: Pela regra da cadeia, podemos expandir a informação mútua de duas maneiras
diferentes:
Uma vez que X e Z são condicionalmente independentes dado Y,temos I (X; | Z Y) = 0.

Desde eu (X; Y| Z) ≥ 0, nós temos
I(X; Y) ≥ I (X; Z).
Temos igualdade se e somente se eu (X; Y| Z) = 0 (ou seja, X → Z → Y forma uma corrente
Markov). Da mesma forma, pode-se provar que eu (Y; Z) ≥ I (X; Z)
Corolário Em particular, se Z = g(Y ) ,temos I (X; Y) ≥ I (X; g(Y ))
Prova: X → Y → g(Y ) forma uma corrente Markov.
Assim, funções dos dados Y não pode aumentar as informações sobre X.
Corollary If X → Y → Z,então I (X; Y| Z) ≤ I (X; Y) .

Prova: Notamos em (2.119) e (2.120) que eu (X; | Z Y) = 0, por Markovity, e eu (X; Z) ≥ 0.
Assim,
I(X; Y| Z) ≤ I (X; Y)
Assim, a dependência de X e Y é diminuída (ou permanece inalterada) pela observação de uma

variável aleatória "downstream" Z. Note que também é possível que eu (X; Y| Z) > I (X; Y)
quando X, Ye Z não formam uma corrente Markov. Por exemplo, deixe X e Y serem
variáveis aleatórias binárias justas independentes, e deixe Z = X + Y. Então eu (X; Y) = 0,
mas I (X; Y| Z) = H(X| Z) - H(X| Y, Z) = H (X| Z) = P(Z = 1)H (X| Z = 1) = 12 bits.
Exercícios

Entropia Informação Mutua

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Entropia Informação Mutua

Enviado por

Direitos autorais:

Formatos disponíveis

Cover Capitulo 2 Samuel Mauro Garcia Murça

ENTROPIA, ENTROPIA RELATIVA E

Também escrevemos H(p) para a quantidade acima. O logaritimo é de base 2 e a entropia é

ou mais simplesmente como Eg(X) quando a função de massa de probabilidade é entendida a

Esta definição de entropia está relacionada com a definição de entropia na termodinâmica;

A segunda propriedade da entropia permite-nos mudar a base do logaritmo na definição. A

Em particular, H(X) = 1 bit quando p = 1/2. O gráfico da função H(p)

2.2 ENTROPIA CONJUNTA E ENTROPIA CONDICIONAL

Definição A entropia conjunta H(X, Y ) de um par de variações aleatórias discretas (X, Y )

que também pode ser expresso como:

Equivalentemente, podemos escrever:

e tomar a expectativa de ambos os lados da equação para obter o teorema.

A distribuição marginal de X é ( 1 2, 1 4, 1 8, 18) e a distribuição marginal de Y é ( 1 4, 1 4, 1

Da mesma forma, H(Y| X) = 13 /8 bits e H(X, Y ) = 27 /8 bits.

2.3 ENTROPIA RELATIVA E INFORMAÇÕES MÚTUAS

medida da ineficiência de assumir que a distribuição é q quando a distribuição verdadeira é p.

Definição A entropia relativa ou distância kullback-leibler entre duas funções de massa de

Na definição acima, utilizamos a convenção de que 0 log 0 0 = 0 e a convenção (com base em

Em breve mostraremos que a entropia relativa é sempre nonnegativa e iszero se e somente se p

Definição Considere duas variáveis aleatórias X e Y com uma função de massa de

Exemplo 2.3.1 Let X = {0, 1} e considere duas distribuições p e q

Note que D (p|| q) ≠D(q|| p) em geral.

2.4 RELAÇÃO ENTRE ENTROPIA E INFORMAÇÕES MÚTUAS

Assim, as informações mútuas I (X; Y ) é a redução da incerteza de X devido ao conhecimento

Assim, X diz tanto sobre Y quanto Y diz sobre X.

Finalmente, notamos que

Agora definimos as informações mútuas condicionais como a redução da incerteza de X devido

A informação mútua também satisfaz uma regra de cadeia.

Definimos uma versão condicional da entropia relativa.

2.6 A DESIGUALDADE DO JENSEN E SUAS CONSEQUÊNCIAS

Diz-se que uma função f é estritamente convexa se a igualdade se mantiver apenas se λ = 0 ou

Prova: Usamos a expansão da série Taylor da função em torno de x0:

Da mesma forma, tomando x = x2,obtemos

Multiplicando (2,74) por λ e (2,75) por 1 - λ e adicionando, obtemos (2,72).

O teorema 2.6.1 permite-nos verificar imediatamente a estrita convexidade de

Deixe E denotar expectativa. Assim, EX = x∈X p(x)x na discreta e EX = xf (x) dx na caixa

Teorema 2.6.2 (desigualdadedo Jensen) Se f é uma função convexa e X é uma variável

Além disso, se f é estritamente convexo, a igualdade em (2,76) implica que

onde a primeira desigualdade se decorre da hipótese de indução e estes segundo segue a

com igualdade se e somente se p(x) = q(x) para todos x.

com igualdade se e somente se X e Y são independentes.

com igualdade se e somente se X e Y forem condicionalmente independentes dado Z.

Agora mostramos que a distribuição uniforme sobre a faixa X é a distribuição máxima de

Registro de ≤ de ≤ | de 2,6.4 H(X) X| , onde | X| denota o número de elementos na faixa de

Portanto, pela innnegatividade da entropia relativa,

Teorema 2.6.5 (Condicionamento reduz entropia)(Informações não podem prejudicar)

com igualdade se e somente se X e Y são independentes.

Prova: 0 ≤ I (X; Y) - H(X) - H (X| Y) .

Em seguida, H (X) = H ( 1/8, 7/ 8) = 0. 544 bits, H (X| Y = 1) = 0 bits, eH

com igualdade se e somente se o Xeu for independente.

onde a desigualdade segue diretamente do Teorema 2.6.5. Temos igualdade se e somente se

com igualdade se e somente se a i/ bi = const.

que é a desigualdade da soma de troncos.

Somando isso em todos os x,obtemos a propriedade desejada.

Teorema 2.7.3 (Concavidade da entropia) H(p) é uma função côncava de p.

onde u é a distribuição uniforme em | X| resultados. A concavidade de H segue diretamente

Prova: Para provar a primeira parte, expandimos as informações mútuas

(e| x) s.p.1(e| x) + (1 - )p2(e| x),

e a distribuição de Y também é uma mistura,

2.8 DESIGUALDADE DE PROCESSAMENTO DE DADOS

p(x, y, z) s p(x)p(y| x)p(z| e).

*X → Y → Z se e somente se X e Z forem condicionalmente independentes Y. Markovity