Escolar Documentos
Profissional Documentos
Cultura Documentos
Suponha que queremos determinar o valor de X com o número mínimo de perguntas binárias.
Uma primeira pergunta eficiente é "X = a?" Isto divide a probabilidade ao meio. Se a resposta à
primeira pergunta for não, a segunda pergunta pode ser "É X =b?" A terceira pergunta pode
ser: "É X =c?" O número esperado de perguntas binárias exigidas é de 1,75. Este acaba por ser
o número mínimo esperado de perguntas binárias necessárias para determinar o valor de X. No
capítulo 5 mostramos que o número mínimo esperado de perguntas binárias necessárias para
determinar X situa-se entre H(X) e H(X) + 1.
Também definimos a entropia condicional de uma variável aleatória dada outra como o valor
esperado das entropias das distribuições condicionais, média sobre a variável aleatória de
condicionamento.
Definição Se (X, Y ) ∼ p(x, y),a entropia condicional H(Y| X) é definido como
A naturalidade da definição de entropia conjunta e entropia condicional exibida pelo fato de que
a entropia de um par de variáveis aleatórias é a entropia de uma mais a entropia condicional da
outra. Isso é provado no seguinte teorema.
A entropia de uma variável aleatória é uma medida da incerteza da variável therandom; é uma
medida da quantidade de informação necessária na média para descrever a variável aleatória.
Nesta seção introduzimos dois conceitos relacionados: entropia relativa e informações mútuas.
A entropia relativa é uma medida da distância entre duas distribuições. Nas estatísticas, surge
como um logaritmo esperado da razão de probabilidade. A relativa entropia D (p|| q) é uma
Cover Capitulo 2 Samuel Mauro Garcia Murça
Agora introduzimos informações mútuas, que é uma medida da quantidade de informações que
uma variável aleatória contém sobre outra variável derandom. É a redução da incerteza de uma
variável aleatória devido ao conhecimento do outro.
No capítulo 8 generalizamos essa definição para variáveis aleatórias contínuas e (8,54) para
variáveis aleatórias gerais que poderiam variáveis que poderiam de variáveis aleatórias discretas
e contínuas.
considerando que
Assim, a informação mútua de uma variável aleatória consigo mesma é a estofróia da variável
aleatória. Esta é a razão pela qual a entropia é às vezes referida como auto-informação.
Coletando esses resultados, temos o seguinte teorema.
Teorema 2.4.1 (Informação mútua e entropia)
A relação entre H (X), H (Y), H (X, Y), H (X| Y), H (Y| X) e eu(X; Y) é expresso em um
diagrama de Venn (Figura 2.2). Observe que as informações mútuas I(X; Y) corresponde à
intersecção das informações em X com as informações em Y.
Exemplo 2.4.1 Para a distribuição conjunta do Exemplo 2.2.1, é fácil calcular as informações
mútuas I(X; Y) = H(X) - H(X| Y) = H(Y ) -
H(Y| X) = 0. 375 bits.
2.5 REGRAS DE CADEIA PARA ENTROPIA, ENTROPIA RELATIVA E
INFORMAÇÕES MÚTUAS
Agora mostramos que a entropia de uma coleção de variáveis aleatórias é o soro das entropies
condicionais.
Teorema 2.5.1 (Regra da corrente para entropia) Let X1,X2, . . Então
Prova: Pela aplicação repetida das paraentropies regra de expansão de duas variáveis, temos
Cover Capitulo 2 Samuel Mauro Garcia Murça
A notação para entropia relativa condicional não é explícita, uma vez que omitir a distribuição
p(x) da variável aleatória de condicionamento. No entanto, normalmente é compreendido a
partir do contexto.
A entropia relativa entre duas distribuições articulares em um par de variáveis aleatórias pode
ser expandida como a soma de uma entropia relativa e uma entropia relativa acondicionada. A
regra de cadeia para entropia relativa é usada na Secção 4.4 para provar uma versão da segunda
lei da termodinâmica.
Cover Capitulo 2 Samuel Mauro Garcia Murça
onde x∗ fica entre x0 e x. Por hipótese, f (x∗) ≥ 0, e assim o último termo é nonnegative para
todos x.
Deixamos x0 = λx1 + (1 - λ)x2 e tomar x = x1, paraobter
A próxima desigualdade é uma das mais utilizadas em matemática e que está por trás de muitos
dos resultados básicos na teoria da informação.
que segue diretamente da definição de funções convexas. Suponha que o teorema seja
verdadeiro para distribuições com k - 1 pontos de massa. Thenwriting pi = pi /(1 - pk) para
i = 1, 2, ..
onde (2.85) segue da desigualdade do Jensen. Uma vez que log t é uma função estritamente
côncava de t, temos igualdadeem (2,85) se e somente se q(x)/p(x) é constante em todos os
lugares [ou seja, q(x) = cp(x) para todos x]. Assim, x∈A q(x) = c x∈A p(x) = c. Temos
igualdade em (2,87) somente se x∈A q(x) = x∈X q(x) = 1, o que implica que c = 1. Por isso,
temos D (p|| q) = 0 se e somente se p(x) = q(x) para todos x .
Corolário (Nonnegativity de informações mútuas) Para quaisquer duas variáveis aleatórias,
X, Y,
com igualdade se e somente se p(y| x) = q(y| x) para todos y e x tais que p(x) > 0.
corolário
Prova: Let u(x) = 1 / | X| ser a função de massa de probabilidade uniforme sobre X,e deixar
p(x) ser a função de massa de probabilidade para X. Então
Agora usamos a desigualdade da soma de troncos para provar vários resultados de convexidade.
Começamos repromeleando Theorem 2.6.3, que afirma que D(p|| q) ≥ 0 de igualdade se e
somente se p(x) = q(x). Pela desigualdade da soma de troncos,
Cover Capitulo 2 Samuel Mauro Garcia Murça
com igualdade se e somente se p(x) q(x) = c. Uma vez que p e q são funções de massa de
probabilidade, c = 1, e por isso temos D (p|| q) = 0 se e somente se
p(x) = q(x) para todos x .
Teorema 2.7.2 (Convexidade da entropia relativa) D(p|| q) é convexo no par (p, q); ou seja,
se (p1, q1) e (p2,q2) são dois pares de funções de massa de probabilidade, então
para todos os 0 ≤ λ ≤ 1.
Prova: Aplicamos a desigualdade de soma de troncos a um termo do lado esquerdo (2.105):
Deixe Z = Xφ. Em seguida, a distribuição de Z é λp1 + (1 - λ)p2. Agora, uma vez que o
condicionamento reduz a entropia, temos
ou equivalentemente,
H (P1 - (1 - 2)p) ≥ 'H' (p1) ' (1 - ')H (p2),
que comprova a concavidade da entropia em função da distribuição.
Uma das consequências da concavidade da entropia é que a mistura de dois gases de entropia
igual resulta em um gás com maior entropia.
Teorema 2.7.4 Let (X, Y ) ∼ p(x, y) = p(x)p(y| x) . A informação mútua I (X; Y ) é uma
função côncava de p(x) para p(y| fixos x) e uma função convexa de p(y| x) para p(x) fixo .
Cover Capitulo 2 Samuel Mauro Garcia Murça
Se p(y| x) é fixado, então p(y) é uma função linear de p(x). Assim, H (Y ),que é uma
funçãocôncava de p(y), é uma funçãocôncava de p(x). O segundo termo é uma função linear de
p(x). Portanto, a diferença é uma função côncava de p(x).
Para provar a segunda parte, fixamos p(x) e consideramos duas distribuições condicionais
diferentes p1(e| x) e p2(y| x) . As distribuições articulares correspondentes são p1(x, y) =
p(x)p1(y| x) e p2(x, y) = p(x)p2(y| x) , e seus respectivos marginais são p(x), p1(y) e p(x),
p2(y). Considere a distribuição acondicionada
p s(y)
s p 1(y) + (1 - s)p2(y).
Portanto, se deixarmos qλ(x, y) = p(x)pλ(y) ser o produto das distribuições marginais, temos
qλ(x, y) = λq1(x, y) + (1 - λ)q2(x, y).
Uma vez que a informação mútua é a entropia relativa entre a distribuição conjunta e o produto
dos marginais, I (X; Y ) = D(pλ(x, y)||qλ(x, y))
e entropia relativa D (p|| q) é uma função convexa de (p, q), segue-se que a informação mútua
é uma função convexa da distribuição condicional.
A desigualdade de processamento de dados pode ser usada para mostrar que nenhuma
manipulação inteligente dos dados pode melhorar as inferências que podem ser feitas a partir
dos dados.
Definição Variáveis aleatórias X, Y, Z são ditas para formar uma cadeia markov nessa ordem
(denotada por X → Y → Z) se adistribuição condicional de Z depende apenas de Y e é
condicionalmente independente de X. Especificamente, X, Ye Z formam uma cadeia Markov
X → Y → Z se a função de massa de probabilidade conjunta puder ser escrita como
Esta é a caracterização das cadeias Markov que podem ser estendidas para definir campos de
Markov, que sãoprocessos aleatórios n-dimensionais em que o interior e o exterior são
independentes dado os valores no limite.
X → Y → Z implica que Z → Y → X. Assim, às vezes, a condição é escrita X ↔ Y ↔ Z.
Se Z = f (Y ),então X → Y → Z.
*Podemos agora provar um teorema importante e útil demonstrando que nenhum processamento
de Y,determinístico ou aleatório, pode aumentar as informações que Y contém sobre X.
Exercícios
Cover Capitulo 2 Samuel Mauro Garcia Murça