Pres Teoerg Entropia Notas

Teoria Ergódica (MATD31)
Equivalência ergódica. Entropia. Teoremas de Kolmogorov-Sinai,
Shannon-Mcmillan-Breiman, Brin-Katok.
V. Araújo
Mestrado/Doutorado em Matemática, UFBA, 2014-2016
Conteúdo
1 Sistemas equivalentes 1
1.1 Equivalência ergódica . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Teorema de Ornstein . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Entropia 4
2.1 Informação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Partições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Kolmogorov-Sinai . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4 Semicontinuidade . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3 Local 25
3.1 Shannon-McMillan-Breiman . . . . . . . . . . . . . . . . . . . 25
3.2 Teorema de Brin-Katok . . . . . . . . . . . . . . . . . . . . . . 25
4 Exemplos 27
4.1 Desl. Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.2 Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.3 Endomorfismos . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.4 Decomposição . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1 Sistemas equivalentes
Sistemas Equivalentes
Quando dois sistemas (ƒ , μ) e (g, ν) que preservam medida devem
ser considerados o “mesmo” e como decidir se eles são “iguais”?
Dois sistemas são considerados ergodicamente equivalentes
se, restritas a subconjuntos com medida total, as transformações
1
são conjugadas por uma aplicação invertível que preserva as me-
didas invariantes: essa aplicação permite traduzir as propriedades
de qualquer dos sistemas para o outro sistema.
Em geral, dados dois sistemas, a única forma de provar que eles
são equivalentes é exibindo explicitamente a aplicação de conjuga-
ção. Por outro lado, o modo mais usual de mostrar que dois sistemas
não são equivalentes é encontrar alguma propriedade que valha num
mas não no outro.
Equivalência espectral. Entropia.

Dois sistemas são espectralmente equivalentes se os operadores
de Koopman associados, que são isometrias no espaço de Hilbert de
funções de quadrado integrável, são conjugados por um operador
unitário (uma isometria entre os espaços de Hilbert).
Dois sistemas ergodicamente equivalentes são necessariamente,
espectralmente equivalentes, mas o recíproco é falso.
Esta ideia conduz a uma família de invariantes ligados ao espectro
do operador de Koopman, que precisam ser iguais nos dois sistemas
para que eles possam ser equivalentes e que, portanto, podem ser
usados para concluir que dois sistemas não são equivalentes.
Outros invariantes, não espectrais, são muito importantes, como
a entropia.
1.1 Equivalência ergódica

Definição de equivalência ergódica
Sejam ƒ : (M, μ) e g : (N, ν) transformações que preservam
medidas de probabilidade. Dizemos que elas são ergodicamente
equivalentes se existem conjuntos mensuráveis X ⊂ M, Y ⊂ N com
μ(M \ X) = 0 = ν(N \ Y) e uma bijeção mensurável ϕ : X → Y com
inversa mensurável tal que
ϕ∗ μ = ν e ϕ ◦ ƒ = g ◦ ϕ.
É um exercício simples verificar que esta é uma relação reflexiva, si-

métrica e transitiva (uma relação de equivalência) entre os sistemas
que preservam medida.
Não é difícil de verificar que os conjuntos X, Y podem ser escolhi-
dos ƒ - e g-invariantes, respectivamente (basta tomar X0 = ∩n≥0 ƒ −n X, Y0 =
∩n≥0 g−n Y).
2
Exemplo: 10 mod 1 e o shift com 10 símbolos
Seja ƒ = ƒ10 : [0, 1] dada por  7→ 10 − [10] que preserva e
medida de Lebesgue. Podemos associar a cada a = (n )n≥0 ∈ +
10 um
n
número real em [0, 1] por ϕ(a) = n≥0 10n+1 .
P
Já sabemos que ϕ é sobrejetiva. Mas não é injetiva, pois as sequên-

cias 1000000 . . . e 0999999 . . . são enviadas no mesmo número real.
Mas isto acontece se, e só se, o número real admite uma expansão
decimal finita: se todos os dígitos são iguais a zero a partir de certa
ordem. Então estes números formam um conjunto enumerável e por-
tanto de medida de Lebesgue nula.
Se X ⊂ +10 é formado pelas sequências com número infinito de
símbolos diferentes de zero e Y ⊂ [0, 1] é formado pelos números
com expansão decimal infinita, então ϕ | X : X → Y é bijeção.
ϕ é bijeção mensurável que preserva medida

ϕPé mensurável: ϕ(X∩[0, m; 0 , . . . , m ]) é o intervalo [, b] com
m
 = n=0 10n+1
n
e b =  + 10−m−1 , portanto ϕ−1 ([, b]) é mensurável
e estes intervalos formam uma álgebra que gera a σ-álgebra dos
mensuráveis.
Mais ainda, temos que se ν é a medida de Bernoulli em +
10 com
1
p0 = · · · = p9 = 10 , então ν(ϕ−1 [, b]) = Leb([, b]) e portanto
ϕ∗ ν = Leb (novamente porque estes conjuntos geram uma álgebra
que gera a σ-álgebra dos mensuráveis).
−1
(ϕ | X)−1 é mensurável: como (ϕ | X)−1 = ϕ | X, então a
mesma propriedade acima mostra que esta transformação é mensu-
rável.
Mostramos que (ƒ , Leb) e (σ, ν) são ergodicamente equivalentes
(e portanto ergódicos e misturadores).
Equivalência ergódica, ergodicidade, mistura

Notemos que se A ⊂ M é ƒ -invariante e (ƒ , μ) é ergodicamente
equivalente a (g, ν), então ϕ(A) é g-invariante e μ(A) = ν(ϕ(A)). Logo
μ é ƒ -ergódica ou (fracamente) misturadora se, e só se, ν é g ergó-
dica ou (fracamente) misturadora (exercício: verifique os pormenores
destes casos).
Notemos que se tivermos um resultado de decaimento de corre-
lações relativo a certo espaço de funções ψ ∈ B para (ƒ , μ), então
teremos um resultado de decaimento para funções ψ ◦ ϕ para (g, ν),
mas este espaço vai depender das propriedades de ϕ (por exemplo,
3
se B for o conjunto das funções analíticas, as funções ψ ◦ ϕ pode for-
mar um espaço difícil de identificar).
Estas propriedades: ergodicidade e mistura (fraca) podem assim
ser usadas para distinguir entre sistemas que não são ergodicamente
equivalentes.
Ainda assim, isto é usualmente bastante difícil. Por exemplo, nada
do que vimos até agora permite distinguir entre
σ2 : +
2
e σ3 : +
3

com as medidas de Bernoulli que dão pesos iguais a todos os símbo-

los. São ergodicamente equivalentes?
Note que σ2 e σ3 não são topologicamente conjugadas: não
existe homeomorfismo h : + +
2 + → 3 que conjugue σ2 e σ3 porque σ2
tem dois pontos fixos enquanto σ3 tem exatamente três pontos fixos.
Mas isto nada diz sobre equivalência ergódica.
1.2 Teorema de Ornstein

Equivalência ergodica em shifts bilaterais
O seguinte resultado central da Teoria Ergódica foi provado em
1970 por Donald Ornstein.
Teorema (de Ornstein)
Dois deslocamentos de Bernoulli bilaterais são ergodicamente equi-
valentes se, e só se, suas entropias são iguais.
Isto mostra porque a entropia é uma noção tão importante, que
estudaremos no que segue.
É notável que todos os deslocamentos de Bernoulli bilate-
rais são espectralmente equivalentes!
2 Entropia
2.1 Informação
Entropia
A palavra entropia foi inventada em 1865 pelo físico-matemático
alemão Rudolf Clausius, um dos pioneiros fundadores da Termodinâ-
mica. Na teoria dos sistemas termodinâmicos em equilíbrio a entro-
pia mede a “desordem” do sistema. A Segunda Lei da Termodinâmica
afirma que, quando um sistema isolado passa de um equilíbrio a ou-
tro, a entropia do estado final é necessariamente maior do que a
entropia do estado inicial.
4
Se juntamos dois recipientes contendo gases distintos, oxigênio
e hidrogênio, os dois gases se misturam até alcançarem um novo
equilíbrio em que ambos se encontram uniformemente distribuídos;
a entropia deste estado final é superior à entropia do estado inicial,
em que os dois gases estavam separados.
Inter-relações com outras áreas

Esta noção tem um paper central em diversas áreas do conheci-
mento: exemplo importante é a Teoria da Informação, desenvolvida
a partir os trabalhos do engenheiro americano Claude Shannon na
primeira metade do século XX.
Simultaneamente, os matemáticos soviéticos Andrey Kolmogorov
e Yakov Sinai propuseram uma definição de entropia de um sistema
em Teoria Ergódica, com o objetivo de obter um invariante de equiva-
lência ergódica para, em particular, distinguir entre os deslocamen-
tos de Bernoulli.
Entropia e Teoria da Informação

Para motivar a definição de entropia de Kolmogorov-Sinai, vamos
considerar uma situação básica da Teoria da Informação: um canal
de comunicação que emite sucessivamente certos símbolos. Pode
ser um telégrafo transmitindo sinais longos e curtos (pontos e traços,
segundo o antigo Código Morse), uma fibra ótica transmitindo zeros
e uns (segundo o código ASCII), ou qualquer sistema de transmissão
sequencial de informação.
É notável que a Teoria da Informação não depende do meio de
transmissão ou do tipo de linguagem usada: é uma “Teoria Matemá-
tica da Comunicação”.
Vamos tentar estimar a quantidade de informação transmitida, em
média, neste canal por unidade de tempo.
Quantidade de informação
Para formalizar a ideia, seja A o alfabeto de símbolos transmi-
tidos. Nem todas as letras deste alfabeto têm a mesma frequên-
cia/probabilidade de serem usadas: se o canal transmite mensagens
em língua portuguesa (um caso particular de uma codificação de
mensagens) a letra A será utilizada com muito maior frequência do
que a letra Z.
Portanto nem todas as letras carregam a mesma quantidade de
informação: quanto mais improvável é uma letra, menor o número
de palavras que a contêm e, assim, mais informação está associada
a essa letra.
5
Analogamente, quanto mais improvável for uma palavra, menor o
número de frases de que participa, e maior a quantidade de informa-
ção que essa palavra transmite.
Quantidade de informação e probabilidade

Note que a quantidade de informação de cada caracter depende
dos outros caracteres. Por exemplo, se um canal de informação em
português gera sucessivamente os caracteres , N, V, A, R, , A, N, T,
então o caracter seguinte deve ser E. Assim, esta letra E não trasmite
qualquer informação adicional ao que já tinha sido transmitido.
Por outro lado, quando os caracteres transmitidos sucessivamente
são independentes, então a informação de cada um se soma à infor-
mação dos anteriores. Mas a probabilidade de ocorrência de uma
dada sequência de caracteres é o produto da probabilidade de cada
um. Isto sugere que a informação deve ser definida como logaritmo
de uma probabilidade.
Definição de quantidade de informação

Na Teoria da Informação é usual considerar log2 pois os canais de
comunicação são usualmente binários (e daí vem o “bit”, abreviatura
de “binary digit” que é a unidade de informação). Em Teoria Ergódica
é usual tratar com logaritmos naturais.
A quantidade de informação associada a um caracter  ∈ A é
() = − log p onde p é a probabilidade (ou frequência) do caracter
. A informação média associada a A é o valor esperado (A) =
=
P P
 p  ()  −p  log p .
Em geral, a informação associada a uma palavra 1 . . . n é (1 . . . n ) =
− log p1 ...n onde a probabilidade p1 ...n da palavra é usualmente
maior que o produto da probabilidade de cada letra (e vale a igual-
dade caso as letras sejam independentes).
Entropia do canal
Se An representa o conjunto de todas as palavras com n símbolos,
definimos
X X
(An ) = p1 ...n (1 . . . n ) = −p1 ...n log p1 ...n .
1 ,...,n 1 ,...,n
Finalmente, a entropia do canal de comunicação é dada por

1
 = lim (An ).
n→∞ n
Estas noções foram apresentadas por Claude Shannon no trabalho
ainda hoje atual
6
Shannon, C.E. (1948), "A Mathematical Theory of Communica-
tion", Bell System Technical Journal, 27, pp. 379–423 & 623–656,
July & October, 1948.
Porquê a soma de logaritmos?

(1) A função entropia H(p1 , . . . , pn ) dePum alfabeto de n letras ge-
radas com frequência p ,  = 1, . . . n com  p = 1 toma seu valor má-
ximo para p = 1n (todos os símbolos surgem com a mesma frequên-
cia).
(2) Devemos ter H(p1 , . . . , pn ) independente das permutação
das probabilidades e H(p1 , . . . , pn ) = H(p1 , . . . , pn , 0).
(3) Além disto, se tivermos duas palavras A = 1 . . . n , B = b1 . . . bm
escritas uma depois da outra (concatenação) AB, então H(AB) =
H(A) + HA (B), onde HA (B) é a entropia condicional de B dado A:
X X
HA (B) = −p qj log qj
 j
em que p é a probabilidade de  e qj é a probabilidade de bj dado

que  já ocorreu (probabilidade condicional).
Unicidade da função entropia

Teorema
1 , . . . , pn ) função definida em R no simplexo Δn = {(p1 , . . . , pn ) :
Seja H(pP n
p ≥ 0&  p = 1} para cada n ≥ 1. Se esta função é contínua e valem

as três propriedades anteriores, então
n
X
H(p1 , . . . , pn ) = −λ p log p
=1
para alguma constante positiva λ.

Para a prova, veja
A. Ya. Khinchin, “Mathematical foundations of information the-
ory”, Dover Publications, 1957.
2.2 Partições
Entropia via partições
Adaptando estas ideias para Teoria Ergódica, discretizamos
o espaço tomando partições finitas ou enumeráveis formadas por
subconjuntos mensuráveis, e associamos a cada átomo desta par-
tição um símbolo, obtendo um alfabeto finito ou enumerável.
7
Depois calculamos a entropia de uma dada transformação que
preserva medida para cada partição fixada.
Finalmente, tomamos o maior valor possível entre todas as
partições do espaço.
Usando resultados gerais sobre entropia em sistemas que preser-
vam medida é possível efetivamente estimar a entropia para muitos
sistemas que preservam medida.
Partição e função de informação

Seja (M, A, μ) espaço de medida. Dizemos que uma família finita
ou enumerável de subconjuntos mensuráveis P é uma partição se
estes conjuntos são dois a dois disjuntos e sua união tem medida
total. Escrevemos P() para o elemento que contém  ∈ M.
A soma P ∨ Q duas partições é a partição cujos elementos são as
interseções P ∩ Q com P ∈ P, Q ∈ Q. Em geral, para qualquer família
enumerável de partições Pn definimos

_ \
Pn = P n : P n ∈ Pn .
n n
Associamos a cada partição P a função de informação
P : M → R,  7→ − log μ(P()).
Entropia de uma partição

É claro que P é mensurável (de fato, é uma função simples se P
for finita). A entropia ou informação média de P é o número
Z X
Hμ (P) = P dμ = −μ(P) log μ(P),
P∈P
onde convencionamos 0 log 0 = lim→0+  log  = 0.
0, 4 φ(x) = −x log x
y = φ(x)
0, 3
0, 2
0, 1
0
0 0, 2 0, 4 0, 6 0, 8 1
x
8
Concavidade de − log 
00
Se ϕ() = − log , então ϕ0 () = −(1 + log ) e ϕ () = −1/  < 0.
Logo ϕ é côncava:
t1 ϕ(1 ) + · · · + tn ϕ(n ) ≤ ϕ(t1 1 + · · · + tn n )
para 1 , . . . , n ≥ 0, t1 , . . . , tn ≥ 0 e  t = 1.
P
Mais ainda, a concavidade é estrita: vale igualdade na ex-

pressão acima se, e só se, 1 = · · · = k .
Dizemos que duas partições P, Q são independentes se μ(P ∩ Q) =
μ(P)μ(Q) para todos os P ∈ P, Q ∈ Q e neste caso temos P∨Q = P + Q ,
logo Hμ (P ∨ Q) = Hμ (P) + Hμ (Q) (veremos que vale Hμ (P ∨ Q) ≤ Hμ (P) +
Hμ (Q) em geral).
Exemplos
Seja M = [0, 1] com μ = Leb e para n ≥ 1 seja Pn a partição dos
subintervalos (( − 1)/ 10n , / 10n ] com 1 ≤  ≤ 10n . Então Hμ (Pn ) =
P10n 1 1
− 10 n log 10n = n log 10.
=1
Seja M = + d com a σ-álgebra dos cilindros e μ medida de Bernoulli

com p a probabilidade de  ∈ {0, . . . , d − 1}. Para cada n ≥ 1 seja
Pn a partição dos cilindros de comprimento n: [0 , . . . , n−1 ],  ∈

{0, . . . , d − 1} . Então
X
Hμ (Pn ) = −p0 . . . pn−1 log(p0 . . . pn−1 )
0 ,...,n−1
X X
= −p0 . . . pn−1 log pj
j 0 ,...,n−1
XX X
= −pj log pj p0 . . . pj−1 pj+1 . . . pn−1
j j  ,6=j
Partição finita tem entropia finita

Como a soma da direita é igual a 1, obtemos
n−1
X d−1
X d−1
X
Hμ (Pn ) = −pj log pj = n −p log p
j=0 j =0 =0
Lema
Se #P < ∞ então Hμ (P) ≤ log #P e vale a igualdade se, e só se,
μ(P) = 1/ (#P) para todo P ∈ P.
9
Se P = {P0 , . . . , Pn−1 }, então fazendo t = 1/ n e  = μ(P ) para
 = 0, . . . , n − 1 obtemos (por concavidade)
n−1
n−1
1 1 1
X X
Hμ (P) = t ϕ( ) ≤ ϕ t  = ϕ = log n
n =0 =0
n n
e vale igualdade se, e só se,  são todos iguais.
Partição enumerável com entropia infinita

R∞ d 1 1
< ∞, então c = k≥2 k(log ∈ R e vale k≥2 =
P P
Como 2 (log )2 k)2 ck(log k)2
1
1. Podemos particional [0, 1] em intervalos Pk com μ(Pk ) = ck(log k)2
,k ≥
1, μ = Leb.
Agora podemos achar expressão para Hμ (P):
X −1 1 X log c + log k + 2 log log k
log = .
k≥2
ck(log k)2 ck(log k)2 k≥2
ck(log k)2
P 1
que pelo teste da razão tem o mesmo comportamento que k≥2 k log k ,
que é divergente (use o teste do integral de novo).
A maior parte da teoria vale se trabalharmos com partições
enumeráveis com entropia finita.
Entropia condicional
Dadas duas partições finitas ou enumeráveis P, Q, dizemos que
X X μ(P ∩ Q)
Hμ (P | Q) = −μ(P ∩ Q) log
P∈P Q∈Q
μ(Q)
é a entropia condicional de uma partição P em relação à partição

Q. Esta entropia mede a informação adicional fornecida por P quando
já conhecemos a partição Q.
Claro que Hμ (P | M) = Hμ (P), onde M = {M} é a partição trivial.
Além disto, se P, Q são independentes, então Hμ (P | Q) = Hμ (P).
Vamos precisar de algumas propriedades da entropia condicional
para entendermos como definir entropia de um sistema dinâmico.
Ordenação de partições
Dadas partições P, Q dizemos que P é menos fina que Q e escre-
vemos P < Q, se todo elemento de Q está contido em algum elemento
de P, a menos de subconjuntos de medida nula.
10
A soma P ∨ Q é exatamente a partição menos fina entre todas
aquelas partições tais que P < R e Q < R (ou seja, P ∨ Q = sp{P, Q}
com respeito à ordem parcial <).
Lema (propriedades entropia condicional)
Sejam P, Q, R partições com entropia finita. Então
1. Hμ (P ∨ Q | R) = Hμ (P | R) + Hμ (Q | P ∨ R);
2. P < Q =⇒ Hμ (P | R) ≤ Hμ (Q | R) e Hμ (R | P) ≥ Hμ (R | Q);
3. P < Q ⇐⇒ Hμ (P | Q) = 0.
Prova do lema
Para o ítem (1), usando a definição
X μ(P ∩ Q ∩ R)
Hμ (P ∨ Q | R) = −μ(P ∩ Q ∩ R) log
P,Q,R
μ(R)
X μ(P ∩ Q ∩ R)
= −μ(P ∩ Q ∩ R) log
P,Q,R
μ(P ∩ R)
X μ(P ∩ R)
+ −μ(P ∩ Q ∩ R) log
P,Q,R
μ(R)
podemos agora reescrever

X μ(Q ∩ S) X μ(P ∩ R)
−μ(Q ∩ S) log + −μ(P ∩ R) log
Q∈Q,S∈P∨R
μ(S) P∈P,R∈R
μ(R)
ou seja Hμ (Q | P ∨ R) + Hμ (P | R).
Para o ítem (2), se P < Q. então porque log é crescente
X X X μ(P ∩ R)
Hμ (P | R) = −μ(Q ∩ R) log
P∈P R∈R Q⊂P,Q∈Q
μ(R)
X X X μ(Q ∩ R)
≤ −μ(Q ∩ R) log = Hμ (Q | R).
P∈P R∈R Q⊂P,Q∈Q
μ(R)
Para a outra parte do ítem (2), usamos a concavidade:

μ(R ∩ P) X μ(Q) μ(R ∩ Q) X μ(Q)
= · e =1
μ(P) Q⊂P
μ(P) μ(Q) Q⊂P
μ(P)
logo para P ∈ P, R ∈ R
μ(R ∩ P) X μ(Q) μ(R ∩ Q)

ϕ ≥ ϕ .
μ(P) Q⊂P
μ(P) μ(Q)
11
Consequentemente
μ(R ∩ P) X μ(Q) μ(R ∩ Q)

X X
Hμ (R | P) = μ(P)ϕ ≥ μ(P) ϕ
P,R
μ(P) P,R Q⊂P
μ(P) μ(Q)
μ(R ∩ Q)
X
= μ(Q)ϕ = Hμ (R | Q).
Q,R
μ(Q)
Para o ítem (3), temos por definição de entropia condicional que

Hμ (P | Q) = 0 se, e só se, para todo P ∈ P e todo Q ∈ Q se tem
μ(P ∩ Q)
μ(P ∩ Q) = 0 ou = 1.
μ(Q)
Isto significa que P, Q são disjuntos ou Q ⊂ P (a menos de conjuntos

de medida nula). E isto acontece se, e só se, P < Q, terminando a
prova do lema.
Casos particulares
Tomando Q = M no ítem (2) do lema vem
Hμ (R | P) ≤ Hμ (R) para quaisquer partições P, R.
Tomando R = M no ítem (1) do lema obtemos
Hμ (P ∨ Q) = Hμ (P) + Hμ (Q | P) ≤ Hμ (P) + Hμ (Q).
Esta subaditividade de partições vai ser usada de maneira essencial

na definição de entropia.
Entropia e um pouco de dinâmica

Se ƒ : M → N é mensurável, μ é probabilidade em M e P é partição
de N, então ƒ∗ μ é probabilidade em N e ƒ −1 P é partição de M. Pela
definição
X
Hμ (ƒ −1 P) = −μ(ƒ −1 P) log μ(ƒ −1 P)
P
X
= −ƒ∗ μ(P) log ƒ∗ μ(P) = Hƒ∗ μ (P).
P
Em particular, se M = N e μ é ƒ -invariante deduzimos que Hμ (ƒ −1 P) =

Hμ (P) para qualquer partição P.
Vamos precisar da seguinte propriedade de continuidade da en-
tropia.
12
Hμ é contínua
Lema
Dados k ≥ 1, ϵ > 0 existe δ > 0 tal que, para partições finitas P =
{P1 , . . . , Pk }, Q = {Q1 , . . . , Qk } se tem
μ(P 4 Q ) < δ, ∀ =⇒ Hμ (Q | P) < ϵ.
Como ϕ : [0, 1] → R é contínua, existe ρ > 0 tal que ϕ() < ϵ/ k 2

para  ∈ [0, ρ) ∪ (1 − ρ, 1]. Tome δ = ρ/ k. Sejam P, Q como enunciado
e R a partição com elementos Q ∩ Pj para  6= j e ∪ P ∩ Q . Note que
μ(P ∩ Q ) ≤ μ(P 4 Q ) < ϵ,  6= j e
X X
μ(∪ P ∩ Q ) ≥ (μ(P ) − μ(P 4 Q )) > (μ(P ) − δ) = 1 − ρ
 
logo Hμ (R) = R ϕ(μ(R)) < #R kϵ2 ≤ ϵ.

P
Por construção, P∨Q = P∨R e por consequências do lema anterior
Hμ (Q | P) = Hμ (P ∨ Q) − Hμ (P)
= Hμ (P ∨ R) − Hμ (P) = Hμ (R | P) ≤ Hμ (R) < ϵ
completando a prova do lema.
Entropia de um sistema dinâmico

Seja ƒ : M mensurável que preserva probabilidade μ com parti-
Wn−1
ção P. Definimos Pn = =0 ƒ − P, n ≥ 1. Note que
Pn () = P() ∩ ƒ −1 P(ƒ ) ∩ · · · ∩ ƒ −(n−1) P(ƒ n−1 )
e que Pn < Pn+1 , n ≥ 1, portanto Hμ (Pn ) é não decrescente em n ≥ 1.

Mais ainda:
Lema (subaditividade)
Hμ (Pm+n ) ≤ Hμ (Pn ) + Hμ (Pm ), m, n ≥ 1.
Demonstração. Pela definição, Pm+n = Pm ∨ ƒ −m Pn e daí
Hμ (Pm+n ) ≤ Hμ (Pm ) + Hμ (ƒ −m Pn ) = Hμ (Pm ) + Hμ (Pn )
pois μ é ƒ -invariante.
13
Definição de entropia de (ƒ , μ)
Com este lema faz sentido definir entropia de ƒ com respeito à
medida μ e partição P como o limite
1 1
hμ (ƒ , P) = lim Hμ (Pn ) = inf Hμ (Pn ).
n→+∞ n n≥1 n
Notemos que esta entropia cresce quanto mais fina for a partição:
P < Q =⇒ Pn < Qn =⇒ Hμ (Pn ) ≤ Hμ (Qn ), ∀n ≥ 1
portanto hμ (ƒ , P) ≤ hμ (ƒ , Q).
Definimos a entropia do sistema (ƒ , μ) por
hμ (ƒ ) = sp{hμ (ƒ , P) : P partição com Hμ (P) < ∞}
(de fato, basta considerar partições finitas: exercício).
Exemplos: órbita periódica e expansão decimal

Pk−1
Seja μ = 1k =0 δƒ   com  ponto periódico de período k ≥
1. Então μ só assume número finito de valores em elementos de
qualquer partição. Portanto lim 1n Hμ (Pn ) = 0 para toda partição e
concluímos hμ (ƒ ) = 0.
Agora seja ƒ = ƒ10 : [0, 1] a transformação da expansão
decimal  7→ 10 − [10], que preserva a medida de Lebesgue μ, e
seja P a partição dos intervalos (( − 1)/ 10, / 10],  = 1, . . . , 10.
Então Pn é a partição dos intervalos (( − 1)/ 10n , / 10n ] com 1 ≤
 ≤ 10n . Usando o cálculo já feito antes
1
hμ (ƒ , P) = lim Hμ (Pn ) = log 10.
n n
Veremos, mais adiante, que esta é a entropia de (ƒ , μ), ou seja, hμ (ƒ , P)
realiza o supremo.
Exemplo: deslocamento de Bernoulli

Seja σ : +d (ou em d ) com medida de Bernoulli μ = ν .
N
Seja P = {[0; ],  = 0, 1, . . . , d − 1}. Então P é a partição dos n-
n
cilindros [0; 0 , 1 , . . . , n−1 ] e podemos calcular aproveitando o que

já fizemos antes
1 d−1
X
hμ (σ, P) = lim Hμ (Pn ) = −p log p .
n n =0
14
A teoria que vamos estudar permite concluir que, neste caso, este
valor também realiza o supremo hμ (σ).
Pela expressão acima, vemos que para todo  > 0 existe
algum deslocamento de Bernoulli (σ, μ) tal que hμ (σ) = . Isto é
uma informação muito útil em vários contextos na teoria ergódica.
Lema útil
Lema
Seja ƒ : M mensurável que preserva medida μ. Então
1. hμ (ƒ , Q) ≤ hμ (ƒ , P) + Hμ (Q | P) para quaisquer partições P, Q;
Wn
2. hμ (ƒ , P) = limn Hμ P | j=1 ƒ −j P = limn Hμ (P | ƒ −1 Pn ) para toda

partição P de entropia finita.

3. hμ (ƒ , P) = hμ (ƒ , Pk ) para k ≥ 1. Se ƒ é invertível vale hμ (ƒ , P) =
hμ (ƒ , P±k ) para todo k ≥ 1, com P±k = ∨k−1 =−k ƒ P.
−
4. hμ (ƒ k ) = k · hμ (ƒ ) para k ≥ 1 e se ƒ é invertível hμ (ƒ k ) = |k| · hμ (ƒ )

para k ∈ Z.
Isto corresponde aos lemas 9.1.11, 9.1.12, 9.1.13 e Proposição

9.1.14 do livro de Krerley-Marcelo.
Prova do lema
Ítem (1): Usamos o lema anterior para obter
Hμ (Qn+1 | Pn+1 ) = Hμ (Qn ∨ ƒ −n Q | Pn ∨ ƒ −n P)

≤ Hμ (Qn | Pn ) + Hμ (ƒ −n Q | ƒ −n P)
e por invariância Hμ (ƒ −n Q | ƒ −n P) = Hμ (Q | P). Portanto, por indução

Hμ (Qn | Pn ) ≤ nHμ (Q | P) para n ≥ 1. Usando o mesmo lema anterior
Hμ (Qn ) ≤ Hμ (Pn ∨ Qn ) = Hμ (Pn ) + Hμ (Qn | Pn )

≤ Hμ (Pn ) + nHμ (Q | P).
Agora divindo por n e fazendo n → ∞ obtemos o primeiro ítem do
15
lema.
Ítem (2): de novo pelo lema anterior e por invariância
n−1 n−1

_ _
n − −
Hμ (P ) = Hμ ƒ P + Hμ P | ƒ P
=1 =1
n−2 n−1

_ _
− −
= Hμ ƒ P + Hμ P | ƒ P
=0 =1
n−1

_
n−1 −
= Hμ (P ) + Hμ P | ƒ P .
=1
Aplicando a mesma redução por recorrência obtemos

n−1 k

X _
n −
Hμ (P ) = Hμ (P) + Hμ P | ƒ P .
k=1 =1
Assim
1 n−1 k

1 n
X _
−
hμ (ƒ , P) = lim Hμ (P ) = lim Hμ P | ƒ P .
n n k=1 =1
Wk
Mas k = Hμ P | =1 ƒ − P é sequência descrescente de números
não negativos, portanto seu limite existe e coincide com o limite da
média, ou seja
k ∞

_ _
− −
hμ (ƒ , P) = lim k = lim Hμ P | ƒ P = Hμ P | ƒ P .
k k
=1 =1
Ítem (3): para qualquer n ≥ 1 vale

n−1 n−1 k−1 n+k−2

_ _ _ _
−j k −j −
ƒ P = ƒ ƒ P = ƒ − P = Pn+k−1
j=0 j=0 =0 =0
logo hμ (ƒ , Pk ) é dado por
1 n+k−1 1
lim Hμ (Pn+k−1 ) = lim Hμ (Pn+k−1 ) = hμ (ƒ , P).
n n n n n+k−1
No caso invertível, notamos que para todos os n, k

n−1 n−1 k−1 n+k−2

_ _ _ _
ƒ −j P±k = ƒ −j ƒ − P = ƒ − P = ƒ −k Pn+2k−1
j=0 j=0 =−k =−k
16
logo hμ (ƒ , P±k ) é dada por
1 1
lim Hμ (ƒ −k Pn+2k−1 ) = lim Hμ (Pn+2k−1 ) = hμ (ƒ , P).
n n n n
Ítem (4): para g = ƒ k temos

n−1 k−1 n−1

_ _ _
Pkn = ƒ −kj ƒ − P = g−j Pk
j=0 =0 j=0
1
portanto pelo que vimos no ítem anterior khμ (ƒ , P) = limm m Hμ (Pkm ) =
hμ (g, P ), logo hμ (g, P) = hμ (g, P ) = khμ (ƒ , P) ≤ hμ (g) para toda par-
k k
tição P. Tomando supremo hμ (g) ≤ khμ (ƒ ) ≤ hμ (g).

No caso invertível, para qualquer n ≥ 1
Hμ (Pn ) = Hμ (ƒ −n+1 ∨n−1

=0
ƒ  P) = Hμ (∨n−1
=0
ƒ  P)
logo dividindo por n e passando ao limite vem hμ (ƒ , P) = hμ (ƒ −1 , P).

Como isto vale para qualquer partição com entropia finita, dedu-
zimos que hμ (ƒ ) = hμ (ƒ −1 ).
Substituindo ƒ por ƒ k e usando o caso anterior hμ (ƒ −k ) = hμ (ƒ k ) =
khμ (ƒ ) para todo k ∈ N e completamos a prova de todos os ítens.
2.3 Kolmogorov-Sinai
Teorema de Kolmogorov-Sinai
O seguinte resultado é essencial.
Teorema (de Kolmogorov-Sinai)
Seja P1 < · · · < Pn < . . . sequência de partições com entropia finita
tais que ∪j≥1 Pn gera a σ-álgebra dos mensuráveis a menos de sub-
conjuntos de medida nula. Então
hμ (ƒ ) = lim hμ (ƒ , Pn ) = sp hμ (ƒ , Pn ) ∈ [0, +∞].

n n≥1
Já sabemos que hμ (ƒ , Pn ) é não descrescente, portanto o limite

existe na reta extendida. Vamos usar o
Lema
limn Hμ (Q | Pn ) = 0 para qualquer partição finita Q.
17
Prova do lema
Se Pn é sequência de partições como no enunciado do Teorema
de Kolmogorov-Sinai, escreva Q = {Q1 , . . . , Qs } e seja A a álgebra
formada por uniões finitas de elementos de ∪n Pn . Por hipótese, A
gera todos os mensuráveis a menos de medida nula.
Pelo teorema da aproximação, para cada ϵ > 0 fixamos δ > 0 como
no lema da continuidade de Hμ e, para cada  = 1, . . . , s, existe A ∈ A
tal que μ(Q 4 A ) < δ/ (4s2 ).
Como Q é partição, então {A :  = 1, . . . , s} devem ser quase uma
cobertura de M: por um lado
[ [ δ
μ M\ Aj ≤ μ Qj \ Aj <
j j 4s
S S S S S S
j Aj = j Aj =

porque M \  Q \  Q \ j Aj ⊂  Q \ A .
Por outro lado, A ∩ Aj ⊂ A 4 Q ∪ Aj 4 Qj porque Q ∩ Qj = ∅, logo
μ(A ∩ Aj ) ≤ δ/ (2s2 ); logo temos
!
\[ X \ δ
μ A Aj ≤ μ A Aj < .
j6= j6=
2s
Seja agora a partição construída a partir de {A } como segue:
B1 = A1 , B2 = A2 \ A1 , B3 = A3 \ (A1 ∪ A2 )
em geral Bj = Aj \ (∪<j A ), j = 1, . . . , s − 1 e Bs = M \ ∪s−1

=1 A . Vamos
ver que
δ
μ(A 4 B ) < ,  = 1, . . . , s.
2
Para  = 1 é trivialmente verdadeiro.
Para  > 1 temos A \ B ⊂ A ∩ (∪j< Aj ) e portanto μ(A \ B ) < δ/ 4.
Notando que B \ A = ∅ para 1 <  < s por construção (pois B ⊂ A ),
isto prova a afirmação, exceto para  = s (note que podemos supor
sem perda de generalidade de s ≥ 2).
No caso  = s, vem Bs \ As ⊂ M \ (∪sj=1 Aj ) e portanto μ(Bs \ As ) < δ/ 4.
δ
Como μ(As \ Bs ) < δ/ 4, então μ(As 4 Bs ) < 2
como afirmamos.
Combinando estas desigualdades obtemos também μ(B 4 Q ) < δ
para todo  = 1, . . . , s e B ∈ A por construção.
Como a família dos B é finita e dada por uniões finitas de elemen-
tos de ∪n Pn , e a sequência Pn é encaixada, então existe m ≥ 1 tal
18
que B está na união de elementos de Pm . Ou seja, B = {B1 , . . . , Bs }
é menos fina que Pm .
Combinando com o lema anterior sobre entropia condicional, pela
escolha de ϵ, δ > 0 feita antes, para n ≥ m vem
Hμ (Q | Pn ) ≤ Hμ (Q | Pm ) ≤ Hμ (Q | B) < ϵ.
Isto completa a demonstração do lema.

Para provar o Teorema de Kolmogorov-Sinai, observamos
que pelo ítem (1) do lema sobre entropia condicional
hμ (ƒ , Q) ≤ hμ (ƒ , Pn ) + Hμ (Q | Pn ), ∀n
e passando ao limite quando n → ∞ vem hμ (ƒ , Q) ≤ limn hμ (ƒ , Pn ).

Tomando o supremo sobre todas as partições finitas Q concluimos
que hμ (ƒ ) ≤ limn hμ (ƒ , Pn ). A desigualdade inversa é trivial.
Consequências do Teorema de Kolmogorov-Sinai

Corolário Wn−1
Seja P partição com entropia finita tal que a união de Pn = j=0 ƒ −j (P), n ≥
1 gera a σ-álgebra dos mensuráveis. Então hμ (ƒ ) = hμ (ƒ , P).
Demonstração. Aplique o Teorema anterior à sequência Pn e lembre

que hμ (ƒ , Pn ) = hμ (ƒ , P), ∀n ≥ 1.
Este corolário completa o cálculo da entropia da trans-
formação decimal para a medida de Lebesgue e do desloca-
mento de Bernoulli unilateral.
Partições geradoras
Corolário
Seja (ƒ , μ) sistema invertível que preserva medida de probabilidade
μ. Seja P partição com entropia finita tal que a união de P±n =
Wn−1 −j
j=−n
ƒ (P), n ≥ 1 gera a σ-álgebra dos mensuráveis. Então hμ (ƒ ) =
hμ (ƒ , P).
Demonstração. Aplique o Teorema anterior à sequência P±n e lembre
que hμ (ƒ , P±n ) = hμ (ƒ , P), ∀n ≥ 1 por um dos lemas anteriores.
Este corolário completa o cálculo da entropia do desloca-

mento de Bernoulli bilateral.
Em ambos os casos dos Corolários anteriores dizemos que P é
uma partição geradora (unilateral ou bilateral) ou um gerador
(unilateral ou bilateral) do sistema.
19
Notamos que certos sistemas invertíveis admitem geradores uni-
laterais: a união dos iterados Pn , n ≥ 1 gera a σ-álgebra dos mensu-
ráveis. Exemplo: toda rotação irracional com P = {, S1 \ } é partição
do círculo em dois intervalos complementares (onde  é um pequeno
arco de S1 ) e P é gerador unilateral (e também bilateral, é claro!).
Mas estes são sistemas especiais
Corolário
Se (ƒ , μ) é invertível e existe partição P com entropia finita tal que
∪n≥1 Pn gera a σ-álgebra dos mensuráveis a menos de medida nula,
então hμ (ƒ ) = 0.
Prova do Corolário
Usando os lemas e corolário anteriores, temos
hμ (ƒ ) = hμ (ƒ , P) = lim Hμ (P | ƒ −1 Pn ).
n
Como ∪n≥1 Pn gera a σ-álgebra A dos mensuráveis, então ∪n≥1 ƒ −1 Pn

gera a σ-álgebra ƒ −1 A.
Mas como ƒ é invertível, temos ƒ −1 A = A a menos de conjuntos de
medida nula, portanto Hμ (P | ƒ −1 Pn ) → 0 quando n → ∞ pelo lema da
prova do Teorema de Kolmogorov-Sinai.
Segue que hμ (ƒ ) = 0.
Partição geradora num espaço métrico

Tomamos agora M espaço métrico e A a σ-álgebra de Borel.
Corolário
Seja P1 < · · · < Pn < . . . sequência de partições com entropia finita
tais que dim(Pn ()) → 0 para μ-qtp . Então hμ (ƒ ) = limn hμ (ƒ , Pn ).
Seja X ⊂ M com μ(X) = 1 e dim(Pn ()) → 0 para todo  ∈ X e U
aberto de M, para  ∈ U∩X existe n() ∈ Z+ tal que P = Pn() () ⊂ U e
claramente P está na álgebra B gerada por ∪n Pn que é enumerável.
S de todos os possíveis P para  ∈ U∩X é numerável.
Assim, o conjunto
Assim U∩X =  P também está na álgebra B e portanto a σ-álgebra
gerada por B contém todos os abertos μ mod 0, logo contém todos
os borelianos. A conclusão segue dos resultados anteriores.
Corolário
Seja P partição com entropia finita tal que dim(Pn ()) −−−→ 0 para
n→∞
μ-qtp. . Então hμ (ƒ ) = hμ (ƒ , P).
Demonstração. Como hμ (ƒ , Pn ) = hμ (ƒ , P), então basta aplicar o coro-

lário anterior.
20
A condição dim(Pn ()) −−−→ 0 para μ-qtp.  é uma das con-
n→∞
dições suficientes mais simples de verificar para deduzir que uma
dada partição é geradora. Analogamente
Corolário
Seja P partição com entropia finita tal que dim(P±n ()) −−−→ 0 para
n→∞
μ-qtp.  com ƒ invertível. Então hμ (ƒ ) = hμ (ƒ , P).
Homeomorfismos do circulo
Seja ƒ : S1 homeomorfismo, μ probabilidade ƒ -invariante e P
partição finita por subintervalos cujos extremos são 1 , . . . , m . Para
j ≥ 1 a partição ƒ −j P é formada por subintervalos com extremos
ƒ −j ( ),  = 1, . . . , m. Então #Pn ≤ nm e
1 1
hμ (ƒ , P) = lim Hμ (Pn ) ≤ lim log(nm) = 0.
n n n
Considerando sequência de partições finitas de intervalos com diâ-
metro convergindo para zero, concluímos que hμ (ƒ ) = 0 usando o
corolário anterior.
Todos os homeomorfismos do círculo têm entropia nula em
relação a qualquer probabilidade invariante.
2.4 Semicontinuidade
Semicontinuidade da Entropia
A função entropia M1,ƒ (M) → R, μ 7→ hμ (ƒ ) não é contínua em
geral.
Seja ƒ = ƒ10 : [0, 1] a transformação da expansão decimal. Já
sabemos que hLeb (ƒ ) = log 10. Seja Fk = { ∈ [0, 1] : ƒ k  = } o
conjuntos dos pontos fixos de ƒ k , que é um conjunto invariante com
#Fk = 10k , k ≥ 1. Os Fk são “equidistribuídos” no sentido em que
cada [/ 10k , (+ 1)/ 10k ) contém exatamente um elemento de Fk para
cada  = 0, . . . , 10k − 1. Seja
1 X
μk = δ .
10k ∈Fk
∗
Então cada μk é probabilidade ƒ -invariante e μk −−−→ Leb. Como μk
k→∞
está suportada num conjunto finito, então hμk (ƒ ) = 0.
Notemos que se a partição finita P de M tem bordo
[
∂P = ∂P
P∈P
21
que satisfaz μ(∂P) = 0, então a função ν ∈ M1 (M) 7→ ν(P) é contínua
no ponto μ, para todo P ∈ P. Consequentemente
X
ν 7→ Hν (P) = −ν(P) log ν(P)
P∈P
é contínua em μ. A hipótese sobre ∂P também garante que μ(∂Pn ) =

0 para todo n ≥ 1 sempre que μ satisfaça ƒ∗ μ μ, porque
∂Pn ⊂ ∂P ∪ ƒ −1 (∂P) ∪ · · · ∪ ƒ −n+1 (∂P)
e assim ν 7→ Hν (Pn ) é contínua em μ para todo n ≥ 1.

Proposição
ƒ
Seja P partição finita tal que μ(∂P) = 0 para alguma μ ∈ M1 (M). Então
ƒ
a função ν ∈ M1 (M) 7→ hν (ƒ , P) é semicontínua superior em μ.
Demonstração. Temos por definição hν (ƒ , P) = infn≥1 1n Hν (ƒ , P) é ín-

fimo de família de funções contínuas em μ, logo é semicontínua su-
periormente em μ.
Se soubermos que P é também uma partição geradora, então po-

demos obter semicontinuidade para a função entropia.
Corolário (semicontinuidade da entropia)
ƒ
Seja P partição finita tal que μ(∂P) = 0, para alguma μ ∈ M1 (M), e
∪n P gera a σ-álgebra dos mensuráveis a menos de conjuntos de ν
n
medida nula para toda probabilidade invariante ν. Então a função

ƒ
ν ∈ M1 (M) 7→ hν (ƒ ) é semicontínua superiormente em μ.
Pela Proposição anterior, dado ϵ > 0 existe vizinhança V de μ tal
ƒ
que hν (ƒ , P) ≤ hμ (ƒ , P) + ϵ para toda ν ∈ M1 (M) ∩ V e também se tem
que hμ (ƒ , P) ≤ hμ (ƒ ).
Pelos corolários anteriores, a hipótese de que P é geradora ga-
rante que hν (ƒ ) = hν (ƒ , P) e, portanto hν (ƒ ) ≤ hμ (ƒ ) + ϵ para toda
ƒ
ν ∈ M1 (M) ∩ V.
Semicontinuidade da entropia em espaços métricos compac-

tos
Corolário (semicontinuidade da entropia)
Seja ƒ : M Borel mensurável num espaço métrico compacto M tal
que existe ϵ0 satisfazendo que toda partição finita P com dim P <
ƒ
ϵ0 é tal que dim Pn −−−→ 0. Então a função ν ∈ M1 (M) 7→ hν (ƒ )
n→∞
é semicontínua superiormente. Consequentemente essa função é
22
limitada e seu supremo é atingido para alguma medida μ (medida de
máxima entropia).
Já sabemos que dim Pn −−−→ 0 garante que ∪n Pn gera a σ-álgebra
n→∞
dos borelianos a menos de medida nula com respeito a toda pro-
babilidade (porque a hipótese garante que dim Pn () −−−→ 0 para
n→∞
todo ).
Dada qualquer probabilidade ƒ -invariante μ podemos achar
partição finita com diâmetro menor que ϵ0 tal que μ(∂P) = 0.
De fato, basta escolher para cada  um r() ∈ (0, ϵ0 ) tal que
μ(∂B(, r())) = 0 (porque podemos fazer isto é explicado mais abaixo).
Consideremos a cobertura {B(, r()) :  ∈ M} do compacto M e
uma subcobertura finita B1 , . . . , Bk . Agora formamos a partição
P = {B1 , M \ B1 } ∨ · · · ∨ {Bk , M \ Bk }.
ƒ
Agora do corolário anterior sabemos que ν ∈ M1 (M) 7→ hν (ƒ ) é semi-
contínua superiormente em μ, mas μ é uma probabilidade invariante
arbitrária, provando a primeira afirmação.
Construção de bolas com bordo de medida nula

Para escolher r() ∈ (0, ϵ0 ) tal que μ(∂B(, r())) = 0 com ϵ0 > 0
arbitrário, notemos que como μ(M) < ∞, temos que
1

Xn () = r > 0 : μ(∂B(, r)) ≥
n
satisfaz 1n #Xn () ≤ ≤ μ(M), logo #Xn () ≤ nμ(M) <

P
r∈Xn () μ(∂B(, r))
∞e
[
X() = {r > 0 : μ(∂B(, r)) > 0} ⊂ Xn ()
n≥1
é enumerável. Portanto, sempre podemos escolher r() ∈ R \ X()

arbitrariamente perto de 0.
Existência de medida de máxima entropia

A outra afirmação é consequência geral da semicontinuidade de
ƒ
uma função cujo domínio é um espaço compacto: a função h : M1 (M) →
ƒ
R é semicontínua com M1 (M) compacto (na topologia fraca∗ ) e por-
tanto é limitada e tem um máximo.
Ou seja, neste contexto sempre existe medida de máxima
entropia para ƒ .
23
Quando ƒ é invertível podemos substituir Pn por P±n nos enunci-
ados dos corolários anteriores e obter as mesmas conclusões com
demonstração análoga, via os corolários obtidos antes para transfor-
mações invertíveis.
Transformações expansivas
Uma transformação contínua ƒ : M num espaço métrico diz-
se expansiva se existe ϵ0 > 0 (sua constante de expansividade) tal
que, dados , y ∈ M com y 6=  existe n ≥ 1 tal que d(ƒ n , ƒ n y) ≥ ϵ0 :
ou seja, pontos distintos têm órbitas que são distinguíveis por uma
distância mínima ϵ0 em alguma iteração futura.
Para transformações invertíveis existe versão de expansividade
definida como segue: dados , y ∈ M com  6= y existe n ∈ Z tal que
d(ƒ n , ƒ n y) ≥ ϵ0 .
Um exemplo é o deslocamento σ : + d com a distância em d
+
dada por d((n )n , (yn )n ) = 2−N com N o menor valor de n ≥ 0 tal que
n 6= yn . Se (n )n , (yn )n são distintos, então d(σ N (n )n , σ N (yn )n ) = 1.
Analogamente σ : d é expansivo como transformação invertí-
vel, e ϵ0 = 1.
Proposição
Seja ƒ : M expansiva num espaço métrico compacto e seja ϵ0 > 0
constante de expansividade. Então dim Pn −−−→ 0 para toda parti-
n→∞
ção finita P com dim P < ϵ0 .
De fato, a sequência (dim Pn )n≥1 é não crescente e podemos
tomar seu ínfimo δ que vamos assumir é estritamente positivo. Então
para todo n ≥ 1 existem n , yn com d(n , yn ) > δ/ 2 e yn ∈ Pn (n ).
Logo temos também
d(ƒ j n , ƒ j yn ) ≤ dim P < ϵ0 , ∀0 ≤ j < n.
Por compacidade temos (n , yn ) → (, y) com  6= y e d(ƒ j , ƒ j y) ≤ ϵ0

para todo j ≥ 0, contradizendo a existênca de constante de expansi-
vidade.
Existência de medida de máxima entropia para transforma-

ções expansivas
Pelos resultados anteriores segue imediatamente
Corolário
Para toda transformação ƒ : M expansiva num espaço métrico com-
ƒ
pacto, a função entropia h : M1 (M) → R é semicontínua superior-
mente e existem medidas de máxima entropia.
24
Se a transformação ƒ for invertível e expansiva no sentido bilate-
ral, podemos substituir Pn por P±n nos enunciados anteriores e man-
ter as mesmas conclusões com demonstrações análogas.
3 Entropia Local
3.1 Teorema de Shannon-McMillan-Breiman
Entropia local
Vamos considerar um teorema que dá um ponto de vista mais
local para a entropia.
Teorema (Shannon-Mcmilan-Breiman)
ƒ
Dada partição P com entropia finita e μ ∈ M1 (M), o limite
1
hμ (ƒ , P, ) = lim − log μ(Pn ())
n→∞ n
existe em μ-qtp, a função  7→ hμ (ƒ , P, ) é integrável e o limite tam-
bém existe em L1 (μ). Além disto
Z
hμ (ƒ , P) = hμ (ƒ , P, ) dμ()
e, se (ƒ , μ) é ergódico, então hμ (ƒ , P, ) = hμ (ƒ , P), μ-qtp.

Lembre que Pn () = P() ∩ ƒ −1 (P(ƒ )) ∩ · · · ∩ ƒ −n+1 (P(ƒ n−1 )), ou
seja, este conjunto é formado pelos pontos cuja trajetória se mantém
perto da trajetória de  no sentido em que ambas visitam os mesmos
elementos da partição P. O teorema de Shannon-Mcmilan-Breiman
garante que a medida deste conjunto tem uma taxa de decaimento
exponencial bem definida para μ-qtp. 
μ(Pn ()) ≈ e−nh(ƒ ,P,) , para n grande.
O Teorema de Brin-Katok exprime o mesmo resultado com uma noção

diferente proximidade.
3.2 Brin-Katok
Bolas dinâmicas
Suponha que ƒ : M é contínua num espaço métrico. Dados  ∈
M, n ≥ 1 e ϵ > 0 dizemos que a (n, ϵ)-bola dinâmica em torno de 
25
(ou a bola dinâmica de comprimento n e raio ϵ em torno de ) é o
conjunto
B(, n, ϵ) = {y ∈ M : d(ƒ  , ƒ  y) < ϵ,  = 0, . . . , n − 1}

n−1
\
= ƒ − (B(ƒ  , ϵ)).
=0
Este é o conjunto dos pontos y cujas órbitas ficam ϵ-perto da órbita

de  nos primeiros n iterados. Sejam
1
h+
μ
(ƒ , ϵ, ) = lim sp − log μ(B(, n, ϵ));
n→∞ n
1
h−
μ
(ƒ , ϵ, ) = lim inf − log μ(B(, n, ϵ)).
n→∞ n
Entropia local via Brin-Katok

Teorema (de Brin-Katok)
Seja μ probabilidade ƒ -invariante. Os limites
lim h+
μ
(ƒ , , ϵ) e lim h−
μ
(ƒ , , ϵ)
ϵ→0 ϵ→0
existem e são iguais em μ-qtp.  ∈ M. Escrevendo hμ (ƒ , ) seu valor

comum, a função hμ (ƒ , ) é integrável e temos
Z
hμ (ƒ ) = hμ (ƒ , ) dμ().
Uma prova do Teorema de Shannon-McMillan-Breiman pode ser

encontrada no livro de Oliveira-Viana e também em Teoria Ergódica
de Ricardo Mañé.
Uma prova do Teorema de Brin-Katok pode ser encontrada no ar-

tigo original
M. Brin and A. Katok. On local entropy. In Geometric dynamics

(Rio de Janeiro, 1981), volume 1007 of Lecture Notes in Math.,
pages 30-38. Springer, 1983.
Translações em grupos compactos

Seja G grupo compacto metrizável e μ sua medida de Haar. Toda
translação de G, à esquerda ou à direita, tem entropia nula relativa-
mente a μ.
26
De fato, se d for uma distância em G invariante por translações,
então g(B(, ϵ)) = B(g, ϵ) para todo g ∈ G e ϵ > 0.
Consequentemente B(, n, ϵ) = B(, ϵ) para todo n ≥ 1 e segue
que
1
h±
μ
(g, ϵ, ) = lim − log μ(B(, ϵ)) = 0
n→∞ n
para todo ϵ > 0 e g ∈ G. Pelo Teorema de Brin-Katok segue que
hμ (g) = 0.
O mesmo argumento se aplica a translações à direita.
4 Exemplos
4.1 Deslocamentos de Markov
Exemplo: Deslocamentos de Markov
Vamos agora ilustrar os resultados anteriores por meio de alguns
exemplos.
Seja + N +
d = 1, . . . , d e σ : d a transformação de deslocamento,
com μ medida de Markov associada a matriz estocástica P = (pj ),j=1,...,d .
Proposição
Pd Pd
hμ (σ) = =1 j=1 −pj log pj .
Para provar, seja P = {[0; ],  = 1, . . . , d} e para cada n ≥ 1 o
iterado Pn = {[0; 1 , . . . , n ], 1 , . . . , n ∈ {1, . . . , d}} é partição for-
mada pelos cilíndros de comprimento n. Como μ([0; 1 , . . . , n ]) =
p1 p1 ,2 . . . pn−1 ,n , então podemos escrever
X
Hμ (Pn ) = −p1 p1 ,2 . . . pn−1 ,n log(p1 p1 ,2 . . . pn−1 ,n )
1 ,...,n
!
X n
X
= −p1 p1 ,2 . . . pn−1 ,n log p1 + log pj−1 ,j .
1 ,...,n j=2
Como temos
X X
p1 ,2 . . . pn−1 ,n = Pn =1
1 ,n
2 ,...,n n
uma vez que Pn é matriz estocástica, vem

X n−1
X X X
−p1 log p1 + −( p1 p1 ,2 . . . pn−1 ,n ) log pj ,j+1
1 j=1 j ,j+1
27
onde a soma entre parêntesis é sobre todos os valores de 1 , . . . , j−1 , j+2 , . . . , n .
Além disso, como pT P = pT com p = (p1 , . . . , pn ), vem

X X
p1 p1 ,2 . . . pn−1 ,n = p1 Pj , pj ,j+1 Pn−j−1
 , 1 j j+2 n
 ,n
1
X
= p1 Pj pj ,j+1 = pj pj ,j+1 .
1 ,j
1
Substituindo na última expressão concluímos

X n−1
X X
Hμ (Pn ) = −p1 log p1 + −pj pj ,j+1 log pj ,j+1
1 j=1 j ,j+1
X X
= −p1 log p1 + (n − 1) −p p,j log p,j
1 ,j
logo hμ (σ) = hμ (σ, P) = porque P é gerador.

P
,j −p p,j log p,j
4.2 Transformação de Gauss

Transformação de Gauss
Vamos calcular a entropia da transformação de Gauss G() = −1 −
[ ] em relação à probabilidade μ = ϕ Leb com ϕ() = (1+)1 log 2 ,  ∈
−1
[0, 1]. O mesmo método que vamos usar pode ser estendido para
transformações expansoras do intervalo.
Naturalmente usaremos P = {(1/ (m + 1), 1/ m) : m ≥ 1} e Pn =
∨n−1
=0 G P.
− Já sabemos que:
1. Gn | P : P → (0, 1) é um difeomorfismo para todo P ∈ Pn , n ≥ 1;
2. dim Pn → 0 quando n → ∞;
|(Gn )0 ()|
3. ∃C > 0 : |(Gn )0 (y)|
≤ C, ∀n ≥ 1, ∀, y ∈ P, ∀P ∈ Pn ;
4. ∃c1 , c2 > 0 : c1 Leb(A) ≤ μ(A) ≤ c2 Leb(A) para todo mensurável

A ⊂ [0, 1].
Entropia da Transformação de Gauss

Proposição
hμ (G) = log |G0 | dμ.
R
Para provar faça ψn () = − log μ(Pn ()), n ≥ 1 e note que

X Z
Hμ (Pn ) = −μ(P) log μ(P) = ψn dμ.
P∈Pn
28
Pelas cotas da densidade ϕ (item (4)) temos
− log c1 ≥ ψn () + log Leb(Pn ()) ≥ − log c2
e pelo ítem (1) vem log Leb(Pn ()) = − log |(Gn )0 (y)| para algum y ∈
Pn () (Teorema do Valor Médio). Pelo ítem (3)
− log c1 − log C ≥ ψn () − log |(Gn )0 ()| ≥ − log c2 + log C
para todo  e todo n ≥ 1.

Consequentemente
Z
− log(Cc1 ) ≥ Hμ (P ) − n
log |(Gn )0 | dμ ≥ log(C/ c2 ), ∀n ≥ 1.
Como μ é G-invariante
Z n−1
XZ Z
log |(Gn )0 | dμ = log |G0 | ◦ Gj dμ = n log |G0 | dμ.
j=0
Divindindo a desigualdade acima por n e fazendo n → ∞
1
Z
hμ (G, P) = lim Hμ (P ) = log |G0 | dμ.
n
n→∞ n
Finalmente, pelo ítem (2) temos hμ (G) = hμ (G, P) completando a

prova.
Combinando com Shannon-McMillan-Breiman

Podemos facilmente calcular
Z1
−2 log  d π2
Z
0
log |G | dμ = = ≈ 5, 46...
0 (1 + ) log 2 6 log 2
e como (G, μ) é ergódico obtemos
1 π2
lim − log μ(Pn ()) = , μ − qtp.
n→∞ n 6 log 2
Sendo μ comparável a Leb como no ítem (4), vem
π2 n

n
dim P () ≈ exp −
6 log 2
para μ-qtp.  e para n grande o suficiente.
29
4.3 Endomorfismos
Endomorfismos lineares do Toro
Vamos escrever log+  = mx{0, log } para  > 0.
Proposição
Seja ƒA : Td o endomorfismo induzido em Td por A ∈ GL(d, Z) para
algum d ≥ 1 e μ a medida de Haar em Td (i.e., μ = Leb). Então
hμ (ƒA ) = =1 log+ |λ | onde λ1 , . . . , λd são os autovalores de A, con-
Pd
tados com multiplicidade.

Se A ∼ dig{λ1 , . . . , λd } (A é diagonalizável), então podemos to-
mar 1 , . . . , d base normalizada de vetores próprios de A e  o nú-
mero dos autovalores com valor absoluto maior que 1, numerados de
maneira que |λ | > 1 ⇐⇒  ≤ .
Para cada  ∈ Td um ponto y em vizinhança de  pode se escrever
Pd
y =  + =1 t  com t perto de zero. Para ϵ > 0 seja D(, ϵ) =
Pd
{ + =1 t  : |t | < ϵ,  = 1, . . . , d} e a bola dinâmica
j j
¦ ©
D(, n, ϵ) = y ∈ Td : ƒA (y) ∈ D(ƒA (), ϵ), ∀j = 0, 1, . . . , n − 1
j j Pd j
Como ƒA (y) = Aj (y) mod Zd = ƒA () + =1 t λ  , n ≥ 1, então
( )
Xd
D(, n, ϵ) =  + t  : |t λn | < ϵ,  ≤  e |t | < ϵ,  >  .
=1
Assim, existe constante C > 1 que depende de A (de quanto a base

1 , . . . , d se afasta de ser ortonormal) tal que para todos os  ∈
Td , n ≥ 1 e ϵ > 0:

ϵd Y 
Y
|λ |−n ≤ μ(D(, n, ϵ)) ≤ Cϵd |λ |−n .
C =1 =1
Por outro lado, existe c > 0 que depende também de A tal que
B(, ϵ/ c) ⊂ D(, ϵ) ⊂ B(, cϵ) para  ∈ Td e ϵ > 0 pequeno; logo temos
B(, n, ϵ/ c) ⊂ D(, n, ϵ) ⊂ B(, n, cϵ), n ≥ 1. Consequentemente para
 ∈ Td , n ≥ 1 e ϵ > 0

ϵd Y 
Y
|λ |−n ≤ μ(B(, n, ϵ)) ≤ cd Cϵd |λ |−n .
cd C =1 =1
Portanto para todo  ∈ Td e ϵ > 0 pequeno
1 
X
h±
μ
(ƒ , ϵ, ) = lim − log μ(B(, n, ϵ)) = log |λ |
n n =1
30
e via Brin-Katok e ergodicidade obtemos

X
hμ (ƒA ) = hμ (ƒA , ) = log |λ |, μ − qtp.
=1
Isto completa a prova da proposição no caso diagonalizável.
O caso geral é semelhante usando a forma canônica de Jordan

para controlar as potências de A nos blocos elementares da decom-
posição de Jordan.
Fica como exercício.
4.4 Decomposição
Entropia e Decomposição ergódica
Vamos primeiro considerar combinações lineares convexas de pro-
babilidades invariantes.
ƒ
Proposição (entropia é função afim em M1 )
Seja μ, ν probabilidades invariantes por ƒ : M nas mesmas condi-
ções do Teorema de Decomposição Ergódica. Então htμ+(1−t)ν (ƒ ) =
thμ (ƒ ) + (1 − t)hν (ƒ ) para todo 0 < t < 1.
De fato, ψ() = − log ,  > 0 é côncava portanto
ϕ(tμ(B) + (1 − t)ν(B)) ≥ tϕ(μ(B)) + (1 − t)ϕ(ν(B))
para todo B mensurável, e também
ϕ(tμ(B) + (1 − t)ν(B)) − tϕ(μ(B)) − (1 − t)ϕ(ν(B)) =

tμ(B)+ (1 − t)ν(B) tμ(B)+ (1 − t)ν(B)
− tμ(B) log − (1 − t)ν(B) log
μ(B) ν(B)
é majorado por (pois − log é decrescente)
−tμ(B) log t − (1 − t)ν(B) log(1 − t).
Assim, dada P partição com entropia finita
Htμ+(1−t)ν (P) ≥ tHμ (P) + (1 − t)Hν (P) e

Htμ+(1−t)ν (P) ≤ tHμ (P) + (1 − t)Hν (P) − t log t − (1 − t) log(1 − t)
e consequentemente
htμ+(1−t)ν (ƒ , P) = thμ (ƒ , P) + (1 − t)hν (ƒ , P)
31
logo htμ+(1−t)ν (ƒ ) ≤ thμ (ƒ ) + (1 − t)hν (ƒ ). Por outro lado
htμ+(1−t)ν (ƒ , P1 ∨ P2 ) = thμ (ƒ , P1 ∨ P2 ) + (1 − t)hν (ƒ , P1 ∨ P2 )

≥ thμ (ƒ , P1 ) + (1 − t)hν (ƒ , P2 )
para quaisquer partições P1 , P2 .

Tomando o supremo sobre P1 e P2 obtemos
htμ+(1−t)ν (ƒ ) ≥ thμ (ƒ ) + (1 − t)hν (ƒ )
terminando a prova da proposiçao.

Pn
Para combinações convexas finitas μ = tμ
=1  
n
X
hμ (ƒ ) = t hμ (ƒ )
=1
= 1.
P
para probabilidades invariantes μ1 , . . . , μn e t ≥ 0,  t
Para combinações lineares convexas generalizadas temos uma
consequência do Teorema de Decomposição Ergódica.
Decomposição ergódica e entropia

Teorema (de Jacobs)
Seja M espaço métrico separável e completo com ƒ : M mensurável
e μ probabilidade invariante boreliana com {μP }P∈P sua decompo-
sição ergódica. Então hμ (ƒ ) = hμP (ƒ ) dμ̂(P) (e se um dos lados é
R
infinito e outro também é).

Portanto, conhecendo a entropia das medidas ergódicas podemos
conhecer a entropia de todas as outras medidas invariantes de um
sistema.
Entropia e equivalência
Proposição
Sejam ƒ : M , g : N transformações que preservam probabilidades
μ em M e ν em N. Se (ƒ , μ) é ergodicamente equivalente a (g, ν),
então hμ (ƒ ) = hν (g).
Se ϕ : M → N é equivalência ergódica entre os sistemas, temos
ϕ∗ μ = ν e X ⊂ M, Y ⊂ N com medida total tal que ϕ | X : X → Y é
bijeção bimensurável e, como sabemos, X, Y podem ser escolhidos
invariantes.
Dada P partição de M com entropia finita para μ sua restrição a
X é partição de (X, μ) e a imagem Q = ϕ(P) é partição de (Y, ν) que,
32
naturalmente, podemos considerar como partição de (N, ν) (sempre
a menos de conjuntos de medida nula).
Notamos que como ϕ(P) = Q ∈ Q para cada P ∈ P
X X
Hν (Q) = −ν(Q) log ν(Q) = −μ(P) log μ(P).
Q∈Q P∈P
Wn−1 Wn−1
Além disto, Qn = =0
g− Q = ϕ( =0
ƒ − P) = ϕ(Pn ) e portanto
1 1
hν (g, Q) = lim Hν (Qn ) = lim Hμ (Pn ) = hμ (ƒ , P).
n n n
Tomando o supremo sobre todas as partições P com entropia finita
em relação a μ, obtemos hν (g) ≥ hμ (ƒ ). A desigualdade recíproca
é inteiramente análoga trocando as posições de ƒ e g, logo vale a
igualdade.
Entropia, equivalência e shifts de Bernoulli

Usando esta propriedade, Kolmogorov e Sinai concluíram que nem
todos os deslocamentos de Bernoulli bilaterais são ergodicamente
equivalentes: exemplo
σ2 : (2 , (p1 , p2 ) = ( 12 , 21 )) com entropia 2(− 12 log 12 ) = log 2; e
σ3 : (3 , (p1 , p2 , p3 ) = ( 13 , 13 , 13 )) com entropia log 3,
não são ergodicamente equivalentes.

Isto apesar de que todos os deslocamentos de Bernoulli bilaterais
serem espectralmente equivalentes.
33

Pres Teoerg Entropia Notas

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Pres Teoerg Entropia Notas

Enviado por

Direitos autorais:

Formatos disponíveis

Teoria Ergódica (MATD31)

Equivalência ergódica. Entropia. Teoremas de Kolmogorov-Sinai,

Mestrado/Doutorado em Matemática, UFBA, 2014-2016

Equivalência espectral. Entropia.

1.1 Equivalência ergódica

É um exercício simples verificar que esta é uma relação reflexiva, si-

Já sabemos que ϕ é sobrejetiva. Mas não é injetiva, pois as sequên-

ϕ é bijeção mensurável que preserva medida

Equivalência ergódica, ergodicidade, mistura

com as medidas de Bernoulli que dão pesos iguais a todos os símbo-

1.2 Teorema de Ornstein

Inter-relações com outras áreas

Entropia e Teoria da Informação

Quantidade de informação e probabilidade

Definição de quantidade de informação

Finalmente, a entropia do canal de comunicação é dada por

Porquê a soma de logaritmos?

em que p é a probabilidade de  e qj é a probabilidade de bj dado

Unicidade da função entropia

p ≥ 0&  p = 1} para cada n ≥ 1. Se esta função é contínua e valem

para alguma constante positiva λ.

Partição e função de informação

Associamos a cada partição P a função de informação

Entropia de uma partição

onde convencionamos 0 log 0 = lim→0+  log  = 0.

t1 ϕ(1 ) + · · · + tn ϕ(n ) ≤ ϕ(t1 1 + · · · + tn n )

Mais ainda, a concavidade é estrita: vale igualdade na ex-

Seja M = + d com a σ-álgebra dos cilindros e μ medida de Bernoulli

Partição finita tem entropia finita

e vale igualdade se, e só se,  são todos iguais.

Partição enumerável com entropia infinita

é a entropia condicional de uma partição P em relação à partição

podemos agora reescrever

Para a outra parte do ítem (2), usamos a concavidade:

μ(R ∩ P) X μ(Q) μ(R ∩ Q)

Para o ítem (3), temos por definição de entropia condicional que

Isto significa que P, Q são disjuntos ou Q ⊂ P (a menos de conjuntos

Hμ (R | P) ≤ Hμ (R) para quaisquer partições P, R.

Tomando R = M no ítem (1) do lema obtemos

Hμ (P ∨ Q) = Hμ (P) + Hμ (Q | P) ≤ Hμ (P) + Hμ (Q).

Esta subaditividade de partições vai ser usada de maneira essencial

Entropia e um pouco de dinâmica

Em particular, se M = N e μ é ƒ -invariante deduzimos que Hμ (ƒ −1 P) =

μ(P 4 Q ) < δ, ∀ =⇒ Hμ (Q | P) < ϵ.

Como ϕ : [0, 1] → R é contínua, existe ρ > 0 tal que ϕ() < ϵ/ k 2

logo Hμ (R) = R ϕ(μ(R)) < #R kϵ2 ≤ ϵ.

Por construção, P∨Q = P∨R e por consequências do lema anterior

completando a prova do lema.

Entropia de um sistema dinâmico

Pn () = P() ∩ ƒ −1 P(ƒ ) ∩ · · · ∩ ƒ −(n−1) P(ƒ n−1 )

e que Pn < Pn+1 , n ≥ 1, portanto Hμ (Pn ) é não decrescente em n ≥ 1.

Hμ (Pm+n ) ≤ Hμ (Pm ) + Hμ (ƒ −m Pn ) = Hμ (Pm ) + Hμ (Pn )

P < Q =⇒ Pn < Qn =⇒ Hμ (Pn ) ≤ Hμ (Qn ), ∀n ≥ 1

hμ (ƒ ) = sp{hμ (ƒ , P) : P partição com Hμ (P) < ∞}

(de fato, basta considerar partições finitas: exercício).

Exemplos: órbita periódica e expansão decimal

Exemplo: deslocamento de Bernoulli

cilindros [0; 0 , 1 , . . . , n−1 ] e podemos calcular aproveitando o que

partição P de entropia finita.

4. hμ (ƒ k ) = k · hμ (ƒ ) para k ≥ 1 e se ƒ é invertível hμ (ƒ k ) = |k| · hμ (ƒ )

Isto corresponde aos lemas 9.1.11, 9.1.12, 9.1.13 e Proposição

Hμ (Qn+1 | Pn+1 ) = Hμ (Qn ∨ ƒ −n Q | Pn ∨ ƒ −n P)

e por invariância Hμ (ƒ −n Q | ƒ −n P) = Hμ (Q | P). Portanto, por indução

Hμ (Qn ) ≤ Hμ (Pn ∨ Qn ) = Hμ (Pn ) + Hμ (Qn | Pn )

M. Brin and A. Katok. On local entropy. In Geometric dynamics