Você está na página 1de 150

Introdução à Teoria Ergódica

Krerley Oliveira e Marcelo Viana


ii
Prefácio

Em termos simples, a Teoria Ergódica é a disciplina matemática que estuda


sistemas dinâmicos munidos de medidas invariantes. Começaremos por dar as
definições precisas destas noções e algumas das principais motivações para o
seu estudo. No final deste prefácio faremos alguns comentários sobre a história
desta disciplina.

Sistemas dinâmicos
Há várias definições, mais ou menos gerais, do que é um sistema dinâmico. Nós
nos restringiremos a dois modelos principais. O primeiro deles, ao qual nos
referiremos na maior parte do tempo, são as transformações f : M → M em
algum espaço métrico ou topológico M . Heuristicamente, pensamos em f como
associando a cada estado x ∈ M do sistema o estado f (x) ∈ M em que o sistema
se encontrará uma unidade de tempo depois. Trata-se portanto de um modelo
de dinâmica com tempo discreto.
Também consideraremos fluxos, que são modelos de sistemas dinâmicos a
tempo contı́nuo. Lembre que um fluxo em M é uma famı́lia f t : M → M , t ∈ R
de transformações satisfazendo
f 0 = identidade e f t ◦ f s = f t+s para todo t, s ∈ R. (1)
Fluxos aparecem, por exemplo, associados a equações diferenciais: tome como
f t a transformação que associa a cada ponto x o valor no tempo t da solução
da equação que passa por x no tempo zero.
Num caso e no outro, sempre iremos supor que o sistema dinâmico é pelo
menos mensurável: na maior parte dos casos será até contı́nuo, ou mesmo difer-
enciável.

Medidas invariantes
Sempre consideraremos medidas µ definida na σ-álgebra de Borel do espaço M .
Dizemos que µ é uma probabilidade se µ(M ) = 1. Na maior parte dos casos
trataremos com medidas finitas, isto é, tais que µ(M ) < ∞. Neste caso sempre
podemos transformar µ numa probabilidade ν: para isso basta definir
µ(E)
ν(E) = para cada conjunto mensurável E ⊂ M.
µ(M )
iv

Em geral, uma medida µ diz-se invariante pela transformação f se

µ(E) = µ(f −1 (E)) para todo conjunto mensurável E ⊂ M. (2)

Heuristicamente, isto significa que a probabilidade de um ponto estar num dado


conjunto e a probabilidade de que a sua imagem esteja nesse conjunto são
iguais. Note que a definição (2) faz sentido, uma vez que a pré-imagem de um
conjunto mensurável por uma transformação mensurável ainda é um conjunto
mensurável.
No caso de fluxos, substituı́mos (2) por

µ(E) = µ(f −t (E)) para todo mensurável E ⊂ M e todo t ∈ R. (3)

Porque medidas invariantes ?


Como em todo ramo da Matemática, parte importante da motivação é intrı́nseca
e estética: estas estruturas matemáticas têm propriedades profundas e surpreen-
dentes que conduzem à demonstração de belı́ssimos teoremas. Igualmente fasci-
nante, idéias e resultados da Teoria Ergódica se aplicam em outras áreas da
Matemática que a priori nada têm de probabilı́stico, por exemplo a Combi-
natória e a Teoria dos Números.
Outra razão é que muitos fenômenos importantes na Natureza e nas ciências
experimentais são modelados por sistemas dinâmicos que deixam invariante al-
guma medida interessante. O exemplo mais importante, historicamente, veio
da Fı́sica: sistemas hamiltonianos, que descrevem a evolução de sistemas con-
servativos na mecânica newtoniana, são descritos por fluxos que preservam uma
medida natural, a medida de Liouville. Aliás veremos que sistemas dinâmicos
muito gerais possuem medidas invariantes.
Ainda outra motivação fundamental para que nos interessemos por medidas
invariantes é que o seu estudo pode conduzir a informação importante sobre
o comportamento dinâmico do sistema, que dificilmente poderia ser obtida de
outro modo. O teorema de recorrência de Poincaré é uma excelente ilustração
do que acabamos de dizer.

Breve apresentação histórica


A palavra ergódico é a concatenação de duas palavras gregas, ergos = trabalho
e odos = caminho, e foi introduzida por Boltzmann, no século XIX, no seu
trabalho sobre a teoria cinética dos gases. Os sistemas em que Boltzmann,
Maxwell, Gibbs, os principais fundadores da teoria cinética, estavam interessa-
dos são descritos por um fluxo hamiltoniano, ou seja, uma equação diferencial
da forma
   
dq1 dqn dp1 dpn ∂H ∂H ∂H ∂H
,..., , ,..., = ,..., ,− ,...,− .
dt dt dt dt ∂p1 ∂pn ∂q1 ∂qn
Boltzmann acreditava que as órbitas tı́picas do fluxo preenchem toda a superfı́cie
de energia H −1 (c) que as contém. A partir desta hipótese ergódica, ele deduzia
v

que as médias temporais de grandezas observáveis (funções) ao longo de órbitas


tı́picas coincidem com as respectivas médias espaciais na superfı́cie de energia,
um fato crucial para a sua formulação da teoria cinética.
De fato, esta hipótese é claramente falsa e, com o tempo, tornou-se usual
chamar hipótese ergódica a sua consequência de igualdade das médias tempo-
rais e espaciais. Sistemas para os quais esta igualdade vale foram chamados
ergódicos. E pode dizer-se que uma boa parte da Teoria Ergódica, tal como ela
se desenvolveu ao longo do século XX, foi motivada pelo problema de decidir se
a maioria dos sistemas hamiltonianos, especialmente aqueles que aparecem na
teoria cinética dos gases, são ergódicos ou não.
Um avanço fundamental ocorreu nos anos trinta, quando von Neumann e
Birkhoff provaram que médias temporais existem para quase toda órbita. Es-
petacularmente, em meados dos anos cinquenta, Kolmogorov provou que muitos
sistemas hamiltonianos não são ergódicos. Este resultado foi muito expandido
por Arnold e por Moser, no que veio a ser chamado teoria KAM em homenagem
aos três.
Por outro lado, ainda nos anos trinta, E. Hopf tinha dado os primeiros exem-
plos importantes de sistemas hamiltonianos ergódicos, os fluxos geodésicos de
superfı́cies com curvatura negativa. O seu resultado foi generalizado por Anosov,
nos anos sessenta, para variedades de qualquer dimensão. De fato, Anosov
tratou uma classe bem mais geral de sistemas, tanto com tempo contı́nuo como
com tempo discreto, que são chamados sistemas de Anosov, ou globalmente
hiperbólicos.
Nos anos setenta, Sinai desenvolveu a teoria das medidas de Gibbs dos sis-
temas de Anosov, conservativos ou dissipativos, que foi logo em seguida es-
tendida por Ruelle e por Bowen para sistemas chamados Axioma A, ou uni-
formemente hiperbólicos, constituindo uma das maiores realizações da teoria
ergódica diferenciável. Não podemos deixar de mencionar, nesta breve lista de
contribuições fundamentais, a introdução da noção de entropia por Kolmogorov
e Sinai no final dos anos cinquenta, e a demonstração, por Ornstein cerca de
dez anos depois, de que a entropia é um invariante completo para deslocamentos
(“shifts”) de Bernoulli.

1 2
Krerley Oliveira e Marcelo Viana

1 Departamento de Matemática, Universidade Federal de Alagoas, Campus A. C. Simões

s/n, 57072-090 Maceió, Brasil. krerley@mat.ufal.br.


2 IMPA, Estrada D. Castorina 110, 22460-320 Rio de Janeiro, Brasil viana@impa.br.
vi
Conteúdo

0 Elementos de Teoria da Medida 1


0.1 Espaços mensuráveis . . . . . . . . . . . . . . . . . . . . . . . . . 1
0.2 Espaços de medida . . . . . . . . . . . . . . . . . . . . . . . . . . 2
0.3 Integração em espaços de medida . . . . . . . . . . . . . . . . . . 6
0.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1 Teorema de Recorrência de Poincaré 13


1.1 Versão mensurável . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2 Versão topológica . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3 Recorrência para medidas infinitas . . . . . . . . . . . . . . . . . 15
1.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2 Exemplos de Medidas Invariantes 17


2.1 Expansão decimal . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 Sistemas conservativos . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3 Deslocamentos (“shifts”) de Bernoulli . . . . . . . . . . . . . . . 21
2.4 Transformação de Gauss . . . . . . . . . . . . . . . . . . . . . . . 22
2.5 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3 Existência de Medidas Invariantes 27


3.1 Alguns exemplos simples . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 A topologia fraca∗ no espaço das medidas . . . . . . . . . . . . . 28
3.3 Demonstração do Teorema de Existência . . . . . . . . . . . . . . 32
3.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4 Teorema Ergódico de Birkhoff 37


4.1 Enunciados e comentários . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Demonstração do teorema ergódico . . . . . . . . . . . . . . . . . 39
4.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5 Ergodicidade 43
5.1 Exemplos e aplicações . . . . . . . . . . . . . . . . . . . . . . . . 44
5.2 Equivalência Espectral . . . . . . . . . . . . . . . . . . . . . . . 51
5.3 Propriedades de medidas ergódicas . . . . . . . . . . . . . . . . . 54
viii CONTEÚDO

5.4 Teorema de decomposição ergódica . . . . . . . . . . . . . . . . . 56


5.5 Teorema de desintegração . . . . . . . . . . . . . . . . . . . . . . 60
5.6 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

6 Sistemas Misturadores 67
6.1 Definições e exemplos . . . . . . . . . . . . . . . . . . . . . . . . 67
6.2 Deslocamentos de Markov . . . . . . . . . . . . . . . . . . . . . . 69
6.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

7 Entropia Métrica 77
7.1 Entropia de uma partição . . . . . . . . . . . . . . . . . . . . . . 77
7.2 Entropia de um sistema ergódico . . . . . . . . . . . . . . . . . . 80
7.3 Teorema de Kolmogorov-Sinai . . . . . . . . . . . . . . . . . . . . 83
7.4 Equivalência ergódica . . . . . . . . . . . . . . . . . . . . . . . . 83
7.5 Equivalência Espectral . . . . . . . . . . . . . . . . . . . . . . . . 84
7.6 A entropia como invariante . . . . . . . . . . . . . . . . . . . . . 85
7.7 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

8 Entropia Topológica 89
8.1 Definição via coberturas . . . . . . . . . . . . . . . . . . . . . . . 89
8.2 Definição via conjuntos geradores . . . . . . . . . . . . . . . . . . 91
8.3 Entropia de fluxos . . . . . . . . . . . . . . . . . . . . . . . . . . 92
8.4 Pressão topológica . . . . . . . . . . . . . . . . . . . . . . . . . . 93
8.5 Princı́pio variacional . . . . . . . . . . . . . . . . . . . . . . . . . 94
8.6 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

9 Transformações Expansoras 97
9.1 Lema de distorção . . . . . . . . . . . . . . . . . . . . . . . . . . 98
9.2 Medidas absolutamente contı́nuas . . . . . . . . . . . . . . . . . . 100
9.3 Existência de medidas ergódicas . . . . . . . . . . . . . . . . . . . 101
9.4 Unicidade e conclusão da prova . . . . . . . . . . . . . . . . . . . 102
9.5 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

10 Estados de Equilı́brio 105


10.1 Definição de Estado de Equilı́brio . . . . . . . . . . . . . . . . . . 105
10.2 Transformações expansivas . . . . . . . . . . . . . . . . . . . . . . 106
10.3 Transformações expansoras . . . . . . . . . . . . . . . . . . . . . 110
10.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

11 Aplicações em Teoria dos Números 123


11.1 Teorema de Szemerédi . . . . . . . . . . . . . . . . . . . . . . . . 123
11.2 Teorema de Weyl . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
11.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
CONTEÚDO ix

12 Resultados em Teoria Ergódica Diferenciável 137


12.1 Fluxos geodésicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
12.2 Hiperbolicidade não-uniforme . . . . . . . . . . . . . . . . . . . . 137
12.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
x CONTEÚDO
Capı́tulo 0

Elementos de Teoria da
Medida

Neste capı́tulo inicial recordamos algumas noções e resultados básicos da Teo-


ria da Medida que são úteis para o que segue. As demonstrações podem ser
encontradas nos livros de Castro [Cas04], Fernandez [Fer02] ou Rudin [Rud87].

0.1 Espaços mensuráveis


Começamos por introduzir as noções de álgebra e σ-álgebra de subconjuntos.
Em seguida definimos espaços mensuráveis e apresentamos uma técnica de
construção de σ-álgebras. Seja M um conjunto.
Definição 0.1. Uma álgebra de subconjuntos de M é uma famı́lia B de subcon-
juntos que contém M e é fechada para as operações elementares de conjuntos:
• A ∈ B implica Ac = M \ A ∈ B
• A ∈ B e B ∈ B implica A ∪ B ∈ B.
Então A ∩ B = (Ac ∪ B c )c e A \ B = A ∩ B c também estão em B, quaisquer
que sejam A, B ∈ B. Além disso, por associatividade, a união e a intersecção
de qualquer número finito de elementos de B também estão em B.
Definição 0.2. Uma álgebra diz-se uma σ-álgebra de subconjuntos de M se
também for fechada para uniões enumeráveis:


• Aj ∈ B para j = 1, 2, . . . , n, . . . implica Aj ∈ B.
j=1

Observação. B também é fechada para intersecções enumeráveis: se Aj ∈ B



 ∞
 c
para j = 1, 2, . . . , n, . . . então Aj = Acj ∈ B.
j=1 j=1
2 CAPÍTULO 0. ELEMENTOS DE TEORIA DA MEDIDA

Definição 0.3. Um espaço mensurável é uma dupla (M, B) onde M é um


conjunto e B é uma σ-álgebra de subconjuntos de M . Os elementos de B são
chamados conjuntos mensuráveis.
Em seguida apresentamos alguns exemplos de σ-álgebras remetendo para os
exercı́cios o estudo de outros exemplos.
Exemplo 0.4. Seja M um conjunto qualquer.
1. Denotemos por 2M a famı́lia de todos os subconjuntos de M . Então
B = 2M é claramente uma σ-álgebra.
2. B = {∅, M } é também uma σ-álgebra.
Note que se B é uma álgebra de um conjunto M então {∅, M } ⊂ B ⊂ 2M .
Portanto {∅, M } é a menor álgebra e 2M é a maior álgebra de um conjunto
M . Considere uma famı́lia não-vazia {Bi : i ∈ I} qualquer de σ-álgebras (I é
um conjunto qualquer, que serve apenas para indexar os elementos da famı́lia).
Então a intersecção 
B= Bi
i∈I

é também uma σ-álgebra (veja o Exercı́cio 0.1). Agora, dado um conjunto


qualquer E de subconjuntos de M , podemos aplicar esta idéia à famı́lia de todas
as σ-álgebras que contém E. Note que esta famı́lia é não vazia, uma vez que
contém a σ-álgebra 2M , pelo menos. De acordo com a observação anterior, a
intersecção de todas estas σ-álgebras é também uma σ-álgebra, e é claro que
contém E. Além disso, do modo que é construı́da, ela está contida em todas as
σ-álgebras que contêm E. Portanto é a menor σ-álgebra que contém E.
Definição 0.5. A σ-álgebra gerada por uma famı́lia E de subconjuntos de M é
a menor σ-álgebra que contém a famı́lia E.
No caso em que M vem munido da estrutura de espaço topológico, há uma
escolha natural para E, nomeadamente, o conjunto dos subconjuntos abertos.
Isto nos conduz à noção de σ-álgebra de Borel.
Definição 0.6. Seja (M, τ ) um espaço topológico, isto é, M um conjunto e τ
a famı́lia dos subconjuntos abertos de M . Então a σ-álgebra de Borel de M
é a σ-álgebra gerada por τ , ou seja, a menor σ-álgebra que contém todos os
subconjuntos abertos.

0.2 Espaços de medida


Agora introduzimos o conceito de medida e analisamos algumas das suas pro-
priedades fundamentais. Em seguida apresentamos alguns resultados sobre
construção de medidas. Finalmente, analisamos duas importantes classes de
medidas: medidas de Lebesgue em espaços euclideanos e medidas produto em
espaço de sequências.
0.2. ESPAÇOS DE MEDIDA 3

Definição 0.7. Uma medida num espaço mensurável (M, B) é uma função
µ : B → [0, +∞] que satisfaz:

1. µ(∅) = 0;
∞ ∞
2. µ( j=1 Aj ) = j=1 µ(Aj ) para quaisquer Aj ∈ B disjuntos dois-a-dois.

A tripla (M, B, µ) é chamada espaço de medida. Quando µ(M ) = 1 dizemos que


µ é uma medida de probabilidade e (M, B, µ) é um espaço de probabilidade.

A segunda propriedade na definição de medida é chamada a σ-aditividade.


Dizemos que uma função µ : B → [0, +∞] é finitamente aditiva se:


N
N
µ( Aj ) = µ(Aj )
j=1 j=1

para qualquer famı́lia finita A1 , . . . , AN ∈ B de subconjuntos disjuntos dois-a-


dois. Note que toda medida é, automaticamente, finitamente aditiva.

Exemplo 0.8. Seja M um conjunto e consideremos a σ-álgebra B = 2M . Dado


qualquer p ∈ M , consideremos a função δp : 2M → [0, +∞] definida por:

1 , se p ∈ A
δp (A) = .
0 , se p ∈ /A

Temos que δp é uma medida, que é usualmente designada por delta de Dirac no
ponto p.

Em seguida apresentamos um resultado muito útil na construção de medidas.

Teorema 0.9 (Extensão). Seja B0 uma álgebra de subconjuntos de M e seja


µ0 : B0 → [0, +∞] uma função finita, finitamente aditiva. Então existe uma
única função finita, finitamente aditiva µ : B → [0, +∞] que é uma extensão de
µ0 (isto é, µ restrita a B0 coincide com µ0 ) à σ-álgebra B gerada por B0 . Se µ0
é σ-aditiva então µ também o é.

Em geral, ao aplicar este resultado o mais difı́cil é verificar a σ-aditividade.


O critério mais usado para esse efeito é expresso no seguinte resultado. A sua
demonstração é proposta como Exercı́cio 0.7.

Teorema 0.10 (σ-aditividade). Seja B0 uma álgebra e seja µ0 : B0 → [0, +∞]


uma função finitamente aditiva com µ0 (M ) = 1. Suponha que


n
lim µ0 ( Aj ) = 0 (1)
n→∞
j=1

∞ toda a sequência A1 ⊃ · · · ⊃ Aj ⊃ · · · de conjuntos mensuráveis tal que


para
j=1 Aj = ∅. Então µ0 é σ-aditiva.
4 CAPÍTULO 0. ELEMENTOS DE TEORIA DA MEDIDA

O resultado seguinte nos diz que todo o elemento B da σ-álgebra gerada por
uma álgebra é aproximado por algum elemento B0 da álgebra, no sentido em
que a medida da diferença simétrica B∆B0 = B \ B0 ∪ B0 \ B é pequena.
Teorema 0.11 (Aproximação). Seja (M, B, µ) um espaço de probabilidade e
seja B0 uma álgebra que gera a σ-álgebra B. Então para todo o ε > 0 e todo
B ∈ B existe B0 ∈ B0 tal que µ(B∆B0 ) < ε.

0.2.1 Medida de Lebesgue


A medida de Lebesgue corresponde ao que entendemos por volume de sub-
conjuntos de Rd . Para construı́-la, recorremos ao Teorema de Extensão 0.9.
Consideremos M = [0, 1] e seja B0 a famı́lia de todos os subconjuntos da forma
B = I1 ∪ · · · ∪ IN onde I1 , . . . , IN são intervalos disjuntos dois-a-dois. É fácil ver
que B0 é uma álgebra de subconjuntos de M . Além disso, temos uma função
µ0 : B0 → [0, 1] definida nesta álgebra por
 
µ0 I1 ∪ · · · ∪ IN = |I1 | + · · · + |IN | ,
onde |Ij | representa o comprimento de Ij . Note que µ0 (M ) = 1. Além
disso, a σ-álgebra gerada por B0 coincide com a σ-álgebra de Borel de M , já
que todo aberto pode ser escrito como união enumerável de intervalos disjuntos
dois-a-dois. Pelo Teorema 0.9, existe uma única probabilidade µ definida na
σ-álgebra de [0, 1] que é uma extensão de µ0 à σ-álgebra B gerada por B0 .
Chamamos µ de medida de Lebesgue em [0, 1]. Mais geralmente, definimos
medida de Lebesgue µ no cubo M = [0, 1]d de qualquer dimensão d ≥ 1 da
seguinte maneira: chamamos retângulo em M qualquer subconjunto da forma
R = I1 × · · · × Id onde os Ij são intervalos, e definimos

µ0 (R) = |I1 | × · · · × |Id | .

Em seguida, consideramos a álgebra B0 dos subconjuntos de [0, 1]d da forma


B = R1 ∪ · · · ∪ RN , onde R1 , . . . , RN são retângulos disjuntos dois-a-dois, e
definimos
µ0 (B) = µ0 (R1 ) + · · · µ0 (RN )
para todo B nessa álgebra. A medida de Lebesgue em M = [0, 1]d é a extensão
de µ0 à σ-álgebra gerada por B0 , que coincide com a σ-álgebra de Borel de
M . Finalmente, definimos a medida de Lebesgue num espaço euclidiano Rd
decompondo o espaço em cubos de lado unitário
 
Rd = ··· [m1 , m1 + 1) × · · · × [md , md + 1)
m1 ∈Z md ∈Z

e definindo, para cada subconjunto mensurável E,


 
µ(E) = ··· µ E ∩ [m1 , m1 + 1) × · · · × [md , md + 1) .
m1 ∈Z md ∈Z
0.2. ESPAÇOS DE MEDIDA 5

Exemplo 0.12 (Medida de Volume em S 1 ). Considere a aplicação sobre-


jetora γ : [0, 1] → S 1 definida por:
γ(t) = e2πit .
A medida de Lebesgue em S 1 é a medida µ definida por µ(A) = m(γ −1 (A)).
Observe que com esta definição, a medida de A é igual a medida de Rα (A), onde
Rα : S 1 → S 1 denota a rotação de ângulo α. Na verdade, módulo multiplicação
por um número positivo, µ é a única medida que satisfaz essa condição para
todo α.
Exemplo 0.13. Seja φ : [0, 1] → R uma função contı́nua e positiva. Defina a
medida µφ num intervalo [a, b] por:
b
µφ ([a, b]) = φ(x) dx.
a

Observe que µφ é aditiva e com o auxı́lio dos Teoremas 0.10 e 0.9 podemos
estender µφ para toda σ-álgebra dos Borelianos de [0, 1]. A medida µφ tem
a seguinte propriedade especial: se um conjunto A ⊂ [0, 1] tem medida de
Lebesgue 0 então µφ (A) = 0. Essa propriedade nos diz que µφ é absolutamente
contı́nua com respeito à medida de Lebesgue. A densidade de µφ em relação a
m é igual a φ. Estudaremos tais medidas com mais detalhes na Secção 0.3.2.
Exemplo 0.14. Vamos agora exibir uma medida que, apesar de ser positiva
em qualquer aberto, não é absolutamente contı́nua com respeito a medida de
Lebesgue. Para isso, considere uma enumeração {r1 , r2 , . . . } do conjunto Q dos
racionais. Defina µ por:
1
µ(A) = .
2i
ri ∈A

Observe que a medida de qualquer aberto da reta é positiva, pois necessaria-


mente A contém algum i, e, apesar disso, µ(Q) = 1. Em particular, µ não é
absolutamente contı́nua com respeito a medida de Lebesgue.
O exemplo anterior nos motiva a definir o suporte de uma medida:
Definição 0.15. Seja (M, B, µ) um espaço de medida e M um espaço topológico.
O suporte da medida µ é o fecho do conjunto de pontos x ∈ M tais que para
qualquer vizinhança aberta Vx contendo x, temos que µ(Vx ) > 0.
Fica como exercı́cio para o leitor mostrar que o suporte de uma medida é
sempre um conjunto fechado (10.6).

0.2.2 Medida produto no espaço das sequências


Consideremos os espaços de probabilidade (Mi , Bi , µi ), com i ∈ Z. Vamos con-
struir uma probabilidade µ no conjunto


M= Mi
i=−∞
6 CAPÍTULO 0. ELEMENTOS DE TEORIA DA MEDIDA

das sequências bilaterais (xi )∞


i=−∞ com xi ∈ Mi para cada i. Mais precisa-
mente, a medida µ será definida na σ-álgebra produto B das σ-álgebras Bi , que
é caracterizada do seguinte modo: dados inteiros m ≤ n e conjuntos Aj ∈ Bj
para m ≤ j ≤ n, consideremos

[m; Am , . . . , An ] = {(xi )i∈Z : xj ∈ Aj para m ≤ j ≤ n}.

Estes subconjuntos de M são chamados cilindros. A famı́lia B0 das uniões fini-


tas de cilindros disjuntos dois-a-dois é uma álgebra. Por definição, a σ-álgebra
produto B é a σ-álgebra gerada por B0 . Para construir a medida µ procede-
mos do seguinte modo: primeiramente, consideramos a aplicação τ definida na
famı́lia dos cilindros por

n
τ ([m; Am , . . . , An ]) = µj (Aj ).
j=m

Em seguida estendemos τ à álgebra B0 , estipulando que a imagem de qualquer


união finita de cilindros disjuntos dois-a-dois é igual à soma das imagens dos
cilindros. Esta extensão está bem definida e é finitamente aditiva. Então,
recorrendo aos Teoremas 0.10 e 0.9, obtemos uma medida de probabilidade µ
em (M, B) que estende τ .
Definição 0.16. O espaço de probabilidade (M, B, µ) construı́do acima é de-
signado produto direto dos espaços (Mi , Bi , µi ).
Existe um caso particular importante, que corresponde à situação onde os
espaços (Mi , Bi , µi ) são todos iguais a um dado (X, C, ν), em que X = {1, . . . , d}
é um conjunto finito e C = 2X é a σ-álgebra de todos os subconjuntos de X.
Neste caso basta considerar apenas cilindros elementares, isto tais que cada Aj
consiste de um único ponto de X. De fato, todo cilindro é uma união finita
disjunta de tais cilindros elementares. Obtemos então subconjuntos de M da
forma

[m; am , . . . , an ] = {(xi )∞
i=−∞ ∈ M : xm = am , . . . , xn = an }

onde aj ∈ {1, . . . , d}. A medida µ é designada medida de Bernoulli definida por


ν e é caracterizada por µ([m; am , . . . , an ]) = ν({am }) · · · ν({an }).

0.3 Integração em espaços de medida


Nesta seção definimos a noção de integral de uma função em relação a uma me-
dida e apresentamos teoremas fundamentais da Teoria da Medida. Para tanto,
introduziremos algumas classes de funções. Ao longo desta seção (M, B, µ) será
sempre um espaço de medida.
Definição 0.17. Seja B(R) a σ-álgebra de Borel de R. Uma função f : M → R
diz-se mensurável se f −1 (D) ∈ B para todo D ∈ B(R).
0.3. INTEGRAÇÃO EM ESPAÇOS DE MEDIDA 7

O espaço das funções mensuráveis possui diversas propriedades muito úteis.


Vamos enunciá-las como proposição:

Proposição 0.18. Sejam f1 , f2 funções mensuráveis e c1 , c2 ∈ R. Então


também são mensuráveis as seguintes funções:

1. então (c1 f1 + c2 f2 )(x) = c1 f1 (x) + c2 f2 (x)

2. (f1 · f2 )(x) = f1 (x) · f2 (x)

3. max{f1 , f2 }(x) = max{f1 (x), f2 (x)}

Dizemos que uma função s : M → R é simples se existem constantes


α1 , . . . , αk ∈ R e conjuntos A1 , . . . , Ak ∈ B disjuntos dois-a-dois tais que


k
s= αk XAk ,
j=1

onde XA é a função caracterı́stica do conjunto A, isto é, XA (x) é igual a 1 se


x ∈ A e zero caso contrário. Introduzimos agora a noção de integral. Para tal
começamos por definir integral de uma função simples.

Definição 0.19. Seja s uma função simples da forma acima. Então a integral
de s em relação a µ é dado por:

k
s dµ = αk µ(Ak ).
j=1

É fácil verificar que esta definição é coerente: se duas combinações lineares


de funções caracterı́sticas definem uma mesma função simples, os valores das
integrais obtidos a partir das duas combinações coincidem. O próximo passo
é definir integral de uma função mensurável qualquer. Para isso, trataremos
primeiro do caso da função ser não-negativa. Necessitamos do seguinte resul-
tado, que nos diz que qualquer função mensurável é o limite de uma sequência
de funções simples mensuráveis:

Teorema 0.20. Seja f : M → [−∞, ∞] uma função mensurável. Então existe


uma sequência s1 , s2 , . . . de funções simples mensuráveis tal que

lim sk (x) = f (x) para todo o x ∈ M.


k→∞

Se f ≥ 0 então a sequência pode ser escolhida de modo que 0 ≤ s1 ≤ s2 ≤ · · · .

A demonstração deste teorema é proposta como Exercı́cio 0.16. Ele torna


possı́vel a seguinte
8 CAPÍTULO 0. ELEMENTOS DE TEORIA DA MEDIDA

Definição 0.21. Seja f : M → [0, ∞] uma função mensurável não-negativa.


Então

f dµ = lim sn dµ,
n→∞

onde s1 ≤ s2 ≤ . . . é uma sequência de funções simples crescentes para f , isto


é, lim sn (x) = f (x) para todo x ∈ M .
n→∞

É fácil verificar que o valor da integral não depende da escolha da sequência


de funções simples, e portanto esta definição é coerente. Para estender a
definição de integral a quaisquer funções mensuráveis, observemos que dada
uma função f : M → R sempre podemos escrever f = f + − f − onde f + (x) =
max{f (x), 0} e f − (x) = max{−f (x), 0} são não-negativas. Mostra-se também
que f + e f − são mensuráveis se e só se, f é mensurável.

Definição 0.22. Seja f : M → [0, ∞] uma função mensurável. Então



f dµ = f + dµ − f − dµ,

desde que alguma das integrais do lado direito seja finita.

Definição 0.23. Dizemos que uma função é integrável se for mensurável e tiver
integral finita. Denotamos o conjunto das funções integráveis por L1 (M, B, µ)
ou, mais simplesmente, por L1 (M, µ).

Dada uma função mensurável f : M → R e um conjunto mensurável E


definimos a integral de f sobre E por

f dµ = f XE dµ,
E

onde XE é a função caracterı́stica do conjunto E.

Exemplo 0.24. Sejam x1 , . . . , xm ∈ M e p1 , . . . , pm > 0 com p1 + · · · + pm = 1.


Consideremos a medida de probabilidade µ : 2M → [0, 1] dada por:

µ(A) = pi .
xi ∈A

m
Notemos que µ = i=1 pi δxi , onde δxi é a medida delta de Dirac em xi . Neste
caso temos que se f é uma função integrável então

m
f dµ = f (xi )pi .
i=1
0.3. INTEGRAÇÃO EM ESPAÇOS DE MEDIDA 9

0.3.1 Teorema de derivação de Lebesgue


Comecemos por introduzir a noção de “quase em toda a parte” em relação a
uma medida. Dizemos que uma propriedade é válida em µ-quase todo ponto
se é válida em todo o M exceto, possivelmente, num conjunto de medida nula.
Por exemplo, dizemos que duas funções f, g são iguais em µ-quase todo ponto
se existe um conjunto mensurável N com µ(N ) = 0 tal que f (x) = g(x) para
todo x ∈ M \ N .

Teorema 0.25 (Derivação de Lebesgue). Seja M = Rd , B a σ-álgebra de


Borel e µ a medida de Lebesgue em Rd . Seja f : M → R uma função localmente
integrável, isto é, tal que f XK é integrável para todo compacto K ⊂ Rd . Então

1
lim |f (y) − f (x)|dµ = 0.
r→0 µ(B(x, r)) B(x,r)

em µ-quase todo ponto x ∈ Rd . Em particular, em µ-quase todo o ponto x ∈ Rd


tem-se
1
lim f (y)dµ = f (x).
r→0 µ(B(x, r)) B(x,r)

Dado um subconjunto mensurável A de Rd , dizemos que um ponto a ∈ A é


um ponto de densidade de A se este conjunto preenche a maior parte de qualquer
pequena vizinhança de a, i.e,

µ(B(a, ε) ∩ A)
lim = 1. (2)
ε→0 µ(B(a, ε)

O próximo resultado é uma consequência direta do teorema de derivação de


Lebesgue. No Exercı́cio 0.13 sugerimos uma demonstração.

Teorema 0.26. Seja A um subconjunto mensurável de Rd com medida de


Lebesgue µ(A) maior que zero. Então µ-quase todo ponto a ∈ A é ponto de
densidade de A.

Muitos dos resultados envolvendo funções vão se apoiar no chamado “Teo-


rema da Convergência Dominada”, que garante que se uma sequência de funções
convergente é menor que uma função integrável, então o limite das suas integrais
converge e podemos tomar o limite sob o sinal da integral. Mais precisamente:

Teorema 0.27 (Teorema da Convergência Dominada). Consideremos


fn : M → R uma sequência de funções mensuráveis e g uma função integrável
tal que |fn (x)| ≤ |g(x)| para µ-quase todo x em M. Se para µ-quase todo x ∈ M
a sequência fn (x) converge para o valor f (x), então a função f é integrável e
vale:
lim fn dµ = f dµ.
n→∞
10 CAPÍTULO 0. ELEMENTOS DE TEORIA DA MEDIDA

0.3.2 Teorema de Radon-Nikodym


Sejam µ e ν duas medidas num espaço mensurável (M, B). Dizemos que ν é
absolutamente contı́nua em relação a µ se µ(E) = 0 implica ν(E) = 0, qualquer
que seja o conjunto mensurável. Nesse caso escrevemos ν µ. O Teorema
de Radon–Nikodym afirma que nesse caso a medida ν pode ser vista como
o produto de µ por alguma função mensurável, que é chamada densidade ou
derivada de Radon-Nikodym de ν relativamente a µ.
Teorema 0.28 (Radon-Nikodym). Se µ e ν são medidas finitas tais que
ν µ então existe uma função mensurável ρ : M → [0, +∞] tal que ν = ρµ,
ou seja, tal que

ν(E) = ρ dµ para todo o conjunto mensurável E ⊂ M.
E

Além disso, essa função é essencialmente única: duas quaisquer coincidem µ


quase em toda a parte.

0.4 Exercı́cios
0.1. Seja M um conjunto e, para cada i pertencente a um conjunto de ı́ndices
I, seja Bi uma σ-álgebra de subconjuntos de M . Mostre que

B= Bi
i∈I

é uma σ-álgebra.
0.2. Seja M um conjunto e considere a famı́lia de conjuntos
B0 = {A ⊂ M : A é finito ou Ac é finito}.
Mostre que B0 é uma álgebra. Além disso, B0 é uma σ-álgebra se e somente se
o conjunto M é finito.
0.3. Seja M um conjunto e considere a seguinte famı́lia de conjuntos
B1 = {A ⊂ M : A é finito ou enumerável ou Ac é finito ou enumerável}.
Mostre que B1 é uma σ-álgebra. De fato, B1 é a σ-álgebra gerada pela álgebra
B0 do Exercı́cio 0.2.
0.4. Seja E uma famı́lia de subconjuntos de um conjunto M . Mostre que existe
a menor álgebra B0 que contém E. Que relação existe entre B0 e a σ-álgebra B
gerada por E?
0.5. Seja (M, B, µ) um espaço de medida. Mostre que se A1 ,A2 , . . . estão em B
então ∞ ∞

µ( Aj ) ≤ µ(Aj ).
j=1 j=1
0.4. EXERCÍCIOS 11

0.6. Seja B = 2M e considere µ : 2M → [0, +∞] definido por:


#A , se A é finito
µ(A) = .
∞ se A é infinito

Mostre que µ é uma medida. Esta medida é designada medida de contagem.

0.7. Demonstre o Teorema 0.10. Dica: Dados ∞ quaisquer conjuntos disjuntos


dois a dois B1 , . . . , Bn , . . . em B0 tais B = j=1 Bj também está em B0 , defina
Cj = B1 ∪ · · · ∪ Bj para cada j ≥ 1. Verifique que os conjuntos Aj = B \ Cj
satisfazem a hipótese (1) no Teorema 0.10.

0.8. Seja (M, B) um espaço mensurável.

1. Mostre que se µ : B → [0, +∞] é uma medida então




µ( Aj ) = lim µ(Aj ).
j→∞
j=1

para qualquer sequência crescente A1 ⊂ A2 ⊂ · · · An ⊂ · · · de elementos


de B.

2. Reciprocamente, mostre que se µ0 : B → [0, +∞] é uma função finitamente


aditiva que satisfaz a condição do item anterior então µ0 é σ-aditiva.

0.9. Seja (M, B) um espaço mensurável, onde o conjunto M é não-enumerável


e a σ-álgebra B é definida como no Exercı́cio 0.3. Mostre que µ : B → [0, +∞]
definida por:

0 se A é finito ou enumerável
µ(A) =
1 se Ac é finito ou enumerável
é uma medida de probabilidade.

0.10. Sejam f e g funções mensuráveis. Mostre que f é integrável se e somente


se |f | é integrável e, nesse caso,
 
 
 f dµ ≤ |f | dµ.
 

Além disso, se f é integrável e |f | ≥ |g| então g é integrável.



0.11. Seja E um conjunto mensurável com µ(E) = 0. Mostre que E
f dµ = 0
para qualquer função mensurável f .

0.12. Mostre que a é um ponto de densidade do conjunto A se e só se


 
µ(B ∩ A)
lim inf : B bola contida em B(a, ε) e contendo a = 1
ε→0 µ(B)
12 CAPÍTULO 0. ELEMENTOS DE TEORIA DA MEDIDA

0.13. Demonstre o Teorema 0.26.


0.14. Seja x1 , x2 ∈ M e p1 , p2 , q1 , q2 > 0 com p1 + p2 = q1 + q2 = 1. Considere
as medidas de probabilidade µ e ν dadas por

µ(A) = pi , ν(A) = qi ,
xi ∈A xi ∈A

ou seja, µ = p1 δx1 + p2 δx2 e ν = q1 δx1 + q2 δx2 . Mostre que ν µ e µ ν e


calcule as respectivas derivadas de Radon-Nikodym.
0.15. Seja f : M → R. Mostre que se f −1 ((−∞, c)) ∈ B para todo c ∈ R então
f é mensurável. Dica: Mostre que a famı́lia C = {A ⊂ R : f −1 (A) ∈ B} é uma
σ-álgebra e contém todos os subconjuntos abertos.
0.16. Prove o Teorema 0.20. Dica: Trate primeiro o caso onde f é não-negativa.
0.17. Mostre que o suporte de uma medida é sempre um conjunto fechado.
Conclua que se M é compacto, o suporte de qualquer medida também é com-
pacto.
0.18. Mostre que toda função f : Rm → Rn contı́nua é mensurável. Dê exemplo
de uma função mensurável que não é contı́nua em nenhum ponto.
0.19. Seja T : M → M uma função mensurável e ν uma medida. Defina
T∗ ν(A) = ν(T −1 (A)). Mostre que T∗ ν é uma medida.
Capı́tulo 1

Teorema de Recorrência de
Poincaré

Um ponto x ∈ M diz-se recorrente se a sua trajetória pelo sistema dinâmico


f : M → M volta arbitrariamente perto de x quando o tempo vai para in-
finito. A dinâmica no conjunto dos pontos não-recorrentes é, em certo sentido,
sempre a mesma, independentemente do sistema dinâmico. Por isso, é funda-
mental compreender o conjunto dos pontos recorrentes, já que ele contém toda
a dinâmica interessante do sistema.
O resultado que estudaremos nesta capı́tulo, enunciado por Poincaré perto
do final do século XIX, afirma que quase todo ponto é recorrente, relativamente
a qualquer medida invariante finita do sistema dinâmico. Daremos duas versões
deste resultado, a primeira numa linguagem mensurável e a segunda de natureza
mais topológica. Também comentaremos que a hipótese de finitude da medida
não pode ser omitida.

1.1 Versão mensurável


Teorema 1.1. Seja f : M → M uma transformação mensurável e µ uma
medida invariante finita. Seja E ⊂ M qualquer conjunto mensurável com
µ(E) > 0. Então, µ-quase todo ponto x ∈ E tem algum iterado f n (x), n ≥ 1,
que também está em E.
Em outras palavras, o teorema afirma que quase todo ponto de E regressa
a E no futuro. Antes mesmo de demonstrar este fato, podemos mostrar que ele
implica outro aparentemente mais forte: quase todo ponto de E regressa a E
infinitas vezes:
Corolário 1.2. Nas condições do Teorema 1.1, para µ-quase todo ponto x ∈ E
existem infinitos valores de n ≥ 1 tais que f n (x) está em E.
Demonstração. Para cada k ≥ 1 vamos representar por Ek o conjunto dos
pontos x ∈ E que regressam a E exatamente k vezes: existem exatamente k
14 CAPÍTULO 1. TEOREMA DE RECORRÊNCIA DE POINCARÉ

valores de n ≥ 1 tais que f n (x) ∈ E. Observe que o conjunto dos pontos que
regressam a E apenas um número finito de vezes é precisamente


Ek .
k=1

Portanto, para provar o corolário, basta mostrar que µ(Ek ) = 0 para todo k ≥ 1.
A demonstração será por contradição.
Suponhamos que µ(Ek ) > 0 para algum k ≥ 1. Então, aplicando o Teo-
rema 1.1 com este Ek no lugar de E, obtemos que quase todo ponto x ∈ Ek tem
algum iterado f n (x) que está em Ek . Fixemos um tal x e denotemos y = f n (x).
Por definição, y tem exatamente k iterados futuros que estão em E. Como y é
um iterado de x, isso implica que x tem k + 1 iterados futuros em E. Mas isso
contradiz o fato de que x ∈ Ek . Esta contradição prova que Ek tem medida
nula, relativamente a µ, e portanto o corolário está demonstrado.
Vamos agora dar a
Demonstração do Teorema 1.1. Representemos por E 0 o conjunto dos pontos
x ∈ E que nunca regressam a E. O nosso objetivo é provar que E 0 tem medida
nula. Para isso, começamos por afirmar que as suas pré-imagens f −n (E 0 ) são
disjuntas duas-a-duas. De fato, suponhamos que existem m > n ≥ 1 tais que
f −m (E 0 ) intersecta f −n (E 0 ). Seja x um ponto na intersecção e seja y = f n (x).
Então y ∈ E 0 e f m−n (y) = f m (x) ∈ E 0 , que está contido em E. Isto quer
dizer que y volta pelo menos uma vez a E, o que contradiz a definição de E 0 .
Esta contradição, prova que as pré-imagens são disjuntas duas-a-duas, como
afirmamos.
Isto implica que
∞ ∞ ∞
 −n 0
 −n 0

µ f (E ) = µ(f (E )) = µ(E 0 ).
n=0 n=0 n=0

Na última igualdade usamos a hipótese de que µ é invariante, que implica que


µ(f −n (E 0 )) = µ(E 0 ) para todo n ≥ 1. Como supomos que a medida é finita,
a expressão do lado esquerdo é finita. Por outro lado, à direita temos uma
soma de infinitos termos, todos iguais. O único jeito desta soma ser finita é
que as parcelas sejam nulas. Portanto, devemos ter µ(E 0 ) = 0, tal como foi
afirmado.

1.2 Versão topológica


Dizemos que um ponto x ∈ M é recorrente para uma transformação f : M → M
se, para toda vizinhança U de x, existe algum iterado f n (x) que está em U . A
definição para fluxos é análoga, apenas nesse caso o tempo n é um número real.
Na formulação topológica do teorema de recorrência supomos que o espaço
M admite uma base enumerável de abertos, ou seja, um famı́lia enumerável
1.3. RECORRÊNCIA PARA MEDIDAS INFINITAS 15

{Uk : k ∈ N} de abertos tal que todo aberto de M pode ser escrito como
união de elementos Uk dessa famı́lia. Esta hipótese é satisfeita na maioria dos
exemplos interessantes.
Teorema 1.3. Suponhamos que M admite uma base enumerável de abertos.
Seja f : M → M uma transformação mensurável e µ uma medida invariante
finita. Então, µ-quase todo ponto x ∈ M é recorrente para f .
Demonstração. Para cada k representamos por Uk0 o conjunto dos pontos x ∈ Uk
que nunca regressam a Uk . De acordo com o Teorema 1.1, todo Uk0 tem medida
nula. Consequentemente, a união enumerável

Ũ = Uk0
k∈N

tem medida nula. Portanto, para demonstrar o teorema será suficiente que
mostremos que todo ponto x que não está em Ũ é recorrente. Isso é fácil, como
vamos ver.
Seja x ∈ M \ Ũ e seja U uma vizinhança qualquer de x. A definição de
base de abertos implica que existe algum k ∈ N tal que x ∈ Uk e Uk ⊂ U .
Como x não está em Ũ , também x ∈ / Uk0 . Em outras palavras, x tem algum
iterado f (x), n ≥ 1 que está em Uk . Em particular, f n (x) também está em
n

U . Como a vizinhança U é arbitrária, isto prova que x é um ponto recorrente,


como havı́amos afirmado.

1.3 Recorrência para medidas infinitas


As conclusões dos Teoremas 1.1 e 1.3 não são verdadeiras, em geral, se omitirmos
a hipótese de que a medida µ é finita. O exemplo mais simples é o seguinte:
Exemplo 1.4. Seja f : R → R a translação de 1 unidade, isto é, f (x) = x + 1
para todo x ∈ R. É fácil verificar que f deixa invariante a medida de Lebesgue
em R (que é infinita). Por outro lado nenhum ponto é recorrente para f .
No entanto, é possı́vel estender estes enunciados para certos casos de medidas
infinitas como, por exemplo, no exercı́cio que propomos a seguir.
Uma transformação f : M → M diz-se invertı́vel se é uma bijeção e a sua
inversa é também uma transformação mensurável. Uma medida µ diz-se σ-finita
se existe uma sequência crescente de subconjuntos Mk cuja união é o espaço M
inteiro e tal que cada µ(Mk ) é finito. Neste caso, diremos que um ponto x “vai
para infinito”se, para qualquer k, existe apenas um número finito de iterados
de x que estão em Mk .

1.4 Exercı́cios
1.1. Mostre que o seguinte enunciado é equivalente ao Teorema 1.1, isto é,
qualquer um dos dois pode ser deduzido a partir do outro: Seja f : M → M
16 CAPÍTULO 1. TEOREMA DE RECORRÊNCIA DE POINCARÉ

uma transformação mensurável e µ uma medida invariante finita. Seja E ⊂ M


qualquer conjunto mensurável com µ(E) > 0. Então existe N ≥ 1 e um conjunto
D ⊂ E com medida positiva, tal que f N (x) ∈ E para todo ponto x ∈ D.
1.2. Suponha que f : M → M é invertı́vel e que µ é uma medida σ-finita
invariante por f . Mostre que, dado qualquer conjunto mensurável E ⊂ M com
µ(E) > 0, quase todo ponto x ∈ E ou regressa a E ou “vai para infinito”.
Dica: Considere o conjunto E 0,k dos pontos x ∈ E que nunca regressam a E
e têm um número infinito de iterados em Mk . Comece por mostrar que os seus
iterados f n (E 0,k ) são dois-a-dois disjuntos. Usando que µ(Mk ) é finito, deduza
que µ(E k,0 ) = 0 para todo k.
Capı́tulo 2

Exemplos de Medidas
Invariantes

Nesta capı́tulo vamos descrever alguns exemplos simples de medidas invariantes


por transformações ou por fluxos. Antes porém, vamos mostrar uma proposição
caracterizando quando uma medida é invariante:

Proposição 2.1. Seja f : M → M uma transformação e µ uma medida. Então


f preserva µ se, e somente se, para toda função integrável φ : M → R vale:

φ dµ = φ ◦ f dµ.

Demonstração. Assuma que f preserva a medida µ. Se φ é função caracterı́stica


−1
 algum conjunto, digamos φ = χA , é imediato verificar que µ(f (A)) =
de
φ ◦ f dµ, já que χf −1 (A) = φ ◦ f . Assim, fica provado que φ dµ = φ ◦ f dµ,
quando φ é uma função caracterı́stica. Observe que segue diretamente da lin-
earidade da integral que se φ é uma função simples, então a igualdade ainda vale.
Finalmente, se φ é uma função integrável qualquer, pela definição de integral

φ dµ = lim φn dµ,
n→∞

onde φn é uma sequência de funções simples crescendo para φ. Por outro lado,
φn ◦ f é uma sequência de funções simples crescendo para φ ◦ f . Logo,

φ ◦ f dµ = lim φn ◦ f dµ.
n→∞

 
Como φn dµ = φn ◦ f dµ, tomando o limite em ambos os lados, vem que

φ dµ = φ ◦ f dµ.
18 CAPÍTULO 2. EXEMPLOS DE MEDIDAS INVARIANTES

A recı́proca é imediata, desde que dado um boreliano A, tomando φ = χA , então



µ(A) = µ(f −1 (A)) ⇔ φ dµ = φ ◦ f dµ.

2.1 Expansão decimal


O nosso primeiro exemplo é

f : [0, 1] → [0, 1], f (x) = 10x − [10x]

onde [10x] representa o maior inteiro menor ou igual a 10x. Em outras palavras,
f associa a cada x ∈ [0, 1] a parte fracionária de 10x. O gráfico da transformação
f está descrito na Figura 2.1.

0 2/5 4/5 6/5 8/5 1

Figura 2.1: Transformação parte fracionária de 10x

Afirmamos que a medida de Lebesgue µ no intervalo é invariante pela trans-


formação f , isto é, satisfaz a condição (2). Comecemos por supor que E é um
intervalo. Então, como ilustrado na Figura 2.1, a pré-imagem f −1 (E) consiste
de dez intervalos, cada um deles dez vezes mais curto do que E. Logo, a medida
de Lebesgue de f −1 (E) é igual à medida de Lebesgue de E. Isto mostra que (2)
é satisfeita no caso de intervalos. Por outro lado, a famı́lia dos intervalos gera a
σ-álgebra de Borel de [0, 1]. Portanto, para concluir a demonstração basta usar
o seguinte fato geral (veja o Exercı́cio 2.1):

Lema 2.2. Seja f : M → M uma transformação mensurável e µ uma medida


finita em M . Suponha que existe uma sub-álgebra geradora I da σ-álgebra de
M tal que µ(E) = µ(f −1 (E)) para todo E ∈ I. Então o mesmo vale para todo
conjunto mensurável E, isto é, a medida µ é invariante por f .
2.2. SISTEMAS CONSERVATIVOS 19

Agora vamos explicar como, a partir do fato de que a medida de Lebesgue


é invariante pela transformação f , podemos obter conclusões interessantes e
não-triviais usando o teorema de recorrência de Poincaré.
Comecemos por observar que f tem uma expressão muito simples em termos
de expansões decimais: se x é dado por

x = 0, a0 a1 a2 a3 · · ·

com ai ∈ {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}, então a sua imagem é dada por

f (x) = 0, a1 a2 a3 · · · .

Com isso, fica muito fácil escrever a expressão do iterado n-ésimo, para qualquer
n ≥ 1:
f n (x) = 0, an an+1 an+2 · · · (2.1)
Agora, seja E o subconjunto dos x ∈ [0, 1] cuja expansão decimal começa
com o dı́gito 7, ou seja, tais que a0 = 7. De acordo com o Corolário 1.2, quase
todo elemento de E tem infinitos iterados que também estão em E. Levando
em conta a expressão (2.1), isto quer dizer que existem infinitos valores de n
tais que an = 7. Portanto, provamos que quase todo número x cuja expansão
decimal começa por 7 tem infinitos dı́gitos iguais a 7!
Claro que no lugar de 7 podemos considerar qualquer outro dı́gito. Além
disso, podemos considerar blocos de dı́gitos mais complicados. Veja os Ex-
ercı́cios 2.2–2.3.
Mais tarde iremos provar resultados mais fortes: para quase todo número
x ∈ [0, 1], todo dı́gito aparece com frequência 1/10 na sua expansão decimal.
O enunciado preciso aparecerá na Proposição 5.2, que será provada a partir do
teorema ergódico de Birkhoff.

2.2 Sistemas conservativos


Seja U um aberto em algum espaço euclidiano Rd , d ≥ 1 e seja f : U → U
um difeomorfismo de classe C 1 . Isto quer dizer que f é uma bijeção e tanto ele
quanto a sua inversa são deriváveis com derivada contı́nua.
Representaremos por vol a medida de Lebesgue, ou volume, em Rk . Em
outras palavras,

vol(B) = dx1 . . . dxd e ϕ d vol = ϕ(x1 , . . . , xd ) dx1 . . . dxd
B B B

para qualquer conjunto mensurável B e qualquer função integrável ϕ.


A fórmula de mudança de variáveis afirma que, para qualquer conjunto men-
surável B ⊂ U ,
vol(f (B)) = | det Df | d vol (2.2)
B
Daqui se deduz facilmente
20 CAPÍTULO 2. EXEMPLOS DE MEDIDAS INVARIANTES

Lema 2.3. Um difeomorfismo f : M → M de classe C 1 deixa invariante o


volume se e somente se o valor absoluto | det Df | do seu jacobiano é constante
igual a 1.
Demonstração. Suponha primeiro que o valor absoluto do jacobiano é igual 1
em todo ponto. Considere um conjunto mensurável E e seja B = f −1 (E). A
fórmula (2.2) dá que

vol(E) = 1 d vol = vol(B) = vol(f −1 (E)).
B

Isto significa que f deixa invariante o volume e, portanto, provamos a parte


“se”do enunciado.
Para provar a parte “somente se”, suponha que | det Df | fosse maior que 1 em
algum ponto x. Então, como o jacobiano é contı́nuo, existiria uma vizinhança
U de x e algum número σ > 1 tais que

| det Df (y)| ≥ σ para todo y ∈ U.

Então a fórmula (2.2) aplicada a B = U daria



vol(f (U )) ≥ σ d vol ≥ σ vol(U ).
U

Denotando E = f (U ), isto implica que vol(E) > vol(f −1 (E)) e, portanto, f não
deixa invariante o volume. Do mesmo modo se mostra que se o valor absoluto
do jacobiano é menor que 1 em algum ponto então f não deixa invariante o
volume.
Os Exercı́cios 2.4–2.5 estendem este lema para transformações não necessari-
amente invertı́veis e também para uma classe mais ampla de medidas. As suas
conclusões nos serão úteis mais tarde.
Agora vamos considerar o caso de fluxos f t : U → U , t ∈ R. Suporemos que
o fluxo é de classe C 1 . Claro que o Lema 2.3 se aplica neste contexto: o fluxo
deixa invariante o volume se e somente se

det Df t (x) = 1 para todo x ∈ U e todo t ∈ R. (2.3)

Façamos duas observações simples antes de prosseguirmos. A primeira é que


segue da definição de fluxo que todo f t é invertı́vel (um difeomorfismo, neste
caso): a sua inversa é f −t . A segunda observação é que o jacobiano de f t é
sempre positivo. Isso é claro quando t = 0 porque, outra vez por definição de
fluxo, f 0 é a identidade. Segue que o mesmo é verdade para todo t ∈ R, porque
o jacobiano varia continuamente com t e, como acabamos de ver, nunca se anula.
Embora a resposta que acabamos de dar esteja inteiramente correta, ela não
é muito útil na prática porque em geral não temos uma expressão explı́cita para
f t , e portanto não é claro como verificar a condição (2.3). Felizmente, existe
uma expressão razoavelmente explı́cita para o jacobiano, de que iremos falar em
seguida, que pode ser usada em muitas situações interessantes.
2.3. DESLOCAMENTOS (“SHIFTS”) DE BERNOULLI 21

Suponhamos que o fluxo f t corresponde às trajetórias de um campo de


vetores F : U → U de classe C 1 , quer dizer f t (x) é o valor no tempo t da
solução da equação diferencial
dx
= F (x) (2.4)
dt
(quando tratando de equações diferenciáveis sempre suporemos que as suas
soluções estão definidas para todo tempo). A fórmula de Liouville exprime
o jacobiano de f t em termos do divergente div F do campo de vetores F :

 t 
det Df t (x) = exp div F (f s (x)) ds .
0

Lembre que o divergente de um campo de vetores F é o traço da sua matriz


jacobiana, isto é
∂F ∂F
div F = + ···+ . (2.5)
∂x1 ∂xd
Combinando esta fórmula com (2.3) obtemos
Lema 2.4. O fluxo f t associado a um campo de vetores F de classe C 1 deixa
invariante o volume se e somente se o divergente de F é identicamente nulo.

O Exercı́cio 2.6 é uma aplicação deste fato no caso, muito importante, de


fluxos hamiltonianos.

2.3 Deslocamentos (“shifts”) de Bernoulli


Estes sistemas modelam sequências de experimentos aleatórios em que o re-
sultado de cada experimento é independente dos demais. Supõe-se que em
cada experimento há um número finito de resultados possı́veis, designados por
1, 2, . . . , d, com probabilidades p(1), p(2), . . . , p(d) de ocorrerem, sendo

p(1) + p(2) + · · · + p(d) = 1 .

O conjunto M das sequências α = (αn )n∈Z com cada αn ∈ {1, 2, . . . , d} contém


os possı́veis resultados da sequência de experimentos. Chamam-se cilindros os
subconjuntos da forma

[k, l; ak , . . . , al ] = {α ∈ M : αk = ak , . . . , αl = al }

onde k, l ∈ Z, com k ≤ l, e cada aj ∈ {1, 2, . . . , d}. Definimos

µ([k, l; ak , . . . , al ]) = p(ak ) · · · p(al ) (2.6)

Heuristicamente, isto significa que a probabilidade do evento composto

αk = ak e αk+1 = ak+1 e ··· e αl = al


22 CAPÍTULO 2. EXEMPLOS DE MEDIDAS INVARIANTES

é o produto das probabilidades de cada um deles. Isto traduz, precisamente,


que os resultados sucessivos são independentes entre si.
Consideramos em M a σ-álgebra B gerada pelos cilindros. A famı́lia B0 das
uniões disjuntas finitas dos cilindros é uma álgebra (por convenção, M é um
cilindro e µ(M ) = 1). Estendemos µ de modo a que seja finitamente aditiva: se
E ∈ B0 é a união disjunta de cilindros C1 , . . . , CN , definimos

µ(E) = µ(C1 ) + · · · + µ(CN ).

Verifica-se que esta função µ é, de fato, σ-aditiva em B0 ; por exemplo, isso pode
ser feito usando o Teorema 0.10. Portanto existe uma única probabilidade na
σ-álgebra B gerada por B0 que é uma extensão de µ, isto é, que coincide com
ela restrita a B0 . Chamamos essa probabilidade medida de Bernoulli definida
por p(1), p(2), . . . , p(d) e, para não complicar desnecessariamente a notação, a
representamos também por µ.
No espaço M consideramos a transformação deslocamento (“shift”) à es-
querda  
f : M → M f (αn )n∈Z = (αn+1 )n∈Z
que corresponde a fazer uma translação no tempo. Observe que a medida de
Bernoulli é invariante por essa transformação. De fato, se E = [k, l; ak , . . . , al ]
então f −1 (E) = [k + 1, l + 1; ak , . . . , al ] e a definição (2.6) dá que

µ(E) = µ(f −1 (E))

neste caso. Como a famı́lia dos cilindros gera a σ-álgebra B, isto juntamente
com o Lema 2.2, prova que a medida µ é invariante para f .

2.4 Transformação de Gauss


A transformação de Gauss G : (0, 1] → [0, 1] é definida por G(x) = parte
fracionária de 1/x, ou seja,
 
1 1
G(x) = − .
x x

O gráfico de G pode ser esboçado facilmente, a partir da seguinte observação.

• Se x ∈ (1/2, 1] então 1/x ∈ [1, 2) e portanto a sua parte inteira [1/x] é


igual a 1. Isto quer dizer que neste intervalo a transformação é dada por
G(x) = (1/x) − 1.
• Mais geralmente, se x ∈ (1/(k + 1), 1/k) para algum k ∈ N então a parte
inteira de 1/x é igual a k, e tem-se G(x) = 1/x − k. Veja também a
Figura 2.2.

Note que G não está definida no ponto x = 0. Além disso, G(1/k) = 0 para
todo k ∈ N e portanto o segundo iterado G2 (1/k) não está definido nestes pontos
2.4. TRANSFORMAÇÃO DE GAUSS 23

...

0 1/4 1/3 1/2 1

Figura 2.2: Transformação de Gauss

(e o terceiro iterado não está definido nas suas pré-imagens, etc). Isto quer dizer,
a rigor, que G não é um sistema dinâmico segundo a definição que demos antes.
No entanto, isto não coloca nenhum problema para o que pretendemos fazer. De
fato, todos os iterados estão bem definidos no conjunto dos números irracionais:
basta observar que a imagem de um irracional também é irracional. Isto é
suficiente para os nossos objetivos porque sempre tratamos de propriedade que
valem para quase todo ponto, e o conjunto dos números irracionais tem medida
de Lebesgue total no intervalo.
O que torna esta transformação interessante do ponto de vista ergódico é que
G admite uma probabilidade invariante que é equivalente à medida de Lebesgue
no intervalo. De fato, considere a medida definida por

c
µ(E) = dx para cada mensurável E ⊂ [0, 1]
E 1+x

onde c é uma constante positiva. Note que a integral está bem definida, já que
a função integranda é contı́nua no intervalo [0, 1]. Note também que
c
m(E) ≤ µ(E) ≤ cm(E) para todo mensurável E ⊂ [0, 1].
2
Em particular, µ é de fato equivalente à medida de Lebesgue m: as duas medidas
têm os mesmos conjuntos com medida nula.
Proposição 2.5. A medida µ é invariante por G. Além disso, se escolhermos
c = 1/log2 então µ é uma probabilidade.
Demonstração. Vamos usar o critério dado pelo exercı́cio 2.5: a medida µ é
invariante por G se tivermos
ρ(x) c
= ρ(y) onde ρ(x) = (2.7)
|G (x)| 1+x
x∈f −1 (y)
24 CAPÍTULO 2. EXEMPLOS DE MEDIDAS INVARIANTES

para todo y. Comece por observar que cada y tem exatamente uma pré-imagem
xk em cada intervalo (1/(k + 1), 1/k], dada por

1 1
G(xk ) = −k =y ⇔ xk = .
xk y+k

Note também que G (x) = (1/x) = −1/x2 . Portanto, (2.7) se reescreve como



cx2k c 1 c
= ⇔ = (2.8)
1 + xk 1+y (y + k)(y + k + 1) 1+y
k=1 k=1

Para verificar que esta igualdade é realmente satisfeita, observe que


1 1 1
= − .
(y + k)(y + k + 1) y+k y+k+1

Isto quer dizer que a última soma em (2.8) pode ser escrita na forma teles-
cópica: todos os termos, exceto o primeiro, aparecem duas vezes, com sinais
contrários, e portanto se cancelam. Logo a soma é igual ao primeiro termo, que
é precisamente o que se afirma em (2.8). Isto prova a invariância.
Finalmente, usando a primitiva c log(1 + x) da função ρ(x) vemos que
1
c
µ([0, 1]) = dx = c log 2.
0 1+x

Logo, escolhendo c = 1/ log 2 obtemos que µ é uma probabilidade.

A transformação de Gauss tem um papel muito importante em teoria dos


números, devido à sua relação com o processo de expansão dos números em
fração contı́nua. Recordemos do que se trata.
Dado um número x0 ∈ (0, 1), seja
 
1 1
a1 = e x1 = − a1 = G(x0 ).
x0 x0

Note que a1 é um número natural, x1 ∈ [0, 1) e tem-se

1
x0 = .
a1 + x1
Agora, supondo que x1 seja diferente de zero, podemos repetir o processo,
definindo  
1 1
a2 = e x2 = − a2 = G(x1 ).
x1 x1
Então
1 1
x1 = portanto x0 = .
a1 + x2 1
a1 +
a2 + x2
2.4. TRANSFORMAÇÃO DE GAUSS 25

Por recorrência, para cada n ≥ 1 tal que xn−1 ∈ (0, 1) se define


 
1 1
an = e xn = − an = G(xn−1 )
xn−1 xn−1
e tem-se
1
x0 = . (2.9)
1
a1 +
1
a2 +
1
···+
an + xn
Não é difı́cil mostrar (verifique!) que a sequência
1
zn = .
1
a1 +
1
a2 +
1
··· +
an
converge para x0 quando n → ∞, e é usual traduzir este fato escrevendo
1
x0 = , (2.10)
1
a1 +
1
a2 +
1
···+
1
an +
···
que é chamada expansão em fração contı́nua de x0 .
Note que a sequência zn consiste de números racionais. De fato se mostra que
estes são os números racionais que melhor aproximam o número x0 , no sentido
de que zn está mais próximo de x0 do que qualquer outro número racional
com denominador menor ou igual que o denominador de zn (escrito em forma
irredutı́vel). Observe também que para obter (2.10) supusemos que xn ∈ (0, 1)
para todo n ∈ N. Se encontramos algum xn = 0, o processo para nesse momento
e consideramos (2.9) a expansão em fração contı́nua de x0 . Claro que este último
caso ocorre somente se x0 é um número racional.
Estas idéias de Teoria Ergódica podem ser usadas para obter conclusões não
triviais em Teoria dos Números. Por exemplo (veja o Exercı́cio 2.7), para quase
todo número x0 ∈ (1/8, 1/7) o número 7 aparece infinitas vezes na sua expansão
em fração contı́nua, isto é, tem-se an = 7 para infinitos valores de n ∈ N.
De fato, mais tarde provaremos um fato muito mais preciso: para quase todo
x0 ∈ (0, 1) o número 7 aparece com frequência
1 64
log
log 2 63
na sua expansão em fração contı́nua. Tente intuir desde já de onde vem este
número!
26 CAPÍTULO 2. EXEMPLOS DE MEDIDAS INVARIANTES

2.5 Exercı́cios
2.1. Demonstre o Lema 2.2. Dica: mostre que a famı́lia de todos os conjuntos
E tais que µ(E) = µ(f −1 (E)) é uma σ-álgebra.
2.2. Prove que, para quase todo número x ∈ [0, 1] cuja expansão decimal contém
o bloco 617 (por exemplo x = 0, 3375617264 · · · ), esse bloco aparece infinitas
vezes na expansão.
2.3. Prove que o dı́gito 7 aparece infinitas vezes na expansão decimal de quase
todo número x ∈ [0, 1]. Dica: Comece por mostrar que o conjunto dos números
cuja expansão decimal nunca exibe o dı́gito 7 tem medida nula.
2.4. Suponha que f : U → U é um difeomorfismo local (isto é: o seu jacobiano
é não nulo em todo ponto) de classe C 1 . Mostre que f deixa invariante o volume
se e somente se
1
= 1 para todo y ∈ U.
−1
| det Df (x)|
x∈f (y)

2.5. Dada uma função  ρ : U → [0, ∞), denotamos por µ = ρ vol a medida
definida por µ(E) = E ρ d vol. Suponha que f : U → U é um difeomorfismo
local de classe C 1 e que ρ é uma função contı́nua. Mostre que f deixa invariante
a medida µ = ρ vol se e somente se
ρ(x)
= ρ(y) para todo y ∈ U.
−1
| det Df (x)|
x∈f (y)

Em particular, no caso em que f é invertı́vel, f deixa invariante a medida µ se


e somente se ρ(x) = ρ(f (x))| det Df |(x) para todo x ∈ U .
2.6. Seja U um aberto de R2d e H : U → R uma função de classe C 2 . De-
notamos as variáveis em R2d por (p1 , q1 , . . . , . . . , pd , qd ). O campo de vetores
hamiltoniano associado a H é definido por
 
∂H ∂H ∂H ∂H
F (p1 , . . . , pd , q1 , . . . , qd ) = ,..., ,− ,...,− .
∂q1 ∂qd ∂p1 ∂pd
Verifique que o fluxo definido por F preserva o volume.
2.7. Para (Lebesgue) quase todo número x0 ∈ (1/8, 1/7) o número 7 aparece
infinitas vezes na sua expansão em fração contı́nua, isto é, tem-se an = 7 para
infinitos valores de n ∈ N.
2.8. Considere a sequência 1, 2, 4, 8, . . . , an = 2n , . . . . Mostre que dado um
dı́gito i ∈ 0, . . . , 9, existe uma quantidade infinita de valores n tal que an começa
com este dı́gito.
2.9. Mostre que se A é uma matriz n × n com coeficientes inteiros, então a
¯ preserva a
transformação induzida [A] : Πn → P in definida por [A](x̄) = A(x)
n
medida de Lebesgue de Π .
2.10. Mostre que o deslocamento σ definido na Secção 2.3 é transitivo e que o
conjunto de suas órbitas periódicas é denso.
Capı́tulo 3

Existência de Medidas
Invariantes

Nesta capı́tulo provaremos o seguinte resultado, que garante a existência de


medidas invariantes em grande generalidade:
Teorema 3.1. Seja f : M → M uma transformação contı́nua num espaço
métrico compacto. Então existe pelo menos uma probabilidade invariante por
f . O mesmo resultado vale para fluxos.
Antes de demonstrarmos este resultado, mencionemos alguns exemplos que
mostram que nenhuma das duas hipóteses, continuidade e compacidade, podem
ser omitidas.

3.1 Alguns exemplos simples


Considere f : (0, 1] → (0, 1] dada por f (x) = x/2. Suponha que f admite
alguma probabilidade invariante (o objetivo é mostrar que isso não acontece).
Pelo Teorema de Recorrência 1.3, relativamente a essa probabilidade quase todo
ponto de (0, 1] é recorrente. Mas é imediato que não existe nenhum ponto recor-
rente: a órbita de qualquer x ∈ (0, 1] converge para zero e, em particular, não
acumula no ponto inicial x. Isto mostra que f é um exemplo de transformação
contı́nua num espaço não compacto que não admite nenhuma medida probabil-
idade invariante.
Modificando um pouco o exemplo, podemos mostrar que o mesmo fenôme-
no pode ocorrer em espaços compactos, se a transformação não é contı́nua.
Considere f : [0, 1] → [0, 1] dada por f (x) = x/2 se x = 0 e f (0) = 1. Pela
mesma razão que antes, nenhum ponto x ∈ (0, 1] é recorrente. Portanto, se
existe alguma probabilidade invariante µ ela tem dar peso total ao único ponto
recorrente que é x = 0. Em outras palavras, µ precisa ser a medida de Dirac δ0
suportada em zero, que é definida por
δ0 (E) = 1 se 0 ∈ E e δ0 (E) = 0 se 0 ∈
/ E.
28 CAPÍTULO 3. EXISTÊNCIA DE MEDIDAS INVARIANTES

Mas a medida δ0 não é invariante por f : tomando E = {0} temos que E tem
medida 1 mas a sua pré-imagem f −1 (E) é o conjunto vazio, que tem medida
nula. Portanto, esta transformação também não tem nenhuma probabilidade
invariante.
O nosso terceiro exemplo é de natureza um pouco diferente. Consideremos
f : [0, 1] → [0, 1] dada por f (x) = x/2. Trata-se de uma transformação contı́nua
num espaço compacto. Logo, pelo teorema que iremos demonstrar, admite
alguma probabilidade invariante. Pelos mesmos argumentos que usamos no
caso anterior, se conclui que de fato há uma única probabilidade invariante, que
é a medida de Dirac δ0 suportada no ponto zero. Note que neste caso δ0 é de
fato invariante.
Mencionamos este último caso para enfatizar as limitações do Teorema de
Existência (que são inerentes à sua grande generalidade): as medidas que ele
garante existirem podem ser bastante triviais; por exemplo, neste caso quando
falamos de “quase todo ponto”estamos nos referindo apenas ao ponto x = 0. Por
isso, um objetivo importante é obter resultados mais sofisticados de existência
de medidas com propriedades adicionais que as tornem mais interessantes, por
exemplo serem equivalentes à medida de Lebesgue.

3.2 A topologia fraca∗ no espaço das medidas


Nesta seção vamos introduzir uma topologia importante no conjunto M1 (M )
das probabilidades borelianas do espaço M , chamada topologia fraca∗ , que
será muito útil para provar o Teorema 3.1. A idéia da definição é a seguinte:
duas medidas estão próximas se dão integrais próximas para muitas funções
contı́nuas. Procuremos exprimir esta idéia de modo preciso.
Dada uma medida µ ∈ M1 (M ), um conjunto finito F = {φ1 , . . . , φN } de
funções contı́nuas φj : M → R, e um número ε > 0, definimos
 
 
V (µ, F, ε) = {η ∈ M1 (M ) :  φj dη − φj dµ < ε para todo φj ∈ F }.

Então a topologia fraca∗ é definida estipulando que estes conjuntos V (µ, F, ε),
com F e ε variável, constituem uma base de vizinhanças da medida µ. O seguinte
lema deveria ajudar a compreender o significado desta topologia:
Lema 3.2. Uma sequência (µn )n∈N em M1 (M ) converge para uma medida
µ ∈ M1 (M ) na topologia fraca∗ se e somente se

φ dµn → φ dµ para toda função contı́nua φ : M → R.

Demonstração. Para provar a parte “somente se”, considere qualquer função


contı́nua φ e forme o conjunto F = {φ}. Como µn → µ, temos que dado
qualquer ε > 0 existe uma ordem a partir n̄ da qual µn está na vizinhança
V (µ, F, ε). Mas isto significa, precisamente, que
 
 
 φ dµn − φ dµ < ε
 
3.2. A TOPOLOGIA FRACA∗ NO ESPAÇO DAS MEDIDAS 29
 
para todo n ≥ n̄. Em outras palavras,
 a sequência φ dµ  n converge para φ dµ.
A recı́proca afirma que se φ dµn converge para φ dµ, para toda função
contı́nua, então dado qualquer F e ε existe uma ordem a partir da qual µn ∈
V (µ, F, ε). Para ver isso, escrevemos F = {φ1 , . . . , φN }. A hipótese garante que
para cada 1 ≤ j ≤ N existe n̄j tal que
 
 
 φj dµn − φ dµ < ε para todo n ≥ n̄j .
 

Tomando n̄ = max{n̄1 , , . . . , n̄N }, temos µn ∈ V (µ, F, ε) para n ≥ n̄.


Outra proposição muito útil que caracteriza a convergência de medidas é
dada na:
Proposição 3.3. Assuma que a sequência µn converge para µ na topologia
fraca∗ . Então:
1. lim sup µn (K) ≤ µ(K) para cada conjunto compacto K ⊂ M ;
n→∞

2. lim inf µn (U ) ≥ µ(U ) para cada conjunto aberto U ⊂ M .


n→∞

Em particular, se o bordo de A tem medida zero, temos que lim µn (A) = µ(A).
n→∞

Demonstração. Seja U um aberto e vamos mostrar o item (b). Tome K um


compacto em U e escolha φ :→ [0, 1] uma função contı́nua qualquer tal que
φ|K ≡ 1 e φ|U c ≡ 0. Por exemplo, basta tomar φ(x) = d(x, U c )/(d(x, K) +
d(x, U c )). Então:

µ(K) ≤ φ dµ = lim φ dµn ≤ lim inf µn (U ).
n→∞ n→∞

Como vale que µ(U ) = sup µ(K), onde o supremo é tomado sobre todos os
K
compactos K ⊂ U provamos o item (b). O item (a) é inteiramente análogo,
observando que µ(K) = inf µ(U ), onde o ı́nfimo é tomado sobre todos os abertos
U contendo K.

As principais propriedades desta topologia de que necessitamos estão dadas


no seguinte
Teorema 3.4. M1 munido da topologia fraca∗ é metrizável e compacto.
Vamos começar por demonstrar a metrizabilidade, isto é, que existe uma
distância d que gera a topologia fraca∗ em M1 (M ). Para isso usamos o resultado
seguinte, cuja prova pode ser encontrada em [Rud87]. Como é usual, denotamos
por C 0 (M ) o espaço das funções contı́nuas φ : M → R, munido da norma da
convergência uniforme:

φ1 − φ2  = sup{|φ1 (x) − φ2 (x)| : x ∈ M }.


30 CAPÍTULO 3. EXISTÊNCIA DE MEDIDAS INVARIANTES

Proposição 3.5. Se M é um espaço métrico então C 0 (M ) tem subconjuntos


enumeráveis densos.
Logo, podemos escolher um subconjunto enumerável F = {φn : n ∈ N}
denso na bola unitária do espaço C 0 (M ). Feito isso, definimos
∞  
1  
d(µ1 , µ2 ) = n  φn dµ1 − φn dµ2  , (3.1)
n=1
2
para qualquer par de medidas µ1 e µ2 .
Proposição 3.6. A expressão d está bem definida, é uma distância, e gera a
topologia fraca∗ em M1 (M ).
Demonstração. Como as funções φ estão na bola unitária de C 0 (M ), ou seja,
sup |φ| ≤ 1, e as medidas µi são probabilidades, o termo geral da soma é limitado
por 2 · 2−n . Isto garante que a série em (3.1) converge.
O único passo não trivial na prova de que d é uma distância é mostrar que
d(µ1 , µ2 ) = 0 ⇒
µ1 = µ2 .

A hipótese d(µ1 , µ2 ) = 0 significa que φj dµ1 = φj dµ2 para toda φj ∈
F . Agora, dada qualquer φ na bola unitária de C 0 (M ) podemos encontrar
uma sequência de elementos de F convergindo uniformemente para φ. Como
consequência, a igualdade continua valendo para φ:

φ dµ1 = φ dµ2 (3.2)

para toda φ na bola unitária de C 0 (M ). Como todo elemento de C 0 (M ) tem


algum múltiplo na bola unitária, isto implica que a igualdade (3.2) é verdadeira
para toda função contı́nua φ. Isto quer dizer que µ1 = µ2 , como pretendı́amos
mostrar.
Para provar que d gera a topologia, devemos mostrar que toda bola B(µ, δ) =
{η ∈ M1 (M ) : d(µ, η) < δ} contém alguma vizinhança V (µ, F, ε) e reciproca-
mente. Dado δ > 0 fixemos N ≥ 1 suficientemente grande para que

δ
2−n <
2
n=N

e consideremos F = {φ1 , . . . , φN } formado pelos primeiros N elementos do


subconjunto enumerável denso. Além disso, consideremos ε = δ/2. Afirmamos
que V (µ, F, ) ⊂ B(µ, δ). De fato

 
ν ∈ V (µ, F, ε) ⇒  φn dµ − φn dν  < ε para todo 1 ≤ n ≤ N



−n 

⇒ 2 φn dµ − φn dν  <
n=1

N ∞

−n
< 2 ε+ 2 · 2−n < δ,
n=1 n=N +1
3.2. A TOPOLOGIA FRACA∗ NO ESPAÇO DAS MEDIDAS 31

o que prova a nossa afirmação.


Reciprocamente, dado F = {ψ1 , . . . , ψN } e ε > 0, selecionemos elementos
φn1 , . . . , φnN distintos de F tais que
ε
φnj − ψj  < para todo 1 ≤ j ≤ N.
4
Fixemos δ > 0 suficientemente pequeno para que 2nj δ < ε/4 para todo 1 ≤ j ≤ N
Afirmamos que B(µ, δ) ⊂ V (µ, F, ε). De fato



 
ν ∈ B(µ, δ) ⇒ 2−n  φn dµ − φn dν  < δ
n=1

 
⇒ φnj dµ − φnj dν  < 2nj δ para todo 1 ≤ j ≤ N

  ε
⇒  ψj dµ − ψj dν  < 2nj δ + < ε for all 1 ≤ n ≤ N,
2
e isto prova a nossa afirmação.
Resta provar que (M1 , fraca∗ ) é um espaço compacto. Na demonstração
vamos utilizar o seguinte resultado clássico, que diz que as integrais são os únicos
operadores lineares positivos no espaço das funções contı́nuas. Um operador
linear diz-se positivo se Φ(ϕ) > 0 para toda função φ positiva em todo ponto.
Uma demonstração deste resultado pode ser encontrada em [Rud87].
Teorema 3.7 (Riesz-Markov). Seja Φ : C 0 (M ) → R qualquer operador linear
positivo. Então existe uma única medida boreliana µ em M tal que

Φ(ϕ) = ϕ dµ para toda ϕ ∈ C 0 (M ).

 Observe que µ é uma probabilidade se e somente se Φ(1) = 1, já que µ(M ) =


1 dµ = Φ(1).
Vamos então provar que o espaço M1 é compacto para esta topologia. Como
já sabemos que o espaço é metrizável, basta provar
Proposição 3.8. Toda sequência (µk )k∈N em M1 (M ) admite alguma sub-
sequência que é convergente na topologia fraca∗ .
Demonstração. Seja F = {φn : n ∈ N} um subconjunto enumerável denso
0
 bola unitária de C (M ). Para cada n ∈ N, a sequência de números reais
na
φn dµk , k ∈ N é limitada por 1. Portanto, para cada n ∈ N existe uma
sequência (kjn )j∈N tal que

φn dµkjn converge para algum número Φn ∈ R quando j → ∞.

Além disso, cada sequência (kjn+1 )j∈N pode ser escolhida como subsequência da
anterior (kjn )j∈N . Definamos j = kjj para cada j ∈ N. Por construção, a menos
32 CAPÍTULO 3. EXISTÊNCIA DE MEDIDAS INVARIANTES

de um número finito de termos, (j )j∈N é uma subsequência de cada uma das
(kjn )j∈N . Logo
φn dµnj → Φn para todo n ∈ N.

Daqui se deduz facilmente que



Φ(ϕ) = lim ϕ dµj existe, para toda função ϕ ∈ C 0 (M ). (3.3)
j

De fato, suponha primeiro que ϕ está na bola unitária de C 0 (M ). Dado qualquer


ε > 0 podemos encontrar φn ∈ F tal que ϕ − φn  ≤ ε. Então

 
 ϕ dµj − φn dµj  ≤ ε


para todo j. Como φn dµj converge (para Φn ), seque que

lim sup ϕ dµj − lim inf ϕ dµj ≤ 2ε.
j j


Como ε é arbitrário, concluı́mos que limj ϕ dµj existe. Isto prova (3.3) quando
a função está na bola unitária. O caso geral reduz-se imediatamente a esse,
substituindo ϕ por ϕ/ϕ. Assim, completamos a prova de (3.3).
Finalmente, é claro que o operador Φ : C 0 (M ) → R definido por (3.3) é
linear e positivo: Φ(ϕ) ≥ min ϕ > 0 para todo função ϕ ∈ C 0 (M ) positiva em
todo ponto. Além disso, Φ(1) = 1. Logo, peloTeorema 3.7, existe alguma prob-
abilidade boreliana µ em M tal que Φ(ϕ) = ϕ dµ para toda função contı́nua
ϕ. Agora a igualdade em (3.3) pode ser reescrita

ϕ = lim ϕ dµj para toda ϕ ∈ C 0 (M ).
j

De acordo com o Lema 3.2, isto quer dizer que a subsequência (µj )j∈N converge
para µ na topologia fraca∗ . Isto completa a demonstração do Teorema 3.4.

3.3 Demonstração do Teorema de Existência


Comecemos por introduzir uma notação útil. Dado f : M → M e qualquer
medida η em M denota-se por f∗ η e chama-se imagem de η por f a medida
definida por
   
f∗ ν E = ν f −1 (E) para cada conjunto mensurável E ⊂ M .

Note que η é invariante por f se e somente se f∗ η = η.


Lema 3.9. A aplicação f∗ : M1 (M ) → M1 (M ) é contı́nua relativamente à
topologia fraca∗ .
3.3. DEMONSTRAÇÃO DO TEOREMA DE EXISTÊNCIA 33

Demonstração. Para mostrarmos o lema acima, basta mostrar que se µn con-


verge para µ na topologia fraca∗ , então para toda função contı́nua φ temos
que
lim φ df∗ µn = φ df∗ µ.
n→∞

De fato, se η uma medida qualquer, afirmamos que



φ df∗ η = φ ◦ f dη.

Com efeito, podemos aproximar φ por uma sequência de funções simples φn com
φn  ≤ φ. Observe que isso implica, em particular, que φn ◦ f  ≤ φ ◦ f .
Observe que se χA é função caracterı́stica, então

−1
χA df∗ η = η(f (A)) = χA ◦ f dη.

Por linearidade, a igualdade acima se estende para as funções simples φn . Para


finalizar, temos que pelo Teorema da Convergência Dominada,

φ df∗ η = lim φn df∗ η = lim φn ◦ f dη = φ ◦ f dη,
n→∞ n→∞

o que termina a prova da afirmação. Para completar a prova do Lema, basta


observar que a função φ ◦ f também é contı́nua, uma vez que f é contı́nua.
Assim,

lim φ df∗ µn = lim φ ◦ f dµn φ ◦ f dµ = φ df∗ µ,
n→∞ n→∞

como querı́amos provar.

Voltando a prova do Teorema de Existência, considere qualquer probabili-


dade ν em M : por exemplo, a medida de Dirac em um ponto qualquer. Forme
a sequência de probabilidades

1 j
n−1
µn = f ν (3.4)
n j=0 ∗

onde f∗j ν é a imagem de ν pelo iterado f j . Pelo Teorema 3.4, esta sequência
tem algum ponto de acumulação: existe alguma subsequência (nj )j∈N e alguma
probabilidade µ ∈ M1 (M ) tais que
nk −1
1
µ = lim µnk = lim f jν . (3.5)
k k nk j=0 ∗

Agora é suficiente provar o seguinte


34 CAPÍTULO 3. EXISTÊNCIA DE MEDIDAS INVARIANTES

Lema 3.10. Todo ponto de acumulação de uma sequência (µn )n∈N é uma prob-
abilidade invariante por f .
Demonstração. A partir de (3.5), e usando o Lema 3.9, obtemos que
nk −1 k −1
 1   1 n  1
nk
f∗ µ = f∗ lim f∗j ν = lim f∗ f∗j ν = lim f∗j ν .
k nk k n k k nk
j=0 j=0 j=1

A expressão do lado direito pode ser reescrita como


k −1
 1 n 
lim f∗j ν − ν + f∗nk ν .
k nk j=0

1 1 nk
Afirmamos que lim ν = 0 e lim f∗ ν = 0. A primeira afirmação é óbvia,
nk
k k nk
e para a segunda basta observar que
1 nk 1 1
f ν(E) = ν(f −nk (E)) ≤
nk ∗ nk nk
para todo conjunto mensurável E ⊂ F . Deste modo obtemos que
nk −1
1
f∗ µ = lim f jν = µ
k nk j=0 ∗

e portanto µ é invariante por f .


Isto completa a demonstração do Teorema de Existência 3.1.
Corolário 3.11 (Teorema de Recorrência de Birkhoff ). Se f : M → M é
uma transformação contı́nua num espaço métrico compacto então f tem algum
ponto recorrente.
Demonstração. Pelo Teorema 3.1, existe alguma probabilidade f -invariante µ.
Por outro lado, todo espaço métrico compacto admite uma base enumerável de
abertos (verifique!). Portanto, podemos aplicar o Teorema 1.3, para concluir
que µ-quase todo ponto é recorrente. Em particular, o conjunto dos pontos
recorrentes é não vazio, conforme foi afirmado.

3.4 Exercı́cios
3.1. Prove a seguinte generalização do Lema 3.10: Seja f : M → M uma
transformação contı́nua num espaço compacto, ν uma probabilidade em M e
(In )n uma sequência de intervalos de números naturais tais que #In converge
para infinito quando n vai para infinito. Então qualquer ponto de acumulação
da sequência
1 j
µn = f∗ ν
#In
j∈In

é uma probabilidade f -invariante.


3.4. EXERCÍCIOS 35

3.2. Dizemos que uma sequência (µn )n∈N de probabilidades converge pontual-
mente (ou fortemente) para µ ∈ M1 (M )

µn (E) → µ(E) para todo conjunto mensurável E ⊂ M.

1. Mostre que se (µn )n∈N converge pontualmente para µ então também con-
verge para µ na topologia fraca∗ . Mostre, através de um exemplo, que a
recı́proca é falsa.
2. Mostre que (µn )n∈N converge para µ na topologia fraca∗ se e somente se
µn (E) → µ(E) para todo conjunto mensurável E ⊂ M cujo bordo ∂E
satisfaz µ(∂E) = 0.
Dica para (2): Dado o mensurável
 E e ε > 0 encontre funções contı́nuas ϕ1 e
ϕ2 tais que ϕ1 ≥ XE ≥ ϕ2 e ϕ1 dµ − ϕ2 dµ < ε.
3.3. Fixe um subconjunto enumerável denso F = {φn : n ∈ N} da bola unitária
de C 0 (M ). Mostre que uma sequência (µk )k∈N de probabilidades em M converge
na topologia fraca para alguma µ ∈ M1 (M ) se e somente se, para todo n ∈ N,

φn dµk converge para φn dµ.

3.4. Seja f1 , f2 , . . . , fN : M → M uma famı́lia finita qualquer de transformações


contı́nuas num espaço métrico compacto que comutam entre si: fi ◦ fj = fj ◦ fi
para todo i e todo j em {1, 2, . . . , N }. Prove que existe alguma probabilidade
µ que é invariante por fi para todo i ∈ {1, 2, . . . , N }.
Definição 3.12. Dizemos que uma transformação f : M → M é unicamente
ergódica se admite exatamente uma probabilidade invariante.
Os exercı́cios a seguir tratam de transformações unicamente ergódicas. Esta
terminologia é justificada pelo Exercı́cio 3.7 abaixo, que afirma que nesse caso a
probabilidade invariante é necessariamente ergódica. No que segue suporemos
que M é um espaço métrico compacto e f : M → M é contı́nua.
3.5. Seja Rα é uma rotação irracional do cı́rculo. Mostre que Rα é unicamente
ergódica.
3.6. Seja f : M → M uma transformação unicamente ergódica. Mostre que se
ϕ : S 1 → R é uma função contı́nua qualquer, então:

1
n−1
j
ϕ̃(x) = lim ϕ(Rα (x))
n→∞ n
j=0

existe em todo ponto e, de fato, o limite é uniforme. Justifique que ϕ̃ é constante


em todo ponto.
Dica: Verifique que a sequência do lado direito é equicontı́nua e use o teorema
de Ascoli-Arzela.
36 CAPÍTULO 3. EXISTÊNCIA DE MEDIDAS INVARIANTES

3.7. Mostre que f é uma transformação unicamente ergódica se e somente se



1
n−1
lim ϕ(f j (x)) = ϕ dµ
n j=0

para toda função contı́nua ϕ : M → R e todo x ∈ M . Obtenha que, se uma


transformação é unicamente ergódica então a sua probabilidade invariante é
ergódica.
Capı́tulo 4

Teorema Ergódico de
Birkhoff

O teorema fundamental da Teoria Ergódica afirma que, para qualquer sub-


conjunto mensurável e para quase todo ponto, existe um tempo médio de per-
manência da órbita do ponto nesse conjunto. Este resultado é devido a von
Neumann, que provou um enunciado mais fraco, e sobretudo a Birkhoff, que o
provou na forma definitiva que iremos estudar.
Em muitos casos, esse tempo médio de permanência é precisamente igual à
medida do subconjunto, ou seja, órbitas tı́picas passam em cada subconjunto um
tempo que é exatamente igual à “importância”que a probabilidade invariante
atribui ao conjunto. Isto é o que se chama de ergodicidade, uma propriedade
que remonta a Boltzmann, e que estudaremos mais tarde.

4.1 Enunciados e comentários


Comecemos por explicar o que entendemos por tempo médio de permanência
de uma órbita num conjunto. Dado x ∈ M e um conjunto mensurável E ⊂ M ,
vamos tomar um certo número (grande) de iterados iniciais da órbita de x e
vamos considerar a fração desses iterados que estão em E:

1  
τn (E, x) = # j ∈ {0, 1, . . . , n − 1} : f j (x) ∈ E .
n
Observe que isto é o mesmo que

1
n−1
τn (E, x) = XE (f j (x)),
n j=0

onde XE designa a função caracterı́stica do conjunto E, isto é, XE (x) = 1 se


x ∈ E e XE (x) = 0 caso contrário.
38 CAPÍTULO 4. TEOREMA ERGÓDICO DE BIRKHOFF

Em seguida, fazemos n ir para infinito e chamamos tempo médio de per-


manência da órbita de x em E o limite destas frações:
τ (E, x) = lim τn (E, x).
n→∞

Em geral, este limite pode não existir. Iremos ver um exemplo desse fato daqui
a pouco. No entanto, o teorema ergódico afirma que, relativamente a qualquer
probabilidade invariante, o limite realmente existe para quase todo ponto:
Teorema 4.1. Seja f : M → M uma transformação mensurável e µ uma
probabilidade invariante por f . Dado qualquer conjunto mensurável E ⊂ M ,
o tempo médio de permanência τ (E, x) existe em µ-quase todo ponto x ∈ M .
Além disso,
τ (E, x) dµ(x) = µ(E).

Antes de passarmos à demonstração deste resultado notável, e a algumas


das suas aplicações, vamos fazer alguns comentários relacionados. O primeiro
deles é que se τ (E, x) existe para um certo ponto x ∈ M então
τ (E, f (x)) = τ (E, x). (4.1)
De fato, por definição,
1
n
τ (E, f (x)) = lim XE (f j (x))
n→∞ n
j=1

1 1 
n−1
= lim XE (f j (x)) − XE (x) − XE (f n (x))
n→∞ n n
j=0
1 
= τ (E, x) + lim XE (x) − XE (f n (x))
n→∞ n

Como a função caracterı́stica é limitada, o último limite é igual a zero. Isto


prova a igualdade (4.1).
O teorema ergódico pode ser enunciado de modo um pouco mais geral:
Teorema 4.2. Seja f : M → M uma transformação mensurável e µ uma
probabilidade invariante por f . Dada qualquer função integrável ϕ : M → R o
limite
1
n−1
ϕ̃(x) = lim ϕ(f j (x))
n→∞ n
j=0

existe em µ-quase todo ponto x ∈ M . Além disso,



ϕ̃(x) dµ(x) = ϕ(x) dµ(x).

Observe que o Teorema 4.1 é o caso particular ϕ = função caracterı́stica XE


do conjunto E. Este enunciado mais geral pode ser provado usando uma versão
um pouco mais elaborada do argumento da seção 4.2, que não apresentaremos
aqui.
4.2. DEMONSTRAÇÃO DO TEOREMA ERGÓDICO 39

4.2 Demonstração do teorema ergódico


A estratégia da prova é a seguinte. Seja E ⊂ M um conjunto mensurável
qualquer. Para cada x ∈ M , definimos

1  
τ (E, x) = lim sup # j ∈ {0, . . . , n − 1} : f j (x) ∈ E
n
1  
τ (E, x) = lim inf # j ∈ {0, . . . , n − 1} : f j (x) ∈ E .
n
Note que, para todo x ∈ M ,

τ (E, f (x)) = τ (E, x) e τ (E, f (x)) = τ (E, x) (4.2)

A justificação é análoga à da relação (4.1).


O principal passo da demonstração consiste em mostrar que

τ (E, x) = τ (E, x) para µ-quase todo ponto x. (4.3)

É claro que τ (E, x) é sempre maior ou igual que τ (E, x). Portanto, para mostrar
(4.3) será suficiente que provemos

τ (E, x) dµ(x) ≤ µ(E) ≤ τ (E, x) dµ(x). (4.4)

Vamos provar a primeira desigualdade em (4.4). A segunda segue de um argu-


mento inteiramente análogo 1 .
Fixemos qualquer ε > 0. Por definição de lim sup, para cada x ∈ M existem
inteiros t ≥ 1 tais que

1  
# j ∈ {0, . . . , t − 1} : f j (x) ∈ E ≥ τ (E, x) − ε. (4.5)
t
Representaremos por t(x) o menor inteiro com esta propriedade. Para tornar a
demonstração mais transparente, consideraremos primeiro o caso particular em
que a função x → t(x) é limitada, isto é,
Caso particular: Existe T ∈ N tal que t(x) ≤ T para todo x ∈ M .
Dado qualquer x ∈ M , definimos uma sequência x0 , x1 , . . . , xs de pontos em
M e uma sequência t0 , t1 , . . . , ts de números naturais, do seguinte modo:

1. Primeiramente, tomamos x0 = x.

2. Supondo que xi já foi definido, tomamos ti = t(xi ) e xi+1 = f ti (xi ).

3. Terminamos quando encontramos xs tal que t0 + t1 + · · · + ts−1 + ts ≥ n.


1 Alternativamente, a segunda desigualdade pode ser deduzida da primeira, aplicada ao

complementar E c , observando que µ(E) = 1 − µ(E c ) e τ (E, x) = 1 − τ (E c , x).


40 CAPÍTULO 4. TEOREMA ERGÓDICO DE BIRKHOFF

Note que todo xi é iterado do ponto x: de fato xi = f t0 +···+ti−1 (x). Apli-


cando (4.2) concluı́mos que τ (E, xi ) = τ (E, x) para todo i. A definição de t(xi )
implica que, dos ti primeiros iterados de xi , pelo menos
 
ti τ (E, xi ) − ε) = ti τ (E, x) − ε) (4.6)

estão em E. Isto vale para cada i = 0, 1, . . . , s − 1. Portanto, pelo menos

(t0 + t1 + · · · + ts−1 )(τ (E, x) − ε)

dos n primeiros iterados de x, estão em E. Além disso, a última regra na


definição das nossas sequências implica que

t0 + t1 + · · · + ts−1 ≥ n − ts ≥ n − T.

Deste modo, mostramos que pelo menos (n − T )(τ (E, x) − ε) dos n primeiros
iterados de x estão em E. Em outras palavras,


n−1
XE (f j (x)) ≥ (n − T )(τ (E, x) − ε) (4.7)
j=0

para todo x ∈ M e todo n ≥ 1. Integrando a relação (4.7), obtemos que


n−1
XE (f j (x)) dµ(x) ≥ (n − T ) τ (E, x) dµ(x) − (n − T )ε.
j=0

Todas as parcelas no membro da esquerda são iguais a µ(E), uma vez que a
probabilidade µ é invariante por f . Portanto, esta desigualdade pode ser escrita
como
nµ(E) ≥ (n − T ) τ (E, x) dµ(x) − (n − T )ε.

Dividindo os dois termos por n e fazendo n ir para infinito, concluı́mos que



µ(E) ≥ τ (E, x) dµ(x) − ε

Como ε > 0 é qualquer, isto implica a primeira desigualdade em (4.4). Isto


termina a demonstração neste caso.
Caso geral: Vamos indicar as modificações que devem ser feitas relativamente
ao caso particular.
Dado ε > 0, começamos por fixar T ≥ 1 suficientemente grande, de modo
que a medida do
B = {y ∈ M : t(y) > T }
seja menor que ε. Em seguida, na definição das sequências substituı́mos a regra
2 por
4.2. DEMONSTRAÇÃO DO TEOREMA ERGÓDICO 41

2a. Se t(xi ) ≤ T , tomamos ti = t(xi ) e xi+1 = f ti (xi ).


2b. Se t(xi ) > T , tomamos ti = 1 e xi+1 = f (xi ).
As regras 1 e 3 permanecem inalteradas. A estimativa referente a (4.6) continua
válida, para os valores de i aos quais se aplica a regra 2a:
i −1
t

XE (f j (xi )) ≥ ti τ (E, x) − ε).
j=0

É claro que esta desigualdade implica a seguinte:


i −1
t i −1
t

XE (f (xi )) ≥ ti τ (E, x) − ε) −
j
XB (f j (xi )). (4.8)
j=0 j=0

A vantagem é que (4.8) é válida também para os valores de i aos quais se aplica
a regra 2b. De fato, nesse caso tem-se ti = 1, o membro da esquerda é maior ou
igual que zero e o membro da direita é menor que zero, uma vez que τ (E, x) é
sempre menor ou igual que 1. Isso significa que, no lugar de (4.7), tem-se


n−1
n−1
XE (f j (x)) ≥ (n − T )(τ (E, x) − ε) − XB (f j (x)).
j=0 j=0

Integrando, como fizemos anteriormente, obtemos



nµ(E) ≥ (n − T ) τ (E, x) dµ(x) − (n − T )ε − nµ(B).

Dividindo por n e fazendo n → ∞, deduzimos que (lembre que µ(B) < ε)



µ(E) ≥ τ (E, x) dµ(x) − ε − µ(B) ≥ τ (E, x) dµ(x) − 2ε.

Como ε > 0 é arbitrário, segue que



µ(E) ≥ τ (E, x) dµ(x).

Isto completa a demonstração do Teorema 4.1.


42 CAPÍTULO 4. TEOREMA ERGÓDICO DE BIRKHOFF

4.3 Exercı́cios
4.1. Considere a transformação f : M → M , f (x) = 10x − [10x] introduzida
na seção 2.1. Considere

x = 0, 335533335555555533333333333333335 . . ..

Ou seja: a expansão decimal de x consiste de blocos de 3s e 5s, alternados, cada


bloco (exceto o segundo) com duas vezes mais dı́gitos que o anterior. Considere
também E = [0, 3, 0, 4). Mostre que
3 2
τ2 (E, x) = 1, τ8 = , ... τ22k−1 (E, x) → ,
4 3
enquanto que
1 3 1
τ4 (E, x) = , τ16 = , ... τ22k (E, x) → ,
2 8 3
e portanto o tempo médio de permanência da órbita de x em E não existe.

4.2. Mostre que, para qualquer função integrável ϕ, a média temporal ϕ̃ satisfaz
ϕ̃ ◦ f = ϕ̃ em µ-quase todo ponto.
Capı́tulo 5

Ergodicidade

Uma transformação f : M → M diz-se ergódica para uma probabilidade invari-


ante µ (também dizemos que a medida µ é ergódica para f , ou que o sistema
(f, µ) é ergódico) se as médias temporais dadas pelo Teorema de Birkhoff 4.2
coincidem em quase todo ponto com as respectivas médias espaciais:

1
n−1
j
lim ϕ(f (x)) = ϕ dµ ,
n→∞ n
j=0

para toda função µ-integrável ϕ : M → R e µ-quase todo x ∈ M .


Na próxima proposição vamos reescrever esta condição de várias maneiras
equivalentes, para ajudar a entender o seu significado. Um conjunto mensurável
A ⊂ M diz-se invariante se f −1 (A) = A. Uma função mensurável ψ : M → R
diz-se invariante se ψ ◦ f = ψ.
Proposição 5.1. Seja µ uma probabilidade invariante de uma transformação
f : M → M mensurável. As seguintes condições são equivalentes:
1. O sistema (f, µ) é ergódico.
2. Para todo subconjunto invariante A tem-se µ(A) = 0 ou µ(A) = 1.
3. Toda função invariante ψ é constante num conjunto de medida total.
Demonstração. (1) implica (2): Considere ϕ = XA . Por um lado, a hipótese
(1) significa que
ϕ̃(x) = ϕ dµ = µ(A)

para quase todo x ∈ M . Por outro lado, como A é invariante, temos que x ∈ A
se e somente se f (x) ∈ A. Isto implica que ϕ(f j (x)) = ϕ(x) para todo j ≥ 0 e
para todo x. Portanto,
ϕ̃(x) = ϕ(x) = XA (x)
para todo x ∈ M . Como a função caracterı́stica só toma os valores 0 e 1, estas
duas igualdades implicam que µ(A) = 0 ou µ(A) = 1, como é afirmado em (2).
44 CAPÍTULO 5. ERGODICIDADE

(2) implica (3): Seja ψ uma função invariante qualquer. Então, a pré-
imagem ψ −1 (I) de qualquer intervalo I ⊂ R é um conjunto invariante. Portanto,
pela hipótese (2), essa pré-imagem tem medida zero ou um. Como o intervalo
I é qualquer, isto prova que ψ é constante num conjunto com probabilidade µ
total.
(3) implica (1): Seja ϕ uma função integrável qualquer. Como vimos no
exercı́cio 4.2, a média temporal ϕ̃ é uma função invariante. Logo, pela hipótese
(3), ϕ̃ é constante em quase todo ponto. Então, usando o teorema ergódico,

ϕ̃(x) = ϕ̃ dµ = ϕ dµ

em quase todo ponto. Isto é, o sistema é ergódico.

5.1 Exemplos e aplicações


Nesta seção descrevemos diversos exemplos de sistemas ergódicos.

5.1.1 Expansão decimal


Considere a transformação f : [0, 1] → [0, 1], f (x) = 10x − [10x] da seção 2.1.
Afirmamos que f é ergódica para a medida de Lebesgue µ. Tendo em vista a
proposição 5.1, para mostrar isto só temos que provar que se A é um conjunto
invariante com medida positiva então A tem medida total.
Suponhamos então que A é invariante e µ(A) > 0. O ingrediente principal
é o teorema de derivação 0.25. No nosso caso, como estamos tratando com
subconjuntos de R, a condição (2) torna-se

 µ(I ∩ A) 
lim inf : I ⊂ (a − ε, a + ε) intervalo contendo a = 1 . (5.1)
ε→0 µ(I)

Fixemos um ponto de densidade a ∈ A qualquer. Consideremos a sequência de


intervalos
 mk mk + 1 
Ik = , , mk ∈ Z, k ∈ N,
10k 10k
que contêm o ponto a. Como a é um ponto de densidade de A, a propriedade
(5.1) implica que
µ(Ik ∩ A)
→ 1 quando k → ∞.
µ(Ik )

Observe também que cada f k é uma bijeção afim de Ik sobre o intervalo (0, 1).
Isso tem a seguinte consequência, que é crucial para o nosso argumento:

µ(f k (E1 )) µ(E1 )


= (5.2)
µ(f k (E2 )) µ(E2 )
5.1. EXEMPLOS E APLICAÇÕES 45

para quaisquer subconjuntos mensuráveis E1 e E2 de Ik . Aplicando este fato a


E1 = Ik ∩ A e E2 = Ik obtemos que
 
µ f k (Ik ∩ A) µ(Ik ∩ A)
  = .
µ (0, 1) µ(Ik )
 
Claro que µ (0, 1) = 1. Além disso, como estamos supondo que A é invariante,
f k (Ik ∩ A) está contido em A. Deste modo obtemos que
µ(Ik ∩ A)
µ(A) ≥ .
µ(Ik )
Como a sequência do lado direito converge para 1, segue que µ(A) = 1, como
querı́amos demonstrar. Ficou provado que a transformação f é ergódica para a
medida de Lebesgue µ.
Em seguida vamos dar uma aplicação deste fato no contexto da Teoria dos
Números. Dizemos que um número x ∈ R é balanceado se todo dı́gito aparece
com a mesma frequência, 1/10, na sua expansão decimal. É fácil dar exemplos de
números balanceados. Mas em geral é muito difı́cil decidir se um dado número
irracional é balanceado ou não. Por exemplo, não é sabido até hoje se o número
π é balanceado.
No entanto, a conclusão da seção anterior nos permite deduzir que quase
todo número é balanceado:
Proposição 5.2. O conjunto dos números x ∈ R não balanceados tem medida
de Lebesgue nula.
Demonstração. Como o fato de ser balanceado é independente da parte inteira
do número, só precisamos mostrar que quase todo x ∈ [0, 1] é balanceado.
Considere f : [0, 1] → [0, 1] definida por f (x) = 10x − [10x]. Para cada dı́gito
j ∈ {0, 1, . . . , 9} considere o intervalo Ej = [j/10, (j + 1)/10). Recorde que
se x = 0, a0 a1 · · · ak ak+1 · · · então f k (x) = 0, ak ak+1 · · · . Portanto, f k (x) ∈
Ej se e somente se o k-ésimo dı́gito da expansão decimal de x é igual a j.
Consequentemente, o tempo médio de permanência τ (Ej , x) é exatamente a
frequência do dı́gito j na expansão decimal de x. Usando o teorema ergódico e o
fato de que a transformação é ergódica para a medida de Lebesgue µ, concluı́mos
que para cada j ∈ {0, 1, . . . , 9} existe um subconjunto Bj de M com µ(Bj ) = 1
tal que
1
τ (Ej , x) = µ(Ej ) = para todo x ∈ Bj .
10
Então B = B0 ∩ B1 ∩ · · · ∩ B9 também tem µ(B) = 1, e todo número x ∈ B é
balanceado.

5.1.2 Deslocamentos (“shifts”) de Bernoulli


Vamos agora voltar a discussão dos deslocamentos de Bernoulli, introduzidos
na Secção 2.3 do Capı́tulo 2. Mostraremos que as medidas de Bernoulli são
ergódicas. Para isso, a seguinte propriedade das medidas de Bernoulli vai ser
útil :
46 CAPÍTULO 5. ERGODICIDADE

Lema 5.3. Se A e B são elementos da álgebra B0 , isto é, uniões finitas de


cilindros disjuntos, então tem-se
µ(A ∩ f −m (B)) = µ(A)µ(f −m (B)) = µ(A)µ(B),
para todo m suficientemente grande.
Demonstração. Expliquemos porque esta propriedade é verdadeira quando A e
B são cilindros, A = [k, l; ak , . . . , al ] e B = [u, v; bu , . . . , bv ]. Para cada m tem-
se f −m (B) = [u + m, v + m; bu , . . . , bv ]. Escolhendo m suficientemente grande
garantimos que u + m > l e, então,
A ∩ f −m (B) = {α : αk = ak , . . . , αl = al , αu+m = bu , . . . , αv+m = bv }

= [k, v + m; ak , . . . , al , cl+1 , . . . , cu+m−1 , bu , . . . , bv ],

onde a união é sobre todos os valores possı́veis de cl+1 , . . . , cu+m−1 . Usando


(2.6), concluı́mos que µ(A ∩ f m (B)) = µ(A)µ(B). Isto prova o lema quando
os conjuntos envolvidos são cilindros. O caso geral segue pelo fato de µ ser
finitamente aditiva.
Proposição 5.4. Seja f : M → M um deslocamento e µ uma medida de
Bernoulli em M , como antes. Então o sistema (f, µ) é ergódico.
Demonstração. Seja A um conjunto mensurável invariante qualquer. Queremos
mostrar que µ(A) = 0 ou µ(A) = 1. Para tornar a ideia da prova mais clara,
comecemos por um caso particular: suponhamos que A está na álgebra B0 das
uniões finitas de cilindros disjuntos dois-a-dois. Nesse caso podemos aplicar o
lema anterior, com B = A. Concluı́mos que µ(A∩f −m (A)) = µ(A)2 sempre que
tomemos m suficientemente grande. Mas, como A é invariante, f −m (A) = A
para todo m. Então a igualdade anterior quer dizer que µ(A) = µ(A)2 , o que
só pode acontecer se µ(A) = 0 ou µ(A) = 1.
Agora vamos fazer a prova quando A ∈ B é um conjunto invariante qualquer.
A ideia é aproximar A por elementos da álgebra B0 , usando o Teorema de
Aproximação 0.11: dado qualquer ε > 0 existe A0 ∈ B0 tal que µ(A∆A0 ) < ε.
Escolha m como no caso anterior, de modo que
µ(A0 ∩ f −m (A0 )) = µ(A0 )µ(f −m (A0 )) = µ(A0 )2 . (5.3)
Observe que
(A ∩ f −m (A))∆(A0 ∩ f −m (A0 )) ⊂ (A∆A0 ) ∪ (f −m (A)∆f −m (A0 ))
⊂ (A∆A0 ) ∪ f −m (A∆A0 ).
Isto, junto com o fato de que µ é invariante por f , implica que
 
µ(A ∩ f −m (A)) − µ(A0 ∩ f −m (A0 )) ≤ 2µ(A∆A0 ) < 2ε. (5.4)
Além disso,
     
µ(A)2 − µ(A0 )2  ≤ (µ(A) + µ(A0 ))(µ(A) − µ(A0 )) ≤ 2µ(A) − µ(A0 ) < 2ε.
(5.5)
5.1. EXEMPLOS E APLICAÇÕES 47

Juntando as relações (5.3), (5.4), (5.5), concluı́mos que |µ(A) − µ(A)2 | < 4ε.
Como ε é arbitrário, deduzimos que µ(A) = µ(A)2 e então, do mesmo modo que
antes, concluı́mos que µ(A) = 0 ou µ(A) = 1.

5.1.3 Rotação irracional no cı́rculo


Para nós o cı́rculo S 1 será o conjunto dos números complexos com módulo igual
a 1. Dado α ∈ R, a rotação de ângulo α é a multiplicação pelo número complexo
eαi
Rα : S 1 → S 1 , Rα (z) = eαi z .
É claro que Rα preserva o comprimento dos intervalos (segmentos) de S 1 . Us-
ando o Lema 2.2 se deduz que a medida de Lebesgue (comprimento de arco) é
invariante por qualquer Rα .
O comportamento dinâmico e ergódico de Rα depende muito da natureza de
α, como vamos ver. Dizemos que a rotação é irracional se o número α/(2π) é
irracional, e dizemos que a rotação é racional no caso contrário.
A recı́proca é muito mais interessante:

Proposição 5.5. Se Rα é rotação irracional então Rα é ergódica para a medida


de Lebesgue.

Vamos mencionar duas demonstrações diferentes deste fato. A primeira, que


detalharemos a seguir, usa fatos simples de análise de Fourier. A segunda, que
deixaremos como exercı́cio, é baseada num argumento de ponto de densidade
semelhante ao que usamos no caso da expansão decimal.
Seja µ a medida de Lebesgue no cı́rculo. Chama-se L2 (µ) o espaço das
funções 1 mensuráveis ψ : S 1 → C cujo quadrado é integrável:

|ψ|2 dµ < ∞.

É claro que este espaço contém todas as funções mensuráveis limitadas e, em


particular, todas as funções caracterı́sticas de conjuntos mensuráveis. Outro
fato de que necessitamos é que a famı́lia de funções {φk (z) = z k : k ∈ Z} é
uma base (de Hilbert) desse espaço: dada qualquer ϕ ∈ L2 (µ) existe uma única
sequência (ck )k∈Z de números complexos tais que

ϕ(z) = ck z k para quase todo z ∈ S 1 .
k∈Z

Demonstração. Pela proposição 5.1, basta mostrar que toda função integrável
ϕ que é invariante é constante em µ-quase todo ponto. Observe que se ϕ é
integrável, então automaticamente ϕ ∈ L2 (µ) (verifique! Utilize que µ é finita).
1 Quando lidamos com L2 (µ) sempre identificamos funções que diferem apenas num con-

junto de medida nula.


48 CAPÍTULO 5. ERGODICIDADE


Usando a expansão de Fourier ϕ(z) = k∈Z ck z k , a condição de ser invariante
ϕ ◦ Rα = ϕ se escreve
ck ekiα z k = ck z k
k∈Z k∈Z

Por unicidade dos coeficientes da expansão em série de Fourier, obtemos que

ck (ekiα − 1) = 0 para todo k ∈ Z.

A hipótese de que a rotação é irracional significa que ekiα − 1 = 0 para todo


k = 0, e portanto, ck = 0 para todo k = 0. Ou seja, ϕ(z) = c0 para µ-quase
todo z ∈ S 1 , como querı́amos provar.

De fato as rotações irracionais satisfazem uma propriedade muito mais forte


do que ergodicidade: elas são unicamente ergódicas, o que quer dizer que têm
uma única probabilidade invariante (que é a medida de Lebesgue, claro).

Observação 5.6. A noção de rotação irracional se estende para dimensões


maiores. Dado qualquer d ≥ 1 chamamos d-toro o produto Td = S 1 × · · · × S 1
do cı́rculo por si mesmo d vezes. A rotação de ângulo α = (α1 , . . . , αd ) é a
aplicação Rα : Td → Td , Rα (z1 , . . . , zd ) = (eiα1 z1 , . . . , eiαd zd ). A rotação é
irracional se os números αj /(2π) são incomensuráveis:
α1 αd
m0 + m1 + · · · + md =0 ⇒ m0 = m1 = · · · = md = 0,
2π 2π
quaisquer que sejam os inteiros m0 , m1 , . . . , md . Usando uma versão multi-
dimensional das idéias anteriores, se prova que uma rotação é ergódica se e
somente se ela é irracional.

5.1.4 Transformação de Gauss


Como vimos na seção 2.4, a transformação de Gauss G(x) = 1/x − [1/x] ad-
mite uma probabilidade invariante que é equivalente à medida de Lebesgue,
nomeadamente,
1 dx
µ(E) =
log 2 E 1 + x
Temos também que o sistema (G, µ) é ergódico. Este fato pode ser demonstrado
pelo mesmo tipo de argumento que usamos na seção 5.1.1. Vamos esboçar o
argumento neste caso, explicando qual é a principal dificuldade adicional.
Seja A um conjunto invariante com medida positiva. Em primeiro lugar, con-
tinua sendo verdade que para quase todo ponto a ∈ [0, 1] existe uma sequência
de intervalos Ik contendo a e tais que f k envia Ik bijetivamente e diferenci-
avelmente sobre (0, 1). O diâmetro desses intervalos converge para zero. Logo,
tomando para a um ponto de densidade qualquer de A, temos que

µ(Ik ∩ A)
→1 quando k → +∞. (5.6)
µ(Ik )
5.1. EXEMPLOS E APLICAÇÕES 49

Por outro lado embora f k seja uma bijeção restrita a cada Ik , ela não é afim.
Por essa razão não temos o análogo da relação (5.2) neste caso. Esta dificuldade
é contornada através do seguinte resultado, que é um exemplo de controle de
distorção: é muito importante notar que a constante K é independente de k,
Ik , E1 , e E2 .
Lema 5.7. Existe uma constante K > 1 tal que para todo k ≥ 1, todo intervalo
Ik tal que G restrita a Ik é uma bijeção diferenciável, tem-se

µ(f k (E1 )) µ(E1 )


k
≤K
µ(f (E2 )) µ(E2 )
para quaisquer subconjuntos mensuráveis E1 e E2 de Ik .
Antes de demonstrarmos o Lema 5.7, explicamos como a ergodicidade de
(G, µ) pode ser obtida a partir dele. Observe que f k (Ik ∩ Ac ) = Ac , porque o
conjunto A é invariante. Lembre também que f k (Ik ) = (0, 1), que tem medida
total. Tomando E1 = Ik ∩ Ac e E2 = Ik no lema 5.7, concluı́mos que

µ(f k (Ik ∩ Ac ) µ(Ik ∩ Ac )


µ(Ac ) ≤ ≤ K .
µ(Ac ) µ(Ik
De acordo com (5.6), a expressão do lado direito converge para zero quando
k → ∞. Logo µ(Ac ) = 0, como querı́amos demonstrar.
Daremos agora a prova do Lema 5.7. As linhas gerais da demonstração,
servirão para concluir um resultado mais geral,apresentado na seção 9.1.
Prova do Lema 5.7. Usaremos os seguintes fatos sobre a transformação f que
podem ser facilmente verificados pelo leitor:

1. Para todo x ∈ (0, 1) vale que |f  (x)| > 1 e |(f 2 ) (x)| ≥ 4.



(x)
2. Existe C1 > 0 tal que | ff  (x) | < C1 .

Observe que a partir do item (1) acima, podemos mostrar que se x, y ∈ Ik


então
1
|f i (x) − f i (y)| ≤ k−i |f k (x) − f k (y)| se i = 0, 1, 2, . . . k. (5.7)
2
Observe também que se x, y ∈ Ik temos que

(f k ) (x) k−1
| log k 
|≤ | log f  (f i (x)) − log f  (f i (y))|.
(f ) (y) i=0

O item (2) nos garante que a função x → log f  (x) tem derivada limitada por C,
logo pelo Teorema do Valor Médio temos que | log f  (a) − log f  (b)| ≤ C1 |a − b|.
Aplicando este fato na desigualdade acima e observando a equação 5.7:

(f k ) (x) k−1 1k−1


| log k 
| ≤ C1 |f i (x) − f i (y)| ≤ C |f k (x) − f k (y)| ≤ C2 ,
k−i 1
(f ) (y) i=0 i=0
2
50 CAPÍTULO 5. ERGODICIDADE

onde C2 é uma constante propriamente escolhida. Logo, tomando K = exp C2 ,


vem que para todos x, y ∈ Ik vale:

(f k ) (x)
< C3 .
(f k ) (y)
Note que a constante C3 escolhida não depende de k nem de Ik . Observe ainda
que se A ⊂ [0, 1] é um conjunto mensurável, então
1 1
m(A) ≤ µ(A) ≤ m(A),
2 log 2 log 2
onde m representa a medida de Lebesgue de [0,1].
Assim, para concluir a prova do Lema 5.7, basta observar que se E1 e E2
são subconjuntos mensuráveis de Ik , então:

µ(f k (E1 )) k
2 m(f (E1 ))
(f k ) (x) dm
= 2(log 2) ≤ E1 ≤
µ(f k (E2 )) m(f k (E2 )) E2
(f k ) (y) dm
m(E1 ) µ(E1 )
2(log 2)2 (C3 )2 ≤ 4(log 2)4 C3 .
m(E2 ) µ(E2 )

Assim, basta tomar K = 4(log 2)4 (C3 )2 e o lema está provado.

5.1.5 Máquina de somar (“adding machine”)


A máquina de somar modela sistemas tais como o contador de quilometragem
de um carro ou o registro de consumo de gás (em algumas cidades): a dinâmica
consiste em fazer avançar o contador de uma unidade. A principal diferença com
relação à realidade é que este contador idealizado comporta infinitos dı́gitos.
Fixe d ≥ 2, que representa a base de numeração (por exemplo, d = 10).
Consideramos o espaço M de todas as sequências

β = (β0 , β1 , β2 , . . . , βk−1 , βk , . . .)

com βj ∈ {0, 1, . . . , d − 1}. Munimos este espaço da seguinte distância



d(β, β  ) = 2−N (β,β ) onde N (β, β  ) = min{j ≥ 0 : βj = βj }.

Também consideramos a transformação f : M → M “soma uma unidade”:


• Para toda sequência com β0 < d − 1, definimos

f (β0 , β1 , β2 , . . . , βk−1 , βk , . . .) = (β0 + 1, β1 , β2 , . . . , βk−1 , βk , . . .).

• Se β0 = d − 1 mas β1 < d − 1, definimos

f (β0 , β1 , β2 , . . . , βk−1 , βk , . . .) = (0, β1 + 1, β2 , . . . , βk−1 , βk , . . .).


5.2. EQUIVALÊNCIA ESPECTRAL 51

• Mais geralmente, se β0 = · · · = βk−1 = d − 1 mas βk < d − 1, definimos


f (β0 , β1 , β2 , . . . , βk−1 , βk , . . .) = (0, 0, 0, . . . , 0, βk + 1, . . .).

• Se βj = d − 1 para todo j ≥ 0, definimos


f (β0 , β1 , β2 , . . . , βk−1 , βk , . . .) = (0, 0, 0, . . . , 0, 0, . . .).

M munido da distância definida em (3.1) é um espaço métrico compacto, e


a transformação f é contı́nua nesse espaço. O exercı́cio 5.7 pede para mostrar
que f é unicamente ergódica e para calcular a (única) probabilidade invariante.

5.2 Equivalência Espectral


Esta subseção trata da caracterização das propriedades dinâmicas de uma me-
dida como propriedades de Álgebra Linear, relacionadas a um certo operador
Uf que iremos definir. Iremos ver, por exemplo, que a invariância da medida
µ equivale ao fato do operador preservar distâncias num espaço adequado de
funções. Veremos também a ergodicidade como uma propriedade espectral do
sistema (f, µ), no sentido de que ela pode ser caracterizada pelos auto-valores
do operador Uf .

5.2.1 O Espaço L2 (µ)


Para definir o operador Uf , precisamos primeiro definir seu domı́nio, o espaço
de funções L2 (µ):
Definição 5.8. O espaço vetorial L2 (µ) é definido como o conjunto

L2 (µ) = {ϕ : M → R; |ϕ|2 dµ < ∞},

onde duas funções são identificadas se elas coincidem em quase todo ponto com
respeito à medida µ.
Podemos munir este espaço vetorial com um produto interno dado por:

< ϕ, ψ >= ϕ.ψ dµ.

Segue da desigualdade de Hölder e das propriedades da integral que a expressão


acima de fato define um produto interno em L2 (µ). Naturalmente, uma vez que
temos um produto interno em L2 (µ), podemos definir uma norma por:

ϕ2 = < ϕ, ϕ >.
Além disso, podemos munir L2 (µ) com a métrica que provém do produto interno
<, > definida por:
  12
2
d(ϕ, ψ) = ϕ − ψ2 = |ϕ − ψ| dµ . (5.8)
52 CAPÍTULO 5. ERGODICIDADE

É clássico da Análise Funcional que o espaço L2 (µ) com a métrica d é


um espaço métrico completo. Deixaremos tal verificação para o leitor no ex-
ercı́cio ??.
Defiremos agora a transformação linear que carrega algumas propriedades
métricas do sistema (f, µ). Considere Uf : L2 (µ) → L2 (µ) definida simples-
mente como:
Uf (ϕ) = ϕ ◦ f.
É imediato verificar que Uf é uma transformação linear. A próxima proposição
traz a primeira tradução entre propriedades de (f, µ) e propriedades da trans-
formação Uf .
Proposição 5.9. Seja f uma transformação e µ uma medida em M . f preserva
µ se, e só se, para toda ϕ ∈ L2 (µ):
Uf ϕ2 = ϕ2 . (5.9)
Demonstração. De fato, primeiramente observe que se f preserva a medida
µ então para todo Boreliano A vale µ(A) = µ(f −1 (A)). Em particular, a
igualdade (5.9) vale se ϕ for uma função caracterı́stica de um boreliano. Uti-
lizando a linearidade da integral, podemos estender nossa conclusão para todas
funções simples. Para concluir a demonstração da propriedade (5.9) observe
que L2 (µ) ⊂ L1 (µ). Com efeito, se φ ∈ L2 (µ), aplicando
 a desigualdade de
Hölder às funções φ e 1, temos que φ dµ ≤ φ2 dµ < ∞. Como toda
função ψ em L1 (µ) pode ser aproximada por uma sequência monótona ψn de
funções simples, dada ϕ ∈ L2 (µ), tomando uma sequência de funções simples
sn convergindo monotonamente para ϕ e utilizando o Teorema da Convergência
Monótona para as sequência sn e sn ◦ f , temos que:

ϕ ◦ f dµ = lim sn ◦ f dµ = lim sn dµ = ϕ dµ.
n→∞ n→∞

Reciprocamente, provaremos este fato primeiramente para as funções contı́nuas



não-negativas. Se ϕ ≥ 0 é função contı́nua, tomando ψ = ϕ temos que
ψ ∈ L2 (µ), pois ψ é limitada e µ é uma probabilidade. Como estamos assu-
mindo que ψ ◦ f 2 = ψ2 , temos que:

ψ ◦ f  dµ = ϕ ◦ f dµ = ϕ dµ = ψ2 dµ.
2

Para provarmos que a igualdade acima vale quanto ϕ é uma função contı́nua
qualquer, basta observarmos que toda função contı́nua se escreve como diferença
de duas funções positivas limitadas e aplicarmos a igualdade obtida a estas
funções. Assim, utilizando a Proposição 2.1, temos que f preserva µ.

Em palavras da Álgebra Linear, a igualdade (5.9) acima, significa que Uf


é uma isometria do espaço L2 (µ). Em particular, esta propriedade implica
diretamente que Uf é uma transformação linear injetiva, pois se
ϕ2 > 0 ⇒ Uf ϕ2 = ϕ2 > 0.
5.2. EQUIVALÊNCIA ESPECTRAL 53

Porém, Uf só é sobrejetiva se f for invertı́vel (veja o Exercı́cio ??).


Observe que 1 é sempre um autovalor de Uf e a esse autovalor temos associ-
ado um auto-espaço que sempre contém as funções constantes. A Proposição 5.1
diz que a propriedade da medida µ ser ergódica equivale ao fato de que as únicas
funções invariantes por Uf são as funções constantes ou, em outros termos, a
dimensão do auto-espaço associado ao auto-valor 1 é igual a um. Isso justifica
a afirmação de que a ergodicidade é uma propriedade espectral.
Vamos estabelecer quando duas tranformações f : M → M e g : N → N
preservando medidas µ e ν são equivalentes do ponto de vista espectral. Isto
nos permitirá extrair informações sobre as propriedades espectrais do sistema
(f, µ) a partir das propriedades espectrais do sistema (g, µ) e vice-versa.
Definição 5.10. Sejam f : M → M preservando µ e g : N → N preservando
ν. Dizemos que (f, µ) e (g, µ) são espectralmente equivalentes se existir uma
transformação linear invertı́vel A : L2 (µ) → L2 (ν) tal que:
1. < Aϕ, Aψ >=< ϕ, ψ >;
2. AUf = Ug A.
Deixaremos para o leitor no Exercı́cio ?? a verificação de que a relação
definida acima é de fato uma relação de equivalência.
Se (f, µ) e (g, ν) são espectralmente equivalentes e A é uma equivalência
espectral, se ϕ é auto-função de Uf associada ao auto-valor λ, então Aϕ é auto-
função de Ug associada ao auto-valor λ. De fato, Uf (ϕ) = λϕ ⇒ Ug A(ϕ) =
AUf (ϕ) = λAϕ.
Assim, o auto-espaço F1 associado ao auto-valor 1 para operador Ug é sim-
plesmente a imagem por A do auto-espaço E1 associado ao auto-valor 1 para
Uf . Como A é um isomorfismo linear, a dimensão de F1 é igual dimensão de
E1 . Segundo a observação que (f, µ) é ergódica se a dimensão do auto-espaço
associado ao auto-valor 1 é igual a 1, podemos afirmar que se (f, µ) e (g, ν)
são espectralmente equivalentes, então (f, µ) é um sistema ergódico se, e só se,
(g, ν) é ergódico.
Exemplo 5.11. Considere f : [0, 1] → [0, 1] a função definida por f (x) = 2x
mod 1 preservando a medida de Lebesgue m e seja σ : Σ+ +
2 → Σ2 o deslocamento
+ Z
no espaço Σ2 = {0, 1} preservando a medida de Bernoulli associada ao vetor
(1/2, 1/2). Mostraremos que (f, m) e (σ, ν) são espectralmente equivalentes.
Realmente, para cada função φ ∈ L2 (m) associaremos uma função Φ = Aφ ∈
2
L (ν) definida por
Φ(a0 , a1 , a2 , . . . ) = φ(0, a0 a1 a2 . . . )
Claramente A é uma transformação linear. A também é invertı́vel, pois podemos
definir A−1 por
Ψ → A−1 Ψ(0, a0 a1 a2 , . . . ) = Ψ(a0 , a1 , a2 , . . . ).
Estritamente, para que A−1 Ψ esteja bem definida, devemos fazer uma escolha
do valor de A−1 Ψ nos pontos x que podem ser escritos de dois modos distintos
54 CAPÍTULO 5. ERGODICIDADE

na base dois. Por exemplo, o ponto x = 0, 01111 . . . também pode se escrever


como x = 0, 1. Porém, como o conjunto dos pontos que podem ser escritos de
dois modos distintos é enumerável, e portanto, com medida de Lebesgue igual
à zero, podemos definir A−1 Ψ de um modo arbitrário nestes pontos, uma vez
que duas funções em L2 (m) são iguais se elas coincidem em quase todo ponto.
Assim, A−1 Ψ está bem definida.
Para mostrar que A é uma equivalência espectral, note que segue da definição
de ν que
AφAψ dν = ΦΨ dν = φψ dm.

Finalmente, a condição de que AUf = Uσ A é imediata, a partir da definição


de A. De fato, se φ ∈ L2 (m), temos que Uf φ(0, a0 a1 a2 . . . ) = φ(0, a1 a2 a3 . . . ).
Logo,

AUf φ(0, a0 a1 a2 . . . ) = Aφ(0, a1 a2 . . . ) = Φ(a1 , a2 , . . . ) =


Φ(σ(a0 , a1 , . . . )) = Uσ Φ(a0 , a1 , . . . ) = Uσ Aφ(a0 , a1 , . . . ).

5.3 Propriedades de medidas ergódicas


Fixemos uma transformação f : M → M qualquer. Lembre que uma medida
ν diz-se absolutamente contı́nua com relação a outra medida µ se µ(E) = 0
implica ν(E) = 0. O próximo lema afirma que probabilidades ergódicas são
minimais para a relação :

Lema 5.12. Se µ e ν são probabilidades invariantes tais que µ é ergódica e ν


é absolutamente contı́nua com relação a µ então µ = ν.

Demonstração. Seja ϕ : M → R uma função mensurável limitada qualquer, e


seja
1
n−1
ϕ̃(x) = lim ϕ(f j (x))
n→∞ n
j=0

a sua média temporal. Como µ é invariante e ergódica, a média temporal é


constante
ϕ̃(x) = ϕ dµ

para µ-quase todo ponto. Segue que isto é verdade para ν-quase todo ponto, já
que ν µ. Em particular,

ϕ̃ dν = ϕ dµ .

Por outro lado, pelo teorema ergódico,



ϕ̃ dν = ϕ dν .
5.3. PROPRIEDADES DE MEDIDAS ERGÓDICAS 55

Portanto, as integrais de ϕ com relação a µ e em relação a ν coincidem, qual-


quer que seja a função mensurável limitada ϕ. Logo, considerando funções
caracterı́sticas, µ = ν.

Naturalmente, se µ1 e µ2 são probabilidades invariantes com respeito à f a


probabilidade µ1 +t(µ2 −µ1 ) ainda é invariante. Isso siginfica que o conjunto das
probabilidades invariantes é um conjunto convexo. Veremos que dentro deste
conjunto, as medidas ergódicas desempenham um papel destacado:

Definição 5.13. Seja X um conjunto convexo. Um ponto p ∈ X é dito ex-


tremal, se para quaisquer x, y ∈ X e t ∈ [0, 1], x + t(y − x) = p implica que t = 0
ou 1.

O lema seguinte afirma que uma probabilidade invariante é ergódica se e


somente se é ponto extremal no conjunto das probabilidades invariantes:

Lema 5.14. Uma probabilidade invariante µ é ergódica se e somente se não é


possı́vel escrevê-la na forma

µ = c1 µ1 + c2 µ2

com c1 , c2 maiores que zero e µ1 , µ2 probabilidades invariantes distintas.

Demonstração. Para provar a parte “se”, suponha que µ não seja ergódica.
Então existe algum conjunto invariante A com 0 < µ(A) < 1. Defina µ1 e
µ2 como sendo as restrições normalizadas de µ a A e ao seu complementar,
respectivamente:

µ(E ∩ A) µ(E ∩ Ac )
µ1 (E) = µ2 (E) = .
µ(A) µ(Ac )

Como A e Ac são conjuntos invariantes e µ é medida invariante, µ1 e µ2 são


também probabilidades invariantes. Além disso, µ = µ(A)µ1 + µ(Ac )µ2 e por-
tanto µ não é extremal.
Para provar a recı́proca, suponha que µ é ergódica e temos µ = c1 µ1 + c2 µ2
com c1 , c2 > 0. É claro que µ(E) = 0 implica µ1 (E) = µ2 (E) = 0, ou seja,
µ1 e µ2 são absolutamente contı́nuas com relação a µ. Logo, pelo lema 5.12,
µ1 = µ = µ2 . Isto prova que µ é extremal.

Em seguida vamos mostrar que medidas ergódicas distintas “vivem”em sub-


conjuntos disjuntos do espaço M :

Lema 5.15. Sejam µ1 , . . . , µN probabilidades invariantes e ergódicas, todas


distintas. Então existem subconjuntos mensuráveis P1 , . . . , PN invariantes dis-
juntos tais que 
1 se j = k
µj (Pk ) =
0 se j = k
56 CAPÍTULO 5. ERGODICIDADE

Demonstração. Fixe qualquer par j, k de números distintos em {1, . . . , N }. Pelo


lema 5.12, a medida µj não pode ser absolutamente contı́nua em relação a µk .
Em outras palavras, existe algum subconjunto mensurável E tal que µj (E) > 0
mas µk (E) = 0. Então
∞ ∞
   
µj f −j (E) ≥ µj (E) > 0. e µk f −j (E) = 0
j=0 j=0
∞ ∞
Defina Pj,k = m=0 j=m f −j (E). Como a sequência de conjuntos na interseção
é decrescente com m,

    
µj Pj,k = lim µj f −j (E) (5.10)
m→∞
j=m

e, analogamente para µk . Como as medidas µj e µk são invariantes, e



 ∞
 
f −j (E) = f −m f −j (E) ,
j=m j=0

a sequência no lado direito de (5.10) é constante. Concluı́mos que


∞ ∞
   
µj (Pj,k ) = µj f −j (E) > 0 e µk (Pj,k ) = µk f −j (E) = 0.
j=0 j=0

Além disso, Pj,k é um conjunto invariante por f . Portanto µj (Pj,k ) = 1, uma


vez que µj é ergódica. Agora defina
 
P̃j = Pj,k e Pj = P̃j \ P̃k .
k=j k=j

Primeiramente, µj (P̃j ) = 1 e µk (P̃j ) = 0 para todo k = j. Segue que µj (Pj ) = 1


e µk (Pj ) = 0 para todo k = j. Além disso, os Pj são disjuntos dois-a-dois.

5.4 Teorema de decomposição ergódica


Na sequência dos resultados da seção anterior, é natural perguntar se toda
medida invariante é uma combinação linear de medidas ergódicas. O teorema
que vamos enunciar nesta seção afirma que a resposta é afirmativa, exceto que
o número de “parcelas” nesta combinação não é necessariamente finito, nem
mesmo enumerável, em geral.
Teorema 5.16. Seja f : M → M uma transformação contı́nua num espaço
compacto. Então existe um conjunto mensurável M0 ⊂ M , uma partição P de
M0 e uma famı́lia de probabilidades {νP : P ∈ P} satisfazendo
• νP (P ) = 1 para todo elemento P de P;
5.4. TEOREMA DE DECOMPOSIÇÃO ERGÓDICA 57

• a aplicação P → νP é mensurável;
• toda νP é invariante e ergódica para f ;
tais que, dada qualquer probabilidade f -invariante µ, o conjunto M0 satisfaz
µ(M0 ) = 1 e, além disso,

µ(E) = νP (E) dµ̂(P ) para todo conjunto mensurável E ⊂ M (5.11)

onde µ̂ é a medida projeção de µ em P.


A relação (5.11) significa que µ é uma combinação convexa das várias prob-
abilidades ergódicas νP , em que cada νP entra com “coeficiente”igual a µ̂(P ).
Dada qualquer partição P de M fica definida a projeção natural π : M → P
que associa a cada ponto x ∈ M o elemento P (x) da partição que o contém.
Isto permite definir o que é um subconjunto mensurável da partição: Q ⊂ P é
mensurável se e somente

π −1 (Q) = união dos P ∈ Q

é um subconjunto mensurável de M . É fácil ver que esta definição está correta:


a famı́lia dos subconjuntos mensuráveis é uma σ-álgebra em P. A medida
projeção de µ está definida nesta σ-álgebra, por

µ̂(Q) = µ(π −1 (Q)).

Corolário 5.17. Uma transformação f é unicamente ergódica se e somente se


admite exatamente uma medida invariante ergódica.
Demonstração. De acordo com o Corolário ??, se f é unicamente ergódica então
a sua probabilidade invariante é ergódica. Isto prova a parte “somente se”do
enunciado. Por outro lado, o Teorema 5.16 mostra que a recı́proca também é
verdadeira: se f admite apenas uma probabilidade invariante ergódica, então
essa é a única probabilidade invariante.

5.4.1 Prova do teorema de decomposição ergódica


Nesta seção vamos deduzir o Teorema 5.16 de um resultado de Teoria da Proba-
bilidade, o teorema de desintegração de Rokhlin [Rok66], que tem muitas outras
aplicações.
Seja Z um espaço métrico compacto, µ uma probabilidade em Z, e P uma
partição de Z em subconjuntos mensuráveis. Seja π : Z → P a aplicação
que associa a cada z ∈ Z o átomo P ∈ P que o contém. Por definição, Q é
um subconjunto mensurável de P se e somente se π −1 (Q) é um subconjunto
mensurável de Z. Seja µ̂ o iterado de µ por π, ou seja, µ̂ é a probabilidade em
P definida por µ̂(Q) = µ(π −1 (Q)) para cada conjunto mensurável Q ⊂ P.
Definição 5.18. Uma famı́lia de medidas condicionais de µ relativamente a P
é uma famı́lia (µP )P ∈P de probabilidades em Z tais que
58 CAPÍTULO 5. ERGODICIDADE

1. µP (P ) = 1 para µ̂-quase todo P ∈ P;



2. dada qualquer função contı́nua ϕ: Z → R,
 a função P  P → ϕ dµP é
mensurável e tem-se ϕ dµ = ϕ dµP dµ̂(P ).

Lema 5.19. Se (µP )P ∈P é uma famı́lia


 de medidas condicionais de µ relativa-
mente à partição P, então P  P → ψ dµP é mensurável e
 
ψ dµ = ψ dµP dµ̂(P ),

para toda função mensurável limitada ψ : Z → R.

Demonstração. Denote por C a classe de funções mensuráveis limitadas que


satisfazem a conclusão do lema. Pela definição de sistema de medidas condi-
cionais, essa classe contém todas as funções contı́nuas. Além disso, suponha que
ϕn : Z → R, n ∈ N é uma sequência de funções em C convergindo pontualmente
para alguma função ϕ : Z → R. Suponha ainda que essa sequência é uniforme-
mente limitada, isto é, existe K > 0 tal que |ϕn (z)| ≤ K para todo z ∈ Z e
todo n ∈ N. Afirmamos que a função limite ϕ também está em C. Admita, por
um instante, que esta afirmação é verdadeira.


Em particular, P → µP (E) é mensurável, e µ(E) = µP (E) dµ̂(P ), para
qualquer conjunto mesurável E ⊂ Z.
Medidas condicionais, quando existem, são únicas em quase todo ponto:

Proposição 5.20. Se (µP )P ∈P e (νP )P ∈P são dois sistemas de medidas condi-


cionais de µ com respeito à P, então µP = νP para µ̂-almost every P ∈ P.

Demonstração. Suponha o contrário, isto é, existe um conjunto mensurável


Q0 ⊂ P with µ̂(Q0 ) > 0 tal que µP = νP for every P ∈ Q0 . Seja {ϕk : k ∈ N}
um conjunto enumerável e denso de C 0 (Z, R), e defina

Ak = {P ∈ Q0 : ϕk dµP = ϕk dνP }.

Notando que ∪k Ak = Q0 , existe ϕ ∈ C 0 (Z, R) e um subconjunto  Q de Q0 tal


que µ̂(Q) > 0 e (trocando os papéis de µP e νP , se necessário) ϕ dµP > ϕ dνP
para todo P ∈ Q. Então
   
ϕ dµP dµ̂(P ) > ϕ dνP dµ̂(P ). (5.12)
Q Q

De outro modo, pelo Lema 5.19,


 
(ϕXπ−1 (Q) ) dµ = (ϕXπ−1 (Q) ) dµP dµ̂(P ).
5.4. TEOREMA DE DECOMPOSIÇÃO ERGÓDICA 59

Por hipótese µP (P ) = 1 para µ̂ quase todo P ∈ P. Para cada um destes P ,


temos que
(ϕXπ−1 (Q) ) dµP = XQ (P ) ϕ dµP .

Assim,
   
(ϕXπ−1 (Q) ) dµ = XQ (P ) ϕ dµP dµ̂(P ) = ϕ dµP dµ̂(P ).
Q

Analogamente, temos
 
(ϕXπ−1 (Q) ) dµ = ϕ dνP dµ̂(P ).
Q

Essas duas últimas igualdadades contradizem (5.12). Logo, µP = νP para µ̂-


quase todo P , como afirmamos.
Definição 5.21. P é uma partição mesurável se existem conjuntos mensuráveis
E1 , E2 , . . . , En , . . . de Z tais que
P = {E1 , Z \ E1 } ∨ {E2 , Z \ E2 } ∨ · · · ∨ {En , Z \ En } ∨ · · · mod 0.
Em outras palavras, existe um conjunto de medida µ total F0 ⊂ Z tal que, dado
qualquer átomo P de P podemos escrever
P ∩ F0 = E1∗ ∩ E2∗ ∩ · · · ∩ En∗ ∩ · · · ∩ F0 (5.13)
onde Ej∗ é Ej ou seu complemento Z \ Ej , para todo j ≥ 1.
Exemplo 5.22. Toda particão finita ou enumerável é mesurável. De fato, P é
mensurável se e só se existe uma sequência não-decrescente de partições finitas
ou enumeráveis P1 ≺ P2 ≺ · · · ≺ Pn ≺ · · · tais que P = ∨∞n=1 Pn mod 0.

Exemplo 5.23. Seja Z = X × Y , onde X e Y espaços métricos compactos, e


P é a partição de Z em linhas horizontais X × {y}, y ∈ Y . Então P é uma
partição mensurável de Z.
Teorema 5.24 (desintegração). Se P é partição mensurável então a proba-
bilidade µ admite alguma famı́lia de medidas condicionais relativamente a P.
Este resultado será provado na Seção 5.5. De momento vamos usá-lo para
dar a
Demonstração do Teorema 5.16. Seja f : Z → Z uma transformação contı́nua
num espaço métrico compacto Z, e seja Bf o subconjunto dos pontos z ∈ Z
tais que as médias temporais estão bem definidas na órbita de z: dada qualquer
função contı́nua ϕ : Z → R, a sequência

1
n−1
ϕ(f j (z))
n j=0

converge para algum ϕ̃(z) ∈ R quando n → ∞. Seja P a partição de Z definida


por
60 CAPÍTULO 5. ERGODICIDADE

1. Z \ Bf é um elemento de P e
2. dois pontos z1 e z2 de Bf estão no mesmo elemento de P se e somente
se têm as mesmas médias temporais: ϕ̃(z1 ) = ϕ̃(z2 ) para toda função
continua ϕ.
Então P é uma partição mensurável, com respeito a qualquer probabilidade µ
em Z. Se µ é f -invariant então µ(Z \ Bf ) = 0 e qualquer famı́lia de medidas
condicionais (µP )P de µ relativamente a P é tal que µP é f -invariante e ergódica
para µ̂-quase todo P ∈ P.

5.5 Teorema de desintegração


No intuito de provar o Teorema, podemos trocar o espaço Z por qualquer con-
junto de medida nula. Logo, não há perda de generalidade supor que F0 em
(5.13) coincide exatamente com Z, e iremos assumir isso no que se segue. Seja
ψ qualquer função mensurável limitada em Z. Para cada n ≥ 1 seja
Pn = {E1 , Z \ E1 } ∨ {E2 , Z \ E2 } ∨ · · · ∨ {En , Z \ En }
isto é, Pn é a partição de Z cujo os átomos são os conjuntos E1∗ ∩ · · · ∩ En∗ , with
Ej∗ = Ej or Ej∗ = Z \ Ej , para cada 1 ≤ j ≤ n. Defina ψ̃n : Z → R como se
segue. Se o átomo Pn (z) de Pn que contém z tem medida µ(Pn (z)) positiva,
then
1
ψ̃n (z) = ψ dµ. (5.14)
µ(Pn (z)) Pn (z)
Caso contrário, ψ̃n (z) = 0. Claramente, o segundo caso na definição de ψ̃n se
aplica somente num conjunto de pontos de medida µ igual a zero.
Lema 5.25. Dada qualquer função mensurável limitada ψ : Z → R, existe um
subconjunto de medida µ total F = F (ψ) de Z tal que ψ̃n (z), n ≥ 1, converge
para algum número real ψ̃(z), para todo z ∈ F .
Demonstração. Observe que sempre podemos escrever ψ = ψ + − ψ − , onde ψ ±
são measuráveis, limitadas e não-negativas: por exemplo, ψ ± = (|ψ| ± ψ)/2.
Então ψ̃n = ψ̃n+ − ψ̃n− para n ≥ 1, e então a conclusão é verdadeira para ψ se
ela vale para ψ + e ψ − . Isto mostra que não há restrição em assumir que ψ é
não-negativa. Iremos assumir isso de agora em diante.
Para todo α < β, seja S(α, β) o conjunto dos pontos z ∈ Z tais que
lim inf ψ̃n (z) < α < β < lim sup ψ̃n (z).
É claro que dado z ∈ Z, a sequência ψ̃n (z) diverge se, e só se, z ∈ S(α, β) para
algum para de números racionais α e β. Logo, o lema segue-se se mostrarmos
que S = S(α, β) tem medida µ igual a zero para todo α e β.
Para cada z ∈ S, fixe uma sequência de inteiros 1 ≤ az1 < bz1 < · · · < azi <
bi < · · · tais que
z

ψ̃azi (z) < α and ψ̃bzi (z) > β for every i ≥ 1.


5.5. TEOREMA DE DESINTEGRAÇÃO 61

Defina Ai como sendo a união dos elementos Pazi (z), e Bi como a união dos ele-
mentos Pbzi (z) obtidos deste modo, para todos os pontos z ∈ S. Por construção,

S ⊂ Ai+1 ⊂ Bi ⊂ Ai para todo i ≥ 1.

Em particular, S está contido no conjunto



 ∞

S = Bi = Ai .
i=1 i=1

Dados dois entre os conjuntos Pazi (z) que formam Ai , ou eles são disjuntos ou
coincidem. isto porque Pn , n ≥ 1, é uma sequência não-decrescente de partições.
Consequentemente, Ai pode ser escrito como uma união de conjuntos Pazi (z)
dois-a-dois disjuntos. Assim,

ψ dµ = ψ dµ < αµ(Pazi ) = αµ(Ai ),
Ai Paz (z) Paz Paz (z)
i
i i

para qualquer i ≥ 1 (as somas são sobre uniões disjuntas). Analogamente,



ψ dµ = ψ dµ > βµ(Pbzi ) = βµ(Bi ).
Bi Pbz (z) Pbz Pbz (z)
i
i i

Desde que Ai ⊃ Bi e observando que estamos assumindo que ψ ≥ 0, segue-se


que
αµ(Ai ) > ψ dµ ≥ ψ dµ > βµ(Bi ),
Ai Bi

para todo i ≥ 1. Tomando o limite quando i → ∞, temos que


 ≥ βµ(S).
αµ(S) 

 = 0, e logo S ⊂ S também é um conjunto com medidaµ


Isto implica que µ(S)
igual a zero.
Dada qualquer função limitada mensurável ψ : Z → R, iremos represen-
tar por en (ψ), e(ψ), respectivamente, as funções ψ̃n , ψ̃ definidas por(5.14) e o
Lema 5.25.
Seja {ϕk : k ∈ N} algum conjunto enumerável e denso de C 0 (Z, R), e seja


F∗ = F (ϕk ),
k=1

where F (ϕk ) como dado pelo Lema 5.25.


Lema 5.26. Dada qualquer função contı́nua ϕ : Z → R, a seuquência en (ϕ)(z)
converge para e(ϕ)(z) quando n → ∞, para todo z ∈ F∗ .
62 CAPÍTULO 5. ERGODICIDADE

Demonstração. Fixe z ∈ F∗ . É claro que ψ → en (ψ)(z) é um funcional linear


limitado em C 0 (Z, R), com norma 1, e o mesmo é verdade para ψ → e(ψ)(z).
Para todo ε > 0, escolha k tal que ϕ − ϕk 0 < ε/3. Então, se n é grande o
suficiente,
|en (ϕ)(z) − e(ϕ)(z)| ≤
≤ |en (ϕ)(z) − en (ϕk )(z)| + |en (ϕk )(z) − e(ϕk )(z)| + |e(ϕk )(z) − e(ϕ)(z)|
≤ 2ϕ − ϕk 0 + ε/3 < ε .
isto mostra a afirmação.
Seja ϕ : Z → R contı́nua. Por construção, en (ϕ) e constante em cada
Pn ∈ Pn , e logo é constante também em cada átomo P de P, para todo n ≥ 1.
Assim, e(ϕ) é constante em P ∩ F∗ para cada P ∈ P. Seja en (ϕ)(Pn ) o valor
de en (ϕ) em cada Pn ∈ Pn . Similarmente, e(ϕ)(P ) representa o valor de e(ϕ)
on P ∩ F∗ desde que o último conjunto seja não-vazio. Então, desde que (5.14)
define en (ϕ) em um subconjunto de medida µ total de Z,

ϕ dµ = ϕ dµ = µ(Pn ) en (ϕ)(Pn ) = en (ϕ) dµ.
µ(Pn )>0 Pn µ(Pn )>0

Observe também que |en (ϕ)| ≤ sup |ϕ| < ∞ para cada n ≥ 1. Assim, nós
podemos usar o Teorema da Convergência Dominada para concluir que

ϕ dµ = e(ϕ) dµ. (5.15)

Agora, estamos em condições de construir um sistema de medidas condi-


cionais para µ. Seja P qualquer átomo de P tal que P ∩ F∗ é não-vazio. É fácil
de ver que
C 0 (Z, R)  ϕ → e(ϕ)(P ) ∈ R
é um funcional não-negativo de C 0 (Z, R). Do fato que en (1)(P ) = 1 e do
Teorema de Riez-Markov, existe uma única medida de probabilidade µP em Z
tal que
ϕ dµP = e(ϕ)(P ). (5.16)

Devemos definir µP mesmo quando P não intersecta F∗ . neste caso tomaremos


µP como qualquer probabilidade em Z: desde que o conjunto de todos esses
átomos P tem medida µ̂ igual a zero em P (em outras palavras, sua união tem
medida µ igual a zero em Z), a escolha não é relevante. De acordo com essas
definições, (5.15) pode ser reescrito como
 
ϕ dµ = ϕ dµP dµ̂(P ),

o fato que P  P → ϕ dµP é uma função mensurável é uma consequência di-
reta de (5.16). Assim, para concluir que (µP )P ∈P forma um sistema de medidas
condicionais de µ com respeito a P resta-nos provar que
5.5. TEOREMA DE DESINTEGRAÇÃO 63

Lema 5.27. µP (P ) = 1 para µ̂-quase todo P ∈ P.

Usaremos o seguinte resultado auxiliar:

Lema 5.28. dada uma função mensurável limitada ψ : Z → R existe um


 de medida µ̂ total F (ψ) ⊂ P tal que o conjunto P ∩ F∗ é não vazio
conjunto
então ψ dµP = e(ψ)(P ), para qualquer P ∈ F(ψ).

Demonstração. A classe das funções que satisfazem o lema contém o conjunto


das funções contı́nuas e é fechado por convergência pontual dominada.Assim,
contém todas as funções mensuráveis limitadas.

Podemos provar o Lema 5.27:

Demonstração. Defina F∗ = ∩k,Pk F (XPk ), onde a intersecção é tomada sobre o


conjunto de todos os átomos Pk ∈ Pk , e todo k ≥ 1. Desde que esse conjunto é
enumerável, F∗ tem medida µ̂ total. Afirmamos que a conclusão do lema vale
para todo P ∈ F∗ . De fato, seja k ≥ 1 e Pk elemento Pk que contém P . Pela
definição de F∗

µP (Pk ) = XPk dµP = e(XPk )(P ). (5.17)

Para cada n ≥ 1, seja Pn o átomo de Pn que contém P . Dado qualquer z ∈


P ∩ F∗ ,

1
en (XPk )(z) = XP dµ.
µ(Pn ) Pn k
Agora, para cada n ≥ k temos que Pn ⊂ Pk , e então o último termo é igual a 1.
Assim,
e(XPk )(P ) = e(XPk )(z) = lim en (XPk )(z) = 1.
n→∞

Substituindo isso em (5.17) obtemos que µP (Pk ) = 1 para todo k ≥ 1. Final-


mente,
µP (P ) = lim µP (Pk ) = 1
k→∞

pois Pk , k ≥ 1, é uma sequência decrescente cuja intersecção é P .

A prova do Teorema 5.24 está completa.

Exemplo 5.29. Seja Z o toro bi-dimensional, α um número irracional, e P a


partição de Z em linhas retas de inclinação α. Então P não é uma partição . Um
modo de ver isso é observar que a medida de Haar (Lebesgue) em Z não admite
sistema de medidas condicionais com respeito à P. De fato, pela unicidade
da desintegração, quase toda medida condicional teria que ser invariante por
translações ao longo das linhas retas, e é claro que estas translações não têm
probabilidades invariantes.
64 CAPÍTULO 5. ERGODICIDADE

5.6 Exercı́cios
5.1. Considere o espaço M = {1, 2, . . . , d}Z das sequências com valores num
conjunto {1, 2, . . . , d}. Fixe qualquer número θ ∈ (0, 1). Para cada β = (βn )n∈Z
e γ = (γn )n∈Z em M , defina
 
N (β, γ ) = max N ≥ 0 : βn = γn para todo n ∈ Z com |n| < N

e d(β, γ) = θN (β,γ ) . Verifique que d é uma métrica em M e gera a mesma


topologia que a famı́lia dos cilindros. Em particular, (M, d) é um espaço métrico
compacto. Tem-se um resultado análogo para M = {1, 2, . . . , d}N .
5.2. Suponha que Rα é uma rotação irracional.
1. Mostre que a órbita {Rα
n
(z) : n ∈ Z} de todo z ∈ S 1 é densa em S 1 .
2. Seja A um conjunto invariante com medida positiva. Mostre que nenhum
ponto de S 1 é ponto de densidade de Ac . Conclua que µ(A) = 1.
Dica: considere um ponto de densidade de A e use o item (1).
5.3. A rotação Rα é racional se e somente se eαi é uma raiz da unidade, isto é,
se existe k = 0 tal que ekiα = 1.
5.4. Se Rα é rotação racional então Rα não é ergódica para a medida de
Lebesgue.
No exercı́cio a seguir propomos outra demonstração para a proposição 5.5:
5.5. Suponha que Rα é uma rotação irracional.
1. Mostre que a órbita {Rα
n
(z) : n ∈ Z} de todo z ∈ S 1 é densa em S 1 .
2. Seja A um conjunto invariante com medida positiva. Mostre que nenhum
ponto de S 1 é ponto de densidade de Ac . Conclua que µ(A) = 1.
Dica: considere um ponto de densidade de A e use o item (1).
5.6. Suponha que Rα é uma rotação irracional.
1. Seja ϕ : S 1 → R uma função contı́nua qualquer. Mostre que

1
n−1
j
ϕ̃(x) = lim ϕ(Rα (z))
n→∞ n
j=0

existe em todo ponto e, de fato, o limite é uniforme. Justifique que ϕ̃ é


constante em todo ponto.
Dica: Verifique que a sequência do lado direito é equicontı́nua e use o
teorema de Ascoli-Arzela.
2. Deduza que Rα tem uma única probabilidade invariante.
5.6. EXERCÍCIOS 65

5.7. Seja f : M → M uma máquina de somar, definida na secção 5.1.5.


1. Seja ϕ : M → R uma função contı́nua qualquer. Mostre que

1
n−1
ϕ̃(x) = lim ϕ(f j (z))
n→∞ n
j=0

existe em todo ponto e o limite é uniforme.


2. Justifique que ϕ̃ é constante em todo ponto e deduza que f tem uma única
probabilidade invariante.
3. Calcule essa probabilidade, encontrando uma expressão explı́cita para a
medida de qualquer subconjunto [b0 , b1 , . . . , bk ] das sequências β com β0 =
b 0 , β 1 = b 1 , . . . , βk = b k .
5.8 (Teorema de Kac). Seja µ uma medida ergódica para uma transformação
f : M → M e A um conjunto com µ(A) > 0. Considere nA : A → N ∪ {+∞}
como o menor número nA (x) > 0 tal que f nA (x) (x) ∈ A. Caso este número não
exista, definimos nA (x) = +∞.

1. Mostre que nA é integrável com respeito a µ.


µ(A∩B)
2. Mostre que se µA (B) = µ(A) então:

1
nA (x) dµA (x) = .
A µ(A)

5.9. Seja f : M → M definida no espaço topológico M tal que existe alguma


medida ergódica µ tal que para todo A aberto, µ(A) > 0. Mostre que f e
transitiva e a órbita de µ-quase todo ponto é densa.
66 CAPÍTULO 5. ERGODICIDADE
Capı́tulo 6

Sistemas Misturadores

Neste capı́tulo estudaremos mais uma propriedade das transformações que preser-
vam medida, a saber, a propriedade de misturar conjuntos. Introduziremos os
deslocamentos de Markov, que generalizam os deslocamentos de Bernoulli, in-
troduzidos no Capı́tulo ??. Estudaremos sob que condições estas transformações
são ergódicas ou misturadoras.

6.1 Definições e exemplos


Começaremos este capı́tulo, mostrando uma proposição que estabelece uma
condição equivalente à condição de ergodicidade de uma medida:
Proposição 6.1. Seja f : M → M uma transformação que preserva uma
medida µ. São equivalentes:
1. µ é ergódica
2. Para quaisquer par de conjuntos mensuráveis A, B então

1
n−1
lim µ(f −i (A) ∩ B) = µ(A)µ(B). (6.1)
n→∞ n
i=0

Demonstração. Primeiramente, se vale a igualdade como no item 2 acima, dado


um conjunto invariante A qualquer, temos que

1
n−1
µ(A) = lim µ(f −i (A) ∩ A) = µ(A)2 .
n→∞ n
i=0

Logo, µ(A) = 0 ou 1, donde µ é ergódica.


Por outro lado, se µ é ergódica temos, pelo teorema de Birkhoff aplicado a
função φ = χA , que a sequência de funções

1
n−1
φn (x) = φ(f i (x)
n i=0
68 CAPÍTULO 6. SISTEMAS MISTURADORES

converge em µ quase todo x para o valor constante µ(A). Assim, tomando


ψ = χB pelo teorema da convergência dominada:

1
n−1
−i
lim µ(f (A) ∩ B) = lim φn ψ dµ = µ(A)ψ dµ = µ(A)µ(B),
n→∞ n n→∞
i=0

e isto encerra a prova da Proposição.

Observação 6.2. Podemos extrair um pouco mais da proposição anterior.


Mesmo que µ seja somente invariante, podemos mostrar utilizando o Teorema de

n−1
Birkhoff e a prova da Proposição 6.1 que a sequência lim n1 µ(f −i (A) ∩ B)
n→∞ i=0
converge para quaisquer borelianos A e B. A adaptação é canônica e fica a
cargo do leitor.
Definição 6.3. Seja f uma transformação f : M → M preservando uma me-
dida µ. Dizemos que o sistema (f, µ) é misturador, se dados quaisquer conjuntos
mensuráveis A, B ⊂ M então:

lim µ(f −n (A) ∩ B) = µ(A)µ(B). (6.2)


n→∞

Em muitos casos, especialmente nos que consideramos f fixada e onde não


houver perigo de confusão, diremos simplesmente que a medida µ é misturadora,
sem mencionar a transformação f . É imediato a partir da Proposição 6.1 que
toda medida ergódica é misturadora. Em geral, o contrário não vale como
veremos agora:
Exemplo 6.4. A rotação Rα de ângulo irracional α do cı́rculo unitário S 1
preservando a medida de Lebesgue m. Observe que como α é irracional, a
propriedade de ergodicidade se verifica para este sistema, como já vimos no
exemplo ??. Porém a medida de Lebesgue não é misturadora. Para provar
isto, observe que dados dois intervalos A, B ⊂ S 1 suficientemente pequenos,
para infinitos valores de n temos que f −n (A) não interssecta B. Em particular,
m(f −n (A) ∩ B) = 0 e o limite em (6.2) não se verifica, já que m(A)m(B) > 0.
Em geral, quando desejamos mostrar que uma medida é misturadora, pre-
cisamos verificar a condição 6.2 para todos pares de conjuntos mensuráveis A, B.
Para nosso auxı́lio nesta tarefa, na proposição a seguir mostraremos que basta
fazer tal verificação para uma classe especial de subconjuntos gerando a σ-
álgebra:
Proposição 6.5. Sejam (M, µ, A) um espaço de medida, f : M → M uma
transformação preservando a medida µ e B uma semi-álgebra que gera A. Se
para todos A, B ∈ B vale

lim µ(f −n (A) ∩ B) = µ(A)µ(B),


n→∞

então µ é misturadora.
6.2. DESLOCAMENTOS DE MARKOV 69

Exemplo 6.6. Todo deslocamento de Bernoulli é uma transformação mistu-


radora. De fato, para provar isso considere o deslocamento definido no espaço
das sequências de k sı́mbolos {1, 2, . . . , k}N e seja µ uma medida de Bernoulli
associada ao vetor de probabilidades p = (p1 , . . . , pk ). Precisamos mostrar que
a condição 6.2 vale para todo par A, B de conjuntos mensuráveis. Utilizando a
Proposição ??, basta mostrar que esta condição vale no caso particular em que
A e B são cilindros. De fato, se A = [m; am , . . . , an ] e B = [r; br , . . . , bs ] são
cilindros então, para l suficientemente grande as restrições nas coordenadas de
σ −l (A) são independentes das restrições nas coordenadas de B, de onde segue-se
que µ(σ −l (A) ∩ B) = µ(A)µ(B). Deste modo, os deslocamentos de Bernoulli
são transformações misturadoras.

Em termos de Teoria das Probabilidades, dizer que µ(σ −l (A)∩B) = µ(A)µ(B),


significa dizer que os eventos σ −l (A) e B são independentes, ou seja, a ocorrência
de B no presente não influi na possibilidade de ocorrência de A após l unidades
de tempo passadas.

6.2 Deslocamentos de Markov


Os deslocamentos de Markov são uma classe de transformações preservando
medida que surgem naturalmente na Teoria das Probabilidades e em algumas
aplicações dos Sistemas Dinâmicos. Elas podem ser vistas como uma gener-
alização do conceito de deslocamento de Bernoulli com k sı́mbolos, onde os
lançamentos não são mais independentes. Além da perda de independência,
uma diferença entre os deslocamentos de Bernoulli e os de Markov é que, em
geral, o domı́nio dos deslocamentos de Markov serão subconjuntos próprios de
Σ+k.
Para definirmos um deslocamento de Markov com k sı́mbolos, antes de mais
nada, é necessário fixar uma matriz A = (aij ) de tamanho k × k e com entradas
iguais a 0 ou 1, chamada matriz de transição. A partir desta matriz, podemos
construir um subconjunto Σ+ +
A de Σk das sequências admissı́veis do seguinte
modo:
Σ+ +
A = {(x1 , x2 , . . . ) ∈ Σk ; axi xi+1 = 1}.

Note que se x = (x1 , x2 . . . ) pertence à Σ+ A então σ(x) também pertence à


Σ+
A. Chamaremos de deslocamento de Markov associado à matriz de transição
A a restrição de σ ao conjunto Σ+ A.
Esta transformação admite uma classe especial de medidas, chamadas me-
didas de Markov. Para construir uma destas medidas, consideraremos uma
matriz P = (pij ) e um vetor p = (p1 , . . . , pk ) com todas as coordenadas pi > 0,
satisfazendo as seguintes propriedades:

• 0 ≤ pij ≤ 1


k
• pij = 1.
j=1
70 CAPÍTULO 6. SISTEMAS MISTURADORES


k
• pP = p, ou seja: pi pij = pj , para todo j = 1, . . . , k.
i=1

Esta matriz é chamada matriz estocástica e determina a probabilidade da transição


do sistema do estado i para o estado j. Analogamente, podemos interpretar a
(n)
entrada Pij da matriz P n , como sendo a chance de transição do estado i para
o estado j em n passos. Com estes elementos em mãos, definimos a medida de
Markov no cilindro [m; bm , . . . , bn ] como:

µ([m; bm , . . . , bn ]) = pbm pbm bm+1 . . . pbn−1 bn (6.3)


e estendemos a definição de µ para a álgebra das uniões disjuntas A = A1 ∪
· · · ∪ Al de cilindros por

µ(A) = µ(A1 ) + · · · + µ(Al ).

Pelo Teorema 0.9, segue-se que µ pode ser estendida para toda σ-álgebra. Para
mostrar a invariância de µ com respeito à σ, basta provar que µ(σ −1 (C)) =
µ(C), onde C é um cilindro. Ora, isso segue diretamente da expressão de µ(C)
acima, uma vez que a medida µ([m; bm , . . . , bn ]) não depende do ı́ndice m.
Observe que, ao contrário dos deslocamentos de Bernoulli, se A e B são
cilindros disjuntos então µ(A ∩ B) não é necessariamente µ(A)µ(B). Para ver
isto, basta por exemplo considerar o cilindro A = [1; i] e o cilindro B = [2; j].
Claramente, µ(A ∩ B) = µ([1; i, j]) = pi pij que não é necessáriamente igual à
µ(A)µ(B) = pi pj . Apesar disto, ainda podemos calcular, através de um fator
corretivo, a medida de A ∩ B:
Lema 6.7. Sejam A = [m; αm , . . . , αn ] e B = [r; βr , . . . , βs ] cilindros com
r > n. Então:
(r−n)
Pα β
µ(A ∩ B) = µ(A)µ(B) n r .
pβ r
Demonstração. Podemos escrever A ∩ B como a união disjunta

A∩B = [m; αm . . . , αn−1 , x(n), . . . , x(r), βr+1 , . . . , bs ],
x∈F

onde x varia no conjunto F das funções w : {n, . . . , r} → {1, . . . , k} tais que


w(n) = αn e w(r) = βr . Deste modo, temos que:
pαn x(n+1) . . . pxr−1 βr
µ(A ∩ B) = µ(A)µ(B) .
pβ r
x∈F

o que conclui a demonstração do nosso lema, uma vez que


(r−n)

Pαn βr = pαn x(n+1) . . . pxr−1 βr .
x∈F
6.2. DESLOCAMENTOS DE MARKOV 71

Iremos agora estudar condições que a matriz estocástica P deve satisfazer


para que uma medida de Markov µ seja ergódica ou misturadora.

Definição 6.8. Uma matriz estocástica P se diz irredutı́vel se dados i, j ∈


(n)
{1, . . . , k} então existe n ∈ N tal que Pij > 0.

Podemos interpretar a irredutibilidade de uma matriz estocástica P do seguinte


modo: dizer que uma matriz P é irredutı́vel equivale a dizer que sempre é
possı́vel a partir de um estado i do sistema, chegar a um estado j com um
certo número n (que depende de i e j) de passos. Como veremos, a condição de
irredutibilidade é necessária e suficiente para que uma medida de Markov seja
ergódica. Um primeiro passo nessa direção é o seguinte lema:

Lema 6.9. Seja P uma matriz estocástica irredutı́vel. Então, dados i e j temos
que:
1 (l)
n−1
Pij = pj .
n
l=0

1

n−1
Demonstração. Primeiramente, provaremos que n P l converge. De fato,
l=0
observe que se A = [1; j] e B = [0; i] então, pelo Lema 6.7:

1 1 (l)
n−1 n−1
1
µ(σ −l (A) ∩ B) = µ(A)µ(B) Pij .
n pj n
l=0 l=0

1

n−1
Assim, para mostrar a convergência de n P l , é suficiente observar que a
l=0
1 
n−1
sequência n µ(σ −l (A) ∩ B) converge, de acordo com a observação 6.2.
l=0

k
Se v é o vetor v = (1, 1, . . . , 1), as igualdades pij = 1, para i = 1, 2, . . . , k
j=1
na definição de matriz estocástica podem ser escritas como P v = v. Deste
modo, é simples verificar que Qv = v, ou em outros termos, se Q = (qij ), então
k
qij = 1, para i = 1, 2, . . . , k. De modo análogo, como pP = p, temos que
j=1
pQ = p, ou

k
pi qij = pj , para todo j = 1, . . . , k.
i=1

Além disso, uma fácil verificação a partir da definição de Q mostra que P n Q =


Q, para todo n ∈ N. Utilizaremos estas propriedades para concluir que qij não
depende de i.
De fato, assuma por absurdo que existem r tal que qrj < qsj , onde s é
escolhido de modo que qsj = supi qij . Como P é irredutı́vel, temos que existe n
72 CAPÍTULO 6. SISTEMAS MISTURADORES

(n)
tal que Psr > 0. Assim,

k
(n)
k
(n)
qsj = Psi qij < ( Psi )qsj = qsj ,
i=1 i=1

o que é uma contradição. Logo, qij não depende de i. Seja qj = qij este valor
comum. Como pQ = p, temos que:

k k
pj = pi qij = ( pi )qj = qj ,
i=1 i=1

terminando a prova do Lema.

Uma observação simples é que a condição do lema anterior é equivalente a


(l)
irredutibilidade de P . De fato, se caso contrário existiriam i, j tais que Pij = 0
 (l)
n−1
para todo l ∈ N, onde n1 Pij = 0.
l=0
O teorema a seguir mostra que a irredutibilidade é uma condição necessária
e suficiente para que uma medida de Markov seja ergódica:
Teorema 6.10. Seja µ uma medida de Markov relativa a uma matriz estocástica
P . Então µ é ergódica se, e só se, P é irredutı́vel.
Demonstração. Primeiramente, vamos assumir que µ é ergódica e mostraremos
que P é irredutı́vel. De fato, tendo em vista a Proposição 6.1, como µ é ergódica,
se considerarmos os cilindros de comprimento 1, A = [1; j] e B = [0; i], temos
que:
1
n−1
lim µ(σ −l (A) ∩ B) = µ(A)µ(B) = pi pj . (6.4)
n→∞ n
l=0
Por outro lado, de acordo com o Lema 6.7 temos que
(l)
µ(σ −l (A) ∩ B) = µ([0; i] ∩ [l; j]) = pi Pij
Substituindo na equação 6.4 e cancelando pi em ambos os lados,

1 (l)
n−1
Pij = pj .
n
l=0
(n)
Em particular, existe n tal que Pij > 0.
Agora, mostraremos que se P é irredutı́vel, então µ é ergódica. Apelando
 (l)
n−1
para o Lema 6.9, podemos assumir que lim n1 Pij = pj .
n→∞ l=0
Utilizando a Proposição 6.1, para mostrar que µ é ergódica, basta mostrar
que para todos A, B mensuráveis vale:

1
n−1
µ(σ −l (A) ∩ B) = µ(A)µ(B).
n
l=0
6.2. DESLOCAMENTOS DE MARKOV 73

Mostraremos isto em dois passos: inicialmente, veremos que basta mostrar no


caso em que A e B são uniões disjuntas de cilindros. A seguir, mostraremos
essa propriedade para uniões disjuntas de cilindros. De fato, assumindo que
a equação 6.1 vale para uniões disjuntas de cilindros, dados A e B borelianos
quaisquer e  > 0, escolha A0 e B0 uniões disjuntas de cilindros de modo que
µ(A∆A0 ) ≤  e µ(B∆B0 ) ≤ . Assim,

1 1
n−1 n−1
µ(σ −l (A)∩B)−µ(A)µ(B) ≤ µ(σ −l (A)∩B)−µ(σ −l (A0 )∩B0 )+
n n
l=0 l=0

1 1
n−1 n−1
+ µ(σ −l (A0 ) ∩ B0 ) − µ(A0 )µ(B0 ) + µ(A0 )µ(B0 ) − µ(A)µ(B).
n n
l=0 l=0

Fazendo  arbitrariamente pequeno e n arbitrariamente grande, temos que os


termos acima são arbitrariamente pequenos, mostrando nossa afirmação.
Resta-nos mostrar que a equação 6.1 vale para uniões de cilindros disjuntos.
Deixaremos para o leitor a verificação de que basta mostrar que essa equação
vale para cilindros. Verificaremos para o caso em que A = [m; am , . . . , an ] e
B = [r; br , . . . , bs ] são cilindros com m > r. Assim:

1 (m+l−r)
µ(σ −l (A) ∩ B) = µ(A)µ(B)Pbr am .
pam

Logo, segue diretamente que

1 1 (m+l−r)
n−1 n−1
1
µ(σ −l (A) ∩ B) = µ(A)µ(B) Pbr am .
n pam n
l=0 l=0

Como
1 (l)
n−1
Pij = pj ,
n
l=0

acabamos a prova do teorema.

A seguir, mostraremos que uma condição necessária e suficiente para que


uma medida de Markov seja misturadora é que exista algum número n ∈ N tal
que Pijn > 0 para todos i e j. Ou seja, mostraremos o seguinte teorema:

Teorema 6.11. São equivalentes:

1. µ é misturadora
(n)
2. lim Pij = pj
n→∞

(n)
3. Existe n ∈ N tal que Pij > 0 para todos i e j.
74 CAPÍTULO 6. SISTEMAS MISTURADORES

Demonstração. 1 implica 2: Assim como no Teorema 6.10, se considerarmos


os cilindros de comprimento 1 A = [1; j] e B = [0; i], como µ é misturadora,
temos que:
lim µ(σ −l (A) ∩ B) = µ(A)µ(B) = pi pj .
l→∞
Por outro lado,
(l)
lim µ(σ −l (A) ∩ B) = µ([0; i] ∩ [l; j]) = pi Pij .
l→∞

Cancelando o termo pi nas equações acima, obtemos o item 2.


2 implica 3: Trivial.
3 implica 1: Essa é a parte mais difı́cil de nosso teorema. Para mostrar que
µ é misturadora, utilizando o Proposição 6.5, basta mostrar que a equação ??
vale para cilindros. De fato, como já vimos, se A = [m; am , . . . , an ] e B =
[r; br , . . . , bs ] são cilindros com m > r, então:
1 (m+l−r)
µ(σ −l (A) ∩ B) = µ(A)µ(B)Pbr am .
pam
Logo, é suficiente mostrar que
(n)
lim Pij = pj .
n→∞

De fato, assuma por um instante que a sequência de matrizes P (n) converge


para uma matriz Q. Em particular,

1 (i)
n−1
lim P = Q.
n→∞ n
i=0

Assim, de acordo com o Lema 6.9, Q = (qij ) não depende de i e qij = pj . Neste
ponto, recorreremos a o seguinte teorema (para uma prova do teorema, veja ??):
Teorema 6.12 (Perron-Fröbenius). Seja A uma matriz k × k tal que alguma
de suas potências tem todas as entradas maiores que zero. Então:
1. Existe algum auto-valor λ de A tal que λ > µ, para todo auto-valor µ
de A
2. O auto-espaço associado a λ tem dimensão 1.
A partir do Teorema de Perrón, vamos mostrar agora que P (n) de fato con-
verge, quando n → ∞. Primeiramente, mostraremos que o auto-valor dom-
inante λ de P obtido pelo Teorema de Perrón é, de fato, igual a um. Para
mostrar isso, utilizaremos a adjunta P ∗ de P e o fato que os auto-valores de
P e de sua adjunta coincidem. Assim, podemos escolher v = (v1 , . . . , vk ) um
auto-vetor com vi > 0 associado ao auto-valor λ maximal para a adjunta P ∗ ,

k
tal que vi = 1, obtido como no Teorema de Perrón. Logo:
i=1


k
P ∗ v = λv ⇒ Pji vi = λvj ,
i=1
6.3. EXERCÍCIOS 75


k
Somando com respeito à j e observando que Pji = 1,
j=1


k
k k
k
1= vi = ( Pji )vi = λ vj = λ.
i=1 i=1 j=1 j=1

Para concluir a demonstração, denote por V o subespaço de Rk definido por



k
W2 = {(x1 , . . . , xk ); = 0. Observe que P deixa invariante W2 , ou seja,
i=1
P W2 = W2 e que o auto-espaço W1 associado ao auto-valor 1 de P intersecta W2
somente na origem, uma vez que pelo Teorema de Perrón, W1 é unidimensional
e tem algum vetor com todas as coordenadas positivas. Logo, pelo item 1 do
Teorema de Perrón, o módulo de todos os auto-valores de P |W2 são menores
que um, de onde obtemos que lim P (n) |W2  = 0. Finalmente, dado um vetor
n→∞
x ∈ Rk , podemos escrevê-lo como x = x1 + x2 , com x1 ∈ W1 e x2 ∈ W2 . Isto
implica automaticamente que lim P (n) x = x1 , concluindo a prova da afirmação
de que a sequência P n era convergente.

6.3 Exercı́cios
76 CAPÍTULO 6. SISTEMAS MISTURADORES
Capı́tulo 7

Entropia Métrica

Este capı́tulo é dedicado ao estudo da entropia de uma medida invariante,


um conceito que contém diversas informações ergódicas do sistema dinâmico.
Por exemplo, podemos vê-lo como um número que mede quão desordenada a
dinâmica de uma transformação que preserva uma medida pode ser. Outro as-
pecto interessante refere-se a distinguir duas transformações que preservam me-
dida do ponto de vista de sua estrutura ergódica: se as suas entropias diferem,
as transformações são definitivamente diferentes do ponto de vista ergódico.
Finalmente, veremos a relação entre esse invariante métrico e um invariante
topológico para o sistema dinâmico: a entropia topológica.

7.1 Entropia de uma partição


A definição intuitiva de entropia topológica, htop (f ), e de entropia de uma me-
dida µ invariante, hµ (f ), é motivada pela necessidade de medir o crescimento
de possibilidades para um certo evento. Vamos tentar tornar isso mais claro,
considerando um exemplo muito familiar: o shift finito com 2 sı́mbolos σ + .
Por exemplo, podemos pensar nessa transformação modelando o lançamento
de uma moeda viciada (0 para cara e 1 para coroa). Ao jogar uma moeda n
vezes, o número de sequências diferentes de cara ou coroa que podemos obter
cresce exponencialmente, a uma taxa exponencial htop (f ) = log 2. Por outro
lado, se nossa moeda viciada atribui probabilidade p para cara e probabilidade
(1 − p) para coroa é razoável, pelo teorema de Birkhoff, que a média de caras
que aparecem em n lançamentos seja pn. Ou seja, se n é grande, a medida das
sequências tı́picas com pn caras é muito próxima de 1. Adiantamos que neste
caso a entropia da medida de Bernoulli µ que atribui probabilidade p ao evento
cara e probabilidade (1 − p) para coroa é hµ (f ) = −(p log p + (1 − p) log(1 − p)).
Um motivo intuitivo para esta definição é o que se segue: a medida de uma
sequência tı́pica é exatamente igual a

ppn (1 − p)(1−p)n = e(p log p+(1−p) log(1−p))n = e−hµ (f )n .


78 CAPÍTULO 7. ENTROPIA MÉTRICA

Assim, o número de sequências tı́picas diferentes (que realmente são as que


importam no sentido de medida) é exponencial da ordem ehµ (f )n .
Vamos agora tornar um pouco mais rigorosos os conceitos intuitivos que
definimos anteriormente, começando pela definição de entropia métrica. Exis-
tem várias definições possı́veis de entropia métrica e um consenso: sob hipóteses
razoáveis elas coincidem. Nos concentraremos na definição de Kolmogorov, via
entropia de partições:
Definição 7.1. Seja f : X → X uma transformação que preserva a probabili-
dade µ. Dada uma partição Q enumerável de X, a entropia da partição Q com
respeito à µ é o número,

Hµ (Q) = − µ(Q) log µ(Q),
Q∈Q

onde se convenciona que 0 log 0 = 0.


Uma vez fixado o número de elementos, para obtermos uma partição com
entropia maior possı́vel, temos que tentar escolher seus elementos de modo que
suas medida com respeito à µ seja o mais ”igual”possı́vel (veja o Exercı́cio 7.1.)
Em outros termos, se o número de elementos das partições é fixado, então a
partição que tem maior entropia possı́vel é aquela em que a medida de seus
elementos é melhor distribuida.
Isso nos motiva a ilustrar a definição de entropia com o seguinte exemplo:
foi acertado um clássico entre os principais times de um estado (para dar nomes,
digamos CSA x CRB). O técnico do CSA tem no seu plantel cerca de 22 jo-
gadores, podendo organizar seu time de 28.158.588.057.600 modos diferentes.
Denotaremos o conjunto dessas configurações por X e a cada configuração x
do time do CSA associaremos um ı́ndice técnico t(x) e um ı́ndice fı́sico f (x),
que são obtidos de acordo com algum padrão de medição fixado (por exemplo,
atribuı́do pelo comentarista do jogo, Gavião Boêmio, tomando valores inteiros
de 0 a 10). Classificaremos uma configuração x do time de acordo com sua
qualidade técnica como ótima, se t(x) ≥ 9, boa, se 7 ≤ t(x) < 9, regular, se
6 ≤ t(x) < 7 e ruim, se t(x) ≤ 6. Isso gera uma partição T do espaço das
configurações X em quatro subconjuntos,

T = {T1 , T2 , T3 , T4 }.

Como o time referido é o CSA, a medida do conjunto das configurações ótimas


é quase igual a 1. Assim, a entropia é muito pequena, pois −µ(Ti ) log µ(Ti ) é
muito próxima de 0 para cada i. Aqui nós estamos pensando em µ como sendo
a medida da contagem, definida por
#A
µ(A) = .
#X
Por outro lado, se tivéssemos considerado o CRB, as medidas dos conjuntos
T1 , T2 , T3 e T4 seriam quase iguais a 14 e a entropia seria bem próxima de log 4.
7.1. ENTROPIA DE UMA PARTIÇÃO 79

Logo, se houvesse um aposta na loteria consistindo em adivinhar a condição


técnica do time do CSA no dia do confronto (assuma que o treinador faltou e que
os times estão sendo escolhidos por meio de um sorteio, para tornar o processo
aleatório) essa aposta deverá pagar muito menos que a aposta consistindo em
adivinhar a condição técnica do time do CRB. Assim, a entropia pode ser vista
como uma certa medida da “dificuldade” em se ganhar essa aposta.
Vamos agora calcular a entropia de algumas partições que já estudamos:
Exemplo 7.2. Seja f dada por
f : [0, 1] → [0, 1], f (x) = 10x − [10x].
Se P é a partição por intervalos Pk = ( 10
k k+1
, 10 ] com k = 0, . . . , 9, então a
entropia da partição P com respeito à medida de Lebesgue m de [0, 1] é dada
9 1 1
por Hm (P) = i=0 − 10 log 10 = log 10.
Exemplo 7.3. Consideremos o deslocamento unilateral com d sı́mbolos {1, . . . , d}
e a partição Pl formada pelos cilindros de comprimento n, ou seja, Pl é for-
mada pelos conjuntos C = [0, l; a0 , . . . , al ] = {(x0 , . . . , xn , . . . ) ∈ Σ+ ; ai =
xi para i = 0, . . . , l − 1}. A entropia de Pl com respeito à medida de Bernoulli
m relativa ao vetor de probabilidades p = (p1 , . . . , pd ) é dada por Hm (P l ) =

−l di=1 pi log pi (veja exercı́cio 7.3.)
Porém, nem sempre a entropia de uma partição é finita. Realmente, vamos
dar agora um exemplo de uma partição
 com entropia infinita. Para tanto,
1
usaremos os fatos de que a série n(log n)2 é convergente com soma igual a
n≥1  c
um certo número c > 0, enquanto que a série n log n é divergente.
n≥1

Exemplo 7.4. Considere a transformação f (x) = 10x − [10x] acima. Clara-


mente a medida de Lebesgue é invariante para f . Para construir a partição, de-
1
componha o intervalo [0, 1] em subintervalos An de modo que m(An ) = cn log n2 .
Deste modo, se A = {A1 , . . . , An , . . . } segue que
+∞
+∞
log c + log n + 2 log(log n) 1
Hm (A) = ≥ =∞
n=1
cn(log n)2 n=1
n log n

Dadas duas partições P e Q podemos definir uma nova partição P ∨ Q de


X do seguinte modo:
P ∨ Q = {A ∩ B; A ∈ P e B ∈ Q}.
Dada a partição P, denotaremos por P n a partição

n−1
Pn = f −i (P).
i=0

Observe que se P = {P1 , . . . , Pd }, cada elemento de P n é dado por um itinerário


(a0 , . . . , an−1 ), ai ∈ {1, . . . , p}. Quer dizer, cada elemento de P n é formado pelos
pontos x ∈ M tais que f i (x) ∈ Pai .
80 CAPÍTULO 7. ENTROPIA MÉTRICA

7.2 Entropia de um sistema ergódico


Novamente, voltando ao exemplo CSA contra CRB, vamos agora considerar a
partição das configurações do time do CSA de acordo com o nı́vel de preparação
fı́sica dos jogadores como

• Ruim: F1 = {x ∈ X; f (x) ≤ 5}
• Regular: F2 = {x ∈ X; 6 ≤ f (x) ≤ 7}
• Boa: F3 = {x ∈ X; f (x) = 8}
• Ótima: se F4 = {x ∈ X; f (x) ≥ 9}.

Se denotamos F = {F1 , . . . , F4 }, então

P = T ∨ F = {Ti ∩ Fj ⊂ X; i, j = 1, 2, 3, 4},

representa as possibilidades para o time do CSA, de acordo com a nossa classi-


ficação técnica e fı́sica. Digamos agora que o time do CSA está participando da
Super Copa Nordeste, consistindo de 200 jogos no sistema de pontos corridos.
Para otimizar os resultados e diminuir os custos com treinador, cada jogador
tem seu perfil instalado num computador que, a partir da configuração x da
última partida disputada, escolhe a configuração f (x) para a partida seguinte.
Deste modo, se escolhemos ao acaso a configuração do time para a primeira par-
tida do campeonato, as demais estarão determinadas pelo computador. Assim,
podemos considerar a partição

P 200 = P ∨ f −1 (P) ∨ . . . , f −199 (P),

que representa as possı́veis configurações do time do CSA ao longo do campe-


onato, de acordo com a classificação técnica e fı́sica adotada. Claramente, essa
partição depende da programação feita no computador. Por exemplo, se o com-
putador a partir de uma configuração qualquer, escolhe sempre um certo time,
por exemplo o time xf formado pelos filhos dos dirigentes, então se Pf denota
o elemento da partição P que contém xf , vem que

f −i (P) = {X},

logo
P 200 = P ∨ {X} ∨ · · · ∨ {X} = P.
Assim, descobrir a configuração do time ao longo do campeonato é tão difı́cil
quanto descobrir que time jogará no dia da abertura; a partir daı́, o time que
entrará em campo será sempre o mesmo, escolhido pelo computador. Vamos
agora introduzir o conceito de entropia de uma partição. A entropia da partição
P com respeito à transformação f e à medida µ é o número:
H(P n )
hµ (f, P) = lim
n→+∞ n
7.2. ENTROPIA DE UM SISTEMA ERGÓDICO 81

n
)
Devemos mostrar que a sequência H(P n é convergente para que o limite
acima faça sentido. Deixaremos esta demonstração a cargo do leitor (veja os
Exercı́cios 7.4 e 7.5.)
Assim, no nosso exemplo futebolı́stico, dada uma programação f do com-
putador, a entropia da partição P representa a dificuldade em descobrir qual
será a configuração, de acordo com a nossa classificação do time do CSA, ao
longo da Super Copa Nordeste, dado que o time inicial é determinado por um
sorteio. Por exemplo, se para cada configuração x o computador associa para o
próximo jogo uma certa configuração fixada que maximiza a qualidade do time
(por exemplo, a soma de t(x) com f (x)), então não é difı́cil ver que a entropia da
partição P 200 é igual à entropia de P. Ou seja, não é nada difı́cil para um apos-
tador, descobrir a configuração do time do CSA ao longo de todo campeonato:
basta descobrir a configuração no primeiro dia. Observe que neste caso:
1 Hµ (P 200 ) ∼ Hµ (P) ∼
hµ (f, P) = lim Hµ (P n ) ∼
= = = 0.
n→∞ n 200 200
Ou seja, a aposta descobrir a configuração do time do CSA ao longo da Super
Copa Nordeste é muito previsı́vel e devemos pagar pouco ao vencedor dela. Claro
que isso só acontece se nossa programação for, em certo sentido, previsı́vel. Se,
por exemplo, o time do CSA for escolhido a cada rodada por meio de um sorteio,
então descobrir a sua configuração ao longo do campeonato se torna muito mais
complicado. Neste caso, a entropia da partição P dependerá da medida de seus
átomos, ou seja, da medida de cada elemento Pi . Definiremos agora uma forma
global de medir a complexidade de uma transformação, no sentido métrico.
A palavra global aqui refere-se que ela não dependerá de nenhuma partição
especı́fica.
Definição 7.5. A entropia de f com respeito à medida µ é:

hµ (f ) = sup hµ (f, P),


P

onde o supremo é tomado sobre todas as partições finitas de X.


Vamos agora ilustrar um pouco a definição com alguns exemplos:
Exemplo 7.6. Seja f :→ X uma transformação e p ∈ X um ponto fixo para
f , i.e., tal que f (p) = p. Deste modo, a medida δp definida por:

δp (A) = 0 , se p ∈
/A
1 , se p ∈ A,

é uma medida invariante por f . Vamos calcular sua entropia: claramente, a


entropia de qualquer partição é zero, já que a medida de um conjunto A é zero
ou um. Em ambos os casos, δp (A) log δp (A) = 0. Assim, segue-se diretamente
que a entropia hδp (f ) é zero.
Um fato interessante que podemos extrair diretamente do exemplo acima
é que a função entropia µ → hµ (f ) pode ser descontı́nua: de fato, a medida
82 CAPÍTULO 7. ENTROPIA MÉTRICA

µSRB absolutamente contı́nua com respeito à medida de Lebesgue para uma


transformação expansora, construı́da no Capı́tulo 9, pode ser obtida como limite
de medidas de Dirac concentradas nos pontos periódicos. Porém, sua entropia
é igual a log | det Df |dµSRB > 0, como mostra o Teorema 8.18.

Exemplo 7.7. Considere o shift completo com d sı́mbolos σ + : Σ+ +


d → Σd . Se
+
tomarmos a partição P de Σd dada pelos cilindros de comprimento 1 podemos
verificar que P n é simplesmente a partição por cilindros de comprimento n. No
exemplo 7.3 calculamos a entropia de P n com respeito à medida de Bernoulli µp

com vetor de probabilidades p = (p1 , . . . , pd ), obtendo −n di=1 pi log pi . Assim,


d
hµp (σ + , P) = − pi log pi .
i=1

De fato, este número é a entropia da transformação σ + com respeito à medida


µp : isso é consequência do fato de que P é uma partição geradora e do Teorema
de Kolmogorov-Sinai. Veja a Seção 7.3

Exemplo 7.8. Vamos calcular a entropia da medida de Lebesgue de [0, 1] para


a transformação dada por f (x) = 10x − [10x]. Se considerarmos a partição P
como no exemplo 7.2, note que existem exatamente 10n elementos em P n e cada
um deles é um intervalo de comprimento 10−n . Assim, m(C) = 10−n para todo
C ∈ P n . Donde

1 log 10−n
hm (f, P) = lim −m(C) log m(C) = lim − = log 10.
n n
n
C∈P

Além disso, a entropia desta partição é a entropia da medida de Lebesgue.


Isso é consequência novamente do Teorema de Kolmogorov-Sinai.

Exemplo 7.9. Esse exemplo é dedicado a calcular a entropia de uma rotação


Rα de ângulo α do cı́rculo S 1 com respeito à medida de Lebesgue m. Na
verdade, o argumento que usaremos abaixo se aplica a qualquer bijeção men-
surável f : S 1 → S 1 (ou f : [0, 1] → [0, 1]) que preserve uma dada medida
µ. Primeiramente, observe que uma partição do cı́rculo P com k elemen-
tos é determinada por uma sequência p1 , . . . , pk de pontos de S 1 . Observe
também que se denotamos por pji = f −j (pi ) então P n é determinada pelo con-
junto de pontos Cn = {(pji ) ∈ S 1 ; i = 1, . . . , k e j = 0, . . . , n − 1}. Note que
#Cn ≤ #Cn−1 + k, pois Cn − Cn−1 = {pn1 , . . . , pnk }. Assim, é fácil deduzir por
indução que #P n ≤ kn. Deste modo:

Hµ (P n ) #P n log kn
hµ (f, P) = lim ≤ = lim = 0.
n n n

Como a escolha de P foi arbitrária, temos que hµ (f ) = 0.


7.3. TEOREMA DE KOLMOGOROV-SINAI 83

7.3 Teorema de Kolmogorov-Sinai


Definição 7.10. Seja f : X → X uma transformação invertı́vel preservando
uma probabilidade µ no espaço de probabilidade (X, A, µ). Uma partição P é

+∞
dita geradora se f −n P gera a σ-álgebra A. No caso que f é não-invertı́vel,
n=−∞

+∞
então P é geradora se f −n P gera a σ-álgebra.
n=0

Teorema 7.11. Seja P uma partição geradora para f : X → X preservando


uma probabilidade µ no espaço de probabilidade (X, A, µ). Então:

hµ (f ) = hµ (f, P).

7.4 Equivalência ergódica


Vamos agora definir uma relação de equivalência do ponto de vista ergódico
entre as transformações que preservam medida. Duas transformações serão
equivalentes se, após retirarmos conjuntos de medida zero, suas dinâmicas são
conjugadas. Mais precisamente:

Definição 7.12. Sejam f1 : X1 → X1 preservando a medida µ1 e f2 : X2 → X2


preservando a medida µ2 . Diremos que o sistema (f1 , µ1 ) é equivalente à (f2 , µ2 )
se podemos escolher conjuntos Y1 e Y2 com µ1 (X1 − Y1 ) = 0 e µ2 (X2 − Y2 ) = 0,
e uma bijeção mensurável φ : Y1 → Y2 com inversa mensurável tal que:

1. µ1 (φ−1 (A)) = µ2 (A) para todo A ⊂ Y2 mensurável;

2. φ ◦ f1 = f2 ◦ φ.

Muitas vezes a relação de equivalência acima é chamada de conjugação


ergódica entre (f1 , µ1 ) e (f2 , µ2 ) e φ é dita a conjugação.

Observação 7.13. Observe que os conjuntos Y1 e Y2 acima podem ser tomados


de modo que f1 (Y1 ) ⊂ Y1 e f2 (Y2 ) ⊂ Y2 . De fato, se B1 = X1 − Y1 não
 −i
+∞
é invariante por f1 , tome B̃1 = f (B1 ). Como µ1 (B1 ) = 0, temos que
i=0
µ1 (f −i (B1 )) = µ1 (B1 ) = 0, donde segue-se que µ1 (B̃1 ). Analogamente para
B2 = X2 − Y2 .

Claramente a relação acima é de equivalência (prove isto!). Vamos agora ver


alguns exemplos de transformações equivalentes do ponto de vista ergódico:

Exemplo 7.14. Considere a transformação do intervalo f : [0, 1] → [0, 1] tal


que f (x) = 2x − [2x] preservando a medida de Lebesgue m, onde [x] é o menor
inteiro menor ou igual a x. Observe que, escrevendo um número x ∈ [0, 1]
em sua expansão binária x = 0, a1 a2 a3 . . .2 , a transformação f é simplesmente
84 CAPÍTULO 7. ENTROPIA MÉTRICA

“deslocar”um dı́gito de x para esquerda. Isso nos motiva a considerar a aplicação


φ : [0, 1] → Σ+ N
2 = {0, 1} definida por

x = (0, a1 a2 a3 . . . )2 → φ(x) = (a1 , a2 , a3 , . . . ).

Observe que em alguns pontos φ não está bem definida. Por exemplo, podemos
escrever (0, 1)2 de outro modo, a saber, como (0, 1)2 = (0, 01111 . . . )2 . Porém,
isso não gera maiores problemas: o conjunto B dos pontos que se escrevem
de dois modos diferentes é enumerável (prove isso!) e, logo, tem medida de
Lebesgue nula. Eventualmente, um ponto de [0, 1] pode ser mapeado por f em
um ponto de B. Observe que como cada f −i (B) é enumerável, conjunto


B∞ = f −i (B)
i=0

é enumerável. Em particular o conjunto B∞ tem medida de Lebesgue zero.


Assim, considerando o conjunto Y1 = [0, 1] − B∞ e Y2 ⊂ Σ+ 2 definido como
sendo o conjunto enumerável dos itinerários obtidos a partir dos elementos de
B∞ podemos definir a tranformação φ, que faz com que (f1 , m) seja ergodica-
mente equivalente ao shift completo com 2 sı́mbolos, equipado com a medida de
Bernoulli associada ao vetor (1/2, 1/2).
Facilmente, podemos generalizar esse exemplo para uma transformação do
intervalo [0, 1] dada por f (x) = nx mod1. Neste caso, f será conjugada a um
shift completo com n sı́mbolos munido da medida de Bernoulli associada ao
vetor (1/n, . . . , 1/n).

7.5 Equivalência Espectral


Uma definição mais fraca de equivalência, levando em conta somente as pro-
priedades espectrais da transformação e pode ser formulada como se segue:
Definição 7.15. Seja f : M → M transformação preservando uma medida
µ e g : N → N uma transformação preservando uma medida ν. Dizemos
que (f, µ) é espectralmente equivalente à (g, ν) se existe uma bijeção linear
T : L2 (M, µ) → L2 (N, ν) contı́nua tal que:

Ug ◦ T = T circUf .

Esta definição garante se (f, µ) é espectralmente equivalente à (g, ν) então


todas as propriedades espectrais de (f, µ) também valem para (g, ν). Em
particular, se (f, µ) é ergodica, então (g, ν) também é ergódica. Veremos no
Capı́tulo 10.28 uma noção mais geral de equivalência entre duas transformações
preservando medida, que negligencia conjuntos que têm medida zero.
Proposição 7.16. Sejam d1 e d2 números naturais e σ1 e σ2 deslocamentos de
Bernoulli com d1 e d2 sı́mbolos, respectivamente. Então, σ1 e σ2 são espectral-
mente equivalentes.
7.6. A ENTROPIA COMO INVARIANTE 85

7.6 A entropia como invariante


Como veremos na proposição abaixo, a entropia é um invariante com respeito a
essa relação de equivalência. Isso torna a entropia bastante útil em identificar
quando duas transformações preservando medida não são equivalentes.

Proposição 7.17. Se (f1 , µ1 ) é ergodicamente equivalente a (f2 , µ2 ), então


hµ1 (f1 ) = hµ2 (f2 ).

Demonstração. Seja P1 uma partição de X1 . Desprezando um conjunto de


medida µ1 nula podemos supor, sem perda de generalidade, que P1 é uma
partição em Y1 . Defina

P2 = φ(P1 ) = {φ(P ) ⊂ X2 ; P ∈ P1 }.

Observe que como φ é uma bijeção mensurável, temos que P2 é de fato uma
partição de X2 . Além disso, utilizando que φ ◦ f1 = f2 ◦ φ vem que φ(P1n ) =
φ(P1 )n = P2n . Assim, existe uma bijeção entre os elementos de P1n e os elementos
de P2n de modo que cada elemento P ∈ P1n é levado por φ num elemento φ(P )
de P2n . Como µ1 (P ) = µ2 (φ(P )) para cada P ∈ P1n temos que
 
Hµ1 (P1n ) = −µ1 (P ) log µ1 (P ) = −µ2 (φ(P )) log µ2 (φ(P ))
P ∈P1n P ∈P1n

= −µ2 (Q) log µ2 (Q) = Hµ2 (P2n ).
Q∈P2n

Assim, vem diretamente que

hµ1 (f1 , P1 ) = hµ2 (f2 , P2 ).

Como a partição P1 de X1 foi escolhida de modo arbitrário, tomando o supremo


no lado esquerdo da igualdade acima, vem que hµ1 (f1 ) ≤ hµ2 (f2 ). Aplicando o
mesmo argumento com f2 no lugar de f1 , vem que hµ2 (f2 ) ≤ hµ1 (f1 ), o que
encerra a prova.

Apesar da utilidade clara do teorema acima em determinar quando duas


transformações preservando medida não são equivalentes, a entropia métrica
tem a limitação de não ser um invariante completo para a relação de equivalência
que definimos acima. Por exemplo, já vimos que a entropia da medida de
Lebesgue de uma rotação é sempre igual a zero. Porém, rotações irracionais
não podem ser equivalentes a rotações racionais. De fato, todas as órbitas de
uma rotação racional são periódicas, enquanto todas as órbitas de uma rotação
irracional são densas. Porém, nem tudo está perdido: se nos restringirmos a
classe dos shifts de Bernoulli a entropia é de fato um invariante completo. Esse
resultado é o famoso:

Teorema 7.18 (Orstein[Orn70]). Dois shifts de Bernoulli com a mesma en-


tropia são necessariamente equivalentes.
86 CAPÍTULO 7. ENTROPIA MÉTRICA

Vamos agora introduzir uma nova forma de calcular a entropia de uma me-
dida invariante, devida a Brin e Katok [BK83], com um certo sabor topológico.
Primeiramente, vamos definir o conceito de bola dinâmica:
Definição 7.19. A bola dinâmica de tamanho n e raio  em torno do ponto x
é o conjunto:

B
(n, x) = {y ∈ M ; d(f i (x), f i (y)) < , i = 0, 1, . . . , n − 1},

ou equivalentemente,


n−1
B
(n, x) = f −k (B
(f k (x))).
k=0

A entropia de µ é a média da taxa exponencial de decrescimento da medida


µ das bolas dinâmicas. Tornando a frase anterior mais clara, defina as funções:
1
h(x, ) = − lim sup log µ(B
(n, x))
n→∞ n
e
h(x) = lim h(x, ).

→0

O Teorema de Brin-Katok afirma que:

Teorema 7.20 (Brin-Katok [BK83]). A função h(x) definida acima é µ-


integrável e, além disso, vale:

hµ (f ) = h(x)dµ.

7.7 Exercı́cios
7.1. Mostre que se Q = {Q1 , . . . , Qd }, então Hµ (Q) ≤ log d. (dica:Use cálculo
n
e mostre que se x1 , . . . , xd ≥ 0 são números reais positivos tais que i=1 xi = 1,
d
então − i=1 xi log xi é máximo quando x1 = x2 = · · · = xd = 1/d.)

7.2. Mostre que a função h(x) é f -invariante. Conclua daı́ que se µ é ergódica,
então hµ (f ) = h(x) para µ quase todo ponto x.

7.3. Mostre que se P é a partição por cilindros de comprimento 1, então a


entropia de P n com respeito à medida de Bernoulli m  relativa ao vetor de
d
probabilidades p = (p1 , . . . , pd ) é dada por Hm (P n ) = −n i=1 pi log pi .
7.4. Uma sequência de números reais an é dita subaditiva se an+m ≤ an + am .
Mostre que se an ≥ 0 é subaditiva então o limite limn→∞ ann existe.

7.5. Mostre que dada uma partição finita P de X então a sequência Hµ (P n ) é


subaditiva.
7.7. EXERCÍCIOS 87

7.6. Mostre que se α = (α1 , . . . , αn ) ∈ Πn e Rα : Πn → Πn é a rotação de ângulo


α definida por Rα (x1 , . . . , xn ) = (x1 +αn , . . . , xn +αn ), então hm (Rα ) = 0, onde
m é a medida de Lebesgue.
7.7. Defina A : Π2 → Π2 por A(x, y) = (2x, 12 y). Mostre que a entropia de A
com respeito à medida de Lebesgue m é hm (A) = log 2.
7.8. Mostre as seguintes propriedades da entropia:
1. Para n ∈ N, hµ (f n ) = nhµ (f );
2. Se t ∈ [0, 1] e µ1 , µ2 são medidas f -invariantes, então

htµ1 +(1−t)µ2 (f ) = thµ1 (f ) + (1 − t)hµ2 (f )

1

n−1
3. Se p é um ponto periódico de perı́odo n e µ = n δf i (p) , então hµ (f ) = 0
i=0
88 CAPÍTULO 7. ENTROPIA MÉTRICA
Capı́tulo 8

Entropia Topológica

Introduziremos agora um importante conceito topológico com conexão com a


definição de entropia métrica, estudada anteriormente. Este invariante será um
número que, como veremos, coincide com o supremo das entropias métricas
quando percorremos o conjunto de todas as medidas invariantes. Estudaremos
também sua relação com a taxa de crescimento do número de pontos periódicos
e sua versão para fluxos.

8.1 Definição via coberturas


Daremos primeiramente uma definição de entropia topológica com o sabor da
definição de entropia via partições. Neste caso, o ingrediente que utilizaremos
é a noção de entropia de uma cobertura (note que aqui não iremos nos reportar
a nenhuma medida invariante.)
Definição 8.1. Seja X um espaço métrico e α uma cobertura de X. Definiremos
N (α) o número da cobertura α como a menor cardinalidade possı́vel de uma
subcobertura de α, ou seja,

N (α) = inf{#β; β ⊂ α é subcobertura de X}.

A entropia de α é simplesmente o número H(α) = log N (α).


Se U e V são coberturas tais que dado qualquer U ∈ U existe algum V ∈ V
isso por tal que U ⊂ V , então dizemos que U refina V e denotamos isso por
V ≺ U.
Do mesmo modo como foi feito para partições, dadas duas coberturas α e β
podemos definir uma nova cobertura α ∨ β de X do seguinte modo:

α ∨ β = {A ∩ B; A ∈ α e B ∈ β}.

Dada uma partição α, definimos αn por

αn = α ∨ · · · ∨ f −n+1 (α).
90 CAPÍTULO 8. ENTROPIA TOPOLÓGICA

Deixaremos para o leitor a tarefa de mostrar que H(αn ) é uma sequência sub-
aditiva (Exercı́cio 8.2.)
Assim, dada uma função contı́nua f : X → X, definimos a entropia de f
com respeito a cobertura α, como sendo o número
1
h(f, α) = lim H(αn ).
n→∞ n
Finalmente, a entropia topológica de f é

htop (f ) = sup{h(f, α); α é cobertura aberta finita de X}.

Exemplo 8.2. Vamos agora calcular a entropia topológica de uma bijeção


mensurável f : S 1 → S 1 (ou f : [0, 1] → [0, 1]). Primeiramente, dada uma
cobertura do cı́rculo α podemos supor, sem perda de generalidade, que α é for-
mada por intervalos abertos. Sejam p1 , p2 , . . . , pk os extremos desses intervalos.
Observe que se denotamos por pji = f −j (pi ) então αn é determinada pelo con-
junto de pontos Cn = {(pji ) ∈ S 1 ; i = 1, . . . , k e j = 0, . . . , n − 1}. Note que
#Cn ≤ #Cn−1 + k, pois Cn − Cn−1 = {pn1 , . . . , pnk }. Assim, é fácil deduzir por
indução que #αn ≤ kn. Deste modo:

Hµ (αn ) #αn log kn


hµ (f, α) = lim ≤ = lim = 0.
n n n
Como a escolha de α foi arbitrária, temos que hµ (f ) = 0.
Exemplo 8.3. Como consequência do exemplo anterior, a entropia de uma
rotação Rα de ângulo α do cı́rculo S 1 é sempre igual a zero.
Vamos agora mostrar a seguinte proposição, útil para calcular a entropia
topológica de uma transformação.
Proposição 8.4. Seja βn uma sequência de coberturas finitas tais que os seus
diâmetros diam βn vão para zero quando n vai para infinito. Então,

htop (f ) = sup h(f, βn ) = lim h(f, βn ).


n∈N n→∞

Demonstração. Observe primeiramente que dada uma cobertura finita V, pode-


mos escolher N suficientemente grande de modo que se n > N então diamβn é
menor que o número de Lebesgue γ da cobertura V. Relembrando a definição, γ
é um número de Lebesgue de V se, dado qualquer conjunto C com diamC ≤ γ,
então existe V ∈ V tal que C ⊂ V . Logo, como diamβn ≤ γ, temos que todo
elemento B de βn está contido em algum V ∈ V. Logo, V ≺ βn , o que implica
diretamente que h(f, V) ≤ h(f, βn ), pois V k ≺ βnk , para todo ∈ N. Em particu-
lar, h(f, V) ≤ sup h(f, βn ). Logo, tomando o supremo sobre todas as coberturas
n∈N
finitas no lado esquerdo da igualdade anterior:

htop (f ) = sup h(f, V) ≤ sup h(f, βn ) ≤ htop (f ).


n∈N
8.2. DEFINIÇÃO VIA CONJUNTOS GERADORES 91

Para mostrar que a sequência h(f, βn ) é convergente, suponha que uma sub-
sequência βni satisfazendo lim h(f, βni ) = h. Vamos mostrar que h = htop (f ).
i→∞
De fato, dado  > 0, podemos escolher N grande de modo que se i > N , então
h −  ≤ h(f, βni ≤ h + . Deste modo, aplicando a parte que já mostramos à
sequência ωi = βni+N , temos que

htop (f ) = sup h(f, ωi ) ∈ (h − , h + ).


i∈N

Como  é arbitrário, vem que htop (f ) = h, provando que a sequência h(f, βn ) é


convergente.

Corolário 8.5. Se α é uma cobertura tal que lim diam αn = 0, então


n→∞

htop (f ) = h(f, α).

8.2 Definição via conjuntos geradores


Vamos agora definir de uma outra forma o conceito de entropia topológica,
utilizando a definição de conjunto gerador.

Definição 8.6. Seja f : X → X uma aplicação contı́nua do espaço métrico


 ⊂ X. Dado  > 0 e n ∈ N, dizemos que E é um (n, )-gerador de X,,
(X, d) e E
se X = B
(n, x).
x∈E

Consideraremos daqui por diante X compacto para que sempre exista um


conjunto (n, )-gerador finito. Isso decorre diretamente da definição de conjuntos
compactos, pois sempre podemos cobrir X por bolas dinâmicas de raio  e
tamanho n. Para cada par (n, ), associaremos um número Sn () definido por

Sn () = inf{#E; E ⊂ X é (n, )-gerador }.

Deixaremos para o leitor a tarefa de verificar que a sequência log Sn () é suba-
ditiva (Exercı́cio 8.3.)
Assim, podemos considerar o limite

1
h(f, ) = lim log Sn ().
n→∞ n

Observando que a função  → h() é monótona decrescente, temos que o


limite h(f ) = lim h(f, ) existe. De fato, temos que

→0

Proposição 8.7. Com as definições anteriores vale

h(f ) = htop (f ).
92 CAPÍTULO 8. ENTROPIA TOPOLÓGICA

8.3 Entropia de fluxos


Com as ferramentas introduzidas vamos facilmente definir o conceito de entropia
topológica para um fluxo de uma variedade compacta φt : M → M. Primeira-
mente, vamos definir o análogo da bola dinâmica B
(n, x). Para isso, para cada
T > 0 defina a distância:

dT (x, y) = max d(φt (x), φt (y))


t∈[0,T ]

Definimos B
(T, x) = {y ∈ M ; dT (x, y) ≤ } a bola de raio  na 
distância dT .
Um conjunto E ⊂ Xserá chamado de (T, )-gerador de X , se = B
(n, x).
x∈E
Assim, de forma análoga ao que fizemos no caso de aplicações, definimos
ST () = inf{#E; E ⊂ X é (T, ) − gerador } e

1
h(φ, ) = lim log ST ().
T →∞ T
Finalmente, a entropia topológica do fluxo φ é definida como sendo o número:

htop (φ) = lim h(φ, ).



→0

Uma primeira conexão entre a entropia topológica de fluxos e aplicações é:

Teorema 8.8. A entropia topológica htop (φ) do fluxo φt coincide com a entropia
topológica htop (φ1 ) da aplicação φ1 .

Um importante resultado (cuja prova foge ao âmbito deste texto) é:

Teorema 8.9 (Princı́pio Variacional). Seja f : X → X uma função contı́-


nua do espaço métrico compacto X. Denote por I o conjunto das medidas (de
probabilidade) invariantes por f . Então vale a igualdade:

htop (f ) = sup hµ (f ).
µ∈I

Podemos tirar algumas conclusões úteis do teorema acima. A primeira delas


é que se para alguma medida invariante a entropia métrica é positiva então, a
entropia topológica também o é. Em contrapartida, se a entropia de toda as
medida invariantes é igual a zero, então a entropia topológica também é igual
a zero. Como consequência disso e do exemplo 7.9, reobtemos que a entropia
topológica de qualquer bijeção do intervalo ou de S 1 é zero, já que a entropia
métrica de qualquer medida invariante é igual a zero.
Uma das boas propriedades da entropia topológica é que ela é um invari-
ante topológico: se duas transformações são equivalentes do ponto de vista
topológico, então sua entropia topológica é a mesma. Como fizemos no capı́tulo
anterior, vamos tornar preciso o que entendemos por transformações equiva-
lentes (agora no sentido topológico):
8.4. PRESSÃO TOPOLÓGICA 93

Definição 8.10. Sejam f1 : X1 → X1 e f2 : X2 → X2 funções contı́nuas dos


espaços métricos X1 e X2 . Diremos que f1 é topologicamente equivalente à f2
se existe um homeomorfismo h : X1 → X2 tal que:
h ◦ f1 = f2 ◦ h.
Neste caso dizemos que f1 é topologicamente conjugado a f2 e h é dita uma
conjugação entre f1 e f2 .
Observação 8.11. Observe que se o ponto p ∈ X1 é tal que f1n (p) = p, então
f2n (φ(p)) = φ(f1n (p)) = φ(p). Em palavras, φ leva pontos periódicos de f1 em
pontos periódicos de f2 . De modo análogo, não é difı́cil ver que φ leva pontos
de X1 com órbita por f1 densa, em pontos de X2 com órbita por f2 densa.
Deixamos a prova da proposição abaixo para o leitor:
Proposição 8.12. Se f1 é topologicamente equivalente a f2 , então htop (f1 ) =
htop (f2 ).
Como no caso da entropia métrica, a entropia topológica tem a limitação de
não ser um invariante completo. Por exemplo, duas rotações quaisquer do circulo
têm sempre a mesma entropia topológica, igual a zero. Porém, uma rotação
irracional tem todos os pontos com órbita densa, enquanto uma rotação racional
não possui nenhum com esta propriedade, já que todos são periódicos. De acordo
com a observação acima, isso torna impossı́vel que haja uma conjugação entre
elas.

8.4 Pressão topológica


Vamos agora definir uma generalização do conceito de entropia topológica, in-
troduzindo o conceito de pressão topológica de uma função φ : X → R com
respeito a transformação f : X → X. Esse conceito (oriundo da Fı́sica, como
o próprio nome indica) será também um invariante topológico de f , no sentido
de que duas transformações topologicamente equivalentes atribuem a mesma
pressão a uma função φ. Suporemos que o espaço X é compacto para que as
quantidades tratadas sejam sempre finitas, mas os conceitos expostos são de
caráter geral e não dependem desta condição.

Definição 8.13. Dado n ∈ N vamos denotar φn (x) = n−1 i
i=0 φ(f (x)). Dado
um conjunto C ⊂ X então φn (C) = maxx∈C φn (x).
Dada uma cobertura α de X definimos a pressão de φ com respeito a cober-
tura α como:
1
P (φ, α) = lim log inf n { eφn (U) },
n→+∞ n U ⊂α
U∈U
onde o ı́nfimo é tomado sobre todas subcoberturas U de αn .
Fica como exercı́cio para o leitor diligente mostrar que o limite acima existe
(a essa altura o caminho a ser percorrido é standard: mostre que a sequência é
subaditiva).
94 CAPÍTULO 8. ENTROPIA TOPOLÓGICA

Definição 8.14. A pressão P (φ, f ) de φ com respeito a f é o supremo dos


valores de P (φ, α) sobre todas as coberturas abertas de X.

Proposição 8.15. Sejam φ, ψ ∈ C 0 (X) e C ∈ R. Então:

1. P (0, f ) = htop (f )

2. P (φ + C, f ) = P (φ, f ) + C

3. Se existir função limitada u : X → R tal que φ se escreve como φ =


ψ + u ◦ f − u ( e neste caso diremos que a função φ é cohomóloga a ψ),
então P (φ, f ) = P (ψ, f ).

Demonstração. Para o item 1, fixada uma cobertura  α observe que como φ =


φn (U)
0, então dada uma subcobertura U de αn vale U∈U e = #U. Logo,
P (0, α) = h(f, α) para cada cobertura α de X.
No item 2, observe que se denotamos Φ = φ + C então Φn (x) = φn (x) +
Cn.
 Logo, fixada uma cobertura α, para qualquer subcobertura U de αn vale
Φn (U) Cn φn (U)
U∈U e = e U∈U e . Assim, segue diretamente que P (Φ, α) =
P (φ, α) + C e, por conseguinte, que P (Φ, f ) = P (φ, f ) + C
Para o último item, inicialmente = ψ + u ◦ f − u valeque φn (x) =
como φφn (U)
= eu(f (x))−u(x) U∈U eψn (U) .
n
ψn (x) + u(f n (x)) − u(x). Assim, U∈U e
Logo, como u é limitada, digamos |u(x)| ≤ K, então vale que

eφn (U) = e2K eψn (U) .
U∈U U∈U

Segue diretamente que P (φ, α) = P (ψ, α) e, consequentemente, P (φ, f ) =


P (ψ, f ).

8.5 Princı́pio variacional


Denotaremos também a pressão
 da medida µ com respeito a φ como sendo o
número Pµ (φ) = hµ (f ) + φ dµ. Para simplificar nossa notação, sempre que f
estiver fixada e não houver perigo de confusão, utilizaremos P (φ) para indicar
P (φ, f ).
É simples ver que se t ∈ [0, 1] e µ1 , µ2 ∈ I então (veja exercı́cio 7.8):

Ptµ1 +(1−t)µ2 (φ) = tPµ1 (φ) + (1 − t)Pµ2 (φ).

Como já observamos, se tomarmos φ = 0 então a pressão de φ é exatamente


a entropia topológica. Podemos nos perguntar se a pressão topológica de um
potencial contı́nuo qualquer admite uma caracterização via supremo no conjunto
de medidas, como obtivemos para φ = 0. A resposta para esta pergunta é sim
e forma o importante teorema conhecido como Princı́pio Variacional para a
pressão:
8.5. PRINCÍPIO VARIACIONAL 95

Teorema 8.16 (Princı́pio Variacional). Se I é o conjunto das probabilidades


invariantes para uma transformação contı́nua f : X → X do espaço compacto
X e φ : X → R é contı́nua, então

P (φ, f ) = sup Pµ (φ) = sup hµ (f ) + φ dµ (8.1)
µ∈I µ∈I

Outra boa propriedade da pressão é que ela é uma função contı́nua com o
potencial. Mostraremos, sem muito esforço, que
Proposição 8.17. P : C 0 (X) → R é Lipschitz com constante de Lipschitz igual
a 1.
Demonstração. De fato, dados os potenciais φ e ψ ∈ C 0 (X) vale que:

ψ − φ − ψ ≤ φ ≤ ψ + φ − ψ

De onde , para cada µ ∈ I:



hµ (f ) + ψ dµ − φ − ψ ≤ hµ (f ) + φ dµ ≤ hµ (f ) + ψ dµ + φ − ψ

Tomando o supremo em µ nas desigualdades acima:

P (ψ) − φ − ψ ≤ P (φ) ≤ P (ψ) + φ − ψ

Ou equivalentemente, P (φ) − P (ψ) ≤ φ − ψ.


Agora vamos estudar a pressão de um potencial particular, a saber, φ(x) =
− log | det Df (x)| e tirar conclusões quando f é uma transformação expansora
de classe C 2 , estudada no Capı́tulo 9 anterior. Na prova da proposição a seguir,
vamos utilizar alguns resultados clássicos de teoria ergódica. O leitor que os
desconhece pode recorrer à Seção 12.2.
Proposição 8.18. Seja M d uma variedade compacta de dimensão d. Se f é
uma transformação expansora de classe C 2 , então P (− log | det Df (x)|) = 0.
Demonstração. Observe primeiramente que se µ é uma probabilidade invariante
para f , pela desigualdade de Ruelle (veja o Teorema 12.3) se χ(x) é a soma dos
expoentes de Lyapunov positivos de x, então a entropia de µ satisfaz:

hµ (f ) ≤ χi (x) dµ(x).

Por outro lado, como a transformação f é expansora, todos os expoentes de


Lyapunov de f são positivos e, pelo teorema de Oseledets, a soma de todos os
expoentes de Lyapunov λi (x) é


d
λi (x) = χi (x) = log | det Df (x)|.
i=1
96 CAPÍTULO 8. ENTROPIA TOPOLÓGICA

Consequentemente, a pressão P (φ) satisfaz:



P (− log | det Df |) = sup{hµ (f ) − log | det Df (x)| dµ(x)} ≤ 0.
µ∈I

De fato, P (− log | det Df |) = 0. Para ver isso, basta calcularmos a entropia da


medida µSRB construı́da no capı́tulo 9. Note que essa medida tem a propriedade
de ser absolutamente contı́nua com respeito a medida de Lebesgue de M . Isso
nos coloca em condições de aplicar a fórmula de Pesin, que nos garante que:

hµSRB (f ) = χi (x) dµSRB (x) = log | det Df (x)| dµSRB .

8.6 Exercı́cios
8.1. Se U e V são coberturas tais que U ≺ V, então H(V) ≤ H(U).
8.2. Mostre que H(αn ) é uma sequência subaditiva.
8.3. Mostre que fixado , então a sequência log Sn () é subaditiva.
8.4. Mostre que o máximo da função h : Rd → R dada por h(x1 , . . . , xd ) =
d
− i=1 xi log xi restrita ao simplexo {xi ≥ 0; x1 + · · · + xd = 1} é igual a log d
e é obtido exatamente quando x1 = x2 = · · · = xd = d1 . Conclua que entre as
medidas de Bernoulli do Shift completo com d sı́mbolos, a de maior entropia é
dada pelo vetor de probabilidade ( d1 , . . . , d1 ).
8.5. Este exercı́cio é uma generalização do anterior: sejam a1 , . . . , ad números
reais. Mostre que o máximo da função F : Rd → R dada por


d
F (x1 , . . . , xd ) = −xi log xi + xi ai
i=1

restrita ao simplexo {xi ≥ 0; x1 + · · · + xd = 1} é obtido exatamente quando

eaj
xj = .

d
eai
i=1
Capı́tulo 9

Transformações Expansoras

Nesta seção provamos que para qualquer transformação expansora cujo jaco-
biano det Df é Hölder 1 existe uma única probabilidade invariante absoluta-
mente contı́nua com relação à medida de Lebesgue. Essa probabilidade é posi-
tiva em todos os subconjuntos abertos de M , é ergódica, e a sua bacia de atração
tem medida de Lebesgue total em M .
Definição 9.1. Seja M uma variedade compacta e f : M → M uma trans-
formação de classe C 1 . Dizemos que f é expansora se existe σ > 1 e alguma
métrica riemanniana  ·  em M tais que

Df (x)v ≥ σv para todo x ∈ M e v ∈ Tx M . (9.1)

Exemplo 9.2. Seja F : Rd → Rd , d ≥ 1 um isomorfismo linear satisfazendo


F (Zd ) ⊂ Zd . Então existe uma única transformação f : Td → Td no toro
d-dimensional M = Td tal que f ◦ π = π ◦ F , onde
 
π : Rd → Td , π(x1 , . . . , xd ) = e2πix1 , . . . , e2πixd

é a projeção canônica. Se todos os autovalores λ1 , . . . , λd de F têm norma


maior que 1 então a transformação f é expansora: podemos tomar qualquer
1 < σ < inf i |λi | em (9.1).
Chamamos suporte de uma probabilidade µ o conjunto dos pontos tais que
toda vizinhança tem medida positiva para µ. Note que o suporte de µ é o espaço
M inteiro se e somente se µ é positiva em todo aberto de M .
Quando µ é invariante para f , chamamos bacia de µ o conjunto B(µ) dos
pontos x ∈ M tais que

1
n−1
lim ϕ(f j (x)) = ϕ dµ
n→∞ n
j=0

1 Dado ν > 0, dizemos que φ : M → R é ν-Hölder se existe alguma constante C > 0 tal que

|φ(x1 ) − φ(x2 )| ≤ Cd(x1 , x2 )ν para todo x1 , x2 em M .


98 CAPÍTULO 9. TRANSFORMAÇÕES EXPANSORAS

para toda função contı́nua ϕ : M → R. Note que a bacia sempre é um conjunto


invariante. Se µ é ergódica então B(µ) tem µ-medida total.
Teorema 9.3. Seja f : M → M uma transformação expansora numa variedade
compacta conexa M . Assuma que o logaritmo

M  x → log | det Df (x)|

do jacobiano de f é ν-Hölder, para algum ν > 0. Então f admite uma única


probabilidade invariante µ absolutamente contı́nua com relação à medida de
Lebesgue m. Além disso, µ é ergódica, o seu suporte coincide com M e a sua
bacia tem medida de Lebesgue total na variedade.
A estratégia da demonstração do Teorema 9.3 é a seguinte. É fácil ver
que a pré-imagem por f de um conjunto com medida de Lebesgue m nula
também tem medida de Lebesgue nula. Isto significa que a imagem f∗ ν por
f de qualquer medida ν absolutamente contı́nua com relação a m também é
absolutamente contı́nua com relação a m. Em particular, a nésima imagem
f∗n m é absolutamente contı́nua com relação à medida de Lebesgue m para todo
n ≥ 1.
Provaremos na Proposição 9.6 que a derivada de Radon-Nikodym de cada
f∗n m com relação a m (também chamada densidade) é limitada por alguma
constante independente de n ≥ 1. Deduziremos que todo ponto de acumulação,
na topologia fraca∗ , da sequência

1 j
n−1
f m
n j=0 ∗

é uma probabilidade invariante absolutamente contı́nua com relação à medida


de Lebesgue, com densidade limitada pela mesma constante.
Um argumento adicional provará que tal ponto de acumulação é único e
satisfaz todas as propriedades no enunciado do teorema.

9.1 Lema de distorção


A hipótese de que a transformação f : M → M é expansora serve para obter a
seguinte proposição:
Lema 9.4. Existe k ≥ 1 tal que todo ponto y ∈ M tem exatamente k pré-
imagens por f . Além disso, existe ρ0 > 0 tal que, para qualquer pré-imagem x
de um ponto y ∈ M , existe uma aplicação h : B(y, ρ0 ) → M de classe C 1 tal
que f ◦ h = id , h(y) = x e

d(h(y1 ), h(y2 )) ≤ σ −1 d(y1 , y2 ) para todo y1 , y2 ∈ B(y, ρ0 ).

Demonstração. A condição (9.1) implica que a derivada Df é um isomorfismo


em todo ponto. Logo, dado qualquer x ∈ M existe ρ0 > 0 tal que f envia
9.1. LEMA DE DISTORÇÃO 99

alguma vizinhança V (x) de x difeomorficamente sobre a bola de raio ρ0 em


torno de y = f (x). Por compacidade, podemos tomar ρ0 independente de x.
Então o número de pré-imagens de qualquer y ∈ M deve ser limitado. Além
disso, o conjunto dos pontos que têm exatamente n pré-imagens é aberto, para
todo n ≥ 0. Portanto, por conexidade, o número de pré-imagens deve ser o
mesmo para todo y ∈ M . Finalmente, seja h = (f | V (x))−1 . Pela condição
(9.1),
Dh(z) = Df (h(z))−1  ≤ σ −1
para todo z no domı́nio de h, e portanto h contrai distâncias à taxa σ −1 como
enunciamos.
Transformações h como neste enunciado são chamadas ramos inversos de f .
Mais geralmente, podemos definir ramos inversos hn de f n , n ≥ 1, da seguinte
maneira. Dado y ∈ M e x ∈ f −n (y), sejam h1 , . . . , hn ramos inversos de f com

hj (f n−j+1 (x)) = f n−j (x)

para todo 1 ≤ j ≤ n. Como cada hj é uma contração, a sua imagem está contida
numa bola de raio menor que ρ0 em torno de f n−j (x). Então hn = hn ◦ · · · ◦ h1
está bem definida na bola de raio ρ0 em torno de y. É claro que f n ◦ hn = id e
hn (y) = x.
O próximo resultado fornece um bom controle da distorção de iterados de f
e seus ramos inversos, que é crucial para a demonstração do teorema. Este é o
único lugar onde se usa a hipótese de que o jacobiano é Hölder.
Proposição 9.5 (lema de distorção). Existe C1 > 0 tal que, dado qualquer
n ≥ 1, qualquer y ∈ M , e qualquer ramo inverso hn : B(y, ρ0 ) → M de f n ,
tem-se
| det Dhn (y1 )|
≤ exp(C1 d(y1 , y2 )ν ) ≤ exp(C1 (2ρ0 )ν )
| det Dhn (y2 )|
para todo y1 , y2 ∈ B(y, ρ0 ).
Demonstração. Escrevamos hn como composição hn = hn ◦ · · · ◦ h1 de ramos
inversos de f . Também escrevemos hi = hi ◦ · · · ◦ h1 para 1 ≤ i < n, bem como
h0 = id . Então
| det Dhn (y1 )|
n
log = log | det Dhi (hi−1 (y1 ))| − log | det Dhi (hi−1 (y2 ))| .
| det Dhn (y2 )| i=1

Note que log | det Dhi | = − log | det Df | ◦ hi e, por hipótese, log | det Df | is
(C0 , ν)-Hölder for some C0 > 0. Além disso, pelo Lema 9.4, cada hj é uma
σ −1 -contração. Logo,

| det Dhn (y1 )|


n n
log ≤ C0 d(h i
(y 1 ), h i
(y 2 ))ν
≤ C0 σ −iν d(y1 , y2 )ν .
| det Dhn (y2 )| i=1 i=1
∞
Portanto, para provar o lema basta tomar C1 = C0 i=1 σ −iν .
100 CAPÍTULO 9. TRANSFORMAÇÕES EXPANSORAS

9.2 Medidas absolutamente contı́nuas


O próximo resultado, que é uma consequência do lema de distorção, mostra que
as imagens f∗n m têm densidades uniformemente limitadas:
Proposição 9.6. Existe C2 > 0 tal que (f∗n m)(B) ≤ C2 m(B) para todo con-
junto mensurável B ⊂ M e todo n ≥ 1.
Demonstração. Podemos, sem restrição, supor que B está contido em alguma
bola B0 = B(z, ρ0 ) de raio ρ0 centrada em algum ponto z ∈ M . Usando a
Proposição 9.5 vemos que

B | det Dh | dm
n
m(hn (B)) m(B)
=  ≤ exp(C1 (2ρ0 )ν ) ,
m(hn (B0 )) B0 | det Dh n | dm m(B0)

para todo ramo inverso hn de f n no ponto z. Além disso, também temos que
(f∗n m)(B) = m(f −n (B)) é a soma de m(hn (B)) sobre todos os ramos inversos,
e analogamente para B0 . Deste modo, obtemos que

(f∗n m)(B) m(B)


≤ exp(C1 (2ρ0 )ν ) .
(f∗n m)(B0 ) m(B0 )

Claro que (f∗n m)(B0 ) ≤ (f∗n m)(M ) = 1. Além disso, a medida de Lebesgue das
bolas com um raio fixado ρ0 está limitada de zero por alguma constante α0 > 0
que só depende de ρ0 . Então, para obter a conclusão da proposição basta tomar
C2 = exp(C1 (2ρ0 )ν )/α0 .
Também precisamos do seguinte resultado auxiliar:
Lema 9.7. Seja ν uma probabilidade num espaço métrico compacto X, e seja
ϕ : X → [0, +∞) uma função integrável com respeito a ν. Seja µi , i ≥ 1,
uma sequência de probabilidades em X convergindo para uma probabilidade µ
na topologia fraca∗ . Se µi ≤ ϕν para todo i ≥ 1 então µ ≤ ϕν.
Demonstração. Seja B um conjunto mensurável qualquer. Para cada ε > 0,
seja Kε um subconjunto compacto de B tal que µ(B \ Kε ) e (ϕν)(B \ Kε )
são ambos menores que ε. Então seja Aε uma vizinhança aberta de Kε da
forma Aε = {z : d(z, Kε ) < r}, com r > 0 suficientemente pequeno para que a
medida de Aε \ Kε seja menor que ε, tanto para µ como para ϕν. Mudando r
ligeiramente, caso necessário, podemos supor que o bordo de Aε tem µ-medida
zero: há no máximo uma quantidade enumerável de valores de r para os quais
isso não acontece. Então, µ = lim µi implica µ(Aε ) = lim µi (Aε ) ≤ (ϕν)(Aε ).
Fazendo ε → 0 obtemos que µ(B) ≤ (ϕν)(B).
Aplicando este lema na nossa situação, obtemos
n−1
Corolário 9.8. Todo ponto de acumulação µ da sequência n−1 j=0 f∗j m é
uma probabilidade invariante para f absolutamente contı́nua com relação à me-
dida de Lebesgue.
9.3. EXISTÊNCIA DE MEDIDAS ERGÓDICAS 101

Demonstração.
ni −1Tomemos ϕ constante igual a C2 e ν = m. Tomemos também
µi = n−1
i j=0 f j
∗ m, para qualquer subsequência (ni )i tal que (µi )i converge
para uma medida µ. A Proposição 9.6 garante que νi ≤ ϕν. Então também
temos µ ≤ ϕν = C2 m, pelo Lema 9.7. Isto implica que µ m, com densidade
limitada por C2 .

9.3 Existência de medidas ergódicas


Agora vamos mostrar que a medida µ que acabamos de construir é a única prob-
abilidade invariante absolutamente contı́nua com relação à medida de Lebesgue
e, além disso, é ergódica para f .
Começamos por fixar uma partição P0 = {U1 , . . . , Us } de M em regiões com
interior não vazio e diâmetro menor que ρ0 . Então, para cada n ≥ 1, definimos
Pn como sendo a partição de M que consiste das imagens de cada um dos Ui ,
1 ≤ i ≤ s, pelos respectivos ramos inversos de f n . O diâmetro da partição Pn ,
ou seja, o supremo dos diâmetros dos seus elementos, é menor que ρ0 σ −n .
Lema 9.9. Seja Pn , n ≥ 1, uma sequência de partições num espaço métrico
compacto com diâmetros convergindo para zero quando n → ∞. Seja ν uma
probabilidade nesse espaço, e seja B qualquer conjunto mensurável com ν(B) >
0. Então existem Vn ∈ Pn , para n ≥ 1, tais que
ν(B ∩ Vn )
ν(Vn ) > 0 e →1 quando n → ∞.
ν(Vn )
Demonstração. Dado qualquer 0 < ε < ν(B), seja Kε um subconjunto com-
pacto de B com ν(B \ Kε ) < ε. Como o diâmetro das partições converge para
zero, a medida da união Aε,n de todos os elementos de Pn que intersectam Kε
satisfaz ν(Aε,n \ Kε ) < ε para todo n suficientemente grande. Se tivéssemos
ν(B) − ε
ν(Kε ∩ Vn ) ≤ ν(Vn )
ν(B) + ε
para todo Vn ∈ Pn que intersecta Kε , deduzirı́amos que
ν(B) − ε ν(B) − ε
ν(Kε ) ≤ ν(Aε,n ) ≤ (ν(Kε ) + ε) ≤ ν(B) − ε,
ν(B) + ε ν(B) + ε
o que é uma contradição. Portanto, deve existir algum Vn ∈ Pn tal que
ν(B) − ε
ν(B ∩ Vn ) ≥ ν(Kε ∩ Vn ) > ν(Vn )
ν(B) + ε
e isto implica ν(Vn ) > 0. Fazendo ε → 0 obtemos a conclusão do lema.
Lembre que A ⊂ M é um conjunto invariante para f : M → M se f −1 (A) =
A. Mais geralmente, dizemos que A é positivamente invariante se f (A) = A.
Note que conjuntos invariantes sempre são positivamente invariantes, porque f
é sobrejetiva.
102 CAPÍTULO 9. TRANSFORMAÇÕES EXPANSORAS

Lema 9.10. Se A ⊂ M um conjunto positivamente invariante para f com


medida de Lebesgue m(A) > 0, então A tem medida de Lebesgue total em algum
Ui ∈ P0 , ou seja, existe 1 ≤ i ≤ s tal que m(Ui \ A) = 0.

Demonstração. Pelo Lema 9.9, existe Vn ∈ Pn tal que

m(Vn \ A)
m(Vn )

converge para zero quando n → ∞. Seja Ui(n) = f n (Vn ). Pela Proposição 9.5
aplicada ao ramo inverso de f n que envia Ui(n) em Vn , concluı́mos que

m(Ui(n) \ A) m(f n (Vn \ A))   m(Vn \ A)


≤ n
≤ exp C1 (2ρ0 )ν
m(Ui(n) ) m(f (Vn )) m(Vn )

também converge para zero. Como P0 é finito, deve existir 1 ≤ i ≤ s tal que
i(n) = i para infinitos valores de n. Logo, m(Ui \ A) = 0.

Corolário 9.11. A transformação f : M → M admite alguma probabilidade


invariante ergódica e absolutamente contı́nua com relação à medida de Lebesgue.

Demonstração. Como consequência do lema anterior, existem no máximo #P0


conjuntos invariantes com medida de Lebesgue positiva disjuntos dois-a-dois.
Portanto, M pode ser particionado num número finito de conjuntos invariantes
A1 , . . . , As , s ≤ #P0 com medida de Lebesgue positiva e que são minimais
no seguinte sentido de que não existem subconjuntos invariantes Bi ⊂ Ai com
0 < m(Bi ) < m(Ai ). Dada qualquer medida invariante absolutamente contı́nua
µ, existe algum i tal que µ(Ai ) > 0. Então a restrição normalizada µi de µ a
Ai ,
µ(B ∩ Ai )
µi (B) =
µ(Ai )
é invariante e absolutamente contı́nua. Além disso, µi é ergódica, porque Ai é
minimal.

9.4 Unicidade e conclusão da prova


O argumento anterior também mostra que existe apenas um número finito de
probabilidades ergódicas e absolutamente contı́nuas. O último passo da demon-
stração é mostrar que, de fato, tal probabilidade é única. Para isso usamos o
fato de que f é topologicamente misturadora:

Lema 9.12. Dado qualquer aberto não vazio U ⊂ M , existe N ≥ 1 tal que
f N (U ) = M .

Demonstração. Seja x ∈ U e r > 0 tais que a bola de raio r centrada em


x está contida em U . Dado qualquer n ≥ 1, suponha que f n (U ) não cobre
toda a variedade. Então existe alguma curva γ ligando f n (x) a um ponto
9.5. EXERCÍCIOS 103

y ∈ M \ f n (U ), e essa curva pode ser tomada com comprimento menor que


diam M + 1. Levantando γ pelo difeomorfismo local f n , obtemos uma curva γn
ligando x a um ponto yn ∈ M \ U . Então r ≤ comp(γn ) ≤ σ −n (diam M + 1).
Isto dá uma cota superior para o valor possı́vel de n. Logo, f n (U ) = M para
todo n suficientemente grande, como afirmamos.
Corolário 9.13. Se A ⊂ M é um conjunto positivamente invariante com me-
dida de Lebesgue positiva, então A tem medida de Lebesgue total na variedade
M.
Demonstração. Seja U o interior de um conjunto Ui como no Lema 9.10, e
seja N ≥ 1 tal que f N (U ) = M . Então m(U \ A) = 0, e portanto M \ A =
f N (U ) \ f N (A) ⊂ f N (U \ A) também tem medida de Lebesgue zero.
O próximo enunciado completa a demonstração do Teorema 9.3:
Corolário 9.14. Seja µ qualquer probabilidade invariante absolutamente con-
tı́nua. Então µ é ergódica e a sua bacia B(µ) tem medida de Lebesgue total em
M . Além disso, o suporte de µ é toda a variedade M .
Demonstração. Se A é um subconjunto invariante qualquer então, pelo corolário
anterior, A tem medida de Lebesgue zero ou Ac tem medida de Lebesgue zero.
Uma vez que µ é absolutamente contı́nua, segue que µ(A) = 0 ou µ(Ac ) = 0.
Isto prova que µ é ergódica. Então B(µ) é um conjunto invariante com medida
de Lebesgue positiva e, consequentemente, deve ter medida de Lebesgue to-
tal.Analogamente, como o suporte de µ é um conjunto compacto positivamente
invariante, ele tem que coincidir com M .
Observação 9.15. É possı́vel mostrar que a derivada dµ/dm é Hölder e lim-
itada de zero. Em particular, a probabilidade µ é equivalente à medida de
Lebesgue m, no sentido de que elas têm os mesmos conjuntos com medida nula.
A conclusão do Teorema 9.3 é falsa, em geral, se omitirmos a hipótese de que o
jacobiano é Hölder.

9.5 Exercı́cios
104 CAPÍTULO 9. TRANSFORMAÇÕES EXPANSORAS
Capı́tulo 10

Estados de Equilı́brio

Estudaremos neste capı́tulo uma classe especialmente importante de medidas


invariantes, a saber, os estados de equilı́brio. A definição destas medidas, através
de um princı́pio variacional, tem uma forte motivação fı́sica e encontra aplicações
em várias áreas tais como teoria da dimensão de conjuntos invariantes, estudo de
recorrências do sistema dinâmico, crescimento do número de pontos periódicos,
fluxos geodésicos, medidas fı́sicas, etc. Estaremos interessados em estudar que
hipóteses são relevantes para que perguntas tais como a existência, unicidade,
ergodicidade destas medidas, possam ter respostas positivas. Como veremos,
este estudo pode ser feito para uma ampla classe de difeomorfismos locais em
variedades compactas.

10.1 Definição de Estado de Equilı́brio


Neste capı́tulo consideraremos uma função f : X → X definida em um espaço
métrico X e φ : X → R uma função contı́nua (que daqui por diante chamaremos
de potencial, invocando o termo fı́sico). O conjunto das medidas (de probabili-
dade) µ invariantes por f designaremos pela letra I.

Definição 10.1. Uma medida invariante µφ é dita um estado de equilı́brio para


o potencial φ se
hµφ (f ) + φ dµφ = P (φ, f ).

Ou seja: µφ é um  máximo para a função P = P (φ) : I → R definida por


Pµ (φ) = hµ (f ) + φ dµ.

Exemplo 10.2. Observe que os estados de equilı́brio para o potencial φ = 0


são aquelas medidas que maximizam a entropia. Como vimos no exemplo 7.7,
no caso do deslocamento completo com d sı́mbolos 1, . . . , d, a única medida que
maximiza a entropia é bem conhecida: é a medida de Bernoulli associada ao
vetor de probabilidade ( d1 , . . . , d1 ).
106 CAPÍTULO 10. ESTADOS DE EQUILÍBRIO

Exemplo 10.3. Ainda para a transformação “deslocamento”com d sı́mbolos,


fixados números a1 , . . . , ad podemos considerar o potencial φ(x) = ax0 que é
constante
 nos cilindros [0; i] de comprimento 1. Observe neste caso que a integral
φ dµ se escreve como

d
φ dµ = µ([0; i])ai
i=1

Assim, a função P numa medida de Bernoulli dada pelo vetor de probabilidades
d
(p1 , . . . , pd ) nada mais é que − i=1 pi log pi + pi ai . Logo, utilizando o exercı́cio
8.5 temos que entre todas as medidasa de Bernoulli a que maximiza a P é a que
j
tem vetor de probabilidades pj = de .
eai
i=1

Exemplo 10.4. Se f é uma transformação expansora de classe C 2 em uma


variedade compacta M , como já vimos no Teorema 8.18, a pressão da função
φ(x) = − log | det Df (x)| é P (φ, f ) = 0. Além disso, foi mostrado que se µ é a
medida SRB de f construı́da no capı́tulo 9, então µ é um estado de equilı́brio
para φ já que Pµ (φ) = 0. Não por acaso, essa medida é de certa forma a
medida invariante com maior dimensão possı́vel. Não explicaremos o conceito
de dimensão, mas sugerimos que o leitor interessado consulte [Fal90].

Nosso próximo passo será introduzir uma classe ampla de transformações


com a propriedade de que todo potencial contı́nuo admite algum estado de
equilı́brio.

10.2 Transformações expansivas


Em linhas gerais, as transformações expansivas são aquelas tais que duas órbitas
diferentes são distinguidas, em algum momento, de forma macroscópica. Em
outras palavras, duas condições iniciais diferentes do sistema, mesmo aquelas
muito próximas, produzem efeitos a longo prazo que diferem por uma constante
fixa. Veremos que essa propriedade das órbitas implica uma certa regularidade
da função P e nos permitirá mostrar a existência de estados de equilı́brio para
potenciais contı́nuos. Definamos de modo preciso:

Definição 10.5. Uma transformação f : M → M é dita expansiva se existir


uma constante 0 (chamada constante de expansividade) tal que: dados x, y ∈ M
com x = y, então existe n ∈ N tal que d(f n (x), f n (y)) ≥ 0 .

Exemplo 10.6. Um primeiro exemplo de transformação expansiva é a trans-


formação
f : [0, 1] → [0, 1], f (x) = 10x − [10x]

onde [10x] representa o maior inteiro menor ou igual a 10x, vista na Seção 2.1.
Note que se dois pontos x, y ∈ [0, 1] são distintos, então em algum momento n,
10.2. TRANSFORMAÇÕES EXPANSIVAS 107

o n-ésimo dı́gito an da expansão decimal de x difere do n-ésimo dı́gito bn da


expansão decimal de y. Deste modo,

|an − bn | 1
|f n (x) − f n (y)| > > ,
10 10
1
provando que f é expansiva com constante de expansividade 10 .

Exemplo 10.7. Inspirados no exemplo anterior, não é difı́cil concluir que o


deslocamento introduzido em 5.1.2 é uma transformação expansiva no espaço
das sequências. De fato, o mesmo argumento do exemplo anterior se aplica neste
caso: se a = (an ) e b = (bn ) são sequências distintas, então an = bn para algum
ı́ndice n. Assim, d(σ n (a), σ n (b)) > 20 = 1 (lembre-se que a distância no espaço
das sequências é definida como em 5.1.2), onde podemos tomar a constante de
expansividade igual a 1.

Mais geralmente, os dois exemplos acima fazem parte da classe de trans-


formações que expandem distâncias a uma taxa uniforme, estudadas no capı́tulo
9. De fato, podemos mostrar o seguinte lema

Lema 10.8. Se f é expansora, ou seja, existe σ > 1 tal que

Df (x)v ≥ σv

para todo x ∈ M e v ∈ Tx M , então f é expansiva.

Demonstração. Pelo lema 9.4, existe ρ0 > 0 tal que, para qualquer pré-imagem
x de um ponto y ∈ M , existe uma aplicação h : B(y, ρ0 ) → M de classe C 1 tal
que f ◦ h = id , h(y) = x e

d(h(y1 ), h(y2 )) ≤ σ −1 d(y1 , y2 ) para todo y1 , y2 ∈ B(y, ρ0 ).

Assim, se d(f n (x), f n (y)) ≤ ρ para todo n ≥ 0, concluı́mos que d(x, y) ≤


σ −n d(f n (x), f n (y)) ≤ σ −n ρ, o que implica imediatamente que x = y.

Para ilustrar a propriedade de expansividade, vamos provar uma proposição


conectando o crescimento do número de pontos periódicos de f com a sua en-
tropia topológica. Denotaremos o conjunto P er(n) = {x ∈ M ; f n (x) = x}.
Então:

Proposição 10.9. Se f é expansiva então


1
lim sup log #P er(n) ≤ htop (f ).
n
Demonstração. Seja α uma cobertura de M de diâmetro menor que constante
de expansividade de f . Observe que em um elemento de αn so pode existir
no máximo um ponto de P er(n): de fato, se x, y ∈ P er(n) estão no mesmo
elemento de αn , então d(f i (x), f i (y) <  para i = 0, . . . , n − 1. Como f n (x) = x
108 CAPÍTULO 10. ESTADOS DE EQUILÍBRIO

e f n (y) = y, a desigualdade d(f i (x), f i (y) <  vale para todo i ∈ N. Logo, pela
expansividade de f , x = y. Assim,

1 1
lim sup log #P er(n) ≤ lim sup log #N (αn ) = htop (f, α).
n n
Tomando o limite quando o diâmetro de α vai a zero, temos a desigualdade
requerida.

Não é difı́cil obter transformações que não satisfazem a propriedade de ex-


pansividade. Por exemplo, uma isometria da variedade nunca satisfaz a condição
de expansividade. Se a transformação admitir um ponto fixo do tipo sela, então
(pelo Teorema da Variedade Estável) a transformação também não é expansiva.
Iremos agora tratar as transformações expansivas do ponto de vista ergódico.
Mais precisamente, mostraremos o seguinte teorema:

Teorema 10.10. Seja f : M → M uma transformação expansiva definida


na variedade compacta M e seja C 0 (M ) o conjunto das funções φ : M → R
contı́nuas. Dado qualquer φ ∈ C 0 (M ) existe algum estado de equilı́brio para φ.

Para o conforto do leitor iremos dividir a demonstração do teorema anterior


em um conjunto de lemas. O primeiro deles diz que se P é uma partição com
diâmetro menor que a constante de expansividade e µ é uma medida, então P
é necessariamente uma partição geradora.

Lema 10.11. Seja P = {P1 , . . . , Pk } uma partição tal que para todo i = 1, . . . , k
vale diamPi ≤ ρ. Então, P é geradora com respeito a qualquer medida invariante
µ.

Demonstração. Defina

P (n) = {C (n) = Pi0 ∩ · · · ∩ f −n+1 (Pin−1 )}, para cada n ≥ 1.

Nós precisamos mostrar que dado um conjunto mensurável A e  > 0, existem


(n) (n)
borelianos C1 , . . . , Cm of P (n) tal que
 (n)
µ( Ci ∆A) ≤ .

Primeiramente, observe que se P n (x) denota o elemento da partição P n que


contém x, então limn→∞ diamP n (x) = 0. De fato, se existe uma sequência de
pontos yn ∈ P n (x) tais que d(yn , x) > δ > 0, por compacidade de M , existe o
limite y = limn→+∞ yn (passando a uma subsequência se necessário). Assim,
temos por um lado que d(y, x) > δ > 0 e por outro que y ∈ P n (x) para todo
n, o que implica que d(f n (y), f n (x)) < ρ, o que contradiz a hipótese de f ser
expansiva.
Considere então K1 ⊂ A e K2 ⊂ Ac compactos tais que µ(K1 ∆A) ≤ δ e
µ(K2 ∆Ac ) ≤ δ. Seja r = d(K1 , K2 ) > 0. Temos que se n é suficientemente
10.2. TRANSFORMAÇÕES EXPANSIVAS 109

(n) (n)
grande diamP (n) (x) ≤ r2 , para todo x ∈ M . Considere C1 , . . . , Cm ∈ P (n)
aqueles que intersectam K1 . Então
 (n)  (n)  (n)
µ( Ci ∆A) = µ( Ci − A) + µ(A − Ci )
≤ µ(A − K1 ) + µ(Ac − K2 ) ≤ 2δ.

O que prova o lema.

Observação 10.12. Relembrando a definição de entropia com respeito a uma


partição Q,
Hµ (Q) = −µ(Q) log µ(Q),
Q∈Q

temos que se Q é tal que µ0 (∂Q) = 0, para cada Q ∈ Q e uma medida µ0 fixada,
então a função µ → Hµ (Q) é contı́nua em µ0 . Isso implica diretamente que

1
µ → hµ (f, P) = inf Hµ (P (n) ).
n→∞ n

é semi-contı́nua superiormente em µ0 .

Como consequência do lema 10.11 e da observação 10.12 podemos obter o


seguinte lema:

Lema 10.13. Dado φ ∈ C 0 (M ), a função µ → P = Pµ (φ) = hµ (f ) + φ dµ é
semicontı́nua superiormente.

Demonstração. Como a função µ → φ dµ é contı́nua (logo semicontı́nua su-
periormente), basta mostrar que a transformação H definida por µ → H(µ) =
hµ (f ) é semicontı́nua superiormente. Para tanto, fixe uma medida µ0 e escolha
uma partição P = {P1 , . . . , Pk } tal que µ0 (∂Pi ) = 0 para todo i = 1, . . . , k e
diamPi < ρ, para todo i = 1, . . . , k. Por um lado, o Lema 10.11 nos garante que
P é uma partição geradora para toda medida µ e como consequência do teorema
de Kolmogorov-Sinai, vale hµ (f ) = hµ (f, P). Por outro lado, a observação 10.12
garante que a função µ → hµ (f, P) é semicontı́nua superiormente em µ0 . Logo,
H é semicontı́nua superiormente em µ0 .

Para provar o Teorema 10.10, basta unirmos os resultados que obtivemos:

Prova do Teorema 10.10. Pelo lema anterior, dada φ contı́nua, a função P é


semicontı́nua superiormente. Como vimos no Capı́tulo 3, M1 (M ) é compacto,
logo P admite um máximo, o qual é por definição um estado de equilı́brio para
φ.

Observação 10.14. Podemos selecionar um conjunto residual (intersecção enu-


merável de conjuntos abertos e densos) Φ ⊂ C 0 (M ) tal que se φ ∈ Φ então o
estado de equilı́brio para φ é único.
110 CAPÍTULO 10. ESTADOS DE EQUILÍBRIO

Uma pergunta que surge naturalmente é se existe estado de equilı́brio espe-


cial, ou até mesmo sob que condições para φ garantem que φ admite um único
estado de equilı́brio. Claramente precisamos supor que o sistema f : M → M
seja indecomponı́vel no sentido ergódico pois, caso contrário, poderı́amos sim-
plesmente construir contra-exemplos da seguinte forma: tomando duas cópias
da variedade M , digamos M1 e M2 , disjuntas e considerarı́amos f˜ : M̃ → M̃
atuando na união M̃ = M1 ∩ M2 como sendo f em cada componente Mi . Neste
caso, um estado de equilı́brio para f : M → M produz uma infinidade de esta-
dos de equilı́brio para f˜, via combinação convexa dos estados de equilı́brio em
M1 e M2 . O que falta a f é a condição de transitividade. O grande teorema do
próximo capı́tulo dirá que se f é expansora e M é uma variedade compacta e
conexa (neste caso f é transitiva), então todo potencial H ölder contı́nuo admite
um único estado de equilı́brio.

10.3 Transformações expansoras


Nesta subseção, generalizaremos a construção feita no Capı́tulo 9 num contexto
mais abstrato e com alguns novos ingredientes. Porém, a essência das idéias é
a mesma e tentaremos traçar um parelelo entre os conceitos e teoremas demon-
strados aqui com os do Capı́tulo 9, ressaltando suas semelhanças.

10.3.1 O operador de transferência


Fixados f e phi, definiremos agora um operador que desempenhará um impor-
tante papel na nossa construção.

Definição 10.15. O operador de Ruelle-Perron-Frobenius ou operador de trans-


ferência é o operador Lφ : C 0 (M ) → C 0 (M ) definido no espaço C 0 (M ) das
funções contı́nuas g : M → R por

Lφ g(x) = eφ(y) g(y).
f (y)=x

O seu dual Lφ é o operador L φ : M → M definido no espaço M das medidas


finitas ν de M , do seguinte modo: para toda função contı́nua g : M → R

gd Lφ ν = Lφ g dν.

Algumas propriedades importantes de Lφ e do seu dual são dadas na proposição


abaixo:

Proposição 10.16. Valem as seguintes propriedades:

1. Lφ é um operador linear contı́nuo Lφ  ≤ Ce


φ
, onde C não depende de
φ.
10.3. TRANSFORMAÇÕES EXPANSORAS 111

2. Lφ é positivo: se g(x) ≥ 0 para todo x ∈ M , então Lφ g(x) ≥ 0 para todo


x ∈ M;
3. L φ admite alguma auto-medida ν com ν(M ) = 1

Demonstração. Os items 1 e 2 são imediatos a partir da definição de Lφ e deix-


amos as verificações para o leitor. Para mostrar o item 3 usaremos o Teorema
de Tychonoff-Schauder para pontos fixos que afirma o seguinte: uma função
contı́nua definida num espaço compacto e convexo admite necessariamente um
ponto fixo. Claramente M1 o espaço das medidas de probabilidade em M é
convexo, pois a combinação de duas medidas de probabilidade também é uma
medida de probabilidade. Como foi provado na Seção 3.2, temos que M1 é
compacto. Logo, se definimos a função contı́nua G : M1 → M1 por:
L φ (η)
G(η) =  ,
Lφ 1 dη

existe ν ∈ M1 tal que G(ν) = ν, o que implica que L φ ν = λν, onde λ =



Lφ 1 dν.
As auto-medidas ν para o dual do operador de transferência são chamadas
medidas conformes. Por exemplo, a medida de Lebesgue é uma medida conforme
para o potencial φ = − log | det Df , como o leitor pode verificar empregando
diretamente a fórmula de mudança de variáveis. Em geral, as medidas não são
invariantes pela transformação f .
Definição 10.17. O jacobiano de uma medida µ com respeito a f (quando
existe) é uma função Jµ f tal que se A é um boreliano tal que f |A é injetiva,
então:
µ(f (A)) = Jµ f dµ.
A

Nem sempre o jacobiano de uma medida invariante existe. Quando cada


ponto de M admite somente um número finito de pré-imagens por f , então
Jµ f existe para toda medida invariante. Neste caso, o jacobiano é únicamente
definido, exceto talvez por um conjunto de medida µ zero. Podemos mostrar,
aplicando sucessivas vezes a definição do jacobiano, que se f n |A é injetiva, então


n−1
Jµ f n (x) = Jµ f (f i (x)).
i=0

Deixaremos isso como exercı́cio para o leitor (veja 10.4


Uma das importantes propriedades das medidas conformes é o fato de que
seu jacobiano é bem determinado pela função φ e que vale a fórmula de mudança
de variáveis:
Lema 10.18. Se L φ ν = λν, então

1. O jacobiano de ν com respeito a f é dado por Jν f (x) = λe−φ(x) .


112 CAPÍTULO 10. ESTADOS DE EQUILÍBRIO

2. Se u ∈ C 0 (M ) então

u ◦ f dν = (Jν f (y))−1 u(x) dν(x).
f (y)=x

Demonstração. Começaremos mostrado a fórmula de mudança de variáveis do


item 2. Ora,

1 1
u ◦ f dν = u ◦ f dL φ (ν) = Lφ (u ◦ f ) dν.
λ λ

Por outro lado, Lφ (u ◦ f ) = (eφ(y) u(x), de onde:
f (y)=x

u ◦ f dν = λ−1 eφ(y) u(x) dν(x) = (Jν f (y))−1 u(x)dν(x)).
f (y)=x f (y)=x

Para mostrar o item 1, considere um conjunto mensurável A tal que f |A é


injetiva. Tome uma sequência {gn } ∈ C 0 (M ) tal que gn → χA em ν-q.t.p. e
sup |gn | ≤ 2 para todo n. Então,

Lφ (e−φ gn )(x) = eφ(y) e−φ(y) gn (y) = gn (y).
f (y)=x f (y)=x

Observe que a última expressão converge para χf (A) (x) em ν-quase todo ponto.
Assim, pelo Teorema da Convergência Dominada,

λe−φ gn dν = e−φ gn d(L φ ν) = Lφ (e−φ gn ) dν → ν(f (A)).

Como o lado esquedo também converge para A λe−φ dν, concluimos que

ν(f (A)) = λe−φ dν,
A

terminando a prova do lema.

Lembre-se que B
(n, x) denota a bola dinâmica de raio  e tamanho n cen-
trada em x, como definida em 7.19 e Sn φ(x) = φ(x) + · · · + φ(f n−1 (x)).
Enunciaremos agora o principal teorema deste capı́tulo, devido a Ruelle ([]),
generalizando o teorema 9.3 do Capı́tulo 9:
Teorema 10.19. Seja f : M → M uma transformação expansora numa var-
iedade compacta conexa M e φ : M → R um potencial α-Hölder, para algum
ν > 0. Então, se ν denota uma medida conforme para φ, então
1. Existe uma única probabilidade invariante µφ absolutamente contı́nua com
respeito à ν;
10.3. TRANSFORMAÇÕES EXPANSORAS 113

2. µφ é o único estado de equilı́brio para (f, φ);


3. Além disso, µ é ergódica, o seu suporte coincide com M e vale a condição
de Gibbs: Existe K > 0 tal que para todo x ∈ M

µφ (B
(n, x))
K −1 ≤ ≤ K. (10.1)
eSn φ(x)−nP (φ)

Antes de iniciarmos a prova do Teorema 10.19 vamos fazer alguns comentários


a respeito de sua relação com Teorema 9.3.
A primeira observação é que o Teorema 9.3 é uma caso particular do Teo-
rema 10.19, tomando-se φ = − log | det Df . Neste caso, a pressão de φ é igual
a zero. Uma segunda observação é que a medida conforme ν, obtida como na
proposição 10.16,desempenha aqui o mesmo papel que a medida de Lebesgue
desempenha no Teorema 9.3.
Apesar disso, nosso conhecimento à priori da medida ν é mı́nimo, se re-
sumindo ao seu jacobiano e a fórmula de mudança de variáveis, obtidos no
Lema 10.18. Observe também que a conexidade do domı́nio M é um ingre-
diente indispensável para mostrar a unicidade de µφ . Além disso, seguirá da
prova do Teorema que a medida conforme é única, módulo multiplicação por
uma função.
O trabalho para mostrar o Teorema 10.19 seguirá o seguinte roteiro:
• Fixada uma medida conforme ν associada a um auto-valor λ de L φ ,
mostraremos que existe uma função contı́nua h tal que Lφ h = λh e além
disso, h(x) > 0, para todo x ∈ M ;
• Mostraremos que ν satisfaz a equação 10.1 com a constante P = log λ;
• Construiremos µφ = hν e mostraremos que µφ é invariante, satisfaz a
equação 10.1 e que µφ é o unico estado de equilı́brio para φ absolutamente
contı́nu com respeito à ν .
• Finalmente, mostraremos que qualquer estado de equilı́brio para φ é ab-
solutamente contı́nuo com respeito à ν.
Uma vez explicada a nossa linha geral de ação, vamos começar a construir os
alicerces para a prova do Teorema. A próxima proposição é fundamental para
nossa construção e é o análogo do Lema de distorção ( prop. 9.5), substituindo-
se o jacobiano com respeito à medida de Lebesgue pelo jacobiano da medida
ν.
Proposição 10.20. Existe uma constante A tal que para todos x, y ∈ M tais
que d(f n (x), f n (y)) < δ, então

Ad(f n (x), f n (y))−α ≤ Sn φ(x) − Sn φ(y) ≤ Ad(f n (x), f n (y))α .

Demonstração. Observe que como d(f n (x), f n (y)) < δ, segue-se pelo Lema 9.4
que
114 CAPÍTULO 10. ESTADOS DE EQUILÍBRIO

d(f n−i (x), f n−i (y)) < σ −i d(f n (x), f n (y)). (10.2)
Logo,


n−1
Sn φ(y) − Sn φ(x) ≤ φ(f i (x)) − φ(f i (y)) ≤
i=0

n−1
≤ σ −i d(f n (x), f n (y))α ≤ Ad(f n (x), f n (y))α
i=0

onde A é escolhido suficientemente grande.

Como uma consequência direta da proposição acima, podemos mostrar que:

Corolário 10.21. Existe uma constante K tal que para todos x, y ∈ M tais que
d(f n (x), f n (y)) < δ, então

Jν f n (x)
K2−1 ≤ ≤ K2 .
Jν f n (y)

Demonstração. Como Jν f (x) = λ−1 eφ(x) , segue-se diretamente da definição que

Jν f n (x) = λ−n eSn φ(x) .

Como d(f n (x), f n (y)) < δ, segue-se pelo Proposição 10.20 que

Jν f n (x)
= eSn φ(y)−Sn φ(x) ≤ eAd(f (x),f (y)) ,
n n α

n
Jν f (y)

Assim, nós só precisamos escolher K = eAD , onde D = δ α .

Tendo em mãos esses resultados, mostraremos agora a propriedade de Gibbs


para a medida conforme.

Lema 10.22. Se ν é uma medida satisfazendo a equação L φ ν = λν e  é


pequeno, então tomando P = log λ e x pertence ao suporte de ν existe algum
número K > 0, dependendo somente de , tal que vale:

ν(B
(n, x))
K −1 ≤ ≤ K.
eSn φ(x)−nP

Demonstração. De fato, como f n |cB (n,x) é injetiva e Jν f (x) = λ−1 eφ(x) , temos
que Jµ f n = λ−n eSn φ(x) , onde

ν(f n (B
(n, x)) = Jν f n (y)dν(y).
B (n,x)
10.3. TRANSFORMAÇÕES EXPANSORAS 115

De acordo com a Proposição 2.3, o valor de Jµ f n num ponto qualquer y ∈


B
(n, x) difere do valor de Jν f n em x pela multiplicação por uma constante K,
que não depende de x ou n. Logo:

K2−1 ν(f n (B
(n, x)) ≤ Jµ f n (x)ν(B
(n, x)) ≤ K2 ν(f n (B
(n, x)).

Para concluir, como qualquer ramo inverso de f é uma contração, de acordo


com o que foi provado no lema 9.4, temos que f n (B
(n, x)) = f (Bδ (f n−1 (x)).
Assim, como f é um difeomorfismo local, podemos escolher γ independente de
n ou x suficientemente pequeno de modo que Bγ (f n (x)) ⊂ f n (B
(n, x)). Deix-
amos para o leitor a prova do seguinte fato (exercı́cio 10.6): Dado γ > 0, existe
a > 0 tal que ν(Bγ (x)) > a > 0 para todo x no suporte de ν. Assim, tomando
K = sup{K2 a, K2 }, P = log λ e observando que (Jµ f n (x))−1 = eSn φ(x)−nP
temos que
ν(B
(n, x))
K −1 ≤ S φ(x)−nP ≤ K,
e n
como queriamos provar.

Lema 10.23. Existe uma constante K > 0 such


 
 Ln (x1 ) 
 φ 
 n − 1 ≤ Kd(x1 , x2 )α
 Lφ (x2 ) 

para todos x1 e x2 com d(x1 , x2 ) < δ. Em particular, existe A tal que para todos
x, y ∈ M :
Lnφ (x)
≤ A.
Lnφ (y)

Demonstração. Fixada uma pré-imagem y1 de x1 por f n , como d(x1 , x2 ) < δ


então temos que x2 tem uma única pré-imagem por f n na mesma bola dinâmica
de comprimento n+1 e raio δ, que iremos denotar por y2 . Pela proposição 10.20,
existe uma constante uniforme K tal que
−α
Aed(x1 ,x2 ) ≤ |eSn φ(y1 )−Sn φ(y2 ) | ≤ Aed(x1 ,x2 )
α

Então,
 Sn φ(y1 )
−Ad(x1 ,x2 )α
Lnφ (x1 ) f n (y1 )=x1 e
≤ eAd(x1 ,x2 )
α
e ≤ n = 
Lφ (x2 ) f (y2 )=x2
n e Sn φ(y2 )

Agora é suficiente observar que para todo x1 e x2 ,

|e±Ad(x1 ,x2 ) − 1| ≤ Kd(x1 , x2 )α


α

se K é escolhido suficientemente grande com respeito à A. O resto do lema é


imediato, cobrindo M por um número k de bolas de raio δ.
116 CAPÍTULO 10. ESTADOS DE EQUILÍBRIO

Para mostrar que Lφ admite alguma auto-função, mostraremos que a sequência


de funções λ−i Liφ 1 forma uma sequência limitada e equicontı́nua. Isso será o
trabalho dos dois próximos lemas:

Lema 10.24. A sequência de funções λ−n Lnφ 1 é limitada. Além disso, existe
c > 0 tal que λ−n Lnφ 1(x) > c > 0, para todo x ∈ M .

Demonstração. Observe que λ−n Lnφ 1 dν = 1. Logo, existem pontos zn e yn
tais que λ−n Lnφ 1(zn ) ≤ 1 e λ−n Lnφ 1(yn ) ≥ 1. De acordo com o Lema 10.23,
temos que para todo x ∈ M vale:

λ−n Lnφ (x) ≤ ALnφ (zn ) ≤ A

e
1 1
≤ λ−n Lnφ (yn ) ≤ Lnφ (x),
A A
o que termina a prova do Lema.

Lema 10.25. A sequência λ−n Lnφ 1 é equicontı́nua.

Demonstração. Para mostrar que sequência de funções λ−n Lnφ 1 é equicontı́nua,


observe que para todos x, y com d(x, y) < δ, pelo Lema 10.23:

λ−n Lnφ 1(x) − λ−n Lnφ 1(y)


≤ Kd(x, y)α
λ−n Lnφ 1(x)

ou seja,

λ−n Lnφ 1(x) − λ−n Lnφ 1(y) ≤ Kλ−n Lnφ 1(x)d(x, y)α .
Pelo lema 10.24, a sequência de funções λ−n Lnφ 1 é limitada uniformemente em
M . Utilizando esse fato na equação acima, acabamos a prova do Lema 10.25

Baseado nas informações obtidas sobre a sequência de funções λ−n Lnφ 1,


vamos agora mostrar que existe alguma auto-função h para o operador Lφ.
Primeiramente, observe que pelos lemas 10.24 e 10.25 a sequência λ−n Lnφ 1 é
limitada e equicontı́nua. Naturalmente, isso implica que a média dessas funções

1 −i i
n−1
hn = λ Lφ 1,
n i=0

ainda é uma sequência limitada e equicontı́nua. Como M é compacto, pelo


Teorema de Ascoli-Arzelá, segue-se que a sequência hn possui uma subsequência
hni convergindo uniformemente para uma certa função contı́nua h. Mostraremos
que esta função h é que h é de fato uma auto-função de Lφ .
10.3. TRANSFORMAÇÕES EXPANSORAS 117

Ora, se hni → h para uma certa subsequência ni ↑ ∞ então, como Lφ é


contı́nua
ni −1
1
Lφ h = lim Lφ hni = lim λ−k Lk+1
φ 1=
ni →∞ ni →∞ ni
k=0

nk −1
λ λ −(k) k
n−1
1 − λ−ni Lni 1
= lim λ−(k+1) Lk+1
φ 1 = lim λ Lφ 1 − .
ni →∞ ni ni →∞ n ni
k=0 k=0

Como λ−ni Lni 1 é uma sequência limitada, de acordo com o Lema 10.24, o
segundo termo da última igualdade acima vai para zero e o primeiro converge
para λh, provando que Lφ h = λh.
 −nObserve ainda que, utilizando o fato que ν é uma medida conforme, que
 λ i
Lni 1 dν = 1, para todo n ∈ N. Deste modo, segue-se diretamente
 que
hn dν = 1 e como h lim hni , tomando o limite mostramos que h dν = 1.
Resumindo, mostramos que:

Proposição 10.26. Existe alguma função contı́nua h : M → R tal que:

1. Lφ h = λh;

2. h > 0;

3. h dν = 1.

Como a função h é contı́nua e não-negativa, podemos definir uma medida µ


por
µ(A) = h dν.
A

Da Proposição
 10.26 vem que µ é uma medida de probabilidade, uma vez que
µ(M ) = h dν = 1. Observe também que como existe c > 0 tal que 1/c ≤ h ≤ c,
temos que para todo boreliano A ⊂ M , vale

c−1 ν(A) ≤ µ(A) ≤ ν(A)c. (10.3)

Além disso, a medida µ é invariante, como veremos no:

Lema 10.27. Sejam ν tal que L φ ν = λν e h uma função não-negativa sat-


isfazendo Lφ h = λh. Definindo µ por µ = hν, então temos que µ é uma
probabilidade f -invariante. Além disso, existe K tal que para todo x ∈ M e
n ∈ N vale:
µ(B
(n, x))
K −1 ≤ S φ(x)−nP ≤ K, (10.4)
e n
Demonstração. Para mostrar que µ é f invariante, de acordo com a Proposição ??
basta mostramos que para toda função contı́nua g : M → R vale:

g ◦ f dµ = g dµ.
118 CAPÍTULO 10. ESTADOS DE EQUILÍBRIO

Primeiro, observe que Lφ (g ◦ f h)(x) = g(x)Lφ h. Assim,



−1
g ◦ f dµ = g ◦ f h dν = λ g ◦ f h dL φ (ν) =

λ−1 Lφ (g ◦ f h) dν = λ−1 gLφ h dν = gh dν = g dµ.

A equação 10.4 vem diretamente da equação 10.3.



Vamos agora utilizar a equação 10.4 para calcular o valor de hµ (f ) + φ dµ.
Corolário 10.28. Se µ = hν construida anteriormente, então

hµ (f ) + φ dµ = P.

Demonstração. O Teorema de Brin-Katok afirma que a função h dada por


1
H(x) = − lim lim log µ(B
(n, x)),

→0 n→∞ n
está bem definida para µ quase todo x ∈ M , é µ-integrável e vale:

hµ (f ) = H dµ.

Observe que a equação 10.4 fornece que H(x) = − lim n1 Sn φ(x) + P . Sub-
n→∞
stituindo acima, vem que:

1
hµ (f ) = − lim Sn φ dµ + P.
n→∞ n

Logo, usando o Teorema de Birkhoff



1
hµ (f ) = − lim Sn φ dµ + P = − φ dµ + P,
n→∞ n

como era nosso intuito inicial.

Para completar a prova do Teorema 10.19 resta-nos duas tarefas. A primeira


delas é mostrar que de fato o número P na equação 10.4 é igual à P (φ),
mostrando que µ é um estado de equilı́brio e de Gibbs. Outra tarefa refere-
se à mostrar que µ é único. Faremos isso no seguinte lema :
Lema 10.29. Seja λ tal que existe ν e h com L φ ν = λν e Lφ h = λh. Então
λ = eP (φ) .
Na proposição a seguir utilizaremos o seguinte lema de cálculo:
Lema
n 10.30. Sejam pi , xi (i = 1, 2, . . . , n) números
n reais tais que pi > 0, xi > 0,
n
e i=1 pi = 1. Então i=1 pi log xi ≤ log( i=1 pi xi ) e a igualdade acontece
se, e só se, os números xi são iguais.
10.3. TRANSFORMAÇÕES EXPANSORAS 119

Deixaremos como exercı́cio para o leitor (exercı́cio ??) a prova deste fato.
Proposição 10.31. Vale o seguinte:
1. P = P (f, φ);
2. Se η é um estado de equilı́brio para φ, então L φ (h−1 η) = λh−1 η.
Demonstração. Defina g : M → (0, ∞) por
h(x)
g(x) = λ−1 eφ(x) ,
h(f (x))
e seja gη = (Jη f )−1 . Observe que:

f (y)=x e
φ(y)
h(y) Lφ h(x)
g(y) = = =1 (10.5)
λh(x) λh(x)
f (y)=x

Vamos mostrar que g = gη para η-quase todo ponto. Primeiramente, usando


a definição de g segue que hη (f ) + g dη ≥ 0, pois:

hη (f ) + log gdη = hη (f ) − log λ + (φ + log h − log h ◦ f ) dη ≥ 0.

Usaremos agora o fato que hη (f ) = log Jη f dη. O roteiro para a prova
desse fato está no exercı́cio ??. Combinando a fórmula anterior para a entropia
de η com a desigualdade acima:

g g(y)
0 ≤ log dη = gη (y) log dη,
gη gη (y)
f (y)=x

onde a segunda igualdade segue do fato que gη = 1/Jη f. De acordo com a


equação (10.5), a primeira afirmação do Lema 10.30 nos dá:
g(y)  g(y)   
0≤ gη (y) log ≤ log gη (y) = log g(y) = 0
gη (y) gη (y)
f (y)=x f (y)=x f (y)=x

em η-quase todo ponto. Uma vez em que a expressão


 na esquerda é não-negativa,
segue-se a igualdade. Assim, temos que hη (f ) + φdη − log λ = 0, o que implica
log λ = P (f, φ)
Para mostrar que g = gη , observe que pela segunda afirmação no Lema 10.30
os valores de log g(y)/gη (y) são os mesmos para todos y ∈ f −1 (x). Em outras
palavras, para η-quase todo x ∈ M existe um número c(x) tal que
g(y)
= c(x) para todo y ∈ f −1 (x).
gη (y)
A hipótese de η ser invariante implica que

gη (x) = 1
f (y)=x
120 CAPÍTULO 10. ESTADOS DE EQUILÍBRIO

para η-quase todo x ∈ M . Combinando isso com (10.5), concluı́mos que



f (y)=x g(y)
c(x) =  = 1.
f (y)=x gη (y)

Finalmente, vamos mostrar que L φ (h−1 η) = λh−1 η. Dada uma função


contı́nua ξ

−1 −1
ξ d(Lφ h η) = (Lφ ξ)(x)h(x) dη(x) = eφ(y) h(f (y))−1 ξ(y) dη(x).
f (y)=x

usando a definição de g e , temos que

eφ(y) h(f (y))−1 = λg(y)h(y)−1 = λgη (y)h(y)−1 .

Substituindo na fórmula anterior,



 
ξ d(L φ (h−1 η)) = λ log gη (y)ξ(y)h(y)−1 dη(x) = λ ξh−1 dη.
f (y)=x

Uma vez que ξ é arbitrário, temos que L φ (h−1 η) = λ(h−1 η), como afirmamos.

O lema a seguir mostra que duas medidas conformes são necessariamente


equivalentes:
Lema 10.32. Sejam ν1 e ν2 tais que L φ νi = λνi , para i = 1, 2. Então ν1 e ν2
são equivalentes.
Demonstração. Pela equação 10.1, dado x ∈ M e n ∈ N, temos que

A−1 ν2 (B
(n, x)) ≤ ν1 (B
(n, x)) ≤ Aν2 (B
(n, x)).

Como a sequência de coberturas

U
n = {U ; U é bola dinâmica de raio  e comprimento n}

tem diâmetro decrescendo à zero, U


n é geradora. Deste modo, aproximando
por bolas dinâmicas, podemos estender a equação anterior para todo boreliano
A de M . Isso mostra que ν1 e ν2 são equivalentes.

Observando o que já mostramos no Lema 10.27, o Corolário 10.28 e a


Proposição 10.31, para finalizar a prova do Teorema 10.19, basta mostrar que
se η é um estado de equilı́brio, então η = µ, construido como no Lema 10.27.
Prova do Teorema 10.19. Suponha que η é um estado de equilı́brio ergódico
de φ e seja µ a medida construı́da como no Lema 10.27. De acordo com
a Proposição 10.31, denotando νη = h−1 η, temos que L φ νη = λνη . Pelo
10.4. EXERCÍCIOS 121

Lema 10.32 νη e ν são equivalentes, o que implica que µ e η tambem são


equivalentes: η = ξµ, para alguma função µ-integrable ξ. Desde que η e µ
são invariantes,
η = f η = (ξ ◦ f )f µ = (ξ ◦ f )µ.
Como a derivada de Radon-Nikodym essencialmente única, temos que ξ = ξ ◦ f
em η-quase todo ponto. Observando
  que η é ergódica, segue-se que ξ é constante.
Usando que 1 = η(M ) = dη = c dµ = c, nós temos que η = µ. Observe que
isso termina a prova, desde que qualquer componente ergódica de um estado de
equilı́brio também é um estado de equilı́brio.

10.4 Exercı́cios
10.1. Seja ν uma medida em M . Dado γ > 0, mostre que existe a > 0 tal que
ν(Bγ (x)) > a > 0 para todo x no suporte de ν.
10.2. Seja f : M → M uma transformação expansora e M uma variedade
conexa. Mostre que se uma
10.3. Seja f : M → M uma transformação tal que cada ponto admite somente
um número finito de pré-imagens. Mostre que Jµ f existe para toda medida
invariante µ.
10.4. Seja µ uma medida e Jµ f seu jacobiano. Mostre que se f n |A é injetiva,
então

n−1
Jµ f n (x) = Jµ f (f i (x)).
i=0

10.5. Seja f uma transformação expansora e µ uma medida invariante. Mostre


que para µ-quase todo x existe n0 = n0 (x) e K = K(x) tais que se n > n0 então

K −1 < Jµ f n (x)µ(B
(n, x)) < K.

10.6. (Fórmula de Rokhlin) Seja f uma transformação expansora e µ uma


medida invariante. Mostre que:

hµ (f ) = log Jµ f dµ.

Dica: Use o exercı́cio 10.5 e o Teorema de Brin-Katok.


122 CAPÍTULO 10. ESTADOS DE EQUILÍBRIO
Capı́tulo 11

Aplicações em Teoria dos


Números

Neste capı́tulo apresentamos duas aplicações da Teoria Ergódica no domı́nio


da Teoria dos Números: o Teorema de S. Szemerédi [Sze75] sobre existência
de progressões aritméticas dentro de subconjuntos suficientemente “densos” do
conjunto Z dos números inteiros, e o teorema de H. Weyl [Wey16] sobre equidis-
tribuição da parte fracionária dos valores de funções polinomiais restritas a Z.

11.1 Teorema de Szemerédi


A nossa apresentação é inspirada por Furstenberg [Fur81], onde o leitor pode
encontrar muita informação adicional sobre este tema.

11.1.1 Densidade superior


Chamamos intervalo do conjunto Z dos números inteiros qualquer subconjunto
I da forma {n ∈ Z : a ≤ n < b}, para quaisquer a ≤ b em Z. O seu cardinal é
#I = b − a.
Definição 11.1. A densidade superior Ds (S) de um subconjunto S de Z é
#(S ∩ I)
Ds (S) = lim sup
#I→∞ #I

onde I representa qualquer intervalo em Z. Do mesmo modo se define a densi-


dade inferior Di (S), trocando limite superior por limite inferior.
Em outras palavras, Ds (I) é o maior número D tal que existe uma sequência
de intervalos Ij ⊂ Z tais que

#(S ∩ Ij )
#Ij → ∞ e →D
#Ij
124 CAPÍTULO 11. APLICAÇÕES EM TEORIA DOS NÚMEROS

e Di (S) é o menor número nessas condições. Note que 0 ≤ Di (S) ≤ Ds (S) ≤ 1.


No Exercı́cio 11.1 também veremos que Di (S) = Ds (Z \ S) para todo S ⊂ Z.
Exemplo 11.2. Seja S o conjunto dos números pares. Dado qualquer intervalo
I ⊂ Z, temos que #(S ∩ I) = #I/2 se o cardinal de I é par e #(S ∩ I) =
#(I ± 1)/2 se o cardinal de I é ı́mpar, onde o sinal ± é positivo se o menor
elemento de I é um número par, e é negativo caso contrário. Desta observação
segue, imediatamente, que Ds (S) = Di (S) = 1/2.
Exemplo 11.3. Seja S o seguinte subconjunto de Z:

{1, 3, 4, 7, 8, 9, 13, 14, 15, 16, 21, 22, 23, 24, 25, 31, 32, 33, 34, 35, 36, 42, . . .}.

Isto é, para cada k ≥ 1 incluı́mos em S um bloco de k inteiros consecutivos e


omitimos os k inteiros seguintes. Este conjunto contém intervalos com compri-
mento arbitrariamente grande. Portanto Ds (S) = 1. Por outro lado, o com-
plementar de S também contém intervalos com comprimento arbitrariamente
grande. Portanto, Di (S) = 1 − Ds (Z \ S) = 0.
Exemplo 11.4. Seja S o seguinte subconjunto de Z:
{1, 3, 4, 5, 6,9, 10, 11, 12, 14, 15, 16, 17, 18,
22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 42, . . .}.

Ou seja, para cada k ≥ 1 incluı́mos em S um bloco de k 2 inteiros consecutivos


e depois excluı́mos os k inteiros seguintes. Neste caso temos
#(S ∩ [1, 2, . . . , n])
lim = 1.
n→∞ n
Isto implica Ds (S) = 1. Mas, tal como no caso anterior, Di (S) = 0.

11.1.2 Enunciados
Nos anos 30, Erdös e Turan [ET36] conjecturaram que todo subconjunto de
Z com densidade superior positiva contém sequências aritméticas finitas com
comprimento arbitrariamente grande. Esta conjectura foi demonstrada por Sze-
merédi [Sze75], quase quatro décadas mais tarde:
Teorema 11.5 (Szemerédi). Se S é um subconjunto de Z com densidade
superior positiva, então para todo k ∈ N existem m ∈ Z e n ∈ N tais que m,
m + n, m + 2n, . . . , m + kn pertencem a S.
Em geral, não podemos esperar que S contenha progressões aritméticas com
comprimento infinito, como mostram os Exemplos 11.3 e 11.4.
A demonstração original do Teorema 11.5 usa argumentos combinatórios
bastante intrincados. No entanto, poucos anos depois Furstenberg [Fur77] deu
uma nova demonstração, utilizando idéias de Teoria Ergódica. Na verdade, ele
deduziu o Teorema 11.5 de uma generalização do Teorema 1.1 para famı́lias de
transformações que comutam entre si:
11.1. TEOREMA DE SZEMERÉDI 125

Teorema 11.6 (Recorrência Simultânea de Poincaré). Sejam fi : M →


M , i = 1, 2, . . . , k transformações que preservam uma probabilidade µ em M
e tais que fi ◦ fj = fj ◦ fi para todo i, j = 1, 2, . . . , k. Então, para qualquer
conjunto E ⊂ M tal que µ(E) > 0, existe algum n ≥ 1 tal que
 
µ E ∩ f1−n (E) ∩ f2−n (E) ∩ · · · ∩ fk−n (E) > 0.

Em outras palavras, este teorema afirma que existe algum tempo n tal que
os iterados de um subconjunto com medida positiva de pontos de E, por todas
as transformações fi , regressam a E simultaneamente nesse momento n.
A demonstração do Teorema 11.6 escapa ao âmbito deste texto. Mas, na
Seção 11.1.6, explicaremos porquê ele implica o Teorema 11.5. Além disso,
vamos discutir versões um pouco mais fracas destes resultados, que chamamos
teorema de van der Waerden e teorema de Recorrência Simultânea de Birkhoff,
respectivamente.
O teorema de van der Waerden [vdW27] afirma que dada qualquer partição
do conjunto Z num número finito de subconjuntos, algum desses subconjuntos
deve conter progressões aritméticas com comprimento arbitrariamente grande:

Teorema 11.7 (van der Waerden). Sejam S1 , S2 , . . . , Sq subconjuntos dois-


a-dois disjuntos de Z tais que S1 ∪ S2 ∪ · · · ∪ Sq = Z. Dado qualquer k ≥ 1 existe
algum Si que contém alguma progressão aritmética com comprimento k + 1. Em
particular, algum elemento Sj da partição contém progressões aritméticas com
comprimento arbitrariamente grande.

Na Seção 11.1.3 veremos que este resultado é uma consequência simples do


Teorema 11.5. Também veremos, na Seção 11.1.4, que ele pode ser deduzido da
seguinte extensão do Teorema 3.11:

Teorema 11.8 (Recorrência Simultânea de Birkhoff ). Seja M um espaço


métrico compacto e fi : M → M , i = 1, 2, . . . , k transformações contı́nuas tais
que fi ◦ fj = fj ◦ fi para todo i, j = 1, 2, . . . , k. Então existe algum x ∈ M e
alguma sequência nj → ∞ tal que
n
fi j (x) → x quando j → ∞, para todo i = 1, 2, . . . , k.

Em outras palavras, as trajetórias de x por todas as transformações recorrem


para x simultaneamente nos momentos nj .
Na Seção 11.1.5 veremos que o Teorema 11.8 é uma consequência simples
do Teorema 11.6. Aliás, como veremos na Seção 11.1.6, este último teorema
também implica o Teorema 11.5. Portanto, o diagrama a seguir resume as
relações lógicas entre os quatro enunciados, que serão discutidas nas próximas
seções:
T. Szemerédi 11.5 ⇐ T. R. S. Poincaré 11.6
⇓ ⇓
T. van der Waerden 11.7 ⇐ T. R. S. Birkhoff 11.8.
126 CAPÍTULO 11. APLICAÇÕES EM TEORIA DOS NÚMEROS

11.1.3 T. de Szemerédi implica T. van der Waerden


Seja S1 , S2 , . . . , SN uma partição finita de Z qualquer. De acordo com o
Exercı́cio 11.1, pelo menos um dos elementos Si da partição deve ter densidade
superior positiva. Aplicando o Teorema 11.5 a S = Si concluı́mos que ele contém
progressões aritméticas com comprimento arbitrariamente grande. Isto prova o
Teorema 11.7.

11.1.4 T. de Birkhoff implica T. de van der Waerden


Vamos começar por traduzir o Teorema 11.7 num enunciado sobre o desloca-
mento (“shift”) f : M → M no espaço M = {1, 2, . . . , q}Z das sequências bila-
terais com valores em {1, 2, . . . , q}. Observe que cada sequência α = (αn )n∈Z
em M define uma partição de Z em subconjuntos

Si = {n ∈ Z : αn = i}, i = 1, 2, . . . , q

e, reciprocamente, toda partição de Z em q subconjuntos determine uma se-


quência α ∈ M . Portanto, o teorema pode ser reformulado do seguinte modo:
para todo α ∈ M e todo k ≥ 1, existem m ∈ Z e n ≥ 1 tais que

αm = αm+n = · · · = αm+nk . (11.1)

Para provarmos este fato, vamos munir M da métrica d(β, γ) = θ−N (β,γ ) ,
 
N (β, γ ) = max N ≥ 0 : βn = γn para todo n ∈ Z com |n| < N ,

que foi definida no Exercı́cio 5.1, sendo θ um número qualquer em (0, 1). Note
que
d(β, γ) < 1 se e somente se α0 = β0 . (11.2)
 
Como o espaço métrico (M, d) é compacto, o fecho A = f n (α) : n ∈ Z da
trajetória de α é também um compacto, para a métrica induzida. Lembre que
o deslocamento f : M → M é definido por

f ((αn )n∈Z ) = (αn+1 )n∈Z . (11.3)

Consideremos as transformações f1 = f , f2 = f 2 , . . . , fk = f k definidas de


A em A. É claro que as fi comutam entre si. Portanto, podemos aplicar
o Teorema 11.8 e concluir desta maneira que existe σ ∈ A e uma sequência
nj → ∞ tal que
n
fi j (σ) → σ para todo i = 1, 2, . . . , k.
n
Observe que fi j = f i nj . Em particular, podemos fixar n = nj tal que os
iterados f n (σ), f 2n (σ), . . . , f kn (σ) estão todos a distância menor que 1/3 do
ponto σ. Logo, os pontos

σ, f n (σ), f 2n (σ), . . . , f kn (σ)


11.1. TEOREMA DE SZEMERÉDI 127

estão todos a distância menor que 2/3 uns dos outros. Então, como σ está
no fecho A da órbita de α, podemos encontrar m ∈ Z tal que f m (α) está tão
próximo de σ que os pontos

f m (α), f m+n (α), f m+2n (α), . . . , f m+kn (α)

estão a distância menor que 1 uns dos outros. Tendo em conta a observação
(11.2) e a definição (11.3) da transformação f , isto quer dizer que

αm = αm+n = · · · = αm+kn ,

como pretendı́amos provar. Isto completa a demonstração do teorema de van


der Waerden a partir do teorema de Recorrência Simultânea de Birkhoff.
De fato, a conclusão do Teorema 11.7 ainda vale para partições de subcon-
juntos finitos de Z, desde que sejam suficientemente grandes:

Teorema 11.9 (van der Waerden). Dados k ≥ 1 e q ≥ 2 existe N ≥ 1 tal


que, dada qualquer partição do intervalo {1, 2, . . . , N } em q subconjuntos, algum
desses subconjuntos contém progressões aritméticas com comprimento k + 1.

É fácil ver que o Teorema 11.9 implica o Teorema 11.7. No Exercı́cio 11.2
veremos que a recı́proca também é verdadeira.

11.1.5 T. de Poincaré implica T. de Birkhoff


Comecemos por lembrar (Exercı́cio 3.4) que se fi : M → M , i = 1, 2, . . . , k
são transformações contı́nuas num espaço métrico compacto que comutam en-
tre si, então existe alguma probabilidade invariante µ comum a todas essas
transformações.
Em seguida, observemos que o Teorema 11.6 tem a seguinte consequência:

Corolário 11.10. Sejam fi : M → M , i = 1, 2, . . . , k transformações que


preservam uma probabilidade µ em M e tais que fi ◦ fj = fj ◦ fi para todo
i, j = 1, 2, . . . , k. Então, para qualquer conjunto E ⊂ M tal que µ(E) > 0, e
n
para quase todo x ∈ E existe uma sequência nj → ∞ tal que fi j (x) ∈ E para
todo i = 1, . . . , k e todo j ≥ 1.

Deixaremos a prova desta proposição como exercı́cio para o leitor (Ex-


ercı́cio 11.6). Compare também com o Exercı́cio 1.1. Este corolário será útil
na:

Prova do Teorema de Recorrência Múltipla de Birkhoff. Considere uma base enu


merável de abertos Uj de M com o diâmetro de Uj indo a zero quando j ↑ ∞.
Seja µ alguma medida invariante simultaneamente para todos os fi (note que o
Exercı́cio 3.4 nos garante a existência de alguma destas medidas).
Para cada j representamos por Dj o conjunto dos pontos x ∈ Uj tais que
existe n > j tal que fin (x) ∈ Uj para todo i = 1, 2, . . . , k. Observe que de
acordo com o Corolário 11.10, o conjunto Uj \ Dj tem medida µ igual a zero,
128 CAPÍTULO 11. APLICAÇÕES EM TEORIA DOS NÚMEROS

uma vez que quase todo ponto retorna simutaneamente a Uj em algum momento.
Consequentemente, como {Uj }j∈N é uma cobertura de M , temos que o conjunto:
∞ 

D= Dm ,
n=1 m≥n

tem medida µ(D) = 1. Em particular, D = ∅.


Mostraremos que todo ponto x ∈ D é simultaneamente  recorrente para as
transformações f1 , f2 , . . . , fk . Ora, se x ∈ D ⇒ x ∈ m≥n Dm para todo n ∈ N.
Logo, existe m ≥ n tal que x ∈ Dm . De acordo com a definição de Dm ,
existe algum nm > m tal que finm (x) ∈ Um para todo i = 1, 2, . . . , k. Logo,
d(x, finm (x)) → 0, uma vez que os pontos x e fimn (x) pertencem a Um e o
diâmetro de Um vai a zero quando m ↑ ∞. Isto encerra a prova do Teorema de
Recorrência Múltipla de Birkhoff.

11.1.6 Prova do Teorema de Szemerédi


Mostraremos nesta secção como deduzir o Teorema de Szemerédi (Teorema 11.5)
a partir do Teorema de Recorrência Simultânea (Teorema 11.6). Novamente,
utilizaremos o dicionário entre partições de Z e sequências de inteiros, como já
fizemos na prova do Teorema de Van der Waerden (Teorema 11.7).
Prova do Teorema de Szemerédi. Considere S um conjunto com densidade su-
perior positiva qualquer. Vamos associar a S uma sequência α = (αn )n∈Z ∈
M = {0, 1}Z definida por:
αn = 1 ⇔ n ∈ S.
Como S possui densidade superior positiva, existe c > 0 e uma sequência de
intervalos In = [an , bn ) de Z com lim #In = ∞ e tais que
#(S ∩ In )
Ds (S) = lim > c > 0.
#In →∞ #In
Considere o deslocamento f : M → M e defina o subconjunto A ⊂ M por
A = {y ∈ M ; y0 = 1}.
Note que o fato de f j (α) ∈ A equivale a dizer que αj = 1, ou seja, j ∈ S.
Resumindo,
f j (α) ∈ A ⇔ j ∈ S (11.4)
O conjunto A é um aberto e ao mesmo tempo um fechado de M , considerando
a topologia dada onde os cilindros são abertos, pois A é um cilindro de compri-
mento 1 em M e seu complementar é uma união de cilindros. Deste modo, tendo
em vista (11.4), mostrar que m + in ∈ S equivale a mostrar que f m+in (α) ∈ A.
Logo, para mostrar o Teorema de Szemerédi, basta provar que para todo k ∈ N
existem m ∈ Z e n ∈ N tais que
f m (α), f m+n (α), f m+2n (α), . . . , f m+kn (α) ∈ A.
11.2. TEOREMA DE WEYL 129

Para mostrar este fato, vamos definir a sequência µn de probabilidades em


M por:
bn −1
1
µn = δ i (11.5)
#In i=a f (α)
n

Como já vimos no Teorema 3.4, o conjunto das probabilidades M1 (M ) mu-


nido com a topologia fraca∗ é compacto. Assim, podemos garantir que alguma
subsequência µni converge para uma probabilidade µ de M . Para não carregar a
notação, vamos supor que a própria sequência µn converge para µ na topologia
fraca∗ . Observe que µ é uma probabilidade f -invariante, pois para toda função
contı́nua φ : M → R, vale
bn −1
1
φ ◦ f dµ = lim φ ◦ f dµn = lim φ(f i (α))
n→∞ n→∞ #In
i=an

φ(f (α)) − φ(f (α))
bn an
+ lim = lim φ dµn = φ dµ.
n→∞ #In n→∞

Para utilizar o Teorema de Recorrência Simultânea de Poincaré para o con-


junto A, precisamos mostrar inicialmente que µ(A) > 0. De fato, observe que
A é um conjunto fechado e aberto de M . Logo, pela Proposição 3.3 temos que

#(S ∩ In )
µ(A) ≥ µn (A) = lim > c > 0.
#In →∞ #In

Dado k ∈ N, considerando as funções f, f 2 , f 3 , . . . , f k (que claramente comutam


entre si) o Teorema de Recorrência Simultânea de Poincaré nos garante que
existe algum n ≥ 1 tal que
 
µ A ∩ f −n (A) ∩ f −2n (A) ∩ · · · ∩ fk−kn (A) > 0.

Em particular, como A é aberto, existe algum l tal que


 
µl A ∩ f −n (A) ∩ f −2n (A) ∩ · · · ∩ f −kn (A) > 0.
bl −1
Como µl = (1/#Il ) i=a l
δf i (α) , podemos garantir que pelo menos para algum
an ≤ m ≤ bl − 1, o ponto f m (α) pertence a A ∩ f −n (A) ∩ · · · ∩ f −kn (A). Assim,
f m+in (α) ∈ A, para i = 0, 1, . . . , k, como querı́amos provar.

11.2 Teorema de Weyl


Vamos descrever outra bela aplicação da Teoria Ergódica à Teoria dos Números,
devida a H. Weyl [Wey16]. Consideramos funções polinomiais

P (x) = a0 + a1 x + a2 x2 + · · · + ad xd ,
130 CAPÍTULO 11. APLICAÇÕES EM TEORIA DOS NÚMEROS

com coeficientes reais e grau d ≥ 1. Para cada inteiro positivo n, calculamos o


valor da função P em n e chamamos zn a parte fracionária do valor P (n) obtido.
De maneira mais formal,

zn = {P (n)} = P (n) − [P (n)]

onde {x} = parte fracionária e [x] = parte inteira de x. Observe que zn ∈ [0, 1)
para cada n. Mas podemos, igualmente, considerar que a sequência toma valores
no cı́rculo S 1 = R/Z, e faremos isso no que segue. Estamos interessados em
entender como se distribui a sequência zn no cı́rculo.

Definição 11.11. Dizemos que uma sequência xn ∈ S 1 é equidistribuı́da se


para qualquer função contı́nua ϕ : S 1 → R tem-se

1
n
lim ϕ(xj ) = ϕ(x) dx.
n→∞ n
j=1

Veremos no Exercı́cio 11.4 que isto equivale a dizer que, para todo intervalo
I ⊂ S 1 , a fração dos termos da sequência que estão em I é igual ao comprimento
m(I) desse intervalo.

Teorema 11.12 (Weyl). Se algum dos coeficientes a1 , a2 , . . . , ad é irracional


então a sequência zn = {P (n)} é equidistribuı́da.

Podemos, sem restrição, supor que o coeficiente ad é irracional. De fato, a


sequência zn sempre pode ser decomposta numa soma

zn = xn + yn , xn = {ad nd }, yn = {Q(n)}

onde Q(x) = a0 + a1 x + · · · + ad−1 xd−1 . Suponha que ad é racional, isto é, que
existem inteiros p e q tais que ad = p/q. Então a primeira parcela xn toma no
máximo q valores distintos. De fato esta sequência é periódica com perı́odo q:
p   p d
xn+p = (n + q)d = n = xn para todo n ∈ Z.
q q

Por outro lado, a segunda parcela yn é do mesmo tipo que zn , exceto que o
polinômio Q que lhe está associado tem grau d − 1. Portanto, por indução no
grau, podemos supor que yn é equidistribuı́da. Mais que isso, podemos supor
que as subsequências

yqn+r = {Q(qn + r)}, n ∈ Z

são equidistribuı́das para todo r ∈ {0, 1, . . . , q−1}. Na verdade, estas sequências


podem ser escritas como ynq+r = {Qr (n)} para algum polinômio Qr com o
mesmo grau que Q (verifique), e portanto a hipótese de indução se aplica a
elas também. Destas duas observações segue que a soma zn também é equidis-
tribuı́da, porque cada uma das subsequências zqn+r , n ∈ Z é equidistribuı́da.
11.2. TEOREMA DE WEYL 131

11.2.1 O caso afim


Para desenvolvermos alguma intuição sobre o problema, comecemos por con-
siderar o caso especial d = 1. Neste caso a função polinomial resume-se a
P (x) = a0 + a1 x. Estamos supondo que o coeficiente a1 é irracional. Consider-
emos a transformação

f : S1 → S1, f (θ) = θ + a1 mod Z.

Foi visto na Proposição 3.6 que esta transformação f admite uma única prob-
abilidade invariante, que é a medida de Lebesgue m. Consequentemente, dada
qualquer função contı́nua ϕ : S 1 → R, e dado qualquer ponto θ ∈ S 1 ,

1
n
lim ϕ(f j (θ)) = ϕ dm.
n→∞ n
j=1

Considere θ = a0 mod Z. Então, f j (θ) = a0 + a1 j mod Z = P (j) mod Z e


isto significa que podemos identificar zj = {P (j)} com a sequência dos iterados
f j (a0 ). Então a relação anterior dá

1
n
lim ϕ(zj ) = ϕ dm.
n→∞ n
j=1

Isto é precisamente o que significa dizer que zj é equidistribuı́da.

11.2.2 Ergodicidade
Vamos estender os argumentos acima para provar o caso geral do Teorema 11.8.
Seja Td o toro d-dimensional, isto é,

Td = Rd /Zd = S 1 × · · · × S 1 (d vezes).

Introduzimos a transformação f : Td → Td

f (θ1 , θ2 , . . . , θd ) = (θ1 + α, θ2 + θ1 , . . . , θd + θd−1 ), (11.6)

onde α é um número irracional que será escolhido mais tarde. Observe que f
preserva a medida de Lebesgue m em Td . Isto pode ser visto usando as idéias
da Seção 2.2: a derivada de f em cada ponto vem dada pela matriz
 
1 0 0 ··· 0 0
 1 1 0 ··· 0 0 
 
 0 1 1 ··· 0 0 
 
 ··· ··· ··· ··· ··· ··· 
0 0 0 ··· 1 1

cujo determinante é 1. Observe que a transformação f é invertı́vel.


132 CAPÍTULO 11. APLICAÇÕES EM TEORIA DOS NÚMEROS

Proposição 11.13. A transformação f é ergódica relativamente à medida de


Lebesgue no toro Td .
Demonstração. O método é análogo ao da Proposição 5.5, baseado em análise
de Fourier. Seja ϕ : Td → R uma função em L2 (m). Escrevemos

ϕ(θ) = an e2πin·θ
n∈Zd

onde θ = (θ1 , . . . , θd ), n = (n1 , . . . , nd ), n · θ = n1 θ1 + · · · + nd θd , e



|an | = |ϕ(θ)|2 dθ1 · · · dθd < ∞.
2
(11.7)
n∈Zd

Suponhamos que a função ϕ é invariante, isto é, ϕ ◦ f = ϕ em quase todo ponto.


Observe que

ϕ(f (θ)) = an e2πi(n1 (θ1 +α)+n2 (θ2 +θ1 )+···nd (θd +θd−1 ))
n∈Zd

= an e2πin1 α e2πiL(n)·θ
n∈Zd

onde L(n) = (n1 + n2 , n2 + n3 , . . . , nd−1 + nd , nd ). Portanto, a relação de


invariância ϕ ◦ f = ϕ se traduz por

an e2πin1 α = aL(n) para todo n ∈ Zd . (11.8)

Isto implica que an e aL(n) têm o mesmo valor absoluto. Por outro lado, a
relação de integrabilidade (11.7) implica que existe no máximo um número finito
de termos com um dado valor absoluto não-nulo. Concluı́mos que an = 0 para
todo n ∈ Zd cuja órbita Lj (n), j ∈ Z seja infinita. Observando a expressão de
L deduzimos que an = 0 exceto, possivelmente, se n2 = · · · = nd = 0. Além
disso, para os valores de n restantes, ou seja, para n = (n1 , 0, . . . , 0), tem-se que
L(n) = n e portanto a relação (11.8) torna-se

an = an e2πin1 α .

Como α é irracional, o último fator é diferente de 1 sempre que n1 é não-nulo.


Portanto esta relação dá que an = 0 também para n = (n1 , 0, . . . , 0) com n1 = 0.
Deste modo, mostramos que se ϕ é uma função invariante então todos os termos
da sua expansão de Fourier se anulam exceto, possivelmente, o termo constante.
Isto mostra que ϕ é constante, e isso prova que f é ergódica.

11.2.3 Unicidade ergódica


O próximo passo da demonstração do Teorema 11.12 é a seguinte
Proposição 11.14. A transformação f é unicamente ergódica, isto é, a medida
de Lebesgue no toro é a sua única medida invariante.
11.2. TEOREMA DE WEYL 133

Demonstração. A demonstração será por indução no grau d do polinômio P . O


caso de grau 1 já foi tratado na Seção 11.2.1, portanto só precisamos explicar
como o caso de grau d pode ser deduzido do caso de grau d − 1. Para isso,
escrevemos Td = Td−1 × S 1 e
f : Td−1 × S 1 → Td−1 × S 1 f (θ0 , η) = (f0 (θ0 ), η + θd−1 ) (11.9)
onde θ0 = (θ1 , . . . , θd−1 ) e f0 (θ0 ) = (θ1 + α, θ2 + θ1 , . . . , θd−1 + θd−2 ). Vamos
representar por π : Td → Td−1 a projeção π(θ) = θ0 . Por indução, a trans-
formação
f0 : Td−1 → Td−1
é unicamente ergódica. Para mostrar que f é unicamente ergódica só precisamos
mostrar que a medida de Lebesgue m é a sua única probabilidade invariante
ergódica.
Lema 11.15. Se µ é uma probabilidade invariante por f então a projeção π∗ µ
coincide com a medida de Lebesgue m0 em Td−1 .
Demonstração. Dado qualquer conjunto mensurável E ⊂ Td−1 ,
(π∗ µ)(f0−1 (E)) = µ(π −1 f0−1 (E)).
Usando π ◦ f = f0 ◦ π e o fato de que µ é f -invariante, se verifica que a expressão
do lado direito é igual a
µ(f −1 π −1 (E)) = µ(π −1 (E)) = (π∗ µ)(E).
Portanto (π∗ µ)(f0−1 (E)) = (π∗ µ)(E) para todo subconjunto mensurável E, ou
seja, π∗ µ é probabilidade f0 -invariante. Como supomos que f0 é unicamente
ergódico, segue que π∗ µ coincide com a medida de Lebesgue m0 em Td−1 .
Agora suponhamos que µ é ergódica. Pelo Teorema de Birkhoff 4.2, o con-
junto Gµ dos pontos θ ∈ Td tais que

1
n−1
lim ϕ(f j (θ)) = ϕ dµ para toda função contı́nua ϕ : Td → R (11.10)
n j=0

tem medida total. Seja G0 (µ) o conjunto dos θ0 ∈ Td−1 tais que G(µ) intersecta
{θ0 }×S 1 . Em outras palavras, G0 (µ) = π(Gµ ). É claro que π −1 (G0 (µ)) contém
Gµ e portanto tem medida µ igual a 1. Logo, usando o Lema 11.15,
m0 (G0 (µ)) = µ(π −1 (G0 (µ))) = 1.
Em particular, isto vale para a medida de Lebesgue:
m0 (G0 (m)) = m(π −1 (G0 (m))) = 1.
Uma consequência direta destas relações é que a intersecção de G0 (µ) e G0 (m)
tem medida m0 total e, portanto, estes conjuntos não podem ser disjuntos. Seja
θ0 um ponto qualquer na intersecção. Por definição, G(µ) intersecta {θ0 } × S 1 .
Mas o próximo resultado afirma que G(m) contém {θ0 } × S 1 :
134 CAPÍTULO 11. APLICAÇÕES EM TEORIA DOS NÚMEROS

Lema 11.16. Se θ0 ∈ G0 (m) então {θ0 } × S 1 está contido em G(m).

Demonstração. A observação crucial é que a medida m é invariante por toda a


transformação da forma

Rβ : Td−1 × S 1 → Td−1 × S 1 , (ζ, η) → (ζ, η + β).

A hipótese θ0 ∈ G0 (m) significa que existe algum η ∈ S 1 tal que (θ0 , η) ∈ G(m),
ou seja,

1
n−1
lim ϕ(f j (θ0 , η)) = ϕ dm
n j=0

para toda função contı́nua ϕ : Td → R. Qualquer outro ponto de {θ0 } × S 1


pode ser escrito como (θ0 , η + β) = Rβ (θ0 , η) para algum β ∈ S 1 . Recordando
(11.6), vemos que
   
f Rβ (τ0 , ζ) = (τ1 + α, τ2 + τ1 , . . . , τd−1 + τd−2 , ζ + β + τd−1 ) = Rβ f (τ0 , ζ)

para todo (τ0 , ζ) ∈ Td−1 × S 1 . Logo, por indução,


   
f j (θ0 , η + β) = f j Rβ (θ0 , η) = Rβ f j (θ0 , η)

para todo j ≥ 1. Portanto, dada qualquer função contı́nua ϕ : Td → R,

1 1
n−1 n−1
lim ϕ(f j (θ0 , η + β)) = lim (ϕ ◦ Rβ )(f j (θ0 , η))
n j=0 n j=0

= (ϕ ◦ Rβ ) dm = ϕ dm.

Isto prova que (θ0 , η + β) está em Gm para todo β ∈ S 1 , conforme afirmado.

Segue do que dissemos até agora que G(µ) e G(m) se intersectam em algum
ponto de {θ0 } × S 1 . Tendo em vista a definição (11.10), isto implica que as
duas medidas têm a mesma integral para cada função contı́nua. De acordo
com o Teorema de Riesz-Markov 3.7, isto implica que µ = m, como querı́amos
demonstrar.

Corolário 11.17. A órbita de todo ponto θ ∈ Td é equidistribuı́da no toro: para


toda função contı́nua ψ : Td → R tem-se

1
n−1
lim ψ(f j (θ)) = ψ dm.
n j=0

Demonstração. Isto é uma consequência imediata da Proposição 11.14 e da


Proposição 3.7.
11.2. TEOREMA DE WEYL 135

11.2.4 Demonstração do Teorema de Weyl


Para completarmos a demonstração do Teorema 11.12, introduzimos os polinô-
mios definidos por pd (x) = P (x) e

pj−1 (x) = pj (x + 1) − pj (x) for j = 2, . . . , d. (11.11)

Lema 11.18. 1. O polinômio pj (x) tem grau j, para todo 1 ≤ j ≤ d.

2. p1 (x) = αx + β onde α = ad d! é irracional.

Deixamos a demonstração deste lema para o Exercı́cio 11.5.

Lema 11.19. Para todo n ≥ 0,


   
f n p1 (0), p2 (0), . . . , pd (0) = p1 (n), p2 (n), . . . , pd (n) .

Demonstração. A demonstração será por indução em n. Como o caso n = 0 é


óbvio, só precisamos tratar do passo indutivo. Lembre que f foi definida em
(11.6). Se

f n−1 (p1 (0), p2 (0), . . . , pd (0)) = (p1 (n − 1), p2 (n − 1), . . . , pd (n − 1))

então f n (p1 (0), p2 (0), . . . , pd (0)) é igual a

(p1 (n − 1) + α, p2 (n − 1) + p1 (n − 1), . . . , pd (n − 1) + pd−1 (n − 1)).

Usando a definição (11.11) e o Lema 11.18, obtemos que esta expressão é igual
a
(p1 (n), p2 (n), . . . , pd (n)),

e isto prova o lema.

Finalmente, estamos prontos para provar que a sequência zn = {P (n)} é


equidistribuı́da, conforme afirma o Teorema 11.12. Seja ϕ : S 1 → R uma função
contı́nua qualquer. Considere ψ : Td × R definida por

ψ(θ1 , θ2 , . . . , θd ) = ϕ(θd ).

Fixemos θ = (p1 (0), p2 (0), . . . , pd (0)). Usando o Lema 11.19 e o Corolário 11.17,

1 1
n−1 n−1
lim ϕ(zn ) = lim ψ(f n (θ)) = ψ dm = ϕ dx.
n j=0 n j=0

Isto termina a demonstração do Teorema 11.12.


136 CAPÍTULO 11. APLICAÇÕES EM TEORIA DOS NÚMEROS

11.3 Exercı́cios
11.1. Prove que
1. Di (S) = Ds (Z \ S) para qualquer subconjunto S de Z.
2. Se S1 , S − 2, . . . , SN é uma partição de Z então

Ds (S1 ) + Ds (S2 ) + · · · + Ds (SN ) ≥ 1.

11.2. Deduza o Teorema 11.9 a partir do Teorema 11.7.


11.3. Mostre que dadas quaisquer transformações contı́nuas fi : M → M ,
i = 1, 2, . . . , k num espaço métrico compacto M , tais que fi ◦ fj = fj ◦ fi para
todo i, j = 1, 2, . . . , k, existe alguma medida de probabilidade µ que é invariante
por todas essas transformações.
11.4. Mostre que uma sequência xn é equidistribuı́da se e somente se, dado
qualquer intervalo I ⊂ [0, 1], tem-se
1
lim #{j = 1, 2, . . . , n : xj ∈ I} = m(I)
n→∞ n
onde m representa a medida de Lebesgue em [0, 1].
11.5. Demonstre o Lema 11.18.
11.6. Sejam fi : M → M , i = 1, 2, . . . , k transformações que preservam uma
probabilidade µ em M e tais que fi ◦ fj = fj ◦ fi para todo i, j = 1, 2, . . . , k.
Então, para qualquer conjunto E ⊂ M tal que µ(E) > 0, e para quase todo
n
x ∈ E existe uma sequência nj → ∞ tal que fi j (x) ∈ E para todo i = 1, . . . , k
e todo j ≥ 1.
Capı́tulo 12

Resultados em Teoria
Ergódica Diferenciável

12.1 Fluxos geodésicos

12.2 Hiperbolicidade não-uniforme


Nesta seção enunciar sem provas alguns resultados centrais da Teoria Ergódica
diferenciável. Para os interessados em suas provas, recomendamos a leitura de
[Mañ87].

Definição 12.1. Seja f : M d → M d um difeomorfismo da variedade M . Um


ponto x ∈ M é dito regular se existe números λ1 < λ2 · · · < λl (x) e uma
decomposição E1 (x) ⊕ · · · ⊕ El (x) = Tx M tal que em cada subespaço Ei vale:

1
lim log Df n (x)v = λi (x),
n→±∞ n

para todo v ∈ Ei (x).

Denotaremos por Λ o conjunto dos pontos regulares. O números λi (x) são


chamados os expoentes de Lyapunov de x e dimEi (x) é a multiplicidade de λi (x).
Observe que se x é regular, então f n (x) é regular e seus expoentes coincidem
com os expoentes de x. Para ver isso, basta definir Ei (f n (x)) = Df n (x)Ei (x).
Vale o seguinte teorema:

Teorema 12.2 (Oseledets). Seja f um difeomorfismo C 1 de uma variedade


compacta M . Então µ(Λ) = 1 para toda medida invariante µ. Ou seja, o
conjunto dos pontos regulares é um conjunto com medida µ total. Além disso:

1. Se µ é ergódica, então l(x) e λ1 (x), . . . , λl (x) são constantes para µ-quase


todo ponto x ∈ M.
138CAPÍTULO 12. RESULTADOS EM TEORIA ERGÓDICA DIFERENCIÁV

 
l
2. log | det Df (x)|dµ(x) = (x)λi (x)dµ(x).
i=0

Definiremos a função χ : Λ → R por



χ(x) = lim λi (x)dimEi (x).
λi (x)>0

Então,

Teorema 12.3 (desigualdade de Ruelle). Se µ é uma medida invariante


para um difeomorfismo (ou endomorfismo) C 1 de uma variedade compacta M ,
então:
hµ (f ) ≤ χ(x)dµ(x).

Teorema 12.4 (fórmula de Pesin). Se µ é uma medida invariante absoluta-


mente contı́nua com respeito à medida de Lebesgue para um difeomorfismo (ou
endomorfismo) C 1+α de uma variedade compacta M , então:

hµ (f ) = χ(x)dµ(x).

12.3 Exercı́cios
Bibliografia

[BK83] M. Brin and A. Katok. On local entropy. In Geometric dynamics


(Rio de Janeiro, 1981), volume 1007 of Lecture Notes in Math., pages
30–38. Springer, 1983.

[Cas04] A. A. Castro. Teoria da medida. Projeto Euclides. IMPA, 2004.

[ET36] P. Erdös and P. Turán. On some sequences of integers. J. London.


Math. Soc., 11:261–264, 1936.

[Fal90] K. Falconer. Fractal geometry. John Wiley & Sons Ltd., 1990. Math-
ematical foundations and applications.

[Fer02] R. Fernandez. Introdução à teoria da medida. Projeto Euclides. IMPA,


2002.

[Fur77] H. Furstenberg. Ergodic behavior and a theorem of Szemerédi on


arithmetic progressions. J. d’Analyse Math., 31:204–256, 1977.

[Fur81] H. Furstenberg. Recurrence in ergodic theory and combinatorial num-


ber theory. Princeton Univertsity Press, 1981.

[Mañ87] R. Mañé. Ergodic theory and differentiable dynamics. Springer Verlag,


1987.

[Orn70] D. Ornstein. Bernoulli shifts with the same entropy are isomorphic.
Advances in Math., 4:337–352 (1970), 1970.

[Rok66] V.A. Rokhlin. Selected topics from the metric theory of dynamical
systems. A. M. S. Transl., 49:171–240, 1966. Transl. from Uspekhi
Mat. Nauk. 4 - 2 (1949), 57–128.

[Rud87] W. Rudin. Real and complex analysis. McGraw-Hill, 3 edition, 1987.

[Sze75] S. Szemerédi. On sets of integers containing no k elements in arith-


metic progression. Acta Arith., 27:199–245, 1975.

[vdW27] B. van der Waerden. Beweis eibe Baudetschen Vermutung. Nieuw


Arch. Wisk., 15:212–216, 1927.
140 BIBLIOGRAFIA

[Wey16] H. Weyl. Uber die Gleichverteilungen von Zahlen mod Eins. Math.
Ann., 77:313–352, 1916.