Matematica Ercodica

Introdução à Teoria Ergódica
Krerley Oliveira e Marcelo Viana

ii
Prefácio
Em termos simples, a Teoria Ergódica é a disciplina matemática que estuda

sistemas dinâmicos munidos de medidas invariantes. Começaremos por dar as
definições precisas destas noções e algumas das principais motivações para o
seu estudo. No final deste prefácio faremos alguns comentários sobre a história
desta disciplina.
Sistemas dinâmicos
Há várias definições, mais ou menos gerais, do que é um sistema dinâmico. Nós
nos restringiremos a dois modelos principais. O primeiro deles, ao qual nos
referiremos na maior parte do tempo, são as transformações f : M → M em
algum espaço métrico ou topológico M . Heuristicamente, pensamos em f como
associando a cada estado x ∈ M do sistema o estado f (x) ∈ M em que o sistema
se encontrará uma unidade de tempo depois. Trata-se portanto de um modelo
de dinâmica com tempo discreto.
Também consideraremos fluxos, que são modelos de sistemas dinâmicos a
tempo contı́nuo. Lembre que um fluxo em M é uma famı́lia f t : M → M , t ∈ R
de transformações satisfazendo
f 0 = identidade e f t ◦ f s = f t+s para todo t, s ∈ R. (1)
Fluxos aparecem, por exemplo, associados a equações diferenciais: tome como
f t a transformação que associa a cada ponto x o valor no tempo t da solução
da equação que passa por x no tempo zero.
Num caso e no outro, sempre iremos supor que o sistema dinâmico é pelo
menos mensurável: na maior parte dos casos será até contı́nuo, ou mesmo difer-
enciável.
Medidas invariantes
Sempre consideraremos medidas µ definida na σ-álgebra de Borel do espaço M .
Dizemos que µ é uma probabilidade se µ(M ) = 1. Na maior parte dos casos
trataremos com medidas finitas, isto é, tais que µ(M ) < ∞. Neste caso sempre
podemos transformar µ numa probabilidade ν: para isso basta definir
µ(E)
ν(E) = para cada conjunto mensurável E ⊂ M.
µ(M )
iv
Em geral, uma medida µ diz-se invariante pela transformação f se
µ(E) = µ(f −1 (E)) para todo conjunto mensurável E ⊂ M. (2)
Heuristicamente, isto significa que a probabilidade de um ponto estar num dado

conjunto e a probabilidade de que a sua imagem esteja nesse conjunto são
iguais. Note que a definição (2) faz sentido, uma vez que a pré-imagem de um
conjunto mensurável por uma transformação mensurável ainda é um conjunto
mensurável.
No caso de fluxos, substituı́mos (2) por
µ(E) = µ(f −t (E)) para todo mensurável E ⊂ M e todo t ∈ R. (3)
Porque medidas invariantes ?

Como em todo ramo da Matemática, parte importante da motivação é intrı́nseca
e estética: estas estruturas matemáticas têm propriedades profundas e surpreen-
dentes que conduzem à demonstração de belı́ssimos teoremas. Igualmente fasci-
nante, idéias e resultados da Teoria Ergódica se aplicam em outras áreas da
Matemática que a priori nada têm de probabilı́stico, por exemplo a Combi-
natória e a Teoria dos Números.
Outra razão é que muitos fenômenos importantes na Natureza e nas ciências
experimentais são modelados por sistemas dinâmicos que deixam invariante al-
guma medida interessante. O exemplo mais importante, historicamente, veio
da Fı́sica: sistemas hamiltonianos, que descrevem a evolução de sistemas con-
servativos na mecânica newtoniana, são descritos por fluxos que preservam uma
medida natural, a medida de Liouville. Aliás veremos que sistemas dinâmicos
muito gerais possuem medidas invariantes.
Ainda outra motivação fundamental para que nos interessemos por medidas
invariantes é que o seu estudo pode conduzir a informação importante sobre
o comportamento dinâmico do sistema, que dificilmente poderia ser obtida de
outro modo. O teorema de recorrência de Poincaré é uma excelente ilustração
do que acabamos de dizer.
Breve apresentação histórica

A palavra ergódico é a concatenação de duas palavras gregas, ergos = trabalho
e odos = caminho, e foi introduzida por Boltzmann, no século XIX, no seu
trabalho sobre a teoria cinética dos gases. Os sistemas em que Boltzmann,
Maxwell, Gibbs, os principais fundadores da teoria cinética, estavam interessa-
dos são descritos por um fluxo hamiltoniano, ou seja, uma equação diferencial
da forma

dq1 dqn dp1 dpn ∂H ∂H ∂H ∂H
,..., , ,..., = ,..., ,− ,...,− .
dt dt dt dt ∂p1 ∂pn ∂q1 ∂qn
Boltzmann acreditava que as órbitas tı́picas do fluxo preenchem toda a superfı́cie
de energia H −1 (c) que as contém. A partir desta hipótese ergódica, ele deduzia
v
que as médias temporais de grandezas observáveis (funções) ao longo de órbitas

tı́picas coincidem com as respectivas médias espaciais na superfı́cie de energia,
um fato crucial para a sua formulação da teoria cinética.
De fato, esta hipótese é claramente falsa e, com o tempo, tornou-se usual
chamar hipótese ergódica a sua consequência de igualdade das médias tempo-
rais e espaciais. Sistemas para os quais esta igualdade vale foram chamados
ergódicos. E pode dizer-se que uma boa parte da Teoria Ergódica, tal como ela
se desenvolveu ao longo do século XX, foi motivada pelo problema de decidir se
a maioria dos sistemas hamiltonianos, especialmente aqueles que aparecem na
teoria cinética dos gases, são ergódicos ou não.
Um avanço fundamental ocorreu nos anos trinta, quando von Neumann e
Birkhoff provaram que médias temporais existem para quase toda órbita. Es-
petacularmente, em meados dos anos cinquenta, Kolmogorov provou que muitos
sistemas hamiltonianos não são ergódicos. Este resultado foi muito expandido
por Arnold e por Moser, no que veio a ser chamado teoria KAM em homenagem
aos três.
Por outro lado, ainda nos anos trinta, E. Hopf tinha dado os primeiros exem-
plos importantes de sistemas hamiltonianos ergódicos, os fluxos geodésicos de
superfı́cies com curvatura negativa. O seu resultado foi generalizado por Anosov,
nos anos sessenta, para variedades de qualquer dimensão. De fato, Anosov
tratou uma classe bem mais geral de sistemas, tanto com tempo contı́nuo como
com tempo discreto, que são chamados sistemas de Anosov, ou globalmente
hiperbólicos.
Nos anos setenta, Sinai desenvolveu a teoria das medidas de Gibbs dos sis-
temas de Anosov, conservativos ou dissipativos, que foi logo em seguida es-
tendida por Ruelle e por Bowen para sistemas chamados Axioma A, ou uni-
formemente hiperbólicos, constituindo uma das maiores realizações da teoria
ergódica diferenciável. Não podemos deixar de mencionar, nesta breve lista de
contribuições fundamentais, a introdução da noção de entropia por Kolmogorov
e Sinai no final dos anos cinquenta, e a demonstração, por Ornstein cerca de
dez anos depois, de que a entropia é um invariante completo para deslocamentos
(“shifts”) de Bernoulli.
1 2
Krerley Oliveira e Marcelo Viana
1 Departamento de Matemática, Universidade Federal de Alagoas, Campus A. C. Simões
s/n, 57072-090 Maceió, Brasil. krerley@mat.ufal.br.

2 IMPA, Estrada D. Castorina 110, 22460-320 Rio de Janeiro, Brasil viana@impa.br.
vi
Conteúdo
0 Elementos de Teoria da Medida 1

0.1 Espaços mensuráveis . . . . . . . . . . . . . . . . . . . . . . . . . 1
0.2 Espaços de medida . . . . . . . . . . . . . . . . . . . . . . . . . . 2
0.3 Integração em espaços de medida . . . . . . . . . . . . . . . . . . 6
0.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1 Teorema de Recorrência de Poincaré 13

1.1 Versão mensurável . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2 Versão topológica . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3 Recorrência para medidas infinitas . . . . . . . . . . . . . . . . . 15
1.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 Exemplos de Medidas Invariantes 17

2.1 Expansão decimal . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 Sistemas conservativos . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3 Deslocamentos (“shifts”) de Bernoulli . . . . . . . . . . . . . . . 21
2.4 Transformação de Gauss . . . . . . . . . . . . . . . . . . . . . . . 22
2.5 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Existência de Medidas Invariantes 27

3.1 Alguns exemplos simples . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 A topologia fraca∗ no espaço das medidas . . . . . . . . . . . . . 28
3.3 Demonstração do Teorema de Existência . . . . . . . . . . . . . . 32
3.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4 Teorema Ergódico de Birkhoff 37

4.1 Enunciados e comentários . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Demonstração do teorema ergódico . . . . . . . . . . . . . . . . . 39
4.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5 Ergodicidade 43
5.1 Exemplos e aplicações . . . . . . . . . . . . . . . . . . . . . . . . 44
5.2 Equivalência Espectral . . . . . . . . . . . . . . . . . . . . . . . 51
5.3 Propriedades de medidas ergódicas . . . . . . . . . . . . . . . . . 54
viii CONTEÚDO
5.4 Teorema de decomposição ergódica . . . . . . . . . . . . . . . . . 56

5.5 Teorema de desintegração . . . . . . . . . . . . . . . . . . . . . . 60
5.6 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6 Sistemas Misturadores 67
6.1 Definições e exemplos . . . . . . . . . . . . . . . . . . . . . . . . 67
6.2 Deslocamentos de Markov . . . . . . . . . . . . . . . . . . . . . . 69
6.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
7 Entropia Métrica 77
7.1 Entropia de uma partição . . . . . . . . . . . . . . . . . . . . . . 77
7.2 Entropia de um sistema ergódico . . . . . . . . . . . . . . . . . . 80
7.3 Teorema de Kolmogorov-Sinai . . . . . . . . . . . . . . . . . . . . 83
7.4 Equivalência ergódica . . . . . . . . . . . . . . . . . . . . . . . . 83
7.5 Equivalência Espectral . . . . . . . . . . . . . . . . . . . . . . . . 84
7.6 A entropia como invariante . . . . . . . . . . . . . . . . . . . . . 85
7.7 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
8 Entropia Topológica 89
8.1 Definição via coberturas . . . . . . . . . . . . . . . . . . . . . . . 89
8.2 Definição via conjuntos geradores . . . . . . . . . . . . . . . . . . 91
8.3 Entropia de fluxos . . . . . . . . . . . . . . . . . . . . . . . . . . 92
8.4 Pressão topológica . . . . . . . . . . . . . . . . . . . . . . . . . . 93
8.5 Princı́pio variacional . . . . . . . . . . . . . . . . . . . . . . . . . 94
8.6 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
9 Transformações Expansoras 97
9.1 Lema de distorção . . . . . . . . . . . . . . . . . . . . . . . . . . 98
9.2 Medidas absolutamente contı́nuas . . . . . . . . . . . . . . . . . . 100
9.3 Existência de medidas ergódicas . . . . . . . . . . . . . . . . . . . 101
9.4 Unicidade e conclusão da prova . . . . . . . . . . . . . . . . . . . 102
9.5 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
10 Estados de Equilı́brio 105

10.1 Definição de Estado de Equilı́brio . . . . . . . . . . . . . . . . . . 105
10.2 Transformações expansivas . . . . . . . . . . . . . . . . . . . . . . 106
10.3 Transformações expansoras . . . . . . . . . . . . . . . . . . . . . 110
10.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
11 Aplicações em Teoria dos Números 123

11.1 Teorema de Szemerédi . . . . . . . . . . . . . . . . . . . . . . . . 123
11.2 Teorema de Weyl . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
11.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
CONTEÚDO ix
12 Resultados em Teoria Ergódica Diferenciável 137

12.1 Fluxos geodésicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
12.2 Hiperbolicidade não-uniforme . . . . . . . . . . . . . . . . . . . . 137
12.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
x CONTEÚDO
Capı́tulo 0
Elementos de Teoria da
Medida
Neste capı́tulo inicial recordamos algumas noções e resultados básicos da Teo-

ria da Medida que são úteis para o que segue. As demonstrações podem ser
encontradas nos livros de Castro [Cas04], Fernandez [Fer02] ou Rudin [Rud87].
0.1 Espaços mensuráveis

Começamos por introduzir as noções de álgebra e σ-álgebra de subconjuntos.
Em seguida definimos espaços mensuráveis e apresentamos uma técnica de
construção de σ-álgebras. Seja M um conjunto.
Definição 0.1. Uma álgebra de subconjuntos de M é uma famı́lia B de subcon-
juntos que contém M e é fechada para as operações elementares de conjuntos:
• A ∈ B implica Ac = M \ A ∈ B
• A ∈ B e B ∈ B implica A ∪ B ∈ B.
Então A ∩ B = (Ac ∪ B c )c e A \ B = A ∩ B c também estão em B, quaisquer
que sejam A, B ∈ B. Além disso, por associatividade, a união e a intersecção
de qualquer número finito de elementos de B também estão em B.
Definição 0.2. Uma álgebra diz-se uma σ-álgebra de subconjuntos de M se
também for fechada para uniões enumeráveis:
∞

• Aj ∈ B para j = 1, 2, . . . , n, . . . implica Aj ∈ B.
j=1
Observação. B também é fechada para intersecções enumeráveis: se Aj ∈ B

∞
∞
c
para j = 1, 2, . . . , n, . . . então Aj = Acj ∈ B.
j=1 j=1
2 CAPÍTULO 0. ELEMENTOS DE TEORIA DA MEDIDA
Definição 0.3. Um espaço mensurável é uma dupla (M, B) onde M é um

conjunto e B é uma σ-álgebra de subconjuntos de M . Os elementos de B são
chamados conjuntos mensuráveis.
Em seguida apresentamos alguns exemplos de σ-álgebras remetendo para os
exercı́cios o estudo de outros exemplos.
Exemplo 0.4. Seja M um conjunto qualquer.
1. Denotemos por 2M a famı́lia de todos os subconjuntos de M . Então
B = 2M é claramente uma σ-álgebra.
2. B = {∅, M } é também uma σ-álgebra.
Note que se B é uma álgebra de um conjunto M então {∅, M } ⊂ B ⊂ 2M .
Portanto {∅, M } é a menor álgebra e 2M é a maior álgebra de um conjunto
M . Considere uma famı́lia não-vazia {Bi : i ∈ I} qualquer de σ-álgebras (I é
um conjunto qualquer, que serve apenas para indexar os elementos da famı́lia).
Então a intersecção
B= Bi
i∈I
é também uma σ-álgebra (veja o Exercı́cio 0.1). Agora, dado um conjunto

qualquer E de subconjuntos de M , podemos aplicar esta idéia à famı́lia de todas
as σ-álgebras que contém E. Note que esta famı́lia é não vazia, uma vez que
contém a σ-álgebra 2M , pelo menos. De acordo com a observação anterior, a
intersecção de todas estas σ-álgebras é também uma σ-álgebra, e é claro que
contém E. Além disso, do modo que é construı́da, ela está contida em todas as
σ-álgebras que contêm E. Portanto é a menor σ-álgebra que contém E.
Definição 0.5. A σ-álgebra gerada por uma famı́lia E de subconjuntos de M é
a menor σ-álgebra que contém a famı́lia E.
No caso em que M vem munido da estrutura de espaço topológico, há uma
escolha natural para E, nomeadamente, o conjunto dos subconjuntos abertos.
Isto nos conduz à noção de σ-álgebra de Borel.
Definição 0.6. Seja (M, τ ) um espaço topológico, isto é, M um conjunto e τ
a famı́lia dos subconjuntos abertos de M . Então a σ-álgebra de Borel de M
é a σ-álgebra gerada por τ , ou seja, a menor σ-álgebra que contém todos os
subconjuntos abertos.
0.2 Espaços de medida

Agora introduzimos o conceito de medida e analisamos algumas das suas pro-
priedades fundamentais. Em seguida apresentamos alguns resultados sobre
construção de medidas. Finalmente, analisamos duas importantes classes de
medidas: medidas de Lebesgue em espaços euclideanos e medidas produto em
espaço de sequências.
0.2. ESPAÇOS DE MEDIDA 3
Definição 0.7. Uma medida num espaço mensurável (M, B) é uma função
µ : B → [0, +∞] que satisfaz:
1. µ(∅) = 0;
∞ ∞
2. µ( j=1 Aj ) = j=1 µ(Aj ) para quaisquer Aj ∈ B disjuntos dois-a-dois.
A tripla (M, B, µ) é chamada espaço de medida. Quando µ(M ) = 1 dizemos que

µ é uma medida de probabilidade e (M, B, µ) é um espaço de probabilidade.
A segunda propriedade na definição de medida é chamada a σ-aditividade.

Dizemos que uma função µ : B → [0, +∞] é finitamente aditiva se:

N
N
µ( Aj ) = µ(Aj )
j=1 j=1
para qualquer famı́lia finita A1 , . . . , AN ∈ B de subconjuntos disjuntos dois-a-

dois. Note que toda medida é, automaticamente, finitamente aditiva.
Exemplo 0.8. Seja M um conjunto e consideremos a σ-álgebra B = 2M . Dado

qualquer p ∈ M , consideremos a função δp : 2M → [0, +∞] definida por:

1 , se p ∈ A
δp (A) = .
0 , se p ∈ /A
Temos que δp é uma medida, que é usualmente designada por delta de Dirac no
ponto p.
Em seguida apresentamos um resultado muito útil na construção de medidas.
Teorema 0.9 (Extensão). Seja B0 uma álgebra de subconjuntos de M e seja

µ0 : B0 → [0, +∞] uma função finita, finitamente aditiva. Então existe uma
única função finita, finitamente aditiva µ : B → [0, +∞] que é uma extensão de
µ0 (isto é, µ restrita a B0 coincide com µ0 ) à σ-álgebra B gerada por B0 . Se µ0
é σ-aditiva então µ também o é.
Em geral, ao aplicar este resultado o mais difı́cil é verificar a σ-aditividade.

O critério mais usado para esse efeito é expresso no seguinte resultado. A sua
demonstração é proposta como Exercı́cio 0.7.
Teorema 0.10 (σ-aditividade). Seja B0 uma álgebra e seja µ0 : B0 → [0, +∞]

uma função finitamente aditiva com µ0 (M ) = 1. Suponha que

n
lim µ0 ( Aj ) = 0 (1)
n→∞
j=1
∞ toda a sequência A1 ⊃ · · · ⊃ Aj ⊃ · · · de conjuntos mensuráveis tal que

para
j=1 Aj = ∅. Então µ0 é σ-aditiva.
O resultado seguinte nos diz que todo o elemento B da σ-álgebra gerada por
uma álgebra é aproximado por algum elemento B0 da álgebra, no sentido em
que a medida da diferença simétrica B∆B0 = B \ B0 ∪ B0 \ B é pequena.
Teorema 0.11 (Aproximação). Seja (M, B, µ) um espaço de probabilidade e
seja B0 uma álgebra que gera a σ-álgebra B. Então para todo o ε > 0 e todo
B ∈ B existe B0 ∈ B0 tal que µ(B∆B0 ) < ε.
0.2.1 Medida de Lebesgue

A medida de Lebesgue corresponde ao que entendemos por volume de sub-
conjuntos de Rd . Para construı́-la, recorremos ao Teorema de Extensão 0.9.
Consideremos M = [0, 1] e seja B0 a famı́lia de todos os subconjuntos da forma
B = I1 ∪ · · · ∪ IN onde I1 , . . . , IN são intervalos disjuntos dois-a-dois. É fácil ver
que B0 é uma álgebra de subconjuntos de M . Além disso, temos uma função
µ0 : B0 → [0, 1] definida nesta álgebra por

µ0 I1 ∪ · · · ∪ IN = |I1 | + · · · + |IN | ,
onde |Ij | representa o comprimento de Ij . Note que µ0 (M ) = 1. Além
disso, a σ-álgebra gerada por B0 coincide com a σ-álgebra de Borel de M , já
que todo aberto pode ser escrito como união enumerável de intervalos disjuntos
dois-a-dois. Pelo Teorema 0.9, existe uma única probabilidade µ definida na
σ-álgebra de [0, 1] que é uma extensão de µ0 à σ-álgebra B gerada por B0 .
Chamamos µ de medida de Lebesgue em [0, 1]. Mais geralmente, definimos
medida de Lebesgue µ no cubo M = [0, 1]d de qualquer dimensão d ≥ 1 da
seguinte maneira: chamamos retângulo em M qualquer subconjunto da forma
R = I1 × · · · × Id onde os Ij são intervalos, e definimos
µ0 (R) = |I1 | × · · · × |Id | .
Em seguida, consideramos a álgebra B0 dos subconjuntos de [0, 1]d da forma

B = R1 ∪ · · · ∪ RN , onde R1 , . . . , RN são retângulos disjuntos dois-a-dois, e
definimos
µ0 (B) = µ0 (R1 ) + · · · µ0 (RN )
para todo B nessa álgebra. A medida de Lebesgue em M = [0, 1]d é a extensão
de µ0 à σ-álgebra gerada por B0 , que coincide com a σ-álgebra de Borel de
M . Finalmente, definimos a medida de Lebesgue num espaço euclidiano Rd
decompondo o espaço em cubos de lado unitário

Rd = ··· [m1 , m1 + 1) × · · · × [md , md + 1)
m1 ∈Z md ∈Z
e definindo, para cada subconjunto mensurável E,

µ(E) = ··· µ E ∩ [m1 , m1 + 1) × · · · × [md , md + 1) .
m1 ∈Z md ∈Z
0.2. ESPAÇOS DE MEDIDA 5
Exemplo 0.12 (Medida de Volume em S 1 ). Considere a aplicação sobre-

jetora γ : [0, 1] → S 1 definida por:
γ(t) = e2πit .
A medida de Lebesgue em S 1 é a medida µ definida por µ(A) = m(γ −1 (A)).
Observe que com esta definição, a medida de A é igual a medida de Rα (A), onde
Rα : S 1 → S 1 denota a rotação de ângulo α. Na verdade, módulo multiplicação
por um número positivo, µ é a única medida que satisfaz essa condição para
todo α.
Exemplo 0.13. Seja φ : [0, 1] → R uma função contı́nua e positiva. Defina a
medida µφ num intervalo [a, b] por:
b
µφ ([a, b]) = φ(x) dx.
a
Observe que µφ é aditiva e com o auxı́lio dos Teoremas 0.10 e 0.9 podemos
estender µφ para toda σ-álgebra dos Borelianos de [0, 1]. A medida µφ tem
a seguinte propriedade especial: se um conjunto A ⊂ [0, 1] tem medida de
Lebesgue 0 então µφ (A) = 0. Essa propriedade nos diz que µφ é absolutamente
contı́nua com respeito à medida de Lebesgue. A densidade de µφ em relação a
m é igual a φ. Estudaremos tais medidas com mais detalhes na Secção 0.3.2.
Exemplo 0.14. Vamos agora exibir uma medida que, apesar de ser positiva
em qualquer aberto, não é absolutamente contı́nua com respeito a medida de
Lebesgue. Para isso, considere uma enumeração {r1 , r2 , . . . } do conjunto Q dos
racionais. Defina µ por:
1
µ(A) = .
2i
ri ∈A
Observe que a medida de qualquer aberto da reta é positiva, pois necessaria-

mente A contém algum i, e, apesar disso, µ(Q) = 1. Em particular, µ não é
absolutamente contı́nua com respeito a medida de Lebesgue.
O exemplo anterior nos motiva a definir o suporte de uma medida:
Definição 0.15. Seja (M, B, µ) um espaço de medida e M um espaço topológico.
O suporte da medida µ é o fecho do conjunto de pontos x ∈ M tais que para
qualquer vizinhança aberta Vx contendo x, temos que µ(Vx ) > 0.
Fica como exercı́cio para o leitor mostrar que o suporte de uma medida é
sempre um conjunto fechado (10.6).
0.2.2 Medida produto no espaço das sequências

Consideremos os espaços de probabilidade (Mi , Bi , µi ), com i ∈ Z. Vamos con-
struir uma probabilidade µ no conjunto
∞

M= Mi
i=−∞
das sequências bilaterais (xi )∞

i=−∞ com xi ∈ Mi para cada i. Mais precisa-
mente, a medida µ será definida na σ-álgebra produto B das σ-álgebras Bi , que
é caracterizada do seguinte modo: dados inteiros m ≤ n e conjuntos Aj ∈ Bj
para m ≤ j ≤ n, consideremos
[m; Am , . . . , An ] = {(xi )i∈Z : xj ∈ Aj para m ≤ j ≤ n}.
Estes subconjuntos de M são chamados cilindros. A famı́lia B0 das uniões fini-

tas de cilindros disjuntos dois-a-dois é uma álgebra. Por definição, a σ-álgebra
produto B é a σ-álgebra gerada por B0 . Para construir a medida µ procede-
mos do seguinte modo: primeiramente, consideramos a aplicação τ definida na
famı́lia dos cilindros por

n
τ ([m; Am , . . . , An ]) = µj (Aj ).
j=m
Em seguida estendemos τ à álgebra B0 , estipulando que a imagem de qualquer

união finita de cilindros disjuntos dois-a-dois é igual à soma das imagens dos
cilindros. Esta extensão está bem definida e é finitamente aditiva. Então,
recorrendo aos Teoremas 0.10 e 0.9, obtemos uma medida de probabilidade µ
em (M, B) que estende τ .
Definição 0.16. O espaço de probabilidade (M, B, µ) construı́do acima é de-
signado produto direto dos espaços (Mi , Bi , µi ).
Existe um caso particular importante, que corresponde à situação onde os
espaços (Mi , Bi , µi ) são todos iguais a um dado (X, C, ν), em que X = {1, . . . , d}
é um conjunto finito e C = 2X é a σ-álgebra de todos os subconjuntos de X.
Neste caso basta considerar apenas cilindros elementares, isto tais que cada Aj
consiste de um único ponto de X. De fato, todo cilindro é uma união finita
disjunta de tais cilindros elementares. Obtemos então subconjuntos de M da
forma
[m; am , . . . , an ] = {(xi )∞
i=−∞ ∈ M : xm = am , . . . , xn = an }
onde aj ∈ {1, . . . , d}. A medida µ é designada medida de Bernoulli definida por

ν e é caracterizada por µ([m; am , . . . , an ]) = ν({am }) · · · ν({an }).
0.3 Integração em espaços de medida

Nesta seção definimos a noção de integral de uma função em relação a uma me-
dida e apresentamos teoremas fundamentais da Teoria da Medida. Para tanto,
introduziremos algumas classes de funções. Ao longo desta seção (M, B, µ) será
sempre um espaço de medida.
Definição 0.17. Seja B(R) a σ-álgebra de Borel de R. Uma função f : M → R
diz-se mensurável se f −1 (D) ∈ B para todo D ∈ B(R).
0.3. INTEGRAÇÃO EM ESPAÇOS DE MEDIDA 7
O espaço das funções mensuráveis possui diversas propriedades muito úteis.

Vamos enunciá-las como proposição:
Proposição 0.18. Sejam f1 , f2 funções mensuráveis e c1 , c2 ∈ R. Então

também são mensuráveis as seguintes funções:
1. então (c1 f1 + c2 f2 )(x) = c1 f1 (x) + c2 f2 (x)
2. (f1 · f2 )(x) = f1 (x) · f2 (x)
3. max{f1 , f2 }(x) = max{f1 (x), f2 (x)}
Dizemos que uma função s : M → R é simples se existem constantes

α1 , . . . , αk ∈ R e conjuntos A1 , . . . , Ak ∈ B disjuntos dois-a-dois tais que

k
s= αk XAk ,
j=1
onde XA é a função caracterı́stica do conjunto A, isto é, XA (x) é igual a 1 se

x ∈ A e zero caso contrário. Introduzimos agora a noção de integral. Para tal
começamos por definir integral de uma função simples.
Definição 0.19. Seja s uma função simples da forma acima. Então a integral
de s em relação a µ é dado por:

k
s dµ = αk µ(Ak ).
j=1
É fácil verificar que esta definição é coerente: se duas combinações lineares

de funções caracterı́sticas definem uma mesma função simples, os valores das
integrais obtidos a partir das duas combinações coincidem. O próximo passo
é definir integral de uma função mensurável qualquer. Para isso, trataremos
primeiro do caso da função ser não-negativa. Necessitamos do seguinte resul-
tado, que nos diz que qualquer função mensurável é o limite de uma sequência
de funções simples mensuráveis:
Teorema 0.20. Seja f : M → [−∞, ∞] uma função mensurável. Então existe

uma sequência s1 , s2 , . . . de funções simples mensuráveis tal que
lim sk (x) = f (x) para todo o x ∈ M.

k→∞
Se f ≥ 0 então a sequência pode ser escolhida de modo que 0 ≤ s1 ≤ s2 ≤ · · · .
A demonstração deste teorema é proposta como Exercı́cio 0.16. Ele torna

possı́vel a seguinte
Definição 0.21. Seja f : M → [0, ∞] uma função mensurável não-negativa.

Então

f dµ = lim sn dµ,
n→∞
onde s1 ≤ s2 ≤ . . . é uma sequência de funções simples crescentes para f , isto

é, lim sn (x) = f (x) para todo x ∈ M .
n→∞
É fácil verificar que o valor da integral não depende da escolha da sequência

de funções simples, e portanto esta definição é coerente. Para estender a
definição de integral a quaisquer funções mensuráveis, observemos que dada
uma função f : M → R sempre podemos escrever f = f + − f − onde f + (x) =
max{f (x), 0} e f − (x) = max{−f (x), 0} são não-negativas. Mostra-se também
que f + e f − são mensuráveis se e só se, f é mensurável.
Definição 0.22. Seja f : M → [0, ∞] uma função mensurável. Então

f dµ = f + dµ − f − dµ,
desde que alguma das integrais do lado direito seja finita.
Definição 0.23. Dizemos que uma função é integrável se for mensurável e tiver
integral finita. Denotamos o conjunto das funções integráveis por L1 (M, B, µ)
ou, mais simplesmente, por L1 (M, µ).
Dada uma função mensurável f : M → R e um conjunto mensurável E

definimos a integral de f sobre E por

f dµ = f XE dµ,
E
onde XE é a função caracterı́stica do conjunto E.
Exemplo 0.24. Sejam x1 , . . . , xm ∈ M e p1 , . . . , pm > 0 com p1 + · · · + pm = 1.

Consideremos a medida de probabilidade µ : 2M → [0, 1] dada por:

µ(A) = pi .
xi ∈A
m
Notemos que µ = i=1 pi δxi , onde δxi é a medida delta de Dirac em xi . Neste
caso temos que se f é uma função integrável então

m
f dµ = f (xi )pi .
i=1
0.3. INTEGRAÇÃO EM ESPAÇOS DE MEDIDA 9
0.3.1 Teorema de derivação de Lebesgue

Comecemos por introduzir a noção de “quase em toda a parte” em relação a
uma medida. Dizemos que uma propriedade é válida em µ-quase todo ponto
se é válida em todo o M exceto, possivelmente, num conjunto de medida nula.
Por exemplo, dizemos que duas funções f, g são iguais em µ-quase todo ponto
se existe um conjunto mensurável N com µ(N ) = 0 tal que f (x) = g(x) para
todo x ∈ M \ N .
Teorema 0.25 (Derivação de Lebesgue). Seja M = Rd , B a σ-álgebra de

Borel e µ a medida de Lebesgue em Rd . Seja f : M → R uma função localmente
integrável, isto é, tal que f XK é integrável para todo compacto K ⊂ Rd . Então

1
lim |f (y) − f (x)|dµ = 0.
r→0 µ(B(x, r)) B(x,r)
em µ-quase todo ponto x ∈ Rd . Em particular, em µ-quase todo o ponto x ∈ Rd

tem-se
1
lim f (y)dµ = f (x).
r→0 µ(B(x, r)) B(x,r)
Dado um subconjunto mensurável A de Rd , dizemos que um ponto a ∈ A é

um ponto de densidade de A se este conjunto preenche a maior parte de qualquer
pequena vizinhança de a, i.e,
µ(B(a, ε) ∩ A)
lim = 1. (2)
ε→0 µ(B(a, ε)
O próximo resultado é uma consequência direta do teorema de derivação de

Lebesgue. No Exercı́cio 0.13 sugerimos uma demonstração.
Teorema 0.26. Seja A um subconjunto mensurável de Rd com medida de

Lebesgue µ(A) maior que zero. Então µ-quase todo ponto a ∈ A é ponto de
densidade de A.
Muitos dos resultados envolvendo funções vão se apoiar no chamado “Teo-

rema da Convergência Dominada”, que garante que se uma sequência de funções
convergente é menor que uma função integrável, então o limite das suas integrais
converge e podemos tomar o limite sob o sinal da integral. Mais precisamente:
Teorema 0.27 (Teorema da Convergência Dominada). Consideremos

fn : M → R uma sequência de funções mensuráveis e g uma função integrável
tal que |fn (x)| ≤ |g(x)| para µ-quase todo x em M. Se para µ-quase todo x ∈ M
a sequência fn (x) converge para o valor f (x), então a função f é integrável e
vale:
lim fn dµ = f dµ.
n→∞
0.3.2 Teorema de Radon-Nikodym

Sejam µ e ν duas medidas num espaço mensurável (M, B). Dizemos que ν é
absolutamente contı́nua em relação a µ se µ(E) = 0 implica ν(E) = 0, qualquer
que seja o conjunto mensurável. Nesse caso escrevemos ν µ. O Teorema
de Radon–Nikodym afirma que nesse caso a medida ν pode ser vista como
o produto de µ por alguma função mensurável, que é chamada densidade ou
derivada de Radon-Nikodym de ν relativamente a µ.
Teorema 0.28 (Radon-Nikodym). Se µ e ν são medidas finitas tais que
ν µ então existe uma função mensurável ρ : M → [0, +∞] tal que ν = ρµ,
ou seja, tal que

ν(E) = ρ dµ para todo o conjunto mensurável E ⊂ M.
E
Além disso, essa função é essencialmente única: duas quaisquer coincidem µ

quase em toda a parte.
0.4 Exercı́cios
0.1. Seja M um conjunto e, para cada i pertencente a um conjunto de ı́ndices
I, seja Bi uma σ-álgebra de subconjuntos de M . Mostre que

B= Bi
i∈I
é uma σ-álgebra.
0.2. Seja M um conjunto e considere a famı́lia de conjuntos
B0 = {A ⊂ M : A é finito ou Ac é finito}.
Mostre que B0 é uma álgebra. Além disso, B0 é uma σ-álgebra se e somente se
o conjunto M é finito.
0.3. Seja M um conjunto e considere a seguinte famı́lia de conjuntos
B1 = {A ⊂ M : A é finito ou enumerável ou Ac é finito ou enumerável}.
Mostre que B1 é uma σ-álgebra. De fato, B1 é a σ-álgebra gerada pela álgebra
B0 do Exercı́cio 0.2.
0.4. Seja E uma famı́lia de subconjuntos de um conjunto M . Mostre que existe
a menor álgebra B0 que contém E. Que relação existe entre B0 e a σ-álgebra B
gerada por E?
0.5. Seja (M, B, µ) um espaço de medida. Mostre que se A1 ,A2 , . . . estão em B
então ∞ ∞

µ( Aj ) ≤ µ(Aj ).
j=1 j=1
0.4. EXERCÍCIOS 11
0.6. Seja B = 2M e considere µ : 2M → [0, +∞] definido por:

#A , se A é finito
µ(A) = .
∞ se A é infinito
Mostre que µ é uma medida. Esta medida é designada medida de contagem.
0.7. Demonstre o Teorema 0.10. Dica: Dados ∞ quaisquer conjuntos disjuntos

dois a dois B1 , . . . , Bn , . . . em B0 tais B = j=1 Bj também está em B0 , defina
Cj = B1 ∪ · · · ∪ Bj para cada j ≥ 1. Verifique que os conjuntos Aj = B \ Cj
satisfazem a hipótese (1) no Teorema 0.10.
0.8. Seja (M, B) um espaço mensurável.
1. Mostre que se µ : B → [0, +∞] é uma medida então

∞

µ( Aj ) = lim µ(Aj ).
j→∞
j=1
para qualquer sequência crescente A1 ⊂ A2 ⊂ · · · An ⊂ · · · de elementos

de B.
2. Reciprocamente, mostre que se µ0 : B → [0, +∞] é uma função finitamente

aditiva que satisfaz a condição do item anterior então µ0 é σ-aditiva.
0.9. Seja (M, B) um espaço mensurável, onde o conjunto M é não-enumerável

e a σ-álgebra B é definida como no Exercı́cio 0.3. Mostre que µ : B → [0, +∞]
definida por:
0 se A é finito ou enumerável
µ(A) =
1 se Ac é finito ou enumerável
é uma medida de probabilidade.
0.10. Sejam f e g funções mensuráveis. Mostre que f é integrável se e somente

se |f | é integrável e, nesse caso,

f dµ ≤ |f | dµ.

Além disso, se f é integrável e |f | ≥ |g| então g é integrável.

0.11. Seja E um conjunto mensurável com µ(E) = 0. Mostre que E
f dµ = 0
para qualquer função mensurável f .
0.12. Mostre que a é um ponto de densidade do conjunto A se e só se

µ(B ∩ A)
lim inf : B bola contida em B(a, ε) e contendo a = 1
ε→0 µ(B)
0.13. Demonstre o Teorema 0.26.

0.14. Seja x1 , x2 ∈ M e p1 , p2 , q1 , q2 > 0 com p1 + p2 = q1 + q2 = 1. Considere
as medidas de probabilidade µ e ν dadas por

µ(A) = pi , ν(A) = qi ,
xi ∈A xi ∈A
ou seja, µ = p1 δx1 + p2 δx2 e ν = q1 δx1 + q2 δx2 . Mostre que ν µ e µ ν e

calcule as respectivas derivadas de Radon-Nikodym.
0.15. Seja f : M → R. Mostre que se f −1 ((−∞, c)) ∈ B para todo c ∈ R então
f é mensurável. Dica: Mostre que a famı́lia C = {A ⊂ R : f −1 (A) ∈ B} é uma
σ-álgebra e contém todos os subconjuntos abertos.
0.16. Prove o Teorema 0.20. Dica: Trate primeiro o caso onde f é não-negativa.
0.17. Mostre que o suporte de uma medida é sempre um conjunto fechado.
Conclua que se M é compacto, o suporte de qualquer medida também é com-
pacto.
0.18. Mostre que toda função f : Rm → Rn contı́nua é mensurável. Dê exemplo
de uma função mensurável que não é contı́nua em nenhum ponto.
0.19. Seja T : M → M uma função mensurável e ν uma medida. Defina
T∗ ν(A) = ν(T −1 (A)). Mostre que T∗ ν é uma medida.
Capı́tulo 1
Teorema de Recorrência de
Poincaré
Um ponto x ∈ M diz-se recorrente se a sua trajetória pelo sistema dinâmico

f : M → M volta arbitrariamente perto de x quando o tempo vai para in-
finito. A dinâmica no conjunto dos pontos não-recorrentes é, em certo sentido,
sempre a mesma, independentemente do sistema dinâmico. Por isso, é funda-
mental compreender o conjunto dos pontos recorrentes, já que ele contém toda
a dinâmica interessante do sistema.
O resultado que estudaremos nesta capı́tulo, enunciado por Poincaré perto
do final do século XIX, afirma que quase todo ponto é recorrente, relativamente
a qualquer medida invariante finita do sistema dinâmico. Daremos duas versões
deste resultado, a primeira numa linguagem mensurável e a segunda de natureza
mais topológica. Também comentaremos que a hipótese de finitude da medida
não pode ser omitida.
1.1 Versão mensurável

Teorema 1.1. Seja f : M → M uma transformação mensurável e µ uma
medida invariante finita. Seja E ⊂ M qualquer conjunto mensurável com
µ(E) > 0. Então, µ-quase todo ponto x ∈ E tem algum iterado f n (x), n ≥ 1,
que também está em E.
Em outras palavras, o teorema afirma que quase todo ponto de E regressa
a E no futuro. Antes mesmo de demonstrar este fato, podemos mostrar que ele
implica outro aparentemente mais forte: quase todo ponto de E regressa a E
infinitas vezes:
Corolário 1.2. Nas condições do Teorema 1.1, para µ-quase todo ponto x ∈ E
existem infinitos valores de n ≥ 1 tais que f n (x) está em E.
Demonstração. Para cada k ≥ 1 vamos representar por Ek o conjunto dos
pontos x ∈ E que regressam a E exatamente k vezes: existem exatamente k
14 CAPÍTULO 1. TEOREMA DE RECORRÊNCIA DE POINCARÉ
valores de n ≥ 1 tais que f n (x) ∈ E. Observe que o conjunto dos pontos que
regressam a E apenas um número finito de vezes é precisamente
∞

Ek .
k=1
Portanto, para provar o corolário, basta mostrar que µ(Ek ) = 0 para todo k ≥ 1.
A demonstração será por contradição.
Suponhamos que µ(Ek ) > 0 para algum k ≥ 1. Então, aplicando o Teo-
rema 1.1 com este Ek no lugar de E, obtemos que quase todo ponto x ∈ Ek tem
algum iterado f n (x) que está em Ek . Fixemos um tal x e denotemos y = f n (x).
Por definição, y tem exatamente k iterados futuros que estão em E. Como y é
um iterado de x, isso implica que x tem k + 1 iterados futuros em E. Mas isso
contradiz o fato de que x ∈ Ek . Esta contradição prova que Ek tem medida
nula, relativamente a µ, e portanto o corolário está demonstrado.
Vamos agora dar a
Demonstração do Teorema 1.1. Representemos por E 0 o conjunto dos pontos
x ∈ E que nunca regressam a E. O nosso objetivo é provar que E 0 tem medida
nula. Para isso, começamos por afirmar que as suas pré-imagens f −n (E 0 ) são
disjuntas duas-a-duas. De fato, suponhamos que existem m > n ≥ 1 tais que
f −m (E 0 ) intersecta f −n (E 0 ). Seja x um ponto na intersecção e seja y = f n (x).
Então y ∈ E 0 e f m−n (y) = f m (x) ∈ E 0 , que está contido em E. Isto quer
dizer que y volta pelo menos uma vez a E, o que contradiz a definição de E 0 .
Esta contradição, prova que as pré-imagens são disjuntas duas-a-duas, como
afirmamos.
Isto implica que
∞ ∞ ∞
−n 0
−n 0

µ f (E ) = µ(f (E )) = µ(E 0 ).
n=0 n=0 n=0
Na última igualdade usamos a hipótese de que µ é invariante, que implica que

µ(f −n (E 0 )) = µ(E 0 ) para todo n ≥ 1. Como supomos que a medida é finita,
a expressão do lado esquerdo é finita. Por outro lado, à direita temos uma
soma de infinitos termos, todos iguais. O único jeito desta soma ser finita é
que as parcelas sejam nulas. Portanto, devemos ter µ(E 0 ) = 0, tal como foi
afirmado.
1.2 Versão topológica

Dizemos que um ponto x ∈ M é recorrente para uma transformação f : M → M
se, para toda vizinhança U de x, existe algum iterado f n (x) que está em U . A
definição para fluxos é análoga, apenas nesse caso o tempo n é um número real.
Na formulação topológica do teorema de recorrência supomos que o espaço
M admite uma base enumerável de abertos, ou seja, um famı́lia enumerável
1.3. RECORRÊNCIA PARA MEDIDAS INFINITAS 15
{Uk : k ∈ N} de abertos tal que todo aberto de M pode ser escrito como
união de elementos Uk dessa famı́lia. Esta hipótese é satisfeita na maioria dos
exemplos interessantes.
Teorema 1.3. Suponhamos que M admite uma base enumerável de abertos.
Seja f : M → M uma transformação mensurável e µ uma medida invariante
finita. Então, µ-quase todo ponto x ∈ M é recorrente para f .
Demonstração. Para cada k representamos por Uk0 o conjunto dos pontos x ∈ Uk
que nunca regressam a Uk . De acordo com o Teorema 1.1, todo Uk0 tem medida
nula. Consequentemente, a união enumerável

Ũ = Uk0
k∈N
tem medida nula. Portanto, para demonstrar o teorema será suficiente que
mostremos que todo ponto x que não está em Ũ é recorrente. Isso é fácil, como
vamos ver.
Seja x ∈ M \ Ũ e seja U uma vizinhança qualquer de x. A definição de
base de abertos implica que existe algum k ∈ N tal que x ∈ Uk e Uk ⊂ U .
Como x não está em Ũ , também x ∈ / Uk0 . Em outras palavras, x tem algum
iterado f (x), n ≥ 1 que está em Uk . Em particular, f n (x) também está em
n
U . Como a vizinhança U é arbitrária, isto prova que x é um ponto recorrente,

como havı́amos afirmado.
1.3 Recorrência para medidas infinitas

As conclusões dos Teoremas 1.1 e 1.3 não são verdadeiras, em geral, se omitirmos
a hipótese de que a medida µ é finita. O exemplo mais simples é o seguinte:
Exemplo 1.4. Seja f : R → R a translação de 1 unidade, isto é, f (x) = x + 1
para todo x ∈ R. É fácil verificar que f deixa invariante a medida de Lebesgue
em R (que é infinita). Por outro lado nenhum ponto é recorrente para f .
No entanto, é possı́vel estender estes enunciados para certos casos de medidas
infinitas como, por exemplo, no exercı́cio que propomos a seguir.
Uma transformação f : M → M diz-se invertı́vel se é uma bijeção e a sua
inversa é também uma transformação mensurável. Uma medida µ diz-se σ-finita
se existe uma sequência crescente de subconjuntos Mk cuja união é o espaço M
inteiro e tal que cada µ(Mk ) é finito. Neste caso, diremos que um ponto x “vai
para infinito”se, para qualquer k, existe apenas um número finito de iterados
de x que estão em Mk .
1.4 Exercı́cios
1.1. Mostre que o seguinte enunciado é equivalente ao Teorema 1.1, isto é,
qualquer um dos dois pode ser deduzido a partir do outro: Seja f : M → M
16 CAPÍTULO 1. TEOREMA DE RECORRÊNCIA DE POINCARÉ
uma transformação mensurável e µ uma medida invariante finita. Seja E ⊂ M

qualquer conjunto mensurável com µ(E) > 0. Então existe N ≥ 1 e um conjunto
D ⊂ E com medida positiva, tal que f N (x) ∈ E para todo ponto x ∈ D.
1.2. Suponha que f : M → M é invertı́vel e que µ é uma medida σ-finita
invariante por f . Mostre que, dado qualquer conjunto mensurável E ⊂ M com
µ(E) > 0, quase todo ponto x ∈ E ou regressa a E ou “vai para infinito”.
Dica: Considere o conjunto E 0,k dos pontos x ∈ E que nunca regressam a E
e têm um número infinito de iterados em Mk . Comece por mostrar que os seus
iterados f n (E 0,k ) são dois-a-dois disjuntos. Usando que µ(Mk ) é finito, deduza
que µ(E k,0 ) = 0 para todo k.
Capı́tulo 2
Exemplos de Medidas
Invariantes
Nesta capı́tulo vamos descrever alguns exemplos simples de medidas invariantes

por transformações ou por fluxos. Antes porém, vamos mostrar uma proposição
caracterizando quando uma medida é invariante:
Proposição 2.1. Seja f : M → M uma transformação e µ uma medida. Então

f preserva µ se, e somente se, para toda função integrável φ : M → R vale:

φ dµ = φ ◦ f dµ.
Demonstração. Assuma que f preserva a medida µ. Se φ é função caracterı́stica

−1
algum conjunto, digamos φ = χA , é imediato verificar que µ(f (A)) =
de
φ ◦ f dµ, já que χf −1 (A) = φ ◦ f . Assim, fica provado que φ dµ = φ ◦ f dµ,
quando φ é uma função caracterı́stica. Observe que segue diretamente da lin-
earidade da integral que se φ é uma função simples, então a igualdade ainda vale.
Finalmente, se φ é uma função integrável qualquer, pela definição de integral

φ dµ = lim φn dµ,
n→∞
onde φn é uma sequência de funções simples crescendo para φ. Por outro lado,
φn ◦ f é uma sequência de funções simples crescendo para φ ◦ f . Logo,

φ ◦ f dµ = lim φn ◦ f dµ.
n→∞

Como φn dµ = φn ◦ f dµ, tomando o limite em ambos os lados, vem que

φ dµ = φ ◦ f dµ.
18 CAPÍTULO 2. EXEMPLOS DE MEDIDAS INVARIANTES
A recı́proca é imediata, desde que dado um boreliano A, tomando φ = χA , então

µ(A) = µ(f −1 (A)) ⇔ φ dµ = φ ◦ f dµ.
2.1 Expansão decimal

O nosso primeiro exemplo é
f : [0, 1] → [0, 1], f (x) = 10x − [10x]
onde [10x] representa o maior inteiro menor ou igual a 10x. Em outras palavras,
f associa a cada x ∈ [0, 1] a parte fracionária de 10x. O gráfico da transformação
f está descrito na Figura 2.1.
0 2/5 4/5 6/5 8/5 1
Figura 2.1: Transformação parte fracionária de 10x
Afirmamos que a medida de Lebesgue µ no intervalo é invariante pela trans-

formação f , isto é, satisfaz a condição (2). Comecemos por supor que E é um
intervalo. Então, como ilustrado na Figura 2.1, a pré-imagem f −1 (E) consiste
de dez intervalos, cada um deles dez vezes mais curto do que E. Logo, a medida
de Lebesgue de f −1 (E) é igual à medida de Lebesgue de E. Isto mostra que (2)
é satisfeita no caso de intervalos. Por outro lado, a famı́lia dos intervalos gera a
σ-álgebra de Borel de [0, 1]. Portanto, para concluir a demonstração basta usar
o seguinte fato geral (veja o Exercı́cio 2.1):
Lema 2.2. Seja f : M → M uma transformação mensurável e µ uma medida

finita em M . Suponha que existe uma sub-álgebra geradora I da σ-álgebra de
M tal que µ(E) = µ(f −1 (E)) para todo E ∈ I. Então o mesmo vale para todo
conjunto mensurável E, isto é, a medida µ é invariante por f .
2.2. SISTEMAS CONSERVATIVOS 19
Agora vamos explicar como, a partir do fato de que a medida de Lebesgue

é invariante pela transformação f , podemos obter conclusões interessantes e
não-triviais usando o teorema de recorrência de Poincaré.
Comecemos por observar que f tem uma expressão muito simples em termos
de expansões decimais: se x é dado por
x = 0, a0 a1 a2 a3 · · ·
com ai ∈ {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}, então a sua imagem é dada por
f (x) = 0, a1 a2 a3 · · · .
Com isso, fica muito fácil escrever a expressão do iterado n-ésimo, para qualquer
n ≥ 1:
f n (x) = 0, an an+1 an+2 · · · (2.1)
Agora, seja E o subconjunto dos x ∈ [0, 1] cuja expansão decimal começa
com o dı́gito 7, ou seja, tais que a0 = 7. De acordo com o Corolário 1.2, quase
todo elemento de E tem infinitos iterados que também estão em E. Levando
em conta a expressão (2.1), isto quer dizer que existem infinitos valores de n
tais que an = 7. Portanto, provamos que quase todo número x cuja expansão
decimal começa por 7 tem infinitos dı́gitos iguais a 7!
Claro que no lugar de 7 podemos considerar qualquer outro dı́gito. Além
disso, podemos considerar blocos de dı́gitos mais complicados. Veja os Ex-
ercı́cios 2.2–2.3.
Mais tarde iremos provar resultados mais fortes: para quase todo número
x ∈ [0, 1], todo dı́gito aparece com frequência 1/10 na sua expansão decimal.
O enunciado preciso aparecerá na Proposição 5.2, que será provada a partir do
teorema ergódico de Birkhoff.
2.2 Sistemas conservativos

Seja U um aberto em algum espaço euclidiano Rd , d ≥ 1 e seja f : U → U
um difeomorfismo de classe C 1 . Isto quer dizer que f é uma bijeção e tanto ele
quanto a sua inversa são deriváveis com derivada contı́nua.
Representaremos por vol a medida de Lebesgue, ou volume, em Rk . Em
outras palavras,

vol(B) = dx1 . . . dxd e ϕ d vol = ϕ(x1 , . . . , xd ) dx1 . . . dxd
B B B
para qualquer conjunto mensurável B e qualquer função integrável ϕ.

A fórmula de mudança de variáveis afirma que, para qualquer conjunto men-
surável B ⊂ U ,
vol(f (B)) = | det Df | d vol (2.2)
B
Daqui se deduz facilmente
Lema 2.3. Um difeomorfismo f : M → M de classe C 1 deixa invariante o

volume se e somente se o valor absoluto | det Df | do seu jacobiano é constante
igual a 1.
Demonstração. Suponha primeiro que o valor absoluto do jacobiano é igual 1
em todo ponto. Considere um conjunto mensurável E e seja B = f −1 (E). A
fórmula (2.2) dá que

vol(E) = 1 d vol = vol(B) = vol(f −1 (E)).
B
Isto significa que f deixa invariante o volume e, portanto, provamos a parte

“se”do enunciado.
Para provar a parte “somente se”, suponha que | det Df | fosse maior que 1 em
algum ponto x. Então, como o jacobiano é contı́nuo, existiria uma vizinhança
U de x e algum número σ > 1 tais que
| det Df (y)| ≥ σ para todo y ∈ U.
Então a fórmula (2.2) aplicada a B = U daria

vol(f (U )) ≥ σ d vol ≥ σ vol(U ).
U
Denotando E = f (U ), isto implica que vol(E) > vol(f −1 (E)) e, portanto, f não
deixa invariante o volume. Do mesmo modo se mostra que se o valor absoluto
do jacobiano é menor que 1 em algum ponto então f não deixa invariante o
volume.
Os Exercı́cios 2.4–2.5 estendem este lema para transformações não necessari-
amente invertı́veis e também para uma classe mais ampla de medidas. As suas
conclusões nos serão úteis mais tarde.
Agora vamos considerar o caso de fluxos f t : U → U , t ∈ R. Suporemos que
o fluxo é de classe C 1 . Claro que o Lema 2.3 se aplica neste contexto: o fluxo
deixa invariante o volume se e somente se
det Df t (x) = 1 para todo x ∈ U e todo t ∈ R. (2.3)
Façamos duas observações simples antes de prosseguirmos. A primeira é que

segue da definição de fluxo que todo f t é invertı́vel (um difeomorfismo, neste
caso): a sua inversa é f −t . A segunda observação é que o jacobiano de f t é
sempre positivo. Isso é claro quando t = 0 porque, outra vez por definição de
fluxo, f 0 é a identidade. Segue que o mesmo é verdade para todo t ∈ R, porque
o jacobiano varia continuamente com t e, como acabamos de ver, nunca se anula.
Embora a resposta que acabamos de dar esteja inteiramente correta, ela não
é muito útil na prática porque em geral não temos uma expressão explı́cita para
f t , e portanto não é claro como verificar a condição (2.3). Felizmente, existe
uma expressão razoavelmente explı́cita para o jacobiano, de que iremos falar em
seguida, que pode ser usada em muitas situações interessantes.
2.3. DESLOCAMENTOS (“SHIFTS”) DE BERNOULLI 21
Suponhamos que o fluxo f t corresponde às trajetórias de um campo de

vetores F : U → U de classe C 1 , quer dizer f t (x) é o valor no tempo t da
solução da equação diferencial
dx
= F (x) (2.4)
dt
(quando tratando de equações diferenciáveis sempre suporemos que as suas
soluções estão definidas para todo tempo). A fórmula de Liouville exprime
o jacobiano de f t em termos do divergente div F do campo de vetores F :

t
det Df t (x) = exp div F (f s (x)) ds .
0
Lembre que o divergente de um campo de vetores F é o traço da sua matriz

jacobiana, isto é
∂F ∂F
div F = + ···+ . (2.5)
∂x1 ∂xd
Combinando esta fórmula com (2.3) obtemos
Lema 2.4. O fluxo f t associado a um campo de vetores F de classe C 1 deixa
invariante o volume se e somente se o divergente de F é identicamente nulo.
O Exercı́cio 2.6 é uma aplicação deste fato no caso, muito importante, de

fluxos hamiltonianos.
2.3 Deslocamentos (“shifts”) de Bernoulli

Estes sistemas modelam sequências de experimentos aleatórios em que o re-
sultado de cada experimento é independente dos demais. Supõe-se que em
cada experimento há um número finito de resultados possı́veis, designados por
1, 2, . . . , d, com probabilidades p(1), p(2), . . . , p(d) de ocorrerem, sendo
p(1) + p(2) + · · · + p(d) = 1 .
O conjunto M das sequências α = (αn )n∈Z com cada αn ∈ {1, 2, . . . , d} contém

os possı́veis resultados da sequência de experimentos. Chamam-se cilindros os
subconjuntos da forma
[k, l; ak , . . . , al ] = {α ∈ M : αk = ak , . . . , αl = al }
onde k, l ∈ Z, com k ≤ l, e cada aj ∈ {1, 2, . . . , d}. Definimos
µ([k, l; ak , . . . , al ]) = p(ak ) · · · p(al ) (2.6)
Heuristicamente, isto significa que a probabilidade do evento composto
αk = ak e αk+1 = ak+1 e ··· e αl = al

é o produto das probabilidades de cada um deles. Isto traduz, precisamente,

que os resultados sucessivos são independentes entre si.
Consideramos em M a σ-álgebra B gerada pelos cilindros. A famı́lia B0 das
uniões disjuntas finitas dos cilindros é uma álgebra (por convenção, M é um
cilindro e µ(M ) = 1). Estendemos µ de modo a que seja finitamente aditiva: se
E ∈ B0 é a união disjunta de cilindros C1 , . . . , CN , definimos
µ(E) = µ(C1 ) + · · · + µ(CN ).
Verifica-se que esta função µ é, de fato, σ-aditiva em B0 ; por exemplo, isso pode
ser feito usando o Teorema 0.10. Portanto existe uma única probabilidade na
σ-álgebra B gerada por B0 que é uma extensão de µ, isto é, que coincide com
ela restrita a B0 . Chamamos essa probabilidade medida de Bernoulli definida
por p(1), p(2), . . . , p(d) e, para não complicar desnecessariamente a notação, a
representamos também por µ.
No espaço M consideramos a transformação deslocamento (“shift”) à es-
querda
f : M → M f (αn )n∈Z = (αn+1 )n∈Z
que corresponde a fazer uma translação no tempo. Observe que a medida de
Bernoulli é invariante por essa transformação. De fato, se E = [k, l; ak , . . . , al ]
então f −1 (E) = [k + 1, l + 1; ak , . . . , al ] e a definição (2.6) dá que
µ(E) = µ(f −1 (E))
neste caso. Como a famı́lia dos cilindros gera a σ-álgebra B, isto juntamente
com o Lema 2.2, prova que a medida µ é invariante para f .
2.4 Transformação de Gauss

A transformação de Gauss G : (0, 1] → [0, 1] é definida por G(x) = parte
fracionária de 1/x, ou seja,

1 1
G(x) = − .
x x
O gráfico de G pode ser esboçado facilmente, a partir da seguinte observação.
• Se x ∈ (1/2, 1] então 1/x ∈ [1, 2) e portanto a sua parte inteira [1/x] é

igual a 1. Isto quer dizer que neste intervalo a transformação é dada por
G(x) = (1/x) − 1.
• Mais geralmente, se x ∈ (1/(k + 1), 1/k) para algum k ∈ N então a parte
inteira de 1/x é igual a k, e tem-se G(x) = 1/x − k. Veja também a
Figura 2.2.
Note que G não está definida no ponto x = 0. Além disso, G(1/k) = 0 para
todo k ∈ N e portanto o segundo iterado G2 (1/k) não está definido nestes pontos
2.4. TRANSFORMAÇÃO DE GAUSS 23
...
0 1/4 1/3 1/2 1
Figura 2.2: Transformação de Gauss
(e o terceiro iterado não está definido nas suas pré-imagens, etc). Isto quer dizer,
a rigor, que G não é um sistema dinâmico segundo a definição que demos antes.
No entanto, isto não coloca nenhum problema para o que pretendemos fazer. De
fato, todos os iterados estão bem definidos no conjunto dos números irracionais:
basta observar que a imagem de um irracional também é irracional. Isto é
suficiente para os nossos objetivos porque sempre tratamos de propriedade que
valem para quase todo ponto, e o conjunto dos números irracionais tem medida
de Lebesgue total no intervalo.
O que torna esta transformação interessante do ponto de vista ergódico é que
G admite uma probabilidade invariante que é equivalente à medida de Lebesgue
no intervalo. De fato, considere a medida definida por

c
µ(E) = dx para cada mensurável E ⊂ [0, 1]
E 1+x
onde c é uma constante positiva. Note que a integral está bem definida, já que
a função integranda é contı́nua no intervalo [0, 1]. Note também que
c
m(E) ≤ µ(E) ≤ cm(E) para todo mensurável E ⊂ [0, 1].
2
Em particular, µ é de fato equivalente à medida de Lebesgue m: as duas medidas
têm os mesmos conjuntos com medida nula.
Proposição 2.5. A medida µ é invariante por G. Além disso, se escolhermos
c = 1/log2 então µ é uma probabilidade.
Demonstração. Vamos usar o critério dado pelo exercı́cio 2.5: a medida µ é
invariante por G se tivermos
ρ(x) c
= ρ(y) onde ρ(x) = (2.7)
|G (x)| 1+x
x∈f −1 (y)
para todo y. Comece por observar que cada y tem exatamente uma pré-imagem
xk em cada intervalo (1/(k + 1), 1/k], dada por
1 1
G(xk ) = −k =y ⇔ xk = .
xk y+k
Note também que G (x) = (1/x) = −1/x2 . Portanto, (2.7) se reescreve como
∞
∞

cx2k c 1 c
= ⇔ = (2.8)
1 + xk 1+y (y + k)(y + k + 1) 1+y
k=1 k=1
Para verificar que esta igualdade é realmente satisfeita, observe que

1 1 1
= − .
(y + k)(y + k + 1) y+k y+k+1
Isto quer dizer que a última soma em (2.8) pode ser escrita na forma teles-
cópica: todos os termos, exceto o primeiro, aparecem duas vezes, com sinais
contrários, e portanto se cancelam. Logo a soma é igual ao primeiro termo, que
é precisamente o que se afirma em (2.8). Isto prova a invariância.
Finalmente, usando a primitiva c log(1 + x) da função ρ(x) vemos que
1
c
µ([0, 1]) = dx = c log 2.
0 1+x
Logo, escolhendo c = 1/ log 2 obtemos que µ é uma probabilidade.
A transformação de Gauss tem um papel muito importante em teoria dos

números, devido à sua relação com o processo de expansão dos números em
fração contı́nua. Recordemos do que se trata.
Dado um número x0 ∈ (0, 1), seja

1 1
a1 = e x1 = − a1 = G(x0 ).
x0 x0
Note que a1 é um número natural, x1 ∈ [0, 1) e tem-se
1
x0 = .
a1 + x1
Agora, supondo que x1 seja diferente de zero, podemos repetir o processo,
definindo
1 1
a2 = e x2 = − a2 = G(x1 ).
x1 x1
Então
1 1
x1 = portanto x0 = .
a1 + x2 1
a1 +
a2 + x2
2.4. TRANSFORMAÇÃO DE GAUSS 25
Por recorrência, para cada n ≥ 1 tal que xn−1 ∈ (0, 1) se define

1 1
an = e xn = − an = G(xn−1 )
xn−1 xn−1
e tem-se
1
x0 = . (2.9)
1
a1 +
1
a2 +
1
···+
an + xn
Não é difı́cil mostrar (verifique!) que a sequência
1
zn = .
1
a1 +
1
a2 +
1
··· +
an
converge para x0 quando n → ∞, e é usual traduzir este fato escrevendo
1
x0 = , (2.10)
1
a1 +
1
a2 +
1
···+
1
an +
···
que é chamada expansão em fração contı́nua de x0 .
Note que a sequência zn consiste de números racionais. De fato se mostra que
estes são os números racionais que melhor aproximam o número x0 , no sentido
de que zn está mais próximo de x0 do que qualquer outro número racional
com denominador menor ou igual que o denominador de zn (escrito em forma
irredutı́vel). Observe também que para obter (2.10) supusemos que xn ∈ (0, 1)
para todo n ∈ N. Se encontramos algum xn = 0, o processo para nesse momento
e consideramos (2.9) a expansão em fração contı́nua de x0 . Claro que este último
caso ocorre somente se x0 é um número racional.
Estas idéias de Teoria Ergódica podem ser usadas para obter conclusões não
triviais em Teoria dos Números. Por exemplo (veja o Exercı́cio 2.7), para quase
todo número x0 ∈ (1/8, 1/7) o número 7 aparece infinitas vezes na sua expansão
em fração contı́nua, isto é, tem-se an = 7 para infinitos valores de n ∈ N.
De fato, mais tarde provaremos um fato muito mais preciso: para quase todo
x0 ∈ (0, 1) o número 7 aparece com frequência
1 64
log
log 2 63
na sua expansão em fração contı́nua. Tente intuir desde já de onde vem este
número!
2.5 Exercı́cios
2.1. Demonstre o Lema 2.2. Dica: mostre que a famı́lia de todos os conjuntos
E tais que µ(E) = µ(f −1 (E)) é uma σ-álgebra.
2.2. Prove que, para quase todo número x ∈ [0, 1] cuja expansão decimal contém
o bloco 617 (por exemplo x = 0, 3375617264 · · · ), esse bloco aparece infinitas
vezes na expansão.
2.3. Prove que o dı́gito 7 aparece infinitas vezes na expansão decimal de quase
todo número x ∈ [0, 1]. Dica: Comece por mostrar que o conjunto dos números
cuja expansão decimal nunca exibe o dı́gito 7 tem medida nula.
2.4. Suponha que f : U → U é um difeomorfismo local (isto é: o seu jacobiano
é não nulo em todo ponto) de classe C 1 . Mostre que f deixa invariante o volume
se e somente se
1
= 1 para todo y ∈ U.
−1
| det Df (x)|
x∈f (y)
2.5. Dada uma função ρ : U → [0, ∞), denotamos por µ = ρ vol a medida
definida por µ(E) = E ρ d vol. Suponha que f : U → U é um difeomorfismo
local de classe C 1 e que ρ é uma função contı́nua. Mostre que f deixa invariante
a medida µ = ρ vol se e somente se
ρ(x)
= ρ(y) para todo y ∈ U.
−1
| det Df (x)|
x∈f (y)
Em particular, no caso em que f é invertı́vel, f deixa invariante a medida µ se

e somente se ρ(x) = ρ(f (x))| det Df |(x) para todo x ∈ U .
2.6. Seja U um aberto de R2d e H : U → R uma função de classe C 2 . De-
notamos as variáveis em R2d por (p1 , q1 , . . . , . . . , pd , qd ). O campo de vetores
hamiltoniano associado a H é definido por

∂H ∂H ∂H ∂H
F (p1 , . . . , pd , q1 , . . . , qd ) = ,..., ,− ,...,− .
∂q1 ∂qd ∂p1 ∂pd
Verifique que o fluxo definido por F preserva o volume.
2.7. Para (Lebesgue) quase todo número x0 ∈ (1/8, 1/7) o número 7 aparece
infinitas vezes na sua expansão em fração contı́nua, isto é, tem-se an = 7 para
infinitos valores de n ∈ N.
2.8. Considere a sequência 1, 2, 4, 8, . . . , an = 2n , . . . . Mostre que dado um
dı́gito i ∈ 0, . . . , 9, existe uma quantidade infinita de valores n tal que an começa
com este dı́gito.
2.9. Mostre que se A é uma matriz n × n com coeficientes inteiros, então a
¯ preserva a
transformação induzida [A] : Πn → P in definida por [A](x̄) = A(x)
n
medida de Lebesgue de Π .
2.10. Mostre que o deslocamento σ definido na Secção 2.3 é transitivo e que o
conjunto de suas órbitas periódicas é denso.
Capı́tulo 3
Existência de Medidas
Invariantes
Nesta capı́tulo provaremos o seguinte resultado, que garante a existência de

medidas invariantes em grande generalidade:
Teorema 3.1. Seja f : M → M uma transformação contı́nua num espaço
métrico compacto. Então existe pelo menos uma probabilidade invariante por
f . O mesmo resultado vale para fluxos.
Antes de demonstrarmos este resultado, mencionemos alguns exemplos que
mostram que nenhuma das duas hipóteses, continuidade e compacidade, podem
ser omitidas.
3.1 Alguns exemplos simples

Considere f : (0, 1] → (0, 1] dada por f (x) = x/2. Suponha que f admite
alguma probabilidade invariante (o objetivo é mostrar que isso não acontece).
Pelo Teorema de Recorrência 1.3, relativamente a essa probabilidade quase todo
ponto de (0, 1] é recorrente. Mas é imediato que não existe nenhum ponto recor-
rente: a órbita de qualquer x ∈ (0, 1] converge para zero e, em particular, não
acumula no ponto inicial x. Isto mostra que f é um exemplo de transformação
contı́nua num espaço não compacto que não admite nenhuma medida probabil-
idade invariante.
Modificando um pouco o exemplo, podemos mostrar que o mesmo fenôme-
no pode ocorrer em espaços compactos, se a transformação não é contı́nua.
Considere f : [0, 1] → [0, 1] dada por f (x) = x/2 se x = 0 e f (0) = 1. Pela
mesma razão que antes, nenhum ponto x ∈ (0, 1] é recorrente. Portanto, se
existe alguma probabilidade invariante µ ela tem dar peso total ao único ponto
recorrente que é x = 0. Em outras palavras, µ precisa ser a medida de Dirac δ0
suportada em zero, que é definida por
δ0 (E) = 1 se 0 ∈ E e δ0 (E) = 0 se 0 ∈
/ E.
28 CAPÍTULO 3. EXISTÊNCIA DE MEDIDAS INVARIANTES
Mas a medida δ0 não é invariante por f : tomando E = {0} temos que E tem
medida 1 mas a sua pré-imagem f −1 (E) é o conjunto vazio, que tem medida
nula. Portanto, esta transformação também não tem nenhuma probabilidade
invariante.
O nosso terceiro exemplo é de natureza um pouco diferente. Consideremos
f : [0, 1] → [0, 1] dada por f (x) = x/2. Trata-se de uma transformação contı́nua
num espaço compacto. Logo, pelo teorema que iremos demonstrar, admite
alguma probabilidade invariante. Pelos mesmos argumentos que usamos no
caso anterior, se conclui que de fato há uma única probabilidade invariante, que
é a medida de Dirac δ0 suportada no ponto zero. Note que neste caso δ0 é de
fato invariante.
Mencionamos este último caso para enfatizar as limitações do Teorema de
Existência (que são inerentes à sua grande generalidade): as medidas que ele
garante existirem podem ser bastante triviais; por exemplo, neste caso quando
falamos de “quase todo ponto”estamos nos referindo apenas ao ponto x = 0. Por
isso, um objetivo importante é obter resultados mais sofisticados de existência
de medidas com propriedades adicionais que as tornem mais interessantes, por
exemplo serem equivalentes à medida de Lebesgue.
3.2 A topologia fraca∗ no espaço das medidas

Nesta seção vamos introduzir uma topologia importante no conjunto M1 (M )
das probabilidades borelianas do espaço M , chamada topologia fraca∗ , que
será muito útil para provar o Teorema 3.1. A idéia da definição é a seguinte:
duas medidas estão próximas se dão integrais próximas para muitas funções
contı́nuas. Procuremos exprimir esta idéia de modo preciso.
Dada uma medida µ ∈ M1 (M ), um conjunto finito F = {φ1 , . . . , φN } de
funções contı́nuas φj : M → R, e um número ε > 0, definimos

V (µ, F, ε) = {η ∈ M1 (M ) : φj dη − φj dµ < ε para todo φj ∈ F }.
Então a topologia fraca∗ é definida estipulando que estes conjuntos V (µ, F, ε),
com F e ε variável, constituem uma base de vizinhanças da medida µ. O seguinte
lema deveria ajudar a compreender o significado desta topologia:
Lema 3.2. Uma sequência (µn )n∈N em M1 (M ) converge para uma medida
µ ∈ M1 (M ) na topologia fraca∗ se e somente se

φ dµn → φ dµ para toda função contı́nua φ : M → R.
Demonstração. Para provar a parte “somente se”, considere qualquer função

contı́nua φ e forme o conjunto F = {φ}. Como µn → µ, temos que dado
qualquer ε > 0 existe uma ordem a partir n̄ da qual µn está na vizinhança
V (µ, F, ε). Mas isto significa, precisamente, que

φ dµn − φ dµ < ε

3.2. A TOPOLOGIA FRACA∗ NO ESPAÇO DAS MEDIDAS 29

para todo n ≥ n̄. Em outras palavras,
a sequência φ dµ n converge para φ dµ.
A recı́proca afirma que se φ dµn converge para φ dµ, para toda função
contı́nua, então dado qualquer F e ε existe uma ordem a partir da qual µn ∈
V (µ, F, ε). Para ver isso, escrevemos F = {φ1 , . . . , φN }. A hipótese garante que
para cada 1 ≤ j ≤ N existe n̄j tal que

φj dµn − φ dµ < ε para todo n ≥ n̄j .

Tomando n̄ = max{n̄1 , , . . . , n̄N }, temos µn ∈ V (µ, F, ε) para n ≥ n̄.

Outra proposição muito útil que caracteriza a convergência de medidas é
dada na:
Proposição 3.3. Assuma que a sequência µn converge para µ na topologia
fraca∗ . Então:
1. lim sup µn (K) ≤ µ(K) para cada conjunto compacto K ⊂ M ;
n→∞
2. lim inf µn (U ) ≥ µ(U ) para cada conjunto aberto U ⊂ M .

n→∞
Em particular, se o bordo de A tem medida zero, temos que lim µn (A) = µ(A).
n→∞
Demonstração. Seja U um aberto e vamos mostrar o item (b). Tome K um

compacto em U e escolha φ :→ [0, 1] uma função contı́nua qualquer tal que
φ|K ≡ 1 e φ|U c ≡ 0. Por exemplo, basta tomar φ(x) = d(x, U c )/(d(x, K) +
d(x, U c )). Então:

µ(K) ≤ φ dµ = lim φ dµn ≤ lim inf µn (U ).
n→∞ n→∞
Como vale que µ(U ) = sup µ(K), onde o supremo é tomado sobre todos os
K
compactos K ⊂ U provamos o item (b). O item (a) é inteiramente análogo,
observando que µ(K) = inf µ(U ), onde o ı́nfimo é tomado sobre todos os abertos
U contendo K.
As principais propriedades desta topologia de que necessitamos estão dadas

no seguinte
Teorema 3.4. M1 munido da topologia fraca∗ é metrizável e compacto.
Vamos começar por demonstrar a metrizabilidade, isto é, que existe uma
distância d que gera a topologia fraca∗ em M1 (M ). Para isso usamos o resultado
seguinte, cuja prova pode ser encontrada em [Rud87]. Como é usual, denotamos
por C 0 (M ) o espaço das funções contı́nuas φ : M → R, munido da norma da
convergência uniforme:
φ1 − φ2 = sup{|φ1 (x) − φ2 (x)| : x ∈ M }.

Proposição 3.5. Se M é um espaço métrico então C 0 (M ) tem subconjuntos

enumeráveis densos.
Logo, podemos escolher um subconjunto enumerável F = {φn : n ∈ N}
denso na bola unitária do espaço C 0 (M ). Feito isso, definimos
∞
1
d(µ1 , µ2 ) = n φn dµ1 − φn dµ2 , (3.1)
n=1
2
para qualquer par de medidas µ1 e µ2 .
Proposição 3.6. A expressão d está bem definida, é uma distância, e gera a
topologia fraca∗ em M1 (M ).
Demonstração. Como as funções φ estão na bola unitária de C 0 (M ), ou seja,
sup |φ| ≤ 1, e as medidas µi são probabilidades, o termo geral da soma é limitado
por 2 · 2−n . Isto garante que a série em (3.1) converge.
O único passo não trivial na prova de que d é uma distância é mostrar que
d(µ1 , µ2 ) = 0 ⇒
µ1 = µ2 .

A hipótese d(µ1 , µ2 ) = 0 significa que φj dµ1 = φj dµ2 para toda φj ∈
F . Agora, dada qualquer φ na bola unitária de C 0 (M ) podemos encontrar
uma sequência de elementos de F convergindo uniformemente para φ. Como
consequência, a igualdade continua valendo para φ:

φ dµ1 = φ dµ2 (3.2)
para toda φ na bola unitária de C 0 (M ). Como todo elemento de C 0 (M ) tem

algum múltiplo na bola unitária, isto implica que a igualdade (3.2) é verdadeira
para toda função contı́nua φ. Isto quer dizer que µ1 = µ2 , como pretendı́amos
mostrar.
Para provar que d gera a topologia, devemos mostrar que toda bola B(µ, δ) =
{η ∈ M1 (M ) : d(µ, η) < δ} contém alguma vizinhança V (µ, F, ε) e reciproca-
mente. Dado δ > 0 fixemos N ≥ 1 suficientemente grande para que
∞
δ
2−n <
2
n=N
e consideremos F = {φ1 , . . . , φN } formado pelos primeiros N elementos do

subconjunto enumerável denso. Além disso, consideremos ε = δ/2. Afirmamos
que V (µ, F, ) ⊂ B(µ, δ). De fato

ν ∈ V (µ, F, ε) ⇒ φn dµ − φn dν < ε para todo 1 ≤ n ≤ N
∞

−n

⇒ 2 φn dµ − φn dν <
n=1

N ∞

−n
< 2 ε+ 2 · 2−n < δ,
n=1 n=N +1
3.2. A TOPOLOGIA FRACA∗ NO ESPAÇO DAS MEDIDAS 31
o que prova a nossa afirmação.

Reciprocamente, dado F = {ψ1 , . . . , ψN } e ε > 0, selecionemos elementos
φn1 , . . . , φnN distintos de F tais que
ε
φnj − ψj < para todo 1 ≤ j ≤ N.
4
Fixemos δ > 0 suficientemente pequeno para que 2nj δ < ε/4 para todo 1 ≤ j ≤ N
Afirmamos que B(µ, δ) ⊂ V (µ, F, ε). De fato
∞

ν ∈ B(µ, δ) ⇒ 2−n φn dµ − φn dν < δ
n=1

⇒ φnj dµ − φnj dν < 2nj δ para todo 1 ≤ j ≤ N

ε
⇒ ψj dµ − ψj dν < 2nj δ + < ε for all 1 ≤ n ≤ N,
2
e isto prova a nossa afirmação.
Resta provar que (M1 , fraca∗ ) é um espaço compacto. Na demonstração
vamos utilizar o seguinte resultado clássico, que diz que as integrais são os únicos
operadores lineares positivos no espaço das funções contı́nuas. Um operador
linear diz-se positivo se Φ(ϕ) > 0 para toda função φ positiva em todo ponto.
Uma demonstração deste resultado pode ser encontrada em [Rud87].
Teorema 3.7 (Riesz-Markov). Seja Φ : C 0 (M ) → R qualquer operador linear
positivo. Então existe uma única medida boreliana µ em M tal que

Φ(ϕ) = ϕ dµ para toda ϕ ∈ C 0 (M ).
Observe que µ é uma probabilidade se e somente se Φ(1) = 1, já que µ(M ) =

1 dµ = Φ(1).
Vamos então provar que o espaço M1 é compacto para esta topologia. Como
já sabemos que o espaço é metrizável, basta provar
Proposição 3.8. Toda sequência (µk )k∈N em M1 (M ) admite alguma sub-
sequência que é convergente na topologia fraca∗ .
Demonstração. Seja F = {φn : n ∈ N} um subconjunto enumerável denso
0
bola unitária de C (M ). Para cada n ∈ N, a sequência de números reais
na
φn dµk , k ∈ N é limitada por 1. Portanto, para cada n ∈ N existe uma
sequência (kjn )j∈N tal que

φn dµkjn converge para algum número Φn ∈ R quando j → ∞.
Além disso, cada sequência (kjn+1 )j∈N pode ser escolhida como subsequência da
anterior (kjn )j∈N . Definamos j = kjj para cada j ∈ N. Por construção, a menos
de um número finito de termos, (j )j∈N é uma subsequência de cada uma das
(kjn )j∈N . Logo
φn dµnj → Φn para todo n ∈ N.
Daqui se deduz facilmente que

Φ(ϕ) = lim ϕ dµj existe, para toda função ϕ ∈ C 0 (M ). (3.3)
j
De fato, suponha primeiro que ϕ está na bola unitária de C 0 (M ). Dado qualquer

ε > 0 podemos encontrar φn ∈ F tal que ϕ − φn ≤ ε. Então

ϕ dµj − φn dµj ≤ ε

para todo j. Como φn dµj converge (para Φn ), seque que

lim sup ϕ dµj − lim inf ϕ dµj ≤ 2ε.
j j

Como ε é arbitrário, concluı́mos que limj ϕ dµj existe. Isto prova (3.3) quando
a função está na bola unitária. O caso geral reduz-se imediatamente a esse,
substituindo ϕ por ϕ/ϕ. Assim, completamos a prova de (3.3).
Finalmente, é claro que o operador Φ : C 0 (M ) → R definido por (3.3) é
linear e positivo: Φ(ϕ) ≥ min ϕ > 0 para todo função ϕ ∈ C 0 (M ) positiva em
todo ponto. Além disso, Φ(1) = 1. Logo, peloTeorema 3.7, existe alguma prob-
abilidade boreliana µ em M tal que Φ(ϕ) = ϕ dµ para toda função contı́nua
ϕ. Agora a igualdade em (3.3) pode ser reescrita

ϕ = lim ϕ dµj para toda ϕ ∈ C 0 (M ).
j
De acordo com o Lema 3.2, isto quer dizer que a subsequência (µj )j∈N converge
para µ na topologia fraca∗ . Isto completa a demonstração do Teorema 3.4.
3.3 Demonstração do Teorema de Existência

Comecemos por introduzir uma notação útil. Dado f : M → M e qualquer
medida η em M denota-se por f∗ η e chama-se imagem de η por f a medida
definida por

f∗ ν E = ν f −1 (E) para cada conjunto mensurável E ⊂ M .
Note que η é invariante por f se e somente se f∗ η = η.

Lema 3.9. A aplicação f∗ : M1 (M ) → M1 (M ) é contı́nua relativamente à
topologia fraca∗ .
3.3. DEMONSTRAÇÃO DO TEOREMA DE EXISTÊNCIA 33
Demonstração. Para mostrarmos o lema acima, basta mostrar que se µn con-

verge para µ na topologia fraca∗ , então para toda função contı́nua φ temos
que
lim φ df∗ µn = φ df∗ µ.
n→∞
De fato, se η uma medida qualquer, afirmamos que

φ df∗ η = φ ◦ f dη.
Com efeito, podemos aproximar φ por uma sequência de funções simples φn com
φn ≤ φ. Observe que isso implica, em particular, que φn ◦ f ≤ φ ◦ f .
Observe que se χA é função caracterı́stica, então

−1
χA df∗ η = η(f (A)) = χA ◦ f dη.
Por linearidade, a igualdade acima se estende para as funções simples φn . Para

finalizar, temos que pelo Teorema da Convergência Dominada,

φ df∗ η = lim φn df∗ η = lim φn ◦ f dη = φ ◦ f dη,
n→∞ n→∞
o que termina a prova da afirmação. Para completar a prova do Lema, basta

observar que a função φ ◦ f também é contı́nua, uma vez que f é contı́nua.
Assim,

lim φ df∗ µn = lim φ ◦ f dµn φ ◦ f dµ = φ df∗ µ,
n→∞ n→∞
como querı́amos provar.
Voltando a prova do Teorema de Existência, considere qualquer probabili-

dade ν em M : por exemplo, a medida de Dirac em um ponto qualquer. Forme
a sequência de probabilidades
1 j
n−1
µn = f ν (3.4)
n j=0 ∗
onde f∗j ν é a imagem de ν pelo iterado f j . Pelo Teorema 3.4, esta sequência
tem algum ponto de acumulação: existe alguma subsequência (nj )j∈N e alguma
probabilidade µ ∈ M1 (M ) tais que
nk −1
1
µ = lim µnk = lim f jν . (3.5)
k k nk j=0 ∗
Agora é suficiente provar o seguinte

Lema 3.10. Todo ponto de acumulação de uma sequência (µn )n∈N é uma prob-
abilidade invariante por f .
Demonstração. A partir de (3.5), e usando o Lema 3.9, obtemos que
nk −1 k −1
1 1 n 1
nk
f∗ µ = f∗ lim f∗j ν = lim f∗ f∗j ν = lim f∗j ν .
k nk k n k k nk
j=0 j=0 j=1
A expressão do lado direito pode ser reescrita como

k −1
1 n
lim f∗j ν − ν + f∗nk ν .
k nk j=0
1 1 nk
Afirmamos que lim ν = 0 e lim f∗ ν = 0. A primeira afirmação é óbvia,
nk
k k nk
e para a segunda basta observar que
1 nk 1 1
f ν(E) = ν(f −nk (E)) ≤
nk ∗ nk nk
para todo conjunto mensurável E ⊂ F . Deste modo obtemos que
nk −1
1
f∗ µ = lim f jν = µ
k nk j=0 ∗
e portanto µ é invariante por f .

Isto completa a demonstração do Teorema de Existência 3.1.
Corolário 3.11 (Teorema de Recorrência de Birkhoff ). Se f : M → M é
uma transformação contı́nua num espaço métrico compacto então f tem algum
ponto recorrente.
Demonstração. Pelo Teorema 3.1, existe alguma probabilidade f -invariante µ.
Por outro lado, todo espaço métrico compacto admite uma base enumerável de
abertos (verifique!). Portanto, podemos aplicar o Teorema 1.3, para concluir
que µ-quase todo ponto é recorrente. Em particular, o conjunto dos pontos
recorrentes é não vazio, conforme foi afirmado.
3.4 Exercı́cios
3.1. Prove a seguinte generalização do Lema 3.10: Seja f : M → M uma
transformação contı́nua num espaço compacto, ν uma probabilidade em M e
(In )n uma sequência de intervalos de números naturais tais que #In converge
para infinito quando n vai para infinito. Então qualquer ponto de acumulação
da sequência
1 j
µn = f∗ ν
#In
j∈In
é uma probabilidade f -invariante.

3.2. Dizemos que uma sequência (µn )n∈N de probabilidades converge pontual-
mente (ou fortemente) para µ ∈ M1 (M )
µn (E) → µ(E) para todo conjunto mensurável E ⊂ M.
1. Mostre que se (µn )n∈N converge pontualmente para µ então também con-
verge para µ na topologia fraca∗ . Mostre, através de um exemplo, que a
recı́proca é falsa.
2. Mostre que (µn )n∈N converge para µ na topologia fraca∗ se e somente se
µn (E) → µ(E) para todo conjunto mensurável E ⊂ M cujo bordo ∂E
satisfaz µ(∂E) = 0.
Dica para (2): Dado o mensurável
E e ε > 0 encontre funções contı́nuas ϕ1 e
ϕ2 tais que ϕ1 ≥ XE ≥ ϕ2 e ϕ1 dµ − ϕ2 dµ < ε.
3.3. Fixe um subconjunto enumerável denso F = {φn : n ∈ N} da bola unitária
de C 0 (M ). Mostre que uma sequência (µk )k∈N de probabilidades em M converge
na topologia fraca para alguma µ ∈ M1 (M ) se e somente se, para todo n ∈ N,

φn dµk converge para φn dµ.
3.4. Seja f1 , f2 , . . . , fN : M → M uma famı́lia finita qualquer de transformações

contı́nuas num espaço métrico compacto que comutam entre si: fi ◦ fj = fj ◦ fi
para todo i e todo j em {1, 2, . . . , N }. Prove que existe alguma probabilidade
µ que é invariante por fi para todo i ∈ {1, 2, . . . , N }.
Definição 3.12. Dizemos que uma transformação f : M → M é unicamente
ergódica se admite exatamente uma probabilidade invariante.
Os exercı́cios a seguir tratam de transformações unicamente ergódicas. Esta
terminologia é justificada pelo Exercı́cio 3.7 abaixo, que afirma que nesse caso a
probabilidade invariante é necessariamente ergódica. No que segue suporemos
que M é um espaço métrico compacto e f : M → M é contı́nua.
3.5. Seja Rα é uma rotação irracional do cı́rculo. Mostre que Rα é unicamente
ergódica.
3.6. Seja f : M → M uma transformação unicamente ergódica. Mostre que se
ϕ : S 1 → R é uma função contı́nua qualquer, então:
1
n−1
j
ϕ̃(x) = lim ϕ(Rα (x))
n→∞ n
j=0
existe em todo ponto e, de fato, o limite é uniforme. Justifique que ϕ̃ é constante

em todo ponto.
Dica: Verifique que a sequência do lado direito é equicontı́nua e use o teorema
de Ascoli-Arzela.
3.7. Mostre que f é uma transformação unicamente ergódica se e somente se

1
n−1
lim ϕ(f j (x)) = ϕ dµ
n j=0
para toda função contı́nua ϕ : M → R e todo x ∈ M . Obtenha que, se uma

transformação é unicamente ergódica então a sua probabilidade invariante é
ergódica.
Capı́tulo 4
Teorema Ergódico de
Birkhoff
O teorema fundamental da Teoria Ergódica afirma que, para qualquer sub-

conjunto mensurável e para quase todo ponto, existe um tempo médio de per-
manência da órbita do ponto nesse conjunto. Este resultado é devido a von
Neumann, que provou um enunciado mais fraco, e sobretudo a Birkhoff, que o
provou na forma definitiva que iremos estudar.
Em muitos casos, esse tempo médio de permanência é precisamente igual à
medida do subconjunto, ou seja, órbitas tı́picas passam em cada subconjunto um
tempo que é exatamente igual à “importância”que a probabilidade invariante
atribui ao conjunto. Isto é o que se chama de ergodicidade, uma propriedade
que remonta a Boltzmann, e que estudaremos mais tarde.
4.1 Enunciados e comentários

Comecemos por explicar o que entendemos por tempo médio de permanência
de uma órbita num conjunto. Dado x ∈ M e um conjunto mensurável E ⊂ M ,
vamos tomar um certo número (grande) de iterados iniciais da órbita de x e
vamos considerar a fração desses iterados que estão em E:
1
τn (E, x) = # j ∈ {0, 1, . . . , n − 1} : f j (x) ∈ E .
n
Observe que isto é o mesmo que
1
n−1
τn (E, x) = XE (f j (x)),
n j=0
onde XE designa a função caracterı́stica do conjunto E, isto é, XE (x) = 1 se

x ∈ E e XE (x) = 0 caso contrário.
38 CAPÍTULO 4. TEOREMA ERGÓDICO DE BIRKHOFF
Em seguida, fazemos n ir para infinito e chamamos tempo médio de per-

manência da órbita de x em E o limite destas frações:
τ (E, x) = lim τn (E, x).
n→∞
Em geral, este limite pode não existir. Iremos ver um exemplo desse fato daqui
a pouco. No entanto, o teorema ergódico afirma que, relativamente a qualquer
probabilidade invariante, o limite realmente existe para quase todo ponto:
probabilidade invariante por f . Dado qualquer conjunto mensurável E ⊂ M ,
o tempo médio de permanência τ (E, x) existe em µ-quase todo ponto x ∈ M .
Além disso,
τ (E, x) dµ(x) = µ(E).
Antes de passarmos à demonstração deste resultado notável, e a algumas

das suas aplicações, vamos fazer alguns comentários relacionados. O primeiro
deles é que se τ (E, x) existe para um certo ponto x ∈ M então
τ (E, f (x)) = τ (E, x). (4.1)
De fato, por definição,
1
n
τ (E, f (x)) = lim XE (f j (x))
n→∞ n
j=1
1 1
n−1
= lim XE (f j (x)) − XE (x) − XE (f n (x))
n→∞ n n
j=0
1
= τ (E, x) + lim XE (x) − XE (f n (x))
n→∞ n
Como a função caracterı́stica é limitada, o último limite é igual a zero. Isto

prova a igualdade (4.1).
O teorema ergódico pode ser enunciado de modo um pouco mais geral:
probabilidade invariante por f . Dada qualquer função integrável ϕ : M → R o
limite
1
n−1
ϕ̃(x) = lim ϕ(f j (x))
n→∞ n
j=0
existe em µ-quase todo ponto x ∈ M . Além disso,

ϕ̃(x) dµ(x) = ϕ(x) dµ(x).
Observe que o Teorema 4.1 é o caso particular ϕ = função caracterı́stica XE

do conjunto E. Este enunciado mais geral pode ser provado usando uma versão
um pouco mais elaborada do argumento da seção 4.2, que não apresentaremos
aqui.
4.2. DEMONSTRAÇÃO DO TEOREMA ERGÓDICO 39
4.2 Demonstração do teorema ergódico

A estratégia da prova é a seguinte. Seja E ⊂ M um conjunto mensurável
qualquer. Para cada x ∈ M , definimos
1
τ (E, x) = lim sup # j ∈ {0, . . . , n − 1} : f j (x) ∈ E
n
1
τ (E, x) = lim inf # j ∈ {0, . . . , n − 1} : f j (x) ∈ E .
n
Note que, para todo x ∈ M ,
τ (E, f (x)) = τ (E, x) e τ (E, f (x)) = τ (E, x) (4.2)
A justificação é análoga à da relação (4.1).

O principal passo da demonstração consiste em mostrar que
τ (E, x) = τ (E, x) para µ-quase todo ponto x. (4.3)
É claro que τ (E, x) é sempre maior ou igual que τ (E, x). Portanto, para mostrar
(4.3) será suficiente que provemos

τ (E, x) dµ(x) ≤ µ(E) ≤ τ (E, x) dµ(x). (4.4)
Vamos provar a primeira desigualdade em (4.4). A segunda segue de um argu-

mento inteiramente análogo 1 .
Fixemos qualquer ε > 0. Por definição de lim sup, para cada x ∈ M existem
inteiros t ≥ 1 tais que
1
# j ∈ {0, . . . , t − 1} : f j (x) ∈ E ≥ τ (E, x) − ε. (4.5)
t
Representaremos por t(x) o menor inteiro com esta propriedade. Para tornar a
demonstração mais transparente, consideraremos primeiro o caso particular em
que a função x → t(x) é limitada, isto é,
Caso particular: Existe T ∈ N tal que t(x) ≤ T para todo x ∈ M .
Dado qualquer x ∈ M , definimos uma sequência x0 , x1 , . . . , xs de pontos em
M e uma sequência t0 , t1 , . . . , ts de números naturais, do seguinte modo:
1. Primeiramente, tomamos x0 = x.
2. Supondo que xi já foi definido, tomamos ti = t(xi ) e xi+1 = f ti (xi ).
3. Terminamos quando encontramos xs tal que t0 + t1 + · · · + ts−1 + ts ≥ n.

1 Alternativamente, a segunda desigualdade pode ser deduzida da primeira, aplicada ao
complementar E c , observando que µ(E) = 1 − µ(E c ) e τ (E, x) = 1 − τ (E c , x).

Note que todo xi é iterado do ponto x: de fato xi = f t0 +···+ti−1 (x). Apli-

cando (4.2) concluı́mos que τ (E, xi ) = τ (E, x) para todo i. A definição de t(xi )
implica que, dos ti primeiros iterados de xi , pelo menos

ti τ (E, xi ) − ε) = ti τ (E, x) − ε) (4.6)
estão em E. Isto vale para cada i = 0, 1, . . . , s − 1. Portanto, pelo menos
(t0 + t1 + · · · + ts−1 )(τ (E, x) − ε)
dos n primeiros iterados de x, estão em E. Além disso, a última regra na

definição das nossas sequências implica que
t0 + t1 + · · · + ts−1 ≥ n − ts ≥ n − T.
Deste modo, mostramos que pelo menos (n − T )(τ (E, x) − ε) dos n primeiros
iterados de x estão em E. Em outras palavras,

n−1
XE (f j (x)) ≥ (n − T )(τ (E, x) − ε) (4.7)
j=0
para todo x ∈ M e todo n ≥ 1. Integrando a relação (4.7), obtemos que

n−1
XE (f j (x)) dµ(x) ≥ (n − T ) τ (E, x) dµ(x) − (n − T )ε.
j=0
Todas as parcelas no membro da esquerda são iguais a µ(E), uma vez que a
probabilidade µ é invariante por f . Portanto, esta desigualdade pode ser escrita
como
nµ(E) ≥ (n − T ) τ (E, x) dµ(x) − (n − T )ε.
Dividindo os dois termos por n e fazendo n ir para infinito, concluı́mos que

µ(E) ≥ τ (E, x) dµ(x) − ε
Como ε > 0 é qualquer, isto implica a primeira desigualdade em (4.4). Isto

termina a demonstração neste caso.
Caso geral: Vamos indicar as modificações que devem ser feitas relativamente
ao caso particular.
Dado ε > 0, começamos por fixar T ≥ 1 suficientemente grande, de modo
que a medida do
B = {y ∈ M : t(y) > T }
seja menor que ε. Em seguida, na definição das sequências substituı́mos a regra
2 por
4.2. DEMONSTRAÇÃO DO TEOREMA ERGÓDICO 41
2a. Se t(xi ) ≤ T , tomamos ti = t(xi ) e xi+1 = f ti (xi ).

2b. Se t(xi ) > T , tomamos ti = 1 e xi+1 = f (xi ).
As regras 1 e 3 permanecem inalteradas. A estimativa referente a (4.6) continua
válida, para os valores de i aos quais se aplica a regra 2a:
i −1
t

XE (f j (xi )) ≥ ti τ (E, x) − ε).
j=0
É claro que esta desigualdade implica a seguinte:

i −1
t i −1
t

XE (f (xi )) ≥ ti τ (E, x) − ε) −
j
XB (f j (xi )). (4.8)
j=0 j=0
A vantagem é que (4.8) é válida também para os valores de i aos quais se aplica
a regra 2b. De fato, nesse caso tem-se ti = 1, o membro da esquerda é maior ou
igual que zero e o membro da direita é menor que zero, uma vez que τ (E, x) é
sempre menor ou igual que 1. Isso significa que, no lugar de (4.7), tem-se

n−1
n−1
XE (f j (x)) ≥ (n − T )(τ (E, x) − ε) − XB (f j (x)).
j=0 j=0
Integrando, como fizemos anteriormente, obtemos

nµ(E) ≥ (n − T ) τ (E, x) dµ(x) − (n − T )ε − nµ(B).
Dividindo por n e fazendo n → ∞, deduzimos que (lembre que µ(B) < ε)

µ(E) ≥ τ (E, x) dµ(x) − ε − µ(B) ≥ τ (E, x) dµ(x) − 2ε.
Como ε > 0 é arbitrário, segue que

µ(E) ≥ τ (E, x) dµ(x).
Isto completa a demonstração do Teorema 4.1.

4.3 Exercı́cios
4.1. Considere a transformação f : M → M , f (x) = 10x − [10x] introduzida
na seção 2.1. Considere
x = 0, 335533335555555533333333333333335 . . ..
Ou seja: a expansão decimal de x consiste de blocos de 3s e 5s, alternados, cada

bloco (exceto o segundo) com duas vezes mais dı́gitos que o anterior. Considere
também E = [0, 3, 0, 4). Mostre que
3 2
τ2 (E, x) = 1, τ8 = , ... τ22k−1 (E, x) → ,
4 3
enquanto que
1 3 1
τ4 (E, x) = , τ16 = , ... τ22k (E, x) → ,
2 8 3
e portanto o tempo médio de permanência da órbita de x em E não existe.
4.2. Mostre que, para qualquer função integrável ϕ, a média temporal ϕ̃ satisfaz
ϕ̃ ◦ f = ϕ̃ em µ-quase todo ponto.
Capı́tulo 5
Ergodicidade
Uma transformação f : M → M diz-se ergódica para uma probabilidade invari-

ante µ (também dizemos que a medida µ é ergódica para f , ou que o sistema
(f, µ) é ergódico) se as médias temporais dadas pelo Teorema de Birkhoff 4.2
coincidem em quase todo ponto com as respectivas médias espaciais:

1
n−1
j
lim ϕ(f (x)) = ϕ dµ ,
n→∞ n
j=0
para toda função µ-integrável ϕ : M → R e µ-quase todo x ∈ M .

Na próxima proposição vamos reescrever esta condição de várias maneiras
equivalentes, para ajudar a entender o seu significado. Um conjunto mensurável
A ⊂ M diz-se invariante se f −1 (A) = A. Uma função mensurável ψ : M → R
diz-se invariante se ψ ◦ f = ψ.
Proposição 5.1. Seja µ uma probabilidade invariante de uma transformação
f : M → M mensurável. As seguintes condições são equivalentes:
1. O sistema (f, µ) é ergódico.
2. Para todo subconjunto invariante A tem-se µ(A) = 0 ou µ(A) = 1.
3. Toda função invariante ψ é constante num conjunto de medida total.
Demonstração. (1) implica (2): Considere ϕ = XA . Por um lado, a hipótese
(1) significa que
ϕ̃(x) = ϕ dµ = µ(A)
para quase todo x ∈ M . Por outro lado, como A é invariante, temos que x ∈ A
se e somente se f (x) ∈ A. Isto implica que ϕ(f j (x)) = ϕ(x) para todo j ≥ 0 e
para todo x. Portanto,
ϕ̃(x) = ϕ(x) = XA (x)
para todo x ∈ M . Como a função caracterı́stica só toma os valores 0 e 1, estas
duas igualdades implicam que µ(A) = 0 ou µ(A) = 1, como é afirmado em (2).
44 CAPÍTULO 5. ERGODICIDADE
(2) implica (3): Seja ψ uma função invariante qualquer. Então, a pré-
imagem ψ −1 (I) de qualquer intervalo I ⊂ R é um conjunto invariante. Portanto,
pela hipótese (2), essa pré-imagem tem medida zero ou um. Como o intervalo
I é qualquer, isto prova que ψ é constante num conjunto com probabilidade µ
total.
(3) implica (1): Seja ϕ uma função integrável qualquer. Como vimos no
exercı́cio 4.2, a média temporal ϕ̃ é uma função invariante. Logo, pela hipótese
(3), ϕ̃ é constante em quase todo ponto. Então, usando o teorema ergódico,

ϕ̃(x) = ϕ̃ dµ = ϕ dµ
em quase todo ponto. Isto é, o sistema é ergódico.
5.1 Exemplos e aplicações

Nesta seção descrevemos diversos exemplos de sistemas ergódicos.
5.1.1 Expansão decimal

Considere a transformação f : [0, 1] → [0, 1], f (x) = 10x − [10x] da seção 2.1.
Afirmamos que f é ergódica para a medida de Lebesgue µ. Tendo em vista a
proposição 5.1, para mostrar isto só temos que provar que se A é um conjunto
invariante com medida positiva então A tem medida total.
Suponhamos então que A é invariante e µ(A) > 0. O ingrediente principal
é o teorema de derivação 0.25. No nosso caso, como estamos tratando com
subconjuntos de R, a condição (2) torna-se
µ(I ∩ A)
lim inf : I ⊂ (a − ε, a + ε) intervalo contendo a = 1 . (5.1)
ε→0 µ(I)
Fixemos um ponto de densidade a ∈ A qualquer. Consideremos a sequência de

intervalos
mk mk + 1
Ik = , , mk ∈ Z, k ∈ N,
10k 10k
que contêm o ponto a. Como a é um ponto de densidade de A, a propriedade
(5.1) implica que
µ(Ik ∩ A)
→ 1 quando k → ∞.
µ(Ik )
Observe também que cada f k é uma bijeção afim de Ik sobre o intervalo (0, 1).
Isso tem a seguinte consequência, que é crucial para o nosso argumento:
µ(f k (E1 )) µ(E1 )

= (5.2)
µ(f k (E2 )) µ(E2 )
5.1. EXEMPLOS E APLICAÇÕES 45
para quaisquer subconjuntos mensuráveis E1 e E2 de Ik . Aplicando este fato a

E1 = Ik ∩ A e E2 = Ik obtemos que

µ f k (Ik ∩ A) µ(Ik ∩ A)
= .
µ (0, 1) µ(Ik )

Claro que µ (0, 1) = 1. Além disso, como estamos supondo que A é invariante,
f k (Ik ∩ A) está contido em A. Deste modo obtemos que
µ(Ik ∩ A)
µ(A) ≥ .
µ(Ik )
Como a sequência do lado direito converge para 1, segue que µ(A) = 1, como
querı́amos demonstrar. Ficou provado que a transformação f é ergódica para a
medida de Lebesgue µ.
Em seguida vamos dar uma aplicação deste fato no contexto da Teoria dos
Números. Dizemos que um número x ∈ R é balanceado se todo dı́gito aparece
com a mesma frequência, 1/10, na sua expansão decimal. É fácil dar exemplos de
números balanceados. Mas em geral é muito difı́cil decidir se um dado número
irracional é balanceado ou não. Por exemplo, não é sabido até hoje se o número
π é balanceado.
No entanto, a conclusão da seção anterior nos permite deduzir que quase
todo número é balanceado:
Proposição 5.2. O conjunto dos números x ∈ R não balanceados tem medida
de Lebesgue nula.
Demonstração. Como o fato de ser balanceado é independente da parte inteira
do número, só precisamos mostrar que quase todo x ∈ [0, 1] é balanceado.
Considere f : [0, 1] → [0, 1] definida por f (x) = 10x − [10x]. Para cada dı́gito
j ∈ {0, 1, . . . , 9} considere o intervalo Ej = [j/10, (j + 1)/10). Recorde que
se x = 0, a0 a1 · · · ak ak+1 · · · então f k (x) = 0, ak ak+1 · · · . Portanto, f k (x) ∈
Ej se e somente se o k-ésimo dı́gito da expansão decimal de x é igual a j.
Consequentemente, o tempo médio de permanência τ (Ej , x) é exatamente a
frequência do dı́gito j na expansão decimal de x. Usando o teorema ergódico e o
fato de que a transformação é ergódica para a medida de Lebesgue µ, concluı́mos
que para cada j ∈ {0, 1, . . . , 9} existe um subconjunto Bj de M com µ(Bj ) = 1
tal que
1
τ (Ej , x) = µ(Ej ) = para todo x ∈ Bj .
10
Então B = B0 ∩ B1 ∩ · · · ∩ B9 também tem µ(B) = 1, e todo número x ∈ B é
balanceado.
5.1.2 Deslocamentos (“shifts”) de Bernoulli

Vamos agora voltar a discussão dos deslocamentos de Bernoulli, introduzidos
na Secção 2.3 do Capı́tulo 2. Mostraremos que as medidas de Bernoulli são
ergódicas. Para isso, a seguinte propriedade das medidas de Bernoulli vai ser
útil :
Lema 5.3. Se A e B são elementos da álgebra B0 , isto é, uniões finitas de

cilindros disjuntos, então tem-se
µ(A ∩ f −m (B)) = µ(A)µ(f −m (B)) = µ(A)µ(B),
para todo m suficientemente grande.
Demonstração. Expliquemos porque esta propriedade é verdadeira quando A e
B são cilindros, A = [k, l; ak , . . . , al ] e B = [u, v; bu , . . . , bv ]. Para cada m tem-
se f −m (B) = [u + m, v + m; bu , . . . , bv ]. Escolhendo m suficientemente grande
garantimos que u + m > l e, então,
A ∩ f −m (B) = {α : αk = ak , . . . , αl = al , αu+m = bu , . . . , αv+m = bv }

= [k, v + m; ak , . . . , al , cl+1 , . . . , cu+m−1 , bu , . . . , bv ],
onde a união é sobre todos os valores possı́veis de cl+1 , . . . , cu+m−1 . Usando

(2.6), concluı́mos que µ(A ∩ f m (B)) = µ(A)µ(B). Isto prova o lema quando
os conjuntos envolvidos são cilindros. O caso geral segue pelo fato de µ ser
finitamente aditiva.
Proposição 5.4. Seja f : M → M um deslocamento e µ uma medida de
Bernoulli em M , como antes. Então o sistema (f, µ) é ergódico.
Demonstração. Seja A um conjunto mensurável invariante qualquer. Queremos
mostrar que µ(A) = 0 ou µ(A) = 1. Para tornar a ideia da prova mais clara,
comecemos por um caso particular: suponhamos que A está na álgebra B0 das
uniões finitas de cilindros disjuntos dois-a-dois. Nesse caso podemos aplicar o
lema anterior, com B = A. Concluı́mos que µ(A∩f −m (A)) = µ(A)2 sempre que
tomemos m suficientemente grande. Mas, como A é invariante, f −m (A) = A
para todo m. Então a igualdade anterior quer dizer que µ(A) = µ(A)2 , o que
só pode acontecer se µ(A) = 0 ou µ(A) = 1.
Agora vamos fazer a prova quando A ∈ B é um conjunto invariante qualquer.
A ideia é aproximar A por elementos da álgebra B0 , usando o Teorema de
Aproximação 0.11: dado qualquer ε > 0 existe A0 ∈ B0 tal que µ(A∆A0 ) < ε.
Escolha m como no caso anterior, de modo que
µ(A0 ∩ f −m (A0 )) = µ(A0 )µ(f −m (A0 )) = µ(A0 )2 . (5.3)
Observe que
(A ∩ f −m (A))∆(A0 ∩ f −m (A0 )) ⊂ (A∆A0 ) ∪ (f −m (A)∆f −m (A0 ))
⊂ (A∆A0 ) ∪ f −m (A∆A0 ).
Isto, junto com o fato de que µ é invariante por f , implica que

µ(A ∩ f −m (A)) − µ(A0 ∩ f −m (A0 )) ≤ 2µ(A∆A0 ) < 2ε. (5.4)
Além disso,

µ(A)2 − µ(A0 )2 ≤ (µ(A) + µ(A0 ))(µ(A) − µ(A0 )) ≤ 2µ(A) − µ(A0 ) < 2ε.
(5.5)
Juntando as relações (5.3), (5.4), (5.5), concluı́mos que |µ(A) − µ(A)2 | < 4ε.
Como ε é arbitrário, deduzimos que µ(A) = µ(A)2 e então, do mesmo modo que
antes, concluı́mos que µ(A) = 0 ou µ(A) = 1.
5.1.3 Rotação irracional no cı́rculo

Para nós o cı́rculo S 1 será o conjunto dos números complexos com módulo igual
a 1. Dado α ∈ R, a rotação de ângulo α é a multiplicação pelo número complexo
eαi
Rα : S 1 → S 1 , Rα (z) = eαi z .
É claro que Rα preserva o comprimento dos intervalos (segmentos) de S 1 . Us-
ando o Lema 2.2 se deduz que a medida de Lebesgue (comprimento de arco) é
invariante por qualquer Rα .
O comportamento dinâmico e ergódico de Rα depende muito da natureza de
α, como vamos ver. Dizemos que a rotação é irracional se o número α/(2π) é
irracional, e dizemos que a rotação é racional no caso contrário.
A recı́proca é muito mais interessante:
Proposição 5.5. Se Rα é rotação irracional então Rα é ergódica para a medida

de Lebesgue.
Vamos mencionar duas demonstrações diferentes deste fato. A primeira, que

detalharemos a seguir, usa fatos simples de análise de Fourier. A segunda, que
deixaremos como exercı́cio, é baseada num argumento de ponto de densidade
semelhante ao que usamos no caso da expansão decimal.
Seja µ a medida de Lebesgue no cı́rculo. Chama-se L2 (µ) o espaço das
funções 1 mensuráveis ψ : S 1 → C cujo quadrado é integrável:

|ψ|2 dµ < ∞.
É claro que este espaço contém todas as funções mensuráveis limitadas e, em

particular, todas as funções caracterı́sticas de conjuntos mensuráveis. Outro
fato de que necessitamos é que a famı́lia de funções {φk (z) = z k : k ∈ Z} é
uma base (de Hilbert) desse espaço: dada qualquer ϕ ∈ L2 (µ) existe uma única
sequência (ck )k∈Z de números complexos tais que

ϕ(z) = ck z k para quase todo z ∈ S 1 .
k∈Z
Demonstração. Pela proposição 5.1, basta mostrar que toda função integrável
ϕ que é invariante é constante em µ-quase todo ponto. Observe que se ϕ é
integrável, então automaticamente ϕ ∈ L2 (µ) (verifique! Utilize que µ é finita).
1 Quando lidamos com L2 (µ) sempre identificamos funções que diferem apenas num con-
junto de medida nula.


Usando a expansão de Fourier ϕ(z) = k∈Z ck z k , a condição de ser invariante
ϕ ◦ Rα = ϕ se escreve
ck ekiα z k = ck z k
k∈Z k∈Z
Por unicidade dos coeficientes da expansão em série de Fourier, obtemos que
ck (ekiα − 1) = 0 para todo k ∈ Z.
A hipótese de que a rotação é irracional significa que ekiα − 1 = 0 para todo

k = 0, e portanto, ck = 0 para todo k = 0. Ou seja, ϕ(z) = c0 para µ-quase
todo z ∈ S 1 , como querı́amos provar.
De fato as rotações irracionais satisfazem uma propriedade muito mais forte

do que ergodicidade: elas são unicamente ergódicas, o que quer dizer que têm
uma única probabilidade invariante (que é a medida de Lebesgue, claro).
Observação 5.6. A noção de rotação irracional se estende para dimensões

maiores. Dado qualquer d ≥ 1 chamamos d-toro o produto Td = S 1 × · · · × S 1
do cı́rculo por si mesmo d vezes. A rotação de ângulo α = (α1 , . . . , αd ) é a
aplicação Rα : Td → Td , Rα (z1 , . . . , zd ) = (eiα1 z1 , . . . , eiαd zd ). A rotação é
irracional se os números αj /(2π) são incomensuráveis:
α1 αd
m0 + m1 + · · · + md =0 ⇒ m0 = m1 = · · · = md = 0,
2π 2π
quaisquer que sejam os inteiros m0 , m1 , . . . , md . Usando uma versão multi-
dimensional das idéias anteriores, se prova que uma rotação é ergódica se e
somente se ela é irracional.
5.1.4 Transformação de Gauss

Como vimos na seção 2.4, a transformação de Gauss G(x) = 1/x − [1/x] ad-
mite uma probabilidade invariante que é equivalente à medida de Lebesgue,
nomeadamente,
1 dx
µ(E) =
log 2 E 1 + x
Temos também que o sistema (G, µ) é ergódico. Este fato pode ser demonstrado
pelo mesmo tipo de argumento que usamos na seção 5.1.1. Vamos esboçar o
argumento neste caso, explicando qual é a principal dificuldade adicional.
Seja A um conjunto invariante com medida positiva. Em primeiro lugar, con-
tinua sendo verdade que para quase todo ponto a ∈ [0, 1] existe uma sequência
de intervalos Ik contendo a e tais que f k envia Ik bijetivamente e diferenci-
avelmente sobre (0, 1). O diâmetro desses intervalos converge para zero. Logo,
tomando para a um ponto de densidade qualquer de A, temos que
µ(Ik ∩ A)
→1 quando k → +∞. (5.6)
µ(Ik )
Por outro lado embora f k seja uma bijeção restrita a cada Ik , ela não é afim.
Por essa razão não temos o análogo da relação (5.2) neste caso. Esta dificuldade
é contornada através do seguinte resultado, que é um exemplo de controle de
distorção: é muito importante notar que a constante K é independente de k,
Ik , E1 , e E2 .
Lema 5.7. Existe uma constante K > 1 tal que para todo k ≥ 1, todo intervalo
Ik tal que G restrita a Ik é uma bijeção diferenciável, tem-se
µ(f k (E1 )) µ(E1 )

k
≤K
µ(f (E2 )) µ(E2 )
para quaisquer subconjuntos mensuráveis E1 e E2 de Ik .
Antes de demonstrarmos o Lema 5.7, explicamos como a ergodicidade de
(G, µ) pode ser obtida a partir dele. Observe que f k (Ik ∩ Ac ) = Ac , porque o
conjunto A é invariante. Lembre também que f k (Ik ) = (0, 1), que tem medida
total. Tomando E1 = Ik ∩ Ac e E2 = Ik no lema 5.7, concluı́mos que
µ(f k (Ik ∩ Ac ) µ(Ik ∩ Ac )

µ(Ac ) ≤ ≤ K .
µ(Ac ) µ(Ik
De acordo com (5.6), a expressão do lado direito converge para zero quando
k → ∞. Logo µ(Ac ) = 0, como querı́amos demonstrar.
Daremos agora a prova do Lema 5.7. As linhas gerais da demonstração,
servirão para concluir um resultado mais geral,apresentado na seção 9.1.
Prova do Lema 5.7. Usaremos os seguintes fatos sobre a transformação f que
podem ser facilmente verificados pelo leitor:
1. Para todo x ∈ (0, 1) vale que |f (x)| > 1 e |(f 2 ) (x)| ≥ 4.

(x)
2. Existe C1 > 0 tal que | ff (x) | < C1 .
Observe que a partir do item (1) acima, podemos mostrar que se x, y ∈ Ik

então
1
|f i (x) − f i (y)| ≤ k−i |f k (x) − f k (y)| se i = 0, 1, 2, . . . k. (5.7)
2
Observe também que se x, y ∈ Ik temos que
(f k ) (x) k−1
| log k
|≤ | log f (f i (x)) − log f (f i (y))|.
(f ) (y) i=0
O item (2) nos garante que a função x → log f (x) tem derivada limitada por C,
logo pelo Teorema do Valor Médio temos que | log f (a) − log f (b)| ≤ C1 |a − b|.
Aplicando este fato na desigualdade acima e observando a equação 5.7:
(f k ) (x) k−1 1k−1

| log k
| ≤ C1 |f i (x) − f i (y)| ≤ C |f k (x) − f k (y)| ≤ C2 ,
k−i 1
(f ) (y) i=0 i=0
2
onde C2 é uma constante propriamente escolhida. Logo, tomando K = exp C2 ,

vem que para todos x, y ∈ Ik vale:
(f k ) (x)
< C3 .
(f k ) (y)
Note que a constante C3 escolhida não depende de k nem de Ik . Observe ainda
que se A ⊂ [0, 1] é um conjunto mensurável, então
1 1
m(A) ≤ µ(A) ≤ m(A),
2 log 2 log 2
onde m representa a medida de Lebesgue de [0,1].
Assim, para concluir a prova do Lema 5.7, basta observar que se E1 e E2
são subconjuntos mensuráveis de Ik , então:

µ(f k (E1 )) k
2 m(f (E1 ))
(f k ) (x) dm
= 2(log 2) ≤ E1 ≤
µ(f k (E2 )) m(f k (E2 )) E2
(f k ) (y) dm
m(E1 ) µ(E1 )
2(log 2)2 (C3 )2 ≤ 4(log 2)4 C3 .
m(E2 ) µ(E2 )
Assim, basta tomar K = 4(log 2)4 (C3 )2 e o lema está provado.
5.1.5 Máquina de somar (“adding machine”)

A máquina de somar modela sistemas tais como o contador de quilometragem
de um carro ou o registro de consumo de gás (em algumas cidades): a dinâmica
consiste em fazer avançar o contador de uma unidade. A principal diferença com
relação à realidade é que este contador idealizado comporta infinitos dı́gitos.
Fixe d ≥ 2, que representa a base de numeração (por exemplo, d = 10).
Consideramos o espaço M de todas as sequências
β = (β0 , β1 , β2 , . . . , βk−1 , βk , . . .)
com βj ∈ {0, 1, . . . , d − 1}. Munimos este espaço da seguinte distância

d(β, β ) = 2−N (β,β ) onde N (β, β ) = min{j ≥ 0 : βj = βj }.
Também consideramos a transformação f : M → M “soma uma unidade”:

• Para toda sequência com β0 < d − 1, definimos
f (β0 , β1 , β2 , . . . , βk−1 , βk , . . .) = (β0 + 1, β1 , β2 , . . . , βk−1 , βk , . . .).
• Se β0 = d − 1 mas β1 < d − 1, definimos
f (β0 , β1 , β2 , . . . , βk−1 , βk , . . .) = (0, β1 + 1, β2 , . . . , βk−1 , βk , . . .).

5.2. EQUIVALÊNCIA ESPECTRAL 51
• Mais geralmente, se β0 = · · · = βk−1 = d − 1 mas βk < d − 1, definimos

f (β0 , β1 , β2 , . . . , βk−1 , βk , . . .) = (0, 0, 0, . . . , 0, βk + 1, . . .).
• Se βj = d − 1 para todo j ≥ 0, definimos

f (β0 , β1 , β2 , . . . , βk−1 , βk , . . .) = (0, 0, 0, . . . , 0, 0, . . .).
M munido da distância definida em (3.1) é um espaço métrico compacto, e

a transformação f é contı́nua nesse espaço. O exercı́cio 5.7 pede para mostrar
que f é unicamente ergódica e para calcular a (única) probabilidade invariante.
5.2 Equivalência Espectral

Esta subseção trata da caracterização das propriedades dinâmicas de uma me-
dida como propriedades de Álgebra Linear, relacionadas a um certo operador
Uf que iremos definir. Iremos ver, por exemplo, que a invariância da medida
µ equivale ao fato do operador preservar distâncias num espaço adequado de
funções. Veremos também a ergodicidade como uma propriedade espectral do
sistema (f, µ), no sentido de que ela pode ser caracterizada pelos auto-valores
do operador Uf .
5.2.1 O Espaço L2 (µ)

Para definir o operador Uf , precisamos primeiro definir seu domı́nio, o espaço
de funções L2 (µ):
Definição 5.8. O espaço vetorial L2 (µ) é definido como o conjunto

L2 (µ) = {ϕ : M → R; |ϕ|2 dµ < ∞},
onde duas funções são identificadas se elas coincidem em quase todo ponto com
respeito à medida µ.
Podemos munir este espaço vetorial com um produto interno dado por:

< ϕ, ψ >= ϕ.ψ dµ.
Segue da desigualdade de Hölder e das propriedades da integral que a expressão

acima de fato define um produto interno em L2 (µ). Naturalmente, uma vez que
temos um produto interno em L2 (µ), podemos definir uma norma por:
√
ϕ2 = < ϕ, ϕ >.
Além disso, podemos munir L2 (µ) com a métrica que provém do produto interno
<, > definida por:
12
2
d(ϕ, ψ) = ϕ − ψ2 = |ϕ − ψ| dµ . (5.8)
É clássico da Análise Funcional que o espaço L2 (µ) com a métrica d é

um espaço métrico completo. Deixaremos tal verificação para o leitor no ex-
ercı́cio ??.
Defiremos agora a transformação linear que carrega algumas propriedades
métricas do sistema (f, µ). Considere Uf : L2 (µ) → L2 (µ) definida simples-
mente como:
Uf (ϕ) = ϕ ◦ f.
É imediato verificar que Uf é uma transformação linear. A próxima proposição
traz a primeira tradução entre propriedades de (f, µ) e propriedades da trans-
formação Uf .
Proposição 5.9. Seja f uma transformação e µ uma medida em M . f preserva
µ se, e só se, para toda ϕ ∈ L2 (µ):
Uf ϕ2 = ϕ2 . (5.9)
Demonstração. De fato, primeiramente observe que se f preserva a medida
µ então para todo Boreliano A vale µ(A) = µ(f −1 (A)). Em particular, a
igualdade (5.9) vale se ϕ for uma função caracterı́stica de um boreliano. Uti-
lizando a linearidade da integral, podemos estender nossa conclusão para todas
funções simples. Para concluir a demonstração da propriedade (5.9) observe
que L2 (µ) ⊂ L1 (µ). Com efeito, se φ ∈ L2 (µ), aplicando
a desigualdade de
Hölder às funções φ e 1, temos que φ dµ ≤ φ2 dµ < ∞. Como toda
função ψ em L1 (µ) pode ser aproximada por uma sequência monótona ψn de
funções simples, dada ϕ ∈ L2 (µ), tomando uma sequência de funções simples
sn convergindo monotonamente para ϕ e utilizando o Teorema da Convergência
Monótona para as sequência sn e sn ◦ f , temos que:

ϕ ◦ f dµ = lim sn ◦ f dµ = lim sn dµ = ϕ dµ.
n→∞ n→∞
Reciprocamente, provaremos este fato primeiramente para as funções contı́nuas

√
não-negativas. Se ϕ ≥ 0 é função contı́nua, tomando ψ = ϕ temos que
ψ ∈ L2 (µ), pois ψ é limitada e µ é uma probabilidade. Como estamos assu-
mindo que ψ ◦ f 2 = ψ2 , temos que:

ψ ◦ f dµ = ϕ ◦ f dµ = ϕ dµ = ψ2 dµ.
2
Para provarmos que a igualdade acima vale quanto ϕ é uma função contı́nua
qualquer, basta observarmos que toda função contı́nua se escreve como diferença
de duas funções positivas limitadas e aplicarmos a igualdade obtida a estas
funções. Assim, utilizando a Proposição 2.1, temos que f preserva µ.
Em palavras da Álgebra Linear, a igualdade (5.9) acima, significa que Uf

é uma isometria do espaço L2 (µ). Em particular, esta propriedade implica
diretamente que Uf é uma transformação linear injetiva, pois se
ϕ2 > 0 ⇒ Uf ϕ2 = ϕ2 > 0.
5.2. EQUIVALÊNCIA ESPECTRAL 53
Porém, Uf só é sobrejetiva se f for invertı́vel (veja o Exercı́cio ??).

Observe que 1 é sempre um autovalor de Uf e a esse autovalor temos associ-
ado um auto-espaço que sempre contém as funções constantes. A Proposição 5.1
diz que a propriedade da medida µ ser ergódica equivale ao fato de que as únicas
funções invariantes por Uf são as funções constantes ou, em outros termos, a
dimensão do auto-espaço associado ao auto-valor 1 é igual a um. Isso justifica
a afirmação de que a ergodicidade é uma propriedade espectral.
Vamos estabelecer quando duas tranformações f : M → M e g : N → N
preservando medidas µ e ν são equivalentes do ponto de vista espectral. Isto
nos permitirá extrair informações sobre as propriedades espectrais do sistema
(f, µ) a partir das propriedades espectrais do sistema (g, µ) e vice-versa.
Definição 5.10. Sejam f : M → M preservando µ e g : N → N preservando
ν. Dizemos que (f, µ) e (g, µ) são espectralmente equivalentes se existir uma
transformação linear invertı́vel A : L2 (µ) → L2 (ν) tal que:
1. < Aϕ, Aψ >=< ϕ, ψ >;
2. AUf = Ug A.
Deixaremos para o leitor no Exercı́cio ?? a verificação de que a relação
definida acima é de fato uma relação de equivalência.
Se (f, µ) e (g, ν) são espectralmente equivalentes e A é uma equivalência
espectral, se ϕ é auto-função de Uf associada ao auto-valor λ, então Aϕ é auto-
função de Ug associada ao auto-valor λ. De fato, Uf (ϕ) = λϕ ⇒ Ug A(ϕ) =
AUf (ϕ) = λAϕ.
Assim, o auto-espaço F1 associado ao auto-valor 1 para operador Ug é sim-
plesmente a imagem por A do auto-espaço E1 associado ao auto-valor 1 para
Uf . Como A é um isomorfismo linear, a dimensão de F1 é igual dimensão de
E1 . Segundo a observação que (f, µ) é ergódica se a dimensão do auto-espaço
associado ao auto-valor 1 é igual a 1, podemos afirmar que se (f, µ) e (g, ν)
são espectralmente equivalentes, então (f, µ) é um sistema ergódico se, e só se,
(g, ν) é ergódico.
Exemplo 5.11. Considere f : [0, 1] → [0, 1] a função definida por f (x) = 2x
mod 1 preservando a medida de Lebesgue m e seja σ : Σ+ +
2 → Σ2 o deslocamento
+ Z
no espaço Σ2 = {0, 1} preservando a medida de Bernoulli associada ao vetor
(1/2, 1/2). Mostraremos que (f, m) e (σ, ν) são espectralmente equivalentes.
Realmente, para cada função φ ∈ L2 (m) associaremos uma função Φ = Aφ ∈
2
L (ν) definida por
Φ(a0 , a1 , a2 , . . . ) = φ(0, a0 a1 a2 . . . )
Claramente A é uma transformação linear. A também é invertı́vel, pois podemos
definir A−1 por
Ψ → A−1 Ψ(0, a0 a1 a2 , . . . ) = Ψ(a0 , a1 , a2 , . . . ).
Estritamente, para que A−1 Ψ esteja bem definida, devemos fazer uma escolha
do valor de A−1 Ψ nos pontos x que podem ser escritos de dois modos distintos
na base dois. Por exemplo, o ponto x = 0, 01111 . . . também pode se escrever

como x = 0, 1. Porém, como o conjunto dos pontos que podem ser escritos de
dois modos distintos é enumerável, e portanto, com medida de Lebesgue igual
à zero, podemos definir A−1 Ψ de um modo arbitrário nestes pontos, uma vez
que duas funções em L2 (m) são iguais se elas coincidem em quase todo ponto.
Assim, A−1 Ψ está bem definida.
Para mostrar que A é uma equivalência espectral, note que segue da definição
de ν que
AφAψ dν = ΦΨ dν = φψ dm.
Finalmente, a condição de que AUf = Uσ A é imediata, a partir da definição

de A. De fato, se φ ∈ L2 (m), temos que Uf φ(0, a0 a1 a2 . . . ) = φ(0, a1 a2 a3 . . . ).
Logo,
AUf φ(0, a0 a1 a2 . . . ) = Aφ(0, a1 a2 . . . ) = Φ(a1 , a2 , . . . ) =

Φ(σ(a0 , a1 , . . . )) = Uσ Φ(a0 , a1 , . . . ) = Uσ Aφ(a0 , a1 , . . . ).
5.3 Propriedades de medidas ergódicas

Fixemos uma transformação f : M → M qualquer. Lembre que uma medida
ν diz-se absolutamente contı́nua com relação a outra medida µ se µ(E) = 0
implica ν(E) = 0. O próximo lema afirma que probabilidades ergódicas são
minimais para a relação :
Lema 5.12. Se µ e ν são probabilidades invariantes tais que µ é ergódica e ν

é absolutamente contı́nua com relação a µ então µ = ν.
Demonstração. Seja ϕ : M → R uma função mensurável limitada qualquer, e

seja
1
n−1
ϕ̃(x) = lim ϕ(f j (x))
n→∞ n
j=0
a sua média temporal. Como µ é invariante e ergódica, a média temporal é

constante
ϕ̃(x) = ϕ dµ
para µ-quase todo ponto. Segue que isto é verdade para ν-quase todo ponto, já
que ν µ. Em particular,

ϕ̃ dν = ϕ dµ .
Por outro lado, pelo teorema ergódico,

ϕ̃ dν = ϕ dν .
5.3. PROPRIEDADES DE MEDIDAS ERGÓDICAS 55
Portanto, as integrais de ϕ com relação a µ e em relação a ν coincidem, qual-

quer que seja a função mensurável limitada ϕ. Logo, considerando funções
caracterı́sticas, µ = ν.
Naturalmente, se µ1 e µ2 são probabilidades invariantes com respeito à f a

probabilidade µ1 +t(µ2 −µ1 ) ainda é invariante. Isso siginfica que o conjunto das
probabilidades invariantes é um conjunto convexo. Veremos que dentro deste
conjunto, as medidas ergódicas desempenham um papel destacado:
Definição 5.13. Seja X um conjunto convexo. Um ponto p ∈ X é dito ex-

tremal, se para quaisquer x, y ∈ X e t ∈ [0, 1], x + t(y − x) = p implica que t = 0
ou 1.
O lema seguinte afirma que uma probabilidade invariante é ergódica se e

somente se é ponto extremal no conjunto das probabilidades invariantes:
Lema 5.14. Uma probabilidade invariante µ é ergódica se e somente se não é

possı́vel escrevê-la na forma
µ = c1 µ1 + c2 µ2
com c1 , c2 maiores que zero e µ1 , µ2 probabilidades invariantes distintas.
Demonstração. Para provar a parte “se”, suponha que µ não seja ergódica.
Então existe algum conjunto invariante A com 0 < µ(A) < 1. Defina µ1 e
µ2 como sendo as restrições normalizadas de µ a A e ao seu complementar,
respectivamente:
µ(E ∩ A) µ(E ∩ Ac )
µ1 (E) = µ2 (E) = .
µ(A) µ(Ac )
Como A e Ac são conjuntos invariantes e µ é medida invariante, µ1 e µ2 são

também probabilidades invariantes. Além disso, µ = µ(A)µ1 + µ(Ac )µ2 e por-
tanto µ não é extremal.
Para provar a recı́proca, suponha que µ é ergódica e temos µ = c1 µ1 + c2 µ2
com c1 , c2 > 0. É claro que µ(E) = 0 implica µ1 (E) = µ2 (E) = 0, ou seja,
µ1 e µ2 são absolutamente contı́nuas com relação a µ. Logo, pelo lema 5.12,
µ1 = µ = µ2 . Isto prova que µ é extremal.
Em seguida vamos mostrar que medidas ergódicas distintas “vivem”em sub-

conjuntos disjuntos do espaço M :
Lema 5.15. Sejam µ1 , . . . , µN probabilidades invariantes e ergódicas, todas

distintas. Então existem subconjuntos mensuráveis P1 , . . . , PN invariantes dis-
juntos tais que
1 se j = k
µj (Pk ) =
0 se j = k
Demonstração. Fixe qualquer par j, k de números distintos em {1, . . . , N }. Pelo

lema 5.12, a medida µj não pode ser absolutamente contı́nua em relação a µk .
Em outras palavras, existe algum subconjunto mensurável E tal que µj (E) > 0
mas µk (E) = 0. Então
∞ ∞

µj f −j (E) ≥ µj (E) > 0. e µk f −j (E) = 0
j=0 j=0
∞ ∞
Defina Pj,k = m=0 j=m f −j (E). Como a sequência de conjuntos na interseção
é decrescente com m,
∞

µj Pj,k = lim µj f −j (E) (5.10)
m→∞
j=m
e, analogamente para µk . Como as medidas µj e µk são invariantes, e

∞
∞

f −j (E) = f −m f −j (E) ,
j=m j=0
a sequência no lado direito de (5.10) é constante. Concluı́mos que

∞ ∞

µj (Pj,k ) = µj f −j (E) > 0 e µk (Pj,k ) = µk f −j (E) = 0.
j=0 j=0
Além disso, Pj,k é um conjunto invariante por f . Portanto µj (Pj,k ) = 1, uma

vez que µj é ergódica. Agora defina

P̃j = Pj,k e Pj = P̃j \ P̃k .
k=j k=j
Primeiramente, µj (P̃j ) = 1 e µk (P̃j ) = 0 para todo k = j. Segue que µj (Pj ) = 1

e µk (Pj ) = 0 para todo k = j. Além disso, os Pj são disjuntos dois-a-dois.
5.4 Teorema de decomposição ergódica

Na sequência dos resultados da seção anterior, é natural perguntar se toda
medida invariante é uma combinação linear de medidas ergódicas. O teorema
que vamos enunciar nesta seção afirma que a resposta é afirmativa, exceto que
o número de “parcelas” nesta combinação não é necessariamente finito, nem
mesmo enumerável, em geral.
Teorema 5.16. Seja f : M → M uma transformação contı́nua num espaço
compacto. Então existe um conjunto mensurável M0 ⊂ M , uma partição P de
M0 e uma famı́lia de probabilidades {νP : P ∈ P} satisfazendo
• νP (P ) = 1 para todo elemento P de P;
5.4. TEOREMA DE DECOMPOSIÇÃO ERGÓDICA 57
• a aplicação P → νP é mensurável;
• toda νP é invariante e ergódica para f ;
tais que, dada qualquer probabilidade f -invariante µ, o conjunto M0 satisfaz
µ(M0 ) = 1 e, além disso,

µ(E) = νP (E) dµ̂(P ) para todo conjunto mensurável E ⊂ M (5.11)
onde µ̂ é a medida projeção de µ em P.

A relação (5.11) significa que µ é uma combinação convexa das várias prob-
abilidades ergódicas νP , em que cada νP entra com “coeficiente”igual a µ̂(P ).
Dada qualquer partição P de M fica definida a projeção natural π : M → P
que associa a cada ponto x ∈ M o elemento P (x) da partição que o contém.
Isto permite definir o que é um subconjunto mensurável da partição: Q ⊂ P é
mensurável se e somente
π −1 (Q) = união dos P ∈ Q
é um subconjunto mensurável de M . É fácil ver que esta definição está correta:

a famı́lia dos subconjuntos mensuráveis é uma σ-álgebra em P. A medida
projeção de µ está definida nesta σ-álgebra, por
µ̂(Q) = µ(π −1 (Q)).
Corolário 5.17. Uma transformação f é unicamente ergódica se e somente se

admite exatamente uma medida invariante ergódica.
Demonstração. De acordo com o Corolário ??, se f é unicamente ergódica então
a sua probabilidade invariante é ergódica. Isto prova a parte “somente se”do
enunciado. Por outro lado, o Teorema 5.16 mostra que a recı́proca também é
verdadeira: se f admite apenas uma probabilidade invariante ergódica, então
essa é a única probabilidade invariante.
5.4.1 Prova do teorema de decomposição ergódica

Nesta seção vamos deduzir o Teorema 5.16 de um resultado de Teoria da Proba-
bilidade, o teorema de desintegração de Rokhlin [Rok66], que tem muitas outras
aplicações.
Seja Z um espaço métrico compacto, µ uma probabilidade em Z, e P uma
partição de Z em subconjuntos mensuráveis. Seja π : Z → P a aplicação
que associa a cada z ∈ Z o átomo P ∈ P que o contém. Por definição, Q é
um subconjunto mensurável de P se e somente se π −1 (Q) é um subconjunto
mensurável de Z. Seja µ̂ o iterado de µ por π, ou seja, µ̂ é a probabilidade em
P definida por µ̂(Q) = µ(π −1 (Q)) para cada conjunto mensurável Q ⊂ P.
Definição 5.18. Uma famı́lia de medidas condicionais de µ relativamente a P
é uma famı́lia (µP )P ∈P de probabilidades em Z tais que
1. µP (P ) = 1 para µ̂-quase todo P ∈ P;

2. dada qualquer função contı́nua ϕ: Z → R,
a função P P → ϕ dµP é
mensurável e tem-se ϕ dµ = ϕ dµP dµ̂(P ).
Lema 5.19. Se (µP )P ∈P é uma famı́lia

de medidas condicionais de µ relativa-
mente à partição P, então P P → ψ dµP é mensurável e

ψ dµ = ψ dµP dµ̂(P ),
para toda função mensurável limitada ψ : Z → R.
Demonstração. Denote por C a classe de funções mensuráveis limitadas que

satisfazem a conclusão do lema. Pela definição de sistema de medidas condi-
cionais, essa classe contém todas as funções contı́nuas. Além disso, suponha que
ϕn : Z → R, n ∈ N é uma sequência de funções em C convergindo pontualmente
para alguma função ϕ : Z → R. Suponha ainda que essa sequência é uniforme-
mente limitada, isto é, existe K > 0 tal que |ϕn (z)| ≤ K para todo z ∈ Z e
todo n ∈ N. Afirmamos que a função limite ϕ também está em C. Admita, por
um instante, que esta afirmação é verdadeira.

Em particular, P → µP (E) é mensurável, e µ(E) = µP (E) dµ̂(P ), para
qualquer conjunto mesurável E ⊂ Z.
Medidas condicionais, quando existem, são únicas em quase todo ponto:
Proposição 5.20. Se (µP )P ∈P e (νP )P ∈P são dois sistemas de medidas condi-

cionais de µ com respeito à P, então µP = νP para µ̂-almost every P ∈ P.
Demonstração. Suponha o contrário, isto é, existe um conjunto mensurável

Q0 ⊂ P with µ̂(Q0 ) > 0 tal que µP = νP for every P ∈ Q0 . Seja {ϕk : k ∈ N}
um conjunto enumerável e denso de C 0 (Z, R), e defina

Ak = {P ∈ Q0 : ϕk dµP = ϕk dνP }.
Notando que ∪k Ak = Q0 , existe ϕ ∈ C 0 (Z, R) e um subconjunto Q de Q0 tal

que µ̂(Q) > 0 e (trocando os papéis de µP e νP , se necessário) ϕ dµP > ϕ dνP
para todo P ∈ Q. Então

ϕ dµP dµ̂(P ) > ϕ dνP dµ̂(P ). (5.12)
Q Q
De outro modo, pelo Lema 5.19,

(ϕXπ−1 (Q) ) dµ = (ϕXπ−1 (Q) ) dµP dµ̂(P ).
5.4. TEOREMA DE DECOMPOSIÇÃO ERGÓDICA 59
Por hipótese µP (P ) = 1 para µ̂ quase todo P ∈ P. Para cada um destes P ,

temos que
(ϕXπ−1 (Q) ) dµP = XQ (P ) ϕ dµP .
Assim,

(ϕXπ−1 (Q) ) dµ = XQ (P ) ϕ dµP dµ̂(P ) = ϕ dµP dµ̂(P ).
Q
Analogamente, temos

(ϕXπ−1 (Q) ) dµ = ϕ dνP dµ̂(P ).
Q
Essas duas últimas igualdadades contradizem (5.12). Logo, µP = νP para µ̂-

quase todo P , como afirmamos.
Definição 5.21. P é uma partição mesurável se existem conjuntos mensuráveis
E1 , E2 , . . . , En , . . . de Z tais que
P = {E1 , Z \ E1 } ∨ {E2 , Z \ E2 } ∨ · · · ∨ {En , Z \ En } ∨ · · · mod 0.
Em outras palavras, existe um conjunto de medida µ total F0 ⊂ Z tal que, dado
qualquer átomo P de P podemos escrever
P ∩ F0 = E1∗ ∩ E2∗ ∩ · · · ∩ En∗ ∩ · · · ∩ F0 (5.13)
onde Ej∗ é Ej ou seu complemento Z \ Ej , para todo j ≥ 1.
Exemplo 5.22. Toda particão finita ou enumerável é mesurável. De fato, P é
mensurável se e só se existe uma sequência não-decrescente de partições finitas
ou enumeráveis P1 ≺ P2 ≺ · · · ≺ Pn ≺ · · · tais que P = ∨∞n=1 Pn mod 0.
Exemplo 5.23. Seja Z = X × Y , onde X e Y espaços métricos compactos, e

P é a partição de Z em linhas horizontais X × {y}, y ∈ Y . Então P é uma
partição mensurável de Z.
Teorema 5.24 (desintegração). Se P é partição mensurável então a proba-
bilidade µ admite alguma famı́lia de medidas condicionais relativamente a P.
Este resultado será provado na Seção 5.5. De momento vamos usá-lo para
dar a
Demonstração do Teorema 5.16. Seja f : Z → Z uma transformação contı́nua
num espaço métrico compacto Z, e seja Bf o subconjunto dos pontos z ∈ Z
tais que as médias temporais estão bem definidas na órbita de z: dada qualquer
função contı́nua ϕ : Z → R, a sequência
1
n−1
ϕ(f j (z))
n j=0
converge para algum ϕ̃(z) ∈ R quando n → ∞. Seja P a partição de Z definida

por
1. Z \ Bf é um elemento de P e
2. dois pontos z1 e z2 de Bf estão no mesmo elemento de P se e somente
se têm as mesmas médias temporais: ϕ̃(z1 ) = ϕ̃(z2 ) para toda função
continua ϕ.
Então P é uma partição mensurável, com respeito a qualquer probabilidade µ
em Z. Se µ é f -invariant então µ(Z \ Bf ) = 0 e qualquer famı́lia de medidas
condicionais (µP )P de µ relativamente a P é tal que µP é f -invariante e ergódica
para µ̂-quase todo P ∈ P.
5.5 Teorema de desintegração

No intuito de provar o Teorema, podemos trocar o espaço Z por qualquer con-
junto de medida nula. Logo, não há perda de generalidade supor que F0 em
(5.13) coincide exatamente com Z, e iremos assumir isso no que se segue. Seja
ψ qualquer função mensurável limitada em Z. Para cada n ≥ 1 seja
Pn = {E1 , Z \ E1 } ∨ {E2 , Z \ E2 } ∨ · · · ∨ {En , Z \ En }
isto é, Pn é a partição de Z cujo os átomos são os conjuntos E1∗ ∩ · · · ∩ En∗ , with
Ej∗ = Ej or Ej∗ = Z \ Ej , para cada 1 ≤ j ≤ n. Defina ψ̃n : Z → R como se
segue. Se o átomo Pn (z) de Pn que contém z tem medida µ(Pn (z)) positiva,
then
1
ψ̃n (z) = ψ dµ. (5.14)
µ(Pn (z)) Pn (z)
Caso contrário, ψ̃n (z) = 0. Claramente, o segundo caso na definição de ψ̃n se
aplica somente num conjunto de pontos de medida µ igual a zero.
Lema 5.25. Dada qualquer função mensurável limitada ψ : Z → R, existe um
subconjunto de medida µ total F = F (ψ) de Z tal que ψ̃n (z), n ≥ 1, converge
para algum número real ψ̃(z), para todo z ∈ F .
Demonstração. Observe que sempre podemos escrever ψ = ψ + − ψ − , onde ψ ±
são measuráveis, limitadas e não-negativas: por exemplo, ψ ± = (|ψ| ± ψ)/2.
Então ψ̃n = ψ̃n+ − ψ̃n− para n ≥ 1, e então a conclusão é verdadeira para ψ se
ela vale para ψ + e ψ − . Isto mostra que não há restrição em assumir que ψ é
não-negativa. Iremos assumir isso de agora em diante.
Para todo α < β, seja S(α, β) o conjunto dos pontos z ∈ Z tais que
lim inf ψ̃n (z) < α < β < lim sup ψ̃n (z).
É claro que dado z ∈ Z, a sequência ψ̃n (z) diverge se, e só se, z ∈ S(α, β) para
algum para de números racionais α e β. Logo, o lema segue-se se mostrarmos
que S = S(α, β) tem medida µ igual a zero para todo α e β.
Para cada z ∈ S, fixe uma sequência de inteiros 1 ≤ az1 < bz1 < · · · < azi <
bi < · · · tais que
z
ψ̃azi (z) < α and ψ̃bzi (z) > β for every i ≥ 1.

5.5. TEOREMA DE DESINTEGRAÇÃO 61
Defina Ai como sendo a união dos elementos Pazi (z), e Bi como a união dos ele-
mentos Pbzi (z) obtidos deste modo, para todos os pontos z ∈ S. Por construção,
S ⊂ Ai+1 ⊂ Bi ⊂ Ai para todo i ≥ 1.
Em particular, S está contido no conjunto

∞
∞

S = Bi = Ai .
i=1 i=1
Dados dois entre os conjuntos Pazi (z) que formam Ai , ou eles são disjuntos ou
coincidem. isto porque Pn , n ≥ 1, é uma sequência não-decrescente de partições.
Consequentemente, Ai pode ser escrito como uma união de conjuntos Pazi (z)
dois-a-dois disjuntos. Assim,

ψ dµ = ψ dµ < αµ(Pazi ) = αµ(Ai ),
Ai Paz (z) Paz Paz (z)
i
i i
para qualquer i ≥ 1 (as somas são sobre uniões disjuntas). Analogamente,

ψ dµ = ψ dµ > βµ(Pbzi ) = βµ(Bi ).
Bi Pbz (z) Pbz Pbz (z)
i
i i
Desde que Ai ⊃ Bi e observando que estamos assumindo que ψ ≥ 0, segue-se

que
αµ(Ai ) > ψ dµ ≥ ψ dµ > βµ(Bi ),
Ai Bi
para todo i ≥ 1. Tomando o limite quando i → ∞, temos que

≥ βµ(S).
αµ(S)
= 0, e logo S ⊂ S também é um conjunto com medidaµ

Isto implica que µ(S)
igual a zero.
Dada qualquer função limitada mensurável ψ : Z → R, iremos represen-
tar por en (ψ), e(ψ), respectivamente, as funções ψ̃n , ψ̃ definidas por(5.14) e o
Lema 5.25.
Seja {ϕk : k ∈ N} algum conjunto enumerável e denso de C 0 (Z, R), e seja
∞

F∗ = F (ϕk ),
k=1
where F (ϕk ) como dado pelo Lema 5.25.

Lema 5.26. Dada qualquer função contı́nua ϕ : Z → R, a seuquência en (ϕ)(z)
converge para e(ϕ)(z) quando n → ∞, para todo z ∈ F∗ .
Demonstração. Fixe z ∈ F∗ . É claro que ψ → en (ψ)(z) é um funcional linear

limitado em C 0 (Z, R), com norma 1, e o mesmo é verdade para ψ → e(ψ)(z).
Para todo ε > 0, escolha k tal que ϕ − ϕk 0 < ε/3. Então, se n é grande o
suficiente,
|en (ϕ)(z) − e(ϕ)(z)| ≤
≤ |en (ϕ)(z) − en (ϕk )(z)| + |en (ϕk )(z) − e(ϕk )(z)| + |e(ϕk )(z) − e(ϕ)(z)|
≤ 2ϕ − ϕk 0 + ε/3 < ε .
isto mostra a afirmação.
Seja ϕ : Z → R contı́nua. Por construção, en (ϕ) e constante em cada
Pn ∈ Pn , e logo é constante também em cada átomo P de P, para todo n ≥ 1.
Assim, e(ϕ) é constante em P ∩ F∗ para cada P ∈ P. Seja en (ϕ)(Pn ) o valor
de en (ϕ) em cada Pn ∈ Pn . Similarmente, e(ϕ)(P ) representa o valor de e(ϕ)
on P ∩ F∗ desde que o último conjunto seja não-vazio. Então, desde que (5.14)
define en (ϕ) em um subconjunto de medida µ total de Z,

ϕ dµ = ϕ dµ = µ(Pn ) en (ϕ)(Pn ) = en (ϕ) dµ.
µ(Pn )>0 Pn µ(Pn )>0
Observe também que |en (ϕ)| ≤ sup |ϕ| < ∞ para cada n ≥ 1. Assim, nós
podemos usar o Teorema da Convergência Dominada para concluir que

ϕ dµ = e(ϕ) dµ. (5.15)
Agora, estamos em condições de construir um sistema de medidas condi-

cionais para µ. Seja P qualquer átomo de P tal que P ∩ F∗ é não-vazio. É fácil
de ver que
C 0 (Z, R) ϕ → e(ϕ)(P ) ∈ R
é um funcional não-negativo de C 0 (Z, R). Do fato que en (1)(P ) = 1 e do
Teorema de Riez-Markov, existe uma única medida de probabilidade µP em Z
tal que
ϕ dµP = e(ϕ)(P ). (5.16)
Devemos definir µP mesmo quando P não intersecta F∗ . neste caso tomaremos

µP como qualquer probabilidade em Z: desde que o conjunto de todos esses
átomos P tem medida µ̂ igual a zero em P (em outras palavras, sua união tem
medida µ igual a zero em Z), a escolha não é relevante. De acordo com essas
definições, (5.15) pode ser reescrito como

ϕ dµ = ϕ dµP dµ̂(P ),

o fato que P P → ϕ dµP é uma função mensurável é uma consequência di-
reta de (5.16). Assim, para concluir que (µP )P ∈P forma um sistema de medidas
condicionais de µ com respeito a P resta-nos provar que
5.5. TEOREMA DE DESINTEGRAÇÃO 63
Lema 5.27. µP (P ) = 1 para µ̂-quase todo P ∈ P.
Usaremos o seguinte resultado auxiliar:
Lema 5.28. dada uma função mensurável limitada ψ : Z → R existe um

de medida µ̂ total F (ψ) ⊂ P tal que o conjunto P ∩ F∗ é não vazio
conjunto
então ψ dµP = e(ψ)(P ), para qualquer P ∈ F(ψ).
Demonstração. A classe das funções que satisfazem o lema contém o conjunto

das funções contı́nuas e é fechado por convergência pontual dominada.Assim,
contém todas as funções mensuráveis limitadas.
Podemos provar o Lema 5.27:
Demonstração. Defina F∗ = ∩k,Pk F (XPk ), onde a intersecção é tomada sobre o

conjunto de todos os átomos Pk ∈ Pk , e todo k ≥ 1. Desde que esse conjunto é
enumerável, F∗ tem medida µ̂ total. Afirmamos que a conclusão do lema vale
para todo P ∈ F∗ . De fato, seja k ≥ 1 e Pk elemento Pk que contém P . Pela
definição de F∗

µP (Pk ) = XPk dµP = e(XPk )(P ). (5.17)
Para cada n ≥ 1, seja Pn o átomo de Pn que contém P . Dado qualquer z ∈

P ∩ F∗ ,

1
en (XPk )(z) = XP dµ.
µ(Pn ) Pn k
Agora, para cada n ≥ k temos que Pn ⊂ Pk , e então o último termo é igual a 1.
Assim,
e(XPk )(P ) = e(XPk )(z) = lim en (XPk )(z) = 1.
n→∞
Substituindo isso em (5.17) obtemos que µP (Pk ) = 1 para todo k ≥ 1. Final-

mente,
µP (P ) = lim µP (Pk ) = 1
k→∞
pois Pk , k ≥ 1, é uma sequência decrescente cuja intersecção é P .
A prova do Teorema 5.24 está completa.
Exemplo 5.29. Seja Z o toro bi-dimensional, α um número irracional, e P a

partição de Z em linhas retas de inclinação α. Então P não é uma partição . Um
modo de ver isso é observar que a medida de Haar (Lebesgue) em Z não admite
sistema de medidas condicionais com respeito à P. De fato, pela unicidade
da desintegração, quase toda medida condicional teria que ser invariante por
translações ao longo das linhas retas, e é claro que estas translações não têm
probabilidades invariantes.
5.6 Exercı́cios
5.1. Considere o espaço M = {1, 2, . . . , d}Z das sequências com valores num
conjunto {1, 2, . . . , d}. Fixe qualquer número θ ∈ (0, 1). Para cada β = (βn )n∈Z
e γ = (γn )n∈Z em M , defina

N (β, γ ) = max N ≥ 0 : βn = γn para todo n ∈ Z com |n| < N
e d(β, γ) = θN (β,γ ) . Verifique que d é uma métrica em M e gera a mesma

topologia que a famı́lia dos cilindros. Em particular, (M, d) é um espaço métrico
compacto. Tem-se um resultado análogo para M = {1, 2, . . . , d}N .
5.2. Suponha que Rα é uma rotação irracional.
1. Mostre que a órbita {Rα
n
(z) : n ∈ Z} de todo z ∈ S 1 é densa em S 1 .
2. Seja A um conjunto invariante com medida positiva. Mostre que nenhum
ponto de S 1 é ponto de densidade de Ac . Conclua que µ(A) = 1.
Dica: considere um ponto de densidade de A e use o item (1).
5.3. A rotação Rα é racional se e somente se eαi é uma raiz da unidade, isto é,
se existe k = 0 tal que ekiα = 1.
5.4. Se Rα é rotação racional então Rα não é ergódica para a medida de
Lebesgue.
No exercı́cio a seguir propomos outra demonstração para a proposição 5.5:
1. Mostre que a órbita {Rα
n
(z) : n ∈ Z} de todo z ∈ S 1 é densa em S 1 .
2. Seja A um conjunto invariante com medida positiva. Mostre que nenhum
ponto de S 1 é ponto de densidade de Ac . Conclua que µ(A) = 1.
Dica: considere um ponto de densidade de A e use o item (1).
1. Seja ϕ : S 1 → R uma função contı́nua qualquer. Mostre que
1
n−1
j
ϕ̃(x) = lim ϕ(Rα (z))
n→∞ n
j=0
existe em todo ponto e, de fato, o limite é uniforme. Justifique que ϕ̃ é

constante em todo ponto.
Dica: Verifique que a sequência do lado direito é equicontı́nua e use o
teorema de Ascoli-Arzela.
2. Deduza que Rα tem uma única probabilidade invariante.
5.7. Seja f : M → M uma máquina de somar, definida na secção 5.1.5.

1. Seja ϕ : M → R uma função contı́nua qualquer. Mostre que
1
n−1
ϕ̃(x) = lim ϕ(f j (z))
n→∞ n
j=0
existe em todo ponto e o limite é uniforme.

2. Justifique que ϕ̃ é constante em todo ponto e deduza que f tem uma única
probabilidade invariante.
3. Calcule essa probabilidade, encontrando uma expressão explı́cita para a
medida de qualquer subconjunto [b0 , b1 , . . . , bk ] das sequências β com β0 =
b 0 , β 1 = b 1 , . . . , βk = b k .
5.8 (Teorema de Kac). Seja µ uma medida ergódica para uma transformação
f : M → M e A um conjunto com µ(A) > 0. Considere nA : A → N ∪ {+∞}
como o menor número nA (x) > 0 tal que f nA (x) (x) ∈ A. Caso este número não
exista, definimos nA (x) = +∞.
1. Mostre que nA é integrável com respeito a µ.

µ(A∩B)
2. Mostre que se µA (B) = µ(A) então:

1
nA (x) dµA (x) = .
A µ(A)
5.9. Seja f : M → M definida no espaço topológico M tal que existe alguma

medida ergódica µ tal que para todo A aberto, µ(A) > 0. Mostre que f e
transitiva e a órbita de µ-quase todo ponto é densa.
Capı́tulo 6
Sistemas Misturadores
Neste capı́tulo estudaremos mais uma propriedade das transformações que preser-
vam medida, a saber, a propriedade de misturar conjuntos. Introduziremos os
deslocamentos de Markov, que generalizam os deslocamentos de Bernoulli, in-
troduzidos no Capı́tulo ??. Estudaremos sob que condições estas transformações
são ergódicas ou misturadoras.
6.1 Definições e exemplos

Começaremos este capı́tulo, mostrando uma proposição que estabelece uma
condição equivalente à condição de ergodicidade de uma medida:
Proposição 6.1. Seja f : M → M uma transformação que preserva uma
medida µ. São equivalentes:
1. µ é ergódica
2. Para quaisquer par de conjuntos mensuráveis A, B então
1
n−1
lim µ(f −i (A) ∩ B) = µ(A)µ(B). (6.1)
n→∞ n
i=0
Demonstração. Primeiramente, se vale a igualdade como no item 2 acima, dado

um conjunto invariante A qualquer, temos que
1
n−1
µ(A) = lim µ(f −i (A) ∩ A) = µ(A)2 .
n→∞ n
i=0
Logo, µ(A) = 0 ou 1, donde µ é ergódica.

Por outro lado, se µ é ergódica temos, pelo teorema de Birkhoff aplicado a
função φ = χA , que a sequência de funções
1
n−1
φn (x) = φ(f i (x)
n i=0
68 CAPÍTULO 6. SISTEMAS MISTURADORES
converge em µ quase todo x para o valor constante µ(A). Assim, tomando

ψ = χB pelo teorema da convergência dominada:

1
n−1
−i
lim µ(f (A) ∩ B) = lim φn ψ dµ = µ(A)ψ dµ = µ(A)µ(B),
n→∞ n n→∞
i=0
e isto encerra a prova da Proposição.
Observação 6.2. Podemos extrair um pouco mais da proposição anterior.

Mesmo que µ seja somente invariante, podemos mostrar utilizando o Teorema de

n−1
Birkhoff e a prova da Proposição 6.1 que a sequência lim n1 µ(f −i (A) ∩ B)
n→∞ i=0
converge para quaisquer borelianos A e B. A adaptação é canônica e fica a
cargo do leitor.
Definição 6.3. Seja f uma transformação f : M → M preservando uma me-
dida µ. Dizemos que o sistema (f, µ) é misturador, se dados quaisquer conjuntos
mensuráveis A, B ⊂ M então:
lim µ(f −n (A) ∩ B) = µ(A)µ(B). (6.2)

n→∞
Em muitos casos, especialmente nos que consideramos f fixada e onde não

houver perigo de confusão, diremos simplesmente que a medida µ é misturadora,
sem mencionar a transformação f . É imediato a partir da Proposição 6.1 que
toda medida ergódica é misturadora. Em geral, o contrário não vale como
veremos agora:
Exemplo 6.4. A rotação Rα de ângulo irracional α do cı́rculo unitário S 1
preservando a medida de Lebesgue m. Observe que como α é irracional, a
propriedade de ergodicidade se verifica para este sistema, como já vimos no
exemplo ??. Porém a medida de Lebesgue não é misturadora. Para provar
isto, observe que dados dois intervalos A, B ⊂ S 1 suficientemente pequenos,
para infinitos valores de n temos que f −n (A) não interssecta B. Em particular,
m(f −n (A) ∩ B) = 0 e o limite em (6.2) não se verifica, já que m(A)m(B) > 0.
Em geral, quando desejamos mostrar que uma medida é misturadora, pre-
cisamos verificar a condição 6.2 para todos pares de conjuntos mensuráveis A, B.
Para nosso auxı́lio nesta tarefa, na proposição a seguir mostraremos que basta
fazer tal verificação para uma classe especial de subconjuntos gerando a σ-
álgebra:
Proposição 6.5. Sejam (M, µ, A) um espaço de medida, f : M → M uma
transformação preservando a medida µ e B uma semi-álgebra que gera A. Se
para todos A, B ∈ B vale
lim µ(f −n (A) ∩ B) = µ(A)µ(B),

n→∞
então µ é misturadora.
6.2. DESLOCAMENTOS DE MARKOV 69
Exemplo 6.6. Todo deslocamento de Bernoulli é uma transformação mistu-

radora. De fato, para provar isso considere o deslocamento definido no espaço
das sequências de k sı́mbolos {1, 2, . . . , k}N e seja µ uma medida de Bernoulli
associada ao vetor de probabilidades p = (p1 , . . . , pk ). Precisamos mostrar que
a condição 6.2 vale para todo par A, B de conjuntos mensuráveis. Utilizando a
Proposição ??, basta mostrar que esta condição vale no caso particular em que
A e B são cilindros. De fato, se A = [m; am , . . . , an ] e B = [r; br , . . . , bs ] são
cilindros então, para l suficientemente grande as restrições nas coordenadas de
σ −l (A) são independentes das restrições nas coordenadas de B, de onde segue-se
que µ(σ −l (A) ∩ B) = µ(A)µ(B). Deste modo, os deslocamentos de Bernoulli
são transformações misturadoras.
Em termos de Teoria das Probabilidades, dizer que µ(σ −l (A)∩B) = µ(A)µ(B),

significa dizer que os eventos σ −l (A) e B são independentes, ou seja, a ocorrência
de B no presente não influi na possibilidade de ocorrência de A após l unidades
de tempo passadas.
6.2 Deslocamentos de Markov

Os deslocamentos de Markov são uma classe de transformações preservando
medida que surgem naturalmente na Teoria das Probabilidades e em algumas
aplicações dos Sistemas Dinâmicos. Elas podem ser vistas como uma gener-
alização do conceito de deslocamento de Bernoulli com k sı́mbolos, onde os
lançamentos não são mais independentes. Além da perda de independência,
uma diferença entre os deslocamentos de Bernoulli e os de Markov é que, em
geral, o domı́nio dos deslocamentos de Markov serão subconjuntos próprios de
Σ+k.
Para definirmos um deslocamento de Markov com k sı́mbolos, antes de mais
nada, é necessário fixar uma matriz A = (aij ) de tamanho k × k e com entradas
iguais a 0 ou 1, chamada matriz de transição. A partir desta matriz, podemos
construir um subconjunto Σ+ +
A de Σk das sequências admissı́veis do seguinte
modo:
Σ+ +
A = {(x1 , x2 , . . . ) ∈ Σk ; axi xi+1 = 1}.
Note que se x = (x1 , x2 . . . ) pertence à Σ+ A então σ(x) também pertence à

Σ+
A. Chamaremos de deslocamento de Markov associado à matriz de transição
A a restrição de σ ao conjunto Σ+ A.
Esta transformação admite uma classe especial de medidas, chamadas me-
didas de Markov. Para construir uma destas medidas, consideraremos uma
matriz P = (pij ) e um vetor p = (p1 , . . . , pk ) com todas as coordenadas pi > 0,
satisfazendo as seguintes propriedades:
• 0 ≤ pij ≤ 1

k
• pij = 1.
j=1

k
• pP = p, ou seja: pi pij = pj , para todo j = 1, . . . , k.
i=1
Esta matriz é chamada matriz estocástica e determina a probabilidade da transição

do sistema do estado i para o estado j. Analogamente, podemos interpretar a
(n)
entrada Pij da matriz P n , como sendo a chance de transição do estado i para
o estado j em n passos. Com estes elementos em mãos, definimos a medida de
Markov no cilindro [m; bm , . . . , bn ] como:
µ([m; bm , . . . , bn ]) = pbm pbm bm+1 . . . pbn−1 bn (6.3)

e estendemos a definição de µ para a álgebra das uniões disjuntas A = A1 ∪
· · · ∪ Al de cilindros por
µ(A) = µ(A1 ) + · · · + µ(Al ).
Pelo Teorema 0.9, segue-se que µ pode ser estendida para toda σ-álgebra. Para
mostrar a invariância de µ com respeito à σ, basta provar que µ(σ −1 (C)) =
µ(C), onde C é um cilindro. Ora, isso segue diretamente da expressão de µ(C)
acima, uma vez que a medida µ([m; bm , . . . , bn ]) não depende do ı́ndice m.
Observe que, ao contrário dos deslocamentos de Bernoulli, se A e B são
cilindros disjuntos então µ(A ∩ B) não é necessariamente µ(A)µ(B). Para ver
isto, basta por exemplo considerar o cilindro A = [1; i] e o cilindro B = [2; j].
Claramente, µ(A ∩ B) = µ([1; i, j]) = pi pij que não é necessáriamente igual à
µ(A)µ(B) = pi pj . Apesar disto, ainda podemos calcular, através de um fator
corretivo, a medida de A ∩ B:
Lema 6.7. Sejam A = [m; αm , . . . , αn ] e B = [r; βr , . . . , βs ] cilindros com
r > n. Então:
(r−n)
Pα β
µ(A ∩ B) = µ(A)µ(B) n r .
pβ r
Demonstração. Podemos escrever A ∩ B como a união disjunta

A∩B = [m; αm . . . , αn−1 , x(n), . . . , x(r), βr+1 , . . . , bs ],
x∈F
onde x varia no conjunto F das funções w : {n, . . . , r} → {1, . . . , k} tais que

w(n) = αn e w(r) = βr . Deste modo, temos que:
pαn x(n+1) . . . pxr−1 βr
µ(A ∩ B) = µ(A)µ(B) .
pβ r
x∈F
o que conclui a demonstração do nosso lema, uma vez que

(r−n)

Pαn βr = pαn x(n+1) . . . pxr−1 βr .
x∈F
Iremos agora estudar condições que a matriz estocástica P deve satisfazer

para que uma medida de Markov µ seja ergódica ou misturadora.
Definição 6.8. Uma matriz estocástica P se diz irredutı́vel se dados i, j ∈

(n)
{1, . . . , k} então existe n ∈ N tal que Pij > 0.
Podemos interpretar a irredutibilidade de uma matriz estocástica P do seguinte

modo: dizer que uma matriz P é irredutı́vel equivale a dizer que sempre é
possı́vel a partir de um estado i do sistema, chegar a um estado j com um
certo número n (que depende de i e j) de passos. Como veremos, a condição de
irredutibilidade é necessária e suficiente para que uma medida de Markov seja
ergódica. Um primeiro passo nessa direção é o seguinte lema:
Lema 6.9. Seja P uma matriz estocástica irredutı́vel. Então, dados i e j temos
que:
1 (l)
n−1
Pij = pj .
n
l=0
1

n−1
Demonstração. Primeiramente, provaremos que n P l converge. De fato,
l=0
observe que se A = [1; j] e B = [0; i] então, pelo Lema 6.7:
1 1 (l)
n−1 n−1
1
µ(σ −l (A) ∩ B) = µ(A)µ(B) Pij .
n pj n
l=0 l=0
1

n−1
Assim, para mostrar a convergência de n P l , é suficiente observar que a
l=0
1
n−1
sequência n µ(σ −l (A) ∩ B) converge, de acordo com a observação 6.2.
l=0

k
Se v é o vetor v = (1, 1, . . . , 1), as igualdades pij = 1, para i = 1, 2, . . . , k
j=1
na definição de matriz estocástica podem ser escritas como P v = v. Deste
modo, é simples verificar que Qv = v, ou em outros termos, se Q = (qij ), então
k
qij = 1, para i = 1, 2, . . . , k. De modo análogo, como pP = p, temos que
j=1
pQ = p, ou

k
pi qij = pj , para todo j = 1, . . . , k.
i=1
Além disso, uma fácil verificação a partir da definição de Q mostra que P n Q =

Q, para todo n ∈ N. Utilizaremos estas propriedades para concluir que qij não
depende de i.
De fato, assuma por absurdo que existem r tal que qrj < qsj , onde s é
escolhido de modo que qsj = supi qij . Como P é irredutı́vel, temos que existe n
(n)
tal que Psr > 0. Assim,

k
(n)
k
(n)
qsj = Psi qij < ( Psi )qsj = qsj ,
i=1 i=1
o que é uma contradição. Logo, qij não depende de i. Seja qj = qij este valor
comum. Como pQ = p, temos que:

k k
pj = pi qij = ( pi )qj = qj ,
i=1 i=1
terminando a prova do Lema.
Uma observação simples é que a condição do lema anterior é equivalente a

(l)
irredutibilidade de P . De fato, se caso contrário existiriam i, j tais que Pij = 0
(l)
n−1
para todo l ∈ N, onde n1 Pij = 0.
l=0
O teorema a seguir mostra que a irredutibilidade é uma condição necessária
e suficiente para que uma medida de Markov seja ergódica:
Teorema 6.10. Seja µ uma medida de Markov relativa a uma matriz estocástica
P . Então µ é ergódica se, e só se, P é irredutı́vel.
Demonstração. Primeiramente, vamos assumir que µ é ergódica e mostraremos
que P é irredutı́vel. De fato, tendo em vista a Proposição 6.1, como µ é ergódica,
se considerarmos os cilindros de comprimento 1, A = [1; j] e B = [0; i], temos
que:
1
n−1
lim µ(σ −l (A) ∩ B) = µ(A)µ(B) = pi pj . (6.4)
n→∞ n
l=0
Por outro lado, de acordo com o Lema 6.7 temos que
(l)
µ(σ −l (A) ∩ B) = µ([0; i] ∩ [l; j]) = pi Pij
Substituindo na equação 6.4 e cancelando pi em ambos os lados,
1 (l)
n−1
Pij = pj .
n
l=0
(n)
Em particular, existe n tal que Pij > 0.
Agora, mostraremos que se P é irredutı́vel, então µ é ergódica. Apelando
(l)
n−1
para o Lema 6.9, podemos assumir que lim n1 Pij = pj .
n→∞ l=0
Utilizando a Proposição 6.1, para mostrar que µ é ergódica, basta mostrar
que para todos A, B mensuráveis vale:
1
n−1
µ(σ −l (A) ∩ B) = µ(A)µ(B).
n
l=0
Mostraremos isto em dois passos: inicialmente, veremos que basta mostrar no

caso em que A e B são uniões disjuntas de cilindros. A seguir, mostraremos
essa propriedade para uniões disjuntas de cilindros. De fato, assumindo que
a equação 6.1 vale para uniões disjuntas de cilindros, dados A e B borelianos
quaisquer e > 0, escolha A0 e B0 uniões disjuntas de cilindros de modo que
µ(A∆A0 ) ≤ e µ(B∆B0 ) ≤ . Assim,
1 1
n−1 n−1
µ(σ −l (A)∩B)−µ(A)µ(B) ≤ µ(σ −l (A)∩B)−µ(σ −l (A0 )∩B0 )+
n n
l=0 l=0
1 1
n−1 n−1
+ µ(σ −l (A0 ) ∩ B0 ) − µ(A0 )µ(B0 ) + µ(A0 )µ(B0 ) − µ(A)µ(B).
n n
l=0 l=0
Fazendo arbitrariamente pequeno e n arbitrariamente grande, temos que os

termos acima são arbitrariamente pequenos, mostrando nossa afirmação.
Resta-nos mostrar que a equação 6.1 vale para uniões de cilindros disjuntos.
Deixaremos para o leitor a verificação de que basta mostrar que essa equação
vale para cilindros. Verificaremos para o caso em que A = [m; am , . . . , an ] e
B = [r; br , . . . , bs ] são cilindros com m > r. Assim:
1 (m+l−r)
µ(σ −l (A) ∩ B) = µ(A)µ(B)Pbr am .
pam
Logo, segue diretamente que
1 1 (m+l−r)
n−1 n−1
1
µ(σ −l (A) ∩ B) = µ(A)µ(B) Pbr am .
n pam n
l=0 l=0
Como
1 (l)
n−1
Pij = pj ,
n
l=0
acabamos a prova do teorema.
A seguir, mostraremos que uma condição necessária e suficiente para que

uma medida de Markov seja misturadora é que exista algum número n ∈ N tal
que Pijn > 0 para todos i e j. Ou seja, mostraremos o seguinte teorema:
Teorema 6.11. São equivalentes:
1. µ é misturadora
(n)
2. lim Pij = pj
n→∞
(n)
3. Existe n ∈ N tal que Pij > 0 para todos i e j.
Demonstração. 1 implica 2: Assim como no Teorema 6.10, se considerarmos

os cilindros de comprimento 1 A = [1; j] e B = [0; i], como µ é misturadora,
temos que:
lim µ(σ −l (A) ∩ B) = µ(A)µ(B) = pi pj .
l→∞
Por outro lado,
(l)
lim µ(σ −l (A) ∩ B) = µ([0; i] ∩ [l; j]) = pi Pij .
l→∞
Cancelando o termo pi nas equações acima, obtemos o item 2.

2 implica 3: Trivial.
3 implica 1: Essa é a parte mais difı́cil de nosso teorema. Para mostrar que
µ é misturadora, utilizando o Proposição 6.5, basta mostrar que a equação ??
vale para cilindros. De fato, como já vimos, se A = [m; am , . . . , an ] e B =
[r; br , . . . , bs ] são cilindros com m > r, então:
1 (m+l−r)
µ(σ −l (A) ∩ B) = µ(A)µ(B)Pbr am .
pam
Logo, é suficiente mostrar que
(n)
lim Pij = pj .
n→∞
De fato, assuma por um instante que a sequência de matrizes P (n) converge

para uma matriz Q. Em particular,
1 (i)
n−1
lim P = Q.
n→∞ n
i=0
Assim, de acordo com o Lema 6.9, Q = (qij ) não depende de i e qij = pj . Neste
ponto, recorreremos a o seguinte teorema (para uma prova do teorema, veja ??):
Teorema 6.12 (Perron-Fröbenius). Seja A uma matriz k × k tal que alguma
de suas potências tem todas as entradas maiores que zero. Então:
1. Existe algum auto-valor λ de A tal que λ > µ, para todo auto-valor µ
de A
2. O auto-espaço associado a λ tem dimensão 1.
A partir do Teorema de Perrón, vamos mostrar agora que P (n) de fato con-
verge, quando n → ∞. Primeiramente, mostraremos que o auto-valor dom-
inante λ de P obtido pelo Teorema de Perrón é, de fato, igual a um. Para
mostrar isso, utilizaremos a adjunta P ∗ de P e o fato que os auto-valores de
P e de sua adjunta coincidem. Assim, podemos escolher v = (v1 , . . . , vk ) um
auto-vetor com vi > 0 associado ao auto-valor λ maximal para a adjunta P ∗ ,

k
tal que vi = 1, obtido como no Teorema de Perrón. Logo:
i=1

k
P ∗ v = λv ⇒ Pji vi = λvj ,
i=1

k
Somando com respeito à j e observando que Pji = 1,
j=1

k
k k
k
1= vi = ( Pji )vi = λ vj = λ.
i=1 i=1 j=1 j=1
Para concluir a demonstração, denote por V o subespaço de Rk definido por

k
W2 = {(x1 , . . . , xk ); = 0. Observe que P deixa invariante W2 , ou seja,
i=1
P W2 = W2 e que o auto-espaço W1 associado ao auto-valor 1 de P intersecta W2
somente na origem, uma vez que pelo Teorema de Perrón, W1 é unidimensional
e tem algum vetor com todas as coordenadas positivas. Logo, pelo item 1 do
Teorema de Perrón, o módulo de todos os auto-valores de P |W2 são menores
que um, de onde obtemos que lim P (n) |W2 = 0. Finalmente, dado um vetor
n→∞
x ∈ Rk , podemos escrevê-lo como x = x1 + x2 , com x1 ∈ W1 e x2 ∈ W2 . Isto
implica automaticamente que lim P (n) x = x1 , concluindo a prova da afirmação
de que a sequência P n era convergente.
6.3 Exercı́cios
Capı́tulo 7
Entropia Métrica
Este capı́tulo é dedicado ao estudo da entropia de uma medida invariante,

um conceito que contém diversas informações ergódicas do sistema dinâmico.
Por exemplo, podemos vê-lo como um número que mede quão desordenada a
dinâmica de uma transformação que preserva uma medida pode ser. Outro as-
pecto interessante refere-se a distinguir duas transformações que preservam me-
dida do ponto de vista de sua estrutura ergódica: se as suas entropias diferem,
as transformações são definitivamente diferentes do ponto de vista ergódico.
Finalmente, veremos a relação entre esse invariante métrico e um invariante
topológico para o sistema dinâmico: a entropia topológica.
7.1 Entropia de uma partição

A definição intuitiva de entropia topológica, htop (f ), e de entropia de uma me-
dida µ invariante, hµ (f ), é motivada pela necessidade de medir o crescimento
de possibilidades para um certo evento. Vamos tentar tornar isso mais claro,
considerando um exemplo muito familiar: o shift finito com 2 sı́mbolos σ + .
Por exemplo, podemos pensar nessa transformação modelando o lançamento
de uma moeda viciada (0 para cara e 1 para coroa). Ao jogar uma moeda n
vezes, o número de sequências diferentes de cara ou coroa que podemos obter
cresce exponencialmente, a uma taxa exponencial htop (f ) = log 2. Por outro
lado, se nossa moeda viciada atribui probabilidade p para cara e probabilidade
(1 − p) para coroa é razoável, pelo teorema de Birkhoff, que a média de caras
que aparecem em n lançamentos seja pn. Ou seja, se n é grande, a medida das
sequências tı́picas com pn caras é muito próxima de 1. Adiantamos que neste
caso a entropia da medida de Bernoulli µ que atribui probabilidade p ao evento
cara e probabilidade (1 − p) para coroa é hµ (f ) = −(p log p + (1 − p) log(1 − p)).
Um motivo intuitivo para esta definição é o que se segue: a medida de uma
sequência tı́pica é exatamente igual a
ppn (1 − p)(1−p)n = e(p log p+(1−p) log(1−p))n = e−hµ (f )n .

78 CAPÍTULO 7. ENTROPIA MÉTRICA
Assim, o número de sequências tı́picas diferentes (que realmente são as que

importam no sentido de medida) é exponencial da ordem ehµ (f )n .
Vamos agora tornar um pouco mais rigorosos os conceitos intuitivos que
definimos anteriormente, começando pela definição de entropia métrica. Exis-
tem várias definições possı́veis de entropia métrica e um consenso: sob hipóteses
razoáveis elas coincidem. Nos concentraremos na definição de Kolmogorov, via
entropia de partições:
Definição 7.1. Seja f : X → X uma transformação que preserva a probabili-
dade µ. Dada uma partição Q enumerável de X, a entropia da partição Q com
respeito à µ é o número,

Hµ (Q) = − µ(Q) log µ(Q),
Q∈Q
onde se convenciona que 0 log 0 = 0.

Uma vez fixado o número de elementos, para obtermos uma partição com
entropia maior possı́vel, temos que tentar escolher seus elementos de modo que
suas medida com respeito à µ seja o mais ”igual”possı́vel (veja o Exercı́cio 7.1.)
Em outros termos, se o número de elementos das partições é fixado, então a
partição que tem maior entropia possı́vel é aquela em que a medida de seus
elementos é melhor distribuida.
Isso nos motiva a ilustrar a definição de entropia com o seguinte exemplo:
foi acertado um clássico entre os principais times de um estado (para dar nomes,
digamos CSA x CRB). O técnico do CSA tem no seu plantel cerca de 22 jo-
gadores, podendo organizar seu time de 28.158.588.057.600 modos diferentes.
Denotaremos o conjunto dessas configurações por X e a cada configuração x
do time do CSA associaremos um ı́ndice técnico t(x) e um ı́ndice fı́sico f (x),
que são obtidos de acordo com algum padrão de medição fixado (por exemplo,
atribuı́do pelo comentarista do jogo, Gavião Boêmio, tomando valores inteiros
de 0 a 10). Classificaremos uma configuração x do time de acordo com sua
qualidade técnica como ótima, se t(x) ≥ 9, boa, se 7 ≤ t(x) < 9, regular, se
6 ≤ t(x) < 7 e ruim, se t(x) ≤ 6. Isso gera uma partição T do espaço das
configurações X em quatro subconjuntos,
T = {T1 , T2 , T3 , T4 }.
Como o time referido é o CSA, a medida do conjunto das configurações ótimas

é quase igual a 1. Assim, a entropia é muito pequena, pois −µ(Ti ) log µ(Ti ) é
muito próxima de 0 para cada i. Aqui nós estamos pensando em µ como sendo
a medida da contagem, definida por
#A
µ(A) = .
#X
Por outro lado, se tivéssemos considerado o CRB, as medidas dos conjuntos
T1 , T2 , T3 e T4 seriam quase iguais a 14 e a entropia seria bem próxima de log 4.
7.1. ENTROPIA DE UMA PARTIÇÃO 79
Logo, se houvesse um aposta na loteria consistindo em adivinhar a condição

técnica do time do CSA no dia do confronto (assuma que o treinador faltou e que
os times estão sendo escolhidos por meio de um sorteio, para tornar o processo
aleatório) essa aposta deverá pagar muito menos que a aposta consistindo em
adivinhar a condição técnica do time do CRB. Assim, a entropia pode ser vista
como uma certa medida da “dificuldade” em se ganhar essa aposta.
Vamos agora calcular a entropia de algumas partições que já estudamos:
Exemplo 7.2. Seja f dada por
f : [0, 1] → [0, 1], f (x) = 10x − [10x].
Se P é a partição por intervalos Pk = ( 10
k k+1
, 10 ] com k = 0, . . . , 9, então a
entropia da partição P com respeito à medida de Lebesgue m de [0, 1] é dada
9 1 1
por Hm (P) = i=0 − 10 log 10 = log 10.
Exemplo 7.3. Consideremos o deslocamento unilateral com d sı́mbolos {1, . . . , d}
e a partição Pl formada pelos cilindros de comprimento n, ou seja, Pl é for-
mada pelos conjuntos C = [0, l; a0 , . . . , al ] = {(x0 , . . . , xn , . . . ) ∈ Σ+ ; ai =
xi para i = 0, . . . , l − 1}. A entropia de Pl com respeito à medida de Bernoulli
m relativa ao vetor de probabilidades p = (p1 , . . . , pd ) é dada por Hm (P l ) =

−l di=1 pi log pi (veja exercı́cio 7.3.)
Porém, nem sempre a entropia de uma partição é finita. Realmente, vamos
dar agora um exemplo de uma partição
com entropia infinita. Para tanto,
1
usaremos os fatos de que a série n(log n)2 é convergente com soma igual a
n≥1 c
um certo número c > 0, enquanto que a série n log n é divergente.
n≥1
Exemplo 7.4. Considere a transformação f (x) = 10x − [10x] acima. Clara-

mente a medida de Lebesgue é invariante para f . Para construir a partição, de-
1
componha o intervalo [0, 1] em subintervalos An de modo que m(An ) = cn log n2 .
Deste modo, se A = {A1 , . . . , An , . . . } segue que
+∞
+∞
log c + log n + 2 log(log n) 1
Hm (A) = ≥ =∞
n=1
cn(log n)2 n=1
n log n
Dadas duas partições P e Q podemos definir uma nova partição P ∨ Q de

X do seguinte modo:
P ∨ Q = {A ∩ B; A ∈ P e B ∈ Q}.
Dada a partição P, denotaremos por P n a partição

n−1
Pn = f −i (P).
i=0
Observe que se P = {P1 , . . . , Pd }, cada elemento de P n é dado por um itinerário

(a0 , . . . , an−1 ), ai ∈ {1, . . . , p}. Quer dizer, cada elemento de P n é formado pelos
pontos x ∈ M tais que f i (x) ∈ Pai .
7.2 Entropia de um sistema ergódico

Novamente, voltando ao exemplo CSA contra CRB, vamos agora considerar a
partição das configurações do time do CSA de acordo com o nı́vel de preparação
fı́sica dos jogadores como
• Ruim: F1 = {x ∈ X; f (x) ≤ 5}
• Regular: F2 = {x ∈ X; 6 ≤ f (x) ≤ 7}
• Boa: F3 = {x ∈ X; f (x) = 8}
• Ótima: se F4 = {x ∈ X; f (x) ≥ 9}.
Se denotamos F = {F1 , . . . , F4 }, então
P = T ∨ F = {Ti ∩ Fj ⊂ X; i, j = 1, 2, 3, 4},
representa as possibilidades para o time do CSA, de acordo com a nossa classi-

ficação técnica e fı́sica. Digamos agora que o time do CSA está participando da
Super Copa Nordeste, consistindo de 200 jogos no sistema de pontos corridos.
Para otimizar os resultados e diminuir os custos com treinador, cada jogador
tem seu perfil instalado num computador que, a partir da configuração x da
última partida disputada, escolhe a configuração f (x) para a partida seguinte.
Deste modo, se escolhemos ao acaso a configuração do time para a primeira par-
tida do campeonato, as demais estarão determinadas pelo computador. Assim,
podemos considerar a partição
P 200 = P ∨ f −1 (P) ∨ . . . , f −199 (P),
que representa as possı́veis configurações do time do CSA ao longo do campe-

onato, de acordo com a classificação técnica e fı́sica adotada. Claramente, essa
partição depende da programação feita no computador. Por exemplo, se o com-
putador a partir de uma configuração qualquer, escolhe sempre um certo time,
por exemplo o time xf formado pelos filhos dos dirigentes, então se Pf denota
o elemento da partição P que contém xf , vem que
f −i (P) = {X},
logo
P 200 = P ∨ {X} ∨ · · · ∨ {X} = P.
Assim, descobrir a configuração do time ao longo do campeonato é tão difı́cil
quanto descobrir que time jogará no dia da abertura; a partir daı́, o time que
entrará em campo será sempre o mesmo, escolhido pelo computador. Vamos
agora introduzir o conceito de entropia de uma partição. A entropia da partição
P com respeito à transformação f e à medida µ é o número:
H(P n )
hµ (f, P) = lim
n→+∞ n
7.2. ENTROPIA DE UM SISTEMA ERGÓDICO 81
n
)
Devemos mostrar que a sequência H(P n é convergente para que o limite
acima faça sentido. Deixaremos esta demonstração a cargo do leitor (veja os
Exercı́cios 7.4 e 7.5.)
Assim, no nosso exemplo futebolı́stico, dada uma programação f do com-
putador, a entropia da partição P representa a dificuldade em descobrir qual
será a configuração, de acordo com a nossa classificação do time do CSA, ao
longo da Super Copa Nordeste, dado que o time inicial é determinado por um
sorteio. Por exemplo, se para cada configuração x o computador associa para o
próximo jogo uma certa configuração fixada que maximiza a qualidade do time
(por exemplo, a soma de t(x) com f (x)), então não é difı́cil ver que a entropia da
partição P 200 é igual à entropia de P. Ou seja, não é nada difı́cil para um apos-
tador, descobrir a configuração do time do CSA ao longo de todo campeonato:
basta descobrir a configuração no primeiro dia. Observe que neste caso:
1 Hµ (P 200 ) ∼ Hµ (P) ∼
hµ (f, P) = lim Hµ (P n ) ∼
= = = 0.
n→∞ n 200 200
Ou seja, a aposta descobrir a configuração do time do CSA ao longo da Super
Copa Nordeste é muito previsı́vel e devemos pagar pouco ao vencedor dela. Claro
que isso só acontece se nossa programação for, em certo sentido, previsı́vel. Se,
por exemplo, o time do CSA for escolhido a cada rodada por meio de um sorteio,
então descobrir a sua configuração ao longo do campeonato se torna muito mais
complicado. Neste caso, a entropia da partição P dependerá da medida de seus
átomos, ou seja, da medida de cada elemento Pi . Definiremos agora uma forma
global de medir a complexidade de uma transformação, no sentido métrico.
A palavra global aqui refere-se que ela não dependerá de nenhuma partição
especı́fica.
Definição 7.5. A entropia de f com respeito à medida µ é:
hµ (f ) = sup hµ (f, P),

P
onde o supremo é tomado sobre todas as partições finitas de X.

Vamos agora ilustrar um pouco a definição com alguns exemplos:
Exemplo 7.6. Seja f :→ X uma transformação e p ∈ X um ponto fixo para
f , i.e., tal que f (p) = p. Deste modo, a medida δp definida por:
δp (A) = 0 , se p ∈
/A
1 , se p ∈ A,
é uma medida invariante por f . Vamos calcular sua entropia: claramente, a

entropia de qualquer partição é zero, já que a medida de um conjunto A é zero
ou um. Em ambos os casos, δp (A) log δp (A) = 0. Assim, segue-se diretamente
que a entropia hδp (f ) é zero.
Um fato interessante que podemos extrair diretamente do exemplo acima
é que a função entropia µ → hµ (f ) pode ser descontı́nua: de fato, a medida
µSRB absolutamente contı́nua com respeito à medida de Lebesgue para uma

transformação expansora, construı́da no Capı́tulo 9, pode ser obtida como limite
de medidas de Dirac concentradas nos pontos periódicos. Porém, sua entropia
é igual a log | det Df |dµSRB > 0, como mostra o Teorema 8.18.
Exemplo 7.7. Considere o shift completo com d sı́mbolos σ + : Σ+ +

d → Σd . Se
+
tomarmos a partição P de Σd dada pelos cilindros de comprimento 1 podemos
verificar que P n é simplesmente a partição por cilindros de comprimento n. No
exemplo 7.3 calculamos a entropia de P n com respeito à medida de Bernoulli µp

com vetor de probabilidades p = (p1 , . . . , pd ), obtendo −n di=1 pi log pi . Assim,

d
hµp (σ + , P) = − pi log pi .
i=1
De fato, este número é a entropia da transformação σ + com respeito à medida

µp : isso é consequência do fato de que P é uma partição geradora e do Teorema
de Kolmogorov-Sinai. Veja a Seção 7.3
Exemplo 7.8. Vamos calcular a entropia da medida de Lebesgue de [0, 1] para

a transformação dada por f (x) = 10x − [10x]. Se considerarmos a partição P
como no exemplo 7.2, note que existem exatamente 10n elementos em P n e cada
um deles é um intervalo de comprimento 10−n . Assim, m(C) = 10−n para todo
C ∈ P n . Donde
1 log 10−n
hm (f, P) = lim −m(C) log m(C) = lim − = log 10.
n n
n
C∈P
Além disso, a entropia desta partição é a entropia da medida de Lebesgue.

Isso é consequência novamente do Teorema de Kolmogorov-Sinai.
Exemplo 7.9. Esse exemplo é dedicado a calcular a entropia de uma rotação

Rα de ângulo α do cı́rculo S 1 com respeito à medida de Lebesgue m. Na
verdade, o argumento que usaremos abaixo se aplica a qualquer bijeção men-
surável f : S 1 → S 1 (ou f : [0, 1] → [0, 1]) que preserve uma dada medida
µ. Primeiramente, observe que uma partição do cı́rculo P com k elemen-
tos é determinada por uma sequência p1 , . . . , pk de pontos de S 1 . Observe
também que se denotamos por pji = f −j (pi ) então P n é determinada pelo con-
junto de pontos Cn = {(pji ) ∈ S 1 ; i = 1, . . . , k e j = 0, . . . , n − 1}. Note que
#Cn ≤ #Cn−1 + k, pois Cn − Cn−1 = {pn1 , . . . , pnk }. Assim, é fácil deduzir por
indução que #P n ≤ kn. Deste modo:
Hµ (P n ) #P n log kn
hµ (f, P) = lim ≤ = lim = 0.
n n n
Como a escolha de P foi arbitrária, temos que hµ (f ) = 0.

7.3. TEOREMA DE KOLMOGOROV-SINAI 83
7.3 Teorema de Kolmogorov-Sinai

Definição 7.10. Seja f : X → X uma transformação invertı́vel preservando
uma probabilidade µ no espaço de probabilidade (X, A, µ). Uma partição P é

+∞
dita geradora se f −n P gera a σ-álgebra A. No caso que f é não-invertı́vel,
n=−∞

+∞
então P é geradora se f −n P gera a σ-álgebra.
n=0
Teorema 7.11. Seja P uma partição geradora para f : X → X preservando

uma probabilidade µ no espaço de probabilidade (X, A, µ). Então:
hµ (f ) = hµ (f, P).
7.4 Equivalência ergódica

Vamos agora definir uma relação de equivalência do ponto de vista ergódico
entre as transformações que preservam medida. Duas transformações serão
equivalentes se, após retirarmos conjuntos de medida zero, suas dinâmicas são
conjugadas. Mais precisamente:
Definição 7.12. Sejam f1 : X1 → X1 preservando a medida µ1 e f2 : X2 → X2

preservando a medida µ2 . Diremos que o sistema (f1 , µ1 ) é equivalente à (f2 , µ2 )
se podemos escolher conjuntos Y1 e Y2 com µ1 (X1 − Y1 ) = 0 e µ2 (X2 − Y2 ) = 0,
e uma bijeção mensurável φ : Y1 → Y2 com inversa mensurável tal que:
1. µ1 (φ−1 (A)) = µ2 (A) para todo A ⊂ Y2 mensurável;
2. φ ◦ f1 = f2 ◦ φ.
Muitas vezes a relação de equivalência acima é chamada de conjugação

ergódica entre (f1 , µ1 ) e (f2 , µ2 ) e φ é dita a conjugação.
Observação 7.13. Observe que os conjuntos Y1 e Y2 acima podem ser tomados

de modo que f1 (Y1 ) ⊂ Y1 e f2 (Y2 ) ⊂ Y2 . De fato, se B1 = X1 − Y1 não
−i
+∞
é invariante por f1 , tome B̃1 = f (B1 ). Como µ1 (B1 ) = 0, temos que
i=0
µ1 (f −i (B1 )) = µ1 (B1 ) = 0, donde segue-se que µ1 (B̃1 ). Analogamente para
B2 = X2 − Y2 .
Claramente a relação acima é de equivalência (prove isto!). Vamos agora ver

alguns exemplos de transformações equivalentes do ponto de vista ergódico:
Exemplo 7.14. Considere a transformação do intervalo f : [0, 1] → [0, 1] tal

que f (x) = 2x − [2x] preservando a medida de Lebesgue m, onde [x] é o menor
inteiro menor ou igual a x. Observe que, escrevendo um número x ∈ [0, 1]
em sua expansão binária x = 0, a1 a2 a3 . . .2 , a transformação f é simplesmente
“deslocar”um dı́gito de x para esquerda. Isso nos motiva a considerar a aplicação

φ : [0, 1] → Σ+ N
2 = {0, 1} definida por
x = (0, a1 a2 a3 . . . )2 → φ(x) = (a1 , a2 , a3 , . . . ).
Observe que em alguns pontos φ não está bem definida. Por exemplo, podemos
escrever (0, 1)2 de outro modo, a saber, como (0, 1)2 = (0, 01111 . . . )2 . Porém,
isso não gera maiores problemas: o conjunto B dos pontos que se escrevem
de dois modos diferentes é enumerável (prove isso!) e, logo, tem medida de
Lebesgue nula. Eventualmente, um ponto de [0, 1] pode ser mapeado por f em
um ponto de B. Observe que como cada f −i (B) é enumerável, conjunto
∞

B∞ = f −i (B)
i=0
é enumerável. Em particular o conjunto B∞ tem medida de Lebesgue zero.

Assim, considerando o conjunto Y1 = [0, 1] − B∞ e Y2 ⊂ Σ+ 2 definido como
sendo o conjunto enumerável dos itinerários obtidos a partir dos elementos de
B∞ podemos definir a tranformação φ, que faz com que (f1 , m) seja ergodica-
mente equivalente ao shift completo com 2 sı́mbolos, equipado com a medida de
Bernoulli associada ao vetor (1/2, 1/2).
Facilmente, podemos generalizar esse exemplo para uma transformação do
intervalo [0, 1] dada por f (x) = nx mod1. Neste caso, f será conjugada a um
shift completo com n sı́mbolos munido da medida de Bernoulli associada ao
vetor (1/n, . . . , 1/n).
7.5 Equivalência Espectral

Uma definição mais fraca de equivalência, levando em conta somente as pro-
priedades espectrais da transformação e pode ser formulada como se segue:
Definição 7.15. Seja f : M → M transformação preservando uma medida
µ e g : N → N uma transformação preservando uma medida ν. Dizemos
que (f, µ) é espectralmente equivalente à (g, ν) se existe uma bijeção linear
T : L2 (M, µ) → L2 (N, ν) contı́nua tal que:
Ug ◦ T = T circUf .
Esta definição garante se (f, µ) é espectralmente equivalente à (g, ν) então

todas as propriedades espectrais de (f, µ) também valem para (g, ν). Em
particular, se (f, µ) é ergodica, então (g, ν) também é ergódica. Veremos no
Capı́tulo 10.28 uma noção mais geral de equivalência entre duas transformações
preservando medida, que negligencia conjuntos que têm medida zero.
Proposição 7.16. Sejam d1 e d2 números naturais e σ1 e σ2 deslocamentos de
Bernoulli com d1 e d2 sı́mbolos, respectivamente. Então, σ1 e σ2 são espectral-
mente equivalentes.
7.6. A ENTROPIA COMO INVARIANTE 85
7.6 A entropia como invariante

Como veremos na proposição abaixo, a entropia é um invariante com respeito a
essa relação de equivalência. Isso torna a entropia bastante útil em identificar
quando duas transformações preservando medida não são equivalentes.
Proposição 7.17. Se (f1 , µ1 ) é ergodicamente equivalente a (f2 , µ2 ), então

hµ1 (f1 ) = hµ2 (f2 ).
Demonstração. Seja P1 uma partição de X1 . Desprezando um conjunto de

medida µ1 nula podemos supor, sem perda de generalidade, que P1 é uma
partição em Y1 . Defina
P2 = φ(P1 ) = {φ(P ) ⊂ X2 ; P ∈ P1 }.
Observe que como φ é uma bijeção mensurável, temos que P2 é de fato uma
partição de X2 . Além disso, utilizando que φ ◦ f1 = f2 ◦ φ vem que φ(P1n ) =
φ(P1 )n = P2n . Assim, existe uma bijeção entre os elementos de P1n e os elementos
de P2n de modo que cada elemento P ∈ P1n é levado por φ num elemento φ(P )
de P2n . Como µ1 (P ) = µ2 (φ(P )) para cada P ∈ P1n temos que

Hµ1 (P1n ) = −µ1 (P ) log µ1 (P ) = −µ2 (φ(P )) log µ2 (φ(P ))
P ∈P1n P ∈P1n

= −µ2 (Q) log µ2 (Q) = Hµ2 (P2n ).
Q∈P2n
Assim, vem diretamente que
hµ1 (f1 , P1 ) = hµ2 (f2 , P2 ).
Como a partição P1 de X1 foi escolhida de modo arbitrário, tomando o supremo

no lado esquerdo da igualdade acima, vem que hµ1 (f1 ) ≤ hµ2 (f2 ). Aplicando o
mesmo argumento com f2 no lugar de f1 , vem que hµ2 (f2 ) ≤ hµ1 (f1 ), o que
encerra a prova.
Apesar da utilidade clara do teorema acima em determinar quando duas

transformações preservando medida não são equivalentes, a entropia métrica
tem a limitação de não ser um invariante completo para a relação de equivalência
que definimos acima. Por exemplo, já vimos que a entropia da medida de
Lebesgue de uma rotação é sempre igual a zero. Porém, rotações irracionais
não podem ser equivalentes a rotações racionais. De fato, todas as órbitas de
uma rotação racional são periódicas, enquanto todas as órbitas de uma rotação
irracional são densas. Porém, nem tudo está perdido: se nos restringirmos a
classe dos shifts de Bernoulli a entropia é de fato um invariante completo. Esse
resultado é o famoso:
Teorema 7.18 (Orstein[Orn70]). Dois shifts de Bernoulli com a mesma en-

tropia são necessariamente equivalentes.
Vamos agora introduzir uma nova forma de calcular a entropia de uma me-
dida invariante, devida a Brin e Katok [BK83], com um certo sabor topológico.
Primeiramente, vamos definir o conceito de bola dinâmica:
Definição 7.19. A bola dinâmica de tamanho n e raio em torno do ponto x
é o conjunto:
B
(n, x) = {y ∈ M ; d(f i (x), f i (y)) < , i = 0, 1, . . . , n − 1},
ou equivalentemente,

n−1
B
(n, x) = f −k (B
(f k (x))).
k=0
A entropia de µ é a média da taxa exponencial de decrescimento da medida

µ das bolas dinâmicas. Tornando a frase anterior mais clara, defina as funções:
1
h(x, ) = − lim sup log µ(B
(n, x))
n→∞ n
e
h(x) = lim h(x, ).

→0
O Teorema de Brin-Katok afirma que:
Teorema 7.20 (Brin-Katok [BK83]). A função h(x) definida acima é µ-

integrável e, além disso, vale:

hµ (f ) = h(x)dµ.
7.7 Exercı́cios
7.1. Mostre que se Q = {Q1 , . . . , Qd }, então Hµ (Q) ≤ log d. (dica:Use cálculo
n
e mostre que se x1 , . . . , xd ≥ 0 são números reais positivos tais que i=1 xi = 1,
d
então − i=1 xi log xi é máximo quando x1 = x2 = · · · = xd = 1/d.)
7.2. Mostre que a função h(x) é f -invariante. Conclua daı́ que se µ é ergódica,
então hµ (f ) = h(x) para µ quase todo ponto x.
7.3. Mostre que se P é a partição por cilindros de comprimento 1, então a

entropia de P n com respeito à medida de Bernoulli m relativa ao vetor de
d
probabilidades p = (p1 , . . . , pd ) é dada por Hm (P n ) = −n i=1 pi log pi .
7.4. Uma sequência de números reais an é dita subaditiva se an+m ≤ an + am .
Mostre que se an ≥ 0 é subaditiva então o limite limn→∞ ann existe.
7.5. Mostre que dada uma partição finita P de X então a sequência Hµ (P n ) é

subaditiva.
7.6. Mostre que se α = (α1 , . . . , αn ) ∈ Πn e Rα : Πn → Πn é a rotação de ângulo

α definida por Rα (x1 , . . . , xn ) = (x1 +αn , . . . , xn +αn ), então hm (Rα ) = 0, onde
m é a medida de Lebesgue.
7.7. Defina A : Π2 → Π2 por A(x, y) = (2x, 12 y). Mostre que a entropia de A
com respeito à medida de Lebesgue m é hm (A) = log 2.
7.8. Mostre as seguintes propriedades da entropia:
1. Para n ∈ N, hµ (f n ) = nhµ (f );
2. Se t ∈ [0, 1] e µ1 , µ2 são medidas f -invariantes, então
htµ1 +(1−t)µ2 (f ) = thµ1 (f ) + (1 − t)hµ2 (f )
1

n−1
3. Se p é um ponto periódico de perı́odo n e µ = n δf i (p) , então hµ (f ) = 0
i=0
Capı́tulo 8
Entropia Topológica
Introduziremos agora um importante conceito topológico com conexão com a

definição de entropia métrica, estudada anteriormente. Este invariante será um
número que, como veremos, coincide com o supremo das entropias métricas
quando percorremos o conjunto de todas as medidas invariantes. Estudaremos
também sua relação com a taxa de crescimento do número de pontos periódicos
e sua versão para fluxos.
8.1 Definição via coberturas

Daremos primeiramente uma definição de entropia topológica com o sabor da
definição de entropia via partições. Neste caso, o ingrediente que utilizaremos
é a noção de entropia de uma cobertura (note que aqui não iremos nos reportar
a nenhuma medida invariante.)
Definição 8.1. Seja X um espaço métrico e α uma cobertura de X. Definiremos
N (α) o número da cobertura α como a menor cardinalidade possı́vel de uma
subcobertura de α, ou seja,
N (α) = inf{#β; β ⊂ α é subcobertura de X}.
A entropia de α é simplesmente o número H(α) = log N (α).

Se U e V são coberturas tais que dado qualquer U ∈ U existe algum V ∈ V
isso por tal que U ⊂ V , então dizemos que U refina V e denotamos isso por
V ≺ U.
Do mesmo modo como foi feito para partições, dadas duas coberturas α e β
podemos definir uma nova cobertura α ∨ β de X do seguinte modo:
α ∨ β = {A ∩ B; A ∈ α e B ∈ β}.
Dada uma partição α, definimos αn por
αn = α ∨ · · · ∨ f −n+1 (α).
90 CAPÍTULO 8. ENTROPIA TOPOLÓGICA
Deixaremos para o leitor a tarefa de mostrar que H(αn ) é uma sequência sub-
aditiva (Exercı́cio 8.2.)
Assim, dada uma função contı́nua f : X → X, definimos a entropia de f
com respeito a cobertura α, como sendo o número
1
h(f, α) = lim H(αn ).
n→∞ n
Finalmente, a entropia topológica de f é
htop (f ) = sup{h(f, α); α é cobertura aberta finita de X}.
Exemplo 8.2. Vamos agora calcular a entropia topológica de uma bijeção

mensurável f : S 1 → S 1 (ou f : [0, 1] → [0, 1]). Primeiramente, dada uma
cobertura do cı́rculo α podemos supor, sem perda de generalidade, que α é for-
mada por intervalos abertos. Sejam p1 , p2 , . . . , pk os extremos desses intervalos.
Observe que se denotamos por pji = f −j (pi ) então αn é determinada pelo con-
junto de pontos Cn = {(pji ) ∈ S 1 ; i = 1, . . . , k e j = 0, . . . , n − 1}. Note que
#Cn ≤ #Cn−1 + k, pois Cn − Cn−1 = {pn1 , . . . , pnk }. Assim, é fácil deduzir por
indução que #αn ≤ kn. Deste modo:
Hµ (αn ) #αn log kn

hµ (f, α) = lim ≤ = lim = 0.
n n n
Como a escolha de α foi arbitrária, temos que hµ (f ) = 0.
Exemplo 8.3. Como consequência do exemplo anterior, a entropia de uma
rotação Rα de ângulo α do cı́rculo S 1 é sempre igual a zero.
Vamos agora mostrar a seguinte proposição, útil para calcular a entropia
topológica de uma transformação.
Proposição 8.4. Seja βn uma sequência de coberturas finitas tais que os seus
diâmetros diam βn vão para zero quando n vai para infinito. Então,
htop (f ) = sup h(f, βn ) = lim h(f, βn ).

n∈N n→∞
Demonstração. Observe primeiramente que dada uma cobertura finita V, pode-

mos escolher N suficientemente grande de modo que se n > N então diamβn é
menor que o número de Lebesgue γ da cobertura V. Relembrando a definição, γ
é um número de Lebesgue de V se, dado qualquer conjunto C com diamC ≤ γ,
então existe V ∈ V tal que C ⊂ V . Logo, como diamβn ≤ γ, temos que todo
elemento B de βn está contido em algum V ∈ V. Logo, V ≺ βn , o que implica
diretamente que h(f, V) ≤ h(f, βn ), pois V k ≺ βnk , para todo ∈ N. Em particu-
lar, h(f, V) ≤ sup h(f, βn ). Logo, tomando o supremo sobre todas as coberturas
n∈N
finitas no lado esquerdo da igualdade anterior:
htop (f ) = sup h(f, V) ≤ sup h(f, βn ) ≤ htop (f ).

n∈N
8.2. DEFINIÇÃO VIA CONJUNTOS GERADORES 91
Para mostrar que a sequência h(f, βn ) é convergente, suponha que uma sub-
sequência βni satisfazendo lim h(f, βni ) = h. Vamos mostrar que h = htop (f ).
i→∞
De fato, dado > 0, podemos escolher N grande de modo que se i > N , então
h − ≤ h(f, βni ≤ h + . Deste modo, aplicando a parte que já mostramos à
sequência ωi = βni+N , temos que
htop (f ) = sup h(f, ωi ) ∈ (h − , h + ).

i∈N
Como é arbitrário, vem que htop (f ) = h, provando que a sequência h(f, βn ) é

convergente.
Corolário 8.5. Se α é uma cobertura tal que lim diam αn = 0, então

n→∞
htop (f ) = h(f, α).
8.2 Definição via conjuntos geradores

Vamos agora definir de uma outra forma o conceito de entropia topológica,
utilizando a definição de conjunto gerador.
Definição 8.6. Seja f : X → X uma aplicação contı́nua do espaço métrico

⊂ X. Dado > 0 e n ∈ N, dizemos que E é um (n, )-gerador de X,,
(X, d) e E
se X = B
(n, x).
x∈E
Consideraremos daqui por diante X compacto para que sempre exista um

conjunto (n, )-gerador finito. Isso decorre diretamente da definição de conjuntos
compactos, pois sempre podemos cobrir X por bolas dinâmicas de raio e
tamanho n. Para cada par (n, ), associaremos um número Sn () definido por
Sn () = inf{#E; E ⊂ X é (n, )-gerador }.
Deixaremos para o leitor a tarefa de verificar que a sequência log Sn () é suba-
ditiva (Exercı́cio 8.3.)
Assim, podemos considerar o limite
1
h(f, ) = lim log Sn ().
n→∞ n
Observando que a função → h() é monótona decrescente, temos que o

limite h(f ) = lim h(f, ) existe. De fato, temos que

→0
Proposição 8.7. Com as definições anteriores vale
h(f ) = htop (f ).
8.3 Entropia de fluxos

Com as ferramentas introduzidas vamos facilmente definir o conceito de entropia
topológica para um fluxo de uma variedade compacta φt : M → M. Primeira-
mente, vamos definir o análogo da bola dinâmica B
(n, x). Para isso, para cada
T > 0 defina a distância:
dT (x, y) = max d(φt (x), φt (y))

t∈[0,T ]
Definimos B
(T, x) = {y ∈ M ; dT (x, y) ≤ } a bola de raio na
distância dT .
Um conjunto E ⊂ Xserá chamado de (T, )-gerador de X , se = B
(n, x).
x∈E
Assim, de forma análoga ao que fizemos no caso de aplicações, definimos
ST () = inf{#E; E ⊂ X é (T, ) − gerador } e
1
h(φ, ) = lim log ST ().
T →∞ T
Finalmente, a entropia topológica do fluxo φ é definida como sendo o número:
htop (φ) = lim h(φ, ).

→0
Uma primeira conexão entre a entropia topológica de fluxos e aplicações é:
Teorema 8.8. A entropia topológica htop (φ) do fluxo φt coincide com a entropia
topológica htop (φ1 ) da aplicação φ1 .
Um importante resultado (cuja prova foge ao âmbito deste texto) é:
Teorema 8.9 (Princı́pio Variacional). Seja f : X → X uma função contı́-

nua do espaço métrico compacto X. Denote por I o conjunto das medidas (de
probabilidade) invariantes por f . Então vale a igualdade:
htop (f ) = sup hµ (f ).
µ∈I
Podemos tirar algumas conclusões úteis do teorema acima. A primeira delas

é que se para alguma medida invariante a entropia métrica é positiva então, a
entropia topológica também o é. Em contrapartida, se a entropia de toda as
medida invariantes é igual a zero, então a entropia topológica também é igual
a zero. Como consequência disso e do exemplo 7.9, reobtemos que a entropia
topológica de qualquer bijeção do intervalo ou de S 1 é zero, já que a entropia
métrica de qualquer medida invariante é igual a zero.
Uma das boas propriedades da entropia topológica é que ela é um invari-
ante topológico: se duas transformações são equivalentes do ponto de vista
topológico, então sua entropia topológica é a mesma. Como fizemos no capı́tulo
anterior, vamos tornar preciso o que entendemos por transformações equiva-
lentes (agora no sentido topológico):
8.4. PRESSÃO TOPOLÓGICA 93
Definição 8.10. Sejam f1 : X1 → X1 e f2 : X2 → X2 funções contı́nuas dos

espaços métricos X1 e X2 . Diremos que f1 é topologicamente equivalente à f2
se existe um homeomorfismo h : X1 → X2 tal que:
h ◦ f1 = f2 ◦ h.
Neste caso dizemos que f1 é topologicamente conjugado a f2 e h é dita uma
conjugação entre f1 e f2 .
Observação 8.11. Observe que se o ponto p ∈ X1 é tal que f1n (p) = p, então
f2n (φ(p)) = φ(f1n (p)) = φ(p). Em palavras, φ leva pontos periódicos de f1 em
pontos periódicos de f2 . De modo análogo, não é difı́cil ver que φ leva pontos
de X1 com órbita por f1 densa, em pontos de X2 com órbita por f2 densa.
Deixamos a prova da proposição abaixo para o leitor:
Proposição 8.12. Se f1 é topologicamente equivalente a f2 , então htop (f1 ) =
htop (f2 ).
Como no caso da entropia métrica, a entropia topológica tem a limitação de
não ser um invariante completo. Por exemplo, duas rotações quaisquer do circulo
têm sempre a mesma entropia topológica, igual a zero. Porém, uma rotação
irracional tem todos os pontos com órbita densa, enquanto uma rotação racional
não possui nenhum com esta propriedade, já que todos são periódicos. De acordo
com a observação acima, isso torna impossı́vel que haja uma conjugação entre
elas.
8.4 Pressão topológica

Vamos agora definir uma generalização do conceito de entropia topológica, in-
troduzindo o conceito de pressão topológica de uma função φ : X → R com
respeito a transformação f : X → X. Esse conceito (oriundo da Fı́sica, como
o próprio nome indica) será também um invariante topológico de f , no sentido
de que duas transformações topologicamente equivalentes atribuem a mesma
pressão a uma função φ. Suporemos que o espaço X é compacto para que as
quantidades tratadas sejam sempre finitas, mas os conceitos expostos são de
caráter geral e não dependem desta condição.

Definição 8.13. Dado n ∈ N vamos denotar φn (x) = n−1 i
i=0 φ(f (x)). Dado
um conjunto C ⊂ X então φn (C) = maxx∈C φn (x).
Dada uma cobertura α de X definimos a pressão de φ com respeito a cober-
tura α como:
1
P (φ, α) = lim log inf n { eφn (U) },
n→+∞ n U ⊂α
U∈U
onde o ı́nfimo é tomado sobre todas subcoberturas U de αn .
Fica como exercı́cio para o leitor diligente mostrar que o limite acima existe
(a essa altura o caminho a ser percorrido é standard: mostre que a sequência é
subaditiva).
Definição 8.14. A pressão P (φ, f ) de φ com respeito a f é o supremo dos

valores de P (φ, α) sobre todas as coberturas abertas de X.
Proposição 8.15. Sejam φ, ψ ∈ C 0 (X) e C ∈ R. Então:
1. P (0, f ) = htop (f )
2. P (φ + C, f ) = P (φ, f ) + C
3. Se existir função limitada u : X → R tal que φ se escreve como φ =

ψ + u ◦ f − u ( e neste caso diremos que a função φ é cohomóloga a ψ),
então P (φ, f ) = P (ψ, f ).
Demonstração. Para o item 1, fixada uma cobertura α observe que como φ =

φn (U)
0, então dada uma subcobertura U de αn vale U∈U e = #U. Logo,
P (0, α) = h(f, α) para cada cobertura α de X.
No item 2, observe que se denotamos Φ = φ + C então Φn (x) = φn (x) +
Cn.
Logo, fixada uma cobertura α, para qualquer subcobertura U de αn vale
Φn (U) Cn φn (U)
U∈U e = e U∈U e . Assim, segue diretamente que P (Φ, α) =
P (φ, α) + C e, por conseguinte, que P (Φ, f ) = P (φ, f ) + C
Para o último item, inicialmente = ψ + u ◦ f − u valeque φn (x) =
como φφn (U)
= eu(f (x))−u(x) U∈U eψn (U) .
n
ψn (x) + u(f n (x)) − u(x). Assim, U∈U e
Logo, como u é limitada, digamos |u(x)| ≤ K, então vale que

eφn (U) = e2K eψn (U) .
U∈U U∈U
Segue diretamente que P (φ, α) = P (ψ, α) e, consequentemente, P (φ, f ) =

P (ψ, f ).
8.5 Princı́pio variacional

Denotaremos também a pressão
da medida µ com respeito a φ como sendo o
número Pµ (φ) = hµ (f ) + φ dµ. Para simplificar nossa notação, sempre que f
estiver fixada e não houver perigo de confusão, utilizaremos P (φ) para indicar
P (φ, f ).
É simples ver que se t ∈ [0, 1] e µ1 , µ2 ∈ I então (veja exercı́cio 7.8):
Ptµ1 +(1−t)µ2 (φ) = tPµ1 (φ) + (1 − t)Pµ2 (φ).
Como já observamos, se tomarmos φ = 0 então a pressão de φ é exatamente

a entropia topológica. Podemos nos perguntar se a pressão topológica de um
potencial contı́nuo qualquer admite uma caracterização via supremo no conjunto
de medidas, como obtivemos para φ = 0. A resposta para esta pergunta é sim
e forma o importante teorema conhecido como Princı́pio Variacional para a
pressão:
8.5. PRINCÍPIO VARIACIONAL 95
Teorema 8.16 (Princı́pio Variacional). Se I é o conjunto das probabilidades

invariantes para uma transformação contı́nua f : X → X do espaço compacto
X e φ : X → R é contı́nua, então

P (φ, f ) = sup Pµ (φ) = sup hµ (f ) + φ dµ (8.1)
µ∈I µ∈I
Outra boa propriedade da pressão é que ela é uma função contı́nua com o
potencial. Mostraremos, sem muito esforço, que
Proposição 8.17. P : C 0 (X) → R é Lipschitz com constante de Lipschitz igual
a 1.
Demonstração. De fato, dados os potenciais φ e ψ ∈ C 0 (X) vale que:
ψ − φ − ψ ≤ φ ≤ ψ + φ − ψ
De onde , para cada µ ∈ I:

hµ (f ) + ψ dµ − φ − ψ ≤ hµ (f ) + φ dµ ≤ hµ (f ) + ψ dµ + φ − ψ
Tomando o supremo em µ nas desigualdades acima:
P (ψ) − φ − ψ ≤ P (φ) ≤ P (ψ) + φ − ψ
Ou equivalentemente, P (φ) − P (ψ) ≤ φ − ψ.

Agora vamos estudar a pressão de um potencial particular, a saber, φ(x) =
− log | det Df (x)| e tirar conclusões quando f é uma transformação expansora
de classe C 2 , estudada no Capı́tulo 9 anterior. Na prova da proposição a seguir,
vamos utilizar alguns resultados clássicos de teoria ergódica. O leitor que os
desconhece pode recorrer à Seção 12.2.
Proposição 8.18. Seja M d uma variedade compacta de dimensão d. Se f é
uma transformação expansora de classe C 2 , então P (− log | det Df (x)|) = 0.
Demonstração. Observe primeiramente que se µ é uma probabilidade invariante
para f , pela desigualdade de Ruelle (veja o Teorema 12.3) se χ(x) é a soma dos
expoentes de Lyapunov positivos de x, então a entropia de µ satisfaz:

hµ (f ) ≤ χi (x) dµ(x).
Por outro lado, como a transformação f é expansora, todos os expoentes de

Lyapunov de f são positivos e, pelo teorema de Oseledets, a soma de todos os
expoentes de Lyapunov λi (x) é

d
λi (x) = χi (x) = log | det Df (x)|.
i=1
Consequentemente, a pressão P (φ) satisfaz:

P (− log | det Df |) = sup{hµ (f ) − log | det Df (x)| dµ(x)} ≤ 0.
µ∈I
De fato, P (− log | det Df |) = 0. Para ver isso, basta calcularmos a entropia da

medida µSRB construı́da no capı́tulo 9. Note que essa medida tem a propriedade
de ser absolutamente contı́nua com respeito a medida de Lebesgue de M . Isso
nos coloca em condições de aplicar a fórmula de Pesin, que nos garante que:

hµSRB (f ) = χi (x) dµSRB (x) = log | det Df (x)| dµSRB .
8.6 Exercı́cios
8.1. Se U e V são coberturas tais que U ≺ V, então H(V) ≤ H(U).
8.2. Mostre que H(αn ) é uma sequência subaditiva.
8.3. Mostre que fixado , então a sequência log Sn () é subaditiva.
8.4. Mostre que o máximo da função h : Rd → R dada por h(x1 , . . . , xd ) =
d
− i=1 xi log xi restrita ao simplexo {xi ≥ 0; x1 + · · · + xd = 1} é igual a log d
e é obtido exatamente quando x1 = x2 = · · · = xd = d1 . Conclua que entre as
medidas de Bernoulli do Shift completo com d sı́mbolos, a de maior entropia é
dada pelo vetor de probabilidade ( d1 , . . . , d1 ).
8.5. Este exercı́cio é uma generalização do anterior: sejam a1 , . . . , ad números
reais. Mostre que o máximo da função F : Rd → R dada por

d
F (x1 , . . . , xd ) = −xi log xi + xi ai
i=1
restrita ao simplexo {xi ≥ 0; x1 + · · · + xd = 1} é obtido exatamente quando
eaj
xj = .

d
eai
i=1
Capı́tulo 9
Transformações Expansoras
Nesta seção provamos que para qualquer transformação expansora cujo jaco-
biano det Df é Hölder 1 existe uma única probabilidade invariante absoluta-
mente contı́nua com relação à medida de Lebesgue. Essa probabilidade é posi-
tiva em todos os subconjuntos abertos de M , é ergódica, e a sua bacia de atração
tem medida de Lebesgue total em M .
Definição 9.1. Seja M uma variedade compacta e f : M → M uma trans-
formação de classe C 1 . Dizemos que f é expansora se existe σ > 1 e alguma
métrica riemanniana · em M tais que
Df (x)v ≥ σv para todo x ∈ M e v ∈ Tx M . (9.1)
Exemplo 9.2. Seja F : Rd → Rd , d ≥ 1 um isomorfismo linear satisfazendo

F (Zd ) ⊂ Zd . Então existe uma única transformação f : Td → Td no toro
d-dimensional M = Td tal que f ◦ π = π ◦ F , onde

π : Rd → Td , π(x1 , . . . , xd ) = e2πix1 , . . . , e2πixd
é a projeção canônica. Se todos os autovalores λ1 , . . . , λd de F têm norma

maior que 1 então a transformação f é expansora: podemos tomar qualquer
1 < σ < inf i |λi | em (9.1).
Chamamos suporte de uma probabilidade µ o conjunto dos pontos tais que
toda vizinhança tem medida positiva para µ. Note que o suporte de µ é o espaço
M inteiro se e somente se µ é positiva em todo aberto de M .
Quando µ é invariante para f , chamamos bacia de µ o conjunto B(µ) dos
pontos x ∈ M tais que

1
n−1
lim ϕ(f j (x)) = ϕ dµ
n→∞ n
j=0
1 Dado ν > 0, dizemos que φ : M → R é ν-Hölder se existe alguma constante C > 0 tal que
|φ(x1 ) − φ(x2 )| ≤ Cd(x1 , x2 )ν para todo x1 , x2 em M .

98 CAPÍTULO 9. TRANSFORMAÇÕES EXPANSORAS
para toda função contı́nua ϕ : M → R. Note que a bacia sempre é um conjunto

invariante. Se µ é ergódica então B(µ) tem µ-medida total.
Teorema 9.3. Seja f : M → M uma transformação expansora numa variedade
compacta conexa M . Assuma que o logaritmo
M x → log | det Df (x)|
do jacobiano de f é ν-Hölder, para algum ν > 0. Então f admite uma única

probabilidade invariante µ absolutamente contı́nua com relação à medida de
Lebesgue m. Além disso, µ é ergódica, o seu suporte coincide com M e a sua
bacia tem medida de Lebesgue total na variedade.
A estratégia da demonstração do Teorema 9.3 é a seguinte. É fácil ver
que a pré-imagem por f de um conjunto com medida de Lebesgue m nula
também tem medida de Lebesgue nula. Isto significa que a imagem f∗ ν por
f de qualquer medida ν absolutamente contı́nua com relação a m também é
absolutamente contı́nua com relação a m. Em particular, a nésima imagem
f∗n m é absolutamente contı́nua com relação à medida de Lebesgue m para todo
n ≥ 1.
Provaremos na Proposição 9.6 que a derivada de Radon-Nikodym de cada
f∗n m com relação a m (também chamada densidade) é limitada por alguma
constante independente de n ≥ 1. Deduziremos que todo ponto de acumulação,
na topologia fraca∗ , da sequência
1 j
n−1
f m
n j=0 ∗
é uma probabilidade invariante absolutamente contı́nua com relação à medida

de Lebesgue, com densidade limitada pela mesma constante.
Um argumento adicional provará que tal ponto de acumulação é único e
satisfaz todas as propriedades no enunciado do teorema.
9.1 Lema de distorção

A hipótese de que a transformação f : M → M é expansora serve para obter a
seguinte proposição:
Lema 9.4. Existe k ≥ 1 tal que todo ponto y ∈ M tem exatamente k pré-
imagens por f . Além disso, existe ρ0 > 0 tal que, para qualquer pré-imagem x
de um ponto y ∈ M , existe uma aplicação h : B(y, ρ0 ) → M de classe C 1 tal
que f ◦ h = id , h(y) = x e
d(h(y1 ), h(y2 )) ≤ σ −1 d(y1 , y2 ) para todo y1 , y2 ∈ B(y, ρ0 ).
Demonstração. A condição (9.1) implica que a derivada Df é um isomorfismo

em todo ponto. Logo, dado qualquer x ∈ M existe ρ0 > 0 tal que f envia
9.1. LEMA DE DISTORÇÃO 99
alguma vizinhança V (x) de x difeomorficamente sobre a bola de raio ρ0 em

torno de y = f (x). Por compacidade, podemos tomar ρ0 independente de x.
Então o número de pré-imagens de qualquer y ∈ M deve ser limitado. Além
disso, o conjunto dos pontos que têm exatamente n pré-imagens é aberto, para
todo n ≥ 0. Portanto, por conexidade, o número de pré-imagens deve ser o
mesmo para todo y ∈ M . Finalmente, seja h = (f | V (x))−1 . Pela condição
(9.1),
Dh(z) = Df (h(z))−1 ≤ σ −1
para todo z no domı́nio de h, e portanto h contrai distâncias à taxa σ −1 como
enunciamos.
Transformações h como neste enunciado são chamadas ramos inversos de f .
Mais geralmente, podemos definir ramos inversos hn de f n , n ≥ 1, da seguinte
maneira. Dado y ∈ M e x ∈ f −n (y), sejam h1 , . . . , hn ramos inversos de f com
hj (f n−j+1 (x)) = f n−j (x)
para todo 1 ≤ j ≤ n. Como cada hj é uma contração, a sua imagem está contida
numa bola de raio menor que ρ0 em torno de f n−j (x). Então hn = hn ◦ · · · ◦ h1
está bem definida na bola de raio ρ0 em torno de y. É claro que f n ◦ hn = id e
hn (y) = x.
O próximo resultado fornece um bom controle da distorção de iterados de f
e seus ramos inversos, que é crucial para a demonstração do teorema. Este é o
único lugar onde se usa a hipótese de que o jacobiano é Hölder.
Proposição 9.5 (lema de distorção). Existe C1 > 0 tal que, dado qualquer
n ≥ 1, qualquer y ∈ M , e qualquer ramo inverso hn : B(y, ρ0 ) → M de f n ,
tem-se
| det Dhn (y1 )|
≤ exp(C1 d(y1 , y2 )ν ) ≤ exp(C1 (2ρ0 )ν )
| det Dhn (y2 )|
para todo y1 , y2 ∈ B(y, ρ0 ).
Demonstração. Escrevamos hn como composição hn = hn ◦ · · · ◦ h1 de ramos
inversos de f . Também escrevemos hi = hi ◦ · · · ◦ h1 para 1 ≤ i < n, bem como
h0 = id . Então
| det Dhn (y1 )|
n
log = log | det Dhi (hi−1 (y1 ))| − log | det Dhi (hi−1 (y2 ))| .
| det Dhn (y2 )| i=1
Note que log | det Dhi | = − log | det Df | ◦ hi e, por hipótese, log | det Df | is
(C0 , ν)-Hölder for some C0 > 0. Além disso, pelo Lema 9.4, cada hj é uma
σ −1 -contração. Logo,
| det Dhn (y1 )|

n n
log ≤ C0 d(h i
(y 1 ), h i
(y 2 ))ν
≤ C0 σ −iν d(y1 , y2 )ν .
| det Dhn (y2 )| i=1 i=1
∞
Portanto, para provar o lema basta tomar C1 = C0 i=1 σ −iν .
9.2 Medidas absolutamente contı́nuas

O próximo resultado, que é uma consequência do lema de distorção, mostra que
as imagens f∗n m têm densidades uniformemente limitadas:
Proposição 9.6. Existe C2 > 0 tal que (f∗n m)(B) ≤ C2 m(B) para todo con-
junto mensurável B ⊂ M e todo n ≥ 1.
Demonstração. Podemos, sem restrição, supor que B está contido em alguma
bola B0 = B(z, ρ0 ) de raio ρ0 centrada em algum ponto z ∈ M . Usando a
Proposição 9.5 vemos que

B | det Dh | dm
n
m(hn (B)) m(B)
= ≤ exp(C1 (2ρ0 )ν ) ,
m(hn (B0 )) B0 | det Dh n | dm m(B0)
para todo ramo inverso hn de f n no ponto z. Além disso, também temos que
(f∗n m)(B) = m(f −n (B)) é a soma de m(hn (B)) sobre todos os ramos inversos,
e analogamente para B0 . Deste modo, obtemos que
(f∗n m)(B) m(B)

≤ exp(C1 (2ρ0 )ν ) .
(f∗n m)(B0 ) m(B0 )
Claro que (f∗n m)(B0 ) ≤ (f∗n m)(M ) = 1. Além disso, a medida de Lebesgue das
bolas com um raio fixado ρ0 está limitada de zero por alguma constante α0 > 0
que só depende de ρ0 . Então, para obter a conclusão da proposição basta tomar
C2 = exp(C1 (2ρ0 )ν )/α0 .
Também precisamos do seguinte resultado auxiliar:
Lema 9.7. Seja ν uma probabilidade num espaço métrico compacto X, e seja
ϕ : X → [0, +∞) uma função integrável com respeito a ν. Seja µi , i ≥ 1,
uma sequência de probabilidades em X convergindo para uma probabilidade µ
na topologia fraca∗ . Se µi ≤ ϕν para todo i ≥ 1 então µ ≤ ϕν.
Demonstração. Seja B um conjunto mensurável qualquer. Para cada ε > 0,
seja Kε um subconjunto compacto de B tal que µ(B \ Kε ) e (ϕν)(B \ Kε )
são ambos menores que ε. Então seja Aε uma vizinhança aberta de Kε da
forma Aε = {z : d(z, Kε ) < r}, com r > 0 suficientemente pequeno para que a
medida de Aε \ Kε seja menor que ε, tanto para µ como para ϕν. Mudando r
ligeiramente, caso necessário, podemos supor que o bordo de Aε tem µ-medida
zero: há no máximo uma quantidade enumerável de valores de r para os quais
isso não acontece. Então, µ = lim µi implica µ(Aε ) = lim µi (Aε ) ≤ (ϕν)(Aε ).
Fazendo ε → 0 obtemos que µ(B) ≤ (ϕν)(B).
Aplicando este lema na nossa situação, obtemos
n−1
Corolário 9.8. Todo ponto de acumulação µ da sequência n−1 j=0 f∗j m é
uma probabilidade invariante para f absolutamente contı́nua com relação à me-
dida de Lebesgue.
9.3. EXISTÊNCIA DE MEDIDAS ERGÓDICAS 101
Demonstração.
ni −1Tomemos ϕ constante igual a C2 e ν = m. Tomemos também
µi = n−1
i j=0 f j
∗ m, para qualquer subsequência (ni )i tal que (µi )i converge
para uma medida µ. A Proposição 9.6 garante que νi ≤ ϕν. Então também
temos µ ≤ ϕν = C2 m, pelo Lema 9.7. Isto implica que µ m, com densidade
limitada por C2 .
9.3 Existência de medidas ergódicas

Agora vamos mostrar que a medida µ que acabamos de construir é a única prob-
abilidade invariante absolutamente contı́nua com relação à medida de Lebesgue
e, além disso, é ergódica para f .
Começamos por fixar uma partição P0 = {U1 , . . . , Us } de M em regiões com
interior não vazio e diâmetro menor que ρ0 . Então, para cada n ≥ 1, definimos
Pn como sendo a partição de M que consiste das imagens de cada um dos Ui ,
1 ≤ i ≤ s, pelos respectivos ramos inversos de f n . O diâmetro da partição Pn ,
ou seja, o supremo dos diâmetros dos seus elementos, é menor que ρ0 σ −n .
Lema 9.9. Seja Pn , n ≥ 1, uma sequência de partições num espaço métrico
compacto com diâmetros convergindo para zero quando n → ∞. Seja ν uma
probabilidade nesse espaço, e seja B qualquer conjunto mensurável com ν(B) >
0. Então existem Vn ∈ Pn , para n ≥ 1, tais que
ν(B ∩ Vn )
ν(Vn ) > 0 e →1 quando n → ∞.
ν(Vn )
Demonstração. Dado qualquer 0 < ε < ν(B), seja Kε um subconjunto com-
pacto de B com ν(B \ Kε ) < ε. Como o diâmetro das partições converge para
zero, a medida da união Aε,n de todos os elementos de Pn que intersectam Kε
satisfaz ν(Aε,n \ Kε ) < ε para todo n suficientemente grande. Se tivéssemos
ν(B) − ε
ν(Kε ∩ Vn ) ≤ ν(Vn )
ν(B) + ε
para todo Vn ∈ Pn que intersecta Kε , deduzirı́amos que
ν(B) − ε ν(B) − ε
ν(Kε ) ≤ ν(Aε,n ) ≤ (ν(Kε ) + ε) ≤ ν(B) − ε,
ν(B) + ε ν(B) + ε
o que é uma contradição. Portanto, deve existir algum Vn ∈ Pn tal que
ν(B) − ε
ν(B ∩ Vn ) ≥ ν(Kε ∩ Vn ) > ν(Vn )
ν(B) + ε
e isto implica ν(Vn ) > 0. Fazendo ε → 0 obtemos a conclusão do lema.
Lembre que A ⊂ M é um conjunto invariante para f : M → M se f −1 (A) =
A. Mais geralmente, dizemos que A é positivamente invariante se f (A) = A.
Note que conjuntos invariantes sempre são positivamente invariantes, porque f
é sobrejetiva.
Lema 9.10. Se A ⊂ M um conjunto positivamente invariante para f com

medida de Lebesgue m(A) > 0, então A tem medida de Lebesgue total em algum
Ui ∈ P0 , ou seja, existe 1 ≤ i ≤ s tal que m(Ui \ A) = 0.
Demonstração. Pelo Lema 9.9, existe Vn ∈ Pn tal que
m(Vn \ A)
m(Vn )
converge para zero quando n → ∞. Seja Ui(n) = f n (Vn ). Pela Proposição 9.5
aplicada ao ramo inverso de f n que envia Ui(n) em Vn , concluı́mos que
m(Ui(n) \ A) m(f n (Vn \ A)) m(Vn \ A)

≤ n
≤ exp C1 (2ρ0 )ν
m(Ui(n) ) m(f (Vn )) m(Vn )
também converge para zero. Como P0 é finito, deve existir 1 ≤ i ≤ s tal que
i(n) = i para infinitos valores de n. Logo, m(Ui \ A) = 0.
Corolário 9.11. A transformação f : M → M admite alguma probabilidade

invariante ergódica e absolutamente contı́nua com relação à medida de Lebesgue.
Demonstração. Como consequência do lema anterior, existem no máximo #P0

conjuntos invariantes com medida de Lebesgue positiva disjuntos dois-a-dois.
Portanto, M pode ser particionado num número finito de conjuntos invariantes
A1 , . . . , As , s ≤ #P0 com medida de Lebesgue positiva e que são minimais
no seguinte sentido de que não existem subconjuntos invariantes Bi ⊂ Ai com
0 < m(Bi ) < m(Ai ). Dada qualquer medida invariante absolutamente contı́nua
µ, existe algum i tal que µ(Ai ) > 0. Então a restrição normalizada µi de µ a
Ai ,
µ(B ∩ Ai )
µi (B) =
µ(Ai )
é invariante e absolutamente contı́nua. Além disso, µi é ergódica, porque Ai é
minimal.
9.4 Unicidade e conclusão da prova

O argumento anterior também mostra que existe apenas um número finito de
probabilidades ergódicas e absolutamente contı́nuas. O último passo da demon-
stração é mostrar que, de fato, tal probabilidade é única. Para isso usamos o
fato de que f é topologicamente misturadora:
Lema 9.12. Dado qualquer aberto não vazio U ⊂ M , existe N ≥ 1 tal que
f N (U ) = M .
Demonstração. Seja x ∈ U e r > 0 tais que a bola de raio r centrada em

x está contida em U . Dado qualquer n ≥ 1, suponha que f n (U ) não cobre
toda a variedade. Então existe alguma curva γ ligando f n (x) a um ponto
y ∈ M \ f n (U ), e essa curva pode ser tomada com comprimento menor que

diam M + 1. Levantando γ pelo difeomorfismo local f n , obtemos uma curva γn
ligando x a um ponto yn ∈ M \ U . Então r ≤ comp(γn ) ≤ σ −n (diam M + 1).
Isto dá uma cota superior para o valor possı́vel de n. Logo, f n (U ) = M para
todo n suficientemente grande, como afirmamos.
Corolário 9.13. Se A ⊂ M é um conjunto positivamente invariante com me-
dida de Lebesgue positiva, então A tem medida de Lebesgue total na variedade
M.
Demonstração. Seja U o interior de um conjunto Ui como no Lema 9.10, e
seja N ≥ 1 tal que f N (U ) = M . Então m(U \ A) = 0, e portanto M \ A =
f N (U ) \ f N (A) ⊂ f N (U \ A) também tem medida de Lebesgue zero.
O próximo enunciado completa a demonstração do Teorema 9.3:
Corolário 9.14. Seja µ qualquer probabilidade invariante absolutamente con-
tı́nua. Então µ é ergódica e a sua bacia B(µ) tem medida de Lebesgue total em
M . Além disso, o suporte de µ é toda a variedade M .
Demonstração. Se A é um subconjunto invariante qualquer então, pelo corolário
anterior, A tem medida de Lebesgue zero ou Ac tem medida de Lebesgue zero.
Uma vez que µ é absolutamente contı́nua, segue que µ(A) = 0 ou µ(Ac ) = 0.
Isto prova que µ é ergódica. Então B(µ) é um conjunto invariante com medida
de Lebesgue positiva e, consequentemente, deve ter medida de Lebesgue to-
tal.Analogamente, como o suporte de µ é um conjunto compacto positivamente
invariante, ele tem que coincidir com M .
Observação 9.15. É possı́vel mostrar que a derivada dµ/dm é Hölder e lim-
itada de zero. Em particular, a probabilidade µ é equivalente à medida de
Lebesgue m, no sentido de que elas têm os mesmos conjuntos com medida nula.
A conclusão do Teorema 9.3 é falsa, em geral, se omitirmos a hipótese de que o
jacobiano é Hölder.
9.5 Exercı́cios
Capı́tulo 10
Estados de Equilı́brio
Estudaremos neste capı́tulo uma classe especialmente importante de medidas

invariantes, a saber, os estados de equilı́brio. A definição destas medidas, através
de um princı́pio variacional, tem uma forte motivação fı́sica e encontra aplicações
em várias áreas tais como teoria da dimensão de conjuntos invariantes, estudo de
recorrências do sistema dinâmico, crescimento do número de pontos periódicos,
fluxos geodésicos, medidas fı́sicas, etc. Estaremos interessados em estudar que
hipóteses são relevantes para que perguntas tais como a existência, unicidade,
ergodicidade destas medidas, possam ter respostas positivas. Como veremos,
este estudo pode ser feito para uma ampla classe de difeomorfismos locais em
variedades compactas.
10.1 Definição de Estado de Equilı́brio

Neste capı́tulo consideraremos uma função f : X → X definida em um espaço
métrico X e φ : X → R uma função contı́nua (que daqui por diante chamaremos
de potencial, invocando o termo fı́sico). O conjunto das medidas (de probabili-
dade) µ invariantes por f designaremos pela letra I.
Definição 10.1. Uma medida invariante µφ é dita um estado de equilı́brio para

o potencial φ se
hµφ (f ) + φ dµφ = P (φ, f ).
Ou seja: µφ é um máximo para a função P = P (φ) : I → R definida por

Pµ (φ) = hµ (f ) + φ dµ.
Exemplo 10.2. Observe que os estados de equilı́brio para o potencial φ = 0

são aquelas medidas que maximizam a entropia. Como vimos no exemplo 7.7,
no caso do deslocamento completo com d sı́mbolos 1, . . . , d, a única medida que
maximiza a entropia é bem conhecida: é a medida de Bernoulli associada ao
vetor de probabilidade ( d1 , . . . , d1 ).
106 CAPÍTULO 10. ESTADOS DE EQUILÍBRIO
Exemplo 10.3. Ainda para a transformação “deslocamento”com d sı́mbolos,

fixados números a1 , . . . , ad podemos considerar o potencial φ(x) = ax0 que é
constante
nos cilindros [0; i] de comprimento 1. Observe neste caso que a integral
φ dµ se escreve como

d
φ dµ = µ([0; i])ai
i=1
Assim, a função P numa medida de Bernoulli dada pelo vetor de probabilidades
d
(p1 , . . . , pd ) nada mais é que − i=1 pi log pi + pi ai . Logo, utilizando o exercı́cio
8.5 temos que entre todas as medidasa de Bernoulli a que maximiza a P é a que
j
tem vetor de probabilidades pj = de .
eai
i=1
Exemplo 10.4. Se f é uma transformação expansora de classe C 2 em uma

variedade compacta M , como já vimos no Teorema 8.18, a pressão da função
φ(x) = − log | det Df (x)| é P (φ, f ) = 0. Além disso, foi mostrado que se µ é a
medida SRB de f construı́da no capı́tulo 9, então µ é um estado de equilı́brio
para φ já que Pµ (φ) = 0. Não por acaso, essa medida é de certa forma a
medida invariante com maior dimensão possı́vel. Não explicaremos o conceito
de dimensão, mas sugerimos que o leitor interessado consulte [Fal90].
Nosso próximo passo será introduzir uma classe ampla de transformações

com a propriedade de que todo potencial contı́nuo admite algum estado de
equilı́brio.
10.2 Transformações expansivas

Em linhas gerais, as transformações expansivas são aquelas tais que duas órbitas
diferentes são distinguidas, em algum momento, de forma macroscópica. Em
outras palavras, duas condições iniciais diferentes do sistema, mesmo aquelas
muito próximas, produzem efeitos a longo prazo que diferem por uma constante
fixa. Veremos que essa propriedade das órbitas implica uma certa regularidade
da função P e nos permitirá mostrar a existência de estados de equilı́brio para
potenciais contı́nuos. Definamos de modo preciso:
Definição 10.5. Uma transformação f : M → M é dita expansiva se existir

uma constante 0 (chamada constante de expansividade) tal que: dados x, y ∈ M
com x = y, então existe n ∈ N tal que d(f n (x), f n (y)) ≥ 0 .
Exemplo 10.6. Um primeiro exemplo de transformação expansiva é a trans-

formação
f : [0, 1] → [0, 1], f (x) = 10x − [10x]
onde [10x] representa o maior inteiro menor ou igual a 10x, vista na Seção 2.1.
Note que se dois pontos x, y ∈ [0, 1] são distintos, então em algum momento n,
10.2. TRANSFORMAÇÕES EXPANSIVAS 107
o n-ésimo dı́gito an da expansão decimal de x difere do n-ésimo dı́gito bn da

expansão decimal de y. Deste modo,
|an − bn | 1
|f n (x) − f n (y)| > > ,
10 10
1
provando que f é expansiva com constante de expansividade 10 .
Exemplo 10.7. Inspirados no exemplo anterior, não é difı́cil concluir que o

deslocamento introduzido em 5.1.2 é uma transformação expansiva no espaço
das sequências. De fato, o mesmo argumento do exemplo anterior se aplica neste
caso: se a = (an ) e b = (bn ) são sequências distintas, então an = bn para algum
ı́ndice n. Assim, d(σ n (a), σ n (b)) > 20 = 1 (lembre-se que a distância no espaço
das sequências é definida como em 5.1.2), onde podemos tomar a constante de
expansividade igual a 1.
Mais geralmente, os dois exemplos acima fazem parte da classe de trans-

formações que expandem distâncias a uma taxa uniforme, estudadas no capı́tulo
9. De fato, podemos mostrar o seguinte lema
Lema 10.8. Se f é expansora, ou seja, existe σ > 1 tal que
Df (x)v ≥ σv
para todo x ∈ M e v ∈ Tx M , então f é expansiva.
Demonstração. Pelo lema 9.4, existe ρ0 > 0 tal que, para qualquer pré-imagem
x de um ponto y ∈ M , existe uma aplicação h : B(y, ρ0 ) → M de classe C 1 tal
que f ◦ h = id , h(y) = x e
d(h(y1 ), h(y2 )) ≤ σ −1 d(y1 , y2 ) para todo y1 , y2 ∈ B(y, ρ0 ).
Assim, se d(f n (x), f n (y)) ≤ ρ para todo n ≥ 0, concluı́mos que d(x, y) ≤

σ −n d(f n (x), f n (y)) ≤ σ −n ρ, o que implica imediatamente que x = y.
Para ilustrar a propriedade de expansividade, vamos provar uma proposição

conectando o crescimento do número de pontos periódicos de f com a sua en-
tropia topológica. Denotaremos o conjunto P er(n) = {x ∈ M ; f n (x) = x}.
Então:
Proposição 10.9. Se f é expansiva então

1
lim sup log #P er(n) ≤ htop (f ).
n
Demonstração. Seja α uma cobertura de M de diâmetro menor que constante
de expansividade de f . Observe que em um elemento de αn so pode existir
no máximo um ponto de P er(n): de fato, se x, y ∈ P er(n) estão no mesmo
elemento de αn , então d(f i (x), f i (y) < para i = 0, . . . , n − 1. Como f n (x) = x
e f n (y) = y, a desigualdade d(f i (x), f i (y) < vale para todo i ∈ N. Logo, pela
expansividade de f , x = y. Assim,
1 1
lim sup log #P er(n) ≤ lim sup log #N (αn ) = htop (f, α).
n n
Tomando o limite quando o diâmetro de α vai a zero, temos a desigualdade
requerida.
Não é difı́cil obter transformações que não satisfazem a propriedade de ex-

pansividade. Por exemplo, uma isometria da variedade nunca satisfaz a condição
de expansividade. Se a transformação admitir um ponto fixo do tipo sela, então
(pelo Teorema da Variedade Estável) a transformação também não é expansiva.
Iremos agora tratar as transformações expansivas do ponto de vista ergódico.
Mais precisamente, mostraremos o seguinte teorema:
Teorema 10.10. Seja f : M → M uma transformação expansiva definida

na variedade compacta M e seja C 0 (M ) o conjunto das funções φ : M → R
contı́nuas. Dado qualquer φ ∈ C 0 (M ) existe algum estado de equilı́brio para φ.
Para o conforto do leitor iremos dividir a demonstração do teorema anterior

em um conjunto de lemas. O primeiro deles diz que se P é uma partição com
diâmetro menor que a constante de expansividade e µ é uma medida, então P
é necessariamente uma partição geradora.
Lema 10.11. Seja P = {P1 , . . . , Pk } uma partição tal que para todo i = 1, . . . , k
vale diamPi ≤ ρ. Então, P é geradora com respeito a qualquer medida invariante
µ.
Demonstração. Defina
P (n) = {C (n) = Pi0 ∩ · · · ∩ f −n+1 (Pin−1 )}, para cada n ≥ 1.
Nós precisamos mostrar que dado um conjunto mensurável A e > 0, existem

(n) (n)
borelianos C1 , . . . , Cm of P (n) tal que
(n)
µ( Ci ∆A) ≤ .
Primeiramente, observe que se P n (x) denota o elemento da partição P n que

contém x, então limn→∞ diamP n (x) = 0. De fato, se existe uma sequência de
pontos yn ∈ P n (x) tais que d(yn , x) > δ > 0, por compacidade de M , existe o
limite y = limn→+∞ yn (passando a uma subsequência se necessário). Assim,
temos por um lado que d(y, x) > δ > 0 e por outro que y ∈ P n (x) para todo
n, o que implica que d(f n (y), f n (x)) < ρ, o que contradiz a hipótese de f ser
expansiva.
Considere então K1 ⊂ A e K2 ⊂ Ac compactos tais que µ(K1 ∆A) ≤ δ e
µ(K2 ∆Ac ) ≤ δ. Seja r = d(K1 , K2 ) > 0. Temos que se n é suficientemente
10.2. TRANSFORMAÇÕES EXPANSIVAS 109
(n) (n)
grande diamP (n) (x) ≤ r2 , para todo x ∈ M . Considere C1 , . . . , Cm ∈ P (n)
aqueles que intersectam K1 . Então
(n) (n) (n)
µ( Ci ∆A) = µ( Ci − A) + µ(A − Ci )
≤ µ(A − K1 ) + µ(Ac − K2 ) ≤ 2δ.
O que prova o lema.
Observação 10.12. Relembrando a definição de entropia com respeito a uma

partição Q,
Hµ (Q) = −µ(Q) log µ(Q),
Q∈Q
temos que se Q é tal que µ0 (∂Q) = 0, para cada Q ∈ Q e uma medida µ0 fixada,
então a função µ → Hµ (Q) é contı́nua em µ0 . Isso implica diretamente que
1
µ → hµ (f, P) = inf Hµ (P (n) ).
n→∞ n
é semi-contı́nua superiormente em µ0 .
Como consequência do lema 10.11 e da observação 10.12 podemos obter o

seguinte lema:

Lema 10.13. Dado φ ∈ C 0 (M ), a função µ → P = Pµ (φ) = hµ (f ) + φ dµ é
semicontı́nua superiormente.

Demonstração. Como a função µ → φ dµ é contı́nua (logo semicontı́nua su-
periormente), basta mostrar que a transformação H definida por µ → H(µ) =
hµ (f ) é semicontı́nua superiormente. Para tanto, fixe uma medida µ0 e escolha
uma partição P = {P1 , . . . , Pk } tal que µ0 (∂Pi ) = 0 para todo i = 1, . . . , k e
diamPi < ρ, para todo i = 1, . . . , k. Por um lado, o Lema 10.11 nos garante que
P é uma partição geradora para toda medida µ e como consequência do teorema
de Kolmogorov-Sinai, vale hµ (f ) = hµ (f, P). Por outro lado, a observação 10.12
garante que a função µ → hµ (f, P) é semicontı́nua superiormente em µ0 . Logo,
H é semicontı́nua superiormente em µ0 .
Para provar o Teorema 10.10, basta unirmos os resultados que obtivemos:
Prova do Teorema 10.10. Pelo lema anterior, dada φ contı́nua, a função P é

semicontı́nua superiormente. Como vimos no Capı́tulo 3, M1 (M ) é compacto,
logo P admite um máximo, o qual é por definição um estado de equilı́brio para
φ.
Observação 10.14. Podemos selecionar um conjunto residual (intersecção enu-

merável de conjuntos abertos e densos) Φ ⊂ C 0 (M ) tal que se φ ∈ Φ então o
estado de equilı́brio para φ é único.
Uma pergunta que surge naturalmente é se existe estado de equilı́brio espe-

cial, ou até mesmo sob que condições para φ garantem que φ admite um único
estado de equilı́brio. Claramente precisamos supor que o sistema f : M → M
seja indecomponı́vel no sentido ergódico pois, caso contrário, poderı́amos sim-
plesmente construir contra-exemplos da seguinte forma: tomando duas cópias
da variedade M , digamos M1 e M2 , disjuntas e considerarı́amos f˜ : M̃ → M̃
atuando na união M̃ = M1 ∩ M2 como sendo f em cada componente Mi . Neste
caso, um estado de equilı́brio para f : M → M produz uma infinidade de esta-
dos de equilı́brio para f˜, via combinação convexa dos estados de equilı́brio em
M1 e M2 . O que falta a f é a condição de transitividade. O grande teorema do
próximo capı́tulo dirá que se f é expansora e M é uma variedade compacta e
conexa (neste caso f é transitiva), então todo potencial H ölder contı́nuo admite
um único estado de equilı́brio.
10.3 Transformações expansoras

Nesta subseção, generalizaremos a construção feita no Capı́tulo 9 num contexto
mais abstrato e com alguns novos ingredientes. Porém, a essência das idéias é
a mesma e tentaremos traçar um parelelo entre os conceitos e teoremas demon-
strados aqui com os do Capı́tulo 9, ressaltando suas semelhanças.
10.3.1 O operador de transferência

Fixados f e phi, definiremos agora um operador que desempenhará um impor-
tante papel na nossa construção.
Definição 10.15. O operador de Ruelle-Perron-Frobenius ou operador de trans-

ferência é o operador Lφ : C 0 (M ) → C 0 (M ) definido no espaço C 0 (M ) das
funções contı́nuas g : M → R por

Lφ g(x) = eφ(y) g(y).
f (y)=x
O seu dual Lφ é o operador L φ : M → M definido no espaço M das medidas

finitas ν de M , do seguinte modo: para toda função contı́nua g : M → R

gd Lφ ν = Lφ g dν.

Algumas propriedades importantes de Lφ e do seu dual são dadas na proposição

abaixo:
Proposição 10.16. Valem as seguintes propriedades:
1. Lφ é um operador linear contı́nuo Lφ ≤ Ce

φ
, onde C não depende de
φ.
10.3. TRANSFORMAÇÕES EXPANSORAS 111
2. Lφ é positivo: se g(x) ≥ 0 para todo x ∈ M , então Lφ g(x) ≥ 0 para todo

x ∈ M;
3. L φ admite alguma auto-medida ν com ν(M ) = 1
Demonstração. Os items 1 e 2 são imediatos a partir da definição de Lφ e deix-

amos as verificações para o leitor. Para mostrar o item 3 usaremos o Teorema
de Tychonoff-Schauder para pontos fixos que afirma o seguinte: uma função
contı́nua definida num espaço compacto e convexo admite necessariamente um
ponto fixo. Claramente M1 o espaço das medidas de probabilidade em M é
convexo, pois a combinação de duas medidas de probabilidade também é uma
medida de probabilidade. Como foi provado na Seção 3.2, temos que M1 é
compacto. Logo, se definimos a função contı́nua G : M1 → M1 por:
L φ (η)
G(η) = ,
Lφ 1 dη
existe ν ∈ M1 tal que G(ν) = ν, o que implica que L φ ν = λν, onde λ =

Lφ 1 dν.
As auto-medidas ν para o dual do operador de transferência são chamadas
medidas conformes. Por exemplo, a medida de Lebesgue é uma medida conforme
para o potencial φ = − log | det Df , como o leitor pode verificar empregando
diretamente a fórmula de mudança de variáveis. Em geral, as medidas não são
invariantes pela transformação f .
Definição 10.17. O jacobiano de uma medida µ com respeito a f (quando
existe) é uma função Jµ f tal que se A é um boreliano tal que f |A é injetiva,
então:
µ(f (A)) = Jµ f dµ.
A
Nem sempre o jacobiano de uma medida invariante existe. Quando cada

ponto de M admite somente um número finito de pré-imagens por f , então
Jµ f existe para toda medida invariante. Neste caso, o jacobiano é únicamente
definido, exceto talvez por um conjunto de medida µ zero. Podemos mostrar,
aplicando sucessivas vezes a definição do jacobiano, que se f n |A é injetiva, então

n−1
Jµ f n (x) = Jµ f (f i (x)).
i=0
Deixaremos isso como exercı́cio para o leitor (veja 10.4

Uma das importantes propriedades das medidas conformes é o fato de que
seu jacobiano é bem determinado pela função φ e que vale a fórmula de mudança
de variáveis:
Lema 10.18. Se L φ ν = λν, então
1. O jacobiano de ν com respeito a f é dado por Jν f (x) = λe−φ(x) .

2. Se u ∈ C 0 (M ) então

u ◦ f dν = (Jν f (y))−1 u(x) dν(x).
f (y)=x
Demonstração. Começaremos mostrado a fórmula de mudança de variáveis do

item 2. Ora,

1 1
u ◦ f dν = u ◦ f dL φ (ν) = Lφ (u ◦ f ) dν.
λ λ

Por outro lado, Lφ (u ◦ f ) = (eφ(y) u(x), de onde:
f (y)=x

u ◦ f dν = λ−1 eφ(y) u(x) dν(x) = (Jν f (y))−1 u(x)dν(x)).
f (y)=x f (y)=x
Para mostrar o item 1, considere um conjunto mensurável A tal que f |A é

injetiva. Tome uma sequência {gn } ∈ C 0 (M ) tal que gn → χA em ν-q.t.p. e
sup |gn | ≤ 2 para todo n. Então,

Lφ (e−φ gn )(x) = eφ(y) e−φ(y) gn (y) = gn (y).
f (y)=x f (y)=x
Observe que a última expressão converge para χf (A) (x) em ν-quase todo ponto.
Assim, pelo Teorema da Convergência Dominada,

λe−φ gn dν = e−φ gn d(L φ ν) = Lφ (e−φ gn ) dν → ν(f (A)).

Como o lado esquedo também converge para A λe−φ dν, concluimos que

ν(f (A)) = λe−φ dν,
A
terminando a prova do lema.
Lembre-se que B
(n, x) denota a bola dinâmica de raio e tamanho n cen-
trada em x, como definida em 7.19 e Sn φ(x) = φ(x) + · · · + φ(f n−1 (x)).
Enunciaremos agora o principal teorema deste capı́tulo, devido a Ruelle ([]),
generalizando o teorema 9.3 do Capı́tulo 9:
Teorema 10.19. Seja f : M → M uma transformação expansora numa var-
iedade compacta conexa M e φ : M → R um potencial α-Hölder, para algum
ν > 0. Então, se ν denota uma medida conforme para φ, então
1. Existe uma única probabilidade invariante µφ absolutamente contı́nua com
respeito à ν;
2. µφ é o único estado de equilı́brio para (f, φ);

3. Além disso, µ é ergódica, o seu suporte coincide com M e vale a condição
de Gibbs: Existe K > 0 tal que para todo x ∈ M
µφ (B
(n, x))
K −1 ≤ ≤ K. (10.1)
eSn φ(x)−nP (φ)
Antes de iniciarmos a prova do Teorema 10.19 vamos fazer alguns comentários

a respeito de sua relação com Teorema 9.3.
A primeira observação é que o Teorema 9.3 é uma caso particular do Teo-
rema 10.19, tomando-se φ = − log | det Df . Neste caso, a pressão de φ é igual
a zero. Uma segunda observação é que a medida conforme ν, obtida como na
proposição 10.16,desempenha aqui o mesmo papel que a medida de Lebesgue
desempenha no Teorema 9.3.
Apesar disso, nosso conhecimento à priori da medida ν é mı́nimo, se re-
sumindo ao seu jacobiano e a fórmula de mudança de variáveis, obtidos no
Lema 10.18. Observe também que a conexidade do domı́nio M é um ingre-
diente indispensável para mostrar a unicidade de µφ . Além disso, seguirá da
prova do Teorema que a medida conforme é única, módulo multiplicação por
uma função.
O trabalho para mostrar o Teorema 10.19 seguirá o seguinte roteiro:
• Fixada uma medida conforme ν associada a um auto-valor λ de L φ ,
mostraremos que existe uma função contı́nua h tal que Lφ h = λh e além
disso, h(x) > 0, para todo x ∈ M ;
• Mostraremos que ν satisfaz a equação 10.1 com a constante P = log λ;
• Construiremos µφ = hν e mostraremos que µφ é invariante, satisfaz a
equação 10.1 e que µφ é o unico estado de equilı́brio para φ absolutamente
contı́nu com respeito à ν .
• Finalmente, mostraremos que qualquer estado de equilı́brio para φ é ab-
solutamente contı́nuo com respeito à ν.
Uma vez explicada a nossa linha geral de ação, vamos começar a construir os
alicerces para a prova do Teorema. A próxima proposição é fundamental para
nossa construção e é o análogo do Lema de distorção ( prop. 9.5), substituindo-
se o jacobiano com respeito à medida de Lebesgue pelo jacobiano da medida
ν.
Proposição 10.20. Existe uma constante A tal que para todos x, y ∈ M tais
que d(f n (x), f n (y)) < δ, então
Ad(f n (x), f n (y))−α ≤ Sn φ(x) − Sn φ(y) ≤ Ad(f n (x), f n (y))α .
Demonstração. Observe que como d(f n (x), f n (y)) < δ, segue-se pelo Lema 9.4
que
d(f n−i (x), f n−i (y)) < σ −i d(f n (x), f n (y)). (10.2)
Logo,

n−1
Sn φ(y) − Sn φ(x) ≤ φ(f i (x)) − φ(f i (y)) ≤
i=0

n−1
≤ σ −i d(f n (x), f n (y))α ≤ Ad(f n (x), f n (y))α
i=0
onde A é escolhido suficientemente grande.
Como uma consequência direta da proposição acima, podemos mostrar que:
Corolário 10.21. Existe uma constante K tal que para todos x, y ∈ M tais que
d(f n (x), f n (y)) < δ, então
Jν f n (x)
K2−1 ≤ ≤ K2 .
Jν f n (y)
Demonstração. Como Jν f (x) = λ−1 eφ(x) , segue-se diretamente da definição que
Jν f n (x) = λ−n eSn φ(x) .
Como d(f n (x), f n (y)) < δ, segue-se pelo Proposição 10.20 que
Jν f n (x)
= eSn φ(y)−Sn φ(x) ≤ eAd(f (x),f (y)) ,
n n α
n
Jν f (y)
Assim, nós só precisamos escolher K = eAD , onde D = δ α .
Tendo em mãos esses resultados, mostraremos agora a propriedade de Gibbs

para a medida conforme.
Lema 10.22. Se ν é uma medida satisfazendo a equação L φ ν = λν e é

pequeno, então tomando P = log λ e x pertence ao suporte de ν existe algum
número K > 0, dependendo somente de , tal que vale:
ν(B
(n, x))
K −1 ≤ ≤ K.
eSn φ(x)−nP
Demonstração. De fato, como f n |cB (n,x) é injetiva e Jν f (x) = λ−1 eφ(x) , temos
que Jµ f n = λ−n eSn φ(x) , onde

ν(f n (B
(n, x)) = Jν f n (y)dν(y).
B (n,x)
De acordo com a Proposição 2.3, o valor de Jµ f n num ponto qualquer y ∈

B
(n, x) difere do valor de Jν f n em x pela multiplicação por uma constante K,
que não depende de x ou n. Logo:
K2−1 ν(f n (B
(n, x)) ≤ Jµ f n (x)ν(B
(n, x)) ≤ K2 ν(f n (B
(n, x)).
Para concluir, como qualquer ramo inverso de f é uma contração, de acordo

com o que foi provado no lema 9.4, temos que f n (B
(n, x)) = f (Bδ (f n−1 (x)).
Assim, como f é um difeomorfismo local, podemos escolher γ independente de
n ou x suficientemente pequeno de modo que Bγ (f n (x)) ⊂ f n (B
(n, x)). Deix-
amos para o leitor a prova do seguinte fato (exercı́cio 10.6): Dado γ > 0, existe
a > 0 tal que ν(Bγ (x)) > a > 0 para todo x no suporte de ν. Assim, tomando
K = sup{K2 a, K2 }, P = log λ e observando que (Jµ f n (x))−1 = eSn φ(x)−nP
temos que
ν(B
(n, x))
K −1 ≤ S φ(x)−nP ≤ K,
e n
como queriamos provar.
Lema 10.23. Existe uma constante K > 0 such

Ln (x1 )
φ
n − 1 ≤ Kd(x1 , x2 )α
Lφ (x2 )
para todos x1 e x2 com d(x1 , x2 ) < δ. Em particular, existe A tal que para todos
x, y ∈ M :
Lnφ (x)
≤ A.
Lnφ (y)
Demonstração. Fixada uma pré-imagem y1 de x1 por f n , como d(x1 , x2 ) < δ

então temos que x2 tem uma única pré-imagem por f n na mesma bola dinâmica
de comprimento n+1 e raio δ, que iremos denotar por y2 . Pela proposição 10.20,
existe uma constante uniforme K tal que
−α
Aed(x1 ,x2 ) ≤ |eSn φ(y1 )−Sn φ(y2 ) | ≤ Aed(x1 ,x2 )
α
Então,
Sn φ(y1 )
−Ad(x1 ,x2 )α
Lnφ (x1 ) f n (y1 )=x1 e
≤ eAd(x1 ,x2 )
α
e ≤ n =
Lφ (x2 ) f (y2 )=x2
n e Sn φ(y2 )
Agora é suficiente observar que para todo x1 e x2 ,
|e±Ad(x1 ,x2 ) − 1| ≤ Kd(x1 , x2 )α

α
se K é escolhido suficientemente grande com respeito à A. O resto do lema é

imediato, cobrindo M por um número k de bolas de raio δ.
Para mostrar que Lφ admite alguma auto-função, mostraremos que a sequência

de funções λ−i Liφ 1 forma uma sequência limitada e equicontı́nua. Isso será o
trabalho dos dois próximos lemas:
Lema 10.24. A sequência de funções λ−n Lnφ 1 é limitada. Além disso, existe
c > 0 tal que λ−n Lnφ 1(x) > c > 0, para todo x ∈ M .

Demonstração. Observe que λ−n Lnφ 1 dν = 1. Logo, existem pontos zn e yn
tais que λ−n Lnφ 1(zn ) ≤ 1 e λ−n Lnφ 1(yn ) ≥ 1. De acordo com o Lema 10.23,
temos que para todo x ∈ M vale:
λ−n Lnφ (x) ≤ ALnφ (zn ) ≤ A
e
1 1
≤ λ−n Lnφ (yn ) ≤ Lnφ (x),
A A
o que termina a prova do Lema.
Lema 10.25. A sequência λ−n Lnφ 1 é equicontı́nua.
Demonstração. Para mostrar que sequência de funções λ−n Lnφ 1 é equicontı́nua,

observe que para todos x, y com d(x, y) < δ, pelo Lema 10.23:
λ−n Lnφ 1(x) − λ−n Lnφ 1(y)

≤ Kd(x, y)α
λ−n Lnφ 1(x)
ou seja,
λ−n Lnφ 1(x) − λ−n Lnφ 1(y) ≤ Kλ−n Lnφ 1(x)d(x, y)α .
Pelo lema 10.24, a sequência de funções λ−n Lnφ 1 é limitada uniformemente em
M . Utilizando esse fato na equação acima, acabamos a prova do Lema 10.25
Baseado nas informações obtidas sobre a sequência de funções λ−n Lnφ 1,

vamos agora mostrar que existe alguma auto-função h para o operador Lφ.
Primeiramente, observe que pelos lemas 10.24 e 10.25 a sequência λ−n Lnφ 1 é
limitada e equicontı́nua. Naturalmente, isso implica que a média dessas funções
1 −i i
n−1
hn = λ Lφ 1,
n i=0
ainda é uma sequência limitada e equicontı́nua. Como M é compacto, pelo

Teorema de Ascoli-Arzelá, segue-se que a sequência hn possui uma subsequência
hni convergindo uniformemente para uma certa função contı́nua h. Mostraremos
que esta função h é que h é de fato uma auto-função de Lφ .
Ora, se hni → h para uma certa subsequência ni ↑ ∞ então, como Lφ é

contı́nua
ni −1
1
Lφ h = lim Lφ hni = lim λ−k Lk+1
φ 1=
ni →∞ ni →∞ ni
k=0
nk −1
λ λ −(k) k
n−1
1 − λ−ni Lni 1
= lim λ−(k+1) Lk+1
φ 1 = lim λ Lφ 1 − .
ni →∞ ni ni →∞ n ni
k=0 k=0
Como λ−ni Lni 1 é uma sequência limitada, de acordo com o Lema 10.24, o
segundo termo da última igualdade acima vai para zero e o primeiro converge
para λh, provando que Lφ h = λh.
−nObserve ainda que, utilizando o fato que ν é uma medida conforme, que
λ i
Lni 1 dν = 1, para todo n ∈ N. Deste modo, segue-se diretamente
que
hn dν = 1 e como h lim hni , tomando o limite mostramos que h dν = 1.
Resumindo, mostramos que:
Proposição 10.26. Existe alguma função contı́nua h : M → R tal que:
1. Lφ h = λh;
2. h > 0;

3. h dν = 1.
Como a função h é contı́nua e não-negativa, podemos definir uma medida µ

por
µ(A) = h dν.
A
Da Proposição
10.26 vem que µ é uma medida de probabilidade, uma vez que
µ(M ) = h dν = 1. Observe também que como existe c > 0 tal que 1/c ≤ h ≤ c,
temos que para todo boreliano A ⊂ M , vale
c−1 ν(A) ≤ µ(A) ≤ ν(A)c. (10.3)
Além disso, a medida µ é invariante, como veremos no:
Lema 10.27. Sejam ν tal que L φ ν = λν e h uma função não-negativa sat-

isfazendo Lφ h = λh. Definindo µ por µ = hν, então temos que µ é uma
probabilidade f -invariante. Além disso, existe K tal que para todo x ∈ M e
n ∈ N vale:
µ(B
(n, x))
K −1 ≤ S φ(x)−nP ≤ K, (10.4)
e n
Demonstração. Para mostrar que µ é f invariante, de acordo com a Proposição ??
basta mostramos que para toda função contı́nua g : M → R vale:

g ◦ f dµ = g dµ.
Primeiro, observe que Lφ (g ◦ f h)(x) = g(x)Lφ h. Assim,

−1
g ◦ f dµ = g ◦ f h dν = λ g ◦ f h dL φ (ν) =

λ−1 Lφ (g ◦ f h) dν = λ−1 gLφ h dν = gh dν = g dµ.
A equação 10.4 vem diretamente da equação 10.3.

Vamos agora utilizar a equação 10.4 para calcular o valor de hµ (f ) + φ dµ.
Corolário 10.28. Se µ = hν construida anteriormente, então

hµ (f ) + φ dµ = P.
Demonstração. O Teorema de Brin-Katok afirma que a função h dada por

1
H(x) = − lim lim log µ(B
(n, x)),

→0 n→∞ n
está bem definida para µ quase todo x ∈ M , é µ-integrável e vale:

hµ (f ) = H dµ.
Observe que a equação 10.4 fornece que H(x) = − lim n1 Sn φ(x) + P . Sub-
n→∞
stituindo acima, vem que:

1
hµ (f ) = − lim Sn φ dµ + P.
n→∞ n
Logo, usando o Teorema de Birkhoff

1
hµ (f ) = − lim Sn φ dµ + P = − φ dµ + P,
n→∞ n
como era nosso intuito inicial.
Para completar a prova do Teorema 10.19 resta-nos duas tarefas. A primeira

delas é mostrar que de fato o número P na equação 10.4 é igual à P (φ),
mostrando que µ é um estado de equilı́brio e de Gibbs. Outra tarefa refere-
se à mostrar que µ é único. Faremos isso no seguinte lema :
Lema 10.29. Seja λ tal que existe ν e h com L φ ν = λν e Lφ h = λh. Então
λ = eP (φ) .
Na proposição a seguir utilizaremos o seguinte lema de cálculo:
Lema
n 10.30. Sejam pi , xi (i = 1, 2, . . . , n) números
n reais tais que pi > 0, xi > 0,
n
e i=1 pi = 1. Então i=1 pi log xi ≤ log( i=1 pi xi ) e a igualdade acontece
se, e só se, os números xi são iguais.
Deixaremos como exercı́cio para o leitor (exercı́cio ??) a prova deste fato.
Proposição 10.31. Vale o seguinte:
1. P = P (f, φ);
2. Se η é um estado de equilı́brio para φ, então L φ (h−1 η) = λh−1 η.
Demonstração. Defina g : M → (0, ∞) por
h(x)
g(x) = λ−1 eφ(x) ,
h(f (x))
e seja gη = (Jη f )−1 . Observe que:

f (y)=x e
φ(y)
h(y) Lφ h(x)
g(y) = = =1 (10.5)
λh(x) λh(x)
f (y)=x
Vamos mostrar que g = gη para η-quase todo ponto. Primeiramente, usando

a definição de g segue que hη (f ) + g dη ≥ 0, pois:

hη (f ) + log gdη = hη (f ) − log λ + (φ + log h − log h ◦ f ) dη ≥ 0.

Usaremos agora o fato que hη (f ) = log Jη f dη. O roteiro para a prova
desse fato está no exercı́cio ??. Combinando a fórmula anterior para a entropia
de η com a desigualdade acima:

g g(y)
0 ≤ log dη = gη (y) log dη,
gη gη (y)
f (y)=x
onde a segunda igualdade segue do fato que gη = 1/Jη f. De acordo com a

equação (10.5), a primeira afirmação do Lema 10.30 nos dá:
g(y) g(y)
0≤ gη (y) log ≤ log gη (y) = log g(y) = 0
gη (y) gη (y)
f (y)=x f (y)=x f (y)=x
em η-quase todo ponto. Uma vez em que a expressão

na esquerda é não-negativa,
segue-se a igualdade. Assim, temos que hη (f ) + φdη − log λ = 0, o que implica
log λ = P (f, φ)
Para mostrar que g = gη , observe que pela segunda afirmação no Lema 10.30
os valores de log g(y)/gη (y) são os mesmos para todos y ∈ f −1 (x). Em outras
palavras, para η-quase todo x ∈ M existe um número c(x) tal que
g(y)
= c(x) para todo y ∈ f −1 (x).
gη (y)
A hipótese de η ser invariante implica que

gη (x) = 1
f (y)=x
para η-quase todo x ∈ M . Combinando isso com (10.5), concluı́mos que

f (y)=x g(y)
c(x) = = 1.
f (y)=x gη (y)
Finalmente, vamos mostrar que L φ (h−1 η) = λh−1 η. Dada uma função

contı́nua ξ

−1 −1
ξ d(Lφ h η) = (Lφ ξ)(x)h(x) dη(x) = eφ(y) h(f (y))−1 ξ(y) dη(x).
f (y)=x
usando a definição de g e , temos que
eφ(y) h(f (y))−1 = λg(y)h(y)−1 = λgη (y)h(y)−1 .
Substituindo na fórmula anterior,

ξ d(L φ (h−1 η)) = λ log gη (y)ξ(y)h(y)−1 dη(x) = λ ξh−1 dη.
f (y)=x
Uma vez que ξ é arbitrário, temos que L φ (h−1 η) = λ(h−1 η), como afirmamos.
O lema a seguir mostra que duas medidas conformes são necessariamente

equivalentes:
Lema 10.32. Sejam ν1 e ν2 tais que L φ νi = λνi , para i = 1, 2. Então ν1 e ν2
são equivalentes.
Demonstração. Pela equação 10.1, dado x ∈ M e n ∈ N, temos que
A−1 ν2 (B
(n, x)) ≤ ν1 (B
(n, x)) ≤ Aν2 (B
(n, x)).
Como a sequência de coberturas
U
n = {U ; U é bola dinâmica de raio e comprimento n}
tem diâmetro decrescendo à zero, U

n é geradora. Deste modo, aproximando
por bolas dinâmicas, podemos estender a equação anterior para todo boreliano
A de M . Isso mostra que ν1 e ν2 são equivalentes.
Observando o que já mostramos no Lema 10.27, o Corolário 10.28 e a

Proposição 10.31, para finalizar a prova do Teorema 10.19, basta mostrar que
se η é um estado de equilı́brio, então η = µ, construido como no Lema 10.27.
Prova do Teorema 10.19. Suponha que η é um estado de equilı́brio ergódico
de φ e seja µ a medida construı́da como no Lema 10.27. De acordo com
a Proposição 10.31, denotando νη = h−1 η, temos que L φ νη = λνη . Pelo
Lema 10.32 νη e ν são equivalentes, o que implica que µ e η tambem são

equivalentes: η = ξµ, para alguma função µ-integrable ξ. Desde que η e µ
são invariantes,
η = f η = (ξ ◦ f )f µ = (ξ ◦ f )µ.
Como a derivada de Radon-Nikodym essencialmente única, temos que ξ = ξ ◦ f
em η-quase todo ponto. Observando
que η é ergódica, segue-se que ξ é constante.
Usando que 1 = η(M ) = dη = c dµ = c, nós temos que η = µ. Observe que
isso termina a prova, desde que qualquer componente ergódica de um estado de
equilı́brio também é um estado de equilı́brio.
10.4 Exercı́cios
10.1. Seja ν uma medida em M . Dado γ > 0, mostre que existe a > 0 tal que
ν(Bγ (x)) > a > 0 para todo x no suporte de ν.
10.2. Seja f : M → M uma transformação expansora e M uma variedade
conexa. Mostre que se uma
10.3. Seja f : M → M uma transformação tal que cada ponto admite somente
um número finito de pré-imagens. Mostre que Jµ f existe para toda medida
invariante µ.
10.4. Seja µ uma medida e Jµ f seu jacobiano. Mostre que se f n |A é injetiva,
então

n−1
Jµ f n (x) = Jµ f (f i (x)).
i=0
10.5. Seja f uma transformação expansora e µ uma medida invariante. Mostre

que para µ-quase todo x existe n0 = n0 (x) e K = K(x) tais que se n > n0 então
K −1 < Jµ f n (x)µ(B
(n, x)) < K.
10.6. (Fórmula de Rokhlin) Seja f uma transformação expansora e µ uma

medida invariante. Mostre que:

hµ (f ) = log Jµ f dµ.
Dica: Use o exercı́cio 10.5 e o Teorema de Brin-Katok.

Capı́tulo 11
Aplicações em Teoria dos

Números
Neste capı́tulo apresentamos duas aplicações da Teoria Ergódica no domı́nio

da Teoria dos Números: o Teorema de S. Szemerédi [Sze75] sobre existência
de progressões aritméticas dentro de subconjuntos suficientemente “densos” do
conjunto Z dos números inteiros, e o teorema de H. Weyl [Wey16] sobre equidis-
tribuição da parte fracionária dos valores de funções polinomiais restritas a Z.
11.1 Teorema de Szemerédi

A nossa apresentação é inspirada por Furstenberg [Fur81], onde o leitor pode
encontrar muita informação adicional sobre este tema.
11.1.1 Densidade superior

Chamamos intervalo do conjunto Z dos números inteiros qualquer subconjunto
I da forma {n ∈ Z : a ≤ n < b}, para quaisquer a ≤ b em Z. O seu cardinal é
#I = b − a.
Definição 11.1. A densidade superior Ds (S) de um subconjunto S de Z é
#(S ∩ I)
Ds (S) = lim sup
#I→∞ #I
onde I representa qualquer intervalo em Z. Do mesmo modo se define a densi-

dade inferior Di (S), trocando limite superior por limite inferior.
Em outras palavras, Ds (I) é o maior número D tal que existe uma sequência
de intervalos Ij ⊂ Z tais que
#(S ∩ Ij )
#Ij → ∞ e →D
#Ij
124 CAPÍTULO 11. APLICAÇÕES EM TEORIA DOS NÚMEROS
e Di (S) é o menor número nessas condições. Note que 0 ≤ Di (S) ≤ Ds (S) ≤ 1.

No Exercı́cio 11.1 também veremos que Di (S) = Ds (Z \ S) para todo S ⊂ Z.
Exemplo 11.2. Seja S o conjunto dos números pares. Dado qualquer intervalo
I ⊂ Z, temos que #(S ∩ I) = #I/2 se o cardinal de I é par e #(S ∩ I) =
#(I ± 1)/2 se o cardinal de I é ı́mpar, onde o sinal ± é positivo se o menor
elemento de I é um número par, e é negativo caso contrário. Desta observação
segue, imediatamente, que Ds (S) = Di (S) = 1/2.
Exemplo 11.3. Seja S o seguinte subconjunto de Z:
{1, 3, 4, 7, 8, 9, 13, 14, 15, 16, 21, 22, 23, 24, 25, 31, 32, 33, 34, 35, 36, 42, . . .}.
Isto é, para cada k ≥ 1 incluı́mos em S um bloco de k inteiros consecutivos e

omitimos os k inteiros seguintes. Este conjunto contém intervalos com compri-
mento arbitrariamente grande. Portanto Ds (S) = 1. Por outro lado, o com-
plementar de S também contém intervalos com comprimento arbitrariamente
grande. Portanto, Di (S) = 1 − Ds (Z \ S) = 0.
Exemplo 11.4. Seja S o seguinte subconjunto de Z:
{1, 3, 4, 5, 6,9, 10, 11, 12, 14, 15, 16, 17, 18,
22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 42, . . .}.
Ou seja, para cada k ≥ 1 incluı́mos em S um bloco de k 2 inteiros consecutivos

e depois excluı́mos os k inteiros seguintes. Neste caso temos
#(S ∩ [1, 2, . . . , n])
lim = 1.
n→∞ n
Isto implica Ds (S) = 1. Mas, tal como no caso anterior, Di (S) = 0.
11.1.2 Enunciados
Nos anos 30, Erdös e Turan [ET36] conjecturaram que todo subconjunto de
Z com densidade superior positiva contém sequências aritméticas finitas com
comprimento arbitrariamente grande. Esta conjectura foi demonstrada por Sze-
merédi [Sze75], quase quatro décadas mais tarde:
Teorema 11.5 (Szemerédi). Se S é um subconjunto de Z com densidade
superior positiva, então para todo k ∈ N existem m ∈ Z e n ∈ N tais que m,
m + n, m + 2n, . . . , m + kn pertencem a S.
Em geral, não podemos esperar que S contenha progressões aritméticas com
comprimento infinito, como mostram os Exemplos 11.3 e 11.4.
A demonstração original do Teorema 11.5 usa argumentos combinatórios
bastante intrincados. No entanto, poucos anos depois Furstenberg [Fur77] deu
uma nova demonstração, utilizando idéias de Teoria Ergódica. Na verdade, ele
deduziu o Teorema 11.5 de uma generalização do Teorema 1.1 para famı́lias de
transformações que comutam entre si:
11.1. TEOREMA DE SZEMERÉDI 125
Teorema 11.6 (Recorrência Simultânea de Poincaré). Sejam fi : M →

M , i = 1, 2, . . . , k transformações que preservam uma probabilidade µ em M
e tais que fi ◦ fj = fj ◦ fi para todo i, j = 1, 2, . . . , k. Então, para qualquer
conjunto E ⊂ M tal que µ(E) > 0, existe algum n ≥ 1 tal que

µ E ∩ f1−n (E) ∩ f2−n (E) ∩ · · · ∩ fk−n (E) > 0.
Em outras palavras, este teorema afirma que existe algum tempo n tal que
os iterados de um subconjunto com medida positiva de pontos de E, por todas
as transformações fi , regressam a E simultaneamente nesse momento n.
A demonstração do Teorema 11.6 escapa ao âmbito deste texto. Mas, na
Seção 11.1.6, explicaremos porquê ele implica o Teorema 11.5. Além disso,
vamos discutir versões um pouco mais fracas destes resultados, que chamamos
teorema de van der Waerden e teorema de Recorrência Simultânea de Birkhoff,
respectivamente.
O teorema de van der Waerden [vdW27] afirma que dada qualquer partição
do conjunto Z num número finito de subconjuntos, algum desses subconjuntos
deve conter progressões aritméticas com comprimento arbitrariamente grande:
Teorema 11.7 (van der Waerden). Sejam S1 , S2 , . . . , Sq subconjuntos dois-

a-dois disjuntos de Z tais que S1 ∪ S2 ∪ · · · ∪ Sq = Z. Dado qualquer k ≥ 1 existe
algum Si que contém alguma progressão aritmética com comprimento k + 1. Em
particular, algum elemento Sj da partição contém progressões aritméticas com
comprimento arbitrariamente grande.
Na Seção 11.1.3 veremos que este resultado é uma consequência simples do

Teorema 11.5. Também veremos, na Seção 11.1.4, que ele pode ser deduzido da
seguinte extensão do Teorema 3.11:
Teorema 11.8 (Recorrência Simultânea de Birkhoff ). Seja M um espaço

métrico compacto e fi : M → M , i = 1, 2, . . . , k transformações contı́nuas tais
que fi ◦ fj = fj ◦ fi para todo i, j = 1, 2, . . . , k. Então existe algum x ∈ M e
alguma sequência nj → ∞ tal que
n
fi j (x) → x quando j → ∞, para todo i = 1, 2, . . . , k.
Em outras palavras, as trajetórias de x por todas as transformações recorrem

para x simultaneamente nos momentos nj .
Na Seção 11.1.5 veremos que o Teorema 11.8 é uma consequência simples
do Teorema 11.6. Aliás, como veremos na Seção 11.1.6, este último teorema
também implica o Teorema 11.5. Portanto, o diagrama a seguir resume as
relações lógicas entre os quatro enunciados, que serão discutidas nas próximas
seções:
T. Szemerédi 11.5 ⇐ T. R. S. Poincaré 11.6
⇓ ⇓
T. van der Waerden 11.7 ⇐ T. R. S. Birkhoff 11.8.
11.1.3 T. de Szemerédi implica T. van der Waerden

Seja S1 , S2 , . . . , SN uma partição finita de Z qualquer. De acordo com o
Exercı́cio 11.1, pelo menos um dos elementos Si da partição deve ter densidade
superior positiva. Aplicando o Teorema 11.5 a S = Si concluı́mos que ele contém
progressões aritméticas com comprimento arbitrariamente grande. Isto prova o
Teorema 11.7.
11.1.4 T. de Birkhoff implica T. de van der Waerden

Vamos começar por traduzir o Teorema 11.7 num enunciado sobre o desloca-
mento (“shift”) f : M → M no espaço M = {1, 2, . . . , q}Z das sequências bila-
terais com valores em {1, 2, . . . , q}. Observe que cada sequência α = (αn )n∈Z
em M define uma partição de Z em subconjuntos
Si = {n ∈ Z : αn = i}, i = 1, 2, . . . , q
e, reciprocamente, toda partição de Z em q subconjuntos determine uma se-

quência α ∈ M . Portanto, o teorema pode ser reformulado do seguinte modo:
para todo α ∈ M e todo k ≥ 1, existem m ∈ Z e n ≥ 1 tais que
αm = αm+n = · · · = αm+nk . (11.1)
Para provarmos este fato, vamos munir M da métrica d(β, γ) = θ−N (β,γ ) ,

N (β, γ ) = max N ≥ 0 : βn = γn para todo n ∈ Z com |n| < N ,
que foi definida no Exercı́cio 5.1, sendo θ um número qualquer em (0, 1). Note
que
d(β, γ) < 1 se e somente se α0 = β0 . (11.2)

Como o espaço métrico (M, d) é compacto, o fecho A = f n (α) : n ∈ Z da
trajetória de α é também um compacto, para a métrica induzida. Lembre que
o deslocamento f : M → M é definido por
f ((αn )n∈Z ) = (αn+1 )n∈Z . (11.3)
Consideremos as transformações f1 = f , f2 = f 2 , . . . , fk = f k definidas de

A em A. É claro que as fi comutam entre si. Portanto, podemos aplicar
o Teorema 11.8 e concluir desta maneira que existe σ ∈ A e uma sequência
nj → ∞ tal que
n
fi j (σ) → σ para todo i = 1, 2, . . . , k.
n
Observe que fi j = f i nj . Em particular, podemos fixar n = nj tal que os
iterados f n (σ), f 2n (σ), . . . , f kn (σ) estão todos a distância menor que 1/3 do
ponto σ. Logo, os pontos
σ, f n (σ), f 2n (σ), . . . , f kn (σ)

11.1. TEOREMA DE SZEMERÉDI 127
estão todos a distância menor que 2/3 uns dos outros. Então, como σ está
no fecho A da órbita de α, podemos encontrar m ∈ Z tal que f m (α) está tão
próximo de σ que os pontos
f m (α), f m+n (α), f m+2n (α), . . . , f m+kn (α)
estão a distância menor que 1 uns dos outros. Tendo em conta a observação
(11.2) e a definição (11.3) da transformação f , isto quer dizer que
αm = αm+n = · · · = αm+kn ,
como pretendı́amos provar. Isto completa a demonstração do teorema de van

der Waerden a partir do teorema de Recorrência Simultânea de Birkhoff.
De fato, a conclusão do Teorema 11.7 ainda vale para partições de subcon-
juntos finitos de Z, desde que sejam suficientemente grandes:
Teorema 11.9 (van der Waerden). Dados k ≥ 1 e q ≥ 2 existe N ≥ 1 tal

que, dada qualquer partição do intervalo {1, 2, . . . , N } em q subconjuntos, algum
desses subconjuntos contém progressões aritméticas com comprimento k + 1.
É fácil ver que o Teorema 11.9 implica o Teorema 11.7. No Exercı́cio 11.2
veremos que a recı́proca também é verdadeira.
11.1.5 T. de Poincaré implica T. de Birkhoff

Comecemos por lembrar (Exercı́cio 3.4) que se fi : M → M , i = 1, 2, . . . , k
são transformações contı́nuas num espaço métrico compacto que comutam en-
tre si, então existe alguma probabilidade invariante µ comum a todas essas
transformações.
Em seguida, observemos que o Teorema 11.6 tem a seguinte consequência:
Corolário 11.10. Sejam fi : M → M , i = 1, 2, . . . , k transformações que

preservam uma probabilidade µ em M e tais que fi ◦ fj = fj ◦ fi para todo
i, j = 1, 2, . . . , k. Então, para qualquer conjunto E ⊂ M tal que µ(E) > 0, e
n
para quase todo x ∈ E existe uma sequência nj → ∞ tal que fi j (x) ∈ E para
todo i = 1, . . . , k e todo j ≥ 1.
Deixaremos a prova desta proposição como exercı́cio para o leitor (Ex-

ercı́cio 11.6). Compare também com o Exercı́cio 1.1. Este corolário será útil
na:
Prova do Teorema de Recorrência Múltipla de Birkhoff. Considere uma base enu

merável de abertos Uj de M com o diâmetro de Uj indo a zero quando j ↑ ∞.
Seja µ alguma medida invariante simultaneamente para todos os fi (note que o
Exercı́cio 3.4 nos garante a existência de alguma destas medidas).
Para cada j representamos por Dj o conjunto dos pontos x ∈ Uj tais que
existe n > j tal que fin (x) ∈ Uj para todo i = 1, 2, . . . , k. Observe que de
acordo com o Corolário 11.10, o conjunto Uj \ Dj tem medida µ igual a zero,
uma vez que quase todo ponto retorna simutaneamente a Uj em algum momento.
Consequentemente, como {Uj }j∈N é uma cobertura de M , temos que o conjunto:
∞

D= Dm ,
n=1 m≥n
tem medida µ(D) = 1. Em particular, D = ∅.

Mostraremos que todo ponto x ∈ D é simultaneamente recorrente para as
transformações f1 , f2 , . . . , fk . Ora, se x ∈ D ⇒ x ∈ m≥n Dm para todo n ∈ N.
Logo, existe m ≥ n tal que x ∈ Dm . De acordo com a definição de Dm ,
existe algum nm > m tal que finm (x) ∈ Um para todo i = 1, 2, . . . , k. Logo,
d(x, finm (x)) → 0, uma vez que os pontos x e fimn (x) pertencem a Um e o
diâmetro de Um vai a zero quando m ↑ ∞. Isto encerra a prova do Teorema de
Recorrência Múltipla de Birkhoff.
11.1.6 Prova do Teorema de Szemerédi

Mostraremos nesta secção como deduzir o Teorema de Szemerédi (Teorema 11.5)
a partir do Teorema de Recorrência Simultânea (Teorema 11.6). Novamente,
utilizaremos o dicionário entre partições de Z e sequências de inteiros, como já
fizemos na prova do Teorema de Van der Waerden (Teorema 11.7).
Prova do Teorema de Szemerédi. Considere S um conjunto com densidade su-
perior positiva qualquer. Vamos associar a S uma sequência α = (αn )n∈Z ∈
M = {0, 1}Z definida por:
αn = 1 ⇔ n ∈ S.
Como S possui densidade superior positiva, existe c > 0 e uma sequência de
intervalos In = [an , bn ) de Z com lim #In = ∞ e tais que
#(S ∩ In )
Ds (S) = lim > c > 0.
#In →∞ #In
Considere o deslocamento f : M → M e defina o subconjunto A ⊂ M por
A = {y ∈ M ; y0 = 1}.
Note que o fato de f j (α) ∈ A equivale a dizer que αj = 1, ou seja, j ∈ S.
Resumindo,
f j (α) ∈ A ⇔ j ∈ S (11.4)
O conjunto A é um aberto e ao mesmo tempo um fechado de M , considerando
a topologia dada onde os cilindros são abertos, pois A é um cilindro de compri-
mento 1 em M e seu complementar é uma união de cilindros. Deste modo, tendo
em vista (11.4), mostrar que m + in ∈ S equivale a mostrar que f m+in (α) ∈ A.
Logo, para mostrar o Teorema de Szemerédi, basta provar que para todo k ∈ N
existem m ∈ Z e n ∈ N tais que
f m (α), f m+n (α), f m+2n (α), . . . , f m+kn (α) ∈ A.
11.2. TEOREMA DE WEYL 129
Para mostrar este fato, vamos definir a sequência µn de probabilidades em

M por:
bn −1
1
µn = δ i (11.5)
#In i=a f (α)
n
Como já vimos no Teorema 3.4, o conjunto das probabilidades M1 (M ) mu-

nido com a topologia fraca∗ é compacto. Assim, podemos garantir que alguma
subsequência µni converge para uma probabilidade µ de M . Para não carregar a
notação, vamos supor que a própria sequência µn converge para µ na topologia
fraca∗ . Observe que µ é uma probabilidade f -invariante, pois para toda função
contı́nua φ : M → R, vale
bn −1
1
φ ◦ f dµ = lim φ ◦ f dµn = lim φ(f i (α))
n→∞ n→∞ #In
i=an

φ(f (α)) − φ(f (α))
bn an
+ lim = lim φ dµn = φ dµ.
n→∞ #In n→∞
Para utilizar o Teorema de Recorrência Simultânea de Poincaré para o con-

junto A, precisamos mostrar inicialmente que µ(A) > 0. De fato, observe que
A é um conjunto fechado e aberto de M . Logo, pela Proposição 3.3 temos que
#(S ∩ In )
µ(A) ≥ µn (A) = lim > c > 0.
#In →∞ #In
Dado k ∈ N, considerando as funções f, f 2 , f 3 , . . . , f k (que claramente comutam

entre si) o Teorema de Recorrência Simultânea de Poincaré nos garante que
existe algum n ≥ 1 tal que

µ A ∩ f −n (A) ∩ f −2n (A) ∩ · · · ∩ fk−kn (A) > 0.
Em particular, como A é aberto, existe algum l tal que

µl A ∩ f −n (A) ∩ f −2n (A) ∩ · · · ∩ f −kn (A) > 0.
bl −1
Como µl = (1/#Il ) i=a l
δf i (α) , podemos garantir que pelo menos para algum
an ≤ m ≤ bl − 1, o ponto f m (α) pertence a A ∩ f −n (A) ∩ · · · ∩ f −kn (A). Assim,
f m+in (α) ∈ A, para i = 0, 1, . . . , k, como querı́amos provar.
11.2 Teorema de Weyl

Vamos descrever outra bela aplicação da Teoria Ergódica à Teoria dos Números,
devida a H. Weyl [Wey16]. Consideramos funções polinomiais
P (x) = a0 + a1 x + a2 x2 + · · · + ad xd ,
com coeficientes reais e grau d ≥ 1. Para cada inteiro positivo n, calculamos o

valor da função P em n e chamamos zn a parte fracionária do valor P (n) obtido.
De maneira mais formal,
zn = {P (n)} = P (n) − [P (n)]
onde {x} = parte fracionária e [x] = parte inteira de x. Observe que zn ∈ [0, 1)
para cada n. Mas podemos, igualmente, considerar que a sequência toma valores
no cı́rculo S 1 = R/Z, e faremos isso no que segue. Estamos interessados em
entender como se distribui a sequência zn no cı́rculo.
Definição 11.11. Dizemos que uma sequência xn ∈ S 1 é equidistribuı́da se

para qualquer função contı́nua ϕ : S 1 → R tem-se

1
n
lim ϕ(xj ) = ϕ(x) dx.
n→∞ n
j=1
Veremos no Exercı́cio 11.4 que isto equivale a dizer que, para todo intervalo
I ⊂ S 1 , a fração dos termos da sequência que estão em I é igual ao comprimento
m(I) desse intervalo.
Teorema 11.12 (Weyl). Se algum dos coeficientes a1 , a2 , . . . , ad é irracional

então a sequência zn = {P (n)} é equidistribuı́da.
Podemos, sem restrição, supor que o coeficiente ad é irracional. De fato, a

sequência zn sempre pode ser decomposta numa soma
zn = xn + yn , xn = {ad nd }, yn = {Q(n)}
onde Q(x) = a0 + a1 x + · · · + ad−1 xd−1 . Suponha que ad é racional, isto é, que
existem inteiros p e q tais que ad = p/q. Então a primeira parcela xn toma no
máximo q valores distintos. De fato esta sequência é periódica com perı́odo q:
p p d
xn+p = (n + q)d = n = xn para todo n ∈ Z.
q q
Por outro lado, a segunda parcela yn é do mesmo tipo que zn , exceto que o
polinômio Q que lhe está associado tem grau d − 1. Portanto, por indução no
grau, podemos supor que yn é equidistribuı́da. Mais que isso, podemos supor
que as subsequências
yqn+r = {Q(qn + r)}, n ∈ Z
são equidistribuı́das para todo r ∈ {0, 1, . . . , q−1}. Na verdade, estas sequências

podem ser escritas como ynq+r = {Qr (n)} para algum polinômio Qr com o
mesmo grau que Q (verifique), e portanto a hipótese de indução se aplica a
elas também. Destas duas observações segue que a soma zn também é equidis-
tribuı́da, porque cada uma das subsequências zqn+r , n ∈ Z é equidistribuı́da.
11.2.1 O caso afim

Para desenvolvermos alguma intuição sobre o problema, comecemos por con-
siderar o caso especial d = 1. Neste caso a função polinomial resume-se a
P (x) = a0 + a1 x. Estamos supondo que o coeficiente a1 é irracional. Consider-
emos a transformação
f : S1 → S1, f (θ) = θ + a1 mod Z.
Foi visto na Proposição 3.6 que esta transformação f admite uma única prob-
abilidade invariante, que é a medida de Lebesgue m. Consequentemente, dada
qualquer função contı́nua ϕ : S 1 → R, e dado qualquer ponto θ ∈ S 1 ,

1
n
lim ϕ(f j (θ)) = ϕ dm.
n→∞ n
j=1
Considere θ = a0 mod Z. Então, f j (θ) = a0 + a1 j mod Z = P (j) mod Z e

isto significa que podemos identificar zj = {P (j)} com a sequência dos iterados
f j (a0 ). Então a relação anterior dá

1
n
lim ϕ(zj ) = ϕ dm.
n→∞ n
j=1
Isto é precisamente o que significa dizer que zj é equidistribuı́da.
11.2.2 Ergodicidade
Vamos estender os argumentos acima para provar o caso geral do Teorema 11.8.
Seja Td o toro d-dimensional, isto é,
Td = Rd /Zd = S 1 × · · · × S 1 (d vezes).
Introduzimos a transformação f : Td → Td
f (θ1 , θ2 , . . . , θd ) = (θ1 + α, θ2 + θ1 , . . . , θd + θd−1 ), (11.6)
onde α é um número irracional que será escolhido mais tarde. Observe que f
preserva a medida de Lebesgue m em Td . Isto pode ser visto usando as idéias
da Seção 2.2: a derivada de f em cada ponto vem dada pela matriz
 
1 0 0 ··· 0 0
 1 1 0 ··· 0 0 
 
 0 1 1 ··· 0 0 
 
 ··· ··· ··· ··· ··· ··· 
0 0 0 ··· 1 1
cujo determinante é 1. Observe que a transformação f é invertı́vel.

Proposição 11.13. A transformação f é ergódica relativamente à medida de

Lebesgue no toro Td .
Demonstração. O método é análogo ao da Proposição 5.5, baseado em análise
de Fourier. Seja ϕ : Td → R uma função em L2 (m). Escrevemos

ϕ(θ) = an e2πin·θ
n∈Zd
onde θ = (θ1 , . . . , θd ), n = (n1 , . . . , nd ), n · θ = n1 θ1 + · · · + nd θd , e

|an | = |ϕ(θ)|2 dθ1 · · · dθd < ∞.
2
(11.7)
n∈Zd
Suponhamos que a função ϕ é invariante, isto é, ϕ ◦ f = ϕ em quase todo ponto.

Observe que

ϕ(f (θ)) = an e2πi(n1 (θ1 +α)+n2 (θ2 +θ1 )+···nd (θd +θd−1 ))
n∈Zd

= an e2πin1 α e2πiL(n)·θ
n∈Zd
onde L(n) = (n1 + n2 , n2 + n3 , . . . , nd−1 + nd , nd ). Portanto, a relação de

invariância ϕ ◦ f = ϕ se traduz por
an e2πin1 α = aL(n) para todo n ∈ Zd . (11.8)
Isto implica que an e aL(n) têm o mesmo valor absoluto. Por outro lado, a
relação de integrabilidade (11.7) implica que existe no máximo um número finito
de termos com um dado valor absoluto não-nulo. Concluı́mos que an = 0 para
todo n ∈ Zd cuja órbita Lj (n), j ∈ Z seja infinita. Observando a expressão de
L deduzimos que an = 0 exceto, possivelmente, se n2 = · · · = nd = 0. Além
disso, para os valores de n restantes, ou seja, para n = (n1 , 0, . . . , 0), tem-se que
L(n) = n e portanto a relação (11.8) torna-se
an = an e2πin1 α .
Como α é irracional, o último fator é diferente de 1 sempre que n1 é não-nulo.

Portanto esta relação dá que an = 0 também para n = (n1 , 0, . . . , 0) com n1 = 0.
Deste modo, mostramos que se ϕ é uma função invariante então todos os termos
da sua expansão de Fourier se anulam exceto, possivelmente, o termo constante.
Isto mostra que ϕ é constante, e isso prova que f é ergódica.
11.2.3 Unicidade ergódica

O próximo passo da demonstração do Teorema 11.12 é a seguinte
Proposição 11.14. A transformação f é unicamente ergódica, isto é, a medida
de Lebesgue no toro é a sua única medida invariante.
Demonstração. A demonstração será por indução no grau d do polinômio P . O

caso de grau 1 já foi tratado na Seção 11.2.1, portanto só precisamos explicar
como o caso de grau d pode ser deduzido do caso de grau d − 1. Para isso,
escrevemos Td = Td−1 × S 1 e
f : Td−1 × S 1 → Td−1 × S 1 f (θ0 , η) = (f0 (θ0 ), η + θd−1 ) (11.9)
onde θ0 = (θ1 , . . . , θd−1 ) e f0 (θ0 ) = (θ1 + α, θ2 + θ1 , . . . , θd−1 + θd−2 ). Vamos
representar por π : Td → Td−1 a projeção π(θ) = θ0 . Por indução, a trans-
formação
f0 : Td−1 → Td−1
é unicamente ergódica. Para mostrar que f é unicamente ergódica só precisamos
mostrar que a medida de Lebesgue m é a sua única probabilidade invariante
ergódica.
Lema 11.15. Se µ é uma probabilidade invariante por f então a projeção π∗ µ
coincide com a medida de Lebesgue m0 em Td−1 .
Demonstração. Dado qualquer conjunto mensurável E ⊂ Td−1 ,
(π∗ µ)(f0−1 (E)) = µ(π −1 f0−1 (E)).
Usando π ◦ f = f0 ◦ π e o fato de que µ é f -invariante, se verifica que a expressão
do lado direito é igual a
µ(f −1 π −1 (E)) = µ(π −1 (E)) = (π∗ µ)(E).
Portanto (π∗ µ)(f0−1 (E)) = (π∗ µ)(E) para todo subconjunto mensurável E, ou
seja, π∗ µ é probabilidade f0 -invariante. Como supomos que f0 é unicamente
ergódico, segue que π∗ µ coincide com a medida de Lebesgue m0 em Td−1 .
Agora suponhamos que µ é ergódica. Pelo Teorema de Birkhoff 4.2, o con-
junto Gµ dos pontos θ ∈ Td tais que

1
n−1
lim ϕ(f j (θ)) = ϕ dµ para toda função contı́nua ϕ : Td → R (11.10)
n j=0
tem medida total. Seja G0 (µ) o conjunto dos θ0 ∈ Td−1 tais que G(µ) intersecta
{θ0 }×S 1 . Em outras palavras, G0 (µ) = π(Gµ ). É claro que π −1 (G0 (µ)) contém
Gµ e portanto tem medida µ igual a 1. Logo, usando o Lema 11.15,
m0 (G0 (µ)) = µ(π −1 (G0 (µ))) = 1.
Em particular, isto vale para a medida de Lebesgue:
m0 (G0 (m)) = m(π −1 (G0 (m))) = 1.
Uma consequência direta destas relações é que a intersecção de G0 (µ) e G0 (m)
tem medida m0 total e, portanto, estes conjuntos não podem ser disjuntos. Seja
θ0 um ponto qualquer na intersecção. Por definição, G(µ) intersecta {θ0 } × S 1 .
Mas o próximo resultado afirma que G(m) contém {θ0 } × S 1 :
Lema 11.16. Se θ0 ∈ G0 (m) então {θ0 } × S 1 está contido em G(m).
Demonstração. A observação crucial é que a medida m é invariante por toda a

transformação da forma
Rβ : Td−1 × S 1 → Td−1 × S 1 , (ζ, η) → (ζ, η + β).
A hipótese θ0 ∈ G0 (m) significa que existe algum η ∈ S 1 tal que (θ0 , η) ∈ G(m),
ou seja,

1
n−1
lim ϕ(f j (θ0 , η)) = ϕ dm
n j=0
para toda função contı́nua ϕ : Td → R. Qualquer outro ponto de {θ0 } × S 1

pode ser escrito como (θ0 , η + β) = Rβ (θ0 , η) para algum β ∈ S 1 . Recordando
(11.6), vemos que

f Rβ (τ0 , ζ) = (τ1 + α, τ2 + τ1 , . . . , τd−1 + τd−2 , ζ + β + τd−1 ) = Rβ f (τ0 , ζ)
para todo (τ0 , ζ) ∈ Td−1 × S 1 . Logo, por indução,

f j (θ0 , η + β) = f j Rβ (θ0 , η) = Rβ f j (θ0 , η)
para todo j ≥ 1. Portanto, dada qualquer função contı́nua ϕ : Td → R,
1 1
n−1 n−1
lim ϕ(f j (θ0 , η + β)) = lim (ϕ ◦ Rβ )(f j (θ0 , η))
n j=0 n j=0

= (ϕ ◦ Rβ ) dm = ϕ dm.
Isto prova que (θ0 , η + β) está em Gm para todo β ∈ S 1 , conforme afirmado.
Segue do que dissemos até agora que G(µ) e G(m) se intersectam em algum
ponto de {θ0 } × S 1 . Tendo em vista a definição (11.10), isto implica que as
duas medidas têm a mesma integral para cada função contı́nua. De acordo
com o Teorema de Riesz-Markov 3.7, isto implica que µ = m, como querı́amos
demonstrar.
Corolário 11.17. A órbita de todo ponto θ ∈ Td é equidistribuı́da no toro: para

toda função contı́nua ψ : Td → R tem-se

1
n−1
lim ψ(f j (θ)) = ψ dm.
n j=0
Demonstração. Isto é uma consequência imediata da Proposição 11.14 e da

Proposição 3.7.
11.2.4 Demonstração do Teorema de Weyl

Para completarmos a demonstração do Teorema 11.12, introduzimos os polinô-
mios definidos por pd (x) = P (x) e
pj−1 (x) = pj (x + 1) − pj (x) for j = 2, . . . , d. (11.11)
Lema 11.18. 1. O polinômio pj (x) tem grau j, para todo 1 ≤ j ≤ d.
2. p1 (x) = αx + β onde α = ad d! é irracional.
Deixamos a demonstração deste lema para o Exercı́cio 11.5.
Lema 11.19. Para todo n ≥ 0,

f n p1 (0), p2 (0), . . . , pd (0) = p1 (n), p2 (n), . . . , pd (n) .
Demonstração. A demonstração será por indução em n. Como o caso n = 0 é

óbvio, só precisamos tratar do passo indutivo. Lembre que f foi definida em
(11.6). Se
f n−1 (p1 (0), p2 (0), . . . , pd (0)) = (p1 (n − 1), p2 (n − 1), . . . , pd (n − 1))
então f n (p1 (0), p2 (0), . . . , pd (0)) é igual a
(p1 (n − 1) + α, p2 (n − 1) + p1 (n − 1), . . . , pd (n − 1) + pd−1 (n − 1)).
Usando a definição (11.11) e o Lema 11.18, obtemos que esta expressão é igual
a
(p1 (n), p2 (n), . . . , pd (n)),
e isto prova o lema.
Finalmente, estamos prontos para provar que a sequência zn = {P (n)} é

equidistribuı́da, conforme afirma o Teorema 11.12. Seja ϕ : S 1 → R uma função
contı́nua qualquer. Considere ψ : Td × R definida por
ψ(θ1 , θ2 , . . . , θd ) = ϕ(θd ).
Fixemos θ = (p1 (0), p2 (0), . . . , pd (0)). Usando o Lema 11.19 e o Corolário 11.17,

1 1
n−1 n−1
lim ϕ(zn ) = lim ψ(f n (θ)) = ψ dm = ϕ dx.
n j=0 n j=0
Isto termina a demonstração do Teorema 11.12.

11.3 Exercı́cios
11.1. Prove que
1. Di (S) = Ds (Z \ S) para qualquer subconjunto S de Z.
2. Se S1 , S − 2, . . . , SN é uma partição de Z então
Ds (S1 ) + Ds (S2 ) + · · · + Ds (SN ) ≥ 1.
11.2. Deduza o Teorema 11.9 a partir do Teorema 11.7.

11.3. Mostre que dadas quaisquer transformações contı́nuas fi : M → M ,
i = 1, 2, . . . , k num espaço métrico compacto M , tais que fi ◦ fj = fj ◦ fi para
todo i, j = 1, 2, . . . , k, existe alguma medida de probabilidade µ que é invariante
por todas essas transformações.
11.4. Mostre que uma sequência xn é equidistribuı́da se e somente se, dado
qualquer intervalo I ⊂ [0, 1], tem-se
1
lim #{j = 1, 2, . . . , n : xj ∈ I} = m(I)
n→∞ n
onde m representa a medida de Lebesgue em [0, 1].
11.5. Demonstre o Lema 11.18.
11.6. Sejam fi : M → M , i = 1, 2, . . . , k transformações que preservam uma
probabilidade µ em M e tais que fi ◦ fj = fj ◦ fi para todo i, j = 1, 2, . . . , k.
Então, para qualquer conjunto E ⊂ M tal que µ(E) > 0, e para quase todo
n
x ∈ E existe uma sequência nj → ∞ tal que fi j (x) ∈ E para todo i = 1, . . . , k
e todo j ≥ 1.
Capı́tulo 12
Resultados em Teoria
Ergódica Diferenciável
12.1 Fluxos geodésicos
12.2 Hiperbolicidade não-uniforme

Nesta seção enunciar sem provas alguns resultados centrais da Teoria Ergódica
diferenciável. Para os interessados em suas provas, recomendamos a leitura de
[Mañ87].
Definição 12.1. Seja f : M d → M d um difeomorfismo da variedade M . Um

ponto x ∈ M é dito regular se existe números λ1 < λ2 · · · < λl (x) e uma
decomposição E1 (x) ⊕ · · · ⊕ El (x) = Tx M tal que em cada subespaço Ei vale:
1
lim log Df n (x)v = λi (x),
n→±∞ n
para todo v ∈ Ei (x).
Denotaremos por Λ o conjunto dos pontos regulares. O números λi (x) são

chamados os expoentes de Lyapunov de x e dimEi (x) é a multiplicidade de λi (x).
Observe que se x é regular, então f n (x) é regular e seus expoentes coincidem
com os expoentes de x. Para ver isso, basta definir Ei (f n (x)) = Df n (x)Ei (x).
Vale o seguinte teorema:
Teorema 12.2 (Oseledets). Seja f um difeomorfismo C 1 de uma variedade

compacta M . Então µ(Λ) = 1 para toda medida invariante µ. Ou seja, o
conjunto dos pontos regulares é um conjunto com medida µ total. Além disso:
1. Se µ é ergódica, então l(x) e λ1 (x), . . . , λl (x) são constantes para µ-quase

todo ponto x ∈ M.
138CAPÍTULO 12. RESULTADOS EM TEORIA ERGÓDICA DIFERENCIÁV

l
2. log | det Df (x)|dµ(x) = (x)λi (x)dµ(x).
i=0
Definiremos a função χ : Λ → R por

χ(x) = lim λi (x)dimEi (x).
λi (x)>0
Então,
Teorema 12.3 (desigualdade de Ruelle). Se µ é uma medida invariante

para um difeomorfismo (ou endomorfismo) C 1 de uma variedade compacta M ,
então:
hµ (f ) ≤ χ(x)dµ(x).
Teorema 12.4 (fórmula de Pesin). Se µ é uma medida invariante absoluta-

mente contı́nua com respeito à medida de Lebesgue para um difeomorfismo (ou
endomorfismo) C 1+α de uma variedade compacta M , então:

hµ (f ) = χ(x)dµ(x).
12.3 Exercı́cios
Bibliografia
[BK83] M. Brin and A. Katok. On local entropy. In Geometric dynamics

(Rio de Janeiro, 1981), volume 1007 of Lecture Notes in Math., pages
30–38. Springer, 1983.
[Cas04] A. A. Castro. Teoria da medida. Projeto Euclides. IMPA, 2004.
[ET36] P. Erdös and P. Turán. On some sequences of integers. J. London.

Math. Soc., 11:261–264, 1936.
[Fal90] K. Falconer. Fractal geometry. John Wiley & Sons Ltd., 1990. Math-
ematical foundations and applications.
[Fer02] R. Fernandez. Introdução à teoria da medida. Projeto Euclides. IMPA,

2002.
[Fur77] H. Furstenberg. Ergodic behavior and a theorem of Szemerédi on

arithmetic progressions. J. d’Analyse Math., 31:204–256, 1977.
[Fur81] H. Furstenberg. Recurrence in ergodic theory and combinatorial num-

ber theory. Princeton Univertsity Press, 1981.
[Mañ87] R. Mañé. Ergodic theory and differentiable dynamics. Springer Verlag,

1987.
[Orn70] D. Ornstein. Bernoulli shifts with the same entropy are isomorphic.
Advances in Math., 4:337–352 (1970), 1970.
[Rok66] V.A. Rokhlin. Selected topics from the metric theory of dynamical
systems. A. M. S. Transl., 49:171–240, 1966. Transl. from Uspekhi
Mat. Nauk. 4 - 2 (1949), 57–128.
[Rud87] W. Rudin. Real and complex analysis. McGraw-Hill, 3 edition, 1987.
[Sze75] S. Szemerédi. On sets of integers containing no k elements in arith-

metic progression. Acta Arith., 27:199–245, 1975.
[vdW27] B. van der Waerden. Beweis eibe Baudetschen Vermutung. Nieuw

Arch. Wisk., 15:212–216, 1927.
140 BIBLIOGRAFIA
[Wey16] H. Weyl. Uber die Gleichverteilungen von Zahlen mod Eins. Math.
Ann., 77:313–352, 1916.

Matematica Ercodica

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Matematica Ercodica

Enviado por

Direitos autorais:

Formatos disponíveis

Introdução à Teoria Ergódica

Krerley Oliveira e Marcelo Viana

Em termos simples, a Teoria Ergódica é a disciplina matemática que estuda

Em geral, uma medida µ diz-se invariante pela transformação f se

µ(E) = µ(f −1 (E)) para todo conjunto mensurável E ⊂ M. (2)

Heuristicamente, isto signiﬁca que a probabilidade de um ponto estar num dado

µ(E) = µ(f −t (E)) para todo mensurável E ⊂ M e todo t ∈ R. (3)

Porque medidas invariantes ?

Breve apresentação histórica

que as médias temporais de grandezas observáveis (funções) ao longo de órbitas

1 Departamento de Matemática, Universidade Federal de Alagoas, Campus A. C. Simões

s/n, 57072-090 Maceió, Brasil. krerley@mat.ufal.br.

0 Elementos de Teoria da Medida 1

1 Teorema de Recorrência de Poincaré 13

2 Exemplos de Medidas Invariantes 17

3 Existência de Medidas Invariantes 27

4 Teorema Ergódico de Birkhoﬀ 37

5.4 Teorema de decomposição ergódica . . . . . . . . . . . . . . . . . 56

10 Estados de Equilı́brio 105

11 Aplicações em Teoria dos Números 123

12 Resultados em Teoria Ergódica Diferenciável 137

Neste capı́tulo inicial recordamos algumas noções e resultados básicos da Teo-

0.1 Espaços mensuráveis

Observação. B também é fechada para intersecções enumeráveis: se Aj ∈ B

Deﬁnição 0.3. Um espaço mensurável é uma dupla (M, B) onde M é um

é também uma σ-álgebra (veja o Exercı́cio 0.1). Agora, dado um conjunto

0.2 Espaços de medida

A tripla (M, B, µ) é chamada espaço de medida. Quando µ(M ) = 1 dizemos que

A segunda propriedade na deﬁnição de medida é chamada a σ-aditividade.

para qualquer famı́lia ﬁnita A1 , . . . , AN ∈ B de subconjuntos disjuntos dois-a-

Exemplo 0.8. Seja M um conjunto e consideremos a σ-álgebra B = 2M . Dado

Em seguida apresentamos um resultado muito útil na construção de medidas.

Teorema 0.9 (Extensão). Seja B0 uma álgebra de subconjuntos de M e seja

Em geral, ao aplicar este resultado o mais difı́cil é veriﬁcar a σ-aditividade.

Teorema 0.10 (σ-aditividade). Seja B0 uma álgebra e seja µ0 : B0 → [0, +∞]

∞ toda a sequência A1 ⊃ · · · ⊃ Aj ⊃ · · · de conjuntos mensuráveis tal que

0.2.1 Medida de Lebesgue

µ0 (R) = |I1 | × · · · × |Id | .

Em seguida, consideramos a álgebra B0 dos subconjuntos de [0, 1]d da forma

e deﬁnindo, para cada subconjunto mensurável E,

Exemplo 0.12 (Medida de Volume em S 1 ). Considere a aplicação sobre-

Observe que a medida de qualquer aberto da reta é positiva, pois necessaria-

0.2.2 Medida produto no espaço das sequências

das sequências bilaterais (xi )∞

[m; Am , . . . , An ] = {(xi )i∈Z : xj ∈ Aj para m ≤ j ≤ n}.

Estes subconjuntos de M são chamados cilindros. A famı́lia B0 das uniões ﬁni-

Em seguida estendemos τ à álgebra B0 , estipulando que a imagem de qualquer

onde aj ∈ {1, . . . , d}. A medida µ é designada medida de Bernoulli deﬁnida por

0.3 Integração em espaços de medida

O espaço das funções mensuráveis possui diversas propriedades muito úteis.

Proposição 0.18. Sejam f1 , f2 funções mensuráveis e c1 , c2 ∈ R. Então

1. então (c1 f1 + c2 f2 )(x) = c1 f1 (x) + c2 f2 (x)

2. (f1 · f2 )(x) = f1 (x) · f2 (x)

3. max{f1 , f2 }(x) = max{f1 (x), f2 (x)}

Dizemos que uma função s : M → R é simples se existem constantes

onde XA é a função caracterı́stica do conjunto A, isto é, XA (x) é igual a 1 se

É fácil veriﬁcar que esta deﬁnição é coerente: se duas combinações lineares

Teorema 0.20. Seja f : M → [−∞, ∞] uma função mensurável. Então existe

lim sk (x) = f (x) para todo o x ∈ M.

Se f ≥ 0 então a sequência pode ser escolhida de modo que 0 ≤ s1 ≤ s2 ≤ · · · .

A demonstração deste teorema é proposta como Exercı́cio 0.16. Ele torna

Deﬁnição 0.21. Seja f : M → [0, ∞] uma função mensurável não-negativa.

onde s1 ≤ s2 ≤ . . . é uma sequência de funções simples crescentes para f , isto

0.7. Demonstre o Teorema 0.10. Dica: Dados ∞ quaisquer conjuntos disjuntos