Você está na página 1de 201

Análise para além de R

Roberto Imbuzeiro Oliveira1

17 de Março de 2018

1
IMPA, Rio de Janeiro, RJ, Brazil, 22430-040.
2
Conteúdo

I Os objetos fundamentais 5

1 Prólogo 7
1.1 Fatos sobre R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.1 Intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.2 Limites e convergência de sequências . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.3 Limites superior e inferior . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.4 Limites e convergência de séries . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.5 Limites de funções, continuidade, máximos e mı́nimos . . . . . . . . . . . . . . . . 11
1.1.6 Derivadas e integrais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2 Algumas funções especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2.1 A função exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2.2 A função logaritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2.3 As funções seno e cosseno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3 A desigualdade das médias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4 Mais um fato útil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2 Espaços vetoriais e normas 23


2.1 Um caso concreto: o espaço Rd . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.1.1 Operações em Rd e suas propriedades . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.1.2 Produto interno e a norma euclideana em Rd . . . . . . . . . . . . . . . . . . . . . 24
2.2 Definições gerais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2.1 O que é um espaço vetorial? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2.2 Funcionais lineares e normas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3 Mais exercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3 Espaços métricos, convergência e completude 35


3.1 Espaços métricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.1 A reta real como espaço métrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.1.2 Os números complexos como espaço métrico . . . . . . . . . . . . . . . . . . . . . 36
3.1.3 A métrica discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.1.4 Espaços vetoriais: normas nos dão métricas . . . . . . . . . . . . . . . . . . . . . . 36
3.1.5 Métricas induzidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2 Sequências, limites e completude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2.1 Convergência em Rd com as normas `p . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2.2 Convergência sob a métrica discreta . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3
3.2.3 Convergência em C(I, R) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3 Equivalência de métricas e normas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4 Mais exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

4 Funções e continuidade 47
4.1 Funções contı́nuas de X em R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.2 Funções Lipschitz e distâncias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.3 Funções contı́nuas sobre as funções contı́nuas . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.4 Funções contı́nuas de X em Rd . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.5 Transformações e funcionais lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.6 Transformações multilineares e tensores . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.6.1 Tensores em dimensão finita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.6.2 Alguns exemplos em dimensão infinita . . . . . . . . . . . . . . . . . . . . . . . . 58
4.7 Mais exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

5 Um interlúdio sobre curvas, derivadas e integrais 61


5.1 Uma teoria de funções contı́nuas de I em V . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.2 Continuidade uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.3 Derivadas e a desigualdade do valor médio . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.4 Integração . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.5 O teorema fundamental do Cálculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.6 Mais exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

II Topologia e geometria em espaços métricos 69

6 Abertos e fechados 71
6.1 Os abertos formam uma topologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.2 Fechados, limites e métricas equivalentes . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
6.3 Fechos, interiores e pontos de acumulação . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.4 Continuidade, abertos e fechados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.5 Topologia relativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.6 Como são os abertos de R? (Opcional) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.7 Mais exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

7 Compacidade 81
7.1 Compactos são completos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
7.2 Compactos são totalmente limitados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7.3 Subsequências convergentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
7.4 Critérios topológicos para a compacidade . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
7.5 Subconjuntos de um espaço métrico completo . . . . . . . . . . . . . . . . . . . . . . . . . 88
7.6 Compactos de Rd e a equivalência de normas . . . . . . . . . . . . . . . . . . . . . . . . . 89
7.7 Consequências para funções contı́nuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
7.7.1 Novos espaços de funções contı́nuas . . . . . . . . . . . . . . . . . . . . . . . . . . 90
7.7.2 Continuidade uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
7.8 Conjuntos perfeitos (opcional) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

4
7.9 Mais exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

8 Caminhos e conexidade 97
8.1 Conexidade por caminhos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
8.2 Conexidade topológica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
8.3 Quando as definições concordam? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
8.3.1 Discordância em R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
8.3.2 Concordância para abertos de espaços vetoriais . . . . . . . . . . . . . . . . . . . . 103
8.4 Mais exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

III Mais sobre os espaços de funções contı́nuas 105

9 Sequências e séries de funções 107


9.1 Séries de funções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
9.1.1 Somando séries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
9.1.2 Tomando derivadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
9.2 Mais exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

10 Subconjuntos densos de C(K, R): o teorema de Stone-Weierstrass 113


10.1 O teorema geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
10.1.1 Prova do teorema de Stone-Weierstrass . . . . . . . . . . . . . . . . . . . . . . . . 115
10.1.2 Prova do Lema Fundamental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

11 Compacidade em C(K, Y ) e o método de Euler para resolver equações diferenciais 121


11.1 O teorema de Ascoli-Arzèla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
11.2 O método de Euler e a existência de soluções para EDOs . . . . . . . . . . . . . . . . . . . 123
11.2.1 Localização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
11.2.2 A aproximação de Euler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
11.2.3 O problema em forma integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
11.2.4 Aproximações de Euler são pontos quase-fixos . . . . . . . . . . . . . . . . . . . . 126
11.2.5 Fim da demonstração . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

IV Cálculo diferencial para além de R e C 129

12 Derivar em dimensão maior que 1 131

13 Um curso relâmpago de Álgebra Linear 133


13.1 Combinações lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
13.2 Conjuntos geradores, l.i. e bases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
13.3 O teorema fundamental da dimensão finita . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
13.4 Transformações lineares e dimensão finita . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
13.5 Relação com os espaços euclideanos Rd . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
13.6 Normas e transformações lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

5
14 A derivada como transformação linear 141
14.1 A definição de derivada de Fréchet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
14.1.1 Derivadas direcionais, suas vantagens e problemas . . . . . . . . . . . . . . . . . . 142
14.2 Alguns casos simples da derivada de Fréchet . . . . . . . . . . . . . . . . . . . . . . . . . . 143
14.2.1 Quando o domı́nio está na reta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
14.2.2 Derivadas envolvendo funções lineares . . . . . . . . . . . . . . . . . . . . . . . . 144
14.2.3 A derivada quando V tem dimensão finita e W = R . . . . . . . . . . . . . . . . . 144
14.2.4 O caso em que W tem dimensão finita . . . . . . . . . . . . . . . . . . . . . . . . . 146
14.3 Boas propriedades da derivada de Fréchet . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
14.3.1 A regra da cadeia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
14.3.2 A desigualdade do valor médio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
14.4 Derivadas mais complicadas de se calcular . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
14.4.1 Exemplos no espaço de operadores lineares . . . . . . . . . . . . . . . . . . . . . . 150
14.4.2 Um exemplo sobre as funções contı́nuas . . . . . . . . . . . . . . . . . . . . . . . . 153
14.5 Mais exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

15 Derivadas de ordem superior 159


15.1 Já sabemos definir, mas... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
15.2 Segunda derivada, transformações bilineares e simetria . . . . . . . . . . . . . . . . . . . . 160
15.2.1 Relação de L(V, L(V, W )) com transformações bilineares . . . . . . . . . . . . . . 160
15.2.2 A segunda derivada é bilinear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
15.2.3 Simetria da segunda derivada (quando contı́nua) . . . . . . . . . . . . . . . . . . . 163
15.2.4 Derivadas parciais de ordem 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
15.3 Derivadas de ordem maior que dois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
15.4 A fórmula de Taylor geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

16 Pontos fixos, funções inversas e funções implı́citas 169


16.1 O teorema do ponto fixo de Banach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
16.2 O teorema da função inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
16.3 O teorema da função implı́cita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

17 Esboço da teoria de subvariedades de Rd 179


17.1 Gráficos de funções: nosso primeiro exemplo . . . . . . . . . . . . . . . . . . . . . . . . . 179
17.2 Parametrizações que viram difeomorfismos . . . . . . . . . . . . . . . . . . . . . . . . . . 180
17.3 O espaço tangente e a dimensão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
17.4 Subvariedades definidas implicitamente . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
17.4.1 Exemplos de subvariedades definidas implicitamente . . . . . . . . . . . . . . . . . 185
17.4.2 Um resultado intermediário . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
17.4.3 Prova do Teorema 17.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
17.5 Mais sobre estrutura intrı́nseca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

V EDOs: unicidade e dependência suave das condições iniciais 191

18 Existência e unicidade para certas EDOs 193


18.1 Existência e unicidade globais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193

6
18.2 Existência e unicidade locais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
18.3 Diferenciabilidade local - esboço . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
18.4 Mais exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196

7
8
Parte I

Os objetos fundamentais

9
Capı́tulo 1

Prólogo

O objetivo deste curso será começar um estudo de Análise em espaços vetoriais e (de forma mais geral)
em espaços métricos. Por um lado, estes dois conceitos generalizam a reta real R. Por outro, fazer Análise
nestes espaços requer contas e resultados vindos do mundo unidimensional da reta real. Portanto, há dois
pré-requisitos fundamentais para nosso curso: um bom curso de Análise na Reta e outro bom curso de
Álgebra Linear. É possı́vel que alguns alunos sobrevivam sem um dos pré-requisitos, mas será basicamente
por conta própria: não poderemos parar para rever estes dois assuntos.
Nesta seção recordaremos alguns fatos e resultados importantes para tudo que vem a seguir.

1.1 Fatos sobre R


Toda a Análise que estudaremos neste curso é baseada no que você já sabe (ou deveria saber) sobre a reta
real. Nesta seção recordamos alguns fatos e resultados lá de Análise na Reta.

1.1.1 Intervalos
Lembre-se que um intervalo I ⊂ R é um conjunto da forma [a, b), (a, b], (a, b) ou [a, b] com a, b ∈ R ∪
{±∞}. Por convenção, o intervalo é vazio se a > b; além disso, só permitimos a, b = ±∞ quando a
extremidade correspondente do intervalo for aberta. Chamamos I de intervalo compacto se a, b 6= ±∞
e as suas duas extremidades são fechadas. Usaremos a notação R+ := [0, ∞). Usaremos muitas vezes o
resultado a seguir.

Exercı́cio 1.1 Um subconjunto S ⊂ R da reta é um intervalo se e somente se satisfaz a seguinte proprie-


dade: ∀x, y ∈ S : (x, y) ⊂ S.

1.1.2 Limites e convergência de sequências


Uma sequência de números reais {xn }n∈N ⊂ R converge a x ∈ R – ou xn → x, ou x = limn∈N xn – se,
dado qualquer ε > 0, podemos encontrar um n0 ∈ N tal que, para qualquer n ∈ N com n ≥ n0 , temos
|x − xn | < ε. Simbolicamente, podemos escrever isto da seguinte forma

“x = lim xn ” := “∀ε ∈ R+ ∃n0 ∈ N∀n ∈ N : n ≥ n0 ⇒ |x − xn | < ε.”


n∈N

11
É um exercı́cio conhecido mostrar que a definição não se altera quando trocamos |x − xn | < ε por
|x − xn | ≤ ε acima. Um outro resultado conhecido (que não vamos provar aqui) é que R é completo. Isto
é, uma sequência em R é convergente se e somente se é Cauchy, o que quer dizer:
∀ε ∈ R+ ∃n0 ∈ N∀n, m ∈ N : n, m ≥ n0 ⇒ |xm − xn | < ε.
Dado um subconjunto infinito N ⊂ N, N = {n1 < n2 < n3 < n4 < . . . }, a subsequência {xn }n∈N
é (por definição) igual à sequência {yk }k∈N dada por yk := xnk , k ∈ N. Podemos então falar do limite
limn∈N xn := limk∈N yk . Pode-se mostrar que
“x = lim xn ” := “∀ε ∈ R+ ∃n0 ∈ N ∀n ∈ N : n ≥ n0 ⇒ |x − xn | < ε.”
n∈N

Além disso, se uma sequência converge, toda subsequência sua converge ao mesmo limite. Nada impede,
aliás, de tomarmos subsequências de subsequências, como faremos algumas vezes abaixo.
Uma propriedade importante dos intervalos compactos I 6= ∅ é que toda sequência em I possui uma
subsequência convergindo a um ponto de I.

1.1.3 Limites superior e inferior


Podemos falar também dos limites superior e inferior de uma sequência {xn }n∈N ⊂ R.
lim sup xn := inf sup xn ∈ R ∪ {+∞}.
n∈N n∈N m∈N,m≥n

lim inf xn := sup inf xn ∈ R ∪ {−∞}.


n∈N n∈N m∈N,m≥n
temos lim inf xn ≤ lim sup xn , com igualdade se e somente se ∃ limn xn .

1.1.4 Limites e convergência de séries


série n an converge se existe limn→+∞ nj=0 aj .
P P
DadosP números a1 , a2 , . . . , an , · · · ∈ R, dizemos que aP
Caso n |an | convirja no sentido usual, dizemos que n an é absolutamente convergente. Pode-se provar
que, a convergência absoluta implica convergência usual. No entanto, a recı́proca não vale.
1/n < 1 são suficientes para garantir que
P As condições lim supn |an+1 |/|an | < 1 e lim supn |an |
n∈N an é absolutamente convergente. De fato, nos dois casos a prova da convergência absoluta se ba-
seia em progressões geométricas, ou seja, no fato que:
∞  1
1−ρ , 0 ≤ ρ < 1;
X
n
∀ρ ∈ R+ , ρ =
+∞, ρ ≥ 1.
n=0

O critério de Leibniz diz que uma série do tipo


X
(−1)n xn , com cada xn ∈ R+ ,
n∈N
P
converge se e somente se xn → 0. De modo geral, o fato de que n an converge implica que an → 0, mas
a recı́proca
P não vale.
P P
Se n∈N an e n∈N bn são absolutamente convergentes, o mesmo vale para n∈N (an + bn ) e além
disso: X X X
(an + bn ) = an + bn .
n∈N n∈N n∈N
Vamos utilizar algumas vezes o lema a seguir.

12
Lema 1.1 Suponha que n∈N an e n∈N bn são absolutamente convergentes. Então n∈N ( ni=0 ai bn−i )
P P P P
também é absolutamente convergente e vale a identidade:
n
! ! !
X X X X
ai bn−i = an bn .
n∈N i=0 n∈N n∈N

Prova: Definimos para cada k ∈ N

  
X X
Pk :=  ai   bj  ;
i≤k j≤k
k n k s
! !
X X X X
Hk := ai bn−i = ai bs−i .
n=0 i=0 s=0 i=0
P  P 
Por hipótese, sabemos que limk Pk = n∈N an n∈N bn . Além disso, as duas séries neste produto
são convergentes. Podemos ainda observar que as duas somas se parecem, no seguinte sentido:
 
2k 2k s
!
X X X X
Pk =  ai bj  = ai bs−i ξi,s,k ,
s=0 0≤i,j≤k : i+j=s s=0 i=0

onde 
1 se i ≤ k e s − i ≤ k;
ξi,s,k =
0 em caso contrário.
Começamos a prova com um caso particular do teorema.

Passo 1: se os ai e bj são não-negativos, então vale o teorema.

Note que, neste caso, {Hk }k∈N é uma sequência


P de
 somas
P parciais
 de uma série com termos não-
negativos. Se provarmos que ela converge a n∈N na b
n∈N n , garantimos automaticamente que a
série limk Hk converge absolutamente.
Basta, portanto, provar que limk Hk = limk Pk . Para fazer isto, observe primeiramente que todos os
termos da soma que define H2k , que é
2k s
!
X X
H2k = ai bs−i
s=0 i=0

aparecem na soma Pk multiplicados por ξi,s,k ∈ {0, 1}. Ou seja, Pk é a soma de alguns termos que
aparecem em H2k . Como todos estes termos são não-negativos, concluı́mos que Pk ≤ H2k . (Se o leitor
preferir, pode fazer um argumento mais algébrico:
2k s
!
X X
H2k − Pk = ai bs−i (1 − ξi,s,k ) ≥ 0
s=0 i=0

porque todas as quantidades do lado direito são não-negativas.)

13
Por outro lado, se s ≤ k e i ≤ s, ξi,s,k = 1 sempre. Segue que a soma que define Pk contem todos os
termos com ai bs−i com 0 ≤ i ≤ s ≤ k, além de alguns outros que são não-negativos. Concluı́mos que
k s
!
X X
Pk ≥ ai bs−i = Hk
s=0 i=0

e portanto Hk ≤ Pk ≤ H2k para todo k ∈ N.  


P P
Note agora que Pk converge a n∈N an n∈N bn . Além disso, como os ai e bj são todos ≥ 0,
{Hk } é crescente. Concluı́mos que Hk é limitada, portanto converge a um limite. Como {H2k }k∈N é uma
subsequência de {Hk }k , ela converge ao mesmo limite que a sequência inteira. Deduzimos:
! !
X X
lim Hk ≤ lim Pk = an bn ≤ lim H2k = lim Hk ,
k k k k
n∈N n∈N

ou seja, ! !
X X
lim Hk = an bn .
k
n∈N n∈N

Isto conclui o Passo 1.

Passo 2: estendendo a prova para ai e bj gerais.

Até agora trabalhamos supondo que ai , bj ≥ 0. Vamos agora ver o que acontece no caso geral. Usando
o Passo 1, vemos que
n
! ! !
X X X X
|ai | |bn−i | = |an | |bn | < +∞, (1.1)
n∈N i=0 n∈N n∈N
P P
já que, por hipótese, as séries n an e n bn são absolutamente convergentes. Concluı́mos que também
vale
n n
! ! ! !
X X X X X X
ai bn−i ≤ |ai ||bn−i | = |an | |bn | < +∞.



n∈N i=0 n∈N i=0 n∈N n∈N

Portanto, {Hk }k converge absolutamente. Por outro lado, seguindo o raciocı́nio de antes,

2k s
!
X X
|Pk − Hk | = ai bs−i (ξi,s,k − 1)


s=0 i=0
2k s
!
X X
≤ |ai | |bs−i ||ξi,s,k − 1|
s=0 i=0
2k s
!
X X
(|1 − ξi,s,k | ≤ 1 e vale 0 se s ≤ k) ≤ |ai | |bs−i |
s=k+1 i=0
∞ s
!
X X
≤ |ai | |bs−i |
s=k+1 i=0

14
O último termo acima é a cauda da série n ( si=0 |ai | |bs−i |), que aparece do lado esquerdo de (1.1).
P P
Como esta série converge, sua cauda vai a 0 e concluı́mos |Pk − Hk | → 0. Portanto,
! !
X X
lim Hk = lim Pk = an bm .
k k
n m

1.1.5 Limites de funções, continuidade, máximos e mı́nimos


Dado um intervalo I, uma função f : I → R e um ponto x ∈ R que é limite de pelo menos uma sequência
em I, dizemos que
lim f (y) = a
y→x

se para qualquer sequência {yn }n∈N ⊂ I\{x} com yn → x temos também f (yn ) → a. Dizemos que f é
contı́nua em x ∈ I se limy→x f (y) = f (x).
Se I é compacto, toda função contı́nua tem duas propriedades adicionais automaticamente. A primeira
é que ela atinge seus supremo e ı́nfimo: isto é,

∃xmin , xmax ∈ I ∀x ∈ I : f (xmin ) ≤ f (x) ≤ f (xmax ).

Em particular, f é limitada.
A segunda propriedade que temos sobre intervalos compactos é que f é limitada. Isto quer dizer que, se
definimos o módulo de continuidade de f :

mf (δ) := sup{|f (x) − f (y)| : x, y ∈ I, |x − y| ≤ δ} (δ ∈ R+ ),

então mf (δ) → 0 quando δ → 0.

Exercı́cio 1.2 Dê exemplos de funções contı́nuas sobre I aberto que não são limitadas ou uniformemente
contı́nuas.

1.1.6 Derivadas e integrais


Dados um intervalo I, pontos a, b ∈ I com a < b (e portanto [a, b] ⊂ I) e f : I → R, dizemos que f é
diferenciável em x ∈ I se
f (y) − f (x)
∃f 0 (x) := lim .
y→x y−x
O Teorema Fundamental do Cálculo nos diz que a derivada é a basicamente a operação inversa da Integral
definida:
Z x n−1  
x−aX i (x − a)
I(f )(x) := f (t) dt = lim f a+ .
a n→+∞ n n
i=0

Ou seja, I(f 0 )(t) = f (x) − f (a) e I(g)0 (x) = g(x).


Recordamos ainda que toda função diferenciável é contı́nua.

15
1.2 Algumas funções especiais
Neste capı́tulo recordamos alguns resultados fundamentais sobre quatro funções especiais: exponencial,
logaritmo, seno e cosseno. A ideia é provar algumas propriedades destas funções diretamente, sem recorrer
à teoria de diferenciação de séries de potência.

1.2.1 A função exponencial


Definimos a função exponencial através da série de potência usual.

+∞ n
X t
exp(t) := , t ∈ R. (1.2)
n!
n=0

Note que a definição acima faz sentido porque a série converge absolutamente para qualquer t ∈ R.
Pode-se verificar isto a partir do teste da razão:

|t|n+1 /(n + 1)! |t|


= → 0 quando n → +∞.
|t|n /n! n+1

Vemos ainda que exp(0) = 1.

Proposição 1.1 (Adição e produto) Dados quaisquer t, s ∈ R,

exp(t + s) = exp(t) exp(s).

Prova: Recorde a fórmula binomial:


n    
n
X n i n−i n n!
(t + s) = t s , onde = .
i i i! (n − i)!
i=0

Aplicando a fórmula termo a termo na série de exp(t + s), descobrimos que

+∞ ∞ n
!
X (t + s)n X X ti tn−i
exp(t + s) := = .
n! i! (n − i)!
n=0 n=0 i=0

Observe que isto tem a forma


∞ n
!
X X
ai bn−i ,
n=0 i=0

onde an = tn /n! e bn = sn /n! para cada n ∈ N. Como n


P
n t /n! converge absolutamente a exp(t), e
analogamente para exp(s), deduzimos do Lema 1.1 que:
! !
X X
exp(t + s) = an bn = exp(t) exp(s).
n n

16
Proposição 1.2 exp0 (t) = exp(t) para cada t ∈ R.

Prova: Queremos mostrar que

exp(t + h) − exp(t)
Queremos: → exp(t) quando h → 0.
h
Usando o fato que exp(t + h) = exp(t) exp(h), observamos que o que queremos equivale a:

(exp(h) − 1) exp(t)
Queremos (equivalente): → exp(t) para todo t,
h
e para isto basta provar que
exp(h) − 1
Basta: → 1.
h
Para tal, observe que

X hn
exp(h) − 1 = = h + R(h)
n!
n=1
com
X hn
R(h) = .
n!
n≥2

Como n! ≥ 1 sempre, podemos comparar a série de R(h) termo a termo com a série geométrica:

X |h|n X |h|2
∀|h| ≤ 1/2 : |R(h)| ≤ ≤ |h|n = .
n! 1 − |h|
n≥2 n≥2

Em particular, isto quer dizer que



exp(h) − 1 |R(h)| |h|
∀|h| ≤ 1/2
− 1 = ≤ .
h |h| 1 − |h|

Como o lado direito desta desigualdade tende a 0 quando h → 0, deduzimos que |(exp(h) − 1)/h − 1| → 0,
o que encerra a prova. 2

Proposição 1.3 exp(t) > 0 para todo t ∈ R.

Prova: Como exp é diferenciável, ela é contı́nua em todo R, em particular ao redor de t = 0. Como
exp(0) = 1, sabemos que existe um ε > 0 tal que exp(a) > 1/2 sempre que |a| < ε. Por outro lado, dado
t ∈ R qualquer, podemos encontrar um n ∈ N tal que |t/n| < ε, de modo que exp(t/n) > 1/2. Desta
forma, podemos aplicar a regra de “adição vira produto” para deduzir que
    n
t t 1
exp(t) = exp n = exp > n > 0.
n n 2
2

17
Proposição 1.4 exp é estritamente crescente. Além disso, limt→+∞ exp(t) = +∞ e limt→+∞ exp(−t) =
0.

Prova: As duas proposições anteriores implicam que exp tem derivada estritamente positiva em todo ponto
da reta. Portanto, exp é estritamente crescente. Em particular, isto quer dizer que há um a > 0 com
exp(a) = m > 1 = exp(0). Usando o raciocı́nio da proposição anterior, vemos que

exp(na) ≥ mn → +∞ quando n → +∞, já que m > 1.

Em particular, dado M > 0 existe um t ∈ R como exp(t) > M . Como exp é crescente, isto implica que
exp(t) → +∞ quando t → +∞.
Por outro lado, a regra de que adição vira produto implica que

1
exp(−t) = → 0 quando t → +∞.
exp(t)
2

Proposição 1.5 exp(R) = R+ \{0} Além disso, exp é uma bijeção entre domı́nio e imagem.

Prova: Já vimos que exp(t) ∈ R+ \{0} para todo t. Resta mostrar que, dado x ∈ R+ \{0}, existe um
único t com exp(t) = x. Veja que a unicidade segue do fato que exp é estritamente crescente. Para provar
existência, observe que, pela proposição anterior, certamente existem t− , t+ com exp(t− ) ≤ x ≤ exp(t+ )
(e necessariamente t− ≤ t+ , posto que exp é estritamente crescente). Como exp é diferenciável, ela é
contı́nua e o Teorema do Valor Intermediário nos diz que existe um t ∈ [t− .t+ ] com exp(t) = x. 2

1.2.2 A função logaritmo


Como exp : R → R+ \{0} é uma bijeção estritamente crescente, ela tem uma função inversa log :
R+ \{0} → R que também é uma bijeção estritamente crescente. Como a exponencial transforma soma
em produto, esta função, chamada de logaritmo, deve fazer o contrário.

Proposição 1.6 (Prova omitida) log(xy) = log x + log y para quaisquer x, y > 0.

Da mesma forma, como exp(t) → +∞ e exp(−t) → 0 quando t cresce, podemos provar que:

Proposição 1.7 (Prova omitida) log(x) → −∞ se x → 0 e log(x) → +∞ se x → +∞.

Agora calcularemos a derivada do logaritmo, provando, em particular, que ela existe.

Proposição 1.8 log0 (x) = 1/x para qualquer x > 0.

Prova: Fixo x > 0, devemos provar que

log(x + h) − log x 1
Queremos: lim = .
h→0 h x

18
Para isso, vamos fixar uma sequência {hn }n∈N com hn → 0 e min{hn , x + hn } > 0 para todo n. Nosso
objetivo é provar que, não importando qual sequência deste tipo escolhemos,

log(x + hn ) − log x 1
Queremos (equivalente): lim = .
h→0 hn x

Tome então t com exp(t) = x e tn com exp(tn ) = x + hn para cada n ∈ N. Afirmamos que,
obrigatoriamente, tn → t. Note que isto quer dizer que:

log(x + hn ) − log x tn − t 1 1
lim = lim = .
n→+∞ hn n→+∞ exp(tn ) − exp(t) exp(t) x

Portanto, se provarmos a afirmação, teremos encerrado a prova.


Para provar a afirmação, recorde que exp(tn ) = x + hn → x = exp(t). Tome ε > 0 e defina
a+ := exp(t + ε), a− := exp(t − ε). Como exp é estritamente crescente, a− < exp(t) < a+ , portanto
exp(tn ) ∈ (a− , a+ ) para todo n suficientemente grande. Usando novamente o fato que exp é estritamente
crescente, deduzimos que tε < tn < t + ε para todo n suficientemente grande. Como ε é arbitrário, isto
implica tn → t. 2

Observação 1.1 A mesma prova acima mostra que, se f é contı́nua e estritamente crescente, então sua
inversa tem as mesmas propriedades.

1.2.3 As funções seno e cosseno


Definimos agora duas novas funções via séries de potência (para t ∈ R).

+∞
X t2n
cos(t) := (−1)n
(2n)!
n=0

+∞
X t2n+1
sin(t) := (−1)n+1 .
(2n + 1)!
n=1

Repare que os termos destas séries são termos da série da exponencial, agora multiplicados por sinais
alternados. Podemos portanto usar uma comparação com a série da exponencial para provar que as duas
séries convergem.

Proposição 1.9 cos(t + s) = cos(t) cos(s) − sin(t) sin(s) e sin(t + s) = sin(t) cos(s) + cos(t) cos(s)
para todos t, s ∈ R.

Prova: Provaremos apenas a primeira identidade, já que a segunda é similar.


Usando um argumento parecido com a fórmula da exponencial:

+∞ +∞ 2n i
!
X (t + s)2n X
n
X t s2n−i
cos(t + s) = (−1) = (−1)n
(2n)! i! (2n − i)!
n=0 n=0 i=0

19
Em cada somatório interno podemos dividir os ı́ndices i entre os da forma 2j (com 0 ≤ j ≤ n) e os da
forma 2k + 1 (com 0 ≤ k ≤ n − 1). Temos, então
2n i n
X t s2n−i X (−1)j t2j (−1)n−j s2(n−j)
(−1)n =
i! (2n − i)! (2j)! (2(n − j))!
i=0 j=0
n−1
X (−1)k t2k+1 (−1)n−k s2(n−k)+1
+ .
(2k + 1)! (2n − 2k + 1)!
k=0

Deduzimos que cos(t + s) é igual a:


 
+∞ n j 2j n−j 2(n−j) n−1 k 2k+1 n−k 2(n−k)+1
X X (−1) t (−1) s X (−1) t (−1) s
 + .
(2j)! (2(n − j))! (2k + 1)! (2n − 2k + 1)!
n=0 j=0 k=0

Usando o Lema 1.1, podemos reconhecer os seguintes termos acima:


 
∞ n j 2j n−j 2(n−j)
X

X (−1) t (−1) s  = cos(t) cos(s)
(2j)! (2(n − j))!
n=0 j=0

e
∞ n−1
!
X X (−1)k t2k+1 (−1)n−k s2(n−k)−1
= − sin(s) sin(s),
(2k + 1)! (2n − 2k − 1)!
n=0 k=0

com convergência uniforme em ambos os casos. Como a soma destas séries para cos(t) cos(s) e − sin(t) sin(s)
é a série de cos(t + s), temos a identidade desejada. 2

Proposição 1.10 cos0 (t) = − sin(t) e sin0 (t) = cos(t).

Prova: Apenas esboçaremos a prova do primeiro fato acima, já que a segunda é similar. Veja que, dado
h 6= 0, podemos utilizar a identidade das somas acima para escrever
 
cos(t + h) − cos(t) cos(h) − 1 sin h
= cos(t) − sin t.
h h h

Seguindo a conta que fizemos para a exponencial, podemos mostrar que sin h/h → 1 (cos h − 1)/h → 1:
basta separar
sin h = h + resto da ordem |h|3 e cos h = 1 + resto da ordem |h|2 .
2

Proposição 1.11 sin2 (t) + cos2 (t) = 1 para todo t ∈ R.

Prova: Isto vale se t = 0 por inspeção. Além disso, sin2 (t) + cos2 (t) é constante:

(sin2 (t) + cos2 (t))0 = 2 sin(t) sin0 (t) − 2 cos(t) cos0 (t) = 0.

20
Proposição 1.12 Dados t, s ∈ R (cos t, sin t) = (cos s, sin s), implica cos(t − s) = 1, sin(t − s) = 0.

Prova: Pelas fórmulas para senos e cossenos de t + s

cos t = cos s ⇒ cos t = cos s cos(t − s) − sin(t − s) sin s.

sin t = sin s ⇒ sin t = sin s cos(t − s) + sin(t − s) cos s.


Escrevendo a := cos t = cos s, b := sin t = sin s, x = cos(t − s), y = sin(t − s), temos que

ax − by = a
bx + ay = b

Se a b 6= 0, o sistema acima tem como única solução x = 1, y = 0. Se a = 0, então b =


6 0 (já que
2 2
a + b = 1) e chegamos à mesma conclusão que x = 1, y = 0. O mesmo vale ainda se b = 0 (e portanto
a = 1). 2

Proposição 1.13 Existe um p > 0 tal que cos p = 0 e cos t > 0 para t ∈ [0, p). Temos também sin t = p e
0 < sin t < 1 para t ∈ [0, p) (No que segue, π := 2p).

Prova: Por um lado, cos 0 = 1. Por outro lado, temos:


22 24 26 24n 24n+2
cos 2 = 1 − + − + ··· + − + ....
2! 4! 6! (4n)! (4n + 2)!
2 4n 4n+2
Como 1 − 22! = 0 e (4n)!2 2
< (4n+2)! para n ≥ 1, temos que cos 2 < 0. Isto é, cos 0 > 0 > cos 2. O cosseno
é diferenciável e portanto contı́nuo; isto nos permite aplicar o Teorema do Valor Intermediário para provar
que existe um x ∈ (0, 2) com cos x = 0. Definimos então

p := inf{x ∈ (0, +∞) : cos x = 0}.

Note que p ≥ 0 está bem definido porque cos x = 0 para ao menos um x e o conjunto de x considerados
é limitado por baixo. Veja ainda que, como p = limn xn para alguma sequência {xn }n com cos xn = 0,
temos cos p = 0 e portanto p > 0. Mais ainda, não pode ser verdade que cos t = 0 para 0 ≤ t < p e isto
quer dizer que cos t não pode trocar de sinal neste intervalo. Ou seja cos t > 0 para 0 ≤ t < p.
Para terminar, observe que para 0 ≤ t < p, sin t é crescente (já que sua derivada é cos t), portanto
0 < sin t < 1. Em particular, como sin é contı́nuo, sin p > 0. Como cos p = 0 e portanto sin2 p = 1,
concluı́mos que sin p = 1. 2

Proposição 1.14 cos(t + p) = − sin(t) e sin(t + p) = cos t para todo t ∈ R. Portanto, os únicos pontos
onde cos t = 0 ou sin t = 0 são os múltiplos de p.

Prova: A primeira afirmação segue das fórmulas para cos(t + s) e sin(t + s) aplicadas a s := p.
Para a segunda, veja que podemos escrever qualquer t ∈ R na forma t = ±p n + a com 0 ≤ a < p e n ∈
N. Usando indução em n, podemos provar a partir da primeira parte que cos(±np + a) ∈ {± cos a, ± sin a}
para qualquer n ∈ N. Deduzimos que

cos t = 0 ⇔ cos a = 0 ou sin a = 0 ⇔ a ∈ {0, p} (pois a ∈ [0, p)) .

Portanto t = np ou t = (n + 1) p. O mesmo vale se sin t = 0. 2

21
Proposição 1.15 (cos t, sin t) = (cos s, sin s) se e somente se t − s é múltiplo inteiro de 2π.

Prova: A hipótese equivale a cos(t − s) = 1, sin(t − s) = 0. Pela proposição anterior, é necessário que
t − s = np seja múltiplo de p, com cos(np) = 1. No entanto, é fácil ver usando a proposição anterior que

cos(0) = 1, cos(±p) = 0, cos(±2p) = −1, cos(±3p) = 0,


cos(±4p) = 1, cos(±5p) = 0, cos(±6p) = −1, cos(±7p) = 0,
cos(±8p) = 1, cos(±9p) = 0, cos(±10p) = −1, cos(±11p) = 0 . . .

Portanto, para qualquer n ∈ Z cos(np) = 1 se e somente se n é divisı́vel por 4. 2

Proposição 1.16 A aplicação “t 7→ (cos t, sin t)” é uma bijeção entre [0, 2π) e o cı́rculo unitário:

S1 := {(x, y) ∈ R2 : x2 + y 2 = 1}.

Prova: Como cos2 t + sin2 t = 1, todo t é levado em S1 . Além disso, a aplicação é injetiva para t ∈ [0, 2π)
pela proposição anterior.
Para provar a sobrejetividade, fixamos (x, y) ∈ S1 para mostrar que existe um t0 ∈ [0, π/2] e um
m ∈ {0, 1, 2, 3} tal que

Queremos: (x, y) = (cos(t0 + mπ/2), sin(t0 + mπ/2)).

Verificamos que, como cos 0 = 1, cos(π/2) = 0 e cos é contı́nuo, existe um tx ∈ [0, π/2] com cos tx = |x|
e portanto sin tx = y (já que y 2 = 1 − x2 = 1 − cos2 t e sin t ≥ 0 para t ∈ [0, π/2]). Do mesmo modo, há
um ty ∈ [0, π/2] com cos ty = |y| e sin ty . Portanto, temos o seguinte:

1. Se x ≥ 0, y ≥ 0, (x, y) = (cos tx , sin tx ).

2. Se x < 0, y ≥ 0, observamos que

(x, y) = (− sin ty , cos ty ) = (cos(ty + π/2), sin(ty + π/2)).

3. Se x ≤ 0, y ≤ 0,
(x, y) = (cos(tx + π), sin(tx + π)).

4. Se x > 0, y ≤ 0, observamos que

(x, y) = (sin ty , − cos ty ) = (cos(ty + 3π/2), sin(ty + 3π/2)).

Portanto, provamos o que querı́amos em todos os quatro casos. 2

1.3 A desigualdade das médias


Encerramos este capı́tulo provando a conhecida desigualdade entre as médias aritmética e geométrica.

22
Teorema 1.1 (Desigualdade das médias aritmética e geométrica) Sejam α1 , . . . , αk números positivos com
soma 1. Dados t1 , . . . , tk ∈ R+ , temos a desigualdade:

k
Y k
X
tαi i ≤ αi ti .
i=1 i=1

Além disso, vale igualdade se e somente se t1 = t2 = · · · = tk .

Prova: O passo fundamental neste resultado é estabelecer o resultado para k = 2 e depois generalizá-lo por
indução.
Fixemos então k = 2. Para facilitar um pouco a notação, definimos x := tα1 1 , y = tα2 2 , p = 1/α1 ,
q = 1/α2 . Veja que x, y ≥ 0, p, q > 1 e (1/p) + (1/q) = 1. Desejamos provar que

xp y q
Queremos: ∀x, y ≥ 0 : xy ≤ + , com igualdade se e somente se xp = y q .
p q

Isto é trivial quando x = 0, logo vamos supôr x > 0. O que queremos, então, é equivalente a provar que:

Queremos (de forma equivalente): ∀x ∈ R+ \{0} :

yq xp
 
sup xy − = , atingido só quando y q = xp .
y∈R+ q p

Para provar esta propriedade, fixe x ∈ R+ \{0} e defina φx (y) := xy − y q /q, y ∈ R+ . Recordando que
q > 1, x > 0, vemos que φx é diferenciável e que
 1
 >0
 se y < x q−1 ;
1
0 q−1
φx (y) = x − y =0 se y = x q−1 ;

 1
<0 se y > x q−1 .

1
Segue que y∗ := x q−1 é o único máximo global da função φx . Note ainda que, como (1/p) + (1/q) = 1,
temos p = q/(q − 1) = 1 + 1/(q − 1), portanto y∗ é o único ponto com y∗q = xp .
Vamos calcular agora φx (y∗ ). A conta abaixo usa novamente o fato que p = q/(q − 1) = 1 + 1/(q − 1):
q
1
1+ q−1 x q−1 xp xp
φx (y∗ ) = x − = xp − = .
q q p

O que deduzimos então é o seguinte:

1. Como y∗ é máximo global de φx , vale que, para qualquer y ∈ R+ ,

yq xp
φx (y) = xy − ≤ φx (y∗ ) = .
q p

2. Além disso, apenas y∗ , que satisfaz y∗q = xp , atinge este máximo global.

23
Isto era exatamente o que querı́amos provar e encerra a demonstração para k = 2.
Vejamos agora a prova para k > 2. A ideia é fazer indução forte em k tomando k = 2 como base. Se
k > 2, defina novos expoentes
αi
βi := i = 1, 2, . . . , k − 1.
1 − αk
Observe que
k
Y
tαi i = T 1−αk tαk k , (1.3)
i=1
onde (por hipótese de indução)
k−1 k−1 Pk−1
i=1 αi ti
tβi i ≤ S :=
Y X
T := βi ti = ,
1 − αk
i=1 i=1

com igualdade se e somente se t1 = · · · = tk−1 Aplicando o caso k = 2 a (1.3), temos


k
Y k
X
tαi i ≤ (1 − αk ) T + αk tk ≤ (1 − αk ) S + αk tk = αi ti .
i=1 i=1

Além disso, a igualdade só vale se T = S – e portanto T = t1 = t2 = · · · = tk−1 – e além disso tk = T .


Portanto, para que a igualdade valha, é necessário que t1 = · · · = tk . 2

Exercı́cio 1.3 Sejam 1 < p, q < +∞ com (1/p) + (1/q) = 1. Mostre que para quaisquer x, y ∈ R,

|x|p |y|q
xy ≤ +
p q
com igualdade se e somente valem seguintes condições:

• |x|p = |y|q ;

• ou x = y = 0, ou x 6= 0 6= y e os sinais de x e y coincidem.

Exercı́cio 1.4 Sejam 1 < p, q < +∞ com (1/p) + (1/q) = 1. Mostre que para quaisquer x, y ∈ R e
λ > 0,
|x|p λq |y|q
xy ≤ + .
p λp q
Além disso, se x, y ∈ R+ , existe uma escolha de λ tal que

|x|p λq |y|q
|xy| = + .
p λp q

1.4 Mais um fato útil


Lema 1.2 Considere conjuntos A, B e uma função h : A × B → R. Então:
 
sup sup h(a, b) = sup h(a, b).
a∈A b∈B (a,b)∈A×B

24
Prova: Chame de S o supremo do lado direito. Veja que, por definição:

∀a ∈ A ∀b ∈ B : h(a, b) ≤ S

e portanto, para cada a ∈ A fixo, S é cota superior para os valores de h(a, b), b ∈ B. Deduzimos que

∀a ∈ A : sup h(a, b) ≤ S
b∈B

e portanto
sup sup h(a, b) ≤ S.
a∈A b∈B

Agora observe que para todo (a, b) ∈ A × B,

h(a, b) ≤ sup h(a, b0 ) ≤ sup sup h(a0 , b0 ).


b0 ∈B a0 ∈A b0 ∈B

Ou seja,
sup sup h(a0 , b0 ) é cota superior para os valores de h(a, b), (a, b) ∈ A × B.
a0 ∈A b0 ∈B

Deduzimos que
sup sup h(a0 , b0 ) ≥ sup h(a, b) = S.
a0 ∈A b0 ∈B (a,b)∈A×B
2

25
26
Capı́tulo 2

Espaços vetoriais e normas

O principal objetivo deste curso é estender a Análise que aprendemos na reta a espaços mais gerais: os
chamados espaços métricos. Antes de defini-los, vamos começar com a classe mais restrita, mas muito
importante, de espaços vetoriais normados. Aqui já veremos alguns dos desafios de levar a Análise a uma
dimensão mais alta.

2.1 Um caso concreto: o espaço Rd


Começamos de forma ainda mais particular pelo espaço vetorial que todo mundo conhece (ou deveria co-
nhecer): o espaço euclideano real de d dimensões.
Dado d ∈ N\{0}, definimos Rd como um produto cartesiano:

Rd := |R × R ×
{z· · · × R} .
d vezes

Os elementos x ∈ Rd são d-tuplas de números reais, x = (x[i])di=1 . Os números x[1], . . . , x[d] ∈ R são
chamados de coordenadas de x. Esta notação que usamos para as coordenadas é inspirada pelo MatLab!
É bom especificar logo de cara d + 1 vetores especiais em Rd :

• O vetor nulo 0Rd cujas coordenadas são 0Rd [i] = 0, i = 1, . . . , d.

• Os vetores ej , 1 ≤ j ≤ d, da base canônica de Rd cujas coordenadas são



1, i = j;
ej [i] = 1 ≤ i, j ≤ d.
0, i 6= j;

2.1.1 Operações em Rd e suas propriedades


Há duas operações fundamentais em Rd :

1. Soma (e diferença): dados x, y ∈ Rd , x ± y ∈ Rd é o vetor cujas coordenadas são (x ± y)[i] =


x[i] ± y[i], 1 ≤ i ≤ d.

2. Multiplicação por escalar: dados x ∈ Rd e λ ∈ R λ x ∈ Rd é o vetor cujas coordenadas são


(λ x)[i] = λ x[i], 1 ≤ i ≤ d.

27
Não é difı́cil verificar as seguintes propriedades:
• 0 é o elemento neutro da soma: para todos x, y ∈ Rd , x + y = x se e somente se y = 0.

• 0 x = 0 para todo x ∈ Rd .

• 1 é o elemento neutro da multiplicação por escalar: para todos x ∈ Rd , λ ∈ R, λ x = x se e somente


se x = 0 e/ou λ = 1.

• As operações são todas associativas. A soma é comutativa também.

• A multiplicação por escalar é distributiva das duas maneiras pssı́veis: se λ, η ∈ R, x, y ∈ Rd :

(λ + η) x = λ x + η x e λ (x + y) = λ x + λ y.

Exercı́cio 2.1 Prove que:


d
X
d
∀x ∈ R : x = x[i] ei .
i=1

2.1.2 Produto interno e a norma euclideana em Rd


Grosso modo, uma norma em Rd é uma maneira de medir a distância desde 0 até os demais pontos de Rd .
Desta forma, os axiomas a seguir são naturais.

Definição 2.1 Uma norma sobre Rd é uma função k · k : Rd → R com as seguintes propriedades:
• A norma é positiva definida, isto é, para todo x ∈ Rd , kxk ≥ 0, e kxk = 0 se e somente se x = 0.

• A norma é homogênea positiva, isto é, para quaisquer λ ∈ R, x ∈ Rd , kλ xk = |λ| kxk.

• A norma é sub-aditiva, isto é, para quaisquer x, y ∈ Rd , kx + yk ≤ kxk + kyk.

Como podemos definir uma norma em Rd ? Quase todos já temos uma resposta pronta para isso: a norma
euclideana deve servir: v
u d
uX
|x|2 := t (x[i])2 (x ∈ Rd ).
i=1

Essa é a noção de distância que aprendemos “desde cedo”. A pergunta, no entanto, é a seguinte: como
podemos provar que esta norma euclideana é mesmo uma norma? Não é difı́cil checar as duas primeiras
propriedades. A homogeneidade positiva é trivial. Para provar que a norma é positiva definida, primeiro
observamos que kxk ≥ 0 porque kxk2 é uma soma de termos (x[i])2 não-negativos. Além disso, para que a
soma se anule é necessário e suficiente que cada termo se anule, ou seja, que x[i] = 0 para cada 1 ≤ i ≤ d,
ou seja, x = 0.
A dificuldade maior (neste e em outros casos) é provar que a norma é sub-aditiva. Para fazermos isso,
precisaremos de uma ideia importante: a de produto interno. Dados x, y ∈ Rd , definimos:
d
X
x · y := x[i] y[i] ∈ R.
i=1

A relação entre norma euclideana e produto interno é que |x|22 = x · x

28
Lema 2.1 (Propriedades básicas do produto interno) Dados x, x0 ∈ Rd :

1. Positividade: x · x ≥ 0, com igualdade se e somente se x = 0.

2. Simetria: x · x0 = x0 · x.

3. Linearidade: se λ ∈ R, a, b ∈ Rd e x = λa + b, então x0 · x = x · x0 = λ (a · x0 ) + (b · x0 ).

Prova: A primeira propriedade é exatamente a mesma coisa que dizer que a norma euclideana é positiva
definida, o que já provamos acima.
A propriedade 2 é consequência do fato que x[i] x0 [i] = x0 [i] x[i] para cada coordenada i ∈ {1, . . . , d},
de modo que
d
X d
X
x·y = x[i] x0 [i] = y[i] x[i] = x0 · x.
i=1 i=1

A propriedade 3 vem do fato que, por definição das operações de Rd

x = λa + b ⇒ x[i] = λa[i] + b[i]

de modo que, pelas distributividade e associatividade de R,

d
X d
X
x · x0 = x[i] x0 [i] = (λ a[i] + b[i]) x0 [i]
i=1 i=1
d
X Xd
= λ a[i] x0 [i] + b[i] x0 [i]
i=1 i=1
0 0
= λ (a · x ) + (b · x ).

O resultado a seguir nos dá uma conexão ainda mais forte entre produto interno e norma euclideana.

Teorema 2.1 (Desigualdade de Cauchy Schwartz) Para quaisquer x, y ∈ Rd , vale |x · y|2 ≤ |x|2 |y|2 . A
igualdade vale exatamente quando v = λw ou w = λv para algum λ > 0.

Prova: O teorema é trivialmente verdadeiro se x = 0 ou y = 0. Podemos então supôr que os dois vetores
são não-nulos. Neste caso, podemos considerar v := x/|x|2 e w := y/|y|2 , notando que estes vetores têm
norma 1. Pela linearidade do produto interno,

x · y ≤ |x|2 |y|2 ⇔ v · w ≤ 1.

Provaremos a seguir que v · w ≤ 1 com igualdade se e somente se v = w, o que claramente implica o


teorema.

29
Para provar que |v · w| ≤ 1, escrevemos:
d
X
v·w = v[i] w[i]
i=1
d
X
≤ |v[i] w[i]| (2.1)
i=1
d
X |v[i]|2 + |w[i]|2
(média geo. ≤ aritmética p/ cada termo) ≤ (2.2)
2
i=1
(|v|2 = |w|2 = 1) = 1.

Como podemos ter igualdade acima? Em primeiro lugar, (2.1) deve ser uma igualdade, o que acontece se
e somente se todos os termos da soma forem maiores ou iguais a zero. Ou seja, queremos que v[i] e w[i]
tenham o mesmo sinal para cada ı́ndice i. Em segundo lugar, precisamos de igualdade na aplicação da
desigualdade das médias em (2.2), o que só ocorre quando |v[i]|2 = |w[i]|2 – ou seja, v[i] = ±w[i] – para
cada i. Deduzimos que v · w = 1 se e somente se v = w. 2
Terminamos a seção usando Cauchy-Schwartz para provar que a norma é sub-aditiva.
Teorema 2.2 Vale a identidade:

∀x ∈ Rd : |x|2 = sup{x · z : z ∈ Rd , |z|2 = 1}

Em particular, a norma euclideana é subaditiva.


Prova: A igualdade vem de Cauchy-Schwartz. Temos x · z ≤ |x|2 para todo z de norma 1, com igualdade
se e somente se x = 0Rd e z = x/|x|2 . Para a subaditividade, tome x e y em Rd . Dado qualquer z ∈ Rd de
norma 1,
z · (x + y) = z · x + z · y ≤ |x|2 + |y|2 (aplique CS aos dois termos).
Portanto,
|x + y|2 = max{z · (x + y) : z ∈ Rd , |z|2 = 1} ≤ |x|2 + |y|2 .
2

2.2 Definições gerais


2.2.1 O que é um espaço vetorial?
Acima vimos (ou recordamos a teoria básica do espaço Rd com sua norma mais básica e suas operações.
Veremos ao longo do curso muitos outros espaços com estrutura semelhante.

Definição 2.2 (Espaço vetorial) Chamamos de espaço vetorial sobre R um conjunto V 6= ∅ com operações
de soma
(v, w) ∈ V 2 7→ v + w ∈ V
e multiplicação por escalar
(λ, v) ∈ R × V 7→ λ v ∈ V,
além de um elemento distinguido 0 ∈ V , definidos de modo a satisfazer os axiomas a seguir:

30
1. Comutatividade e associatividade da soma: v + w = w + v e (v + w) + z = v + (w + z) para todos
v, w, z ∈ V .

2. Associatividade do produto: para quaisquer λ, η ∈ R, v ∈ V , λ(ηv) = (λη) v.

3. Distributividade: para todos v, w ∈ V , λ, ξ ∈ R, (λ + ξ) (v + w) = λv + λw + ξv + ξw.

4. Elemento neutro: 0 + v = v para todo v ∈ V .

5. Multiplicação por 1 e 0: 1.v = v e 0.v = 0 para todo v ∈ V .

O espaço Rd discutido acima é um espaço vetorial segundo esta definição. Note que d = 1 é uma
escolha válida, ou seja: com as operações usuais, R é um espaço vetorial sobre R!

O espaço de matrizes ` × d
Sejam agora `, d ∈ N\{0}. Considere o conjunto R`×d de todas as matrizes com ` linhas, d colunas e
entradas reais. Um elemento A deste espaço tem a seguinte “cara”.
 

 A[1, 1] A[1, 2] . . . A[1, d]
 A[2, 1] A[2, 2] . . . A[2, d] 

 
` linhas  .. .. .



 . . 
A[`, 1] A[`, 2] . . . A[`, d]

| {z }
d colunas

Ou seja, as entradas (ou “coordenadas”) de uma matriz ` × d são chamadas de A[i, j], com 1 ≤ i ≤ `
e 1 ≤ j ≤ d. Podemos definir a soma e subtração de matrizes, além do produto de uma matriz por escalar,
fazendo tudo entrada a entrada. Como no caso de Rd , a estrutura resultante nos dá um espaço vetorial.
Obviamente isso não chega a ser uma surpresa porque, afinal, uma matriz ` × d pode ser reescrita como
um vetor de ` d números reais. Mais adiante recordaremos que há alguma utilidade em pensar nas matrizes
como transformações lineares e não como vetores.

O espaço das funções contı́nuas


O exemplo a segur é mais interessante. Dado um intervalo I ⊂ R, I 6= ∅, o conjunto

C(I, R) := {f : I → R : f contı́nua}

tem uma estrutura natural de espaço vetorial. O elemento 0 é a função que se anula em todo ponto. A soma
é exatamente a soma usual de funções, o que “funciona” porque a soma de funções contı́nuas é contı́nua.
O produto por escalar consiste em tomar a função f e o escalar λ e definir uma nova função λ f que leva
t ∈ I em λ f (t). É um exercı́cio mostrar que estas operações realmente satisfazem aos axiomas de espaço
vetorial.
Definamos agora um conceito que também será importante no que segue.

Definição 2.3 (Subespaço vetorial) Chamamos um subconjunto W ⊂ V , W 6= ∅ de subespaço vetorial de


V se ele é fechado pelas operações de soma e multiplicação por escalar. Ou seja:

∀w, w0 ∈ W, ∀λ ∈ R : λ w + w0 ∈ W.

31
Por exemplo, dado qualquer a ∈ Rd , o conjunto

Ha := {x ∈ Rd : a · x = 0}

é um subespaço de Rd ; isto segue da linearidade do produto interno.

Exercı́cio 2.2 O conjunto das matrizes d × d simétricas – isto é, as A ∈ Rd×d com A[i, j] = A[j, i] para
cada par 1 ≤ i, j ≤ d – é um subespaço de Rd×d

Exercı́cio 2.3 Tome um conjunto S 6= ∅. Defina F (S, R) como o conjunto de funções de S em R. Prove
que F (S, R) tem uma estrutura natural de espaço vetorial. Se I ⊂ R é um intervalo não-vazio, mostre que
C(I, R) é um subespaço de F (I, R).

Exercı́cio 2.4 Dado J ⊂ R, o conjunto C(I, J) de funções contı́nuas de I em J é um subconjunto de


C(I, R). Para que escolhas de C(I, J) este conjunto é um subespaço vetorial de C(I, R)?

Exercı́cio 2.5 Dados t ∈ I e ξ ∈ R, o conjunto W de funções contı́nuas de I em R com f (t) = ξ é um


subconjunto de C(I, R). Para que escolhas de ξ este conjunto é um subespaço vetorial de C(I, R)?

2.2.2 Funcionais lineares e normas


Para fazermos Análise, vamos precisar medir distâncias em espaços vetoriais. Isto nos leva à definição de
norma, que é exatamente aquela que usamos em Rd .

Definição 2.4 Uma norma sobre um espaço vetorial real V é uma função k · k : V → R com as seguintes
propriedades:
• A norma é positiva definida, isto é, para todo x ∈ V , kxk ≥ 0, e kxk = 0 se e somente se x = 0.

• A norma é homogênea positiva, isto é, para quaisquer λ ∈ R, x ∈ V , kλ xk = |λ| kxk.

• A norma é sub-aditiva, isto é, para quaisquer x, y ∈ V , kx + yk ≤ kxk + kyk.

Em geral há uma certa dificuldade de provar que uma candidata a norma é mesmo uma norma; lembre-
se, por exemplo, do caso da norma euclideana em Rd . Abaixo apresentaremos a maneira “canônica” de
definir uma norma em qualquer espaço vetorial. Para isso, precisaremos da noção de funcional linear, que é
importante por si só.

Definição 2.5 (Funcional linear) Se V é espaço vetorial sobre R, um funcional linear é uma função φ :
V → R com a propriedade de linearidade:

∀v, v 0 ∈ V ∀λ ∈ R : φ(λ v + v 0 ) = λ φ(v) + φ(v 0 ).

Ou seja, o funcional linear transforma somas em V em somas em R. Além disso, os escalares “pulam para
fora”.

Exercı́cio 2.6 Mostre que o núcleo de um funcional linear, definido por

ker(φ) := {v ∈ V : φ(v) = 0}

é sempre um subespaço vetorial de V .

32
Exercı́cio 2.7 Chame de V ∗ o espaço de todos os funcionais lineares sobre V . Mostre que V ∗ é um
subespaço vetorial do espaço F (V, R) definido no Exercı́cio 2.3.
Pd
Exemplo 2.1 (Funcionais lineares sobre R) Lembre-se que todo x ∈ Rd tem a forma x = i=1 x[i] ei .
Portanto, se φ é um funcional linear,
d
X
d
∀x ∈ R : φ(x) = x[i] φ(ei ) = x · zφ , onde zφ ∈ Rd tem coordenadas zφ [i] := φ(ei ), 1 ≤ i ≤ d.
i=1

Ou seja: todo funcional linear φ é da forma φ(x) = x · zφ para algum zφ ∈ Rd . Não é difı́cil ver que vale
a recı́proca, isto é, que, fixo z ∈ Rd , a aplicação

φz : x ∈ Rd 7→ x · z

é um funcional linear.

Exercı́cio 2.8 Mostre que a correspondência acima entre funcionais lineares e vetores é uma bijeção.

Exemplo 2.2 (Funcionais lineares sobre C(I, R)) Recorde que I ⊂ R é um intervalo não-vazio. Por-
tanto, dado t ∈ I, podemos definir:

et : f ∈ C(I, R) 7→ f (t) ∈ R.

Ou seja, Et é uma função que associa a cada função contı́nua f : I → R o seu valor et (f ) := f (t) no
ponto t ∈ I. Como temos

∀f, g ∈ C(I, R), ∀t ∈ I : (λ f + g)(t) = λ f (t) + g(t),

também temos
∀f, g ∈ C(I, R), ∀t ∈ I : et (λ f + g) = λ et (f ) + et (g).
Logo et é um funcional linear sobre C(I, R). Um outro exemplo de funcional é a integral. Fixos a, b ∈ I, a
aplicação
Z b
Ia,b : f ∈ C(I, R) 7→ f (t) dt
a

que leva cada f na sua integral de Riemann entre a e b é um funcional linear. O mesmo vale se escolhemos
uma função ρ ∈ C(I, R) e definimos
Z b
ρ
Ia,b : f ∈ C(I, R) 7→ f (t) ρ(t) dt.
a

Vejamos agora como podemos definir uma norma a partir de funcionais lineares.

Teorema 2.3 Considere um espaço vetorial V e uma famı́lia L de funcionais lineares sobre V . Suponha as
seguintes propriedades:

1. Para todo φ ∈ L, −φ ∈ L.

33
2. Para cada v ∈ V , o conjunto dos valores de φ(v) para cada φ ∈ L, dado por,

L(v) := {φ(v) : φ ∈ L} ⊂ R,

é um conjunto limitado de R.

3. Para cada v ∈ V \{0}, ao menos um funcional φ ∈ L resulta em φ(v) 6= 0.

Então a expressão abaixo define uma norma sobre V :

kvk := sup L(v) = sup φ(v) (v ∈ V ).


φ∈L

Observação 2.1 Por que chamamos esta maneira de obter normas de “canônica”? A resposta pode pa-
recer surpreendente: toda norma em qualquer espaço vetorial real pode ser obtida via desta maneira.
Este resultado profundo é basicamente o Teorema de Hahn-Banach, geralmente visto em cursos de Análise
Funcional.

Prova: A prova deste teorema – em particular, o passo 3 abaixo – é uma versão mais abstrata da que demos
para o Teorema 2.2. De fato, antes de começar esta prova, vale a pena verificar que aquele teorema é um
caso particular deste que vamos provar agora: basta tomar V = Rd e L a famı́lia de todos os funcionais
lineares da forma “x 7→ z · x”, com |z|2 ≤ 1.
Nossa primeira observação nesta prova será provar o seguinte.

Passo 0: o conjunto L(v) é simétrico com relação a 0.

Ou seja, queremos mostrar que, se ξ ∈ L(v), então −ξ ∈ L(v) também. Para provar isto, nore que, se
ξ ∈ L(v), ξ = φ(v) para algum φ ∈ L (por definição de L(v)). Como sabemos que −φ ∈ L também, temos
que −ξ = −φ(v) ∈ L(v).

Passo 1: a função kvk é positiva definida.

Se v = 0, então φ(v) = φ(0.v) = 0φ(v) = 0 para todo funcional linear φ (aqui usamos o fato de que
escalares “passam para fora” de funcionais lineares). Em particular, L(0) = {0} e portanto k0k = 0.
Por outro lado, se v ∈ V \{0}, a nossa segunda hipótese garante que φ(v) 6= 0 para algum φ ∈ L, de
modo que L(v) contém algum número diferente de 0. Como L(v) é simétrico com relação a 0, L(v) contém
um elemento positivo. Segue que kvk = sup L(v) > 0.

Passo 2: a função k · k é homogênea positiva.

Temos que verificar o que acontece com L(v) quando multiplicamos v por um escalar λ. Se o escalar é
0, é evidente que k0.vk = 0 = 0.kvk, portanto podemos supôr que λ 6= 0.
Suponhamos primeiramente que λ > 0. Então

L(λ v) = {φ(λv) : φ ∈ L}
(cada φ é linear) = {λ φ(v) : φ ∈ L}
= {λξ : ξ ∈ L(v)}.

34
Ou seja, L(λ v) é obtido multiplicando cada elemento de L(v) por λ > 0. É um exercı́cio de Análise na
Reta mostrar que o efeito disso é multiplicar o supremo por λ. Portanto,

kλvk = sup L(λ v) = λ sup L(v) = λkvk = |λ| kvk.

Considere agora que λ < 0. Neste caso observamos que φ(λ v) = (−φ)(−λ v) para cada φ ∈ L. Então
veja:
L(λv) = {φ(λ v) : φ ∈ L} = {(−φ)(−λ v) : φ ∈ L} = L(−λ v),
pois cada φ ∈ L se e somente se −φ ∈ L. Deduzimos que

kλvk = k − λ vk = | − λ| kvk (pelo caso anterior) = |λ| kvk.

Passo 3: a função k · k é sub-aditiva.

Esta é a parte da prova que se parece com a prova do Teorema 2.2. Tome v, w ∈ V . Se φ ∈ L,

φ(v + w) = φ(v) + φ(w) (por linearidade) ≤ sup φ(v) + sup φ(w) = kvk + kwk.
φ∈L φ∈L

Deduzimos que

kvk + kwk é cota superior para o conjunto {φ(v + w) : φ ∈ L} = L(v + w).

Como toda cota superior é maior ou igual ao supremo, kv + wk = sup L(v + w) ≤ kvk + kwk. 2
Nos exemplos a seguir, vamos usar este Teorema para definir normas para espaços vetoriais.

Exemplo 2.3 (Norma de operador em R`×d ) Recorde do seu curso de Álgebra Linear que há uma relação
direta entre matrizes A ∈ R`×d e transformações lineares A : Rd → R` (usamos A duas vezes por abuso
de notação). De fato, dado x ∈ Rd , Ax ∈ R` é o vetor de coordenadas:

d
X
(Ax)[i] := A[i, j] x(j) , 1 ≤ i ≤ `.
j=1

A chamada norma de operador sobre R`×d é definida por:

|Av|2
kAk2→2 := sup .
v∈Rd \{0} |v|2

Ou seja, kAk2→2 mede o valor máximo pelo qual A “dilata” a norma de um v ∈ Rd (aqui dilatar pode ser
contrair, se a norma é menor que 1).

Como podemos provar que kAk2→2 é norma? Observe que, por linearidade e homogeneidade positiva
da norma,
|Av|2 v
= A
|v|2 |v|2 2

35
e v/|v|2 tem norma 1. Portanto, podemos trocar o supremo na definição da norma de operador por

kAk2→2 := sup |Av|2


v∈Rd : |v|2 =1
!
= sup sup w · Av
v∈Rd : |v|2 =1 w∈Rd , |w|2 =1

= sup{w · (Av) : (w, v) ∈ R` × Rd , |w|2 = |v|2 = 1}.

Veja que na última linha acima usamos o fato que, dados dois conjuntos A, B e uma h : A × B → R,

sup(sup h(a, b)) = sup h(a, b),


a∈A b∈B (a,b)∈A×B

que é provado na seção 1.4.


O ponto é que, tendo feito isso, podemos expressar kAk2→2 como um supremo de funcionais lineares.
Veja que para cada par w ∈ R` , v ∈ Rd ,
` X
X d
`×d
φv,w : A ∈ R 7→ φv,w (A) := w · (Av) = A[i, j] v (j) w[i] ∈ R,
i=1 j=1

é um funcional linear sobre R`×d . Definindo

L := {φv,w : (w, v) ∈ R` × Rd , |w|2 = |v|2 = 1},

podemos checar as hipóteses do Teorema 2.3 da forma esboçada abaixo:

1. φ = φv,w ∈ L ⇒ −φ = φ−v,w ∈ L.

2. Para cada A fixa e v, w como acima, as coordenadas de v e w estão limitadas por 1 em valor absoluto
e portanto:
` X
X d ` X
X d
(j)
|φv,w (A)| ≤ |A[i, j]| |v | |w[i]| ≤ |A[i, j]|.
i=1 j=1 i=1 j=1

Portanto,
` X
X d
sup L(A) ≤ |A[i, j]| < +∞.
i=1 j=1

3. Se A 6= 0, A[i, j] 6= 0 para algum par i, j. Então basta escolher w =i-ésimo vetor da base canônica
de R` e v =j-ésimo vetor da base canônica de Rd para obter:

φv,w (A) = A[i, j] 6= 0.

Exemplo 2.4 (Norma do supremo em C(I, R)) Suponha que I = [a, b] ⊂ R é um intervalo compacto.
Dada f ∈ C(I, R) sabemos que f é limitada sobre I e podemos definir sua “norma do supremo”

kf k∞ := sup |f (t)| ∈ R.
t∈I

36
É fácil ver que esta norma se encaixa em nosso Teorema geral. Recordando os funcionais et do Exemplo
2.2, temos que
kf k∞ = sup φ(f )
φ∈L

onde L = {±et : t ∈ I}. Logo a norma do sup é de fato uma norma.

Exercı́cio 2.9 Dê uma prova direta deste último resultado.

2.3 Mais exercicios


Exercı́cio 2.10 Dados a ∈ Rd \{0} e ξ ∈ R, quando é verdade que o conjunto abaixo é um subespaço de
Rd ?
Ha,ξ := {x ∈ Rd : a · x = ξ}.

Exercı́cio 2.11 Vamos definir novas normas sobre Rd . Dado 1 ≤ p < +∞, defina:
v
u p
uX
p
|x|p := t |x[i]|p (x ∈ Rd ).
i=1

Defina ainda:
|x|∞ := max |x[i]| (x ∈ Rd ).
1≤i≤d

Estas são as chamadas normas `p de x ∈ Rd . Note que | · |2 é a norma euclidiana definida acima.
Neste problema provaremos que as normas `p são de fato normas sobre Rd . Para isto, temos que mostrar
que elas são positivas definidas, homogêneas positivas e sub-aditivas.
Para o que segue, será necessário definir o expoente dual de p. Definimos q := p/(p − 1) quando
1 < p < +∞. Se p ∈ {1, +∞}, definimos q via um limite: portanto q = 1 se p = ∞ e q = ∞ se p = 1.
Note que a definição de p e q apareceu na nossa prova da desigualdade das médias.

1. Prove para esquentar que


|x|∞ ≤ |x|p ≤ d1/p |x|∞ ≤ d1/p |x|2
para todo x ∈ Rd . Deduza que |x|∞ = limp→+∞ |x|p para todo x ∈ Rd .

2. Nos próximos itens, mostraremos a relação de dualidade entre as normas `p e `q

Dualidade: ∀x ∈ Rd ∀p ∈ [1, +∞] : |x|p = sup{v · x : v ∈ Rd , |v|q = 1}.

Explique porque esta relação implica que a norma `p satisfaz mesmo a norma.

3. Prove dualidade diretamente para p ∈ {1, ∞}.

4. A partir daqui supomos p ∈ (1, +∞). Mostre que a desigualdade entre as médias aritmética e
geométrica implica que
|a|p |b|q
∀a, b ∈ R : ab ≤ + ,
p q
com igualdade se e somente se a, b têm o mesmo sinal e |a|p = |b|q .

37
5. Deduza do primeiro item que
x·y
∀x, y ∈ Rd \{0} : ≤1
|x|p |y|q
e obtenha a Desigualdade de Hölder x.y ≤ |x|p |y|q .

6. Cheque as condições de igualdade no item anterior para terminar a prova da dualidade. Mostre
ainda que, se x 6= 0 o supremo na fórmula de dualidade só é atingido por um único vetor y.

38
Capı́tulo 3

Espaços métricos, convergência e


completude

No capı́tulo anterior vimos vários espaços vetoriais V com suas respectivas normas k · k. Isto nos permite
medir a distância entre dois pontos v e v 0 como kv − v 0 k.
Medir distâncias é bom porque nos permite tomar limites e fazer Análise. No entanto, é muito fácil
encontrar espaços em que se deseja fazer Análise e que não possuem a estrutura linear de um espaço vetorial.
Por exemplo, a esfera d-dimensional e o conjunto de Cantor não têm nada de “linear”, ainda que estejam
ambos contidos em espaços vetoriais.
No fim das contas será conveniente tomarmos um ponto de vista ainda mais geral, baseado apenas na
noção de distância. Por isso estudaremos a partir daqui o conceito de espaço métrico. Esta é a estrutura
mı́nima que nos permite estender a Análise a que estamos acostumados, com ε e δ, limites e tudo o mais.
Todo espaço vetorial normado pode ser visto como espaço métrico, mas a recı́proca não é verdadeira.
A classe de espaços métricos é a principal categoria de objetos que trataremos neste curso. Ela é geral o
suficiente para quase todos os nossos propósitos, mas ainda assim é tratável. Neste capı́tulo veremos como
ela é definida e como ela nos permite falar de convergência em conjuntos muito gerais.

3.1 Espaços métricos


O que é, afinal, um espaço métrico? Eis a definição, devida a Fréchet.

Definição 3.1 Um espaço métrico é um conjunto X 6= ∅ munido de uma função d : X × X → [0, +∞),
chamada de métrica sobre X, com as seguintes propriedades.

1. d é não-negativa e separa pontos distintos: para quaisquer a, b ∈ X, d(a, b) = 0 se e somente se


a = b;

2. d é simétrica: para qualquer par (a, b) ∈ X × X, d(a, b) = d(b, a);

3. d satisfaz a desigualdade triangular: para quaisquer a, b, c ∈ X, d(a, b) ≤ d(a, c) + d(c, b).

Todas as propriedades de métrica acima têm uma interpretação intuitiva se pensamos em d como uma
noção de distância. A propriedade 1 diz que a distância de um lugar a ele mesmo é nula, mas que qualquer
outro lugar está a distância positiva. A segunda propriedade afirma que ir de a a b não é mais fácil ou difı́cil

39
que ir de b a a. A terceira propriedade afirma que ir de a para c e depois para b não pode resultar em um
caminho mais curto que a rota direta de a para b. Apesar da clareza do que significam estas condições,
veremos abaixo que nem todo espaço métrico é fácil de se entender.
Veremos abaixo os principais exemplos de espaços métricos que serão recorrentes no curso. Ocasio-
nalmente usaremos a convenção de denotar por dX a métrica de X; isto será útil quando tratarmos muitos
espaços métricos de uma única vez.

3.1.1 A reta real como espaço métrico


Como primeiro exemplo, tomamos X = R com dR (a, b) := |a − b| ((a, b) ∈ R2 ). As duas primeiras
propriedades da definição de métrica são triviais. A terceira é consequência de “|x + y| ≤ |x| + |y|”aplicada
a x = a − c e y = c − b. Em todas estas notas tomaremos esta métrica como a métrica padrão sobre R, a
não ser quando o contrário for dito.

3.1.2 Os números complexos como espaço métrico



O conjunto C é usualmente definido como o conjunto dos números da forma √z := a + b −1, onde a =
<(z) ∈ R é chamada de parte √ real 2de z, b = =(z) ∈ R é a parte imaginária, e −1 – a unidade imaginária –
é um número satisfazendo ( −1) = −1. O livro de Rudin [?] tem uma definição mais formal deste corpo.
O ponto de mencioná-los aqui é que C é basicamente R2 com uma estrutura de produto. Observamos ainda
que a norma |z| é multiplicativa: |zw| = |z| |w|.

3.1.3 A métrica discreta


Uma métrica relativamente trivial e “boba”pode ser definida sobre qualquer conjunto X 6= ∅: a chamada
métrica discreta. 
1, x 6= y;
ddisc (x, y) :=
0, x = y.
Esta métrica é interessante por alguns (poucos) motivos. No momento só um deles nos interessa: qualquer
resultado que provarmos para todos os espaços métricos deverá valer para as métricas discretas! Ou seja: se
você quer entender um teorema, ou simplesmente testar se um enunciado pode ser verdadeiro para todos os
espaços métricos, estudá-lo no caso da métrica discreta é um bom primeiro passo.

3.1.4 Espaços vetoriais: normas nos dão métricas


A maneira canônica de se definir uma métrica sobre um espaço normado é através da norma.

Proposição 3.1 Se (V, k · kV ) é um espaço normado, então a expressão

dV (a, b) := ka − bkV (a, b ∈ V )

define uma métrica sobre V .

Prova: Sejam a, b, c ∈ Rd quaisquer. Nosso objetivo é provar que

• ka − bkV ≥ 0, com igualdade se e somente se a = b;

• ka − bkV = kb − akV ;

40
• ka − ckV ≤ ka − bkV + kb − ckV .

Vamos escrever isto de outra forma. Defina x := a − b, y := b − c. Os itens acima são equivalentes a:

• kxkV ≥ 0, com igualdade se e somente se x = 0 (que vale porque a norma é positiva definida).

• kxkV = k − xkV (que segue da homogeneidade positiva da norma);

• kx + ykV ≤ kxkV + kykV (que vem da sub-aditividade).

2
Portanto, as normas que pusemos em Rd , C(I, R), etc todas induzem métricas. Como veremos na seção
seguinte, elas também induzem métricas sobre subconjuntos destes espaços que não são necessariamente
espaços vetoriais. Por exemplo, a norma euclidiana em Rd induz uma métrica na esfera unitária:

Sd−1 := {x ∈ Rd : |x|2 = 1.}

3.1.5 Métricas induzidas


Se temos um espaço métrico (X, dX ), qualquer subconjunto Y ⊂ X, Y 6= ∅ herda a métrica:

dY (y, y 0 ) := dX (y, y 0 ) ((y, y 0 ) ∈ Y 2 ).

Ou seja, dY = dX |X×X é obtida restringindo a função dX : X × X → [0, +∞) ao conjunto Y × Y .


Chamamos esta métrica de induzida. Por exemplo, a esfera unitária Sd−1 ⊂ Rd e o conjunto Qd ⊂ Rd
dos vetores com coordenadas racionais têm métricas induzidas pelas métricas naturais sobre os espaços
ambientes.

3.2 Sequências, limites e completude


O leitor deve lembrar que uma sequência de elementos em X, escrita {xn }n∈N ⊂ X, é tão somente uma
maneira de escrever uma função f : N → X, de modo que xn = f (n) para cada n ∈ N.
Tomamos como dado que o leitor já sabe o que é convergência de uma sequência em R, mas lembramos
a definição mesmo assim. Dados {xn }n∈N ⊂ R e x ∈ R, dizemos que xn → x, ou limn∈N xn = x, ou
ainda que xn converge a x, se

∀ε > 0 ∃n0 (ε) ∈ N ∀n ∈ N : n ≥ n0 (ε) ⇒ |xn − x| < ε.

A noção de convergência em um espaço métrico é derivada desta.

Definição 3.2 Fixo um espaço métrico (X, dX ), dizemos que uma sequência {xn }n∈N ⊂ X converge a
x ∈ X (segundo a métrica dX ) se a sequência {dX (xn , x)}n∈N ⊂ R converge a 0, no sentido do parágrafo
anterior. Dito de outro modo: xn → x se

∀ε > 0 ∃ n0 (ε) ∈ N ∀n ∈ N : n ≥ n0 (ε) ⇒ |dX (xn , x) − 0| = dX (xn , x) < ε.

Esta segunda forma de definir as coisas mostra que as duas noções de convergência coincidem no caso de
X = R com a métrica usual. Podemos mostrar facilmente que, como no caso de números, trocar < ε por
≤ ε na segunda definição não muda nada. Além disso:

41
Proposição 3.2 (Unicidade do limite) Mostre que xn → x e xn → x0 implica x = x0 .

Prova: Pelos axiomas de métrica, para provarmos que x = x0 , basta mostrarmos que dX (x, x0 ) = 0. Pela
desigualdade triangular, temos a seguinte desigualdade para cada n ∈ N:

0 ≤ dX (x, x0 ) ≤ dX (x, xn ) + dX (xn , x0 ).

Por hipótese, dX (x, xn ) → 0 e dX (x0 , xn ) → 0 no sentido usual de R. Como “o limite da soma é a soma
dos limites”, temos:

lim (dX (x, xn ) + dX (xn , x0 )) = lim dX (x, xn ) + lim dX (xn , x0 ) = 0.


n∈N n∈N n∈N

Portanto, a distância dX (x, x0 ) está “sanduichada” entre a sequência constante 0 e uma outra sequência que
vai a 0. Deduzimos que dX (x, x0 ) = 0, como querı́amos demonstrar. 2

Um ponto importante é que, como veremos abaixo, a convergência ou não de uma sequência depende
da métrica escolhida. Ainda assim, na maior parte dos casos nós falaremos de convergência sem mencionar
a métrica.

Exercı́cio 3.1 Considere um espaço vetorial normado (V, k · kV ) com a métrica induzida pela norma. Se
{vn }n∈N ⊂ V e v ∈ V são dados, mostre que

vn → v ⇔ vn − v → 0V .

Vamos agora definir o que é uma sequência de Cauchy em um espaço métrico e o que é um espaço
métrico completo.

Definição 3.3 Fixo um espaço métrico (X, dX ), dizemos que uma sequência {xn }n∈N ⊂ X é de Cauchy
se
lim dX (xn , xm ) = 0,
m,n→+∞

isto é,
∀ε > 0 ∃ n0 (ε) ∈ N ∀m, n ∈ N : m, n ≥ n0 (ε) ⇒ dX (xn , xm ) < ε.

(X, dX ) é dito completo se toda sequência de Cauchy {xn }n∈N ⊂ X converge a algum x ∈ X.

A mesma prova conhecida de R de que toda sequência convergente é Cauchy vale para espaços métricos
gerais. Observe, no entanto, que nem todo espaço métrico é de Cauchy. Por exemplo, (R, dR ) é completo,
mas Q com a métrica induzida não é completo. Veremos a seguir vários exemplos naturais de espaços
métricos que são completos e (com menos destaque) alguns outros que não são. Antes, uma definição
fundamental.

Definição 3.4 Um espaço vetorial normado (V, k·kV ) que é completo com a distância induzida pela norma
k · kV é dito espaço de Banach.

42
3.2.1 Convergência em Rd com as normas `p
Recorde o Exercı́cio 2.11 acima, onde apresentamos as normas `p , 1 ≤ p ≤ ∞, sobre Rd . Observe que,
para qualquer uma destas normas,

∀p ∈ [1, +∞), ∀x ∈ Rd : |x|∞ ≤ |x|p ≤ d1/p |x|∞ .

Usando o Exercı́cio 3.1, deduzimos que, dadas {xn }n∈N ⊂ Rd e x ∈ Rd ,

xn →`p x ⇔ |x − xn |p → 0 ⇔ |x − xn |∞ → 0 ⇔ max |x[i] − xn [i]| = 0.


1≤i≤d

De fato, como há um número finito de ı́ndices i = 1, 2, . . . , d, temos que

xn →`p x ⇔ ∀i ∈ {1, 2, . . . , d} : xn [i] → x[i].

Ou seja, xn → x na norma `p se e somente se as coordenadas de xn convergem às de x no sentido usual de


R.
Do mesmo, modo, vemos que {xn }n∈N é Cauchy na norma `p se e somente se

∀i ∈ {1, 2, 3, . . . , d} : lim |xm [i] − xn [i]| = 0,


m,n→+∞

ou seja, se e somente se {xn [i]}n∈N ⊂ R é Cauchy para cada i. Se isto ocorre, a completude de R implica
que
∀i ∈ {1, 2, 3, . . . , d} ∃x[i] ∈ R : lim xn [i] = x[i],
n→+∞

e o critério de convergência a x acima mostra que, neste caso, xn → x em `p . Deduzimos os seguintes fatos
importantes:

Teorema 3.1 Em Rd , as conclusões a seguir valem para qualquer uma das normas `p :

• A convergência de sequências em Rd é equivalente a convergência das coordenadas.

• Uma sequência em Rd com a norma `p é Cauchy se e somente se as respectivas sequências de coor-


denadas são Cauchy em R.

• Rd é completo: ou seja, uma sequência de Cauchy na norma `p necessariamente tem um limite, que
pode ser obtido coordenada a coordenada.

3.2.2 Convergência sob a métrica discreta


Vamos deixar este caso como um exercı́cio.

Exercı́cio 3.2 Considere um espaço (X, dX ) com a métrica discreta. Dada {xn }n∈N ⊂ X, mostre que
xn → x ∈ X se e somente se existe um n0 ∈ N tal que xn = x para todo n ≥ n0 . Prove ainda que
{xn }n∈N é Cauchy se e somente se existe um n0 ∈ N tal que xn = xn0 para todo n ≥ n0 .

43
3.2.3 Convergência em C(I, R)
Aqui I = [a, b] ⊂ R é um intervalo, C(I, R) é o espaço de funções contı́nuas de I em R e a norma usada é
a norma ∞:
kf kI,∞ := sup |f (t)|.
t∈I
Vamos primeiro tentar entender do que estamos falando aqui. Vamos considerar em primeiro lugar o que
quer dizer fn → f nesta métrica. Como kfn − f kI,∞ é um supremo, e além disso este supremo é atingido,
temos que
kfn − f kI,∞ → 0 ⇔ ∀ε > 0 ∃n0 = n0 (ε) ∈ N ∀n ≥ n0 ∀t ∈ T : |fn (t) − f (t)| < ε.
Esta é a chamada convergência uniforme em t ∈ I, ou simplesmente uniforme. Esta convergência implica
a chamada convergência pontual, que ocorre quando fn (x) → f (x) para cada x ∈ I. Isto equivale a pedir
que:
∀ε > 0 ∀t ∈ I ∃n0 = n0 (ε, t) ∀n ≥ n0 : |fn (t) − f (t)| < ε.
Veja que, neste caso, o ı́ndice n0 a partir do qual a distância fica menor que ε depende tanto de ε quanto
do ponto t. Por outro lado, a convergência uniforme pede que seja achado, para cada ε > 0, um n0 tal que
|fn (t) − f (t)| < ε para qualquer t ∈ I, sempre que n ≥ n0 . Ou seja, a escolha de n0 deve ser uniforme
em t. O próximo exercı́cio nos diz que o limite pontual de uma sequência de funções contı́nuas não é
necessariamente uma função contı́nua.

Exercı́cio 3.3 Considere I = [0, 1] e fn (x) = xn , x ∈ I. Mostre que o limite pontual das fn existe e é uma
função f : I → R descontı́nua em x = 1.

Exercı́cio 3.4 Considere I = [0, 1] e C := C([0, 1], R) novamente. Mostre que existem {fn }n∈N ∪{f } ⊂ C
tais que fn (x) → f (x) para qualquer x ∈ I, mas kfn − f k∞ = 1 para todo n. Isto é, convergência pontual
de funções contı́nuas para outra função contı́nua não implica convergência uniforme.

Por outro lado, nosso principal teorema nesta seção pode ser resumido dizendo-se que o limite uniforme
de funções contı́nuas é uma função contı́nua.
Teorema 3.2 C(I, R) é completo com a métrica induzida pela norma k · kI,∞ . Ou seja, uma sequência de
funções contı́nuas sobre I = [a, b] que converge uniformemente tem como limite uma função contı́nua.
Prova: Tomemos {fn }n∈N ⊂ C(I, R) que é de Cauchy, ou seja, tal que kfn − fm kI,∞ → 0 quando
n, m → +∞. Desejamos mostrar que existe uma função f ∈ C(I, R) tal que kfn − f kI,∞ → 0. Antes de
entrar na prova, fazemos alguns comentários que serão úteis para entender o que veremos a seguir.

Ideias gerais da prova

Se já tivéssemos uma candidata natural a limite da sequência {fn }n∈N , tudo seria mais fácil, em
princı́pio: só terı́amos que checar que esta f é mesmo o limite. O grande problema aqui é que temos
que construir a função f e depois provar que ela é o limite que buscamos. Para isso, será útil observarmos
primeiramente que as {fn }n∈N convergem pontualmente a uma certa função f (x) (passo 1). Para isso,
mostraremos que, dado qualquer ∀t ∈ I, {fn (t)}n∈N é uma sequência de Cauchy em R.
Resta então a tarefa de provar que f , nossa candidata a limite, cumpre mesmo este papel. Como primeiro
passo, devemos checar que fn e f estão uniformemente próximas para f grande (passo 2). O problema aqui
é que temos dois limites a tomar e eles devem ser tomados na ordem correta para que tudo funcione. Feito
isso, checamos que f ∈ C(I, R) (passo 3) e concluı́mos a prova.

44
Passo 1: existe uma f : I → R tal que fn (x) → f (x) para cada x ∈ I.

Este é o passo da prova em que mostramos que as as fn convergem pontualmente a uma certa f , que
será a nossa candidata a limite uniforme da sequência fn .
Para provar a convergência pontual, usaremos o fato de que R é completo, ou seja, sequências de Cauchy
em R convergem. Por conta disto, temos
(n,m→+∞)
∀x ∈ I : |fn (x) − fm (x)| ≤ sup |fn (t) − fm (t)| = kfn − fm kI,∞ → 0. (3.1)
t∈I

Ou seja,
∀x ∈ I : |fn (x) − fm (x)| → 0 quando n, m → +∞,
o que quer dizer que {fn (x)}n ⊂ R é Cauchy, como querı́amos demonstrar. Isto quer dizer que ∃f (x) :=
limn fn (x) para cada x ∈ I, o que define uma função f : I → R.

Passo 2: Proximidade entre fn e f .

O raciocı́nio por detrás de (3.1) nos diz que, para todo x ∈ I

|fn (x) − f (x)| = lim |fn (x) − fm (x)|


m→+∞
≤ lim sup kfn − fm kI,∞
m
≤ sup kfn − fm kI,∞ .
m≥n

Observe que o lado direito desta cadeia de desigualdades não depende de x e é uma cota superior para todo
x. Tomando o supremo, descobrimos que

kfn − f kI,∞ = sup |fn (x) − f (x)| ≤ sup kfn − fm kI,∞ .


x∈I m≥n

Recordamos mais uma vez que {fn }n∈N ⊂ C(I, R) é Cauchy. Isto quer dizer que, dado ε > 0, podemos
encontrar n0 (ε) tal que, se n, m ≥ n0 (ε), então kfn − fm kI,∞ < ε. Tomando o sup em m, vemos que

∃n0 (ε) ∈ N, ∀n ≥ n0 (ε) : 0 ≤ kfn − f kI,∞ = sup |fn (x) − f (x)| ≤ ε.


x∈I

Como isto vale para todo ε, deduzimos que kfn − f kI,∞ → 0, como querı́amos demonstrar.

Passo 3: f é contı́nua e o fim da prova.

Falta apenas um detalhe, que é provar que f ∈ C(I, R), ou seja, que f é contı́nua (ou: o limite uniforme
de funções contı́nuas é uma função contı́nua). Isto vale se e somente se para toda sequência convergente
{xj }j∈N ⊂ I e todo x ∈ I, xj → x ⇒ f (xj ) → f (x). Para fazer isto, basta provar que:

(Basta provar) ∀ε > 0 : lim sup |f (xj ) − f (x)| ≤ 0.


j

Para prova esta última desigualdade, observe que, pela desigualdade triangular:

|f (xj ) − f (x)| = |f (xj ) − fn (xj ) + fn (xj ) − fn (x) + fn (x) − f (x)|


≤ |f (xj ) − fn (xj )| + |fn (xj ) − fn (x)| + |fn (x) − f (x)|

45
O primeiro e o terceiro termo nesta última expressão são da forma |f (t) − fn (t)| com t ∈ I, sendo, portanto
cotados pelo supremo de |f (t) − fn (t)| sobre t ∈ I, que por sua vez é exatamente kf − fn kI,∞ . Ou seja,

|f (xj ) − f (x)| ≤ |fn (xj ) − fn (x)| + 2 kfn − f kI,∞ .

Esta desigualdade vale para cada j e n. Em particular, podemos tomar j → +∞: a continuidade de fn nos
garante que |fn (xj ) − fn (x)| → 0 e portanto,

∀n ∈ N : lim sup |f (xj ) − f (x)| ≤ 2kfn − f kI,∞ .


j∈N

Por fim, mandando n → +∞, vemos que kfn − f kI,∞ → 0 enquanto o lado esquerdo não muda. Deduzi-
mos:
lim sup |f (xj ) − f (x)| ≤ 0,
j∈N

o que significa |f (xj ) − f (x)| → 0, como querı́amos demonstrar.


Feito isso, apenas verificamos que temos todos os ingredientes em nossas mãos. Partindo de {fn }n∈N ⊂
C(I, R) Cauchy, construı́mos uma f ∈ C(I, R) tal que fn → f segundo a norma que escolhemos para
C(I, R). 2

Observação 3.1 Vimos acima outra norma que pode ser definida em C(I, R):
Z b
kf kI,1 := |f (t)| dt (f ∈ C(I, R)),
a

É possı́vel mostrar que C(I, R) não é completo com esta norma. Por exemplo, se I = [0, 1], fn (x) = 0
para x ≤ 1/2 − 1/n, fn (x) = 1 para x ≥ 1/2 e fn (x) ∈ (0, 1) para x ∈ (1/2 − 1/n, 1/2), é fácil mostrar
que {fn }n∈N é Cauchy segundo a norma k · kI,1 , mas não converge a uma função f ∈ C(I, R). (A dica é
que o limite teria de valer 0 para x < 1/2 e 1 para x > 1/2, o que é impossı́vel para f contı́nua.)

3.3 Equivalência de métricas e normas


Na seção anterior nós vimos como descrever a convergência em alguns espaços onde isso não é completa-
mente óbvio à primeira vista. Um ponto importante de se enfatizar é que em vários casos mostramos que
definições diferentes de métrica ou norma conduziram a uma única noção de convergência. Isto é um ponto
importante, que merece uma definição.

Definição 3.5 Considere um conjunto X 6= ∅ e duas métricas d1 , d2 definidas sobre ele. Dizemos que as
duas métricas são equivalentes se

∀{xn }n∈N ⊂ X, ∀x ∈ X : d1 (xn , x) → 0 ⇔ d2 (xn , x) → 0.

Quando X é um espaço vetorial e as duas distâncias são induzidas por normas k · k1 , k · k2 , dizemos que
as duas normas são equivalentes quando as métricas induzidas são equivalentes de acordo com a definição
acima.

Por exemplo, a Seção 3.2.1 mostra que as métricas induzidas pelas normas `p sobre Rd são todas equi-
valentes. Agora apresentamos um caso de não-equivalência de normas (e métricas).

46
Exemplo 3.1 Vamos mostrar que duas normas que vimos acima sobre C([0, 1], R) não são equivalentes. A
primeira é a nossa “norma preferencial˜:

kf k∞ := sup |f (t)|
t∈[0,1]

e a segunda foi apresentada a Observação 3.1.


Z 1
kf k1 := |f (t)| dt.
0

Como |f (t)| ≤ kf k∞ para cada t ∈ [0, 1], vemos facilmente que kf k1 ≤ kf k∞ para toda f ∈ C([0, 1], R).
Disto podemos facilmente deduzir que

kfn − f k∞ → 0 ⇒ kfn − f k1 → 0.

A recı́proca, no entanto, não é verdadeira. Considere por exemplo a sequência de funções {fn }n∈N definidas
da seguinte forma:
t ≤ 1 − n1

0,
fn (t) :=
nt − n + 1, 1 − n1 < t ≤ 1.
O leitor pode checar que fn ∈ C([0, 1], R) é não negativa e que
Z 1
1
kfn k1 = fn (t) dt = .
0 2n
Portanto kfn − 0k1 → 0. No entanto, para todo n

kfn k∞ = fn (1) = 1 6→ 0,

o que nos diz que fn 6→ 0 de acordo com a norma k · k∞ . Nossa última observação nesta seção é que a
equivalência de métricas tem uma expressão equivalente.
Teorema 3.3 Duas normas k · k1 e k · k2 sobre o mesmo espaço vetorial V são equivalentes se e somente
se existem constantes C, c > 0 tais que

∀v ∈ V : c kvk1 ≤ kvk2 ≤ C kvk2 .

Prova: Deixamos como exercı́cio provar que, se tais constantes existem, as métricas são equivalentes. Ve-
jamos agora que, se as normas são equivalentes, então existem constantes C, c > 0 com as propriedades
desejadas. Recorde que a equivalência das normas é a mesma coisa que a equivalência das métricas induzi-
das pelas normas. Portanto, nossa hipótese é que

Hip: ∀{vn }n∈N ⊂ V ∀v ∈ V : kvn − vk1 → 0 ⇔ kvn − vk2 → 0.

Em particular, vale o que escrevemos acima quando v = 0.

Hip’: ∀{vn }n∈N ⊂ V : kvn k1 → 0 ⇔ kvn k2 → 0.

Agora suporemos para chegar a uma contradição que não existe a constante C apontada acima. Ou seja

(?) ∀C > 0 ∃vC ∈ V : kvC k2 > C kvC k1 .

47
Em particular, podemos encontrar um vetor vn ∈ V com kvn k2 > (n + 1) kvn k1 , para cada n ∈ N. Note
que tal vetor não pode ser 0 porque neste caso terı́amos kvn k2 = (n + 1) kvn k1 . Portanto, podemos (se
necessário) substituir cada vetor vn por vn /(n + 1)kvn k1 e deduzir que

1
(?) ⇒ ∃{vn }n∈N ⊂ V ∀n ∈ N : kvn k1 = e kvn k2 > (n + 1) kvn k1 = 1.
n+1

No entanto, isto contradiz Hip’: afinal, kvn k1 → 0 e kvn k2 6→ 0. Isto quer dizer que (?) nos levou a uma
contradição, o que implica que existe, sim, a constante C que querı́amos encontrar. Uma prova semelhante
mostra que a c > 0 desejada também existe. 2

3.4 Mais exercı́cios


Exercı́cio 3.5 Seja (X, dX ) um espaço métrico. Considere:

d0X (x, x0 ) := min{dX (x, x0 ), 1}.

Prove que esta é outra métrica sobre X e que ela é equivalente à métrica original.

Exercı́cio 3.6 Mostre que existe uma métrica sobre Rd equivalente à usual tal que d(x, y) ≤ 1 para todos
x, y ∈ Rd . Esta métrica pode vir de uma norma?

Exercı́cio 3.7 Sejam d1 , d2 métricas equivalentes sobre X 6= ∅. É verdade que (X, d1 ) é completo se e
somente se (X, d2 ) é completo?

Exercı́cio 3.8 Considere Ψ : [0, +∞) → [0, +∞). Seja (X, dX ) um espaço métrico e defina

dX,ψ (x, x0 ) := Ψ(dX (x, x0 )).

Dê condições suficientes sobre Ψ para que dX,ψ seja uma nova métrica sobre X, para qualquer (X, dX ).

Exercı́cio 3.9 Chame de X = [0, 1) e defina

φ(x) := (cos(2πx), sin(2πx)) (x ∈ X).

1. Mostre que φ é uma bijeção entre X e o cı́rculo unitário

S1 := {v ∈ R2 : |v|2 = 1}.

2. Prove que a seguinte expressão define uma métrica sobre X:

d1 (x, x0 ) := inf{|x − x0 + k| : k ∈ Z} (x, x0 ∈ X).

3. Prove que a expressão abaixo define uma métrica sobre X que é equivalente a d1

d2 (x, x0 ) := |φ(x) − φ(x0 )| (x, x0 ∈ X).

48
Exercı́cio 3.10 (Métricas produto) Suponha que (Xi , dXi ), i = 1, . . . , d, são espaços métricos. Escreve-
remos os elementos de
X := X1 × X2 × · · · × Xd
como x = (x[1], . . . , x[d]), com cada coordenada x[i] ∈ Xi . Mostre que para p ∈ [1, +∞) as expressão
v
u d
uX
p
dp (x, y) := t dXi (x[i], y[i])p (x, y ∈ X)
i=1

define uma métrica sobre X. Mostre ainda que uma sequência {xn }n∈N ⊂ X converge a um x ∈ X e
acordo com a métrica dp se e somente se {xn [i]}n∈N ⊂ Xi converge x[i] ∈ X para cada coordenada
1 ≤ i ≤ d. Prove um resultado semelhante para a propriedade de Cauchy e deduza que (X, dX ) é completo
se e somente se cada espaço (Xi , dXi ) é completo.

Exercı́cio 3.11 É um fato sabido que uma sequência limitada {xn }n∈N ⊂ R sempre tem uma subsequência
convergente. Generalize este resultado para Rd .

Exercı́cio 3.12 Considere um espaço vetorial V . Já vimos que uma norma sobre V induz naturalmente
uma métrica sobre V . No entanto, nem toda métrica sobre V vem de uma norma. Dê condições necessárias
e suficientes que uma métrica dV deve satisfazer para que exista uma norma k · kV tal que

∀v, w ∈ V : kv − wkV = dV (v, w).

Exercı́cio 3.13 Mostre que a métrica discreta e a métrica induzida por R são equivalentes sobre N ou Z,
mas não sobre Q.

Exercı́cio 3.14 Suponha que (V, k · kV ) é um espaço vetorial completo e k · k0V é uma outra norma sobre
V . Supondo que as duas normas são equivalentes, é necessariamente verdade que (V, k · k0V ) é completo?

Exercı́cio 3.15 Considere uma famı́lia enumerável de espaços métricos (Xi , di ), i ∈ N\{0}. Chamamos
de X o produto cartesiano infinito

X := X1 × X2 × X3 × X4 × . . .

e denotamos os elementos x ∈ X com x = (x[i])+∞


i=1 , com cada x[i] ∈ Xi . Mostre que a expressão

+∞
X
dX (x, y) := 2−i min{di (x[i], y[i]), 1} (x, y ∈ X)
i=1

define uma métrica sobre X e que

∀{xn }n∈N ⊂ X, ∀x ∈ X : dX (xn , x) → 0 ⇔ ∀i ∈ N\{0}, di (x[i]n , x) → 0.

Prove ainda que (X, dX ) é completo se e somente se cada (Xi , di ) é completo.

Exercı́cio 3.16 Dado um espaço métrico (X, dX ), dizemos que D ⊂ X é denso em X se e somente se todo
elemento de X é o limite de alguma sequência de elementos de D. Dizemos que (X, dX ) é separável se
X tem um subconjunto denso e enumerável. Prove que Rd e C([0, 1], R) são separáveis com suas métricas
usuais.

49
Exercı́cio 3.17 Defina `∞ (N) como sendo o conjunto de todas as sequências limitadas {an }n∈N ⊂ R.
Defina uma função sobre este espaço da seguinte forma:

k{an }n∈N k∞ := sup |an | ({an }n∈N ∈ `∞ (N)).


n∈N

Prove que podemos dar a `∞ (N) uma estrutura de espaço vetorial segundo a qual (`∞ (N), k · k∞ ) é um
espaço vetorial normado completo. Este espaço é separável?

Exercı́cio 3.18 (Um teorema de Fréchet) A tese de doutorado de Maurice Fréchet introduziu os conceitos
gerais de espaço métrico e compacidade. Ele também demonstrou o seguinte resultado.

Teorema: todo espaço métrico (X, dX ) separável e de diâmetro finito pode ser “posto dentro
de `∞ (N)”no seguinte sentido. Seja k · k a norma do problema anterior. Então:

(?) ∃φ : X → R ∀x, x0 ∈ X : kφ(x) − φ(x0 )k∞ = dX (x, x0 ).

Ou seja, há uma bijeção que preserva distâncias entre X (com a métrica dX ) e um subconjunto S =
φ(X) ⊂ `∞ (N) (com a métrica induzida por `∞ (N)). Note que o diâmetro de (X, dX ) é definido por
diam(X, dX ) := supx,x0 ∈X dX (x, x0 ).
Para definir esta função φ, seja {xn }n∈N uma enumeração de um subconjunto denso de X. Dado
x ∈ X, definimos:
φ(x) := {an (x)}n∈N , onde an (x) := dX (x, xn ) (n ∈ N)
Ou seja, φ(x) “lista” a distância de x a todos os pontos da sequência {xn }n∈N . Prove que esta função
satisfaz (?).

50
Capı́tulo 4

Funções e continuidade

O capı́tulo anterior nos ensinou o que é convergência em espaços métricos. Isto nos permite definir conti-
nuidade de maneira fácil.

Definição 4.1 Considere dois espaços métricos (X, dX ) e (Y, dY ) e D ⊂ X Dizemos que f : D → Y é
contı́nua em x ∈ D se
∀{xn }n∈N ⊂ D : xn → x ∈ D ⇒ f (xn ) → f (x).
Dito de outro modo, queremos que:

∀{xn }n∈N ⊂ D, ∀x ∈ D : dX (xn , x) → 0 ⇒ dY (f (xn ), f (x)) → 0.

Dizemos que f é (simplesmente) contı́nua se ela é contı́nua em todos os pontos do domı́nio D.

Esta definição é das mais importantes do curso e vamos gastar bastante tempo analisando-a e testando-a
em exemplos. Uma primeira observação (praticamente trivial) está contida no exercı́cio a seguir.

Exercı́cio 4.1 Formalize e prove a seguinte afirmação: a composição de funções contı́nuas é uma função
contı́nua.

Outra observação às vezes útil é que:

Exercı́cio 4.2 A noção de continuidade não é modificada se as métricas do domı́nio e do contradomı́nio


são trocadas por outras métricas equivalentes.

Veremos a seguir alguns exemplos de funções contı́nuas.

4.1 Funções contı́nuas de X em R


Aqui o melhor é proceder a partir de exemplos.
Em primeiro lugar, conhecemos as funções contı́nuas f : D → R com D ⊂ R. Tome agora uma nova
função:
fi : x ∈ Di := {z ∈ Rd : z[i] ∈ D} 7→ f (x[i]) ∈ R.
Por exemplo, se f (t) = log t, com domı́nio D = R+ , fi (x) := log x[i], com domı́nio Di := {z ∈ Rd :
z[i] ∈ R+ }. Dizemos que este tipo de função só depende da i-ésima coordenada.

51
Afirmamos que esta função é contı́nua sempre que f é contı́nua. Para isto precisamos mostrar que se
{xn }n∈N ⊂ Di é uma sequência arbitrária com xn → x ∈ Di , então fi (xn ) → f (x). Para demonstrar isso,
recorde que nosso critério de convergência para sequências em Rd nos diz que xn [i] → x[i] em R. Além
disso, a definição de Di garante que {xn [i]}n∈N ⊂ D, x ∈ D. Concluı́mos que f (xn [i]) → f (x[i]) porque
f é contı́nua sobre D. Ou seja, f (xn ) → f (x), como querı́amos demonstrar.
Vejamos agora alguns exemplos mais interessantes.

Exercı́cio 4.3 Sabemos que o limite de um produto ou soma de sequências convergentes é o produto (ou
soma) dos limites. Deduza disto que, se D ⊂ X e f, g : D → R são contı́nuas, o mesmo vale para λ f + g
e f g (com λ ∈ R fixo). O mesmo vale para f /g sobre D6=0 := {z ∈ D : g(z) 6= 0}. (De fato, tudo isso
vale no caso em que D ⊂ X para um (X, dX ) arbitrário.)

Um outro exemplo importante é o dos funcionais lineares de Rd em R.

Exercı́cio 4.4 Considere X = Rd com a norma | · |2 usual. Lembre da definição de funcional linear
φ : Rd → R dada acima. Prove que, se φ corresponde ao vetor zφ ∈ Rd , então φ é |zφ |2 -Lipschitz, isto é:

∀x, x0 ∈ Rd : |φ(x) − φ(x0 )| ≤ |zφ |2 | |x − x0 |2 .

Exercı́cio 4.5 Chame uma função f : Rd → R de polinômio multivariado se existem um k ∈ N e coefici-


entes reais α(p1 ,...pd ) com (p1 , . . . , pd ) ∈ [k]d com
X
f (x) = α(p1 ,...pd ) (x[1])p1 (x[2])p2 . . . (x[d])pd (x ∈ Rd ).
(p1 ,...,pd )∈[k]d

Prove que todo polinômio multivariado é função contı́nua.

Exercı́cio 4.6 Mostre que as normas k · kp , 1 ≤ p ≤ +∞, são funções contı́nuas de Rd em R.

4.2 Funções Lipschitz e distâncias


Continuando na linha anterior, vamos definir e analisar a continuidade de algumas funções baseadas em
distâncias. Para isso vai ser útil introduzir o conceito de função Lipschitz.

Definição 4.2 Considere dois espaços métricos (X, dX ) e (Y, dY ) e D ⊂ X Dada uma constante L > 0,
dizemos que f : D → Y é L-Lipschitz se

∀x, x0 ∈ D : dY (f (x), f (x0 )) ≤ L dX (x, x0 ).

Já é sabido de Análise na Reta que funções L-Lipschitz são contı́nuas. Verifiquemos isto para espaços
métricos arbitrários. Suponha f : D → Y é L-Lipschitz, {xn }n∈N ∪ {x} ⊂ D e xn → x, isto é,
dX (xn , x) → 0. Veja que
0 ≤ dY (f (xn ), f (x)) ≤ L dX (xn , x) → 0,
logo dY (f (xn ), f (x)) está entre duas sequências que vão a 0. Deduzimos que dY (f (xn ), f (x)) → 0, ou
seja f (xn ) → f (x). Como isto vale para todos {xn }n∈N ∪ {x} e f como acima, podemos deduzir que
funções Lipschitz são sempre contı́nuas.
Podemos prosseguir observando que várias funções derivadas de distâncias são 1-Lipschitz.

52
Exemplo 4.1 Fixo x0 ∈ X, a função x ∈ X 7→ dX (x, x0 ) ∈ R é 1-Lipschitz. De fato, para quaisquer
x, x0 ∈ X, a desigualdade triangular nos diz que

dX (x, x0 ) ≤ dX (x0 , x0 ) + dX (x, x0 )

e
dX (x0 , x0 ) ≤ dX (x, x0 ) + dX (x, x0 ),

portanto
dR (dX (x, x0 ), dX (x0 , x0 )) = |dX (x, x0 ) − dX (x0 , x0 )| ≤ dX (x, x0 ).

Exemplo 4.2 Fixe agora um conjunto S ⊂ X, a função

x ∈ X 7→ dX (x, S) := inf dX (x, s) ∈ R


s∈S

é bem definida, no sentido que os valores dX (x, s) são todos cotados inferiormente por 0 (afinal, a métrica
é positiva definida). Veja que, do mesmo jeito que provamos acima,

dX (x, S) = inf dX (x, s) ≤ inf (dX (x0 , s) + dX (x, x0 )) = dX (x0 , S) + dX (x, x0 ).


s∈S s∈S

Repetindo a conta trocando os papeis de x e x0 e reusando as ideias da prova anterior, deduzimos que

dR (dX (x, S), dX (x0 , S)) = |dX (x, x0 ) − dX (x0 , x0 )| ≤ dX (x, x0 ).

Exemplo 4.3 Como um último exemplo, tomamos uma sequência de Cauchy {xn }n∈N ⊂ X. Afirmamos
que a expressão
f (x) := lim dX (x, xn ) (x ∈ X)
n

define uma função 1-Lipschitz f : X → R.

Para provar isso, primeiro temos que mostrar que f (x) está bem definido para todo x ∈ X; ou seja, que o
limite acima existe. Mas para isso basta reusar um exemplo acima e observar que

Quando m, n → +∞, |dX (x, xn ) − dX (x, xm )| ≤ dX (xn , xm ) → 0,

de modo que, para cada x ∈ X fixo, a sequência {dX (x, xn )}n é Cauchy e portanto convergente.
Para provar que f é 1-Lipschitz, tomamos x, x0 ∈ X arbitrários e, novamente usando as ideias anteriores,
observamos o seguinte:

|f (x) − f (x0 )| = lim |dX (x, xn ) − dX (x0 , xn )| ≤ dX (x, x0 ).


n∈N

A principal “graça” deste problema é que ele resulta no exercı́cio a seguir.

Exercı́cio 4.7 Prove que, se (X, dX ) não é completo, então existe uma função f : X → (0, 1] com f (x) > 0
para todo x ∈ X, mas inf x∈X f (x) = 0.

53
4.3 Funções contı́nuas sobre as funções contı́nuas
Consideremos agora o espaço C := C(I, R), com I = [a, b] ⊂ R um intervalo fechado e limitado munido
da norma k · kC := k · kI,∞ . Os elementos de C são funções contı́nuas f : I → R. Mas também podemos
definir algumas funções contı́nuas sobre este espaço. Eis alguns exemplos naturais.

Exemplo 4.4 Dado t ∈ I, defina a aplicação et : C → R que leva f ∈ C em f (t). Esta é uma função de
C em R.

Veja que, dadas f, g ∈ C

|et (f ) − et (g)| = |f (t) − g(t)| ≤ sup |f (s) − g(s)| = kf − gkI,∞ .


s∈I

Portanto, et é uma aplicação 1-Lipschitz de C em R. Em particular, ela é uma aplicação contı́nua.

Exemplo 4.5 R y Dados a ≤ x, y ≤ b, defina a aplicação Ix,y : C → R que leva f ∈ C na integral definida
Ix,y (f ) := x f (t) dt ∈ R. Esta também é uma função de C em R.

Dadas f, g ∈ C, as propriedades usuais da integral definida nos dizem que:


Z y

|Ix,y (f ) − Ix,y (g)| = (f (t) − g(t)) dt
x
≤ |x − y| sup |f (t) − g(t)|
t∈[x,y]
≤ |y − x| sup |f (t) − g(t)|
t∈I
≤ |y − x| kf − gkI,∞ .

Ou seja, Ix,y é uma função L-Lipschitz de C em R, com L := |y − x|.

Exemplo 4.6 Vamos agora considerar uma função de I : C → C que associa a cada f ∈ C uma nova
função I(f ) ∈ C. Para definir esta função I(f ) precisamos definir para cada t ∈ I um valor I(f )(t).
Faremos isso dizendo que
Z t
I(f )(t) := f (s) ds (t ∈ I).
a

Ou seja, I(f ) é a única função com as seguintes duas propriedades: a derivada de I(f ) é f e I(f )(a) = 0.
Obviamente I(f ) ∈ C, pois toda função diferenciável é contı́nua.

Provemos agora que I : C → C é (b − a)-Lipschitz. O que queremos é mostrar que, dadas f, g ∈ C:


Z t

kI(f ) − I(g)kI,∞ = sup (f (s) − g(s)) ds ≤ (b − a) kf − gkI,∞ .
t∈I a
Rt
Mas isto segue do fato que | a (f (s) − g(s)) ds| ≤ (t − a) sups∈[a,t] |f (s) − g(s)| para cada t ∈ I.

Exercı́cio 4.8 Mostre que Ix,y = ey ◦ I − ex ◦ I.

54
Exemplo 4.7 (EDOs e pontos fixos) Dados (t0 , x0 ) ∈ R × R e Ψ : R → R contı́nua, definimos uma nova
aplicação TΨ,t0 ,x0 : C → C da seguinte forma: dada f ∈ C, TΨ,t0 ,x0 (f ) ∈ C é a função cujos valores em
cada ponto t ∈ I são dados por
Z t
TΨ,t0 ,x0 (f )(t) := x0 + Ψ(f (s)) ds.
t0

Novamente é fácil ver que TΨ,t0 ,x0 é uma função dem-definida de C em C. A importância dela tem a ver
com a teoria de equações diferenciais ordinárias (ou EDOs). De fato, é um exercı́cio mostrar que uma
função f : I → R resolve o problema de Cauchy autônomo no tempo
 0
f (t) = Ψ(f (t)) (t ∈ I)
f (t0 ) = x0

se e somente se f é um ponto fixo de TΨ,t0 ,x0 , ou seja, f = TΨ,t0 ,x0 (f ). Mais adiante desenvolveremos
ferramentas para provar que certas funções contı́nuas têm um único ponto fixo, provando assim que o
problema de Cauchy acima tem uma única solução.

Queremos agora provar que T = TΨ,t0 ,x0 é contı́nua. Ou seja, dadas {fn }n∈N ∪ {f } ⊂ C, precisamos
mostrar que:
kfn − f k∞ → 0 ⇒ kT (fn ) − T (f )k∞ → 0.
Vamos proceder por partes. Note que

kT (fn ) − T (f )k∞ = kI(Ψ ◦ fn ) − I(Ψ ◦ f )k∞ ≤ (b − a) kΨ ◦ fn − Ψ ◦ f k∞ .

Portanto, o que precisamos é provar que Ψ ◦ fn converge a Ψ ◦ f uniformemente sobre I. Ou seja,


queremos mostrar que:

∀ε > 0 ∃n0 ∈ N ∀n ≥ n0 : kΨ ◦ fn − Ψ ◦ f k∞ ≤ ε.

Antes de partir para prova, faremos algumas observações. A convergência pontual está assegurada
porque Ψ é contı́nua e fn → f pontualmente, de modo que:

∀t ∈ I : fn (t) → f (t) e portanto Ψ ◦ fn (t) = Ψ(fn (t)) → Ψ(f (t)) = Ψ ◦ f (t).

A convergência uniforme é um pouco mais sutil. O fato de que fn (t) converge uniformemente a f (t)
não implica diretamente que Ψ ◦ fn (t) to Ψ ◦ f (t). Para isso, teremos de usar o fato que Ψ é uniformemente
contı́nua sobre intervalos compactos. Ou seja, precisamos nos recordar que:

∀M > 0 ∀η > 0 ∃δ = δ(M, η) > 0 : ∀x, y ∈ [−M, M ], |x − y| ≤ δ ⇒ |Ψ(x) − Ψ(y)| ≤ ε.

Note que, em nossa prova, queremos estudar os valores de |Ψ(x) − Ψ(y)| quando x = fn (t) e y = f (t).
Por isso, tomaremos M de modo que os valores de fn (t) e f (t) estejam em [−M, M ] para todo n. De fato,
veja que

0 ≤ |kfn k∞ − kf k∞ | ≤ kfn − f k∞ → 0 ⇒ kfn k∞ → kf k∞ ⇒ M := sup kfn k∞ < +∞.


n∈N

55
Com essa escolha de M , temos que

∀n ∈ N, ∀t ∈ I : |fn (t)| ≤ kfn k∞ ≤ M , ou seja, fn (t) ∈ [−M, M ]

e o mesmo vale para os valores de f (t).


Fixo este M , e dado um ε > 0, podemos tomar δ = δ(M, ε). Sabemos que existe um n0 = n0 (ε) tal
que:
∀n ≥ n0 , ∀t ∈ I : fn (t), f (t) ∈ [−M, M ] e |fn (t) − f (t)| ≤ kfn − f k∞ ≤ δ.
Portanto, pela nossa escolha de δ,

∀n ≥ n0 ∀t ∈ I : |Ψ(fn (t)) − Ψ(f (t))| ≤ ε.

Ou seja:
∀n ≥ n0 : kΨ ◦ fn − Ψ ◦ f k∞ ≤ ε.
Trocando em miúdos, dado ε > 0, fomos capazes de encontrar n0 tal que para todo n ≥ n0 vale que
kΨ ◦ fn − Ψ ◦ f k∞ ≤ ε.
Nosso último exemplo é de uma função que não é contı́nua.

Exemplo 4.8 Suponha I = [0, 1] e seja D ⊂ C(I, R) o conjunto de todas as funções diferenciáveis em
t = 1/2. Defina D : D → R como D(f ) := f 0 (1/2), f ∈ D. Argumentamos que D não é contı́nua.

De fato, basta observar que existem funções próximas de 0 na norma do sup que têm derivada arbitrari-
amente grande em t = 1/2. Por exemplo, tomando
1
fk (x) := sin(k 2 (x − 1/2)), (x ∈ [0, 1])
k
temos que kfk kI,∞ = 1/k → 0, mas D(fk ) = fk0 (1/2) = k → +∞.

A observação inocente de que a derivada não é contı́nua tem consequências importantes. Um pro-
blema que abordaremos mais tarde é o de diferenciar uma função f = limk fk . Gostarı́amos de dizer que
f 0 (t) = limk→+∞ fk0 (t), mas, como vimos acima, isto nem sempre é verdade. Deste modo, o problema de
diferenciar um limite de funções não é trivial. Em geral só conseguiremos tratar este problema trocando a
derivada, que é mal comportada, por um problema equivalente envolvendo integrais. Por exemplo, é por
esta razão que formulamos o problema de Cauchy em termos de integrais e não de derivadas.

4.4 Funções contı́nuas de X em Rd


Aqui só temos uma observação a fazer. Se f : D ⊂ X → Rd e x ∈ D são dados, podemos escrever o vetor
f (x) ∈ Rd em coordenadas
f (x) = (f [1](x), f [2](x), . . . , f [d](x)).
Isto induz funções f [i] : X → R. Como a convergência de elementos de Rd é equivalente à convergência de
todas as coordenadas, vemos que f (xn ) → f (x) se e somente se f [i](xn ) → f [i](x) para cada 1 ≤ i ≤ d.
Usando isto, não é difı́cil provar o resultado a seguir.

Exercı́cio 4.9 Prove que f : D ⊂ X → Rd é contı́nua em x ∈ D se e somente se cada uma das funções-
coordenada f [i] : D → X definidas acima é contı́nua.

56
4.5 Transformações e funcionais lineares
Uma classe especial de funções contı́nuas merece uma consideração especial.

Definição 4.3 Se V, W são espaços vetoriais reais, uma função T : V → W é dita uma transformação
linear se:
∀v, v 0 ∈ V, ∀λ ∈ R : T (λ v + v 0 ) = λT (v) + T (v 0 ).
Se W = R, dizemos que T é um funcional linear.

Já estudamos os funcionais lineares na seção 2.2.2 acima. Também naquela seção falamos da corres-
pondência entre transformações lineares e matrizes. Vamos recordar como isso funciona.

Exemplo 4.9 Tome uma transformação linear T : Rd → R` qualquer. Note que para cada x ∈ Rd ,
podemos chamar de T (j) (x), 1 ≤ j ≤ `, as coordenadas de T (x) ∈ R` . É um exercı́cio mostrar que os T (j)
são funcionais lineares e portanto são contı́nuos. Em particular, T : Rd → R` é contı́nua, pelos da Seção
4.4.

Exemplo 4.10 Usando a notação da Seção 4.3, as funções et , Ix,y : C → R são funcionais lineares
contı́nuos (posto que Lipschitz), I : C → C também é Lipschitz (logo contı́nua) e TΨ,t0 ,x0 em geral não
é linear. O operador D é um funcional linear descontı́nuo sobre o subconjunto D ⊂ C das funções dife-
renciáveis em t = 1/2, que também é um espaço vetorial real.

Um ponto interessante a se notar é que, neste último exemplo, todos os funcionais e transformações
lineares que provamos serem contı́nuos são de fato funções Lipschitz. O teorema abaixo – o penúltimo
deste capı́tulo – nos diz que isto não é coincidência.

Teorema 4.1 Considere dois espaços vetoriais reais normados (V, k·kV ), (W, k·kW ). Dada uma transformação
linear T : V → W , são equivalentes:

1. T é limitada, ou seja:
kT kV →W := sup kT (v)kW < +∞.
v∈V,kvkV =1

2. T é L-Lipschitz para algum L > 0.

3. T é contı́nua no ponto 0V .

Prova: 1⇒2. Chame de L := kT kV →W . Afirmamos que para quaisquer v, v 0 ∈ V vale a desigualdade


kT (v) − T (v 0 )kW ≤ L kv − v 0 kV . De fato, esta desigualdade é trivialmente satisfeita se v = v 0 . Caso
contrário, podemos olhar para o vetor z := (v − v 0 )/kv − v 0 kV ; ele tem norma kzkV = 1 e portanto
kT (z)kW ≤ kT kV →W = L. Deduzimos por linearidade que

T (v) − T (v 0 ) kT (v) − T (v 0 )kW


T (z) = , portanto = kT (z)kW ≤ L,
kv − v 0 kV kv − v 0 kV
como querı́amos demonstrar.

2⇒3 é direto.

57
3⇒1. A ideia da prova é muito semelhante à que usamos na prova do Teorema 3.3. Supondo (para
chegar a uma contradição) que T não é limitado, podemos encontrar, para cada n ∈ N, um vetor vn ∈ V
com kvn kV = 1 e kT (vn )kW ≥ n + 1. Isto quer dizer que, por um lado, vn /(n + 1) → 0V , mas, por outro
lado (usando linearidade),  
vn = kT (vn )kW = 1 6→ 0.

T
n + 1 W n+1
Isto quer dizer que T não é contı́nuo, o que contradiz a hipótese 3. Deduzimos que T é, sim, limitado, como
querı́amos demonstrar. 2

4.6 Transformações multilineares e tensores


Uma extensão importante das espaços vetoriais é a de transformações multilineares.

Definição 4.4 Considere espaços vetoriais reais V1 , V2 , . . . , Vk , W com suas respectivas normas. Uma
função:
Q : V1 × V2 × · · · × Vk → W
é dita transformação k-linear se é linear em cada argumento, isto é, se, dados um ı́ndice i ∈ [k] e vetores
vj ∈ Vj , j ∈ [k]\{i}, a função

Qi : ṽi ∈ Vi 7→ Q(v1 , . . . , vi−1 , v˜i , vi+1 , . . . , vk ) ∈ W

é uma transformação linear de V em W . Dizemos que Q é limitada se


kQ(v1 , v2 , . . . , vk )kW
kQkV1 ×...Vk →W := sup Qk < +∞.
(v1 ,...,vk )∈(V1 \{0V1 })×···×(Vk \{0Vk }) i=1 kvi kVi

Ou seja, Q é multilinear se é “linear em cada coordenada”. Veremos mais adiante no curso que as
funções k-lineares aparecem como as derivadas de ordem k de funções entre espaços vetoriais.
Logo de cara, provamos um teorema parecido com o Teorema 4.1 relacionando continuidade e limitação.

Teorema 4.2 No contexto da definição acima, dote o espaço produto V := V1 × V2 × · · · × Vk da norma:


k
X
k(v1 , . . . , vk )kV := kvi kVi ((v1 , . . . , vk ) ∈ V ).
i=1

Então Q : V → W é contı́nua se e somente se é limitada.

Veja que, neste caso, não garantimos que Q é Lipschitz. De fato, funções bilienares em geral não são
Lipschitz. O exemplo mais simples é o da função produto Q : R × R → R que leva (x, y) em xy.
Prova: Vamos começar provando que “limitada⇒contı́nua”.
Suponha que L := kQkV1 ×...Vk →W < +∞. Imagine que temos uma sequência {vn }n∈N ⊂ V e um
ponto v ∈ V com vn → v. Nosso objetivo será mostrar que Q(vn ) → Q(v).
Escrevemos
vn = (vn,1 , vn,2 , . . . , vn,k ) ∈ V1 × V2 × · · · × Vk
e
v = (v1 , v2 , . . . , vk ) ∈ V1 × V2 × · · · × Vk .

58
A ideia principal da prova é a seguinte. A convergência vn → v implica que vn,i → vi , como veremos
a seguir. Deste modo, esperamos que vn,i esteja próximo de vi para n grande. Nossa ideia será usar essa
proximidade “coordenada a coordenada” para comparar Q(vn ) e Q(v). Para isso, vamos tentar escrever
Q(v) − Q(vn ) passando de v a vn de uma forma que só muda uma coordenada de cada vez, porque aı́
poderemos usar a linearidade.
Para ilustrar isso, vamos considerar o caso em que k = 2 e Q é bilinear. Dados v = (v1 , v2 ), u =
(u1 , u2 ) ∈ V podemos escrever:

Q(v1 , v2 )−Q(u1 , u2 ) = Q(v1 , v2 )−Q(u1 , v2 )+Q(u1 , v2 )−Q(u1 , u2 ) = Q(v1 −u1 , v2 )+Q(u1 , v2 −u2 ).

Portanto,

kQ(v1 , v2 ) − Q(u1 , u2 )k ≤ kQkV →W kv1 − u1 kV1 kv2 kV2 + kQkV →W ku1 kV1 kv2 − u2 kV2 .

Disso podemos deduzir que, se u1 → v1 e u2 → v2 , então Q(u1 , u2 ) → Q(v1 , v2 ). Daremos mais detalhes
abaixo na prova para Q geral.
Comecemos com a parte de convergência. Nossa hipótese diz que
k
X
kv − vn kV = kvi − vn,i kVi → 0.
i=1

Como os termos da soma acima são não-negativos, temos que

0 ≤ min kvi − vn,i kVi ≤ max kvi − vn,i kVi → 0.


1≤i≤k 1≤i≤k

Portanto,
∀1 ≤ i ≤ k : kvi − vn,i kVi → 0.
Em particular, cada sequência kvi − vn,i kVi é limitada, de modo que existe um C > 0 com

∀1 ≤ i ≤ k, ∀n ∈ N : kvi − vn,i kVi ≤ C.


(j)
Consideramos agora termos “intermediários”wn entre vn e v, com j = 0, . . . , k, que definimos da
seguinte forma.
(j) (j) (j)
wn(j) = (wn,1 , wn,2 , . . . , wn,k ) ∈ V1 × V2 × · · · × Vk
onde 
(j) vn,i , i ≤ j;
wn,i = (i ∈ [k])
vi , i > j.
(0) (k) (j) (j−1)
Deste modo, wn = v, wn = vn e cada wn difere de wn apenas na j-ésima coordenada. Podemos
ainda usar uma soma geométrica para escrever:
k
X
Q(v) − Q(vn ) = Q(wn(j) ) − Q(wn(j−1) ).
j=1

Portanto,
k
X
kQ(v) − Q(vn )kW ≤ kQ(wn(j) ) − Q(wn(j−1) )kW .
j=1

59
(j) (j−1)
Recorde agora que cada wn difere de wn apenas na j-ésima coordenada. Esse é o tipo de situação em
que a multilinearidade de Q se aplica. Mais exatamente, vemos que

 vn,i , i < j;
(j) (j) (j)
Q(wn(j) ) − Q(wn(j−1) ) = Q(xn,1 , . . . , xn,k ) onde xn,k = vn,j − vj , i = j; (i ∈ [k]).
vi , i > j.

Portanto,

k
(j)
Y
kQ(wn(j) ) − Q(wn(j−1) )kW ≤ kQkV1 ×···×Vk →W kxn,k kVj ≤ L C k−1 kvn,j − vj kVj .
j=1

Deduzimos que
k
X
k−1
kQ(v) − Q(vn )kW ≤ L C kvn,j − vj kW → 0,
j=1

como querı́amos demonstrar.


Resta provar que “contı́nua⇒limitada”. De fato, usaremos a forma contrapositiva “não-limitada⇒não-
contı́nua”. Se Q não é limitada, então para qualquer n ∈ N existem vn,1 ∈ V1 \{0V1 }, . . . , vn,k ∈ Vk \{0Vk }
com
kQ(vn,1 , vn,2 , . . . , vn,k )kW
Qk ≥ n.
i=1 kvn,i kVi

Se definimos un,i = vn,i / ln nkvn,i kVi e

un = (un,1 , . . . , un,k ) ∈ V,

vemos que
Q(vn,1 , vn,2 , . . . , vn,k )
Q(un,1 , un,2 , . . . , un,k ) = Qk
i=1 (ln n kvn,i kVi )

e portanto kQ(un,1 , un,2 , . . . , un,k )kW ≥ n/(ln n)k → +∞. Por outro lado,

k
X k
k(un,1 , un,2 , . . . , un,k )kV = kun,i kVi = → 0.
ln n
i=1

Portanto, achamos uma sequência {un }n∈N ⊂ V que converge a 0V , sem que Q(un ) converja a Q(0V ).
2

Exercı́cio 4.10 Por que escolhemos a função ln n na hora de “renormalizar os vn,i ” na prova acima?
Mostre que, de fato, poderı́amos ter tomado a função n1/k−a acima, com qualquer 0 < a < 1/k, e a mesma
estratégia ainda funcionaria.

60
4.6.1 Tensores em dimensão finita
(dj ) dj
Como são as funções multilineares Q : Rd1 × Rd2 × . . . Rdk → R com k ≥ 2? Vamos chamar de {ei }i=1
a base canônica de Rdj . Como todo xj ∈ Rdj é da forma
dj
(dj )
X
xj = xj [i] ei
i=1
temos que
d1
X dk
X
Q(x1 , . . . , xk ) = ··· A[i1 , . . . , ik ] x1 [i1 ] x2 [i2 ] xk [ik ] (x1 ∈ Rd1 , . . . xk ∈ Rdk ). (4.1)
i1 =1 ik =1
(d ) (d )
onde A[i1 , . . . , ik ] := Q(ei1 1 , . . . , eik k ) ∈ R.
Do mesmo modo, se chamados de tensor qualquer elemento do espaço
Rd1 ×d2 ×···×dk := {A = (A[i1 , . . . , ik ])i1 ∈[d1 ]....,ik ∈[dk ] : cada A[i1 , . . . , ik ] ∈ R},
vemos que cada tensor define uma transformação multilinear de Rd1 × . . . Rdk em R. Portanto, há uma
correspondência biunı́voca entre tensores e tais transformações. Em particular, no caso k = 2, os tensores
são matrizes as funções bilineares correspondentes são formar quadráticas.
Q(x, y) = x · Ay
A extensão para o caso em que o contradomı́nio é (W, k · kW ) é imediata.
Um ponto importante é que, no contexto em que estamos trabalhando, toda Q multilinear é contı́nua.
Proposição 4.1 Toda transformação multilinear Q : Rd1 × Rd2 × . . . Rdk → R é contı́nua.
Prova: Como sabemos, basta provar que Q é limitada.
Considere o tensor A correspondente e chame de
L := max |A[i1 , . . . , ik ]|.
(i1 ,...,ik )∈[d1 ]×···×[dk ]

Veja que, dado (x1 , . . . , xk ) no domı́nio do tensor:



dk
d1
X X

|Q(x1 , . . . , xk )| = ··· A[i1 , . . . , ik ] x1 [i1 ] x2 [i2 ] xk [ik ]
i1 =1 ik =1
d1
X dk
X
≤ ··· |A[i1 , . . . , ik ]| |x1 [i1 ]| |x2 [i2 ]| |xk [ik ]|
i1 =1 ik =1
d1
X dk
X
≤ L ··· |x1 [i1 ]| |x2 [i2 ]| |xk [ik ]|
i1 =1 ik =1
k
Y
= L kxi k1
i=1
k
k Y
≤ Ld2 kxi k2 .
i=1

Deduzimos que a norma de Q é no máximo L dk/2 . 2

61
4.6.2 Alguns exemplos em dimensão infinita
Agora tomamos C = C(I, R) com I = [a, b], a < b reais. Veremos dois exemplos de transformação
bilinear de C × C em C.

Exemplo 4.11 (Produto) Defina Prod : C × C → C via a fórmula

Prod(f, g) := f g.

Ou seja, a função Prod toma como entrada duas funções contı́nuas e retorna seu produto f g.

Como o produto de funções contı́nuas é uma função contı́nua, esta é uma aplicação bem definida de
C × C em C.
A bilinearidade de Prod fica como exercı́cio. Para mostrar que esta aplicação é limitada, e portanto
contı́nua, basta observar que:
kProd(f, g)k∞ ≤ kf k∞ kgk∞
e portanto
kProdkC×C→C ≤ 1.

Exemplo 4.12 (Convolução) Suponha para simplificar que [a, b] = [0, 1]. Defina Conv : C × C → C via
a fórmula Z t
Conv(f, g)(t) = f ∗ g(t) := f (s) g(t − s) ds (t ∈ I).
0

Para fixar, a expressão acima quer dizer o seguinte: dadas as funções f, g : I → R, formamos uma
nova função Conv(f, g) = f ∗ g. Essa função estará definida do momento em que especificamos o valor de
f ∗ g(t) para cada ponto t ∈ I. Nossa especificação é dada pela integral acima.
Queremos provar que esta é uma operação bilinear limitada (contı́nua) Conv : C × C → C. A bilinea-
ridade é evidente e a limitação vem do fato de que
Z t

∀t ∈ [0, 1] : f (s) g(t − s) ds ≤ sup |f (s)| |g(t − s)| ≤ kf k∞ kgk∞ .
0 t,s∈I

Portanto,
∀f, g ∈ C : kConv(f, g)k∞ ≤ kf k∞ kgk∞ .
A parte mais difı́cil do argumento é mostrar que f ∗ g é uma função contı́nua para quaisquer f, g ∈ C. Para
fazer isso, fixamos primeiramente um t0 ∈ I e estimamos a diferença:

f ∗ g(t) − f ∗ g(t0 )

no caso em que |t − t0 | = δ. Para facilitar, supomos que t0 ≤ t, pois o outro caso é análogo. Veja que
Z t Z t0
f ∗ g(t) − f ∗ g(t0 ) = f (s) g(t − s) ds − f (s) g(t0 − s) ds
0 0
Z t0 Z t
0
= f (s) (g(t − s) − g(t − s)) ds + f (s) g(t − s) ds
0 t0
=: (I) + (II).

62
O termo (II) acima é no máximo:
Z t
f (s) g(t − s) ds ≤ |t − t0 | sup |f (s)| |g(t − s)| ≤ δ kf k∞ kgk∞ .

|(II)| =
t0 t,s∈I

Já o primeiro termo (I) é limitado por:


Z 0
t
|(I)| = f (s) (g(t − s) − g(t0 − s)) ds

0
≤ sup |f (s)||g(t − s) − g(t0 − s)|
t,t0 ,s∈I : |t−t0 |≤δ
≤ kf k∞ sup |g(a) − g(b)|.
a,b∈I, |a−b|≤δ

Portanto,

|t − t0 | = δ ⇒ 0 ≤ |f ∗ g(t) − f ∗ g(t0 )| ≤ δ kf k∞ kgk∞ + kf k∞ sup |g(a) − g(b)|.


a,b∈I, |a−b|≤δ

Agora imagine que t0 → t, de modo que δ → 0. Veja que o primeiro termo do lado direito vai a 0. O
segundo também, porque g : I → R é contı́nua e portanto uniformemente contı́nua. Deduzimos que:

0 ≤ lim
0
|f ∗ g(t) − f ∗ g(t0 )| ≤ lim sup(δ kf k∞ kgk∞ + kf k∞ sup |g(a) − g(b)|) = 0.
t →t δ→0 a,b∈I, |a−b|≤δ

Ou seja, f ∗ g é contı́nua em t, para qualquer t ∈ I.

4.7 Mais exercı́cios


Exercı́cio 4.11 Este exercı́cio mostra que toda função contı́nua e limitada de um espaço métrico em R é
o limite pontual de uma sequência crescente de funções Lipschitz. Nos últimos itens, discutiremos se esta
convergência pode ser tomada uniforme.
Tome um espaço métrico (X, dX ) e uma função limitada f : X → R. Dado M > 0, chame de fM a
seguinte aproximação de f , chamada de ı́nfimo-convolução:

fM (x) := inf (f (y) + M dX (x, y)).


y∈X

1. Mostre que fM (x) ≤ f (x) para todo x ∈ X.

2. Prove que fM é M -Lipschitz.

3. Demonstre que se x ∈ X e M < M 0 são dados, fM (x) ≤ fM 0 (x).

4. Prove que, quando M % +∞, fM (x) % f (x) para todo ponto x ∈ X onde f é contı́nua. [Dica:
observe que o inf na definição de fM pode ser tomado no conjunto de pontos y ∈ X com d(x, y) ≤
2kf k∞ /M .]

5. A convergência no item anterior pode ser sempre tomada uniforme em x ∈ X? Explique.

63
6. Recorde que f é uniformemente contı́nua

∀ε > 0 ∃δ > 0 ∀x, y ∈ X : d(x, y) ≤ δ ⇒ |f (x) − f (y)| ≤ ε.

Mostre que, se f é uniformemente contı́nua, então kfM − f k∞ → 0.

Mais adiante você poderá provar que kfM − f k∞ → 0 quando X é compacto.

Exercı́cio 4.12 Suponha que f, g : [0, 1] → R e que f com um número finito de descontinuidades. Nosso
objetivo será provar que, mesmo nesse caso, f ∗ g herda propriedades boas de g.

1. Mostre, se g é contı́nua, então f ∗ g é bem definida e contı́nua.

2. Suponha agora que g é diferenciável com derivada contı́nua. Mostre que f ∗ g é diferenciável.

Exercı́cio 4.13 Mostre que o operador de convolução iterada f1 ∗ f2 ∗ · · · ∗ fk é um operador k-linear e


limitado sobre (C([0, 1], R))k .

64
Capı́tulo 5

Um interlúdio sobre curvas, derivadas e


integrais

Neste capı́tulo, damos uma pausa na nossa teoria geral para desenvolver os rudimentos de um cálculo para
curvas parametrizadas, isto é, funções contı́nuas ψ : I → V , com I ⊂ R compacto e (V, k · kV ) Banach.
Veremos abaixo várias coisas distintas.

1. Funções contı́nuas de I em V são limitadas e uniformemente contı́nuas, como no caso de V = R.

2. Há noções naturais de integral e derivada para tais funções, que têm propriedades boas.

5.1 Uma teoria de funções contı́nuas de I em V


Dados (V, k · kV ) Banach e I = [a, b] ⊂ R, com −∞ < a < b < +∞, chamamos de C = C(I, V ) o
espaço das funções contı́nuas de I em V .
Assim como C(I, R), este espaço tem uma estrutura natural de espaço vetorial. Seu elemento nulo 0C
é a função constante igual a 0V . Dadas funções f, g ∈ C e um escalar λ ∈ R, uma nova função λ f + g é
definida via:
(λ f + g)(t) = λ f (t) + g(t) (t ∈ I).
A única diferença para o caso em que V = R é que as operações de soma e produto do lado direito são em
V e não em R.
Há muitas boas razões para se considerar essa classe de funções. Por exemplo, se V = R3 , podemos
vizualizar cada elemento de C como uma trajetória no espaço tridimensional. Se queremos modelar a
evolução de posição e momento de N particulas clássicas em R3 , precisamos tomar V = R6N . Em outros
contextos, pode ser interessante tomar V ainda mais geral.
Elaboraremos agora uma teoria básica do espaço C. Nosso primeiro objetivo será definir uma norma
nele de modo a torná-lo um espaço de Banach.

Proposição 5.1 A expressão abaixo define uma norma k · kV em C:

kf kC := sup kf (t)kV (f ∈ C).


t∈I

Com essa norma, (C, k · kC ) é completo (Banach).

65
Prova: Nosso primeiro passo será argumentar que k · kC é uma função de C em [0, +∞). Para isso, o
primeiro passo é checar que 0 ≤ kf kC < +∞ para cada f ∈ C.
Isso é simples do momento que fazemos a seguinte observação.

Observação 5.1 dada f ∈ C, a função que leva t ∈ I kf (t)kV ∈ R é contı́nua. Portanto, ela é limitada e
atinge seu supremo1 .

Para ver isso, fixe f . Precisamos mostrar que, se {tn }n ∪{t} ⊂ C e tn → t, então kf (tn )kV → kf (t)kV .
O ponto é que, por hipótese, f é contı́nua. Usando a subaditividade da norma, temos:

0 ≤ |kf (tn )kV − kf (t)kV | ≤ kf (tn ) − f (t)kV → 0,

o que garante kf (tn )kV → kf (t)kV .


Provamos, portanto, a Observação 1, que nos garante que kf kC < +∞. Como kf (t)kV ≥ 0 sempre,
temos que kf kC ≥ 0. Portanto, k · kC : C → [0, +∞) é uma função bem-definida. Para provar que ela é
uma norma, precisamos provar que ela é positiva definida, homogênea positiva e subaditiva. Como a prova
é bem semelhante à do caso em que V = R, demonstraremos apenas a subaditividade.
De fato, dadas f, g ∈ C, podemos usar a subaditividade de k · kV e a definição de k · kC para provar que:

∀t ∈ I : kf (t) + g(t)kV ≤ kf (t)kV + kg(t)kV ≤ kf kC + kgkC .

Portanto, kf kC + kgkC é cota superior para os valores de kf (t) + g(t)kV , donde deduzimos que

kf + gkC = sup kf (t) + g(t)kV ≤ kf kC + kgkC


t∈I

para quaisquer f, g ∈ C. Ou seja, k · kC é mesmo subaditiva.


Falta demonstrar que (C, k · kC ) é completo. Ou seja, dada uma sequência {fn }n∈N com a propriedade
de Cauchy,
lim kfn − fm kC = 0,
m,n→+∞

precisamos mostrar que existe uma f : I → V contı́nua tal que kfn − f kC → 0. Novamente, o argumento é
bem parecido com o que vimos no caso de V = R e nos contentaremos em apresentar um esboço acelerado.
Seguimos as linhas gerais da prova do Teorema 3.2, que mostra que C(I, R) é completo.

1. Convergência pontual. Para cada t ∈ I, vemos que


n,m→+∞
0 ≤ kfn (t) − fm (t)kV ≤ kfn − fm kC → 0.

Portanto, {fn (t)}n∈N ⊂ V é Cauchy e (como V é completo) converge a algum valor f (t). A função
resultante f : I → V é o limite pontual das fn .

2. De pontual para uniforme. Dado t ∈ I,

0 ≤ kfn (t) − f (t)kV = lim kfn (t) − fm (t)kV ≤ sup kfn − fm kC ,


m→+∞ m≥n

logo
sup kfn (t) − f (t)kV → 0 quando n → +∞.
t∈I
1
Aqui estamos usando implicitamente o fato que I ⊂ R é compacto!

66
3. Limite uniforme de funções contı́nuas é função contı́nua. Suponha que tk → t em I. Queremos
mostrar que f (tk ) → f (t). Para isso, tomamos um n ∈ N e observamos que:

kf (tk ) − f (t)kV ≤ kfn (tk ) − fn (t)kV + kfn (tk ) − f (tk )kV + kfn (t) − f (t)kV
≤ kfn (tk ) − fn (t)kV + 2 sup kfn (s) − f (s)kV .
s∈I

Agora mandamos k → +∞ e observamos que

lim sup kf (tk )−f (t)kV ≤ lim sup kfn (tk )−fn (t)kV +2 sup kfn (s)−f (s)kV = 2 sup kfn (s)−f (s)kV ,
k→+∞ k→+∞ s∈I s∈I

porque fn é contı́nua. Portanto,

lim sup kf (tk ) − f (t)kV ≤ inf 2 sup kfn (s) − f (s)kV ≤ 2 lim sup kfn (s) − f (s)kV = 0.
k→+∞ n∈N s∈I n∈N s∈I

5.2 Continuidade uniforme


Nosso próximo passo é mostrar que toda função contı́nua f : I → V é uniformemente contı́nua.

Proposição 5.2 (Continuidade uniforme) Considere f ∈ C e defina, para cada δ > 0,

mf (δ) := sup kf (t) − f (s)kV .


t,s∈I, |t−s|≤δ

Então limδ&0 mf (δ) = 0.

Prova: A prova é exatamente a mesma que temos quando V = R. Tome uma sequência δn & 0. Para cada
n ∈ N,
∃tn , sn ∈ I : |tn − sn | ≤ δn e kf (tn ) − f (sn )kV ≥ mf (δn )/2.
Como I é compacto, podemos passar a uma subsequência (se necessário) e supôr tn → t ∈ I e δn → 0.
Veja que isso implica que sn → t, pois |tn − sn | ≤ δn → 0. Deduzimos:

mf (δn )
0 = kf (t) − f (t)kV = lim kf (tn ) − f (sn )kV (por continuidade) ≥ lim sup .
n n 2
2

5.3 Derivadas e a desigualdade do valor médio


Dados t ∈ I e f : I → V , dizemos que f é diferenciável em t se existe o limite:

f (t + h) − f (t)
f 0 (t) := lim .
h→0 h
A definição é a mesma do caso real e podemos fazer algumas considerações gerais relacionadas.

67
Exemplo 5.1 Se V = Rd , então f 0 (t) existe se e somente se cada uma das funções coordenadas f [i] é
diferenciável em t. Neste caso,
f 0 (t) = (f 0 [i](t))di=1 .
com uma diferença. Um dos principais teoremas do caso V = R é o Teorema do Valor Médio, que diz
que, dados x, y ∈ I, se f é diferenciável no intervalo entre x e y, então existe um ponto θ nesse intervalo tal
que
f (x) − f (y) = f 0 (θ) (x − y).
Esse resultado não vale para V mais gerais. De fato, ele falha já para V = R2 .
Exemplo 5.2 Se f (t) = (t2 , t3 ), t ∈ [0, 1], vemos que f (1) − f (0) 6= f 0 (θ) para qualquer θ ∈ [0, 1].
O que podemos guardar do caso unidimensional é uma cota na magnitude de f (x) − f (y). De fato,
temos a Desigualdade do Valor Médio neste caso.
Teorema 5.1 (Desigualdade do Valor Médio) Dados t, s ∈ I e f : I → R diferenciável, temos a desi-
gualdade
kf (t) − f (s)kV ≤ sup kf 0 (a)kV |t − s|.
a∈I

Prova: Se o sup acima é infinito, a desigualdade acima é trivialmente verdadeira. Suponha, então, que o sup
é finito e fixe κ > supa∈I kf 0 (a)kV . Mostraremos que
∀t, s ∈ I : kf (t) − f (s)kV ≤ κ |t − s|,
o que implica a desigualdade desejada quando tomamos κ & supa∈I kf 0 (a)kV . Note ainda que basta provar
o resultado acima com s ≥ t. Podemos, portanto, supôr que a ≤ t < b, porque, de outro modo, não há
s ∈ I à direita de t.
Antes de prosseguir, precisamos de uma observação. Fixe x ∈ I = [a, b]. Como

f (y) − f (x) 0
y − x → kf (x)kV < κ quando y → x,

V
podemos encontrar δx > 0 tal que:
kf (y) − f (x)kV
∀y ∈ I, x < y ≤ x + δx : ≤ κ.
y−x
Agora tome t ∈ I e chame de
I+ := {s ∈ [t, b] : kf (s) − f (t)kV ≤ κ (s − t)}.
Pela definição de δt , vemos que I+ ⊃ [t, t + δt ] ∩ [t, b]. Ao mesmo tempo, I+ ⊂ [t, b] é claramente fechado
e limitado.
Seja então S := sup I+ . Veja que S ∈ I+ porque este conjunto é fechado. Afirmamos que S = b, o que
termina a prova.
De fato, suponha para chegar a uma contradição que S < b. Então há um S < h < min{S + δS , b}
kf (h) − f (S)kV ≤ κ (h − S)
e, como S ∈ I+ ,
kf (S) − f (t)kV ≤ κ (S − t),
de modo que
kf (h) − f (t)kV ≤ kf (S) − f (t)kV + kf (h) − f (S)kV ≤ κ (h − t).
Portanto, h > S = sup I+ é elemento de I+ , contradição. 2

68
5.4 Integração
Agora veremos como podemos dar sentido a integrais do tipo
Z y
f (s) ds
x

onde f ∈ C e a ≤ x, y ≤ b. Além disso, provaremos que a derivada desta integral é o próprio integrando.
A ideia é seguir o mesmo desenvolvimento da integral de funções contı́nuas em R. A principal diferença
é que não podemos neste caso considerar somas “inferiores” e “superiores”. Ao contrário de R, um espaço
vetorial V qualquer não tem uma ordenação natural para nos ajudar.
Fixe f ∈ C. Recorde que uma partição pontilhada P de I = [a, b] é uma partição do intervalo [a, b],

a = t0 ≤ t1 ≤ · · · ≤ tk−1 ≤ tk ≤ b

e uma escolha de pontos ci ∈ [ti−1 , ti ], 1 ≤ i ≤ k. O tamanho de P é dado por

|P | = max (ti − ti−1 ).


1≤i≤k

A soma de Riemann de P é dada por:

k
X
s(f, P ) := (ti − ti−1 ) f (ci ) ∈ V.
i=1

Note que

k k
!
X X
ks(f, P )kV ≤ (ti − ti−1 ) kf (ci )kV ≤ (ti − ti−1 ) sup kf (c)kV = (b − a) sup kf (c)kV .
i=1 i=1 c∈I c∈I

Além disso, temos um resultado importante que compara as somas de Riemann de duas partições ponti-
lhadas. Como a prova é muito similar ao .

Lema 5.1 Considere duas partições pontilhadas P , Q com |P |, |Q| ≤ δ. Então:

ks(f, P ) − s(f, Q)kV ≤ (b − a) mf (δ).

Prova: [Esboço] Refinando o conjunto t0 ≤ t1 ≤ . . . tk , se necessário, podemos supôr que Q e P têm a


mesma partição de [a, b] e que apenas seus pontos cPi , cQ
i , 1 ≤ i ≤ k, são distintos. Ainda assim, temos:

∀1 ≤ i ≤ k : ti−1 ≤ cPi , cQ
i ≤ ti

e portanto
|cPi − cQ
i | ≤ ti − ti−1 ≤ |P | ≤ δ.

Portanto,
∀1 ≤ i ≤ k : kf (cPi ) − f (cQ
i )kV ≤ sup kf (x) − f (y)kV = mf (δ).
x,y∈I : |x−y|≤δ

69
Deduzimos que
k
X
ks(f, P ) − s(f, Q)kV = (ti − ti−1 ) (f (cPi ) − f (cQ ))

i

i=1 V
k
Q
X
≤ (ti − ti−1 ) (f (cPi ) − f (ci ))

V
i=1
k
(ti − ti−1 ) (f (cPi ) − f (cQ
X
(ti − ti−1 ∈ [0, +∞)) = ))

i
V
i=1
Xk
≤ (ti − ti−1 ) mf (δ)
i=1
= (b − a) mf (δ).

Teorema 5.2 Dada qualquer f ∈ C e x, y ∈ [a, b] com x ≤ y, existe um elemento


Z y
f (s) ds ∈ V
x

que é o limite de s(f, Pn ) para qualquer sequência {Pn }n∈N de partições pontilhadas de [x, y] com tamanho
|Pn | → 0. Esta sequência satisfaz:
Z y Z y

f (s) ds ≤ kf (s)kV ds ≤ (y − x) kf kC .

x V x

Além disso, se x ≤ z ≤ y,
Z y Z z Z y
f (s) ds = f (s) ds + f (s) ds.
x x z

Prova: Note que o Lema anterior mostra que, dada qualquer sequência {Pn }n∈N como acima, com δn :=
|Pn | → 0,
∀m, n ∈ N : ks(f, Pn ) − s(f, Pm )kV ≤ mf (max{δn , δm }).
Portanto,
lim sup ks(f, Pn ) − s(f, Pm )kV ≤ lim mf (max{δn , δm }) = 0
m,n→+∞ m,n→+∞

porque max{δn , δm } → 0 e f é uniformemente contı́nua.


Deduzimos que {s(f, Pn )}n∈N é Cauchy e portanto converge. Se {Qn }n∈N é outra sequência de
partições pontilhadas com |Qn | → 0, podemos intercalá-la numa só sequência
Ry com {Pn }n∈N para deduzir
que s(f, Qn ) converge ao mesmo limite. É este limite que chamamos de x f (s) ds. Veja que:

k
!
X
ks(f, Pn )kV ≤ (ti − ti−1 ) kf (cPi n )kV ,
i=1

70
Ry
e a soma da direita é uma soma de Riemann para x kf (s)kV ds. Portanto, tomando limites,
Z y Z y
k f (s) dskV ≤ kf (s)kV ds.
x x
Além disso, quando x ≤ z ≤ y, podemos juntar partições de [x, z] e [z, y] para integrar f sobre [x, y].
Deixamos isso como exercı́cio 2

5.5 O teorema fundamental do Cálculo


Ry
A partir de agora, definimos x f (s) ds para y 6= x da forma usual se x < y e como
Z y Z x
f (s) ds = − f (s) ds se x > y.
x y

Com esta notação, é fácil provar que


Z y

≤ |y − x| sup kf (s)kV .
f (s) ds


x V s∈[x,y]

Como também é evidente que


Ry Ry
x f (s) ds x (f (s) − f (x)) ds
∀x, y ∈ I : x 6= y ⇒ − f (x) = .
y−x y−x
Ou seja, R y
x f (s) ds
y − x − f (x) ≤ sup kf (s) − f (x)kV → 0 quando y → x.

V s∈[x,y]
Deduzimos o seguinte resultado.
Teorema 5.3 (Teorema Fundamental do Cálculo) Dada f ∈ C(I, V ), defina:
Z t
I(f )(t) := f (s) ds (t ∈ I).
a
Então
I(f )0 = f.

5.6 Mais exercı́cios


Exercı́cio 5.1 Suponha que V = Rd . Mostre que a integral de f ∈ C(I, Rd ) é dada por:
Z y Z y d
f (t) dt = f [i](t) dt (x, y ∈ I).
x x i=1

Exercı́cio 5.2 Mostre que a operação I definida implicitamente no Teorema Fundamental do Cálculo é
uma aplicação linear contı́nua de C(I, V ) em C(I, V ).
Exercı́cio 5.3 Considere espaços vetoriais (V, k·kV ) e (W, k·kW ) e T : V → W linear e contı́nua. Mostre
que, se f : [a, b] → V é diferenciável em t ∈ [a, b], então
(T f )0 (t) = T f 0 (t).

71
72
Parte II

Topologia e geometria em espaços métricos

73
Capı́tulo 6

Abertos e fechados

Neste capı́tulo começaremos a discutir conceitos topológicos. Veremos o que são conjuntos abertos e fecha-
dos em um espaço métrico; discutiremos porque os abertos formam o que se chama de topologia e relacio-
naremos continuidade a estes conceitos. A linguagem e os resultados desenvolvidos aqui serão importantes
para tudo o que vem a seguir.
Ao longo deste capı́tulo, (X, dX ) será um espaço métrico dado. Dados x ∈ X e r ≥ 0, denotamos por
BX (x, r) ou apenas B(x, r) a chamada bola aberta de raio r ao redor de x:

B(x, r) := {y ∈ X : d(x, y) < r}.

Também definimos a bola fechada BX [x, r] ou B[x, r] como

B[x, r] := {y ∈ X : d(x, y) ≤ r}.

Exercı́cio 6.1 Mostre que, dados 0 ≤ r0 < r,

B(x, 0) = ∅ ⊂ B[x, 0] = {x} ⊂ B[x, r0 ] ⊂ B(x, r) ⊂ B[x, r].

Mostre ainda que B[x, 0] = B[x, 1/2] = B(x, 1) = {x} se a métrica é discreta.

Agora podemos apresentar as principais definições de topologia de espaços métricos.

Definição 6.1 A ⊂ X é dito aberto (segundo a métrica dX ) se para todo x ∈ X existe um δ > 0 tal que
BX (x, δ) ⊂ A. F ⊂ X é dito fechado (também segundo a métrica dX ) se X\F é aberto.

Exemplo 6.1 Todos os subconjuntos são abertos e fechados se a métrica é discreta. Isto porque, como visto
acima, todo dado A ⊂ X, temos

∀x ∈ A : {x} = BX (x, 1) ⊂ A.

Do mesmo modo, Ac também é aberto.

Exemplo 6.2 Toda bola aberta é um conjunto aberto.

75
Para ver isso, tome uma bola B(x, r) com r > 0 e um elemento y ∈ B(x, r). Nosso objetivo é mostrar
que existe um raio positivo δ > 0 tal que B(y, δ) ⊂ B(x, r). Para isso, é necessário provar que que todo
z ∈ B(y, δ) também está em B(x, r), ou seja:

∀z ∈ X : d(z, y) < δ ⇒ d(z, x) < r.

O que nos permite achar este δ é a desigualdade triangular. Afinal, sabemos que

d(z, y) < δ ⇒ d(x, z) ≤ d(z, y) + d(y, x) < δ + d(y, x).

Logo precisamos escolher δ tal que δ + d(y, x) < r e δ > 0. Como d(x, y) < r (já que y ∈ B(x, r)),
podemos escolher δ := r − d(x, y) > 0 terminar assim a prova.

Exemplo 6.3 De forma semelhante, toda bola fechada B[x, r] é um subconjunto fechado de X, onde agora
r ≥ 0.

De fato, isto equivale a mostrar que X\B[x, r] é aberto, ou seja, que para todo todo y ∈ X\B[x, r]
existe um δ > 0 tal que B(y, δ) ⊂ X\B[x, r]. A condição necessária sobre δ desta vez é que

∀z ∈ X : d(z, y) < δ ⇒ d(z, x) > r.

Novamente é a desigualdade triangular que usaremos para achar este δ. Afinal

d(z, y) < δ ⇒ d(x, z) ≥ −d(z, y) + d(y, x) > d(y, x) − δ.

Como y 6∈ B[x, r], d(x, y) > r, logo podemos tomar δ = r − d(x, y) e garantir que d(z, y) < δ implica
d(z, x) > r.

Exercı́cio 6.2 Prove que ∅ e X são ambos abertos e fechados.

Exercı́cio 6.3 Prove que todos os subconjuntos de X são abertos se usamos a métrica discreta.

Exercı́cio 6.4 Prove que os intervalos abertos e fechados de R são mesmo abertos e fechados, segundo a
definição acima. (De fato, todo intervalo aberto ou fechado de comprimento finito é uma bola aberta.)

6.1 Os abertos formam uma topologia


Nesta seção provaremos que os abertos de um espaço métrico formam uma topologia. Primeiro temos de
definir esta palavra.

Definição 6.2 Uma topologia sobre um conjunto X 6= ∅ é uma coleção T de subconjuntos de X com as
seguintes propriedades.

1. ∅, X ∈ T .

2. Dada A ⊂ T , temos ∪A∈A A ∈ T .

3. Dados A, A0 ∈ T , temos A ∩ A0 ∈ T .

Os elementos de T são chamados de conjuntos abertos da topologia T .

76
Exercı́cio 6.5 Todo X possui duas topologias extremas: Tgrossa = {∅, X} e Tf ina = {todos os subconjun-
tos de X}. Mostre que estas topologias são mesmo topologias.

Exercı́cio 6.6 Mostre que a interseção de um número finito de conjuntos abertos é sempre um conjunto
aberto.

O principal resultado desta seção é que os abertos de um espaço métrico formam uma topologia.

Teorema 6.1 Considere um espaço métrico (X, dX ). Seja TdX a coleção de todos os subconjuntos de X
que são abertos na noção dada pela métrica dX . Então TdX é uma topologia sobre X.

Como veremos na prova, o conteúdo deste teorema é basicamente o seguinte.

Corolário 6.1 Qualquer união de abertos em (X, dX ) é também um conjunto aberto. Qualquer interseção
de dois conjuntos abertos em X é aberta (do mesmo modo, qualquer interseção finita é aberta).

Note que interseções infinitas podem não ser abertas. Por exemplo, em R (com a métrica usual), a
coleção de conjuntos
A := {(−t, t) : t > 0}
tem interseção {0}, que não é aberto.
Prova: [Teorema 6.1] Veja que ∅, X são abertos de X: nenhum elemento está contido em ∅ e todas as bolas
estão contidas em X. Concluı́mos que ambos pertencem a TdX , so seja, vale o primeiro axioma de uma
topologia.
Provaremos agora que vale o segundo axioma. Dada uma coleção qualquer de abertos A ⊂ TdX ,
queremos provar que ∪A∈A A ∈ TdX . Para isto, devemos tomar um elemento qualquer x ∈ ∪A∈A A e
mostrar que BX (x, r) ⊂ ∪A∈A A pra algum r > 0. Para isto, lembramos que um dado x só pode pertencer
à união se pertence a pelo menos um dos conjuntos Ax ∈ A. Como todos os elementos de A são abertos,
sabemos que existe um r > 0 tal que BX (x, r) ⊂ Ax . Como Ax ⊂ ∪A∈A A, deduzimos que BX (x, r) ⊂
∪A∈A A. Ou seja, dado x ∈ ∪A∈A A, conseguimos encontrar um raio r > 0 para o qual BX (x, r) está
inteiramente contida na união.
Consideremos agora a interseção de dois abertos A, A0 ⊂ X. Para provar que A ∩ A0 é aberto, devemos
tomar um x ∈ A ∩ A0 e mostrar que B(x, r) ⊂ A ∩ A para algum r > 0. Para isto, partimos do fato de que
A e A0 são ambos abertos e que x pertence aos dois; afinal, só assim x pode estar na interseção. Deduzimos:

0 (intersecção) x ∈ A ⇒ ∃R > 0 : B(x, R) ⊂ A (porque A é aberto)
x∈A∩A ⇒
x ∈ A0 ⇒ ∃R0 > 0 : B(x, R0 ) ⊂ A (porque A0 é aberto)

Tomemos então r = min{R, R0 }. Como R, R0 > 0, r > 0 também. Além disso, B(x, r) ⊂ B(x, R) ⊂ A
e B(x, r) ⊂ B(x, R0 ) ⊂ A0 , de modo que B(x, r) ⊂ A ∩ A0 . Concluı́mos observando que encontramos
r > 0 tal que B(x, r) ⊂ A ∩ A0 . 2

Exercı́cio 6.7 De modo geral, chamamos uma topologia T sobre X de metrizável se ela provem de uma
métrica, ou seja, se existe uma métrica sobre X tal que T = TdX . Mostre que existem topologias não
metrizáveis.

Exercı́cio 6.8 Mostre que qualquer interseção de conjuntos fechados é fechada. Prove ainda que a união
de um número finito de conjuntos fechados resulta em outro conjunto fechado. (Estes dois fatos seguem das
leis sobre complementares de uniões e interseções.)

77
6.2 Fechados, limites e métricas equivalentes
Nas definições acima definimos fechado em função de aberto. O próximo resultado nos permite definir o
que é um conjunto fechado em termos de limites de sequências.

Teorema 6.2 F ⊂ X é fechado se e somente se limn xn ∈ F para toda sequência convergente {xn }n∈N ⊂
F.

É um corolário deste resultado que:

Corolário 6.2 Duas métricas sobre X são equivalentes se e somente se definem a mesma topologia.

Afinal, a equivalência das métricas se dá quando as duas métricas concordam sobre quais sequências
convergem. Por outro lado, o teorema acima nos diz que, se duas métricas concordam sobre quem converge,
elas definem os mesmos fechados, logo os mesmos abertos...

Exercı́cio 6.9 Escreva a demonstração do corolário em detalhes.

Prova: [do Teorema] Fixe um conjunto F ⊂ X. Como a definição de fechado é em função da de aberto,
temos de recorrer a A := X\F . O que a proposição diz é:

A é aberto ⇔ toda seq. convergente {xn }n ⊂ X\A tem limite em X\A.

Vamos provar primeiro a direção “⇒”. Supondo que A é aberto, seja {xn }n qualquer sequência convergente
contida em X\A e seja x = limn xn . Suponha (para chegar a uma contradição) que x 6∈ X\A, ou seja,
x ∈ A. Como A é aberto, existe um r > 0 tal que B(y, r) ∈ A. Por outro lado, como xn 6∈ A para todo n,
temos:
∀n ∈ N : xn 6∈ B(x, r), isto é, d(xn , x) ≥ r.
Ou seja,
6 ∃n0 (r) ∈ N, ∀n ∈ N : n ≥ n0 (r) ⇒ xn ∈ B(x, r).
Isto quer dizer que x não é o limite da sequência. Como isto é uma contradição, deduzimos que x ∈ X\A.
Agora mostraremos a direção “⇐” da equivalência via a afirmação contrapositiva. Isto é, mostraremos
que, se A não é aberto, então ∃{xn } ⊂ X\A com limn xn ∈ A.
De fato, se A não é aberto, então existe um ponto x ∈ A tal que B(x, r) 6⊂ A para qualquer r > 0.
Em particular, dado n ∈ N, podemos sempre encontrar um elemento xn ∈ B(x, 1/(n + 1)) ∩ (X\A). Em
particular, vemos que

(intersecção) xn ∈ B(x, 1/(n + 1)) ⇒ dX (x, xn ) < 1/(n + 1); e
xn ∈ B(x, 1/(n + 1)) ∩ (X\A) ⇒
xn ∈ X\A.

Deste modo, vemos que x ∈ A, dX (xn , x) → 0 – ou seja, xn → x – e {xn }n∈N ⊂ X\A. Ou seja,
supondo que A é aberto, provamos que há uma sequência contida em X\A com limite em A. 2

Exercı́cio 6.10 Demonstre o seguinte escólio da demonstração acima: um ponto x ∈ X é o limite de uma
sequência de pontos em F ⊂ X se e somente se B(x, r) ∩ F 6= ∅ para todo r > 0.

78
6.3 Fechos, interiores e pontos de acumulação
Vamos definir aqui algumas outras noções topológicas e fazer alguns comentários sobre elas. Novamente
(X, d) é um espaço métrico.

Definição 6.3 O interior de S ⊂ X, denotado por S o , é definido por:


[
S o := A.
A⊂S : A aberto

O fecho de S é: \
S := F.
F ⊃S : F fechado

Note que o interior é um aberto porque a união de abertos é sempre um aperto. Por sua vez, o fecho é
um fechado porque a interseção de fechados é sempre um fechado. Temos ainda as inclusões S o ⊂ S ⊂ S.
Mais duas observações estão contidas nos exercı́cios abaixo.

Exercı́cio 6.11 Mostre que o complementar do fecho de S é o interior do complementar de S.

Exercı́cio 6.12 Prove que x ∈ S o se e somente se B(x, δ) ⊂ S para algum δ > 0.

Proposição 6.1 Se S 6= ∅, S = {x ∈ X : d(x, S) = 0}.

Prova: Defina F = {x ∈ X : d(x, S) = 0}. Recorde que x 7→ d(x, S) é função contı́nua. Portanto, a
pré imagem de {0}, que é precisamente F , é fechada, já que {0} ⊂ R é fechado. Como S está contido em
qualquer fechado contendo S, e ainda S ⊂ F claramente, temos S ⊂ F .
Por outro lado, se x satisfaz d(x, S) = δ > 0 (ou seja, x 6∈ F ), isto quer dizer que a bola B(x, δ/2)
não pode interceptar S. Desta forma vemos que x 6∈ F̃ e S ⊂ F̃ , onde F̃ := X\B(x, δ/2) é fechado.
Deduzimos que,
x 6∈ F ⇒ ∃F̃ fechado, F̃ ⊃ S com x 6∈ F̃ .
Como F̃ ⊃ S, isso quer dizer que x 6∈ F ⇒ x 6∈ S. Isto quer dizer que ∀x : x ∈ S ⇔ x ∈ F , ou seja,
S = F. 2

Definição 6.4 O conjunto de pontos de acumulação de S ⊂ X, denotado por S 0 é o conjunto que contem
como elementos os x ∈ X tais que, para todo r > 0, B(x, r) ∩ S contem um elemento diferente de x.

Exercı́cio 6.13 Mostre que N0 = ∅ e Q0 = R (como subconjuntos de R).

6.4 Continuidade, abertos e fechados


Nosso objetivo nesta seção é apresentar a ideia de continuidade de forma topológica, ao invés da forma
métrica (via limites) que já mostramos acima. Na prova da equivalência a seguir, veremos ainda uma outra
definição métrica de continuidade.
Recorreremos a uma notação que será muito usada no que segue: dados f : X → Y e S ⊂ Y ,

f −1 (S) := {x ∈ X : f (x) ∈ S}.

79
Exercı́cio 6.14 Mostre que, dada uma famı́lia A de subconjuntos de Y ,

f −1 (∪A∈A A) = ∪A∈A f −1 (A) e f −1 (∩A∈A A) = ∩A∈A f −1 (A).

Ou seja, f −1 “comuta” com uniões e interseções de conjuntos. Prove ainda que

f −1 (Y \A) = X\f −1 (A).

Teorema 6.3 Sejam (X, dX ) e (Y, dY ) espaços métricos. Dada f : X → Y , as seguintes afirmações são
equivalentes.
1. f é contı́nua, isto é, se {xn }n ∪ {x} ⊂ X e xn → x (segundo a métrica dX ), então f (xn ) → f (x)
(segundo a métrica dY ).

2. Para qualquer F ⊂ Y fechado em Y , f −1 (F ) ⊂ X é fechado em X.

3. Para qualquer A ⊂ Y aberto, f −1 (A) ⊂ X é aberto.

4. Para todos x ∈ X e ε > 0, existe δ > 0 tal que:

∀x0 ∈ X : “dX (x, x0 ) < δ” ⇒ “dY (f (x), f (x0 )) < ε”.

Prova: Passo 1 ⇒ 2. Tome f contı́nua e F ⊂ Y fechado. Dada uma sequência convergente {xn }n∈N ⊂
f −1 (F ) com limite x ∈ X, devemos provar que x ∈ f −1 (F ), ou seja, que f (x) ∈ F . Mas isto é simples, já
que f (xn ) → f (x) (por continuidade), {f (xn )}n∈N ⊂ F (já que xn ∈ f −1 (F ) para cada n) e F é fechado
(de modo que o limite de qualquer sequência convergente em F também está em F ).

Passo 2 ⇒ 3. Vem do exercı́cio anterior à prova juntamente com o fato de que A é aberto se e somente se
X\A é fechado.

Passo 3 ⇒ 4. Fixos ε > 0 e x ∈ X, vamos encontrar o δ desejado. Para fazer isto observe que a
bola BY (f (x), ε) ⊂ Y é um aberto de Y , de modo que (pelo item 3) f −1 (BY (f (x), ε)) é aberto. Como
f (x) ∈ BY (f (x), ε), x é um elemento do aberto f −1 (BY (f (x), ε)); pela definição de aberto, isto implica
que ∃δ > 0 tal que BX (x, δ) ∈ f −1 (B(f (y), ε)). Isto quer dizer que, para todo x0 ∈ B(x, δ) – ou seja,
todo x0 ∈ X com dX (x, x0 ) < δ – temos f (x0 ) ∈ BY (f (x), ε) – ou seja, dY (f (x), f (x0 )) < ε. Em outras
palavras, o δ que apresentamos é precisamente o que tı́nhamos de encontrar.

Passo 4 ⇒ 1. Suponha que xn → x em X; nosso objetivo é provar que limn f (xn ) = f (x), ou seja, que
dado ε > 0 existe um n0 ∈ N tal que dY (f (xn ), f (x)) < ε se n ≥ n0 . Fixemos então um ε > 0. Pelo
item 4 podemos encontrar δ > 0 tal que dX (x0 , x) < δ implica dY (f (x0 ), f (x)) < ε. Como xn → x, existe
n0 ∈ N tal que dX (xn , x) < δ sempre que n ≥ n0 . Mas então temos dY (f (xn ), f (x)) < ε sempre que
n ≥ n0 . Ou seja, este n0 assegura a propriedade desejada. 2

6.5 Topologia relativa


O resultado acima sobre continuidade só serve para o caso em que o domı́nio D da função f é todo o espaço
X. Mas e se D ⊂ X é um subconjunto próprio e f : D → Y ? Não é difı́cil ver o que acontece: se usamos
sobre D a métrica induzida por X, então continuidade é equivalente à seguinte condição:

80
∀A ⊂ Y aberto, f −1 (A) ⊂ D é aberto na métrica induzida.
Isso suscita a pergunta: como sabemos se um dado subconjunto U ⊂ D é aberto na métrica induzida?
Isto também não é difı́cil de deduzir. Veja que
U ⊂ D é aberto ⇔ ∀x ∈ U ∃r > 0 BD (x, r) ⊂ U,
e ainda
BD (x, r) = {y ∈ D : dD (x, y) < r}
= {y ∈ X : y ∈ D e dX (x, y) < r}
= BX (x, r) ∩ D.
Ou seja
U ⊂ D é aberto ⇔ ∀x ∈ U ∃r > 0 BX (x, r) ∩ D ⊂ U.
Isto nos leva naturalmente à definição de topologia induzida. Note que ela não tem nada a ver com a de
métrica, em princı́pio.
Definição 6.5 Considere um conjunto X 6= ∅ munido de uma topologia TX . Dado D ⊂ X, a topologia TD
induzida por TX é definida como:
TD := {A ∩ D : A ∈ TX }.
Ou seja, U ∈ TD se existe um aberto A de X com U = A ∩ D.
Não é difı́cil provar que TD é mesmo uma topologia: a ideia é só mostrar que a união e a interseção de
conjuntos da forma A ∩ D é ela própria desta forma.
Teorema 6.4 Considere (X, dX ). Dote D ⊂ X da métrica dD induzida por X. Considere as topologias
TdX e TdD induzidas pelas métricas de X e D, respectivamente. Então TdD é a topologia induzida por TdX
sobre D.
Prova: O que temos que provar é que:
U ⊂ D é aberto de D ⇔ ∃A ⊂ X aberto de X com U = A ∩ D.
Começamos a prova pela direção “⇒”. Como observamos acima, U é aberto de D quando para cada x ∈ U
existe um raio rx > 0 tal que B(x, rx ) ∩ D ⊂ U . Se definimos
A := ∪x∈U B(x, rx ),
vemos imediatamente que A é aberto, posto que é uma união de abertos. Afirmamos que A ∩ D = U e
provaremos isso mostrando A ∩ D ⊂ U e U ⊂ A ∩ D. De um lado, temos a inclusão
A ∩ D = ∪x∈U (B(x, rx ) ∩ D) ⊂ U
por conta do fato que B(x, rx ) ∩ D ⊂ U para cada x ∈ U . Por outro lado, cada x ∈ U pertence a
B(x, rx ) ∩ D: isto quer dizer que todo x ∈ U pertence à união ∪x∈U (B(x, rx ) ∩ D) = A ∩ D, o que nos
diz U ⊂ A ∩ D e termina a prova de que U = A ∩ D. Ou seja, dado U ⊂ D aberto, encontramos A ⊂ X
aberto de X com U = A ∩ D. Isto termina a prova da direção “⇒”.
Tratemos agora da direção “⇐”. Suponha que U = A ∩ D com A ⊂ X aberto de X. Dado x ∈ X,
devemos encontrar r > 0 tal que BD (x, r) = BX (x, r) ∩ D ⊂ U = A ∩ D. Mas para isto é evidente que
basta pedir BX (x, r) ⊂ A, o que é possı́vel (com algum r > 0) exatamente porque A é aberto em X. 2

81
Observamos o seguinte corolário dos resultados acima.

Corolário 6.3 Se D ⊂ X é aberto de X, então A ⊂ D é aberto na topologia relativa se e somente se é


aberto na topologia de X. O mesmo vale se trocamos “aberto”por “fechado”.

Prova: Faremos a prova apenas no caso de D aberto. Sabemos que, para que A ⊂ D seja aberto de D, é
necessário e suficiente que exista B ⊂ X aberto de X com A = B ∩ D. Em particular, se D é aberto e tal B
existe, A é a interseção de dois abertos e é ele próprio aberto. Por outro lado, se A é aberto de X, podemos
escrever A = A ∩ D, o que equivale a tomar B = A acima e nos mostra que A = A ∩ D é aberto de D. 2

6.6 Como são os abertos de R? (Opcional)


Em princı́pio é impossı́vel dar uma “cara” aos abertos de um espaço métrico geral. Apesar desta dificuldade
geral, o teorema a seguir mostra que em R é possı́vel descrever os abetos de forma bastante direta.

Teorema 6.5 Todo conjunto aberto de R que não é vazio pode ser escrito como a união de um número
enumerável de intervalos abertos disjutos.

Observe que esta é uma caracterização completa, já que os intervalos abertos são mesmo abertos e toda
união de abertos é aberta.
Prova: A ideia da prova será, em primeiro lugar, achar pra cada q ∈ A racional, o maior intervalo aberto Iq
tal que q ∈ Iq ⊂ A. Depois veremos que cada x ∈ A está em um destes intervalos. Depois disto teremos de
mostrar que podemos selecionar intevalos disjuntos entre eles.

Passo 1 - construção dos intervalos.


Dado q ∈ Q ∩ A, definimos Iq como a união de todos os intervalos abertos contidos em A que têm q como
elemento. Mais exatamente, definimos
[
Iq := {I ⊂ A : q ∈ I, I intervalo aberto } e Iq := I.
I∈Iq

Note que a famı́lia Iq contem pelo menos um intervalo ao redor de q porque q ∈ A e A é aberto. Já vimos
no primeiro teste que a união de intervalos contidos em [0, 1] com interseção não vazia é intervalo; a mesma
prova funciona se os intervalos são ilimitados, contanto que permitamos sup e inf infinitos. Deste modo, Iq
é um intervalo. Além disto, como Iq é a união de conjuntos abertos, ele também é aberto. Portanto, Iq 6= ∅
é um intervalo aberto que está contido em A.

Passo 2 - intervalos disjuntos.

Considere a famı́lia de intervalo


V := {Iq : q ∈ A ∩ Q}.
Esta famı́lia é enumerável porque pode ser escrita como a união enumerável dos conjuntos unitários {Iq } (a
união é enumerável porque Q é). Afirmamos que quaisquer intervalos distintos nesta famı́lia são disjuntos.
De fato, considere Iq , Ir ∈ V com Iq ∩ Ir 6= ∅. O argumento já usado no passo anterior nos diz que Iq ∩ Ir

82
é intervalo aberto. Ao mesmo tempo, Iq ∪ Ir ⊂ A (pois cada intervalo está contido em A) e q ∈ Iq ∪ Ir .
Portanto Iq ∪ Ir é um intervalo da coleção Iq definida acima. Segue que:
[
Iq ∪ Ir ⊂ I = Iq .
I∈Iq

Como claramente Iq ⊂ Iq ∪ Ir , temos Iq = Iq ∪ Ir . Do mesmo modo podemos concluir que Ir = Iq ∪ Ir e


portanto Iq = Ir .

Passo 3 - fim da prova.

Falta apenas mostrar que a união dos Iq ’s é A. De fato, como cada Iq ⊂ A, a união está contida em A,
e falta mostrar que A ⊂ ∪Iq ∈V Iq . Isto é, precisamos mostrar que cada x ∈ A está num dos Iq ’s. Mas isto é
simples, pois sabemos que um dado x ∈ A está num intervalo J = (x − δ, x + δ) ⊂ A. Necessariamente J
contem um elemento q ∈ Q, que pertence a A porque q ∈ J e J ⊂ A. Vemos então que J ∈ Iq , de modo
que J ⊂ ∪I∈Iq I = Iq , logo x ∈ Iq . 2

6.7 Mais exercı́cios


Exercı́cio 6.15 Dado (X, dX ), mostre que A ⊂ X é aberto se e somente se é a união de bolas abertas.

Exercı́cio 6.16 Dado (X, dX ), mostre que F ⊂ X é fechado se e somente se existem um subconjunto
Γ ⊂ R que é fechado em R e uma função contı́nua f : X → R tal que F = f −1 (Γ). Deduza um análogo
deste resultado para conjuntos abertos A ⊂ X.

Exercı́cio 6.17 Suponha que (X, dX ) é completo e F ⊂ X. Mostre que F é fechado em X se e somente se
(F, dF ) é completo, onde dF é a métrica induzida por (X, dX ).

83
84
Capı́tulo 7

Compacidade

Muitos problemas em Matemática Pura e Aplicada podem ser postos na forma de problemas de minimização.
Dado um conjunto S e uma função f : S → R, encontre s∗ ∈ S tal que f (s∗ ) ≤ f (s) para
todo s ∈ S.
Por exemplo: os problemas de achar o mı́nimo de uma função f : Rd → R, de achar a curva de menor
comprimento ligando dois pontos em uma superfı́cie e de achar uma superfı́cie mı́nima para um contorno
dado têm todos esta forma.
Nem todo problema desta forma tem solução. Por exemplo, a função f (x) = −1/x não atinge um valor
mı́nimo no domı́nio S = (0, +∞). Definiremos um conjunto como compacto se pelo menos conseguimos
cotar por baixo os valores de qualquer f : K → R contı́nua.
Definição 7.1 Um espaço métrico (K, dK ) é dito compacto se para toda f : K → R contı́nua existe um
α ∈ R tal que f (x) ≥ α para todo x ∈ K.
Veremos nesta seção que os espaços compactos têm uma teoria extremamente rica tanto do ponto de
vista métrico quanto do ponto de vista topológico.

7.1 Compactos são completos


Começamos com o fato de que todo compacto é completo do ponto de vista métrico.
Lema 7.1 Qualquer espaço métrico compacto (K, dK ) é um espaço métrico completo.
Prova: Vamos provar que se K não é completo, então não é compacto. Suponha então que existe {xn }n∈N ⊂
K que é Cauchy, mas não converge a qualquer elemento em K. O Exemplo 4.3 acima mostra que g(x) :=
limn∈N dK (x, xn ) (x ∈ K) é contı́nua. Veja que
g(xm ) = lim dK (xm , xn ) ≤ sup dK (xn , xm ) → 0 quando m → +∞
n∈N n≥m

porque {xn }n é Cauchy. Logo g(xm ) → 0 quando m cresce. Por outro lado, g(x) > 0 para todo x porque,
se não, dK (x, xn ) → 0 e x seria o limite de xn , que supomos não existir. Portanto a imagem de g está
contida em (0, +∞). Como a função x 7→ −1/x é contı́nua sobre (0, +∞), deduzimos que
1 1
f (x) := − =−
limn dK (xn , x) g(x)

85
é contı́nua e f (xm ) → −∞ quando m → +∞, de modo que f não tem cota inferior. Segue que K não é
compacto. 2

7.2 Compactos são totalmente limitados


Vimos acima que todo conjunto compacto é completo. A recı́proca não é verdadeira, como mostra, por
exemplo, o caso K = R (com a métrica usual). Nesta seção mostraremos que há uma propriedade extra que
um compacto tem de satisfazer.

Definição 7.2 Considere um espaço métrico (X, dX ). Um conjunto S ⊂ X é separado se existe um δ > 0
tal que dX (s, s0 ) ≥ δ para todos s, s0 ∈ S, s 6= s0 . Dizemos que (X, dX ) é totalmente limitado se ele não
contem um conjunto infinito que é separado.

Esta definição tem uma reformulação equivalente que será importante mais adiante.

Proposição 7.1 Um espaço métrico (X, dX ) é totalmente limitado se e somente se vale a seguinte pro-
priedade: para todo ε > 0 existe uma coleção finita de bolas abertas BX (xi , ε), 1 ≤ i ≤ k, com
X = ∪ki=1 BX (xi , ε).

Prova: Vamos provar primeiro que a existência da coleção de bolas implica que X é totalmente limitado.
Fixe δ > 0 e tome ε = δ/2. Supondo X ⊂ ∪ki=1 BX (xi , ε), qualquer conjunto infinito S ⊂ X tem de
conter infinitos elementos em pelo menos uma das bolas BX (xi , ε) (isto é o caso infinito do Princı́pio das
Casas dos Pombos). Em particular, usando a desigualdade triangular, vemos que S obrigatoriamente possui
infinitos pares de elementos a distância < δ; de fato, dados s, s0 ∈ S ∩ BX (xi , ε)

dX (s, s0 ) ≤ dX (xi , s) + dX (xi , s0 ) < δ.

Como δ > 0 é arbirtrário, deduzimos que qualquer conjunto infinito S ⊂ X não é separado e portanto X é
totalmente limitado.
Vamos provar agora a direção contrária. Fixe ε > 0. Supondo que não existe uma coleção finita de
bolas de raio ε > 0 cobrindo X, vamos construir um conjunto separado infinito S ⊂ X. A construção é
recursiva.

1. Escolha x1 ∈ X arbitrariamente.

2. Dados x1 , . . . , xn ∈ X, escolha xn+1 de modo que dX (xn+1 , xi ) ≥ ε para todo 1 ≤ i ≤ n.

Note que esta recursão faz sentido: sob a nossa hipótese, temos que para todo n ∈ N as bolas

B(x1 , ε), . . . , B(xn , ε)

não cobrem X, portanto existe um xn+1 ∈ X que não está em qualquer uma das bolas. É fácil verificar que
o conjunto S := {xn : n ∈ N} é separado, já que a recursão garante dX (xi , xj ) ≥ ε quando 1 ≤ i < j.
2

86
Lema 7.2 Todo espaço métrico compacto é totalmente limitado.

Prova: Vamos mostrar que um espaço métrico (X, dX ) que não é totalmente limitado não pode ser com-
pacto. Para isto partimos de um conjunto S ⊂ X que é infinito e separado: d(s, s0 ) ≥ δ para quais-
quer elementos distintos s, s0 ∈ S. Sem perda de generalidade, suporemos que S é enumerável e escre-
veremos S = {sj : j ∈ N}. Nosso objetivo será construir uma função contı́nua f : X → R com
sup{f (x) : x ∈ S} = +∞; tomando −f , obtemos uma função contı́nua f : K → R sem cota inferior.
Defina r := δ/4 > 0. Vamos começar a prova com a seguinte observação. Dado x ∈ X, existe no
máximo um ı́ndice j = j(x) ∈ N com d(x, sj ) < 2r. A razão para isto é que, se houvesse outro ı́ndice
k ∈ N com d(x, sk ) < 2r, a desigualdade triangular implicaria

d(sj , sk ) ≤ d(x, sj ) + d(x, sk ) < 4r = δ,

o que contraria o fato de que a distância mı́nima entre elementos de S é δ.


Continuando, definimos, para cada j ∈ N, uma função contı́nua fj : X → R da seguinte forma:

fj (x) := j × max{r − d(sj , x), 0} (x ∈ X).

Exercı́cio 7.1 Prove que fj é mesmo contı́nua. [Dica: Primeiro prove que x 7→ max{x, 0} é função
contı́nua de R em R e depois aplique composições.]

Agora vamos definir uma função f : X → R da seguinte forma.



fj (x) se j ∈ N é o único ı́ndice tal que d(x, sj ) < 2r;
f (x) :=
0 se não há sj com d(x, sj ) < 2r
Veja que f é ilimitada: de fato, para todo j ∈ N temos f (sj ) = fj (sj ) = j.r → +∞ (pois r > 0).
Portanto sup{f (x) : x ∈ X} = +∞. Falta mostrar que ela é contı́nua. Para isto, fixamos {xn }n ∪{x} ⊂ X
com xn → x; vamos provar que f (xn ) → f (x). Consideraremos dois casos.

• d(x, sj ) ≥ 3r/2 para todo j. Neste caso f (x) = 0, pois fj (x) = 0 sempre que d(x, sj ) ≥ r. Por
outro lado, observe que existe n0 ∈ N tal que para todo n ≥ n0 , d(x, xn ) < r/2, o que implica que
d(xn , sj ) > r para todo n ≥ n0 . Neste caso também fj (xn ) = 0 para todo j ∈ N, donde segue que
f (xn ) = 0 para n ≥ n0 . Ou seja, f (xn ) → 0 = f (x) neste caso.

• d(x, sj ) < 3r/2 para algum j. Neste caso, como observamos acima, j = j(x) ∈ N é o único ı́ndice
com d(x, sj ) < 2r; além disto, f (x) = fj (x). Observe que existe n0 ∈ N tal que ∀n ≥ n0 vale
d(x, xn ) < r/2, de modo que d(xn , sj ) < 2r para todo n ≥ n0 . Usando a definição de f , deduzimos

n ≥ n0 ⇒ f (xn ) = fj (xn ).

Como fj é contı́nua, fj (xn ) → fj (x) = f (x). A implicação acima nos diz que f (xn ) → f (x) neste
caso.

87
7.3 Subsequências convergentes
Nesta seção vamos mostrar que a compacidade de um espaço métrico pode ser avaliada a partir de sub-
sequências.

Definição 7.3 Dados um conjunto infinito N ⊂ N e uma sequência {xn }n∈N , a subsequência {xn }n∈N é
definida da forma {x̃j }j∈N com x̃j := {xnj }, onde n1 < n2 < n3 < . . . é a única enumeração crescente
dos elementos de N . Também escrevemos {xnj }j∈N diretamente. Falamos que limn∈N xn = x se xnj → x
quando j → +∞.

Exercı́cio 7.2 Mostre que xn → x implica xnj → x.

A propriedade 3 do teorema é muitas vezes tomada como ponto de partida da definição de compacidade
em espaços métricos. Como veremos abaixo, ela implica facilmente a nossa definição de compacidade
(=funções contı́nuas atingem o ı́nfimo). Antes disto, veremos um exemplo de aplicação.

Teorema 7.1 Considere um espaço métrico (K, dK ). As seguintes propriedades são equivalentes.

1. (K, dK ) é compacto.

2. (K, dK ) é completo e totalmente limitado.

3. Toda sequência em K possui uma subsequência convergente (com limite em K).

4. Para toda f : K → R contı́nua existe um x∗ ∈ K com f (x∗ ) = inf x∈K f (x).

Prova: [do Teorema 7.1] A implicação 1 ⇒ 2 foi vista no Lema 7.2 acima. 4 ⇒ 1 é evidente porque, se x∗
atinge o ı́nfimo de f , então f é cotada inferiormente. Falta provar que que 3 ⇒ 4 e 2 ⇒ 3.

Prova de 3 ⇒ 4. Seja f : X → R contı́nua e chame de ` = inf x∈K f (x), admitindo de inı́cio a


possibilidade de que ` = −∞. Podemos achar uma sequência {xn }n∈N com f (xn ) → `. Por 3., esta
sequência possui uma subsequência convergente {xn }n∈N . Mas então xn → x∗ ∈ K e por continuidade
f (x∗ ) = limn f (xn ) = `. Deduzimos que ` > −∞ e que f (x∗ ) = ` = inf x∈K f (x).

Prova de que 2 ⇒ 3. Seja {xn }n∈N ⊂ K. Nosso objetivo será provar que {xn }n∈N possui uma
subsequência de Cauchy. Como (K, dK ) é completo, isto basta para provar que sempre há uma subsequência
convergente.
Não é muito simples achar esta subsequência, então vamos começar com o resultado mais fraco que
apenas garante o seguinte: sempre há uma subsequência “apertadinha”.

Afirmação 7.1 Dado qualquer r > 0 existe uma subsequência {xn }n∈N tal que ∀m, n ∈ N , dK (xm , xn ) <
r.

De fato, como estamos supondo que K é totalmente limitado, a Proposição 7.1 nos diz que podemos cobrir
K por um número finito de bolas de raio r/2. Como o número de bolas é finito, uma das bolas, que
chamaremos de B(z, r/2), é tal que o conjunto

N := {n ∈ N : xn ∈ B(z, r/2)}

88
é infinito, e um argumento simples mostra que {xn }n∈N tem a propriedade desejada.
O que vem a seguir é uma espécie de “truque diagonal” que mostra como esta afirmação pode ser
usada para achar uma subsequência convergente. A primeira ideia deste truque diagonal é que, aplicando
a afirmação infinitas vezes, podemos encontrar subsequências encaixadas e cada vez mais apertadas. Mais
precisamente:
1. A afirmação implica que existe N1 ⊂ N infinito tal que dK (xn , xm ) < 1/2 para todos n, m ∈ N1 .
2. Suponha (recursivamente) que existem conjuntos infinitos N1 ⊃ N2 ⊃ · · · ⊃ Nk , todos contidos em
N, tais que, para qualquer 1 ≤ i ≤ k e quaisquer n, m ∈ Ni , vale a desigualdade dK (xn , xm ) <
2−i . Vamos mostrar como construir um conjunto Nk+1 de forma a estender por mais um passo esta
construção. Para isto, aplicaremos a afirmação à sequência
{xnj }j∈N onde {nj : j ∈ N} = Nk .
com r = 2−k−1 . Isto nos dá um conjunto N e podemos definir Nk+1 := {nj : j ∈ N }, de modo a
termos as propriedades desejadas.
Nossa tarefa final é extrair destas subsequências encaixadas e cada vez mais apertadas uma subsequência
de Cauchy. Uma tentativa poderia ser definir {xn }n∈Ñ com Ñ := ∩k Nk , mas isto não pode funcionar em
geral: afinal,

n, m ∈ Ñ ⇒ n, m ∈ Nk para todo k ⇒ ∀k ∈ N, dK (xn , xm ) ≤ 2−k ⇒ xn = xm .


Ou seja, para que nosso truque não falhe, é necessário que a sequência original tenha infinitos termos iguais.
A segunda ideia do truque diagonal é uma maneira “diagonal” de selecionar um subconjunto infinito
N∗ de modo que N∗ ⊂ Nk “quase vale”, isto é, N∗ \Nk tem apenas um número finito de termos. Vamos
escrever
N∗ := {n1 < n2 < n3 < . . . }
onde os nk são definidos recursivamente.
1. Em primeiro lugar, definimos n1 = min N1 (isto é válido porque N1 6= ∅ é subconjunto dos naturais).
2. Definidos n1 < · · · < nk , observamos que, como Nk+1 é infinito,
Nk+1 \[nk ] 6= ∅.
Como ele também é subconjunto dos naturais, podemos definir
nk+1 := min(Nk+1 \[nk ])
e observamos que nk+1 6∈ [nk ], de modo que nk+1 > nk .
Pela construção temos n1 < n2 < . . . . Além disto, para k, r ∈ N com k < r, temos que
nk ∈ Nk , nr ∈ Nr ⊂ Nk
e como dK (xn , xm ) < 2−k para n, m ∈ Nk , isto implica
∀k, r ∈ N : k < r ⇒ dK (xnk , xnr ) < 2−k .

Exercı́cio 7.3 Para terminar a prova, deduza disto que {xnk }k∈N é Cauchy.
2

89
Exercı́cio 7.4 Use o critério das subsequências para mostrar que todo subconjunto fechado de um com-
pacto é ele próprio compacto.

7.4 Critérios topológicos para a compacidade


Vimos acima que a compacidade – o fato de que “funções contı́nuas sempre atingem o ı́nfimo-- tem várias
expressões em termos de métricas. Agora veremos uma versão topológica destes critérios.

Teorema 7.2 Dado um espaço métrico (K, dK ), são equivalentes:

1. K é compacto.

2. Toda coleção de abertos A de K com ∪A∈A A = K tem uma subcoleção finita C ⊂ A com ∪A∈C A =
K. (Normalmente abrevia-se este enunciado dizendo que toda cobertura de K por abertos tem uma
subcobertura finita.)

3. Toda coleção de fechados F de K com ∩F ∈F F = ∅ possui uma subcoleção finita P ⊂ F com


∩F ∈P F = ∅. (Esta é a chamada propriedade da interseção finita.)

Prova: Veja que 2 ⇒ 3 segue se escrevemos A := {X\F : F ∈ F } e notamos que ∩F ∈F F = ∅ se e


somente se ∪A∈A A = K. Provaremos que 3 ⇒ 1 e 1 ⇒ 2 a seguir.

Prova de que 3 ⇒ 1. Seja f : K → R contı́nua e chame de ` = inf{f (x) : x ∈ K} (em princı́pio


permitimos ` = −∞). Vamos mostrar que existe um x∗ ∈ K com f (x∗ ) = `. Para isto notamos que, se
t ∈ R e t > `, tem de existir um x ∈ K com f (x) ≤ t. Portanto, os conjuntos

Ft := {x ∈ K : f (x) ≤ t} = f −1 ((−∞, t])

são fechados e não são vazios.


Afirmamos que ∩t>` Ft 6= ∅. Para isto, usamos o item 3 (nossa hipótese nesta parte da prova) em forma
contrapositiva.
Aquele item nos diz que, se provarmos que qualquer coleção finita dos conjuntos Ft tem interseção
não-vazia, então ∩t>` Ft 6= ∅. Tome, então conjuntos Ft1 , . . . , Ftk com t1 , . . . , tk > `. Observe que
t = min1≤i≤k ti > ` e como ` = inf x∈K f (x), existe um x ∈ K com f (x) ≤ t. Mas tal x pertence a cada
conjunto Fti = f −1 ((−∞, ti ]), já que f (x) ≤ t ≤ ti , e portanto x ∈ ∩ki=1 Fti e a interseção não é vazia.
Deduzimos então nossa afirmação de que ∩t>` Ft 6= ∅. Tome agora um ponto x∗ ∈ ∩t>` Ft . Veja que
` ≤ f (x∗ ) (pois ` é ı́nfimo) e f (x∗ ) ≤ t para todo t ≥ `, logo f (x) = ` e (a fortiori) ` 6= −∞.

Prova de que 1 ⇒ 2. Seja A como no item 2. Observe que todo x ∈ K pertence a algum aberto A ∈ A.
Portanto existe um δ = δ(x) > 0 com B(x, δ) ⊂ A para algum A ∈ A. Reduzindo δ se necessário,
podemos tomar δ < 1.
A principal ideia desta prova é mostrar o seguinte.

Ideia: podemos escolher um valor δ > 0 que funciona para todos os x ∈ K simultaneamente.

Ou seja, existe um δ > 0 tal que, dado qualquer x ∈ K, B(x, δ) ⊂ A para algum A ∈ A. Na verdade,
esta “ideia” suscita duas perguntas:

90
1. Por que achar este δ > 0 é uma boa ideia? Como K é compacto, ele é totalmente limitado e pode ser
coberto por um número finito de bolas de raio δ > 0. Mas cada bola destas pode ser coberta por um
elemento da cobertura A. Deste modo, K pode ser coberto por um número finito de elementos de A.
2. Como sabemos que este δ existe? Vamos exprimir δ em termos do ı́nfimo de uma função contı́nua
r : K → (0, 1] que associa a cada x o seu “maior δ particular”. Como cada x tem seu δ > 0, o ı́nfimo
de r será positivo.
Para transformar esta ideia em prova, definimos r : K → (0, 1] da seguinte forma. Primeiro observe,
dado x ∈ K, o conjunto
I(x) := {δ ∈ (0, 1) : ∃A ∈ A, BK (x, δ) ⊂ A}
não é vazio. De fato ele é um intervalo: se δ ∈ I(x), então para qualquer 0 < δ 0 < δ temos
∃A ∈ A : BK (x, δ 0 ) ⊂ BK (x, δ) ⊂ A ⇒ δ 0 ∈ I(x).
Como I(x) também é limitado por 1, podemos definir r : K → [0, 1] como
r(x) := sup I(x) (x ∈ K).
Como I(x) contem elementos positivos, vale que r(x) > 0 para todo x ∈ K. Intuitivamente, r(x) é
basicamente o “maior” δ(x) que podemos escolher. Uma explicação para esta escolha é que, se queremos
achar um único δ que sirva para todos os x, é boa ideia partir do maior δ(x) possı́vel para cada x.
A afirmação a seguir é chave para a prova.

Afirmação 7.2 r é uma função contı́nua.


Prova: [da Afirmação] Vamos mostrar que r é 1-Lipschitz, o que implica que r é contı́nua. Para
isto basta mostrar que:
Objetivo: ∀x, x0 ∈ K : r(x) − r(x0 ) ≤ dK (x, x0 ). (7.1)
De fato, se temos isto, podemos trocar os papeis de x, x0 e mostrar que também vale r(x0 ) −
r(x) ≤ dK (x, x0 ), de modo que |r(x0 ) − r(x)| ≤ dK (x, x0 ) para todos x, x0 ∈ X.
Para provar nosso objetivo, tome qualquer 0 < r < r(x) e um conjunto A ∈ A com
B(x, r) ⊂ A. Note que B(x0 , r − dX (x, x0 )) ⊂ BK (x, r); afinal,
∀y ∈ BK (x0 , r − dK (x, x0 )) : dK (y, x) ≤ dK (y, x0 ) + dK (x, x0 ) < r.
Portanto também temos BK (x0 , r − dK (x, x0 )) ⊂ A ∈ A e isto implica r(x0 ) ≥ r − dX (x, x0 ).
Tomando o supremo em r, vemos que r(x0 ) ≥ r(x) − dK (x, x0 ), como querı́amos demonstrar.
[Fim da prova da afirmação.] 2

Entre outras coisas, esta afirmação nos diz que inf x∈K r(x) = r(x∗ ) para algum x ∈ K; afinal, K é
compacto! Mas note então que r(x∗ ) > 0, porque r é positiva em todos os pontos de K. Deduzimos que
inf x∈K r(x) > 0, o que nos permite escolher um δ ∈ (0, inf x∈K r(x)).
Este δ nos permite terminar a prova. Veja que, dado x ∈ K, r(x) > δ. Pela definição de r(x), isto quer
dizer que 0 < δ < sup I(x); como I(x) é intervalo, isto quer dizer que δ ∈ I(x) e existe um A ∈ A com
BK (x, δ) ⊂ A.
Já vimos no Teorema 7.1 que K compacto implica que K é totalmente limitado. Pela Proposição 7.1,
isto quer dizer que K = ∪ki=1 BK (xi , δ) para alguma escolha de x1 , . . . , xk ∈ K. Mas então escolhemos,
para cada 1 ≤ i ≤ k, um aberto Ai ∈ A com B(xi , δ) ⊂ Ai , e observamos que K ⊂ ∪ki=1 Ai . Deste modo,
C := {Ai : 1 ≤ i ≤ k} é uma subcoleção finita de A que cobre K. 2

91
Observação 7.1 Um dado importante que surgiu na prova acima é que, se K é compacto, então toda
cobertura A de K por abertos possui um número de Lebesgue, isto é, um δ > 0 tal que, se x, x0 ∈ K e
dK (x, x0 ) < δ, então x, x0 ∈ A para algum A ∈ A. Isto é, se dK (x, x0 ) < δ, x, x0 pertencem ao mesmo
aberto da cobertura. Usaremos isto mais adiante.

7.5 Subconjuntos de um espaço métrico completo


A partir desta seção estaremos interessados no caso em que K ⊂ X com (X, dX ). Mais adiante, (X, dX )
será algum dos nossos espaços usuais: métrica discreta, Rd , C(I, R) ou C((a, b), R). Primeiramente ob-
servaremos como formular compacidade em termos da métrica e da topologia de X (e não a métrica e a
topologia que X induz em K).

1. A definição de compacidade (toda função contı́nua de K em R tem cota inferior, e ainda atinge seu
ı́nfimo) é a mesma, contanto que lembremos que a métrica de K é a que X induz.

2. Quando (X, dX ) é completo (como é o caso aqui), pedir que K seja completo com a métrica induzida
é a mesma coisa que pedir que K seja fechado de X (cf. Exercı́cio ??). Logo, ao invés de pedir que
K seja completo, pediremos que ele seja fechado.

3. Por outro lado, pedir que K seja coberto por um número finito de bolas abertas de raio r > 0 é o
mesmo que
∃x1 , . . . , xk ∈ K : K = ∪ki=1 BK (xi , r) = ∪ki=1 (BX (xi , r) ∩ K),

o que é igual a pedir que


∃x1 , . . . , xk ∈ K : K ⊂ ∪ki=1 BX (xi , r).

Portanto, podemos formular a condição de ser totalmente limitado em termos de bolas de X.

Exercı́cio 7.5 Mostre que K ⊂ X é totalmente limitado na métrica induzida se e somente se

∀r > 0 ∃x1 , . . . , xk ∈ X : K ⊂ ∪ki=1 BX (xi , r).

A diferença é que agora permitimos que os centros das bolas estejam em qualquer lugar de X, não
necessariamente em K.

4. O critério das subsequências convergentes é o mesmo, exceto pelo cuidado de especificar que o limite
deve estar em K.

5. Como os abertos de K são da forma A ∩ K, com A ⊂ X aberto de X, o critério das coberturas é


escrito desta forma: para toda coleção A de abertos de X com ∪A∈A A ⊃ K, existe uma subcoleção
C ⊂ A finita com ∪A∈C A ⊃ K.

6. Por fim, o critério da propriedade da interseção finita é o mesmo de antes.

Exercı́cio 7.6 Mostre que, se dX é a métrica discreta sobre X, então K ⊂ X é compacto se e somente se
é finito.

92
7.6 Compactos de Rd e a equivalência de normas
O resultado a seguir é um clássico da Análise.

Teorema 7.3 (Heine Borel) Um subconjunto K ⊂ Rd é compacto se e somente se é fechado e limitado.

Prova: Pelo que vimos acima, K é compacto se e somente se é fechado e totalmente limitado. Desta forma,
basta provar que qualquer subconjunto K de Rd é limitado se e somente se é totalmente limitado. Mas isto
é simples:
• Se K é totalmente limitado, K ⊂ ∪m i=1 BRd (xi , δ). Mas então a desigualdade triangular mostra que
dRd (0, x) ≤ max{dRd (0, xi )}1≤i≤n + δ para todo x ∈ K, ou seja, K é limitado.
• Se K ⊂ Rd é limitado, temos que K√⊂ [−n, n]d para algum n ∈ N. Dividindo cada intervalo [−n, n]
em intervalos de comprimento < δ/ d, vemos que [−n, n]d é dividido em um número finito de cubos
tais que |x − x0 | < δ para quaisquer dois elementos no mesmo cubo. Tomando um ponto xi em cada
cubo, vemos que K ⊂ [−n, n]d ⊂ ∪m i=1 BRd (xi , δ) para uma certa coleção finita de pontos. Deste
modo, K é totalmente limitado.
2
Vamos aplicar este resultado para provar algo que prometemos há muito tempo: que todas as normas em
Rd são equivalentes. Enunciamos isto abaixo “por extenso”.

Teorema 7.4 Considere uma norma k · k sobre Rd e seja | · | a norma Euclideana. Então existem C, c > 0
tais que
∀x ∈ Rd : c |x|2 ≤ kxk ≤ C |x|2 . (7.2)

Prova: Lembre-se de que e1 , . . . , ed são os vetores da base canônica de Rd : fixo 1 ≤ i ≤ d, ei tem a i-ésima
coordenada igual a 1 e as demais coordenadas iguais a 0. Recorde ainda que
d
X
∀x ∈ Rd : x = x[i] ei .
i=1

Vamos provar agora a existência de C > 0 como acima. Veja que, dado x ∈ Rd qualquer
d
X
kxk = k x[i]ei k
i=1
d
X
(subaditividade) ≤ kx[i] ei k
i=1
Xd
(homogeneidade positiva) = |x[i]| kei k
i=1
Xd
≤ |x[i]| max kej k
1≤j≤d
i=1
= max kej k (|x|1 )
1≤j≤d
√ √
(| · |1 ≤ d | · |2 ) ≤ ( d max kej k) |x|2 .
1≤j≤d

93

Logo a constante C := d max1≤j≤d kej k satisfaz o que queremos. Note que C > 0 porque ei 6= 0 para
cada i e portanto kei k > 0 para cada i.
Provaremos agora que existe c > 0 como acima usando a primeira parte. Considere a esfera unitária
Sd−1 ⊂ Rd , dada por
Sd−1 = {x ∈ Rd : |x|2 = 1}.
Como f (x) = |x|2 = dRd (x, 0) (x ∈ Rd ) é contı́nua, Sd−1 = f −1 ({1}) é subconjunto fechado de Rd .
Além disso, Sd−1 é limitado. Deduzimos que a esfera Sd−1 é compacta. Além disso, a função g(x) := kxk
(com x ∈ S d−1 ) é C-Lipschitz, já que

∀x, x0 ∈ S d−1 : |g(x) − g(x0 )| = |kxk − kx0 k| ≤ kx − x0 k ≤ C |x − x0 |2 .

Portanto, g é uma função contı́nua sobre um compacto e existe um x∗ ∈ S d−1 com c := g(x∗ ) =
inf x∈S d−1 kxk. A fortiori, c > 0, já que x∗ ∈ Sd−1 ⇒ x∗ 6= 0 e k · k é uma norma.
Basta checar agora que c “funciona” para nossos propósitos. Para isto, tome x ∈ Rd qualquer. Se x = 0,
claramente kxk = 0 ≥ c|x|2 = 0. Se x 6= 0, então x/|x|2 ∈ S d−1 , logo kx/|x|2 k ≥ c e kxk ≥ c |x|2 pela
homogeneidade positiva da norma. 2

Exercı́cio 7.7 Considere C([0, 1], R) com a norma do sup. Mostre que existe uma sequência {fn }n∈N ⊂
C([0, 1], R) de funções com kfn k[0,1],∞ = 1 e kfn − fm k[0,1],∞ = 1 para todos m, n ∈ N. Deduza que a
bola unitária fechada ao redor de 0 não é compacta; ou seja, o teorema de Heine Borel não se estende a
este espaço de funções contı́nuas.

7.7 Consequências para funções contı́nuas


Nesta seção trataremos da relação entre compacidade e funções contı́nuas.

7.7.1 Novos espaços de funções contı́nuas


Fixamos um espaço métrico compacto (K, dK ) e um outro espaço métrico (Z, dZ ) para falar de funções
contı́nuas f : K → Z. O conjunto destas funções será denotado por C = C(K, Z). Nosso objetivo é
demonstrar que C(K, Z) tem uma métrica natural e é um espaço bem comportado com esta métrica.

Teorema 7.5 Suponha que (Z, dZ ) é completo. Dadas f, g ∈ C, defina:

dC (f, g) := sup dZ (f (t), g(t)).


t∈K

Então dC é uma métrica sobre C e (C, dC ) é um espaço métrico completo.

Observe que este teorema é muito mais geral do que o que já conhecemos sobre C(I, R). Aqui podemos
ter K qualquer compacto e Z ⊂ Rd qualquer fechado. De fato, Z pode ser qualquer subconjunto fechado
de qualquer espaço métrico! Esta flexibilidade será muito importante mais adiante, quando chegarmos às
soluções de EDOs.
Prova: Esta prova deve muito à prova de que C([a, b], R) é espaço métrico completo. Faremos abaixo um
esboço dos passos que são iguais e das principais diferenças.

94
Primeiro vamos provar que o supremo na definição de dC é atingido por algum t∗ ∈ K; em particular,
dC (f, g) ∈ R está bem definida. Para ver que o sup é atingido, como K é compacto, basta ver que a função
t ∈ K 7→ dZ (f (t), g(t)) ∈ R
é contı́nua. Isto é verdade porque, sempre que tn → t em K,
|dZ (f (t), g(t)) − dZ (f (tn ), g(tn ))| ≤ |dZ (f (t), g(t)) − dZ (f (tn ), g(t))|
+|dZ (f (tn ), g(t)) − dZ (f (tn ), g(tn ))|
(∆ nos dois termos) ≤ dZ (f (tn ), f (t)) + dZ (g(tn ), g(t))
→ 0 quando n → +∞.
Portanto dZ (f (t), g(t)) = limn dZ (f (tn ), g(tn )).
Acabamos de ver que dC está bem definida. As propriedades de métrica são provadas como no caso
de C(I, R). A completude também é provada como antes, nos mesmos três passos. Dada {fn }n∈N ⊂ C
Cauchy, temos o seguinte.

1. Para cada t ∈ K,
n,m→+∞
0 ≤ dZ (fn (t), fm (t)) ≤ dC (fn , fm ) → 0.
Logo {fn (t)}t∈N ⊂ Z é Cauchy e, como Z é completo, existe o limite pontual f (t) = limn fn (t)
para cada t ∈ K.
2. Para cada n ∈ N e t ∈ K, a existência do limite pontual diz que
dZ (fn (t), f (t)) = lim dZ (fn (t), fm (t))
m
≤ sup dZ (fn (t), fm (t))
m≥n
≤ sup dC (fn , fm ).
m≥n

Logo
0 ≤ sup dZ (fn (t), f (t)) ≤ sup dC (fn , fm ) → 0 porque {fn }n∈N é Cauchy.
t∈K m≥n
Deduzimos que fn → f uniformemente.
3. Por fim, dada uma sequência tk → t em K, para qualquer n ∈ N
dZ (f (tk ), f (t)) ≤ dZ (fn (tk ), fn (t))
+dZ (fn (tk ), f (tk )) + dZ (fn (t), f (t))
≤ dZ (fn (tk ), fn (t)) + 2dC (fn , f ).
(Aqui abusamos notação e usamos dC (fn , f ) apesar de ainda não sabemos que f ∈ C!). Como fn é
contı́nua, fn (tk ) → fn (t) e
0 ≤ lim sup dZ (f (tk ), f (t)) ≤ 2dC (fn , f )
k

e mandar n → +∞ nos mostra que o lim sup é 0, logo f (tk ) → f (t). Como isto vale para qualquer
sequência como acima, f ∈ C é contı́nua.

95
7.7.2 Continuidade uniforme
Nosso próximo objetivo será mostrar que uma função contı́nua em um compacto é sempre uniformemente
contı́nua.

Definição 7.4 Dizemos que f : X → Z é uniformemente contı́nua se para qualquer ε > 0 existe um δ > 0
tal que, se x, x0 ∈ X e dX (x, x0 ) < δ, então dZ (f (x), f (x0 )) < ε.

Note que isto é diferente da definição de continuidade via ε/δ, que é:

∀ε > 0 ∀x ∈ X ∃δ > 0 ∀x0 ∈ X : dX (x, x0 ) < δ ⇒ dZ (f (x), f (x0 )) < ε.

Já continuidade uniforme pede que:

(?) ∀ε > 0 ∃δ > 0 ∀x, x0 ∈ X : dX (x, x0 ) < δ ⇒ dZ (f (x), f (x0 )) < ε.

Ou seja: dado ε, temos que achar um δ que serve para todos os x simultaneamente.

Exercı́cio 7.8 Toda função Lipschitz é uniformemente contı́nua.

Por outro lado, f : R → R dada por f (x) = x2 não é uniformemente contı́nua. De fato, vemos que:

∀n ∈ N, ∀h > 0 : f (n + h) − f (n) > 2n.h.

Portanto, fixo ε ∈ (0, 1), e dado qualquer δ > 0, podemos escolher n ∈ N tal que h := 1/2n tem |h| < δ e
no entanto
|f (n + h) − f (n)| > 2h = 1 > ε.
O teorema a seguir mostra que este fenômeno não pode acontecer se o domı́nio da função f é compacto.

Teorema 7.6 Se (K, dK ) é compacto, então toda função f : X → Z que é contı́nua é uniformemente
contı́nua.

Prova: Seja f : K → Z contı́nua e fixe ε > 0. Mostraremos que existe um δ > 0 satisfazendo (?).
Pela definição ε/δ de continuidade, para qualquer ε > 0 e qualquer x ∈ K existe um δ(x) > 0 tal que
ε
∀x0 ∈ K : dK (x, x0 ) < δ(x) ⇒ dZ (f (x), f (x0 )) < .
2
A desigualdade triangular implica que:

∀x ∈ K, ∀x0 , x00 ∈ BK (x, δ(x)) : dZ (f (x0 ), f (x00 )) < ε. (7.3)

Observe que
A := {BK (x, δ(x)) : x ∈ K}
é uma coleção de abertos que cobre K. A Observação 7.1 implica que existe um número de Lebesgue δ > 0
tal que, se a, b ∈ K e dK (a, b) < δ, então a, b ambos pertencem a um mesmo aberto desta coleção. Isto é:

dK (a, b) < δ ⇒ ∃x ∈ K : a, b ∈ BK (x, δ(x)) ⇒ dZ (f (a), f (b)) < ε (por (7.3)).

Concluı́mos que o número de Lebesgue δ tem exatamente a propriedade que procurávamos. 2

96
Exercı́cio 7.9 Construa uma prova alternativa da continuidade uniforme baseada no seguinte argumento.

1. Primeiro mostre que f é uniformemente contı́nua se e somente se vale a seguinte propriedade:

∀{xn }n∈N , {yn }n∈N ⊂ K : dK (xn , yn ) → 0 ⇒ dZ (f (xn ), f (yn )) → 0.

2. Agora suponha (para chegar a uma contradição) que existem {xn }n , {yn }n com dK (f (xn ), f (yn )) →
0, mas dZ (f (xn ), f (yn )) 6→ 0. Observe que, se xn converge a algum x, yn também converge a x
e portanto dK (f (xn ), f (yn )) → 0, contradição. Depois note que, mesmo que xn não convirja, é
sempre possı́vel achar uma subsequência convergente, e isto já basta para fazer valer a prova.

7.8 Conjuntos perfeitos (opcional)


Nesta seção falamos de certos conjuntos em que todo ponto pode ser bem aproximado por outros pontos.

Definição 7.5 Seja (X, dX ) um espaço métrico. P ⊂ X é perfeito se todo x ∈ P é ponto de acumulação
de P , isto é:
∀p ∈ P, ∀δ > 0 : (BX (p, δ)\{p}) ∩ P 6= ∅.

Exercı́cio 7.10 Mostre que P é perfeito se e somente se para cada p ∈ P existe uma sequência {pn }n ⊂
P \{p} que converge a p.

Exercı́cio 7.11 Mostre que R, Q e R\Q são subconjuntos perfeitos de R.

Exercı́cio 7.12 Mostre que existem conjuntos perfeitos enumeráveis.

Provaremos abaixo um resultado que mostra que não há conjuntos compactos, perfeitos e enumeráveis.

Teorema 7.7 Se P ⊂ X é compacto e perfeito, P é não enumerável.

Veja que a hipótese de que P é compacto não pode ser descartada.


Prova: Na prova vamos supôr sem perda de generalidade que X = P .
Tome uma f : N → P qualquer; vamos mostrar que ela não é sobrejetiva. A demonstração será
bastante parecida com a que usamos para provar que R não era enumerável. O que faremos será construir
irecursivamente bolas fechadas encaixadas

P ⊃ F1 ⊃ F2 ⊃ F3 ⊃ . . .

de modo que:

1. O raio de cada Fn é positivo.

2. f (n) 6∈ Fn para todo n ∈ N.

Antes de embarcar na construção, vamos explicar porque ela basta para provar nossa tese. Veja que

F := {F1 , F2 , F3 , . . . }

97
é famı́lia de subconjuntos fechados de P tal que, para qualquer subfamı́lia finita {Fn1 , . . . , Fnk },

k
\
Fni = Fmax{n1 ,...,nk } 6= ∅;
i=1

portanto, o fato de que P é compacto implicará que:

∩n Fn 6= ∅.

Por fim, notamos que ∩n Fn , que não é vazio, não tem elementos em comum com a imagem de f (afinal,
f (j) 6∈ Fj para todo j), portanto f não pode ser sobrejetiva.
Agora vamos partir para a construção. Para definir F1 , fixe primeiramente um x1 6= f (1) e defina
r1 := dX (f (1), x1 )/2. Tomamos F1 := BX [x1 , r1 ] e notamos que f (1) 6∈ F1 , F1 6= ∅.
Suponha agora que F1 , . . . , Fn já foram definidas; vamos construir Fn+1 a seguir. Sabemos que Fn :=
B[xn , rn ] com xn ∈ P e rn > 0. Agora usaremos fortemente a hipótese de que P é perfeito para notar que
B(xn , rn /2)\{xn } não é vazio, de modo que podemos tomar yn ∈ P com 0 < dX (xn , yn ) < rn /2.
Vamos construir Fn+1 considerando dois casos. Se f (n + 1) 6= xn , podemos tomar
 
dX (f (n + 1), xn )
Fn+1 := B[xn , rn+1 ] com rn+1 := min rn , .
2

Veja que Fn+1 ⊂ Fn porque o centro da bola se manteve e o raio não pode aumentar. Além disto, como
dX (f (n + 1), xn ) > 0 e rn > 0 (por hipótese da recursão), o raio de Fn+1 é positivo. Finalmente,
f (n + 1) 6∈ Fn+1 porque a distância entre xn e f (n + 1) é maior do que o raio da bola Fn+1 .
Resta decidir o que fazer no caso em que f (n + 1) = xn . Neste caso, tomaremos uma bola ao redor de
yn  
rn dX (f (n + 1), yn )
Fn+1 := B[yn , rn+1 ] com rn+1 := min , .
2 2
Veja que f (n + 1) 6∈ Fn+1 porque o raio da bola é menor do que a distância de f (n + 1) ao centro da
bola. Além disto, o raio é positivo porque tanto esta distância quanto o rn > 0 são positivos. Finalmente,
Fn+1 ⊂ Fn porque
dX (yn , xn ) + rn+1 ≤ rn ⇒ B[yn , rn+1 ] ⊂ B[xn , rn ].
Isto mostra que podemos definir Fn+1 com as propriedades desejadas. 2

7.9 Mais exercı́cios


Exercı́cio 7.13 Sejam (X, dX ) um espaço métrico completo e S ⊂ X um subconjunto. Mostre que S é
totalmente limitado se e somente se S é compacto.

Exercı́cio 7.14 Determine quais dos subconjuntos de C([0, 1], R) abaixo são compactos.

1. Todas as funções Lipschitz.

2. Todas as funções L-Lipschitz, para um L > 0 fixo.

3. Todos os polinômios com grau 3.

98
4. Todos os polinômios com grau 3 e coeficientes no intervalo [−1, 1].

(Obs: mais adiante provaremos um critério para compacidade neste espaço, o teorema de Ascoli-Arzelà.
Estes exemplos podem ser estudados diretamente.)

Exercı́cio 7.15 Considere um espaço métrico compacto (K, dK ). Chame p ∈ K de ponto isolado se existe
um δ > 0 tal que BK (p, δ) = {p} (ou seja, não há qualquer ponto de K, além do próprio p, a distância
< δ do p). Prove que o conjunto de pontos isolados de K é vazio, finito ou enumrável.

Exercı́cio 7.16 Suponha que (X, dX ) é um espaço métrico e que {xn }n∈N ⊂ X converge a x ∈ X. Mostre
que o conjunto S := {xn : n ∈ N} é totalmente limitado.

Exercı́cio 7.17 Recorde que um espaço métrico é separável se possui um subconjunto denso e enumerável.
Mostre que todo espaço métrico compacto é separável.

Exercı́cio 7.18 Sejam (Ki , di ) espaços métricos totalmente limitados, 1 ≤ i ≤ k. Mostre que

K := K1 × K2 × · · · × Kk

é espaço métrico totalmente limitado com a métrica

dK (x, y) := max di (x[i], y[i]) (x, y ∈ K)


1≤i≤k

. Mostre ainda que K é compacto se e somente se cada Ki é compacto.

99
100
Capı́tulo 8

Caminhos e conexidade

O objetivo deste capı́tulo é estudar duas noções do que significa um espaço métrico ser conexo. Podemos
descrevê-las intuitivamente da seguinte forma.

• Conexidade por caminhos: quaisquer dois pontos são ligados por uma curva contı́nua.

• Conexidade topológica: é possı́vel colorir o conjunto com duas cores sem que qualquer ponto esteja
“colado” em pontos da outra cor.

Como veremos, o segundo conceito é mais geral, mas o primeiro é mais intuitivo e os dois têm uma
teoria análoga. Além disso, há alguns casos importantes em que os dois conceitos coincidem.

8.1 Conexidade por caminhos


Fixe um espaço métrico (X, dX ). Uma curva parametrizada é uma aplicação contı́nua γ : [0, 1] → X.
Dizemos que γ conecta x ∈ X a x0 ∈ X se γ(0) = x e γ(1) = x0 . Dizemos ainda que γ conecta x a x0
em U ⊂ X se x, x0 ∈ U , γ conecta estes dois pontos e a imagem Im(γ) ⊂ U . Simbolizaremos esta relação
U
pelo sı́mbolo x ↔ x0 .

U
Definição 8.1 Dizemos que U ⊂ X é conexo por caminhos se x ↔ x0 para todos x, x0 ∈ U .

U
Antes de compreender melhor esta definição, precisaremos de alguns fatos sobre a relação “↔”. O
primeiro ponto é mostrar que esta é uma relação de equivalência sobre os elementos de U .

Lema 8.1 Dados x, x0 , x00 ∈ U , temos:


U
• Reflexividade: x ↔ x.
U U
• Simetria: x ↔ x0 se e somente se x0 ↔ x.
U U U
• Transitividade: x ↔ x0 e x0 ↔ x00 implicam x ↔ x00 .

Prova: Reflexividade segue do fato de que a curva γ(t) ≡ x, t ∈ [0, 1], conecta x a x. Simetria vem do fato
que γ conecta x a x0 se e somente se t 7→ γ(1 − t) conecta x0 a x, e tanto γ quanto t 7→ 1 − t são contı́nuas.

101
U U U
Por fim, suponha x ↔ x0 ↔ x00 . Queremos demonstrar que x ↔ x00 , ou seja, que há uma curva que
conecta x a x00 em U . Veja primeiramente que, por hipótese, existem curvas γ0 , γ1 : [0, 1] → U com
γ0 (0) = x, γ0 (1) = γ1 (0) = x0 e γ1 (1) = x00 . Defina agora:

γ0 (2t), 0 ≤ t ≤ 1/2;
γ(t) :=
γ1 (2t − 1), 1/2 < t ≤ 1.

A ideia é que nós “colamos” a curva γ0 com a curva γ1 , o que resulta numa única curva contı́nua porque γ0
termina onde γ1 começa. De fato, supondo por um instante que γ é contı́nua, vemos que γ(t) ∈ U para todo
U
t (afinal, γ(t) = γ0 (s) ou γ1 (s) para algum s ∈ [0, 1]) e conecta x a x00 , de modo que x ↔ x00 .
Falta checar que γ é mesmo contı́nua. Para isto, dado um conjunto F ⊂ U fechado em U , vamos
mostrar que γ −1 (F ) ⊂ [0, 1] é fechado. Veja que, dado um t ∈ [0, 1] qualquer,

t ∈ γ −1 (F ) ⇔ (t ≤ 1/2 e γ0 (2t) ∈ F ) ou (t ≥ 1/2 e γ1 (2t − 1) ∈ F ).

O ponto sutil acima é que as duas cláusulas do “ou”podem ser verdade simultaneamente no caso em que
t = 1/2. Isto vem do simples fato que γ0 (2t) = x0 = γ1 (2t − 1) se t = 1/2. Aqui usamos o fato de que γ0
termina onde γ1 começa, que é fundamental para termos a continuidade.
Vamos agora terminar a prova observando o seguinte. Defina as funções contı́nuas φ0 (t) := 2t, definida
para t ∈ [0, 1/2], e φ1 (s) := 2s − 1, para s ∈ [1/2, 1]. A equivalência acima nos mostra que

γ −1 (F ) = (γ0 ◦ φ0 )−1 (F ) ∪ (γ1 ◦ φ1 )−1 (F ).

Como γ0 , γ1 , φ0 e φ1 são contı́nuas, temos que (γ0 ◦ φ0 )−1 (F ) ⊂ [0, 1/2] é fechado em [0, 1/2] e (γ1 ◦
φ1 )−1 (F ) ⊂ [1/2, 1] é fechado em [1/2, 1]. Como ambos os intervalos são fechados, deduzimos que
(γ0 ◦ φ0 )−1 (F ) e (γ1 ◦ φ1 )−1 (F ) são ambos fechados em [0, 1] e portanto γ −1 (F ), que é a união dos outros
dois, também é fechado em [0, 1], como querı́amos demonstrar. 2
Vamos agora estudar alguns casos de conjuntos conexos por caminhos.

Exemplo 8.1 Os conjuntos conexos por caminhos em R são exatamente os intervalos.

Observe que um conjunto I ⊂ R é um intervalo se e somente se, dados x, x0 ∈ I com x < x0 , temos
que qualquer ponto z ∈ (x, x0 ) está em I. Desta forma, sempre que I é um intervalo e x < x0 estão em I,
I
temos que a curva γ(t) := (1 − t) x + t x0 (t ∈ [0, 1]) conecta x a x0 em I, o que quer dizer que x ↔ x0 e
vice-versa. Ou seja, se I é intervalo, então I é conexo por caminhos.
Para ter a recı́proca, suponha que I ⊂ R é conexo por caminhos. Queremos mostrar que I é um intervalo,
isto é, que, dados x, x0 ∈ I com x < x0 , então qualquer ponto z ∈ (x, x0 ) está também em I. Considere
x < x0 como acima e tome uma curva contı́nua γ : [0, 1] → I conectando x a x0 em I. Esta é uma aplicação
contı́nua de [0, 1] em R, portanto o Teorema do Valor Intermediário nos garante que, dado z ∈ (x, x0 ), há
um t ∈ (0, 1) com γ(t) = z. Em particular, como a imagem de γ está contida em I, isto quer dizer que
z = γ(t) ∈ I. Como z ∈ (x, x0 ) é arbitrário, isto encerra a prova.

Exemplo 8.2 Seja (V, k · kV ) um espaço vetorial normado e C ⊂ V um conjunto convexo, isto é tal que,
dados quaisquer v, v 0 ∈ C e t ∈ [0, 1], (1 − t) v + tv 0 ∈ C. Geometricamente, isto quer dizer que, dados
dois pontos em C, todo o segmento de reta entre eles também está em C.

102
Veja que claramente C é conexo, dado que, dados v, v 0 , a curva γ(t) = (1 − t) v + t v 0 , que é contı́nua
C
(por quê?), demonstra que v ↔ v 0 . O mais interessante é mostrar que toda bola em V é convexa. De fato,
se R > 0 e v0 ∈ V , a bola B(v0 , R) é dada por:

B(v0 , R) = {v ∈ V : kv − v0 kV < R.}

Mas então, para quaisquer v, v 0 ∈ B(v0 , R) e t ∈ [0, 1], temos kv − v0 kV < R, kv 0 − v0 kV < R e portanto

k(1 − t)v + tv 0 − v0 kV = k(1 − t)(v − v0 ) + t(v 0 − v0 )kV


≤ (1 − t)kv − v0 kV + tkv 0 − v0 kV
< (1 − t)R + tR = R,

ou seja, (1 − t)v + tv 0 ∈ B(v0 , R).

Exemplo 8.3 Suponha que U, V ⊂ X são conexos por caminhos e têm um ponto em comum. Então U ∪ V
é conexo por caminhos.

U
De fato, seja x0 ∈ U ∩ V . Então, para todo x ∈ U ∪ V , ou x ∈ U e x ↔ x0 (já que U é conexo por
V U ∪V
caminhos), ou x ↔ x0 (e vale o análogo para V ). Em ambos os casos, x ↔ x0 e a transitividade desta
U ∪V
relação garante que x ↔ x00 para quaisquer x, x00 ∈ U ∪ V .

Exemplo 8.4 Seja U ⊂ X conexo por caminhos. Para qualquer função contı́nua f : U → Y , a imagem
f (U ) é conexa por caminhos. Em particular, se Y = R, f (U ) é um intervalo.

Para ver isso, observe que, dados x, x0 ∈ U e uma curva γ ligando estes dois pontos em U , a composição
f ◦ γ é contı́nua e conecta f (x) a f (x0 ) em f (U ). Deste modo, como todos os pares de pontos em U são
conectados por curvas em U , quaisquer dois pontos y = f (x), y 0 = f (x0 ) em f (U ) são conectados por
caminhos em f (U ). Ou seja, f (U ) é conexo por caminhos.

Exercı́cio 8.1 Determine se os conjuntos contidos em Rd (d > 1) abaixo são convexos e/ou conexos por
caminhos.

1. O simplexo
 
 d
X 
∆d := x ∈ Rd : x(j) = 1 e ∀i ∈ {1, . . . , d}, x[i] ≥ 0 .
 
j=1

2. A esfera unitária Sd−1 := {x ∈ Rd : |x|2 = 1.}

3. Rd \{0}.

Exercı́cio 8.2 Tome a métrica discreta sobre X e prove que este espaço é conexo por caminhos se e somente
se X tem apenas um elemento.

103
8.2 Conexidade topológica
O conceito de conexidade topológica é menos intuitivo que o de conexidade por curvas, mas é mais geral e
de certo modo mais robusto e mais importante.
Primeiro tentaremos entender a intuição deste conceito. Imagine que tentamos separar um conjunto
U ⊂ X em duas partes L ⊂ U e R = U \L com L, R 6= ∅. Queremos dizer que, se U é conexo, qualquer
divisão deste tipo causará uma “quebra”. Definir isto não é tão simples, mas sugerimos a seguinte ideia:
uma “quebra” é um conjunto de pontos u ∈ U que “vê”tanto L quanto R arbitrariamente de perto. Com isto
queremos dizer que

u está na quebra se BX (u, r) ∩ L 6= ∅ e BX (u, r) ∩ R 6= ∅ para todo r > 0.

Vamos pensar então o que significaria o fato de que U é desconexo. Dirı́amos que U é desconexo se existem
L ⊂ U e R = U \L, ambos não vazios, tais que, para qualquer u ∈ U , não vale a propriedade acima. Ou
seja,
∀u ∈ U : BX (u, r) ∩ L = ∅ ou BX (u, r) ∩ R = ∅.
Mas o que isto quer dizer? Como L ∪ R = U , dado u ∈ U , só há duas alternativas: ou há um r > 0 tal que
BU (x, r) ⊂ R, ou há um r > 0 tal que BU (x, r) ⊂ L. Veja que as alternativas são mutuamente excludentes,
de modo que, das duas, uma: ou u ∈ R, e neste caso BU (x, r) ⊂ R para algum r > 0, ou u ∈ L, e neste
caso BU (x, r) ⊂ L. A seguinte definição estabelece o que queremos.

Definição 8.2 U ⊂ X é desconexo se existe L ⊂ U com L 6= ∅, X (de modo que R = U \L 6= ∅, U


também) e tal que L é ao mesmo tempo relativamente aberto e relativamente fechado (portanto R também
é as duas coisas). U é conexo se não é desconexo.

Note que estamos definindo conexidade com relação à topologia relativa! Logo V ⊂ U ⊂ X é conexo
com relação à topologia induzida por X se e somente se é conexo com relação à topologia induzida por U .
Vamos agora enunciar uma maneira mais simples e outra, mais complicada, de checar conexidade.

Teorema 8.1 U ⊂ X é conexo se e somente se toda função contı́nua η : U → {0, 1} é constante.

Prova: Vamos provar que U é desconexo se e somente se existe uma função η : U → {0, 1} contı́nua e que
não é constante.
Imagine que η : U → {0, 1} é contı́nua. Tanto {0} quanto {1} são fechados do contradomı́nio, portanto

L := η −1 ({0}) e R := η −1 ({1}) = U \L

são fechados. Se η não é constante, L 6= ∅ e R 6= ∅, logo U = L ∪ R com L, R não vazios e relativamente


abertos e fechados. Ou seja,se η é contı́nua e não é constante, U é desconexo.
Por outro lado, se U é desconexo, podemos escrever U = L ∪ R com L, R não vazios, ambos relativa-
mente abertos e fechados. Neste caso é um exercı́cio verificar que a expressão

0, u ∈ L
η(u) =
1, u ∈ R.

define uma função contı́nua (apenas cheque que a imagem inversa de fechados de {0, 1} é fechada!). Por-
tanto, quando U é desconexo, existe η : U → {0, 1} contı́nua e não-constante 2

104
Provaremos agora alguns resultados relacionados aos que já provamos acima.

Exemplo 8.5 Os subconjuntos conexos da reta R são precisamente os intervalos.

Para ver isso, tome I ⊂ R intervalo. Dada η : I → {0, 1} contı́nua, veremos que ela tem de ser
constante. Suponha (para chegar a uma contradição) que η não é constante. Isto quer dizer que há pontos
t0 , t1 ∈ I com η(t0 ) = 0 e η(t1 ) = 1. O Teorema do Valor Intermediário implica que para cada x ∈ (0, 1)
há um t ∈ I com γ(t) = x. Mas isto contradiz o fato de que o contradomı́nio de η é {0, 1}. Portanto η tem
de ser constante.
Por outro lado, suponha que I não é intervalo. Neste caso, existe um ponto x ∈ R\I tal que inf I <
x < sup I. A função 
0, t < x
η0 (t) :=
1, t > x.
Esta função está definida para t ∈ R e é sabido que ela só é descontı́nua em t = x. Como x 6∈ I, sua
restrição η = η0 |I é contı́nua. Além disso, vemos que, como x > inf I, existe t0 ∈ (inf I, x) com t0 ∈ I e
portanto η(t0 ) = 0. Do mesmo modo, como x < sup I, existe t1 ∈ (x, sup I) com η(t1 ) = 1. Portanto, o
fato de que I não é um intervalo implica que existe η : I → {0, 1} contı́nua e não constante.

Exemplo 8.6 Todo conjunto conexo por caminhos é conexo. (A recı́proca em geral é falsa.)

Um contraexemplo para a recı́proca será discutido na próxima seção. Para ver porque conexidade por
caminhos implica conexidade, imagine que U é conexo por caminhos e que η : U → {0, 1} é contı́nua.
Fixado x0 ∈ U , mostraremos que η é contı́nua mostrando que η(x) = η(x0 ) para todo x ∈ U . De fato, como
U
x ↔ x0 , existe γ : [0, 1] → U contı́nua com γ(0) = x0 e γ(1) = x. A composição η ◦ γ : [0, 1] → {0, 1}
é contı́nua, o que quer dizer (como [0, 1] é intervalo) que é constante. Logo η(x) = η(γ(1)) = η(γ(0)) =
η(x0 ), CQD.

Exemplo 8.7 Se U ⊂ X é conexo, qualquer conjunto V contendo U e contido em U é conexo.

Vamos provar por contrapositiva. Suponha que existe um V como acima que não é conexo. Então há uma
η : V → {0, 1} contı́nua e pontos t0 , t1 ∈ V com η(t0 ) = 0, η(t1 ) = 1. Recorde que V ⊂ U e isto quer
dizer que existe uma sequência {tn }n∈N ⊂ U com tn → t0 , logo η(tn ) → η(t0 ) = 0. Como η(tn ) ∈ {0, 1}
para cada n, isto quer dizer que η(tn ) = 0 para todo n grande. Logo existe um t = tn ∈ U com η(tn ) = 0.
Do mesmo modo, temos que existe um s ∈ U com η(s) = 1. Deste modo, a restrição η |U : U → {0, 1} é
contı́nua e não constante, o que quer dizer que U é desconexo.

Exemplo 8.8 Um subconjunto de R é conexo se e somente se é um intervalo.

De fato, já vimos que os intervalos são exatamente os subconjuntos conexos por caminhos da reta, logo
todos eles são conexos. Por outro lado, todo intervalo é conexo, como vimos acima.

Exemplo 8.9 Se U ⊂ X é conexo e f : U → Y é contı́nua, a imagem f (U ) é conexa.

Veja que, se η : f (U ) → {0, 1} é contı́nua, η ◦ f : U → {0, 1} também o é. Se U é conexo, η é


constante, o que quer dizer que, dados quaisquer a = f (u) ∈ f (U ), a0 = f (u0 ) ∈ f (U ),
η(a) = η(f (u)) = η(f (u0 )) = η(a0 ).
Ou seja, η é constante. Como η : f (U ) → {0, 1} é uma função contı́nua qualquer, deduzimos que f (U ) é
conexo.

105
Exemplo 8.10 Se F é uma coleção de subconjuntos conexos de X e F ∩F 0 6= ∅ para quaisquer F, F 0 ∈ F,
então ∪F ∈F F é conexo.

Note que provamos que uma união de dois conjuntos conexos por caminhos com ponto em comum é
conexa por caminhos. Aqui, a união é conexa mesmo que a coleção F tenha infinitos elementos. Veremos
mais adiante que esta é uma diferença real entre os dois conceitos.
Para provar que vale a propriedade acima, tomemos η : ∪F ∈F F → {0, 1} contı́nua e dois pontos
quaisquer x, x0 da união, para mostrar que η(x) = η(x0 ). Para isto, tome F, F 0 ∈ F tais que x ∈ F e
x0 ∈ F 0 (tais conjuntos têm de existir, porque x e x0 estão na união). Por hipótese, podemos encontrar um
elemento x0 ∈ F ∩ F 0 . Como F é conexo, η é contı́nua, a restrição de η a F é constante; isto quer dizer que
η(x) = η(x0 ) porque x0 , x ∈ F . Do mesmo modo, a conexidade de F 0 implica η(x0 ) = η(x0 ). Deduzimos
que η(x) = η(x0 ), como querı́amos demonstrar.

8.3 Quando as definições concordam?


Como vimos acima, as teorias de conexidade (topológica) e conexidade por caminhos são análogas. De fato,
no caso de subconjuntos da reta real R, há uma coincidência total entre as duas definições: os intervalos são
exatamente os subconjuntos conexos e também os conexos por caminhos.
Nosso objetivo nesta seção vai ser mostrar que, por um lado, os dois conceitos às vezes divergem,
até mesmo em dimensão 2. Por outro lado, veremos que, para subconjuntos abertos de espaços vetoriais
normados, as duas noções de conexidade coincidem.

8.3.1 Discordância em R2
Vejamos primeiro um caso em que as duas definições discordam.

Teorema 8.2 Defina Γ0 ⊂ R2 da seguinte forma:

Γ0 := {(x, sin(1/x)) : x ∈ (0, 1]}

e Γ = Γ0 ∪ {(0, 1)}. Este Γ é conexo, mas não é conexo por caminhos.

Prova: A prova terá três partes.

Passo 1 Primeiro provaremos que Γ0 é conexo por caminhos e portanto conexo.

Passo 2 Provaremos a seguir que Γ não é conexo por caminhos.

Passo 3 Veremos que Γ0 ⊂ Γ ⊂ Γ0 . Como o fecho de um conjunto conexo é conexo, isto implica a conexidade
de Γ e encerra a prova.

Passo 1: Γ0 conexo por caminhos. Tome dois pontos p, q ∈ Γ0 ; pela definição do conjunto, sabemos
que p = (t, sin(1/t)) e q = (s, sin(1/s)) para valores 0 < s, t ≤ 1. Supondo sem perda de generalidade
Γ
que t < s, mostraremos que p ↔0 q. Para isto, basta definir a curva:
  
1
γ(a) := t + a (s − t), sin (a ∈ [0, 1]).
t + a (s − t)

106
Como s > t, t + a (s − t) ∈ (0, 1] para todo a ∈ [0, 1] e vemos que γ é uma curva que conecta p a q em Γ0 .

Passo 2: Γ não é conexo por caminhos. Provaremos que os pontos p = (0, 1) e q = (1, sin(1)), ambos
pertencentes a Γ, não podem ser conectados por uma curva contı́nua em Γ. De fato, suponha (para chegar a
uma contradição) que existe γ : [0, 1] → Γ contı́nua com γ(0) = p e γ(1) = q. Considere as coordenadas
γ1 (t), γ2 (t) de γ(t). Como γ é contı́nua, γ1 e γ2 são contı́nuas. Temos ainda que γ1 (0) = 0 e γ1 (1) = 1.
Como γ1 : [0, 1] → R, o Teorema do Valor Intermediário nos garante que existe um t0 ∈ (0, 1) com
γ1 (t0 ) = 1/(π/2). Suponha indutivamente que definimos

t0 > t1 > t2 > · · · > tn > 0

de modo que, para cada 0 ≤ m ≤ n, γ1 (tm ) = 1/(mπ + π/2). Veja que novamente γ1 (0) < 1/((n + 1)π +
π/2) < γ1 (tn ), logo existe um tn+1 ∈ (0, tn ) com γ1 (tn ) = 1/((n + 1)π + π/2). Desta forma, provamos
que existe uma sequência decrescente {tn }n∈N ⊂ (0, 1) com
 
1
∀n ∈ N : γ2 (tn ) = sin = ±1,
γ1 (tn )

dependendo se n é par ou ı́mpar.


Vemos que a sequência tn converge para um t ∈ [0, 1], posto que é decrescente. Isto implica γ2 (tn ) →
γ2 (t), o que contradiz o fato que a sequência γ2 (tn ) alterna entre ±1, como vimos acima. A contradição
implica que não podemos conectar p e q por uma curva em Γ.

Passo 3: Γ0 ⊂ Γ ⊂ Γ0 . A primeira inclusão é trivial. Para checar a segunda, basta ver que o ponto
p = (0, 1), que é o que adicionamos para formar Γ, está no fecho de Γ0 . Mas para isso basta ver que a
sequência  
1
pn = π , 1 (n ∈ N)
2 + 2πn
está toda em Γ0 e converge a p. 2

Exercı́cio 8.3 Mostre que Γ0 = Γ0 ∪ ({0} × [−1, 1]).

8.3.2 Concordância para abertos de espaços vetoriais


Nesta seção mostramos um caso muito importante em que os dois conceitos de conexidade concordam.

Teorema 8.3 Considere um espaço vetorial normado (V, k · kV ) e um subconjunto aberto A ⊂ V . Então
A é conexo se e somente se é conexo por caminhos.

Prova: Uma direção já está dada; além disso, o resultado é trivial se A = ∅. Só nos falta provar que um
A ⊂ V não vazio, aberto e conexo também é conexo por caminhos. O argumento que usaremos é tı́pico de
provas envolvendo conexidade.
Como A 6= ∅, podemos encontrar x0 ∈ A. Considere o subconjunto L ⊂ A de todos os x ∈ A com
A
x0 ↔ x. Nosso objetivo é provar que L = A; para isso, suporemos (para chegar a uma contradição) que
L 6= A, de modo que R = A\L 6= ∅. A contradição estará provada quando mostrarmos que L e R são
relativamente abertos em A, o que quer dizer que A é desconexo. Vejamos, portanto, a prova destes fatos.

107
1. Queremos mostrar que L é relativamente aberto em A. Como A é aberto, isto é o mesmo que mostrar
que L é aberto de V . Para isto, dado x ∈ L, devemos encontrar δ > 0 tal que B(x, δ) ⊂ L. Mas isto
é simples. Como A é aberto, existe um δ > 0 com B(x, δ) ⊂ A. A discussão logo após o Exemplo
B(x,δ)
8.2 acima nos diz que B(x, δ) é convexa, logo qualquer x0 ∈ B(x, δ) satisfaz x ↔ x0 . Como
A
B(x, δ) ⊂ A, isto também nos diz que x ↔ x0 para todo x0 ∈ B(x, δ). Mas recorde que, pelo Lema
A A A
8.1, a relação “↔”é transitiva, logo o fato de que x ∈ L, e portanto x ↔ x0 , implica que x0 ↔ x0
para todo x0 ∈ B(x, δ). Ou seja, B(x, δ) ⊂ L.

2. Do mesmo modo que acima, queremos provar que R ⊂ V é aberto. Para isto, dado x ∈ R, tomamos
A
δ > 0 com B(x, δ) ⊂ A. Novamente temos x0 ↔ x para todos x0 ∈ B(x, δ). Deste modo,
A A
se algum x0 ∈ B(x, δ) satisfaz x0 ↔ x0 , também teremos x ↔ x0 , o que contradiz o fato que
x 6∈ L. Deduzimos que x0 não está conectado em A a x0 para qualquer x0 ∈ B(x, δ), ou seja,
B(x, δ) ⊂ A\L = R.

8.4 Mais exercı́cios


Exercı́cio 8.4 Considere dois conjuntos abertos e conexos U, V ⊂ R2 com U ∩ V 6= ∅. É necessariamente
verdade que U ∩ V é conexo? E se supomos que U e V são convexos?

Exercı́cio 8.5 Mostre que um espaço métrico (X, dX ) é conexo se a imagem de qualquer função contı́nua
f : X → R é um intervalo. Prove ainda que (X, dX ) é conexo e compacto se e somente se a imagem de
qualquer função contı́nua f : X → R é um intervalo compacto.

Exercı́cio 8.6 Considere um espaço métrico (X, dX ). Dizemos que uma coleção F de subconjuntos F ⊂ X
é combinatorialmente conexa se dada qualquer partição F = F0 ∪ F1 com F0 , F1 6= ∅ e F0 ∪ F1 = F,
existem F0 ∈ F0 e F1 ∈ F1 com F0 ∩ F1 6= ∅. Prove que se F é combinatorialmente conexa e cada F ∈ F
é conexo, então a união ∪F ∈F F é um subconjunto conexo de X.

108
Parte III

Mais sobre os espaços de funções contı́nuas

109
Capı́tulo 9

Sequências e séries de funções

Nesta seção nós nos focaremos nos espaços de funções contı́nuas C := C(K, Rd ), onde (K, dK ) é um
espaço métrico compacto. No final da seção trataremos também do caso das funções contı́nuas de U ⊂ Rk
aberto em Rd . A estrutura destes espaços e das funções contı́nuas sobre eles será fundamental para tudo o
que faremos a seguir. Primeiro vamos catalogar num único teorema as propriedades básicas deste espaço,
que já foram todas provadas em capı́tulos ou exercı́cios anteriores.

Teorema 9.1 Recordando que | · |2 é a norma Euclideana em Rd , defina:


kf k = kf kK,∞,2 := sup |f (t)|2 (f ∈ C(K, Rd )).
t∈K

Temos que C(K, Rd ) é um espaço vetorial real, k · k é uma norma sobre este espaço, e que, com a métrica
induzida, C(K, Rd ) é um espaço métrico completo.

9.1 Séries de funções


Nosso problema nesta seção será dar condições suficientes para que, dada uma sequência de funções {fn }n∈N ⊂
C, exista uma f ∈ C tal que X
f (t) = fn (t), (t ∈ K).
n∈N

Também estaremos interessados em saber quando f 0 (t) = fn0 (t) para todo t ∈ K no caso em que
P
n∈N
isto faz sentido (isto é, quando K ⊂ R).
Um caso particular importante é dado a seguir.

Exemplo 9.1 (Séries de potência) Neste caso supomos d = 1 e K = [t0 − R, t0 + R] com t0 ∈ R e R ∈ R.


Nosso objetivo será investigar quando uma série do tipo
X
f (t) = cn (t − t0 )n
n∈N

converge a uma função contı́nua de t ∈ K, onde {cn }n∈N é uma sequência previamente escolhida de valores
reais. Também procuraremos condições sob as quais podemos diferenciar a série, obtendo a identidade
esperada X
f 0 (t) = ncn (t − t0 )n−1 .
n∈N\{0}

111
9.1.1 Somando séries
Nosso primeiro resultado dá um critério simples para se definir quando uma série de funções converge
uniformemente.
Proposição 9.1 Se n kfn k < +∞, então existe f ∈ C tal que kf − kn=0 fn k → 0 quando k → +∞.
P P
Pk P
Prova: Defina gk := n=0 fn . Como C é completo, basta provar que n kfn k <
P +∞ implica que
{gn }n∈N é Cauchy. Usando a métrica induzida, vemos que isto é o mesmo que pedir que n∈N d(gn , gn+1 ) <
+∞ ⇒ {gn }n∈N é Cauchy. Em particular, a proposição segue do enunciado abaixo.

Lema 9.1 Se (X, dX ) é um espaço métrico, então qualquer sequência {xn }n∈N que satisfaz
P
n∈N dX (xn , xn+1 ) < +∞ é Cauchy. (Em particular, se X é completo, a sequência con-
verge.)
Prova: Fixemos ε > 0. Nosso objetivo é mostrar que ∃n0 = n0 (ε) ∈ N tal P
que dX (xn , xm ) <
ε para todos n, m ∈ N com n, m ≥ n0 . Para isso, observamos que,
P como n∈N d(xn , xn+1 )
é uma série convergente, necessariamente existe um n0 tal que k≥n0 (ε) dX (xk , xk+1 ) < ε.
Afirmamos que este n0 tem a propriedade que queremos. De fato, se m, n ≥ n0 e m ≥ n – ou
seja, m = n + j para algum j ∈ N – a desigualdade triangular garante
dX (xn , xm ) = dX (xn , xn+j )
j−1
X
≤ dX (xn+i , xn+i−1 )
i=0
n+j−1
X
= dX (xk , xk+1 )
k=n
+∞
X
(n ≥ n0 , n + j − 1 < +∞, termos ≥ 0) ≤ dX (xk , xk+1 ) < ε.
k=n0

De modo análogo, dX (xn , xm ) < ε também quando n ≥ m ≥ n0 . (Fim da prova do Lema.)


2

2
Vejamos agora como aplicar este resultado ao Exemplo 9.1 sobre séries de potência.
Teorema 9.2 No Exemplo 9.1, temos que
1 1 X
lim sup |cn | n < ⇒ cn (t − t0 )n converge uniformemente.
n→+∞ R
n∈N

Prova: Para cada n ∈ N, defina fn ∈ C como


fn (t) := cn (t − t0 )n (t ∈ K).
Veja que kfn k = |cn | Rn . Sob as condições do enunciado, temos que
1 1
lim sup kfn k n = R lim sup |cn | n < 1.
n n

2
P
Logo o teste da raı́z garante a convergência de n∈N kfn k.

112
P 9.1 Mostre que (X, dX ) é um espaço métrico completo se e somente se toda sequência {xn }n∈N
Exercı́cio
com n∈N dX (xn , xn+1 ) < +∞ converge a algum x ∈ X.

9.1.2 Tomando derivadas


Consideraremos agora o caso particular em que K = [a, b] e portanto K ⊂ R. Nosso problema fundamental
é saber quando podemos deduzir que um limite de uma sequência ou série de funções diferenciáveis é
ele próprio diferenciável. Ou seja, se sabemos que gk → f na norma uniforme, e além disso as gk são
diferenciáveis, será verdade que f 0 = limk gk0 ?
Já sabemos que a resposta a esta pergunta é não em geral, como vimos no Exemplo 4.8 acima. A chave
para isso é que a operação de derivar uma função não é contı́nua sob qualquer subconjunto razoável de C.
No entanto, podemos nos aproveitar da continuidade da integral para provar que às vezes é possı́vel “passar
a derivada para dentro da soma”. Um ponto importante é que, para f : [a, b] → Rd , definimos a derivada
coordenada a coordenada.

Teorema 9.3 Seja {fn }n∈N ⊂ C([a, b], Rd ) uma sequência de funções satisfazendo as três propriedades a
seguir.

1. Existe um ponto t0 ∈ [a, b] tal que kn=0 fn (t0 ) → c ∈ Rd quando k → +∞.


P

2. Para todo n ∈ N, as derivadas fn0 existem e são elementos de C([a, b], Rd ).


0
P
3. n∈N kfn k < +∞.

Então existe umaPfunção contı́nua f ∈ C([a, b], Rd ) e com derivada f 0 ∈ C([a, b], Rd ) tal que f =
0 0
P
n∈N fn e f = n∈N fn (no sentido de convergência uniforme de séries de funções).

Para a prova serão necessários alguns preliminares sobre integrais em várias variáveis. Recorde que
f : [a, b] → Rd é elemento de C se e somente se existem funções contı́nuas f [1], . . . , f [d] : K → R
tais que, para qualquer t ∈ R, as coordenadas de f (t) ∈ Rd são f [1](t), . . . , f [d](t). Em particular, como
funções contı́nuas são integráveis, podemos definir
Z y
Ry
f (t) dt = o vetor de Rd cujas coordenadas são x f [i](t) dt, 1 ≤ i ≤ d.
x

Em particular, podemos definir um operador I : C → C em analogia com o Exemplo R t 4.6 acima: fixando
t0 ∈ K, definimos I(f ) como sendo a função I(f ) que leva t ∈ K em I(f )(t) = t0 f (s) ds. Note que
I(f ) é diferenciável em cada coordenada, logo contı́nua; portanto, I : C → C.

Proposição 9.2 I : C → C é (b − a)-Lipschitz.

Prova: Queremos mostrar que

Queremos: ∀f, g ∈ C : kI(f ) − I(g)k ≤ (b − a) kf − gk.

No entanto, é fácil ver que I é linear, isto é, que I(f ) − I(g) = I(f − g). Desta forma, basta provar que

Queremos: ∀h ∈ C : kI(h)k ≤ (b − a) khk.

113
Vamos apresentar uma forma relativamente elegante de provar a desigualdade acima. Fixe h ∈ C. Observe
que basta provar que, para qualquer t ∈ K,
Z t
| h(s) ds|2 ≤ (b − a) khk,
t0

pois a norma kI(h)k é o supremo em t do lado esquerdo desta última desigualdade.


Como é difı́cil trabalhar com a norma, recordemos que (por Cauchy Schwartz) temos que
∀x ∈ Rd : |x|2 = sup v · x.
v∈Rd : |v|2 =1

Em particular, isto nos permite trocar mais uma vez de objetivo. Se mostrarmos que, dados quaisquer v ∈ Rd
com norma |v|2 = 1 e t ∈ K, vale a estimativa:
Z t
Queremos mesmo! v · h(s) ds ≤ (b − a) khk,
t0

R tem t e em v para obter a cota desejada.


então podemos tomar o sup R t A vantagem de se transformar o problema
desta forma é que, como t0 h(s) ds é o vetor de coordenadas t0 h[i](s) ds
Z t d
X Z t
v· h(s) ds = v[i] h[i](s) ds
t0 i=1 t0
d
!
Z t X
(integral usual é linear) = v[i] h[i](s) ds
t0 i=1
Z t
(cheque a fórmula!) = v · h(s) ds
t0
Z t
(Cauchy-Schwartz + |v|2 = 1) ≤ |h(s)|2 ds
t0
(cota usual) ≤ |t − t0 | sup |h(s)|2
s∈K
(t, t0 ∈ [a, b]) ≤ (b − a) khk.
2
Agora usaremos esta proposição para provar o Teorema 9.3.
Pk
Prova: (do Teorema 9.3) Defina gk := n=0 fn (k ∈ N). Veja que, para cada k, o teorema fundamental do
Cálculo nos garante que
gk = gk (t0 ) + I(gk0 ).
Além disso, gk é uma soma de funções diferenciáveis, gk0 = kn=0 fn0 . Como n kfn0 k < +∞, o resultado
P P

da seção anterior nos garante que existe h ∈ C que é o limite uniforme das somas gk0 = kn=0 fn . Como
P
sabemos que I é contı́nuo, isto também quer dizer que I(gk0 ) → I(h) uniformemente.
Defina agora f := c + I(h). Observe que, pela subaditividade da norma e as nossas estimativas anteri-
ores,
kf − gk k ≤ |c − gk (t0 )| + kI(gk0 ) − I(h)k ≤ |c − gk (t0 )| + (b − a) kgk0 − hk → 0.
Logo gk = kn=0 fn → f uniformemente. Além disso, o Teorema Fundamental do Cálculo nos garante
P

que f 0 = h e, como já vimos, kn=0 fn0 = gk0 → h = f 0 uniformemente. 2


P

114
Terminamos esta seção mostrando como o nosso resultado de diferenciação se aplica ao caso de séries
de potência. Aplicando-o indutivamente, deduzimos que toda série de potência satisfazendo as condições do
teorema é infinitamente diferenciável; além disso, suas derivadas podem ser obtidas diferenciando os termos
da série um a um.

Teorema 9.4 No Exemplo 9.1, temos que, com K = [t0 − R, t0 + R],


1 1 X
lim sup |cn | n < ⇒ f (t) := cn (t − t0 )n (t ∈ K) converge uniformemente em .
n→+∞ R
n∈N

Além disso, f 0 (t) = − t0 )n−1 também no sentido de convergência uniforme. Resultado


P
n∈N\{0} ncn (t
anál

Prova: A ideia é checar que o Teorema 9.3 se aplica. Escreva fn (t) := cn (t − t0 )n . Veja que fn0 (t) =
ncn (t − t0 )n−1 existe para cada n e é função contı́nua. Além disso, veja que n fn0 também é série de
P
potência, em que o termo (t − t0 )n tem coeficiente (n + 1) cn+1 . Não é difı́cil verificar que
1 1
lim sup |(n + 1) cn+1 | n = lim sup |cn | n ,
n→+∞ n→+∞

Portanto, se o lim sup é < 1/R para a série original, também é para a série das derivadas. Usando novamente
o teste da raı́z, deduzimos que
1 1 X
lim sup |cn | n < ⇒ kfn0 k < +∞.
n→+∞ R n
Pk
Por fim, vemos que n=0 fn (t0 ) = c0 para todo k, o que prova a convergência pontual em t0 . 2

9.2 Mais exercı́cios


Exercı́cio 9.2 Seja f : [t0 − R, t0 + R] → R uma função dada por uma série de potência f (t) =
c (t − t0 )n com lim supn |cn |1/n < 1/R. Prove que eiste uma outra série de potência g(t) =
P
Pn∈N n n 1/n < 1/R, tal que t f (s) ds =
R
n∈N un (t−t0 ) com {un }n∈N ⊂ R também satisfazendo lim supn∈N |un | t0
g(t) para todo t ∈ [t0 − R, t0 + R].

Exercı́cio 9.3 Mostre que as séries de potência a seguir convergem uniformemente e definem funções infi-
nitamente diferenciáveis sobre qualquer intervalo compacto [a, b] ⊂ R.
P tn
1. n∈N n!
2t n
P 
2. n∈N n
P tn
3. n∈N par n!

Exercı́cio 9.4 Dado 0 < R < 1, escreva a série de potência de uma função f : [−R, R] → R tal que
f (0) = 0 e f 0 (t) = (1 + t)−1 para todos t no domı́nio. Chamando de cn os coeficientes da série, mostre
1
que limn∈N |cn | n = 1 e explique porque isto é razoável.

115
Exercı́cio 9.5 Mostre que o conjunto de todas as funções polinomiais com coeficientes racionais é denso
em C([a, b], R), para qualquer intervalo compacto [a, b] ⊂ R.

Exercı́cio 9.6 Dado F ⊂ Rd , considere o subconjunto C(K, F ) ⊂ C(K, Rd ) que consiste de todas as
f ∈ C(K, Rd ) com f (t) ∈ F para todo t ∈ K. Prove que C(K, F ) é um subconjunto fechado de
C(K, Rd ) se e somente se F é um subconjunto fechado de Rd . Dê um exemplo em que F ⊂ Rd é compacto,
mas C(K, F ) não é compacto.

Exercı́cio 9.7 Considere o conjunto A de todas as funções f ∈ C([0, 1], Rd ) que são afins por partes, isto
é, tais que existem pontos 0 = t0 < t1 < t2 < · · · < tk = 1 tais que, para cada intervalo
   
t − ti−1 ti − t
∀1 ≤ i ≤ k, ∀t ∈ [ti−1 , ti ] : f (t) = f (ti−1 ) + f (ti ).
ti − ti−1 ti − ti−1

Mostre que A é denso em C([0, 1], Rd ).

Exercı́cio 9.8 Suponha que A1 , . . . , Ad ⊂ C([0, 1], R) são subálgebras contendo funções constantes e
separando pontos em [0, 1]. Considere o conjunto A ⊂ C([0, 1]d , R) que contem todas as combinações
lineares de funções da forma

h(x) = h1 (x[1]) h2 (x[2]) . . . hd (x[d]) (x ∈ [0, 1]d ).

Mostre que A é denso em C([0, 1]d , R). Deduza como caso particular que os polinômios multivariados são
densos em C([0, 1]d , R).

116
Capı́tulo 10

Subconjuntos densos de C(K, R): o teorema


de Stone-Weierstrass

Neste conjunto, investigamos um critério para que um subconjunto A ⊂ C(K, R) seja denso neste espaço.
Ou seja, queremos encontrar condições suficientes para que

∀f ∈ C(K, R), ∀ε > 0, ∃g ∈ A : kf − gkK,∞ ≤ ε.

Isso é importante? Sim, e muito! Uma maneira de ver isso é pensando no seguinte:

Exemplo 10.1 Como um computador pode armazenar uma função contı́nua de K em R?

A resposta simples é que não pode. Uma função contı́nua f : K → R é uma “lista” não enumerável de
valores reais (f (t))t∈K . Como poderı́amos guardar uma descrição de um objeto destes com memória finita?
Por outro lado, se temos um subconjunto denso e simples de C(K, R), pode ser que seja sim possı́vel
guardar uma descrição finita deste objeto. Por exemplo, o teorema de Weierstrass abaixo mostra que os
polinômios multivariados de coeficientes racionais são densos em C(K, R) para qualquer compacto K ⊂
Rd . Não é difı́cil perceber que cada polinômio deste tipo pode ser descrito com uma quantidade finita
de memória. Como estes polinômios são densos em C(K, R), vemos que qualquer função pode ser bem
aproximada por um objeto com descrição finita. Isto é análogo ao fato que todo número real pode ser bem
aproximado por um racional.
Uma outra questão interessante, que veremos mais adiante, é a seguinte.

Exemplo 10.2 Uma rede neural de duas camadas pode aproximar qualquer função contı́nua.

Uma “rede neural de duas camadas”é um tipo bem especı́fico de função de K ⊂ Rd em R. Estas
funções vem sendo usadas desde os anos 60 como modelos da “computação” feita nos nossos cérebros e
também como parte de sistemas artificiais inteligentes. O teorema que provaremos mais adiante nos dará
uma explicação parcial para o sucesso destas redes.

Exemplo 10.3 Para outro exemplo, considere o conjunto Cper ([0, 2π], R) de funções f : [0, 2π] → R
contı́nuas com f (0) = f (2π). Veremos abaixo que cada função deste tipo pode ser pensada como uma
função f˜ : S1 → R e que, usando esta conexão, podemos aproximar cada f ∈ Cper ([0, 2π], R) por
combinações lineares de sin kt e cos mt, m, k ∈ N. Isso tem algo a ver com a teoria de séries de Fourier.

117
10.1 O teorema geral
Nesta seção, enunciaremos o teorema de Stone-Weierstrass, que nos dá um critério suficiente para provar
que um subconjunto A ⊂ C é denso. A partir de agora, (K, dK ) é um espaço métrico compacto e C :=
C(K, R). Precisaremos de uma definição.

Definição 10.1 Uma álgebra A ⊂ C é um conjunto de funções fechado por combinações lineares e produ-
tos de seus elementos. Isto é, A é álgebra se dados quaisquer f, g ∈ A e α ∈ R, vale que α f + g ∈ A e
f g ∈ A.

Por exemplo, se K ⊂ R, vemos que as funções polinomiais de K em R formam uma álgebra de


C(K, R), porque o produto de polinômios é um polinômio. Um exemplo importante para o que vem a
seguir é o seguinte.

Exemplo 10.4 Sempre que A é uma álgebra e p : R → R é um polinômio, vale a seguinte afirmação:

∀f ∈ A : p ◦ f ∈ A.

De fato, considere um polinômio p(x) = di=0 xi , com a0 , . . . , ad ∈ R constantes e x variável. Veja


P
Pd i i
que p ◦ f = i=0 ai f . Se f ∈ A, f ∈ A para cada i ∈ N, porque A é fechada por produto, e
Pd i
i=0 ai f ∈ A é uma combinação linear de elementos de A.
Nosso teorema geral dá uma condição suficiente simples de checar para que uma álgebra seja densa em
C.

Teorema 10.1 (Stone-Weiertrass) Considere uma álgebra A ⊂ C(K, R). Suponha que A satisfaz as
seguintes condições adicionais:
1. A contém todas as funções constantes. De fato, basta pedir que a função constante one ∈ A, porque
toda outra função constante é produto desta por um escalar.

2. A separa pontos: isto é, dados t0 , t1 ∈ K distintos, existe uma f ∈ A com f (t0 ) 6= f (t1 ).
Então A é denso em C(K, R). Isto é:

∀ε > 0 ∀f ∈ C(K, R) ∃g ∈ A : kf − gkK,∞ ≤ ε.

Vejamos um corolário imediato disso.

Exemplo 10.5 (Teorema Multidimensional de Weierstrass) Considere K ⊂ Rd . Um polinômio multiva-


riado é uma função da forma

X d
Y
p : “x ∈ K 7→ a(n1 ,n2 ,...,nd ) (x[i])ni ”,
(n1 ,n2 ,...,nd )∈{0,1,...,k}d i=1

com k ∈ N\{0} e coeficientes a(n1 ,n2 ,...,nd ) ∈ R.

É um exercı́cio checar que o subconjunto A ⊂ C(K, R) dos polinômios multivariados é uma álgebra
de C que contem as constantes e separa pontos. Portanto, A é denso em C(K, R). Como cada elemento de
A pode ser aproximado por um polinômio de coeficientes racionais, estes últimos também são densos em
C(K, R).

118
10.1.1 Prova do teorema de Stone-Weierstrass
Provaremos nesta subseção o teorema de Stone-Weiertrass, mas antes disso discutiremos as principais ideias
da prova.
Uma das noções centrais na demonstração será a de indicadores de conjuntos. Dado S ⊂ K, chamamos
de indicadora de S a função

1, se x ∈ K;
IS : x ∈ K 7→
0, se x 6∈ K.
Nossa prova está baseada em duas ideias fundamentais. Por um lado, vamos usar o seguinte princı́pio
básico.

Ideia 1: toda função contı́nua f ≥ 0 pode ser bem aproximada por uma combinação finita de funções
indicadoras de conjuntos “bons”.

Depois provaremos o seguinte.

Ideia 2: toda indicadora de conjunto “bom” pode ser bem aproximada por uma combinação linear
simples de elementos da álgebra.

Esta descrição intuitiva pode parecer meio duvidosa por dois motivos. Em primeiro lugar, o que é um
conjunto bom? E em segundo, como eu poderia aproximar uma indicadora por um elemento da álgebra? A
resposta para a primeira pergunta é que os conjuntos bons são fechados. Isso, no entanto, não resolve nossas
dúvidas sobre a segunda pergunta. Afinal, considere uma função indicadora de um fechado, IF . Esta função
em geral é bastante descontı́nua. De que forma poderı́amos aproximar IF por um elemento da álgebra A,
dado que todos os elementos da álgebra são funções contı́nuas? 1
A resposta será dada no lema a seguir. Na verdade, não buscaremos uma aproximação de IF por a ∈ A
na norma do supremo. O que sim queremos é que uma outra noção de aproximação.

Lema 10.1 (Lema Fundamental) Seja A uma álgebra satisfazendo as hipóteses do teorema de Stone-
Weierstrass. Então dados quaisquer dois fechados disjuntos F, G ⊂ K e qualquer η ∈ (0, 1), existe uma
aF,G,η ∈ A tal que 0 ≤ aF,G,η ≤ 1 e além disso aF,G,η |F ≥ 1 − η, aF,G,η |G ≤ η.

Este “Lema Fundamental” será provado na subseção 10.1.2, seguinte à atual. Por ora nós o usaremos
como uma “caixa-preta” para terminar a prova.
Um breve exame do Lema nos mostra que ele pode ser expressado através de indicadoras. Podemos
pensar que o conjunto F acima é aquele cuja indicadora queremos aproximar e que G é escolhido de modo
a Gc \F seja “pequeno”e portanto Gc ≈ F . Veja que vale o seguinte:

1. aF,G,η ≥ (1 − η) IF . De fato, isto quer dizer que aF,G,η (t) ≥ 1 − η para t ∈ F e aF,G,η (t) ≥ 0
sempre.

2. aF,G,η ≤ IGc + η. Ou seja, aF,G,η (t) ≤ 1 + η para qualquer t ∈ K e aF,G,η (t) ≤ η para t ∈ G.

Isto nos prova o seguinte corolário do Lema Fundamental.


1
De fato, não pode ser verdade que para todo ε > 0 há uma função contı́nua h com kh − IF k∞ ≤ ε, pois neste caso IF seria o
limite uniforme de funções contı́nuas e portanto seria ela própria contı́nua.

119
Corolário 10.1 (do Lema Fundamental) Se A ⊂ C satisfaz as condições do Teorema de Stone-Weierstrass,
podemos encontrar, para quaisquer η ∈ (0, 1) e F, G ⊂ K fechados e disjuntos, uma função aF,G,η ∈ A
com:
(1 − η) IF ≤ aF,G,η ≤ IGc + η.

Como podemos usar esse corolário em nossa prova? Como já dissemos, a ideia é aproximar f por uma
soma de indicadoras. De alguma forma estas indicadoras devem ser de conjuntos fechados de K, para que
possamos usar nosso Lema Fundamental. Mas como podemos fazer isso? A prova a seguir responde a esta
indagação.

Prova: [de Stone-Weiertrass] No que vem a seguir, mostraremos como aproximar uma f ≥ 0 em C :=
C(K, R) por uma g ∈ A na norma do supremo. Afirmamos que isto implica que toda f ∈ C pode ser bem
aproximada por elementos de A. De fato, se toda função não-negativa pode ser bem aproximada e agora
queremos aproximar uma f qualquer, podemos fazê-lo pelos seguintes passos:
1. Somamos uma constante λ ≥ kf k∞ a f , de modo que f + λ ≥ 0.

2. Aproximamos f + λ por g ∈ A com kf + λ − gk∞ ≤ ε.

3. Observar que f + λ − g = f − (g − λ) com g − λ ∈ A: afinal, g ∈ A, λ ∈ A (porque as constantes


estão lá) e g − λ é combinação linear destas duas funções. Deduzimos que kf − (g − λ)k∞ ≤ ε com
g − λ ∈ A.
Suponha então a partir de agora que f ≥ 0. Vamos aproximar f por uma combinação linear de conjuntos
fechados. Primeiramente fixamos parâmetros η, α ∈ (0, 1) que serão ajustados mais tarde. Definimos:

Fn := {x ∈ K : f (x) ≥ α n} = f −1 ([n, +∞)), n = 0, 1, 2, . . . , mα , onde mα := dkf k∞ /αe + 1).

Nada nos impede em princı́pio de tomar n > m – de fato, faremos isso abaixo –, mas observe que neste
caso Fn = ∅, já que:

n > m ⇒ α n > kf k∞ ⇒ f (x) < α n for all x ∈ K ⇒ Fn = ∅.

Cada conjunto Fn é fechado porque [n, +∞) ⊂ R é fechado e f é contı́nua. Veja ainda que F0 = K (porque
f ≥ 0) e F0 ⊃ F1 ⊃ F2 ⊃ · · · ⊃ Fm ⊃ . . . , ou seja, temos fechados encaixados.
Como podemos relacionar f aos indicadores IFn ? A ideia agora é imaginar que α é um número muito
pequeno. Neste caso, dado qualquer x ∈ K, se sabemos qual é o maior ı́ndice 0 ≤ n(x) ≤ m tal que
x ∈ Fn , praticamente sabemos o valor de f . De fato, veja que, se escolhemos este maior ı́ndice,

x ∈ Fn(x) e x 6∈ Fn(x)+1 ⇒ αn(x) ≤ f (x) < α (n(x) + 1).

Agora vem um ponto crucial: o valor do maior ı́ndice n = n(x) ∈ {0, 1, . . . , mα } tal que x ∈ Fn pode ser
expresso pela soma de indicadores! Melhor dizendo,

X
n(x) = max{0 ≤ n ≤ mα : Fn 3 x} = IFj (x).
j=1

De fato, como os conjuntos Fj são encaixados,

∀0 ≤ j ≤ mα : IFj (x) = 1 ⇔ x ∈ Fj ⇔ j ≤ n(x).

120
Ou seja, n(x) é exatamente o número de termos iguais a um na soma de indicadores, sendo que todos os
outros termos valem 0. Deduzimos que:
 
Xmα mα
X
∀x ∈ K : α IFj (x) ≤ f (x) < α  IFj (x) + 1 (10.1)
j=1 j=1

Temos agora de aplicar o corolário do Lema Fundamental a cada par de conjuntos


F = Fn , G = (K\Fn−1 ).
Para isso, devemos checar as condições daquele Lema.
• F e G são fechados. F = Fn é fechado, como vimos acima. G é um fecho, e todo fecho é fechado.
• F e G são disjuntos. Dado x ∈ G, mostraremos que x 6∈ Fn = F . De fato, x ∈ G implica que
xk → x para alguma sequência {xk }k ⊂ K\Fn−1 . Como xk 6∈ Fn−1 , f (xk ) < (n − 1) α e isso vale
para cada k ∈ N. Tomando limites,
f (x) = lim f (xk ) ≤ (n − 1)α < nα.
k
Como Fn = {y ∈ K : f (y) ≥ nα}, concluı́mos que x 6∈ Fn , como querı́amos demonstrar.
Seja, então, an = aF,G,η ∈ A a função cuja existência é garantida pelo lema fundamental. Veja que,
pelo corolário,
(1 − η) IFn ≤ an ≤ IFn+1 + η, (10.2)
e isto vale para cada ı́ndice 1 ≤ n ≤ m. Definimos finalmente:

X
g = gη,α := α an ,
j=1

que pertence a A porque é combinação linear dos elementos an ∈ A.


Provaremos a seguir que esta é uma boa aproximação para f , se α e η são pequenos o suficiente. Para
isso, temos que combinar as desiguadades entre an e indicadores (contidas em (10.2)) com a equação rela-
cionando f com indicadoras (veja (10.1)). O resultado é que para todo x ∈ K:

X
gη,α (x) = α an (x)
n=1

X
(parte esquerda de (10.2) + 0 < η < 1) ≥ (1 − η) α IFn (x)
n=1
(parte direita de (10.1)) ≥ (1 − η) (f (x) − α); e ainda,
Xmα
gη,α (x) = α an (x)
n=1

X mα
X
(parte direita de (10.2)) ≤ α IFn+1 (x) + α η 1
n=1 n=1

X
(renumere ı́ndices + use Fmα +1 = ∅) ≤ α IFj (x) + α η mα
j=2
(parte esquerda de (10.1) + αIF1 (x) ≥ 0) ≤ f (x) + α η mα
(mα = dkf k∞ /αe + 1 ≤ kf k∞ /α + 2) ≤ f (x) + η (kf k∞ + 2α).

121
Concluı́mos que

∀x ∈ K : −η f (x) − (1 − η)α ≤ g(x) − f (x) ≤ η (kf k∞ + 2α).

Portanto,
kf − gη,α k∞ ≤ max {ηkf k∞ + α, η (kf k∞ + 2α)} .
Dado um ε > 0, podemos escolher η e α de modo a garantir que o lado direito desta última desigualdade
é ≤ ε. Isto nos diz então que há uma g = gη,α ∈ A com kf − gk∞ ≤ ε. Como isto vale para f ∈ C
não negativa e ε > 0 arbitrários, está demonstrado o teorema de Stone-Weierstrass, a menos do Lema
Fundamental. 2

10.1.2 Prova do Lema Fundamental


Nesta seção o nosso objetivo é provar o Lema Fundamental 10.1, o que encerrará a prova do teorema de
Stone-Weierstrass. Uma observação que se repetirá várias vezes é que, como K é compacto, F, G e todos
os outros subconjuntos fechados de K são compactos. Outra observação importante será a seguinte.

Observação 10.1 A desigualdade de Bernoulli diz que:

∀x ∈ R : x ≥ −1 ⇒ (1 + x)n ≥ 1 + nx.

Também usaremos abaixo a desigualdade:

∀x ∈ R : 1 + x ≤ ex .

Esta segunda desigualdade é consequência da convexidade da exponencial, mas também pode ser provada
via Bernoulli. De fato, se recordamos que exp(x) = limn→+∞ (1 + x/n)n para todo x ∈ R e observamos
que :
x  x n
∀n ∈ N com |x| ≤ n, ≥ −1 e portanto 1 + ≥ 1 + x,
n n
basta tomar n → +∞ para terminar a prova.

Também precisaremos do seguinte resultado que transforma uma “pequena separação” de valores de
uma a ∈ A numa “grande separação”. Melhor dizendo: se a toma valores pequenos em um conjunto G e
um pouco maiores em F , a composição p ◦ a de a com um polinômio p bem escolhido fará os valores de
a |G ainda menores e os de a |F tão próximos de 1 quanto se possa querer. (Recorde que p ◦ a ∈ A pelo
exemplo 10.4 acima.)

Proposição 10.1 (Explosão da separação) Dados ξ, δ ∈ (0, 1), existe um polinômio p : R → R tal que
0 ≤ p |[0,1] ≤ 1, p |[0,δ/2] ≤ ξ e p |[δ,1] ≥ 1 − ξ.

Prova: Prosseguimos agora com a demonstração. Fixe δ ∈ (0, 1/2) como no enunciado. Escolha o menor
k ∈ N com kδ ≥ 1 e observe que (k − 1)δ ≤ 1, portanto kδ ≤ 1 + δ < 2. Ou seja, encontramos um k ∈ N
tal que

< 1 e kδ > 1.
2
Dado um n ∈ N, defina o polinômio:
n
pn (x) := 1 − (1 − xn )k .

122
Veja que 0 ≤ pn (x) ≤ 1 para quaisquer n ∈ N e x ∈ [0, 1]. Se x ≥ δ,
n
1 − pn (x) = (1 − xn )k ≤ exp(−(xk)n ) ≤ exp(−(δk)n ) ≤ ξ

para qualquer n grande o suficiente, já que δk > 1 (aqui usamos que 1 + t ≤ et para todo t ∈ R). Por outro
lado, se 0 ≤ x ≤ δ/2,
n
pn (x) = 1 − (1 − xn )k ≤ (kx)n ≤ (δk/2)n ≤ ξ
para todo n grande o suficiente, já que δk/2 < 1 (aqui usamos a desigualdade de Bernoulli). Portanto, o p
que desejamos obter é dado por pn , para n grande o suficiente. 2
Vamos agora à prova do Lema Fundamental. Nosso objetivo é construir uma a ∈ A que “quase separa” F
e G e que se mantém entre 0 e 1. Começamos com algo muito mais fraco, sobre separar pontos.

Proposição 10.2 Dados x0 , x1 ∈ K quaisquer, existe uma vx0 ,x1 ∈ A com 0 ≤ vx0 ,x1 ≤ 1, vx0 ,x1 (x1 ) >
vx0 ,x1 (x0 ) = 0.

Prova: Lembre que A separa pontos: dados x0 , y0 ∈ K, existe u ∈ A com u(x0 ) 6= u(y0 ). Em particular,
u(·) − u(x0 ) ∈ A (diferença entre u e uma constante, e as constantes pertencem a A), ku(·) − u(x0 )k∞ > 0
e portanto
(u(·) − u(x0 ))2
v(·) := ∈A
ku(·) − u(x0 )k2
satisfaz 0 ≤ v ≤ 1, v(x0 ) = 0 < v(x1 ). 2
O próximo passo é criar, para cada ponto x0 ∈ G, uma função em A separando x0 de F .

Proposição 10.3 Dado qualquer x0 ∈ G, existe uma bx0 ∈ A com 0 ≤ bx0 ≤ 1, bx0 = 0, bx0 |F > 0.

Prova: Para isso, tome uma função vx0 ,x1 como na proposição anterior para cada x1 ∈ F . Temos vx0 ,x1 (x0 ) =
0 e vx0 ,x1 (x1 ) > 0, logo cada x1 ∈ F está contido numa vizinhança Ax1 3 x1 onde vx0 ,x1 é estritamente
positiva. Como F ⊂ K é fechado e K é compacto, o próprio F é compacto. Além disso, ∪x1 ∈F Ax1 ⊃ K
porque cada x1 ∈ Ax1 . Como F é compacto, podemos cobri-lo por um número finito destas vizinhanças,
digamos Ax(j) para 1 ≤ j ≤ k. Afirmamos que
1

k
1X
bx0 := vx ,x(j)
k 0 1
j=1

é a função desejada. De fato, ela está em A pois é combinação convexa de funções em A. Como cada
0 ≤ v ≤ 1, 0 ≤ bx0 ≤ 1 também. bx0 claramente vale 0 em x0 ; por outro lado, se x ∈ F , x ∈ Ax(j) para
1
algum j, de modo que vx (j) (x) > 0 e portanto bx0 (x) > 0 2
0 ,x1

Neste momento já temos as principais ideias para terminar a prova. Veja que usamos acima o fato que
F é compacto para cobrir este conjunto com abertos onde pelo menos uma das funções v consideradas tem
valor positivo. A ideia básica será agora cobrir G com um número finito de abertos onde pelo menos uma
das bx0 é pequena. Depois disso, quase bastará tomar um produto destas funções para acabar a prova. O
detalhe sutil é que temos que garantir que a função obtida é “grande” em F e para isso precisaremos da
proposição sobre explosão de separação que provamos acima.

123
Prova: [do Lema Fundamental] Para cada x0 ∈ G podemos escolher uma função 0 ≤ bx0 ≤ 1 como na
proposição anterior. Sabemos que bx0 (x0 ) = 0 e bx0 (x) > 0 sobre F . Pela compacidade de F ,

∃δ(x0 ) ∈ (0, 1) : inf bx0 (x) ≥ δ(x0 ).


x∈F

Podemos então encontrar uma vizinhança aberta Ux0 3 x0 onde bx0 |Ux0 ≤ δ(x0 )/2. Ou seja, G é coberto
pela coleção de abertos Ux0 , x0 ∈ G, e em cada um destes abertos bx0 (x) ≤ δ(x0 )/2 enquanto bx0 |F ≥
δ0 (x).
Como G é compacto, podemos escolher uma subcoleção finita destes abertos, chamada de U1 , . . . , Uk ,
com a seguinte propriedade:

Para cada 1 ≤ i ≤ k existem δi ∈ (0, 1) e bi ∈ A com 0 ≤ bi ≤ 1 e bi |Ui ≤ δi /2 e bi |F ≥ δi .

Agora precisamos construir uma única função que valha “muito” em F e “pouco” em G. Para isso, fixamos
o η ∈ (0, 1) desejado. Pela proposição sobre Explosão de Separação, podemos conseguir polinômios pi tais
que pi (x) ∈ [0, 1] para x ∈ [0, 1], pi (x) ≤ η/k se 0 ≤ x ≤ δi /2 e pi (x) ≥ 1 − η/k se x ∈ [δi , 1]. Veja que
cada função ci := pi ◦ bi está em A (ver a observação no inı́cio da prova), toma valores em [0, 1] e satisfaz:
η η
ci |Ui ≤ , c i |F ≥ 1 − .
k k
Qk
Podemos finalmente definir a = aF,G,η := i=1 ci e observar que ela tem as propriedades desejadas:

1. 0 ≤ a ≤ 1 pertence a A porque é produto de funções com estas propriedades;

2. Para x ∈ G, temos x ∈ Ui para algum i, de modo que ci (x) ≤ η/k e a(x) = kj=1 cj (x) ≤ η/k < η.
Q

3. Para x ∈ F , ci (x) > 1 − η/k para cada 1 ≤ i ≤ k e portanto a(x) ≥ (1 − η/k)k ≥ 1 − η (pela
desigualdade de Bernoulli).

124
Capı́tulo 11

Compacidade em C(K, Y ) e o método de


Euler para resolver equações diferenciais

O capı́tulo atual está todo voltado para a prova de um outro resultado importante. Ele responde a uma
pergunta natural: quem são os subconjuntos compactos de C(K, Z), com (K, dK ) compacto e (Z, dZ )
completo? Por outro lado, ele nos dará um primeiro resultado sobre a existência de soluções de equações
diferenciais ordinárias.

11.1 O teorema de Ascoli-Arzèla


Sabemos que um subconjunto de um espaço métrico completo é compacto se e somente se é fechado e
totalmente limitado. O teorema a seguir nos dá condições suficientes para sabermos se um conjunto F ⊂
C(K, Z) é totalmente limitado, o que em geral é a parte difı́cil. De fato, pode-se mostrar que as duas
condições do teorema abaixo são necessárias e suficientes.

Teorema 11.1 (Ascoli-Arzèla) Dado F ⊂ C(K, Z), suponha que as duas propriedades abaixo são satis-
teitas.

1. F é equicontı́nuo: para todo ε > 0 existe um δ > 0 tal que, para quaisquer x, x0 ∈ K e qualquer
f ∈ F, vale
dK (x, x0 ) < δ ⇒ dZ (f (x), f (x0 )) < ε.

2. F é pontualmente totalmente limitado, isto é, para todo t ∈ K, o conjunto Zt := {f (t) : f ∈ F } é


totalmente limitado em Z.

Então F é totalmente limitado como subconjunto de C(K, Z).

Prova: Tome S ⊂ F um conjunto separado: ou seja, existe um r > 0 tal que dC (f, g) ≥ r para todas
f, g ∈ F distintas. Nosso objetivo é provar que S é necessariamente finito. Nossa forma de fazer isto será
finitarizar o problema e depois usar a limitação total pontual para chegar ao resultado.

Primeiro passo: finitarizar. Mostraremos que existe um conjunto finito de pontos {t1 , . . . , tk } ⊂ K tais
que
Quero : ∀f, g ∈ F : dC (f, g) ≥ r ⇒ ∃1 ≤ i ≤ k : dZ (f (ti ), g(ti )) ≥ r/2 > 0.

125
Tome ε = r/4. Por equicontinuidade, sabemos que existe um δ > 0 tal que dK (x, x0 ) < δ implica
dZ (f (x), f (x0 )) < ε para qualquer f ∈ F. Como K é compacto, podemos encontrar t1 , . . . , tk ∈ K tais
que
K = ∪ki=1 BK (ti , δ).
Afirmamos que estes ti satisfazem a propriedade que queremos. De fato, tome f, g ∈ F distintas. Sabemos
que dC (f, g) = supt∈K dZ (f (t), g(t)) ≥ r. Como K é compacto, o sup é atingido e existe pelo menos
um t ∈ K com dZ (f (t), g(t)) ≥ r. Por outro lado, sabemos que t ∈ BK (ti , δ) para algum i e mais ainda:
como dK (t, ti ) < δ, temos dZ (f (t), f (ti )) < ε = r/4 e dZ (g(t), g(ti )) < ε = r/4. Combinando todas
estas desigualdades, vemos que dZ (f (ti ), g(ti )) ≥ r/2.

Segundo passo: usar limitação total pontual. De posse dos ti acima, vamos concluir a prova. Para cada
1 ≤ i ≤ k, podemos usar o fato que Zti ⊂ Z é totalmente limitado para observar que existem `i ∈ N finito
e pontos zi,1 , . . . , z1,`i ∈ Z tais que

Zti ⊂ ∪`j=1
i
BZ (zi,j , r/4).

Usaremos a construção acima para mostrar a seguinte afirmação.

Afirmação 11.1 Existe uma função injetiva de S em um conjunto finito.

Isso basta para provar que S é finito.


Para provar esta afirmação, devemos observar que, dada f ∈ S, f (ti ) ∈ Zti para todo i ∈ {1, . . . , k},
de modo que f (ti ) ∈ BZ (zi,ji (f ) , r/4) para algum ı́ndice ji (f ) ∈ {1, . . . , `i }. Em outras palavras, podemos
associar cada f ∈ S um vetor de ı́ndices

J(f ) := (j1 (f ), j2 (f ), . . . , jk (f )) ∈ ×ki=1 {1, . . . , `i } (f ∈ S),

o que define uma função J : S → ×ki=1 {1, . . . , `i }. Como este produto cartesiano é um conjunto finito, se
mostrarmos que J é injetiva, teremos provado a afirmação.
Provaremos então esta injetividade. Dadas f, g ∈ S distintas, queremos mostrar que J(f ) 6= J(g), ou
seja, que ji (f ) 6= ji (g) para algum ı́ndice 1 ≤ i ≤ k. Nossa ideia crucial é que podemos achar o ı́ndice
i usando o primeiro passo. Ele garante que existe um ı́ndice 1 ≤ i ≤ k tal que dZ (f (ti ), g(ti )) ≥ r/2.
Em particular, f (ti ), g(ti ) não podem pertencer a uma mesma bola BZ (zi,j , r/4), já que quaisquer dois
elementos de uma destas bolas estão a distância < r/2 um do outro. Mas recorde que escolhemos ji (f ) e
ji (g) de modo que f (ti ) ∈ BZ (zi,ji (f ) , r/4) e g(ti ) ∈ BZ (zi,ji (g) , r/4). Deduzimos que portanto ji (f ) 6=
ji (g) e J(f ) 6= J(g). Concluı́mos que se f, g ∈ S e f 6= g, J(f ) 6= J(g); ou seja, J é uma função injetiva
e S tem de ser finito. 2

Exercı́cio 11.1 (Cotas quantitativas) Suponha que K = [0, 1] e que F ⊂ C(K, R) é o conjunto das
funções 1-Lipschitz com valores entre 0 e 1. Este conjunto satisfaz as condições de Ascoli-Arzéla e por-
tanto pode ser coberto por um número finito m(r) de bolas de raio r > 0. Você consegue dar uma cota
quantitativa para m(r)?

Exercı́cio 11.2 Prove que F ⊂ C(K, Rd ) é totalmente limitado se e somente se F é equicontı́nuo e para
cada t ∈ K o conjunto de valores {f (t) : f ∈ F } é limitado. Mostre ainda que, se K é conexo, então
basta pedir que F seja equicontı́nuo e {f (t) : f ∈ F} seja limitado para algum t ∈ K.

126
Exercı́cio 11.3 Prove que, se F ⊂ C(K, Rd ) é totalmente limitado, então é equicontı́nuo e pontualmente
totalmente limitado.

Exercı́cio 11.4 Dê um exemplo de uma sequência {fn }n∈N ⊂ C([0, 1], R) que é uniformemente limitada,
não é equicontı́nua e não tem subsequência convergente (na topologia uniforme de [0, 1]).

11.2 O método de Euler e a existência de soluções para EDOs


Nosso principal objetivo no restante deste capı́tulo será discutir a versão local do problema de Cauchy para
equações diferenciais ordinárias. Para definir este problema, precisamos de alguns ingredientes especiais.

• Tempo e espaço: uma EDO representa a evolução ao longo do tempo de um vetor em um certo
espaço. O tempo para nós é uma variável unidimensional t ∈ R. O espaço é Rd ou um subconjunto.
Às vezes escreveremos (t, x) ∈ R × Rd para dizer que (t, x[1], . . . , x[d]) ∈ Rd+1 . Isto é, R × Rd é o
próprio Rd+1 escrito de uma forma diferente, que enfatiza o papel distinto de variáveis espaciais.
• Função de evolução: seja A ⊂ R × Rd um aberto (ou seja, A na verdade é um aberto de Rd+1 escrito
de um jeito diferente). A evolução da EDO será determinada por uma função Ψ : A → R. Ela associa
a cada ponto (t, x) no tempo-espaço um vetor Ψ(t, x) ∈ Rd que diz em que direção o sistema deve
evoluir a partir de x num intervalo infinitesimal de tempo.
• Problema de Cauchy Local (existência): Dados (t0 , x0 ) ∈ A, nossa pergunta é se existe um δ > 0
e uma ξ : [t0 − δ, t0 + δ] → Rd satisfazendo as seguintes propriedades:

 ξ(t0 ) = x0 ;
(P ) (t, ξ(t)) ∈ A, t ∈ [t0 − δ, t0 + δ];
 0
ξ (t) = Ψ(t, ξ(t)), t ∈ [t0 − δ, t0 + δ].

Uma outra pergunta que poderı́amos fazer é se há unicidade, ou seja, quantas ξ há satisfazendo as
condições acima. Por ora não nos preocuparemos com esta pergunta, que será abordada no próximo capı́tulo,
mas é importante dizer que há problemas de Cauchy com existência e sem unicidade.

Exemplo 11.1 Suponha que d = 1, A = R × R Ψ(t, x) = 2 |x|1/2 . Pode-se checar que, para qualquer
c > 0, a EDO ξ 0 (t) = |ξ(t)|1/2 (t ∈ R) com ξ(0) = 0 pode ser resolvida por

0 , −∞ < t ≤ c;
ξ(t) =
(t − c)2 , t > c.

O principal teorema desta seção é o seguinte.

Teorema 11.2 Suponha que A ⊂ R × Rd , Ψ : A → Rd e (t0 , x0 ) são como acima. Suponha ainda que Ψ
é contı́nua. Então o problema de Cauchy descrito acima tem pelo menos uma solução.

De fato, nossa prova dará uma maneira explı́cita de construir soluções aproximadas, que é chamada de
Método de Euler. A ideia é que esperamos que, pela condição da derivada, esperamos que ξ(t + ε) − ξ(t) ≈
ε ξ 0 (t) = ε Ψ(t, ξ(t)). Grosso modo, o que o Método de Euler faz é tomar esta aproximação como definição
de uma ξε contı́nua sobre os pontos t0 , t0 ± ε, t0 ± 2ε, t0 ± 3ε, . . . . Ou seja, a ideia é discretizar o tempo e
usar Ψ para definir a inclinação de ξε nestes instantes de tempo discretizado. Botar esta ideia para funcionar
vai requerer algum cuidado, como veremos a seguir.

127
11.2.1 Localização
Teremos de restringir o domı́nio antes mesmo de construirmos a aproximação de Euler. A razão para isso
é que só sabemos definir a aproximação dentro do conjunto A. Para garantirmos que estamos sempre lá
dentro, será preciso “andar com cuidado” lá dentro, mantendo a trajetória sempre dentro de um compacto
K0 no espaço-tempo. Na verdade, para isso, precisaremos de um compacto K1 ainda menor.
Mais precisamente, nossa ideia é escolher um δ0 > 0 e um R0 > 0 tais que o conjunto compacto

K0 := [t0 − δ0 , t0 + δ0 ] × BRd [x0 , R0 ] ⊂ A.

Como sabemos que δ0 , R0 existem de fato? Observe que (t0 , x0 ) ∈ A – um conjunto aberto – e uma
conta fácil demonstra
q
[t0 − δ0 , t0 + δ0 ] × BRd [x0 , R0 ] ⊂ BRd+1 [(t0 , x0 ), R] com R := δ02 + R02 .

Portanto BRd+1 [(t0 , x0 ), R] ⊂ A se R > 0 é pequeno o suficiente.


Uma propriedade importante que ganhamos pela compacidade de K0 é que

M := sup |Ψ(t, x)|2 < +∞ (11.1)


(t,x)∈K0

já que Ψ : A → Rd é contı́nua e K0 é compacto. Outra propriedade que usaremos abaixo é que K0 é
convexo (exercı́cio).
Lembre-se que nosso objetivo será que as aproximações de Euler se mantenham dentro do compacto
K0 . Para isso, ainda precisaremos “encurtar” ainda mais o tempo. Fixamos um δ ∈ (0, δ0 ] com δ M ≤ R0 .
Por razões que vão ficar claras abaixo, só poderemos considerar tempos t ∈ [t0 − δ, t + δ].

11.2.2 A aproximação de Euler


Defina uma sequência de pontos t0 − δ = t−k1 < t−k1 +1 < · · · < t0 < t1 < · · · < tk2 = t0 + δ com
0 < ti − ti−1 ≤ ε para −k1 + 1 ≤ i ≤ k2 . Veja que o ponto inicial no tempo t0 está neste conjunto.
Definimos uma função
ξε : [t0 − δ, t0 + δ] → Rd
da seguinte forma.
1. ξε (t0 ) = x0 ;

2. ξε (ti ) = ξε (ti−1 ) + (ti − ti−1 ) Ψ(ti−1 , ξε (ti−1 )), i = 1, 2, . . . , k2 ;

3. ξε (t−j ) = ξε (t−j+1 ) + (t−j − t−j+1 ) Ψ(t−j+1 , ξε (t−j+1 )), j = 1, 2, . . . , k1 ;

4. ξε é afim e contı́nua em cada intervalo [ti−1 , ti ].


Esta curva poligonal ξε é a aproximação de Euler para a solução do Problema de Cauchy. Mas há
um ponto que ainda não está claro. A construção acima só faz sentido quando (ti , ξ(ti )) ∈ A para cada
−k1 ≤ i ≤ k2 , de modo a podermos definir os valores de Ψ(ti−1 , ξε (ti−1 )) e passarmos ao ponto ti (e o
mesmo para os Ψ(t−j+1 , ξε (t−j+1 )) e t−j ).
É exatamente aqui que entra em cena a escolha de δ com M δ0 ≤ R0 . De fato, argumentaremos que

∀i ∈ {0, . . . , k2 } : (ti , ξε (ti )) ∈ K0 e |ξε (ti ) − x0 |2 ≤ M (ti − t0 ), (11.2)

128
o que garante que |ξε (ti ) − x0 |2 ≤ M δ ≤ R0 para todo i (já que ti ∈ [t0 , t0 + δ]). Do mesmo modo,
podemos tratar assim os t−j , o que fica como exercı́cio para o leitor.
Provemos então a equação (11.2). Ela certamente vale para i = 0. Suponha indutivamente que ela vale
para i = 0, 1, . . . , r − 1. Veja que, neste caso,

R0
|ξε (tr−1 ) − x0 |2 ≤ M (tr−1 − t0 ) ≤ M δ ≤ ⇒ (tr−1 , ξε (tr−1 )) ∈ K0 .
2
Em particular, |Ψ(tr−1 , ξε (tr−1 ))|2 ≤ M . Portanto, usando a hipótese de indução,

|ξε (tr ) − x0 |2 ≤ (tr − tr−1 ) |Ψ(tr−1 , ξε (tr−1 )|2 + |ξε (tr−1 ) − x0 |2 ≤ M (tr − t0 ).

Para terminar esta seção, fazemos duas observações:

1. (t, ξε (t)) ∈ K0 para cada t ∈ [t0 − δ, t0 + δ]. De fato, isto segue do fato que K0 é convexo (exercı́cio),
vale (t, ξε (t)) ∈ K0 quando t = ti (como visto acima) e qualquer ponto (t, ξε (t)) está num segmento
de reta entre (ti−1 , ξε (ti−1 )) e (ti , ξε (ti )).

2. ξε é M -Lipschitz. Isto segue facilmente do fato que ξε é diferenciável em [t0 − δ, t0 + δ] exceto em


um número finito de pontos, e sua derivada tem norma ≤ M .

11.2.3 O problema em forma integral


Nosso objetivo será mostrar que, quando ε & 0, ξε converge para o conjunto de soluções de do problema
de Cauchy. Para levar este plano adiante, será importante ter algum tipo de continuidade no limite. Já vimos
há algum tempo que, para este fim, é melhor ter um problema envolvendo integrais ao invés de derivadas.
Vamos definir, então, um operador integral que corresponde ao problema (P). Lembre-se da definição de
R0 e δ0 na Seção 11.2.1 e da definição de δ na Seção 11.2.2. Podemos definir um conjunto

C := C([t0 − δ, t0 + δ], BRd [x0 , R0 ])

de todas as funções contı́nuas de [t0 − δ, t0 + δ] em BRd [x0 , R0 ]. Veja que a aproximação de Euler ξε
pertence a C. Definimos o operador:

T : C → C([t0 − δ, t0 + δ],RRd )
·
f 7→ T (f )(·) := x0 + t0 Ψ(s, f (s)) ds.
Como já observamos antes, qualquer ponto fixo de T é uma solução de (P) (isto é tão somente uma
consequência do Teorema Fundamental do Cálculo). O lema a seguir será fundamental para a construção de
soluções.

Lema 11.1 T é contı́nuo.

Prova: Vamos mostrar isto a partir da definição ε/δ de continuidade. Para não confundir as coisas, vamos
usar letras gregas distintas para estes sı́mbolos. Nosso objetivo será o seguinte.

Objetivo: fixo β > 0, devemos encontrar α > 0 tal que, se f, g ∈ C e kf −gk ≤ α, então kT (f )−T (g)k ≤
β.

129
Note que há um ligeiro abuso de notação aqui, porque usamos a mesma notação de norma k · k para dois
espaços possivelmente diferentes de funções contı́nuas. No entanto, isso não causará confusão.
Pare chegar a nosso objetivo, recordamos a definição do compacto K0 na Seção 11.2.1. Como Ψ |K0 é
contı́nua, logo uniformemente contı́nua, existe um α > 0 que garante que
β
∀(t, x), (t0 , x0 ) ∈ K0 : |(t, x) − (t0 , x0 )|2 ≤ α ⇒ |Ψ(t, x) − Ψ(t0 , x0 )|2 ≤ .

Em particular, se f, g ∈ C e kf − gk < α, os pares (t, f (t)) e (t, g(t)) pertencem a K0 para cada t ∈
[t0 − δ, t0 + δ], de modo que
β
∀t ∈ [t0 − δ, t0 + δ] : |Ψ(t, f (t)) − Ψ(t, g(t))|2 ≤ .

Sabemos que, para cada t0 − δ ≤ t ≤ t0 + δ
Z t

|T (f )(t) − T (g)(t)|2 = (Ψ(s, f (s)) − Ψ(s, g(s)) ds .
t0 2
Rt
Como vimos anteriormente, a integral de uma função h com valores em Rd satisfaz | t0 h(s) ds|2 ≤ |t −
t0 | sups |h(s)|2 . Deduzimos que
|T (f )(t) − T (g)(t)|2 ≤ |t − t0 | sup |Ψ(s, f (s)) − Ψ(s, g(s))|2 < β.
s

Ou seja, |T (f )(t) − T (g)(t)|2 < β, como querı́amos demonstrar. 2

11.2.4 Aproximações de Euler são pontos quase-fixos


Nosso próximo objetivo é provar que cada aproximação de Euler é uma quase-solução para (P), se ε for
pequeno o suficiente.
Lema 11.2 Dado β > 0, existe um ε0 > 0 tal que, se 0 < ε < ε0 , então kT (ξε ) − ξε k < β.
(Um corolário importante disto é que, se εk & 0, então kT (ξεk ) − ξεk k → 0.)
Prova: Temos que provar que há ε0 como acima tal que, se t ∈ [t0 −δ, t0 +δ], então |T (ξε )(t)−ξε (t)|2 < β.
Provaremos isto apenas para t0 ≤ t ≤ t0 + δ, já que a prova para t0 − δ ≤ t ≤ t0 é análoga.
Retorne às definições da seção 11.2.2 e veja que ti−1 ≤ t ≤ ti para algum ı́ndice i ≥ 1. Portanto,
i−1
X
ξε (t) = x0 + (tj − tj−1 ) Ψ(tj−1 , ξε (tj−1 )) + (t − ti−1 ) Ψ(ti−1 , ξε (ti−1 )).
j=1

Por outro lado,


i−1 Z
X tj Z t
T (ξε )(t) = x0 + Ψ(s, ξε (s)) ds + Ψ(s, ξε (s)) ds.
j=1 tj−1 ti−1

A diferença é igual a
i−1 Z
X tj
T (ξε (t)) − ξε (t) = (Ψ(s, ξε (s)) − Ψ(tj−1 , ξε (tj−1 ))) ds
j=1 tj−1
Z t
+ (Ψ(ti−1 , ξε (s)) − Ψ(ti−1 , ξε (ti−1 ))) ds. (11.3)
ti−1

130
Observe que (s, ξε (s)) ∈ K0 para todos os s ∈ [t0 , t0 + δ]. Como K0 é compacto e Ψ |K0 é contı́nua, existe
um α > 0 tal que, se (s, x) e (s0 , x0 ) estão em K0 e |(s, x) − (s0 , x0 )|2 < α, então |Ψ(s, x) − Ψ(s0 , x0 )|2 <
β/2δ. Por outro lado, recorde que ξε é M -Lipschitz, com M := sup(t,x)∈K0 |Ψ(t, x)|2 . Portanto, se
ε < ε0 := α/(M + 1), temos que, para cada termo de j = 1 a i − 1 da soma acima,
tj−1 ≤ s ≤ tj ⇒ |tj−1 − s| ≤ ε e |ξε (tj−1 ) − ξε (s)|2 ≤ M ε,
de modo que
q
|Ψ(s, ξε (s)) − Ψ(tj−1 , ξε (tj−1 ))|2 ≤ (t − tj−1 )2 + M 2 (t − tj−1 )2 < α
e
i−1 Z tj
X β
| (Ψ(s, ξε (s)) − Ψ(tj−1 , ξε (tj−1 ))) ds|2 ≤ (tj − tj−1 )
tj−1 δ
j=1
O mesmo racicı́nio dá uma cota para a integral de ti−1 a t:
Z t
(t − ti−1 ) β
| (Ψ(ti−1 , ξε (s)) − Ψ(ti−1 , ξε (ti−1 ))) ds|2 < .
ti−1 δ
As desigualdades acima nos dão cotas para todas as integrais aparecendo em (11.3). Somando-as, deduzi-
mos:
i−1
X β (t − ti−1 ) β (t − t0 )β
|T (ξε )(t) − ξε (t)|2 ≤ (tj − tj−1 ) + ≤ ≤ β.
δ δ δ
j=1
Ou seja, sempre que 0 < ε ≤ ε0 = α/(M + 1), temos |T (ξε )(t) − ξε (t)|2 < β. 2

11.2.5 Fim da demonstração


Nesta seção, concluı́mos a prova da existência local de uma EDO. O enunciado exato é o seguinte.
Teorema 11.3 Defina δ > 0 como na seção 11.2.1 e recorde todas as definições acima. Então o problema
(P) acima tem pelo menos uma solução. De fato, tomando uma sequência {ξεj }j∈N ⊂ C de aproximações
de Euler com εj → 0, alguma subsequência destas aproximações converge a uma solução de (P). Por fim,
se chamamos de S o conjunto de soluções de (P), temos que d(ξε , S) → 0 quando ε → 0.
Prova: Vamos trabalhar com todos os ingredientes vistos acima. Em primeiro lugar, notamos o seguinte.
Afirmação 11.2 O conjunto das funções {ξε }ε>0 é totalmente limitado (portanto seu fecho é compacto).
Isto segue do teorema de Ascoli-Arzèla. Veja primeiramente que cada aproximação de Euler é M -
Lipschitz, portanto esta famı́lia de funções é equicontı́nua. Temos ainda que ξε (t0 ) = x0 e portanto, para
qualquer t ∈ [t0 − δ, t0 + δ] e ε > 0,
{ξε (t) : ε > 0} ⊂ [x0 − δ M, x0 + δ M ]
é limitado.
Provada esta primeira afirmação, tome εj & 0 como no enunciado. Pela afirmação, {ξεj }j∈N ⊂ C
possui uma subsequência convergente ξεjk → ξ ∈ C quando k → +∞. Veja que também temos εjk → 0,
portanto o Lema 11.2 e a continuidade de T garantem que:
kT (ξ) − ξk = lim kT (ξεjk ) − ξεjk k = 0.
k
Ou seja, ξ é um ponto fixo de T e portanto resolve (P). A última afirmação segue do exercı́cio a seguir. 2

131
Exercı́cio 11.5 Considere um espaço métrico (X, dX ). Seja S ⊂ X um subconjunto que a priori poderia
ser vazio. Suponha que uma sequência {xn }n∈N ⊂ X satisfaz as seguintes propriedades.

• Dada qualquer subsequência {xn }n∈N1 , há uma subsubsequência {xn }n∈N2 com N2 ⊃ N1 que é
convergente.

• Qualquer subsequência convergente de {xn }n∈N tem limite em S.


n∈N
Mostre que S 6= ∅ e dX (xn , S) → 0 (ou seja, a sequência inteira converge a S). Use isto para terminar a
demonstração acima.

132
Parte IV

Cálculo diferencial para além de R e C

133
Capı́tulo 12

Derivar em dimensão maior que 1

Nesta parte do curso, nosso objetivo será desenvolver uma versão do cálculo diferencial, que já conhecemos
em R, para funções entre espaços mais gerais.
Já abordamos várias vezes o que é derivar funções de I em Rd , onde I ⊂ R é um intervalo da reta.
Neste caso, derivar significada derivar coordenada a coordenada. Poderı́amos ter sido ainda mais diretos e
observado que, se I ⊂ R é intervalo, (V, k · kV ) é espaço vetorial normado e f : I → V é dada, a derivada
f 0 (t) em t ∈ I pode ser naturalmente definida como:
f (t + h) − f (t)
f 0 (t) := lim .
h→0 h
Como no caso usual, pode ser que o limite não exista; se existir, ele concorda com a definição coordenada a
coordenada vista para o caso V = Rd .
Considere agora o caso em que f : V → W , onde (V, k · kV ) e (W, k · kW ) são espaços vetoriais
normados. Se tentamos definir uma derivada via um quociente, como acima, esbarramos em uma dificuldade
importante: não sabemos “dividir” um elemento de W por um elemento de V ! De fato, mesmo quando
V = W = R3 (por exemplo) não há uma maneira natural de definir o quociente que levaria à derivada no
caso V = R.
A saı́da para este problema é recorrer a uma outra maneira de definir derivada. No caso de f : I → R,
o valor f 0 (t) da derivada em t ∈ I satisfaz o seguinte: α = f 0 (t) é o único número real com a seguinte
propriedade.
|f (t + h) − f (t) − α h|
lim = 0.
h→0 |h|
Da mesma forma, podı́amos ter escrito que α = f 0 (t) se, quando escrevemos:

rt (h) := f (t + h) − f (t) − α h,

temos |rt (h)|/|h| → 0 quando h → 0.


Nesta definição alternativa dividimos não por h, mas sim por seu “tamanho”. A vantagem é que isso faz
sentido em todo espaço vetorial normado, quando medimos o tamanho de h ∈ V por sua norma khkV .
Para chegar à definição de derivada, precisamos ainda entender quem (ou o que) faz o papel do termo
α h. A chave neste caso será pensar em f (t + h) ≈ f (t) + α h como uma aproximação de f por uma função
afim, isto é, a soma de uma função linear com uma constante. A analogia natural para outros espaços é
escrever
f (x + h) ≈ f (x) + A h

135
onde A é uma transformação linear.
Em linhas gerais, o que discutimos acima é a definição de derivada devida a Fréchet, que estudaremos
abaixo. Também discutiremos derivadas parciais e direcionais, mas ficará claro que a definição de Fréchet
tem propriedades melhores. Por exemplo, ela é a única destas definições que satisfaz a regra da cadeia.
Além disso, uma vez que aceitamos a derivada como transformação linear, fica mais limpa a passagem para
derivadas superiores e fica mais fácil derivar em espaços que não são o Rd . De qualquer forma, tudo isso
fará mais sentido depois da breve revisão de Álgebra Linear que teremos a seguir.

Observação 12.1 O leitor pode se perguntar porque não tentamos definir derivadas em espaços ainda mais
gerais, por exemplo, espaços métricos gerais. Uma resposta possı́vel é que a derivada é uma tentativa de
aproximar funções por somas de funções constantes e lineares, logo devemos trabalhar num espaço em que
isso faça sentido. Certamente há espaços métricos em que seria muito difı́cil de se falar disso. No entanto,
veremos neste curso que, ao menos em um caso particular – o das subvariedades de Rd – será possı́vel falar
de derivadas por causa de uma estrutura linear local.

136
Capı́tulo 13

Um curso relâmpago de Álgebra Linear

Nesta seção reveremos os conceitos principais de Álgebra Linear numa linguagem que convém ao curso. A
maioria das provas será apresentada de forma bastante rápida, mas todas elas podem ser completadas sem
maior esforço.

13.1 Combinações lineares


Considere um espaço vetorial V sobre R. Dados um conjunto G ⊂ V e um vetor v ∈ V , dizemos que
G →` v, ou que v é combinação linear finita de G, se existem F ⊂ G finito e αf ∈ R para cada f ∈ F com
X
v= αf f.
f ∈F

Chamamos de conjunto gerado por G, ou hGi, o conjunto de todos os v ∈ V com G →` v. Definimos por
convenção que h∅i = {0V }.
O conceito de combinação linear é um dos mais importantes do curso. Um dado fundamental é que
combinações lineares de combinações lineares dos elementos de H também são combinações lineares dos
elementos de H.

Proposição 13.1 Suponha que G →` v e H →` g para cada g ∈ G. Então H →` v.


P
Prova: Escreva v = g∈F αg g para algum F ⊂ G finito. Para cada g ∈ F , existe um Kg ⊂ H finito com
X
g= βh,g h com βh,g ∈ R.
h∈Kg

Chame de K = ∪g∈F Kg , que também é um subconjunto finito de H. Note que:


 
X X X X
v= αg βh,g h =  βh,g  h.
g∈F h∈Kg h∈K g∈F : h∈Kg

Portanto, H →` v. 2

Exercı́cio 13.1 Prove que hGi é sempre um subespaço vetorial de V e que hGi ⊃ G.

137
13.2 Conjuntos geradores, l.i. e bases
Definição 13.1 Dizemos que G é um conjunto gerador para V se hGi = V .

Ou seja, G gera V se todo elemento de V pode ser escrito como combinação linear de um número finito
de vetores em G.

Exemplo 13.1 Os vetores da base canônica são um conjunto gerador para Rd .

Exemplo 13.2 Considere o conjunto V formado por todas as sequências x = (x[i])i∈N com x[i] ∈ R e
x[i] = 0 para todo i grande. Podemos pensar nos elementos destes conjuntos como “vetores em R∞ que só
têm finitas coordenadas diferentes de 0”. Não é difı́cil dotar V de uma estrutura de espaço vetorial. Feito
isso, não é difı́cil provar que a base canônica natural neste espaço é um conjunto gerador.

Uma definição importante a seguir será a de dimensão finita.


Dado que temos um conjunto gerador, será natural procurarmos conjuntos mı́nimos. A definição e a
proposição abaixo será importante nesta direção porque ela nos fala de conjuntos que têm (ou não têm)
“redundâncias”.

Definição 13.2 Um subconjunto L ⊂ V é dito linearmente independente (l.i.) P se, dado qualquer F ⊂ L
finito e não-vazio, a única escolha possı́vel de coeficientes αf (f ∈ F ) com f ∈F αf f = 0V é a que tem
todos os coeficientes nulos: ∀f ∈ F , αf = 0.

Proposição 13.2 Dado L ⊂ V , as propriedades abaixo são todas equivalentes.


1. L é linearmente independente.

2. Não existe f ∈ L com L\{f } →` f

3. Para qualquer f ∈ L temos hL\{f }i =


6 hLi.

Prova: Começamos provando que 1 ⇒ 2. Imagine


P (para chegar a uma contradição) que conseguimos
escrever f∗ ∈ L como uma combinação linear g∈K αg g, com K ⊂ L\{f∗ } finito. Veja que, neste caso,
X
αg g − f∗ = 0V ,
g∈K

ou seja, há uma combinação linear de elementos do conjunto finito K ∪ {f } ⊂ L que resulta em 0V .
Deduzimos que todos os coeficientes são 0. Mas o coeficiente de f nesta soma é 1, o que é uma contradição.
Logo, qualquer f ∈ L não é combinação linear finita de elementos de L\{f }.
De fato, é possı́vel provar 2 ⇒ 1 invertendo este raciocı́nio: se valesse 2, mas L não fosse l.i., terı́amos
uma combinação linear:
X
αf f = 0 com F ⊂ L finito e αf∗ 6= 0 para algum f∗ ∈ F .
f ∈F

No entanto, isto implicaria que:


X −αf
f∗ = f com F \{f∗ } ⊂ L\{f∗ } finito,
αf∗
f ∈F \{f∗ }

138
o que contradiria 2.
Falta provar que 2 ⇔ 3. Que 2 ⇒ 3 é simples: a parte 2 diz que, dado qualquer f ∈ L, vale que
f 6∈ hL\{f }i, ao mesmo tempo que f ∈ hLi. Por outro lado, se não vale 2, existe um f∗ ∈ L tal que
L\{f∗ } →` f∗ . Veremos que isto implica que 3 não vale, ou seja, hL\{f∗ }i = hLi. De fato, se v ∈ hLi
é dado, de modo que Liv, temos que w ∈ L\{f∗ } para cada w ∈ L; isto é trivial se w 6= f∗ e vale para
f∗ porque assim suposemos. Deduzimos então L\{f∗ } → v para cada v ∈ hLi, o que é o mesmo que
hL\{f∗ }i = hLi. 2
Agora podemos definir o conceito fundamental de base como conjunto gerador minimal.
Definição 13.3 Uma base de V é um conjunto gerador linearmente independente. Ou seja, L ⊂ V é base
de V de hLi = V , mas dado qualquer f ∈ L temos hL\{f }i = 6 L.
É uma consequência do Lema de Zorn que todo espaço vetorial tem uma base, chamada Base de Hamel.
No entanto, nosso maior interesse será no caso de dimensão finita.
O seguinte fato será útil no que segue.
Lema 13.1 Suponha que L é l.i. e v ∈ V \hLi. Então L ∪ {v} também é l.i..
Prova: Suponha que F ⊂ L ∪ {v} finito e os coeficientes αf ∈ R (f ∈ F ) são tais que
X
αf f = 0V .
f ∈F

Afirmamos que os αf são todos nulos. De fato, se v 6∈ F , F ⊂ L e a afirmação segue do fato que L é l.i..
Se v ∈ F , mas αv = 0, o mesmo raciocı́nio se aplica. Finalmente, se v ∈ F e αv 6= 0,
X X  αf 
αf f = 0V ⇒ v = l − f ∈ hLi,
αv
f ∈F f ∈F \{v}

o que contradiz o fato que v 6∈ hLi. 2

13.3 O teorema fundamental da dimensão finita


Vamos considerar agora o caso em que V tem dimensão finita.
Definição 13.4 Dizemos que V tem dimensão finita se possui um conjunto gerador finito.
Exemplos incluem Rd , Rd×k (exercı́cio) e o espaço de funções polinomiais de grau ≤ d.
Proposição 13.3 Todo espaço V de dimensão finita possui uma base finita. De fato, todo conjunto gerador
finito de V contem uma base.
Prova: Considere um conjunto gerador finito G = G0 de V . Se G0 é l.i., já é uma base e o problema está
resolvido. Se não, podemos achar um subconjunto G1 = G0 \{f0 } estritamente contido em G0 com hG1 i =
hG0 i = V . Caso G1 não seja l.i., podemos repetir esta operação obtendo conjuntos G0 ⊃ G1 · · · ⊃ Gk
propriamente contidos um no outro tais que
hGk i = hGk−1 i = · · · = hG0 i = V e
0 ≤ |Gk | < |Gk−1 | < · · · < |G0 | < +∞.
Estas desigualdades mostram que o processo de gerar Gk ’s para em algum momento. Quando isto ocorre, o
Gk∗ obtido é l.i. e hGk∗ i = V . 2

139
O teorema fundamental da Álgebra Linear em dimensão finita está a seguir.

Teorema 13.1 Suponha que V tem dimensão finita. Existe um número d := dim(V ) ∈ N, chamado de
dimensão de V , tal que todas as bases de V têm dim(V ) elementos. Todo conjunto gerador tem pelo menos
dim(V ) elementos e contem uma base. Todo conjunto l.i. tem no máximo dim(V ) elementos e está contido
numa base.

Prova: Provaremos o seguinte fato mais forte.

Lema 13.2 Suponha que existe uma base de V com d ∈ N elementos e que G é conjunto gerador qualquer
de V . Então G contem uma base de V com exatamente d elementos.

Por que isto implica o teorema? Vejamos:

1. Em primeiro lugar, já vimos que, quando V tem dimensão finita – ou seja, há pelo menos um conjunto
gerador finito –, há também uma base finita. Esta base B tem um certo número d de elementos.

2. Toda base finita é um conjunto gerador; usando o lema acima duas vezes, vemos que duas bases finitas
B e B 0 têm de ter o mesmo número d de elementos.

3. Se G é um conjunto gerador com d elementos, o lema implica que ele é uma base. Se G tem mais de
d elementos, contem estritamente uma base. Neste segundo caso, G não pode ser l.i.: se fosse, seria
uma base que não tem d elementos.

4. Considere um conjunto l.i. finito L qualquer. Fixe uma base B de V . Se L →` b para cada b ∈ B,
temos que L gera V ; neste caso, L é base e tem exatamente d elementos. Se isto não vale, podemos
tomar b1 que não é gerado por L e construir um conjunto l.i. maior L1 = L ∪ {b1 } com b1 ∈ B\hLi.
Repetindo este processo, em algum momento teremos um Lk com |L| + k elementos e tal que B ⊂
hLk i. Pelo que vimos acima, Lk é base de V e portanto |L| + k = d, ou seja |L| < d.

5. Finalmente, todo subconjunto finito de um conjunto l.i. também é finito. Deduzimos que não pode
haver um conjunto l.i. com mais de d elementos.

Veja que tudo o que afirmamos no Teorema está escrito acima. Logo, o lema implica o teorema.
A partir de agora nos concentraremos em provar o lema. Nesta prova suporemos que V 6= {0V }, de
modo que |B| = d > 0 (o caso em que V = {0V } é trivial). Chame de b1 , . . . , bd os elementos de B e
de g1 , . . . , gk os elementos de G, observando que também temos k = |G| > 0. (Na verdade, admitimos G
infinito, e neste caso devı́amos escrever

G := {gj : i ∈ I}

para algum conjunto de ı́ndices I. É fácil ver que isso só causa mudanças estéticas na prova abaixo.)
Nossa prova do Lema será por um processo indutivo. Construiremos uma sequência de novas bases

B0 = B, B1 , . . . , Bd

com a mesma cardinalidade d, e tais que B` e G têm pelo menos ` elementos em comum, Segue disto que
Bd ⊂ G e portanto |B| = d = |Bd | ≤ |G|.

140
Comecemos com a construção de B1 . Como B é base (e portanto é conjunto gerador), cada gi ∈ G é
combinação linear dos elementos de G:
d
X
gi = αi,j bj , αi,1 , . . . , αi,d ∈ R.
j=1

Afirmamos que existe pelo menos um ı́ndice i1 tal que αi1 ,d 6= 0. Para ver isso, observe que, como G
gera V b1 é combinação linear dos gi . Se αi,1 = 0 para cada i, cada gi é combinação linear dos elementos
de B\{b1 }. Como os gi geram V , deduzimos que B\{b1 } gera V . Mas então o próprio b1 é combinação
linear dos elementos de B\{b1 }, o que é uma contradição porque B é l.i..
Agora considere o efeito de substituir b1 por gi1 em B. Isto nos dá um novo conjunto de vetores:

B1 = {gi1 , b2 , . . . , bd }.

Afirmamos que este conjunto ainda é uma base de B. Para verificar isso, precisamos mostrar que ele ainda
é conjunto gerador. Isso é simples porque B é gerador e qualquer bi ∈ B satisfaz B1 →` bi ; isso é óbvio se
i 6= 1 e, para i = 1,
Xd
b1 = gi1 − αi1 ,j bj →` B1 .
j=2

Ainda falta mostrar que B1 é l.i.. Considere então uma combinação linear

γ1 gi1 + γ2 b2 + · · · + γd bd = 0V .
Pd
Podemos substituindo gi1 = j=1 αi1 ,j bj

γ1 αi1 ,1 b1 + γ20 b2 + · · · + γd0 bd = 0V .

Como b1 , . . . , bd é l.i., γ1 αi1 ,1 = 0; como αi1 ,1 6= 0, temos γ1 = 0. Deduzimos

γ2 b2 + · · · + γd bd = 0V , o que implica γ2 = · · · = γd = 0.

Portanto, B1 é uma base de V com d elementos que tem pelo menos um elemento em comum com G.
A construção acima encerra o caso base de nossa indução. Suponha agora que já conseguimos construir
uma base B` de V com d elementos e pelo menos ` ≥ 1 elementos em comum com G. Se ` = d, então
B` ⊂ G e a prova acabou.
Consideremos então o caso 1 ≤ ` < d. vamos mostrar que podemos construir uma outra base B`+1
com d elementos e ` + 1 elementos em comum com G. Com efeito, re-rotulando os elementos de G se
necessário, podemos escrever:

B` = {gi1 , gi2 , . . . , gi` , b`+1 , . . . , bd }.

Podemos escrever cada gi com i ∈ {` + 1, . . . , k} na forma:


`
X d
X
0 0
gi = αi,j gij + αi,j bj .
j=1 j=`+1

Afirmamos que pelo menos um valor i`+1 ∈ {` + 1, . . . , k} satisfaz αi0 `+1 ,`+1 6= 0. Caso contrário, todo gi
com i ∈ [k]\{i1 , . . . , i` } satisfaria B` \{b`+1 } →` gi . Como isso obviamente vale também para os outros

141
elementos de G, que já pertencem a B` , seria verdade que todo gi é combinação linear de B` \{b`+1 }.
Como G gera V , deduzimos que hB` \{b`+1 }i = V . Isto contradiria o fato que B` é base e que portanto
b`+1 6∈ hB` \{b`+1 }i.
Deduzimos, portanto, que o i`+1 desejado existe. Definimos:

B`+1 = {gi1 , gi2 , . . . , gi` , gi`+1 , . . . , bd }.

Deixamos a cargo do leitor a verificação de que esta é de fato uma base de V . Isto encerra a prova do Lema.
2

Exercı́cio 13.2 Mostre que V tem dimensão finita se e somente se existe um D ∈ N tal que todo conjunto
l.i. de V tem no máximo D elementos. Deduza que todo subespaço vetorial de um subespaço de dimensão
finita também tem dimensão finita.

13.4 Transformações lineares e dimensão finita


Recorde que T : V → W é linear se dados quaisquer v, v 0 ∈ V , λ ∈ R, T (λv + v 0 ) = λ T (v) + T (v 0 ).
Toda T linear tem dois subespaços naturalmente associados a ela: o núcleo (subespaço de V ) e a imagem
(subespaço de W ).
ker(T ) = {v ∈ V : T v = 0W } ⊂ V.
ran(T ) = {w ∈ W : w = T v para algum v ∈ V } ⊂ W.

Exercı́cio 13.3 Mostre que ker(T ) e ran(T ) são mesmo subespaços.

A dimensão de ran(T ), quando finita, é chamada de posto de T .


Nesta seção relacionamos as dimensões destes espaços e mostramos que elas nos ajudam a entender
propriedades de T .

Proposição 13.4 ker(T ) = {0V } se e somente se T é injetiva.

Prova: T é injetiva se e somente se T v = T v 0 implica v = v 0 . Subtraindo v 0 dos dois lados, vemos que esta
propriedade é equivalente a
T (v − v 0 ) = 0W ⇔ v − v 0 = 0V
o que é o mesmo que pedir ker(T ) = {0V }. 2

Lema 13.3 Se V tem dimensão finita d, ker(T ) tem dimensão finita e

dim ran(V ) + dim ker(T ) = dim(V ).

Prova: Como ker(T ), sua dimensão é k para algum k ∈ N, k ≤ d. Provaremos que ran(V ) tem uma base
com d − k elementos. Por simplicidade, suporemos k < d, pois k = d implica que T é identicamente nula
e o teorema é trivialmente verdadeiro neste caso.
De fato, suponha que L é uma base de ker(T ), de modo que |L| = k ≤ d. L é l.i. e portanto está contida
numa base B de V . Afirmamos que

H := {T b : b ∈ B\L} é base de ran(T ) com d − k elementos.

142
Para provar isso, observe primeiramente que, como B é base de V , todo v ∈ V pode ser escrito como

v = b + ` com ` ∈ hLi = ker(T ) and b ∈ hB\Li.

Aplicando T dos dois lados e observando que T ` = 0 (pois ` está no núcleo), vemos que todo vetor
T v ∈ ran(T ) é da forma T b com b ∈ hB\Li. Como todo elemento de hB\Li é combinação linear de
elementos de B\L, todo T v é combinação linear de elementos de H.
Agora provaremos que H é l.i. e tem d − k elementos distintos. Se uma destas hipóteses não valesse,
existiria uma combinação linear de H com pelo menos algum coeficiente não nulo e
X
αb T b = 0W .
b∈B\L

P
Por linearidade, b∈B\L αb b ∈ ker(T ) = hLi. Isto quer dizer que:
X X
αb b = β` ` para alguma escolha de coeficientes β` .
b∈B\L `∈L

Mas isto quer dizer


X X
αb b − β` .
b∈B\L `∈L

Como B é l.i., todos os coeficientes reais acima são nulos, o que contradiz a hipótese de que algum αb é
diferente de 0. 2
Dizemos que T : V → W é inversı́vel se é uma bijeção. É um exercı́cio provar que, neste caso,
T −1 : W → V também é transformação linear.

Teorema 13.2 Suponha que V ou W tem dimensão finita. Então T : V → W é bijeção se e somente se
dim(V ) = dim(W ) e ker(T ) = {0V } (T é injetiva).

Prova: T é bijeção se e somente se ker(T ) = {0V } e ran(T ) = W . Supondo que V tem dimensão finita
(sem perda de generalidade), vemos que

dim ran(T ) + dim ker(T ) = dim(V ) ⇒ dim(W ) = dim(V ) − dim ker(T ) ≤ dim(V ),

logo W tem dimensão finita. Do mesmo modo, considerando T −1 , vemos que:

dim ran(T −1 ) + dim ker(T −1 ) = dim(V ) ⇒ dim(V ) = dim(W ) − dim ker(T −1 ) ≤ dim(W ).

Logo, quando T é bijeção, W e V têm a mesma dimensão e pode-se deduzir das equações acima que
dim ker(T ) = 0. A recı́proca fica como exercı́cio. 2

Observação 13.1 Quando V tem dimensão finita, o teorema acima nos diz que T : V → V é inversı́vel, se
e somente se ker(T ) = {0V }. Este resultado não vale para espaços de dimensão infinita. Com efeito, tome
V = C([0, 1], R) e T o operador que leva f ∈ C a sua integral indefinida. Veja que T (f ) é diferenciável
para qualquer f , mas há funções em C que não são diferenciáveis, logo T não é uma sobrejeção.

143
13.5 Relação com os espaços euclideanos Rd
Nesta seção observamos que todo espaço de dimensão d < +∞ é “essencialmente” o Rd disfarçado. Toda
transformação linear pode ser dada por uma matriz. Isto quer dizer que todas as normas sobre um espaço de
dimensão finita são equivalentes, etc.

13.6 Normas e transformações lineares


Considere dois espaços vetoriais normados (V, k · kV ) e (W, k · kW ). Já vimos anteriormente que uma
aplicação linear é contı́nua se e somente se é limitada, isto é:

kT vkW
kT kV →W := sup < +∞.
v∈V \{0V } kvkV

Também vimos que se V = Rd , então toda transformação linear é contı́nua. Este resultado se estende a
qualquer V de dimensão finita, mas falha para espaços de dimensão infinita.
Definimos:
L(V, W ) := {T : V → W : T é linear e limitada}.
Usaremos no restante do curso o seguinte resultado.

Proposição 13.5 (L(V, W ), k · kV →W ) é um espaço vetorial normado. Se (W, k · kW ) é completo, o mesmo


vale para (L(V, W ), k · kV →W ).

Prova: (A acrescentar.) 2

144
Capı́tulo 14

A derivada como transformação linear

Neste capı́tulo reuniremos os ingredientes necessários para definir a derivada e calculá-la em alguns exem-
plos interessantes.

14.1 A definição de derivada de Fréchet


Fixamos dois espaços vetoriais normados (V, k·kV ) e (W, k·kW ). A definição geral de derivada é a seguinte.

Definição 14.1 Dado um aberto U ⊂ V , dizemos que f : U → W é Fréchet-diferenciável em x ∈ U se


existe uma transformação linear contı́nua T ∈ L(V, W ) tal que para h ∈ V , h → 0V ,

f (x + h) = f (x) + T h + rx (h)

para uma “função-resto” rx com krx (h)kW /khkV → 0. De forma equivalente, pedimos que rx (h) :=
f (x + h) − f (x) − T h satisfaça o seguinte:

∀ε > 0 ∃δ > 0 : ∀h ∈ BV (x, δ) ⊂ U, krx (h)kW ≤ ε khkV .

Chamamos T de derivada de Fréchet (ou simplesmente derivada) de f em x e escrevemos T = Df (x).

Um ponto fundamental da definição acima é que Df (x) deve ser uma transformação linear contı́nua, ou
limitada:
kDf (x) vkW
kDf (x)kV →W := sup < +∞.
v∈V \{0V } kvkV

Vimos anteriormente que esta propriedade sempre vale quando V = Rd . Também sabemos que ela pode
não valer quando V tem dimensão infinita: por exemplo, vimos que a operação de tomar derivada não é
contı́nua na norma do sup. Portanto, no caso de dimensão infinita, se queremos provar que Df (x), devemos
mostrar que nosso candidato T a derivada é linear e limitado.
Um outro ponto importante da definição é saber se T = Df (x) é unicamente definido. Para isso, usamos
a proposição abaixo.

Proposição 14.1 No contexto da definição acima, Suponha que S ∈ L(V, W ) satisfaz:

kRx (h)kW
f (x + h) = f (x) + S h + Rx (h), com → 0,
khkV

145
assim como T . Então S = T . De fato, para cada v ∈ V , vale:
f (x + tv) − f (x)
Sv = T v = lim .
t→+∞ t
Prova: Veja que S 0V = T 0V = 0W por linearidade. Se v 6= 0V , podemos tomar h := tv, notando que
este vetor vai a 0V quando t → 0 e ktvkV = |t|kvkV . Deduzimos que

f (x + tv) − f (x) f (x + tv) − f (x) − T (tv)
= krx (tv)k kvkV → 0,

− T v =
t
W
t
W kt vkV
ou seja,
f (x + tv) − f (x)
T v = lim .
t→0 t
Repetindo a prova com S, deduzimos:
f (x + tv) − f (x)
Sv = lim .
t→0 t
2
Antes de prosseguirmos, notamos duas propriedades simples.

Exercı́cio 14.1 Com V qualquer, note que, se f é diferenciável em x, então f também é contı́nua em x.

14.1.1 Derivadas direcionais, suas vantagens e problemas


A derivada de Fréchet tem o defeito de ser difı́cil de calcular em geral. Por isso, será interessante olharmos
para outras definições de derivada que se pareçam mais com as do Cálculo. Na verdade isso já estava
implı́cito na discussão acima, quando tomamos limites direcionais.

Definição 14.2 O limite


f (x + tv) − f (x)
∂v f (x) := lim ,
t→0 t
quando existe, é chamado de derivada de Gâteaux (ou direcional) de f na direção v.

A prova da proposição 14.1 implica o seguinte resultado:

Proposição 14.2 (Prova omitida.) Quando a derivada Df (x) existe, então Df (x).v = ∂v f (x) para todo
v ∈V.

Em particular, as derivadas direcionais todas existem quando f é Fréchet-diferenciável. A recı́proca não


é verdadeira: há casos em que ∂v f (x) existe para todo v, mas f não é nem sequer contı́nua. Isso pode
ocorrer mesmo quando V = R2 e W = R, como mostra o exemplo abaixo.

Exemplo 14.1 Considere (


(x[1])3 x[2]
(x[1])6 +(x[2])2
, x 6= 0R2
f (x) =
0, x = 0R2 .
É fácil ver que as derivadas direcionais ∂v f (0R2 ) existem e são todas iguais a 0. No entanto, f não é nem
sequer contı́nua em 0R2 . Por exemplo, se fazemos a(t) := (t, t3 ) (t > 0), vemos que a é contı́nua, mas
f ◦ a(t) → 1/2 6= f ◦ a(0) quando t → 0.

146
Uma explicação para esta discrepância é que as derivadas direcionais ∂v f (x) só ligam para o comporta-
mento de f ao longo de retas a partir de x. Por isso, elas não “enxergam” eventuais descontinuidades de f
sobre curvas. A derivada de Fréchet é mais exigente e, por essa razão, tem propriedades melhores, como a
regra da cadeia (discutida mais adiante), que em geral não valem para as derivadas direcionais.
De qualquer modo, como a derivada direcional é mais fácil de calcular, será importante ter critérios
gerais para assegurar que uma dada f é Fréchet-diferenciável somente a partir das derivadas direcionais.
Este problema será abordado mais adiante.

14.2 Alguns casos simples da derivada de Fréchet


14.2.1 Quando o domı́nio está na reta
Um caso simples desta definição se dá quando V = R e U ⊂ R é aberto. Neste caso, parece natural definir
a derivada como o limite usual.
f (x + h) − f (x)
f 0 (x) := lim .
h→0 h
Nesta seção mostraremos que a derivada de Fréchet coincide com esta definição por limite a menos de um
isomorfismo. A proposição a seguir esclarece o que seria este isomorfismo.

Proposição 14.3 Os espaços L(R, W ) e W são isomorfos como espaços vetoriais normados. Isto é, há
uma bijeção linear entre estes dois espaços que preserva normas. De fato, esta bijeção leva T ∈ L(R, W )
em vT := T 1 ∈ W .

Prova: Neste teorema, estamos pensando em R como espaço vetorial normado sobre o corpo R. Por esta
razão, podemos pensar num elemento x ∈ R como o produto x.1 do escalar x com o elemento 1 deste
espaço vetorial. Isto nos leva à constatação de que vT := T (1) define inteiramente a transformação T , já
que, dado qualquer x ∈ R,

T (x) = T (x.1) = (use linearidade) = x T (1) = x vT .

Segue diretamente disto que a aplicação T 7→ vT nos dá uma bijeção linear de L(R, W ) com W . Veja em
primeiro lugar que, dados T, T 0 ∈ L(R, W ) e λ ∈ R,

vλT +T 0 = (λT + T 0 )(1) = λ T (1) + T 0 (1) = λ vT + vT 0 .

Além disso, vT = 0W implica que T (x) = 0W para todo x ∈ W , ou seja, T = 0L(R,W ) . Isto implica que
T 7→ vT é injetiva. Temos ainda:

kT xkW kxvT kW
kT kR→W = sup = sup = kvT kW .
x∈R\{0}R |x| x∈R\{0}R |x|

Finalmente, T é sobrejetiva: dado qualquer v ∈ W , a transformação Tv que leva x ∈ R em Tv (x) := x v


tem vTv = v. Além disso, T é limitada pelo argumento acima. 2
Agora podemos enunciar o resultado que garante a coincidência entre as derivadas de Fréchet e a “deri-
vada como limite” a que estamos acostumados.

Lema 14.1 Dados U ⊂ R aberto, x ∈ U e f : U → W , são equivalentes:

147
1. f é diferenciável em x no sentido de Fréchet.

2. Existe o limite:
f (x + h) − f (x)
f 0 (x) := lim .
h→0 h
Além disso, quando f 0 (x) e Df (x) estão ambas definidas, temos f 0 (x) = Df (x)(1).

Prova: O ponto é que, dados T ∈ L(R, W ), h ∈ R com x + h ∈ U ,

f (x + h) − f (x) − T h = f (x + h) − f (x) − h vT

segundo o isomorfismo do exercı́cio anterior, com vT = T 1. Deste modo,



kf (x + h) − f (x) − T hkW f (x + h) − f (x)
lim = lim − vT
.
h→0 |h| h→0 h W

O lema segue trivialmente desta última identidade já que um dos limites existe e é zero se e somente se o
outro também é. Isto é, vT = f 0 (x) se e somente se T = Df (x). 2

14.2.2 Derivadas envolvendo funções lineares


Uma observação simples, mas importante para o que segue, é que, se T : V → W já é linear, então sua
derivada é DT (x) h = T h, para quaisquer x, h ∈ V . A prova deste fato fica como exercı́cio. Um outro
caso simples é descrito no exercı́cio abaixo.

Exercı́cio 14.2 Mostre que, quando f : U → W é diferenciável e T ∈ L(W, Z) para um outro espaço
vetorial normado Z. Neste caso, T ◦ f : U → Z tem derivada:

D(T ◦ f )(x) h = T Df (x) h

em todo ponto x ∈ U onde f é diferenciável.

O leitor é convidado a provar isto diretamente, mas observamos que esta é uma consequência da regra
da cadeia.

14.2.3 A derivada quando V tem dimensão finita e W = R


Nesta seção consideraremos o caso em que V tem dimensão finita e W = R. De fato, nos contentaremos em
entender bem o caso V = Rd e W = R; os mesmo resultados se estendem aos outros espaços de dimensão
finita porque todos os espaços de mesma dimensão finita são isomorfos.
A tentação aqui é falar das derivadas parciais que já conhecemos do Cálculo. Cara derivada parcial
∂f /∂xi é obtida fixando um x ∈ U , variando a i-ésima coordenada de x e tomando o limite adequado. Não
é difı́cil ver que isto é a mesma coisa que a derivada direcional ∂ei f (x), que nós chamaremos de ∂i f (x)
para deixar a notação mais leve.
Nossa pergunta aqui é: o que precisamos saber sobre as derivadas parciais para garantir que a derivada
Df (x) existe? Observe que, como W = R, se f : U → R é diferenciável, então Df (x) é um funcional
linear contı́nuo entre V = Rd e R. Em particular, sabemos que, se Df (x), então há um vetor ∇f (x) tal que
Df (x) · v = ∇f (x) · v para cada v ∈ Rd . É fácil ver que (∇f (x))[i] = Df (x) · ei = ∂i f (x). O resultado
a seguir nos diz que, se as derivadas parciais são contı́nuas, então o gradiente existe.

148
Teorema 14.1 Suponha que U ⊂ Rd é aberto, f : U → R é dada e x ∈ U . Se as derivadas parciais ∂i f
(1 ≤ i ≤ d) estão definidas em uma vizinhança aberta de x e são contı́nuas neste ponto, então Df (x) existe
(o que é o mesmo que dizer que f é diferenciável em x no sentido de Fréchet).
Prova: A ideia da prova é usar o Teorema do Valor Médio, que diz que, se g : I → R é diferenciável num
intervalo I e a, a + t ∈ I, então existe um ponto s com |s| ≤ |t|, a + s ∈ I e g(a + t) − g(a) = g 0 (a + s) t.
Vamos aplicar este resultado às derivadas parciais que, no final das contas, são derivadas em uma
d
variável. Tome√r > 0 tal que √ as derivadas parciais de f existem em BRd [x, r] ⊂ R . Veja que, se
Ii := [x[i] − r/ d, x[i] + r/ d], então
Q := I1 × I2 × . . . Id ⊂ BRd [x, r].
Em particular, se x̃ ∈ Q e ti ∈ R é tal que x̃+ti ei ∈ Q, existe um si = si (x̃, ti ) com |si | ≤ |ti |, x̃+si ei ∈ Q
e
f (x̃ + ti ei ) − f (x̃) = ti ∂i f (x̃ + si ei ).
(Note que só podemos garantir x̃[i] + si ∈ Ii porque Q tem a estrutura de um produto
√ cartesiano
√ de in-
tervalos.) Vamos aplicar isso ao caso em P que as coordenadas de h estão entre −r/ d e r/ d, o que
garante x + h ∈ Q. Recordamos que h = di=1 h[i]ei . Observamos que para cada j ∈ [d] ∪ {0} o vetor
√ √
hj := ji=1 h[i] ei ∈ Q também tem coordenadas entre −r/ d e r/ d. Portanto, x + hj ∈ Q para cada
P
um destes j e podemos escrever uma soma telescópica.
d
X
f (x + h) − f (x) = (f (x + hj ) − f (x + hj−1 )).
m=1

Como x + hj = x + hj−1 + h(j) ej para cada j ∈ [d], podemos encontrar um valor h̃(j) entre 0 e h(j) , tal
que, se h̃j := hj−1 + h̃(j) ej ,
f (x + hj ) − f (x + hj−1 ) = h(j) ∂j f (x + h̃j ).
Deduzimos que
d
X
f (x + h) − f (x) = h(j) ∂j f (x + h̃j ).
m=1
Para terminar a prova, definimos ∇f (x) como o vetor das derivadas parciais. Veja que:
d
X
f (x + h) − f (x) − ∇f (x) · h = rx (h) := h(j) (∂j f (x + h̃j ) − ∂j f (x)).
m=1

Por Cauchy-Schwartz, v
u d
uX
|rx (h)| ≤ |h|2 t (∂j f (x + h̃j ) − ∂j f (x))2 .
m=1

Veja que |h̃j |2 ≤ |hj |2 ≤ |h|. Deste modo, quando h → 0, cada h̃j converge a 0. Podemos combinar isto
com nossa hipótese de continuidade das derivadas parciais e concluir que o termo da raı́z quadrada acima
vai a 0. Portanto: v
u d
|rx (h)| u X
≤t (∂j f (x + h̃j ) − ∂j f (x))2 → 0.
|h|2
m=1

Ou seja, ∇f (x) · h = Df (x) h, como querı́amos mostrar. 2

149
Um corolário importante deste resultado é o seguinte.

Exercı́cio 14.3 Dada f : U → R, as seguintes propriedades são equivalentes.

1. Df (x) (ou ∇f (x)) está definido em todo U e depende continuamente de x;

2. Para qualquer v ∈ Rd , a derivada direcional ∂v f : U → R existe e é contı́nua.

3. as derivadas parciais de f : U ⊂ Rd → R existem e são contı́nuas em todo U .

14.2.4 O caso em que W tem dimensão finita


Também neste caso consideraremos apenas W = Rk . Neste caso, é fácil ver que f : U ⊂ Rk é diferenciável
se e somente se cada uma das funções coordenadas é diferenciável. Isto é, se f [i] : U → R é diferenciável
em x ∈ U para cada i ∈ [k], então f é diferenciável em x e Df (x) h = (Df [i](x) h)ki=1 ; ao mesmo tempo,
vale a recı́proca.
Considere agora a restrição a V = Rd , de modo que U ⊂ Rd . Os resultados da seção anterior implicam
que:

Exercı́cio 14.4 Dada f : U → Rk , as seguintes propriedades são equivalentes.

1. Df (x) (ou ∇f (x)) está definido em todo U e depende continuamente de x;

2. Para qualquer v ∈ Rd e i ∈ [k] , a derivada direcional ∂v f [i] : U → R existe e é contı́nua.

3. as derivadas parciais de cada f [i] : U → R (i ∈ [k]) existem e são contı́nuas em todo U .

14.3 Boas propriedades da derivada de Fréchet


Nesta seção damos substância ao que já dissemos acima: a derivada de Fréchet tem boas propriedades
teóricas. Os dois teoremas desta seção nos dizem que ela satisfaz uma regra da cadeia e uma desigualdade
assemelhada ao Teorema do Valor Médio.

14.3.1 A regra da cadeia


Enunciamos abaixo a versão geral da regra da cadeia. Tão importante quanto entender que ela vale é observar
que as derivadas direcionais não satisfazem a regra da cadeia; veja a Observação 14.1 abaixo.

Teorema 14.2 (Regra da cadeia) Suponha que (V, k · kV ), (W, k · kW ) e (Z, k · kZ ) são espaços vetoriais
normados. Suponha que UV ⊂ V e UW ⊂ W são abertos, que f : UV → UW e g : UW → Z. Fixos
x ∈ UV e y = f (x) ∈ UW , suponha que as derivadas de Fréchet Df (x) e Dg(y) existem. Então a derivada
de g ◦ f em x também existe e é dada pelo produto de transformações lineares Dg ◦ f (x) = Dg(y) Df (x).

Prova: Fixe x e y = f (x) como acima. Dado h ∈ V com x+h ∈ UV , escrevemos: hy := f (x+h)−f (x) =
f (x + h) − y. Temos:

g ◦ f (x + h) − g ◦ f (x) = g(y + hy ) − g(y) = Dg(y) hy + Ry (hy ),

150
com Ry o termo de resto esperado. Do mesmo modo,

hy = Df (x) h + rx (h).

Concluı́mos que:

g ◦ f (x + h) − g ◦ f (x) = Dg(y) Df (x) h + Ry (hy ) + Dg(y) rx (h).

Esta fórmula deixa clara a nossa missão: queremos provar que o termo Ry (hy ) + rx (h) se comporta como
esperamos de um resto. Ou seja, queremos que
kRy (hy ) + Dg(y) rx (h)kZ
Objetivo final: → 0 quando h → 0.
khkX
Vejamos como provar isso. O primeiro passo é quebrar a expressão em duas
kRy (hy ) + Dg(y) rx (h)kZ kRy (hy )kZ kDg(y) rx (h)kZ
≤ +
khkX khkV khkV
e controlar o segundo termo. De fato, como Dg(y) é uma transformação linear limitada,
kDg(y) rx (h)kZ krx (h)kW h→0 krx (h)kW h→0
≤ kDg(y)kV →W → 0 porque → 0.
khkV khkV khkV
Ainda nos falta mostrar que kRy (hy )kZ /khkX também converge a 0. Tome ε > 0 qualquer. Como
kRy (a)kZ /kakV → 0 quando a → 0 sabemos que existe um δ > 0 tal que,

∀a ∈ W, kakW ≤ δ : y + a ∈ U e kRy (a)kZ ≤ ε kakW .

Por outro lado,


khy kW kf (x + h) − f (x)kW kDf (x) hkV + krx (h)kV krx (h)kV
= ≤ ≤ kDf (x)kV →W + .
khkV khkV khkV khkV
Portanto, quando h → 0, hy → 0. Em particular, se h é pequeno o suficiente, hy ∈ BV (y, δ) e
 
kRy (a)kZ krx (h)kV
≤ ε kDf (x)kV →W + .
khkV khkV
Deduzimos que
kRy (a)kZ
lim sup ≤ ε (kDf (x)kV →W ) .
h→0 khkV
Como ε > 0 é arbitrário, o teorema segue. 2

Observação 14.1 É instrutivo ver em um exemplo de que o resultado acima falha quando usamos derivadas
direcionais ao invés das de Fréchet. Considere a função f ◦ a do Exemplo 14.1 acima. Veja que a, além de
contı́nua, é diferenciável. Além disso, f tem derivadas direcionais ∂v f (x) para todos x, v ∈ R2 . Apesar
disso, a função f ◦ a não é diferenciável em 0R2 ; de fato, ela não é sequer contı́nua. Isto tem a ver com os
comentários depois do Exemplo 14.1: as derivadas direcionais não se comportam bem quando calcularmos
f ao longo de certas curvas indo para 0R2 . Já Fréchet não sofre deste problema, o que foi importante na
prova acima porque hy é uma função não-linear de h.

151
14.3.2 A desigualdade do valor médio
Acima vimos que a regra da cadeia pode ser estendida à derivada de Fréchet. Nesta seção veremos que o
Teorema do Valor Médio se esten Recorde que o teorema do valor médio nos diz que, se g : [a, b] → R é
diferenciável,
g(b) − g(a) = g 0 (c) (b − a)
para algum c ∈ (a, b). Não é difı́cil generalizar esta desigualdade para funções diferenciáveis f : U → R,
com U ⊂ V convexo, mas em geral ela não vale para uma f : U → W com W arbitrário. [Inserir exemplo!]
O que sim vale é a desigualdade a seguir. Recorde que, dados dois pontos x, y num mesmo espaço
vetorial V , [x, y] denota o segmento de reta entre x e y, isto é:

[x, y] := {ty + (1 − t)x : t ∈ [0, 1].}

Teorema 14.3 (Desigualdade do valor médio) Considere f : U → W com U ⊂ V aberto. Considere


x, y ∈ U e suponha que o segmento de reta [x, y] ⊂ U . Defina M := supa∈[x,y] kDf (a)kV →W . Então
kf (x) − f (y)kW ≤ M kx − ykV .

Prova: Considere m : [0, 1] → W definida por

m(t) := f ((1 − t) x + t y) (t ∈ [0, 1]).

Veja que m está bem definida porque [x, y] ⊂ U . Nosso objetivo é provar km(1) − m(0)kW ≤ M kx − ykV
ou, de forma equivalente, mostrar que, dado M 0 > M , vale km(1) − m(0)kW ≤ M 0 kx − ykV .
Para isso, definimos o conjunto

TM 0 := {t ∈ [0, 1] : km(t) − m(0)kW ≤ t M 0 ky − xkV }.

Para provar nosso resultado, precisamos mostrar que 1 ∈ TM 0 . Para isso precisaremos dos seguintes fatos.
Em primeiro lugar, m é diferenciável, logo contı́nua, uma vez que vale a regra da cadeia

Dm(t) = Df ((1 − t) x + t y) (y − x).

Isso também nos dá uma cota sobre a norma da derivada de m:

kDm(t)kW ≤ kDf ((1 − t) x + t y)kV →W ky − xkV ≤ M ky − xkV .

Agora note que, como m é diferenciável, é também contı́nua. Isso quer dizer que TM 0 é fechado; como
TM 0 ⊂ [0, 1], isto quer dizer que este conjunto é de fato compacto.
Provaremos que 1 ∈ TM 0 por contradição. Suponha que isto não vale. Neste caso o máximo de TM 0 é
algum t ∈ [0, 1). Pela diferenciabilidade de m em t, se t < t + δ < 1,

m(t + δ) − m(t) = Dm(t) δ + rt (δ)

e portanto
 
krt (δ)kW
km(t + δ) − m(t)kW ≤ kDm(t)kV δ + krt (δ)kW ≤ M ky − xkV + δ.
δ
Como o termo krt (δ)kW /δ vai a 0 com δ, podemos escolher um δ suficientemente pequeno para garantir
que
km(t + δ) − m(t)kW ≤ M 0 ky − xk δ.

152
Mas então veja que t + δ ∈ TM 0 , pois:

km(t + δ) − m(0)kW ≤ km(t + δ) − m(t)kW + km(t) − m(0)kW


(t ∈ TM 0 mais a estimativa anterior) ≤ M 0 ky − xk t + M 0 ky − xk δ
= M 0 ky − xk (t + δ).

Finalmente, lembramos que t+δ > t, t+δ ∈ TM 0 e t é o máximo de TM 0 . Como estes fatos se contradizem,
provamos que 1 ∈ TM 0 . 2
Antes de prosseguirmos, enunciamos aqui, para conveniência futura, um resultado de aproximação que
será muito útil no futuro. Grosso modo, ele diz que, se a derivada não oscila muito numa vizinhança de x,
então a aproximação de primeira ordem f (x0 ) ≈ g(x0 ) := f (x) + Df (x) (x0 − x) ao redor de x é de alta
qualidade. De fato, g aproxima f bem mesmo quando consideramos diferenças de f entre pontos próximos
de x.

Corolário 14.1 Suponha que f : U → W como acima. Dados x ∈ U e r > 0 com BV (x, r) ⊂ U , suponha
que f é diferenciável na bola BV (x, r) e que

sup kDf (x0 ) − Df (x)kV →W ≤ α.


x0 ∈BV (x,r)

Então a função g(x0 ) := f (x) + Df (x) (x0 − x) satisfaz Dg(x0 ) = Df (x) e

∀x0 , x00 ∈ BV (x, r) : kg(x00 ) − g(x0 ) − (f (x00 ) − f (x0 ))kW ≤ α kx00 − x0 kV .

Prova: Isso segue de aplicar a desigualdade do valor médio à função f (x0 ) − g(x0 ) a cada par x0 , x00 ∈
BV (x, r), notando que [x0 , x00 ] ⊂ BV (x, r) por convexidade e que

sup kD(f − g)(x0 )kV →W = sup kDf (x0 ) − Df (x)kV →W ≤ α.


x0 ∈BV (x,r) x0 ∈BV (x,r)

Exercı́cio 14.5 Obtenha uma prova mais simples da Desigualdade do Valor Médio no caso em que W = Rk
com uma norma | · |p e a derivada é contı́nua, mostrando que
Z 1
m (t) dt ≤ sup |m0 (t)|p ≤ M ky − xkV .
0

|m(1) − m(0)|p =
0 p t∈[0,1]

Exercı́cio 14.6 Mostre que, se W = R, então existe, sim, c ∈ [x, y] com f (y) − f (x) = ∇f (c) · (y − x).
(Dica: considere a função g(t) := f ((1 − t) x + ty), t ∈ [0, 1].)

14.4 Derivadas mais complicadas de se calcular


Encerramos este primeiro capı́tulo sobre a derivada de Fréchet calculando derivadas de funções que não
são tão simples assim. O primeiro exemplo corresponde a funções de operadores lineares e o segundo tem
relação com o problema de existência e unicidade para EDOs. O que estes exemplos têm em comum é que
calcular as derivadas parciais não parece ser mais simples que obter diretamente a derivada de Fréchet.

153
14.4.1 Exemplos no espaço de operadores lineares
Nesta seção, estaremos interessados no caso em que V = W = L(X, X) para algum espaço vetorial
normado (X, k·kX ). Escreveremos L(X) := L(X, X) e chamaremos as transformações lineares T ∈ L(X)
de operadores lineares sobre X.
As operações que estamos interessados em derivar são as seguintes:
• Dado k ∈ N, a aplicação que leva T ∈ L(X) em T k .
• A aplicação que leva um T ∈ L(X) em T −1 ∈ L(X) (no caso de T ser uma bijeção e T −1 ser
limitado).
Mostraremos “no braço” que estas funções são diferenciáveis. Observe que isto envolve encontrar ope-
radores lineares A ∈ L(L(X), L(X))! Isso pode parecer estranho, mas veremos que não há nada muito
sério quando consideramos os casos concretos.
Antes de começarmos a prova, recordamos que já provamos que kT SkX→X ≤ kT kX→X kSkX→X
para qualquer k ∈ N.

Potências de operadores
Comecemos pela derivada de fk (T ) := T k .
Exemplo 14.2 Definimos fk (T ) := T k (T ∈ L(X)). Qual é sua derivada?
De fato, teremos interesse em calcular a derivada e estimar bem o termo de resto. A maior dificuldade
desta prova é que, ao contrário do caso em que T, H ∈ R a fórmular para (T + H)k é bastante complicada
por causa da não-comutatividade do produto de operadores. Daremos um argumento que passará ao largo
dessa dificuldade.
Considere o produto
(T + H)k := (T + H) (T + H) . . . (T + H) .
| {z }
k vezes

Para calcular o produto, devemos usar a propriedade distributiva. Ela diz que (T + H)k é a soma de todos
os 2k produtos de sequências do tipo T HT T HHH . . . HT H com exatamente k termos.
Agruparemos estas sequências pelo número de vezes em que H aparece. Primeiramente, há exatamente
uma sequência em que H aparece 0 vezes: T T T . . . T = T k .
Considere agora k sequências em que H aparece exatamente 1 vez. Elas são da forma
T
| .{z
. . T} H T
| T {z
. . . T}
j termos j − k − 1 termos

com 0 ≤ j ≤ k − 1. Sua contribuição conjunta é


k−1
X
Ak (T ) H := T j H T k−1−j .
j=0

Note que, para cada T ∈ L(X), Ak (T ) : L(X) → L(X) é um operador linear. Ele é limitado,porque, pela
submultiplicatividade da norma de operador,
k−1
kT kjX→X kHkX→X kT kk−1−j
X
k−1
kAk (T ) HkX→X ≤ X→X = k kT kX→X kHkX→X . (14.1)
j=0

154
Portanto, Ak (T ) ∈ L(L(X), L(X)).
Esta última estimativa tem algo de mágico. Tı́nhamos uma fórmula complicada para Ak (T ) H. Quando
passamos a norma de operador, ela de repente ficou tão simples quanto o termo correspondente do teorema
binomial usual. Para terminarmos a prova, vamos usar um argumento parecido para estimar os demais
termos de (T + H)k , observando eles têm de ser o resto. E porque sabemos disso? Ora estes termos que
restam certamente não serão lineares em H, enquanto que o termo correspondendo à derivada tem de ser
linear!
Façamos então uma estimativa de
k
X
rT (H) := (termos do produto com n ocorrências de H) = (T + H)k − T k − Ak (T ) H,
n=2

notando que, pela subaditividade da norma,


k
X
krT (H)kX→X ≤ k(termos do produto com n ocorrências de H)kX→X ,
n=2

Foquemo-nos em um dos termos da soma. Há nk escolhas de sequências de T s e Hs com exatamente




n termos iguais a H. Por sua vez, a norma de um produto de T s e Hs deste tipo é limitada pela submulti-
plicatividade da norma.
kT . . . T H T . . . T H . . . kX→X ≤ kHknX→X kT kk−n
X→X .

Concluı́mos que
 
k
k(termos do produto com n ocorrências de H)kX→X ≤ kHknX→X kT kk−n
X→X .
n
Somando estas cotas, obtemos:
k  
X k
krT (H)kX→X ≤ kHknX→X kT kk−n
X→X
n
n=2

e a fórmula binomial nos dá uma expressão mais compacta:


k−1
krT (H)kX→X ≤ (kT kX→X + kHkX→X )k − kT kkX→X − k kT kX→X kHkX→X .
chame t := kT kX→X e h := kHkX→X . Observe que:
     
k k(k − 1) k − 2 k (k − 1) k − 2
∀k ∈ N\{0, 1}∀n ∈ {2, . . . , k} : = ≤ ,
n n(n − 1) n − 2 2 n−2
logo
k
k(k − 1) k − 2 k−n n k (k − 1) h2
X  
(t + h)k − tk − ktk−1 = t h ≤ (t + h)k−2 .
n(n − 1) n − 2 2
n=2
Portanto,
k(k − 1)
krT (H)kX→X ≤ (t + h)k−2 h2 .
2
Isto finalmente nos permite concluir que krT (H)k/kHk → 0 quando H → 0. De fato, temos o seguinte
resultado.

155
Teorema 14.4 A aplicação fk (T ) := T k (T ∈ L(X)) é diferenciável. Sua derivada é dada pelo operador
limitado Ak (T ) dado acima. O termo de resto:
rT (H) := (T + H)k − T k − Ak (T ) H
satisfaz:
k (k − 1)
krT (H)kX→X ≤ (kT kX→X + kHkX→X )k−2 kHk2X→X .
2

Inversas de operadores
Temos agora um exemplo para tratar em que teremos muito mais trabalho.
Chame de U ⊂ L(X) o conjunto de todos os T que têm inversa T −1 ∈ L(H). Ou seja, T ∈ L(X) se T
é limitado, é uma bijeção de X em X e tem uma inversa satisfazendo T −1 T = T T −1 = IX que também é
um operador linear limitado. Nosso objetivo será mostrar o seguinte resultado.
Teorema 14.5 U é aberto de L(X). A função Inv : U → L(X) que leva T ∈ U em T −1 é diferenciável e
DInv(T ) H = −T −1 HT −1 .
Vamos começar com uma observação simples, que deixamos como exercı́cio.
Exercı́cio 14.7 Se A, B ∈ U são operadores inversı́veis, então BA também o é e (BA)−1 = A−1 B −1 .
Nosso próximo passo é estudar Inv numa vizinhança do operador identidade I.
Lema 14.2 A bola aberta BL(X) (I, 1) está contida em U. Além disso
X
∀A = I + H ∈ BL(X) (I, 1) : A−1 = Inv(I + H) = (−H)n .
n∈N

Prova: Já P vetorial normado completo V , se uma sequência de vetores {vn }n∈N
Pprovamos que, em um espaço
satisfaz n∈N kvn kV < +∞, então n∈N vn converge. Aplicaremos isso a V = L(X) com vn = H n . No
primeiro caso, observamos que
kvn kV = k(−H)n kX→X ≤ kHknL(X) com kHkX→X < 1,
n
P
portanto n∈N (−H) converge. Como a operação de tomar produtos em L(X) é contı́nua (exercı́cio),
temos
X n
X
n
(I + H) (−H) = (I + H) lim (−H)j
n→+∞
n∈N j=0
n
X
= lim (I + H) (−H)j
n→+∞
j=0
Xn
= lim [(−H)j + (−1)j H j+1 ]
n→+∞
j=0
n
X
= lim [(−H)j − (−H)j+1 ]
n→+∞
j=0

(soma telescópica) = lim (I − H n+1 )


n→+∞
(kH n+1 kX→X → 0) = I.

156
Do mesmo modo, ( n∈N (−H)n ) (I + H) = I. 2
P

Provemos agora o teorema.


Prova: Considere A ∈ U. Tome r = rA := 1/kA−1 kX→X . Veja que, se H ∈ L(X) e kHkX→X < r, vale
kA−1 HkX→X < 1. Portanto, o lema acima garante que
X
(I + A−1 H)−1 = (−A−1 H)j .
n∈N

Pelo exercı́cio anterior, descobrimos que


X
(A + H)−1 = [A (I + A−1 H)]−1 = (−A−1 H)j A−1 .
n∈N

Em particular, provamos que, se A ∈ U, A + H ∈ U sempre que kHkX→X < rA . Portanto, U é aberto.


Para calcular a derivada, voltamos à série de potência e observamos que a aplicação H 7→ −A−1 HA−1
é linear e que X
(A + H)−1 − A−1 + A−1 H A−1 = (−A−1 H)j A−1 .
n≥2

Portanto, como kHk kA−1 k < 1,


X kHk2 kA−1 k3
k(A + H)−1 − A−1 + A−1 H A−1 kX→X ≤ kA−1 kj+1 kHkj = .
1 − kHk kA−1 k
n≥2

Com esta expressão é fácil concluir que

k(A + H)−1 − A−1 + A−1 H A−1 kX→X kHk kA−1 k3


≤ →0
kHk 1 − kHk kA−1 k

quando H → 0. 2

14.4.2 Um exemplo sobre as funções contı́nuas


Dado um intervalo compacto [a, b] ⊂ R, defina o espaço usual C([a, b], Rd ). A função I que associa a cada
f ∈ C sua integral indefinida é um operador linear, portanto:
Z ·
DI(f ) h = I h = h(t) dt.
a

Consideraremos agora um tipo de função sobre C(I, Rd ) relacionado ao problema de resolver EDOs.
Dado U ⊂ Rd+1 aberto, considere o subconjunto U ⊂ C(I, Rd ) de funções com f (I) ⊂ U .

Exercı́cio 14.8 Prove que U é aberto de C(I, Rd ). (Dica: mostre primeiramente que

inf dRd (f (t), U c ) > 0.


t∈[a,b]

Se você não conseguir, tudo bem: há uma prova deste fato implı́cita na proposição abaixo!)

157
Considere uma função contı́nua Ψ : I × U → Rd . Dados x0 ∈ Rd , t0 ∈ I, considere ainda a operação
TΨ : U → C(I, R) que leva f numa nova função T (f ) com
Z t
T (f )(t) := x0 + Ψ(s, f (s)) ds.
t0

Veja que este operador está bem definido porque Ψ(t, f (t)) é contı́nua em t sempre que f ∈ U. Como
sabemos, a importância deste operador reside no fato que os seus pontos fixos (se existem) são precisamente
as soluções de ξ 0 (t) = Ψ(t, ξ(t)) com ξ(t0 ) = x0 .
Quando estudamos o problema de existência para EDOs, vimos que T : U → C(I, R) é contı́nua.
Veremos agora que, sob hipóteses adicionais, esta aplicação é diferenciável e calcularemos a sua derivada.

Proposição 14.4 Dados (t, x) ∈ I × U , defina Dx Ψ(t, x) como a derivada da função em x ∈ U , com t
mantido fixo. Suponha que esta derivada existe para todo par (t, x) ∈ I × U e que, além disso, ela depende
continuamente de (t, x). Então T é diferenciável em qualquer f ∈ U. Além disso, se v ∈ C(I, Rd ),

DT (f ) ∈ L(C(I, R))

existe e é igual ao operador linear que leva v ∈ C(I, R) na função


Z t
(DT (f ) v)(t) := Dx Ψ(s, f (s)) v(s) ds (t ∈ I).
t0

Prova: Veja que T (f ) é a soma


R · de uma função constante igual a x0 com I ◦ F (f ), onde I ∈ L(C(I, Rd ))
d
leva cada f em I(f )(·) = t0 f (s) ds e F : U → C(I, R ) leva f em Ψ(·, f (·)). Usando os resultados da
seção 14.2.2, descobrimos que, se provarmos que DF (f ) existe e satisfaz:

∀v ∈ C(I, Rd ), ∀t ∈ I : (DF (f ) v)(t) = Dx Ψ(t, f (t)),

então DT = I DF . Além disso, como I é linear e limitado (logo contı́nuo), a continuidade de DT será
consequência da continuidade de DF .
Mostremos, então, que F é diferenciável com a derivada que dizemos que ela tem. Fixo um f ∈ U,
diferenciaremos F nos pontos ao redor de f , mostrando que esta derivada é contı́nua.
Em princı́pio podemos pensar num esquema simples para a prova da existência da derivada. Nosso
objetivo é provar que

kF (f + h) − F (f ) − Dx Ψ(·, f (·)) h(·)k∞


(queremos provar) → 0.
khk∞

O que sabemos, em princı́pio, é que Ψ é diferenciável em x, portanto podemos escrever:

F (f + h)(t) − F (f (t)) = Ψ(t, f (t) + h(t)) − Ψ(t, f (t)) = Dx Ψ(t, f (t)) h(t) + r(t,f (t)) (h(t)).

Para cada t ∈ I, poderı́amos mostrar algo na linha de

|r(t,f (t)) (h(t))|2 |r(t,f (t)) (h(t))|2


≤ → 0.
khk∞ |h(t)|2

158
No entanto, isso não resolve nosso problema, porque precisamos mostrar uma convergência uniforme. Ou
seja, a definição da derivada para funções F : U → C(I, Rd ) nos obriga a mostrar que o termo de resto
satisfaz
supt∈I |r(t,f (t)) (h(t))|2 |r(t,f (t)) (h(t))|2
≤ →0
khk∞ |h(t)|2
e isso é um pouco mais complicado.
Para vencermos esta dificuldade, será importante usar a continuidade uniforme de Dx Ψ. Para isso,
teremos de nos restringir a um compacto K ⊂ I × U . Que compacto seria este? Ele deve ser grande a
ponto de podemos “variar” entre f e f + h lá dentro. Por esta razão, queremos (t, f (t) + h(t)) ∈ K para
cada t ∈ I e h próxima de 0. Garantiremos que isso vale tomando uma “faixa” (se d = 1) ou “cilindro” (se
d > 1) ao redor do gráfico de f . Ou seja, queremos um conjunto da forma

K := {(t, x) : t ∈ [a, b], |x − f (t)| ≤ R}. (14.2)

A questão, então, é se podemos escolher um R > 0 de modo que K ⊂ U . Para concluirmos que “sim,
podemos”, devemos observar que f (t) ∈ U para cada t ∈ I = [a, b]. A aplicação

t ∈ I 7→ dRd (f (t), U c )

é contı́nua (é a composição de funções contı́nuas) e positiva (U c é fechado, logo dRd (x, U c ) = 0 se e
somente se x ∈ U c ). Combinando estes fatos com a compacidade de I, deduzimos que

R0 := inf dRd (f (t), U c ) > 0.


t∈[a,b]

Portanto, se 0 < R < R0 , garantimos que o conjunto K em (14.2) realmente está contido em U . Note que,
se h ∈ C([a, b], V ) e khk∞ ≤ R, então (t, f (t) + h(t)) ∈ K para cada t, portanto f + h ∈ U.
(Note que acabamos de provar “sem querer” que há uma bola BC(I,Rd ) [f, R] ⊂ U. Notando que pode-
mos achar um R > 0 para cada f ∈ U, provamos que U é aberto!)
Tendo o compacto K, queremos usar a continuidade uniforme de Dx Ψ |K . Tome um (t, a), (t, b) ∈ K
com |b − a| ≤ δ. Pelo corolário 14.1 acima (aplicado com x0 = a e x00 = a + b),

∀(t, a), (t, a + b) ∈ K : |Ψ(t, a + b) − Ψ(t, a) − Dx Ψ(t, a) b|2 ≤ c(δ) |b|2 .

onde
c(δ) := sup |Dx Ψ(t, a) − Dx Ψ(t, b)|.
(t,a),(t0 ,b)∈K : |(t0 ,b)−(t,a)|2 ≤δ

Como Dx Ψ é contı́nua sobre I × U , e portanto é uniformemente contı́nua sobre o compacto K, vemos que
c(δ) → 0 quando δ → 0. Note que isto quer dizer que
|Ψ(t, a + b) − Ψ(t, a) − Dx Ψ(t, a) b|2
sup ≤ c(δ) → 0 quando δ → 0.
(t,a),(t,a+b)∈K : 0<|b|2 ≤δ |b|2

De posse dessa desigualdade, não é difı́cil completar a prova. Considere f e f + h com khk∞ ≤ R, de
modo que (t, f (t)) ∈ K e (t, f (t) + h(t)) ∈ K para cada t ∈ I. Como |h(t)|2 ≤ khk∞ para cada t, temos

∀t ∈ I : |Ψ(t, f (t) + h(t)) − Ψ(t, f (t)) − Dx Ψ(t, f (t)) h(t)|2 ≤ c(khk∞ ) khk∞ ,

ou
kF (f + h) − F (f ) − Dx Ψ(·, f (·)) h(·)k∞ ≤ c(khk∞ ) khk∞ .

159
Portanto,
kF (f + h) − F (f ) − Dx Ψ(·, f (·)) h(·)k∞
≤ c(khk∞ ) → 0 quando h → 0.
khk∞
Isto demonstra que a derivada DF (f ) existe e é igual ao que dissemos que ela era.
Para terminar, observamos que esta derivada é contı́nua: se {fn }n∈N ⊂ C(I, Rd ) e fn → f , temos
(t, fn (t)) ∈ K para todo t e todo n grande, e aı́ vemos que

kDF (fn ) − DF (f )kL(C,C) = sup k(Dx Ψ(·, fn (·)) − Dx (Ψ(·, f (·)))) h(·)k∞
h∈C, khk∞ ≤1
= sup k(Dx Ψ(t, fn (t)) − Dx Ψ(t, f (t))) h(t)kRd
|h(t)|2 ≤1
t∈I
≤ sup kDx Ψ(t, fn (t)) − Dx Ψ(·, f (·))kRd →Rd → 0
t∈I

por continuidade uniforme de Dx Ψ em K. 2

Observação 14.2 O mesmo argumento que demos acima prova algo a mais. Considere um compacto K ⊂
I × U ⊂ Rd+1 . Em primeiro lugar, vemos que existe uma função não-decrescente c = c(δ) ≥ 0 com
limδ→0 c(δ) = 0 tal que

∀(t, a), (t, b) ∈ K : |Ψ(t, a + δ) − Ψ(t, a) − Dx Ψ(t, a) (b − a)|2 ≤ c(|b − a|2 ) |b − a|2 .

Agora chame de
K := {f ∈ C(I, Rd ) : ∀t ∈ I, (t, f (t)) ∈ K}.
Neste caso, temos a estimativa:

∀t ∈ I, ∀f, f + h ∈ K : |Ψ(t, f (t) + h(t)) − Ψ(t, f (t)) − Dx Ψ(t, f (t)) h(t)|2 ≤ c(khk∞ ) khk∞ ,

o que se traduz em

∀f, f + h ∈ K : kF (f + h) − F (f ) − DF (f ) h|2 ≤ c(khk∞ ) khk∞ ,

e
∀f, f + h ∈ K : kT (f + h) − T (f ) − DT (f ) h|2 ≤ (b − a) c(khk∞ ) khk∞ ,
já que T = I ◦ F , DT = I ◦ DF e a norma de operador de I é ≤ (b − a).

14.5 Mais exercı́cios


Exercı́cio 14.9 Neste problema, (X, k · kX ) é um espaço vetorial normado completo e L(X) é o espaço
dos operadores lineares limitados de X em X. Considerand uma sequência {an }n∈N , queremos encontrar
condições sob as quais a série de potência
X
f (T ) := an T n
n∈N

define uma função diferenciável sobre uma vizinhança de 0 em L(X). Como no caso de séries de potência
reais, definimos o raio de convergência:

R := (lim sup |an |1/n )−1 .


n∈N

160
1. Mostre que a série definindo f converge se kT kX→X < R.

2. Lembre da definição de Ak acima e mostre que a expressão


X
Df (T ) H := an An (T ) H (H ∈ L(X))
n≥1

define um operador linear sobre L(X), que é a derivada de Fréchet de f em T .

161
162
Capı́tulo 15

Derivadas de ordem superior

No capı́tulo anterior, tratamos da noção de derivada devida a Fréchet, estudamos suas propriedades e enten-
demos alguns exemplos. Nosso trabalho agora será estender este conceito para derivadas de ordem k > 1.
Isso nos permitirá escrever uma versão da fórmula de Taylor neste contexto geral.

15.1 Já sabemos definir, mas...


Considere espaços vetoriais normados (V, k · kV ), (W, k · kW ). Vimos acima que, quando U ⊂ V é aberto,
f : U → W é dada e x ∈ U , a derivada de f em x, se existir, é o operador linear limitado Df (x) ∈ L(V, W )
tal que
kf (x + h) − f (x) − Df (x) hkW
lim = 0.
h→0 khkV
Suponhamos agora que Df (x) está definida para todo x, de modo que Df : U → L(V, W ). (L(V, W ), k ·
kV →W ) também é um espaço vetorial normado.
No cálculo em uma dimensão, a segunda derivada é tão somente a “derivada da derivada”. Isso con-
tinua a fazer sentido aqui e podemos dizer que a segunda derivada de f em x, se existir, tem de ser uma
transformação linear limitada D2 f (x) ∈ L(V, L(V, W )) tal que:

kDf (x + h) − Df (x) − D2 f (x) hkV →W


lim = 0.
h→0 khkV

Do mesmo modo, se D2 f : U → L(V, W ) está definida em todo U , a terceira derivada em x, se existir,


deve ser uma transformação linear limitada D3 f (x) ∈ L(V L(V, L(V, W ))) tal que

kD2 f (x + h) − D2 f (x) − D3 f (x) hkV →L(V,W )


lim = 0.
h→0 khkV

Poderı́amos continuar com estas fórmulas ligeiramente estranhas, mas antes devemos parar e pensar:

o que está acontecendo aqui?

Nada do que fizemos aqui está errado, mas a derivada que definimos não se presta a uma compreensão
muito intuitiva. Vamos pensar atentamente no que ela quer dizer para compreendê-la um pouco melhor.

163
15.2 Segunda derivada, transformações bilineares e simetria
A principal mensagem desta seção é que a segunda derivada pode ser pensada como uma transformação
bilinear limitada.

Definição 15.1 (Transformação bilinear) Uma transformação B : V 2 → W é dita bilinear se é linear


nos seus dois argumentos. Isto é:

1. dados v1 , v2 , v 0 ∈ V e λ ∈ R, B(λv1 + v2 , v 0 ) = λ B(v1 , v 0 ) + B(v2 , v 0 );

2. dados v, v10 , v20 ∈ V e λ0 ∈ R, B(v, λ0 v10 + v20 ) = λ0 B(v, v10 ) + B(v, v20 ).

Dizemos que uma transformação bilinear B : V 2 → W é limitada se

kB(v, v 0 )kW
kBkV 2 →W := sup < +∞.
(v,v 0 )∈(V \{0V })2 kvkV kv 0 kV

Chamamos de L2 (V, W ) o conjunto das transformações bilineares limitadas.

Na próxima subseção, mostraremos que L(V, L(V, W )) – o espaço onde “mora” a segunda derivada – é
isomorfo ao espaço de transformações bilineares limitadas.

15.2.1 Relação de L(V, L(V, W )) com transformações bilineares


Os elementos de L(V, (L(V, W )) são transformações lineares T : V → L(V, W ). Uma tal T associa a cada
v ∈ V um T (v) ∈ L(V, W ) de forma linear, de modo que

∀v1 , v2 ∈ V ∀λ ∈ R : T (λ v1 + v2 ) = λ T (v1 ) + T (v2 ).

Quando fixamos um v ∈ V , T (v), pertence a L(V, W ). Portanto, T (v) : V → W associa a cada v 0 ∈ V


um elemento T (v) v 0 ∈ W de forma linear. Dito de outro modo:

∀v ∈ V ∀v10 , v20 ∈ V ∀λ0 ∈ R : T (v)(λ0 v10 + v20 ) = λ T (v) v10 + T (v) v20 .

O resumo disto tudo é que a cada T ∈ L(V, L(V, W )), podemos associar uma função:

BT : V2 → W
(v, v ) 7→ T (v) v 0 .
0

O que esta função tem de especial é que ela é bilinear.


a transformação linear T : V → L(V, W ) podemos associar uma transformação bilinear BT : V 2 →
W . De fato, não é difı́cil concluir o seguinte.

Exercı́cio 15.1 A aplicação que leva T em BT é uma bijeção linear entre o conjunto das transformações
lineares
T : V → {transformações lineares de V em W }
e o conjunto das transformações bilineares B : V 2 → W . Dica: observe que a inversa de “T 7→ BT ” leva
uma transformação bilinear B : V 2 → W em

TB : v ∈ V 7→ B(v, ·).

164
Há no entanto um fato que ainda não consideramos: T é uma transformação linear limitada entre os
espaços normados (V, k · kV ) e (L(V, W ), k · kV →W ). Mais concretamente: recorde que, se (Z, k · kZ ) é
espaço normado, a norma k · kV →Z a norma V → Z sobre L(V, Z) é dada por:

kSvkZ
kSkV →Z = sup (S ∈ L(V, Z)).
v∈V \{0V } kvkV

Se seguimos este raciocı́nio, descobrimos que a norma adequada sobre L(V, L(V, W )) é:
!
kT (v)kV →W kT (v)v 0 kW
kT kV →L(V,W ) = sup = sup sup 0
(T ∈ L(V, L(V, W ))).
v∈V \{0V } kvkV v∈V \{0V } v 0 ∈V \{0V } kvkV kv kV

Vamos encontrar uma expressão mais simples para esta norma.

Proposição 15.1 Para qualquer transformação linear T : V → L(V, W ) (não necessariamente limitada),

kBT (v, v 0 )kV →W


kT kV →L(V,W ) = sup ;
(v,v 0 )∈(V \{0V })2 kvkV kv 0 kV

Ou seja, na definição acima, não importa se tomamos o supremo primeiro em v ou em v 0 . (Nos dois casos
admitimos a hipótese de que kT kV →L(V,W ) pode ser infinito.)

Prova: Defina
kBT (v, v 0 )kV →W
a(v, v 0 ) := .
kvkV kv 0 kV
Nosso objetivo é provar que

sup sup a(v, v 0 ) = sup sup a(v, v 0 ) = sup a(v, v 0 ).


v∈V \{0V } v 0 ∈V \{0V } v 0 ∈V \{0V } v∈V \{0V } (v,v 0 )∈S×S 0

De fato, o que vamos provar o seguinte resultado.

Lema 15.1 Dada qualquer função de duas variáveis a : S × S 0 → [0, +∞) (onde S, S 0 6= ∅
são arbitrários), temos
   
0 0
sup sup a(v, v ) = sup sup a(v, v ) = sup a(v, v 0 ).
v∈S v 0 ∈S 0 v 0 ∈S 0 v∈S (v,v 0 )∈S×S 0

(Admitimos que os três supremos podem ser infinitos.)

Prova: Uma maneira de provar que x, y, z ∈ [0, +∞] são iguais é mostrar que x ≤ min{y, z},
y ≤ min{x, z} e z ≤ min{x, y}. Usaremos esta estratégia na prova da igualdade dos três
supremos. Mostraremos primeiramente que:

sup sup a(v, v 0 ) ≤ min{ sup [sup a(v, v 0 )], sup a(v, v 0 )}.
v∈S v 0 ∈S 0 v 0 ∈S 0 v∈S (v,v 0 )∈S×S 0

165
Tome M ∈ R com M < supv∈S [supv0 ∈S 0 a(v, v 0 )]. Pelas propriedades do supremo, podemos
encontrar vM ∈ S com
sup a(vM , v 0 ) > M.
v 0 ∈V \{0V }
0 ∈ S0
Fixado este vM , podemos usar novamente as propriedades do supremo para achar um vM
com
0
a(vM , vM ) > M.
Mas agora note que
0 0
a(vM , vM ) ≤ sup a(v, vM ) ≤ sup [sup a(v, v 0 )] e a(vM , vM
0
)≤ sup a(v, v 0 ).
v∈S v 0 ∈S 0 v∈S (v,v 0 )∈S×S 0

Ou seja, obtemos
M < min{ sup [sup a(v, v 0 )], sup a(v, v 0 )}.
v 0 ∈S 0 v∈S (v,v 0 )∈S×S 0

Como M < supv∈S [supv0 ∈S 0 a(v, v 0 )] é arbitrário, podemos fazer M % supv∈S [supv0 ∈S 0 a(v, v 0 )]
e obter
sup[ sup a(v, v 0 )] ≤ min{ sup [sup a(v, v 0 )], sup a(v, v 0 )}.
v∈S v 0 ∈S 0 v 0 ∈S 0 v∈S (v,v 0 )∈S×S 0

Veja que, trocando os papeis de S e S 0 , também podemos obter:


sup [sup a(v, v 0 )] ≤ min{sup[ sup a(v, v 0 )], sup a(v, v 0 )}.
v 0 ∈S v∈S v∈S v 0 ∈S 0 (v,v 0 )∈S×S 0

Falta agora provar que


sup a(v, v 0 ) ≤ min{sup[ sup a(v, v 0 )], sup [sup a(v, v 0 )].}
(v,v 0 )∈S×S 0 v∈S v 0 ∈S 0 v 0 ∈S v∈S

Para isso, tome novamente um N < sup(v,v0 )∈S×S 0 a(v, v 0 ). Pelas propriedades do supremo,
0 ) ∈ S × S 0 com N < a(v , v 0 ). Mas observe que, neste caso,
tem de existir um par (vN , vN N N
0 0
N < a(vN , vN ) ≤ sup a(v, vN ) ≤ sup sup a(v, v 0 ).
v∈S v 0 ∈S 0 v∈S

Do mesmo modo, N < supv∈S supv0 ∈S 0 a(v, v 0 ). Tomando N % sup(v,v0 )∈S×S 0 a(v, v 0 ),
obtemos a desigualdade desejada. 2

2
Podemos agora concluir esta subseção com um exercı́cio e um teorema.
Exercı́cio 15.2 Mostre que L2 (V, W ) é um espaço vetorial e que k·kV 2 →W é uma norma sobre este espaço.
Teorema 15.1 A aplicação que associa cada T ∈ L(V, L(V, W )) a BT ∈ L2 (V, W ) é um isomorfismo de
espaços lineares normados. Isto é, “T 7→ BT ”é uma bijeção linear e
∀T ∈ L(V, L(V, W )) : kT kV 7→L(V,W ) = kBT kV 2 →W .
Prova: Este teorema basicamente já foi provado acima. Falta apenas juntar os pedaços. O último exercı́cio
mostra que (L2 (V, W ), k·kV 2 →W ) é um espaço vetorial normado. O exercı́cio 15.1 nos diz que “T 7→ BT ” é
bijeção linear (e portanto tem inversa linear). Finalmente, a proposição 15.1 garante que esta transformação
preserva normas. 2

166
15.2.2 A segunda derivada é bilinear
Recorde que estávamos considerando a segunda derivada de f : U ⊂ V → W . Tudo o que acabamos de
ver nos diz que temos duas formas completamente equivalentes de pensar na segunda derivada.

• D2 f (x) é uma transformação linear limitada de V em L(V, W );

• D2 f (x) é uma transformação bilinear de V 2 em W .

Isto nos permite por exemplo escrever (com algum abuso de notação) que

D2 f (x)(h1 ) h2 = D2 f (x) (h1 , h2 ).

De fato, no lado esquerdo da expressão pensamos em D2 f (x) ∈ L(V, L(V, W )). Aplicamos este objeto
a h1 e obtemos D2 f (x)(h1 ) ∈ L(V, W ), aı́ tomamos o resultado, que é uma transformação linear, e o
aplicamos a h1 . Do lado direito, D2 f (x) é simplesmente vista como transformação bilinear. Um fato que
será importante a seguir é que toda forma bilinear limitada tem uma derivada. Para isso, é bom observar que
o conjunto
V 2 := {(v1 , v2 ) : v1 , v2 ∈ V }
tem uma estrutura natural de espaço vetorial (com operações coordenada a coordenada) e pode ser dotado
da norma
k(v1 , v2 )kV 2 = kv1 kV + kv2 kV ((v1 , v2 ) ∈ V 2 ).

Proposição 15.2 Toda B ∈ L2 (V, W ) é diferenciável e

DB(v1 , v2 ) (h1 , h2 ) = B(v1 , h2 ) + B(h1 , v2 ) ((v1 , v2 ) ∈ V 2 , (h1 , h2 ) ∈ V 2 ).

15.2.3 Simetria da segunda derivada (quando contı́nua)


Agora vamos mostrar que, sob condições de continuidade, a derivada segunda é simétrica em seus argumen-
tos. O teorema é verdade em geral, mas só iremos prová-lo no caso em que W tem dimensão finita.

Proposição 15.3 Suponha que


D2 f : U → L2 (V, W )
é contı́nua em x ∈ U . Então D2 f (x) é simétrica, isto é:

∀v, v 0 ∈ V : D2 f (x) (v, v 0 ) = D2 f (x) (v 0 , v).

Prova: Como U 3 x é aberto, podemos achar um aberto A ⊂ R2 contendo 0R2 onde a função φ : A ⊂
R2 → W abaixo está bem definida.

φ(t, s) := f (x + tv + sv 0 ) − f (x + sv 0 ) − f (x + tv) + f (x) ((t, s) ∈ R2 ).

Mostraremos que
φ(t, s)
→ D2 f (x)(v, v 0 ) quando t, s → 0.
ts
Isto nos bastará porque, trocando os papéis de v e v 0 (ou de t e s) em φ, também obtemos
φ(t, s)
→ D2 f (x)(v 0 , v) quando t, s → 0
ts

167
o que nos dá a simetria desejada pela unicidade do limite.
Considere então
φ(t, s) − tsD2 f (x) (v, v 0 ) = [f (x + θ v + sv 0 ) − f (x + θv) − θ sD2 f (x) (v, v 0 )] |θ=t
θ=0 .

Podemos cotar a norma deste termo usando a desigualdade do valor intermediário aplicada ao termo dentro
do colchete como função de t.
kφ(t, s) − tsD2 f (x) (v, v 0 )kW ≤ |t| sup kDf (x + θ v + sv 0 ) v − Df (x + θv) v − sD2 f (x) (v, v 0 )kW
0≤θ≤t

≤ tkvkV sup kDf (x + θ v + sv 0 ) − Df (x + θv) − sD2 f (x) (v 0 )kV →W .


0≤θ≤t

Observe agora que para cada θ ∈ [0, t] fixo, podemos aplicar a desigualdade do valor intermediário a
Df (x + θ v + sv 0 ) − Df (x + θv) − sD2 f (x) (v) = [Df (x + θ v + ηv 0 ) − η D2 f (x)] |η=s
η=0

como função de s, obtendo:


k[Df (x + θ v + ηv 0 ) − η D2 f (x)] |η=s
η=0 kV →W ≤ |s| sup kD2 f (x + θ v + ηv 0 )(v 0 ) − D2 f (x)(v 0 )kV →W
0≤η≤s

≤ |s| kv 0 kV sup kD2 f (x0 )(v 0 ) − D2 f (x)kV 2 →W


|x0 −x|≤|t|kvk+|s|kv 0 k

já que x0 := x + θ v + ηv 0 está sempre a distância no máximo |t|kvk + |s|kv 0 k de x para os valores de θ e η
considerados acima. Deduzimos:
kφ(t, s) − tsD2 f (x) (v, v 0 )kW ≤ |ts| kvkV kv 0 kV sup kD2 f (x0 ) − D2 f (x)kV 2 →W .
|x0 −x|≤|t|kvk+|s|kv 0 k

Dividindo por |ts| dos dois lados, obtemos:



φ(t, s) 0 0 t,s→0
2
kD2 f (x0 ) − D2 f (x)kV 2 →W → 0

ts − D f (x) (v, v ) ≤ kvkV kv kV sup

W |x0 −x|≤|t|kvk+|s|kv 0 k

porque |t|kvk + |s|kv 0 k vai a 0 e D2 f é contı́nua em x, por hipótese. 2

15.2.4 Derivadas parciais de ordem 2


Finalmente, colecionamos aqui algumas observações sobre a relação entre D2 f (x) e as derivadas parciais
de ordem 2 quando V = Rd e W = R (tudo pode ser estendido a W = Rk se trabalhamos coordenada a
coordenada).
Há uma bijeção entre formas bilineares B ∈ L2 (Rd , R) e matrizes A ∈ Rd×d . De fato, a cada B
podemos associar a matriz A de entradas Ai,j := B(ei , ej ) e aı́ a bilinearidade implica B(v, v 0 ) = v · Av 0 .
No nosso caso, queremos estudar a matriz correspondente a D2 f (x). Como esta é a derivada do gradi-
ente ∇f (x), sabemos que, se D2 f (x) existe, ela é dada pelas derivadas parciais ∂i ∂j f (x) das coordenadas
de ∇f (x). Logo, a matriz correspondente a D2 f (x) é a matriz Hessiana, das derivadas parciais de ordem
2.
Provaremos o seguinte resultado.
Teorema 15.2 D2 f : U → L2 (Rd , R) é existe e contı́nua se e somente se cada derivada parcial ∂i ∂j f :
U → R existe e é contı́nua. Neste caso de continuidade, a forma bilinear D2 f (x) é simétrica para todo
x ∈ U . Isto quer dizer que a matriz Hessiana é simétrica e vale a regra ∂i ∂j f = ∂j ∂i f .
Prova: A adicionar. 2

168
15.3 Derivadas de ordem maior que dois
Vamos agora estudar como estender a relação entre derivadas de ordem 2 e formas bilineares se estende para
derivadas de ordem superior. Em linhas gerais, provaremos o seguinte.

• As derivadas de ordem k ≥ 2 de uma função de V em W podem ser encaradas como transformações


k-lineares de V k em W .

• Sob hipóteses de continuidade, estas derivadas são simétricas em seus argumentos.

• Se V = Rd , W = R e as derivadas parciais de ordem ≤ k são contı́nuas, então f é k vezes dife-


renciável.

Como no caso de ordem 2, o primeiro passo é compreender o espaço em que “vivem” as derivadas de
ordem k ≥ 2 dada.

Definição 15.2 Dado k ≥ 1, uma função Q : V k → W é dita k-linear se vale a seguinte propriedade:
dados (v1 , . . . , vk ) ∈ V k e um ı́ndice i ∈ [k], a função Qi dada por

Qi : ṽi ∈ V 7→ Q(v1 , . . . , vi−1 , v˜i , vi+1 , . . . , vk ) ∈ W

é uma transformação linear de V em W . Dizemos que Q é limitada se

kQ(v1 , v2 , . . . , vk )kW
kQkV k →W := sup Qk < +∞.
(v1 ,...,vk )∈(V \{0V })k i=1 kvi kV

Chamamos de Lk (V, W ) o espaço de todas transformações k-lineares limitadas de V k em W .

Novamente deixamos como exercı́cio o seguinte resultado.

Exercı́cio 15.3 Lk (V, W ) é um espaço vetorial. k · kV k →W é uma norma sobre Lk (V, W ). Se W é com-
pleto, então (Lk (V, W ), k · kV k →W ) também é completo.

Nosso objetivo será pensar na k-ésima derivada de f como um operador k-linear. Começaremos por um
resultado análogo ao teorema 15.1.

Teorema 15.3 Considere números 1 ≤ s ≤ k. Associe a cada função linear T ∈ Ls (V, Lk−s (V, W )) uma
transformação k-linear QT : V k → W via a expressão:

QT (v1 , . . . , vk ) := [T (v1 , . . . , vs )] (vs+1 , . . . , vk ) ((v1 , . . . , vk ) ∈ V k ).

Então:

1. kQT kV k →W = kT kV s →Lk−s (V,W ) .

2. “T 7→ QT ” é uma transformação linear, bijetiva e que preserva normas entre os espaços normados
L(V s , Lk−s (V, W )) e Ls (V k−s , W ).

169
Prova: A prova de que QT é k-linear para qualquer T ∈ Ls (V, Lk−s (V, W )) é direta e será omitida. Para
provar a igualdade de normas, precisamos ver que a norma de T , dada por

kT (v1 , . . . , vs )kV k−s →W


kT kV s →Lk−s (V,W ) = sup
(v1 ,...,vs )∈(V \{0V })s kv1 kV . . . kvs kV
!
kT (v1 , . . . , vs ) (vs+1 , . . . , vk )kW
= sup sup ,
(v1 ,...,vs )∈(V \{0V })s (vs+1 ,...vk )∈(V \{0V })k−s kv1 kV . . . kvs kV kvs+1 kV . . . kvk kV

é igual à norma de QT , dada por

kT (v1 , . . . , vs ) (vs+1 , . . . , vk )kW


kQT kV k →W = sup .
(v1 ,...,vk )∈(V \{0V })k kv1 kV . . . kvk kV

Como V k = V s × V k−s , isso segue do lema 15.1 acima, do mesmo jeito que a proposição 15.1. 2
Tudo isto quer dizer que a derivada de ordem k pode ser pensada como uma transformação k-linear de
V k em W . Usaremos a seguinte notação abaixo.

Definição 15.3 Dados Q ∈ Lk (V, W ), 1 ≤ s ≤ k e v1 , . . . , vs ∈ V , chamamos de Q[v1 , . . . , vs ]red a


aplicação de V k−s em W que leva

Q[v1 , . . . , vs ]red (v10 , . . . , vk−s


0
) 7→ Q(v1 , . . . , vs , v10 , . . . , vk−s
0
).

É um exercı́cio simples checar que Q[v1 , . . . , vs ]red ∈ Lk−s (V, W ) e


s
Y
kQ[v1 , . . . , vs ]red kV k−s →W ≤ kQkV k →W kvi kV .
i=1

Veja que a redução Q[v1 , . . . , vs ]red pode ser encarada como uma aplicação s-linear que leva (v1 , . . . , vs ) ∈
V s em Q[v1 , . . . , vs ]red . Ou seja, temos um mapa:

Reds : Q ∈ Lk (V, W ) 7→ Q[. . . ]red ∈ Ls (V, Lk−s (V, W )).

De fato, verifica-se diretamente que esta função Reds é exatamente a transformação inversa da que leva
T ∈ Ls (V, Lk−s (V, W )) em QT ∈ Lk (V, W ).
Esta observação simples está por trás do seguinte resultado.

Proposição 15.4 Suponha que f : U → W é k vezes diferenciável. Dado 1 ≤ s ≤ k, a derivada de ordem


k − s da função Ds f : U ⊂ V 7→ Ls (V, W ), pensada como elemento de Lk−s (V, Ls (V, W )) é dada por

Dk−s (Ds f )(x) (v1 , . . . , vk−s ) = Dk f (x) [v1 , . . . , vk−s ]red .

Além disso,

Dk−1 f (x + tv1 ) − Dk−1 f (x)


 
k
D f (x) (v1 , . . . , vk ) = lim (v2 , . . . , vk ).
t→0 t

Prova: Direta a partir dos isomorfismos e observações acima. 2

170
Apenas esboçaremos a prova do seguinte fato.
Proposição 15.5 Suponha que f : U ⊂ V → W é k vezes diferenciável (com k ≥ 2) e que sua derivada
de ordem k é contı́nua em um certo x0 ∈ U . Então esta derivada Dk f (x) também é simétrica, ou seja:
∀(v1 , . . . , vk ) ∈ V k , Dk f (x) (v1 , . . . , vk ) é invariante por permutações de v1 , . . . , vk .
Prova: Provaremos isto por indução em k ≥ 2. O caso k = 2 já foi discutido acima.
Pense agora em k > 2 e suponha que a simetria já foi provada para k − 1. Observamos que o grupo
de permutações de k elementos {v1 , v2 , . . . , vk } é gerado transposição de v1 e v2 e pelas permutações de
{v2 , . . . , vk }. Portanto, basta provar que Dk f (x) (v1 , . . . , vk ) é invariante por estas operações.
Em primeiro lugar, observamos que
Dk f (x)[v1 , v2 ]red = D2 Dk−2 f (x)(v1 , v2 ),
portanto a simetria nas duas primeiras variáveis v1 e v2 segue da simetria da segunda derivada.
Ao mesmo tempo, vemos que Dk−1 f (x)(v2 , . . . , vk ) é simétrica nas k−1 variáveis. Como D Dk−1 f (x) v1 =
k
D f (x) [v1 ]red , temos
kDk−1 f (x + tv1 ) − Dk−1 f (x) − t Dk f (x) [v1 ]red kV k−1 →W
lim = 0,
t∈R,t→0 t
ou
Dk−1 f (x + tv1 ) − Dk−1 f (x)
Dk f (x) [v1 ]red = lim .
t∈R,t→0 t
Veja que esta última identidade é entre formas k − 1 lineares. Aplicando os dois lados a uma (k − 1)-tupla
(v2 , . . . , vk ) e lembrando a definição da reduzida, temos:
Dk−1 f (x + tv1 ) (v2 , . . . , vk ) − Dk−1 f (x) (v2 , . . . , vk )
(?) Dk f (x) (v1 , . . . , vk ) = lim
t→0 t
e a simetria do lado direito em v2 , . . . , vk implica que o mesmo vale para o lado esquerdo. 2

Exercı́cio 15.4 A identidade (?) usa implicitamente que se Tn → T em Lk−1 (V, W ), então Tn (v2 , . . . , vk ) →
T (v2 , . . . , vk ) para cada escolha de (v2 , . . . , vk ) ∈ V k−1 . Prove este resultado aqui.

15.4 A fórmula de Taylor geral


Nesta seção enunciaremos a fórmula de Taylor na sua versão mais geral para funções C k . Precisaremos de
um lema.
Lema 15.2
Teorema 15.4 Suponha que f : U ⊂ V → W é k vezes diferenciável, com derivadas contı́nuas, em todo
U . Dados x, x + h ∈ U com [x, x + h] ∈ U , temos:
k
X 1 j
f (x + h) = f (x) + D f (x) (h, . . . , h) +rk (h),
j! | {z }
j=1
j vezes

onde
krk (h)kW ≤ khkkV sup kDk f (a) − Dk f (x)kW .
a∈[x,x+h]

171
Prova: Considere
k
X tj j
f (x + th) − f (x) − D f (x) (h, . . . , h) (t ∈ [0, 1]).
j! | {z }
j=1
j vezes

Diferenciando em t, vemos que



k
k

X tj X tj−1
kf (x+h)−f (x)− Dj f (x) (h, . . . , h) kW ≤ sup Df (x + th) h − Dj f (x) (h, . . . , h)

j! | {z } 0≤t≤1 (j − 1)! | {z }
j=1 j=1
j vezes j vezes W

e aplicando os lemas anteriores deduzimos que




k k
X tj X tj−1
kf (x+h)−f (x)− Dj f (x) (h, . . . , h) kW ≤ khkV sup Df (x + th) − Dj−1 Df (x) (h, . . . , h)

j! | {z } 0≤t≤1 (j − 1)! | {z }
j=1 j=1
j vezes j vezes V →W

O resultado segue disto por indução em k. 2

172
Capı́tulo 16

Pontos fixos, funções inversas e funções


implı́citas

Neste capı́tulo abordaremos um teorema bem abstrato e duas consequências importantes dele para o cálculo
diferencial em espaços vetoriais. O que une estes temas é a necessidade de achar pontos em um espaço v
com uma certa propriedade desejada.

Exemplo 16.1 Imagine que f : U0 ⊂ V → V com U0 ⊂ V aberto. Na prova do Teorema da Função


Inversa, que será vista abaixo, nos depararemos com o problema de provar que, sob certas condições em
f , f (U0 ) é um conjunto aberto. Repare que este tipo de resultado é bem forte. Dada uma f bem pouco
conhecida, um x ∈ U0 e um y = f (x) ∈ V , temos que provar que existe um raio positivo δ > 0 tal que
todo ponto y 0 ∈ BV (y, δ) tem uma preimagem em U0 . Mas como podemos construir estas pré-imagens?

A mensagem deste capı́tulo é que há uma metodologia que funciona em muitos casos.

Considere um espaço métrico (X, dX ). Você precisa provar que existe um ponto x∗ ∈ X com
certas propriedades. Uma estratégia é converter este problema no de achar um ponto fixo de
uma transformação H : X → X e depois mostrar que o ponto fixo existe usando o Teorema do
Ponto Fixo de Banach.

16.1 O teorema do ponto fixo de Banach


Nesta seção daremos o enunciado e a prova deste teorema de Banach. Primeiro, algumas definições.

Definição 16.1 Dada H : X → X, um ponto fixo de H é um x∗ ∈ X com H(x∗ ) = x∗ .

Abaixo usaremos a notação

H i := H
| ◦H ◦H
{z ◦ · · · ◦ H} (i ∈ N\{0})
i vezes

com H 0 := I a função identidade sobre X.


O exercı́cio a seguir nos diz que os pontos fixos são exatamente os limites de órbitas {H i (x)}i∈N

173
Exercı́cio 16.1 Supondo que H é contı́nua e (X, dX ) é completo, mostre que x∗ é ponto fixo de H se e
somente se existe um x ∈ X com H i (x) → x∗ quando i → +∞.

Teorema 16.1 (Ponto Fixo de Banach) Suponha que (X, dX ) é um espaço métrico completo e que H :
X → X é tal que cada H i é κi -Lipschitz (i ∈ N). Suponha que
+∞
X
M := κi < +∞.
i=0

Então:

(a) H tem um único ponto fixo x∗ .

(b) H i (x) → x∗ para qualquer x ∈ X.

(c) dX (x, x∗ ) ≤ M d(x, T (x)) para qualquer x ∈ X.

O uso deste teorema será fundamental no que segue. Observamos antes da prova um caso especial
importante e dois exemplos que explicam as hipóteses do teorema.

Exercı́cio 16.2 Mostre que as hipóteses do Teorema seguem quando H é κ-Lipschitz com κ < 1, já que
neste caso podemos tomar κi = κi . Prove também que a existência e unicidade do ponto fixo valem sempre
que H é contı́nua e alguma H é κ-Lipschitz com κ < 1.

Exemplo 16.2 Note que a hipótese de que (X, dX ) é completo é fundamental. Por exemplo, considere
X = R\{0} e H(x) = x/2 (x ∈ X).

Exemplo 16.3 Neste exemplo mostramos que é possı́vel se ter X completo, H : X → X tal que

∀x, x0 ∈ X : dX (H(x), H(x0 )) < dX (x, x0 ),

mas tais que H não tem ponto fixo. Por esta razão, é importante que a constante de Lipschitz seja estrita-
mente menor do que um.
Tome X = [1, +∞) ⊂ R. Este é um conjunto fechado da reta e é, portanto, um espaço métrico completo
com a métrica induzida por R. Defina H(x) = x + x−1 (x ∈ X). Observe que:

1
0 0 0
∀x, x ∈ X : |H(x) − H(x )| = |x − x | 1 − 0 < |x − x0 |.

xx

Por outro lado, se existisse um ponto fixo x ∈ X, terı́amos x = x + x−1 , o que dá x−1 = 0, o que é
impossı́vel.

Prova: [Prova do Teorema de Ponto Fixo de Banach] Nosso primeiro passo é provar que, dado qualquer
x ∈ X, {H i (x)}i∈N converge a um x∗ ∈ X que satisfaz a desigualdade do item (c) acima.
De fato, como (X, dX ) é completo, sabemos que uma condição suficiente para uma sequência {xi }i∈N ⊂
X convergir é que
X∞
dX (xi−1 , xi ) < +∞.
i=1

174
Mais ainda, quando vale este critério, podemos usar a desigualdade triangular para obter:

X
dX (x0 , lim xi ) = lim dX (x0 , xi ) ≤ lim (dX (x0 , x1 )+dX (x1 , x2 )+· · ·+dX (xi−1 , xi )) = dX (xi−1 , xi ).
i∈N i∈N i∈N
i=1

Aplicaremos tudo isso a xi := H i (x), i ∈ N, observando que neste caso

dX (xi−1 , xi ) = dX (H i−1 (x), H i−1 (H(x))) ≤ κi−1 dX (x, H(x))

porque H i−1 é κi−1 -Lipschitz. Portanto,



X +∞
X
dX (xi−1 , xi ) ≤ κi−1 dX (x, H(x)) = M dX (x, H(x)) < +∞
i=1 i=1

e temos tanto a convergência de {H i (x)}i∈N a um x∗ quando a cota de (c) para dX (x, x∗ ). Isto conclui a
primeira parte da prova.
O restante da demonstração é basicamente uma série de observações simples. Veja que o argumento
acima garante que pontos fixos existem: afinal, qualquer x∗ = limi H i (x) é ponto fixo pelo exercı́cio 16.1.
Para provar unicidade, provaremos que quaisquer dois pontos fixos x∗ , y∗ são iguais. Primeiro notamos que,
quando x∗ e y∗ são pontos fixos, então H i (x∗ ) = x∗ e H i (y∗ ) = y∗ . Em particular, como M < +∞ isto
vale para algum i ∈ N com κi < 1/2. Mas então:

dX (x∗ , y∗ )
0 ≤ dX (x∗ , y∗ ) = dX (H i (x∗ ), H i (y∗ )) ≤ κi−1 dX (x∗ , y∗ ) < ⇒ dX (x∗ , y∗ ) = 0 ⇒ x∗ = y∗ .
2
Finalmente, juntamos os ingredientes.

• O ponto fixo existe e é único, como pede (a);

• Como cada sequência {H i (x)}i∈N converge a um limite (pela primeira parte da prova) e este limite
é um ponto fixo (pelo exercı́cio 16.1), temos que H i (x) converge a x∗ , o único ponto fixo de H, não
importando qual seja x. Isto é a parte (b) do teorema.

• Finalmente, a estimativa (c) foi provada no primeiro passo, onde tratamos x∗ como o limite de H i (x)
para um dado x. Como agora sabemos que este limite é o único ponto fixo, está encerrada a prova.

16.2 O teorema da função inversa


Nesta seção provaremos um dos teoremas clássicos do Cálculo em várias variáveis: o teorema da função
inversa. Convém enunciar uma definição antes de começar.

Definição 16.2 Dados abertos U0 , U1 ⊂ V , dizemos que f : U0 → U1 é um difeomorfismo de classe C `


(` ∈ N\{0}) se f é uma bijeção entre U0 e U1 e tanto f quanto f −1 são funções com derivadas contı́nuas
até ordem `.

175
Os difeomorfismos são importantes porque são correspondências entre conjuntos que preservam não só
cardinalidade (como seria se fossem só bijeções) ou topologia (como seria se f e f −1 são contı́nuos), mas
também qualquer “estrutura diferenciável até ordem `”que podemos botar nos conjuntos U0 e U1 . De fato,
os “difeos” serão muito importantes na hora de falarmos de variedades.
Uma observação simples é que, para que uma função f : U0 → U1 seja um difeomorfismo C 1 , é
necessário que derivada de f seja um operador linear inversı́vel. De fato, supondo que f seja mesmo um
difeo, podemos aplicar a regra da cadeia às expressões

∀x ∈ U0 , f −1 ◦ f (x) = x e ∀y ∈ U1 , f ◦ f −1 (y) = y

e descobrir que, dados x ∈ U0 e y = f (x) ∈ U1 ,

Df −1 (y) Df (x) = Df (x) Df −1 (y) = IdV ,

o operador identidade de V .
Por outro lado, a simples invertibilidade da derivada não é suficiente para garantir que f é um difeo-
morfismo.
Exemplo 16.4 Considere a parametrização de U0 = U1 = R2 \{0R2 } por coordenadas polares.

f : R2 \{0} → R2 \{0R2 }
(r, θ) 7→ (r cos θ, r sin θ).
Podemos calcular a derivada de f na forma matricial através da matriz de derivadas parciais.
 
cos θ −r sin θ
Df (r, θ) = .
sin θ r cos θ
Como o determinante desta matriz é r > 0, Df (r, θ) é sempre inversı́vel. No entanto, f não é um
difeomorfismo. De fato, ela não é nem mesmo uma bijeção, já que é periódica na segunda coordenada.
O que o Teorema da Função Inversa é que a invertibilidade da derivada num único ponto x0 do domı́nio
garante que f é um difeomorfismo local, ou seja, ao redor de x0 .

Teorema 16.2 (Teorema da função inversa) Considere um espaço vetorial normado completo (V, k · kV ).
Suponha que U ⊂ V é aberto de V , que f : U → W é C ` , ` ∈ N\{0}. Suponha ainda que, para um certo
ponto x0 ∈ U , Df (x0 ) é inversı́vel. Então há um aberto U0 ⊂ U com x ∈ U0 tal que:
1. U1 := f (U0 ) é aberto;

2. f |U0 : U0 → U1 é um difeomorfismo C ` .

A prova será apresentada nas duas seções abaixo. Convem entender desde agora a intuição e a difi-
culdade técnica da prova. A intuição é simples. Localmente, f (x) se parece muito com a função afim
y0 + T (x − x0 ), com y0 = f (x0 ) e T = Df (x0 ). Como T é inversı́vel, a função afim também é e tudo
indica que f deve ter as mesmas caracterı́sticas numa vizinhança de x0 .
A maior dificuldade técnica da prova será provar que U1 é aberto. Para entender o desafio, imagine que
você tem em mãos um y ∈ U1 = f (U0 ). Tudo o que sabemos, em princı́pio, é que y = f (x) para algum
x ∈ U0 . Para provar que U1 é aberto, precisamos encontrar um δ > 0 tal que todo y 0 a distância < δ de y
tem uma pré-imagem x0 em U0 . Como poderemos fazer isso? A resposta curta será reformular o problema
como se fosse um problema de ponto fixo.

176
A prova do Teorema da função inversa será dada em várias etapas. A primeira é o lema a seguir, que
formaliza a ideia que f (x) ≈ y0 + T (x − x0 ). (Manteremos a notação de que T = Df (x0 ) em toda a
prova.) De fato, se tivéssemos f (x) = y0 + T (x − x0 ) exatamente, valeria

T −1 (f (x0 ) − f (x00 )) = x0 − x00 .

Lema 16.1 Existe um r > 0 com U0 := BV (x0 , r) ⊂ U onde f satisfaz a seguinte estimativa.

kx0 − x00 kV
∀x0 , x00 ∈ U0 : kT −1 (f (x0 ) − f (x00 )) − (x0 − x00 )kV ≤ .
2
Prova: Sob as nossas hipóteses, x 7→ Df (x) é contı́nua e portanto x 7→ T −1 Df (x) é contı́nua. Como
T −1 Df (x0 ) = T −1 T = IdV , existe uma vizinhança U0 = BV (x0 , r) ⊂ U onde kT −1 Df (x) −
IdV kV →V ≤ 1/2. Agora observe que U0 é convexo e que, pela desigualdade do valor médio, vale a
seguinte desigualdade sempre que x0 , x00 ∈ U0 :
0
kT −1 (f (x0 ) − f (x00 )) − (x0 − x00 )kV = k[T −1 f (z) − z]z=x
z=x00 kV
!
≤ sup kT −1 Df (x) − IdV kV →V kx0 − x00 kV
z∈[x0 ,x00 ]

kx0 − x00 kV
(kT −1 Df (x) − IdV kV →V ≤ 1/2 em U0 ) ≤ .
2
2
O próximo lema é a parte mais difı́cil da prova e é precisamente nele que usaremos o argumento de
ponto fixo.

Lema 16.2 U1 := f (U0 ) é aberto.

Prova: Tome y ∈ f (U0 ), y = f (x) com x ∈ U0 . Precisamos mostrar que existe um δ > 0 tal que
BV (y, δ) ⊂ f (U0 ). Isto é o mesmo que provar que

Queremos: existe um δ > 0 tal que, sempre que y 0 ∈ V e ky 0 − ykV < δ, existe um x0 ∈ U0
com f (x0 ) = y 0 .

Nossa ideia será reinterpretar x0 como a solução de um problema de ponto fixo. Defina:

Hy0 (x0 ) := x0 + T −1 (y 0 − f (x0 )) (x0 ∈ U ).

Podemos reformular nosso objetivo como sendo o seguinte: Veja que o problema de achar um ponto fixo de
Hy0 é o mesmo de achar x0 com f (x0 ) = y. Por outro lado, uma propriedade boa desta função é que ela é
automaticamente 1/2-Lipschitz, pelo lema anterior.

kx0 − x00 kV
∀x0 , x00 ∈ U0 : kHy0 (x0 ) − Hy (x00 )kV = k(x0 − x00 ) − T −1 (f (x0 ) − f (x00 ))kV ≤ .
2
(Isso explica, aliás, porque usamos T −1 f no Lema e na definição de Hy0 .)
Tudo isto vale para qualquer y 0 ∈ V . Nosso objetivo (reformulado) é mostrar:

177
Queremos: existe um δ > 0 tal que, sempre que y 0 ∈ V e ky 0 − ykV < δ, a aplicação Hy0 tem
um ponto fixo.

Iremos aplicar o Teorema de Ponto Fixo de Banach para resolver problema. Para aplicar o Teorema,
basta garantir duas condições:

1. Hy0 é κ-Lipschitz, com κ < 1 (esta parte já está feita).

2. Hy0 leva um certo espaço métrico completo X em si mesmo.

A questão então é como cumprir com a segunda exigência. Como y 0 estará numa bola perto de y, é
razoável esperar que sua pré-imagem esteja perto de x. De fato, escolhemos o domı́nio:

X := BV [x, η], com 0 < η < r − kx − x0 kV .

Note que X ⊂ BV (x0 , r) porque x ∈ BV (x0 , r). Além disso, X é um fechado num espaço vetorial
completo, sendo, portanto, completo com a métrica induzida.
Ainda falta verificar que Hy0 : X → X é uma transformação deste X em si mesmo. É aqui que a
escolha do δ > 0, que ainda não especificamos, será importante. Mais especificamente, mostraremos que a
escolha de
η
δ :=
2kT −1 kV →V
funciona.
Relembrando, o que desejamos é mostrar que sempre que ky 0 − yk < δ vale a seguinte propriedade:
para todo x0 ∈ X, Hy0 (x0 ) ∈ X. Como X é a bola fechada de raio η ao redor de x, isto é o mesmo que
mostrar que:
ky 0 − yk < δ e kx0 − xkV ≤ η ⇒ kHy0 (x0 ) − xkV ≤ η.
Para checar isso, tomamos y 0 , x0 como acima. Como Hy0 é 1/2-Lipschitz e kx0 − xkV ≤ η
η
kHy0 (x0 ) − xkV ≤ kHy0 (x0 ) − Hy0 (x)kV + kHy0 (x) − xkV ≤ + kHy0 (x) − xkV .
2
Falta checar que kHy0 (x) − xkV ≤ η/2. Esta é uma conta direta usando f (x) = y e ky 0 − ykV < δ:
η
kHy0 (x) − xkV = kT −1 (y 0 − f (x))kV = kT −1 (y 0 − y)kV ≤ kT −1 kV →V ky 0 − ykV < kT −1 kV →V δ = .
2
Concluı́mos que a segunda condição para aplicar o Teorema de Ponto Fixo de Banach é de fato satisfeita.
Como consequência, provamos que Hy0 tem mesmo um ponto fixo em U0 sempre que y 0 ∈ BV (y, δ). 2
No próximo lema usamos nossas estimativas e resultados para mostrar que, de fato, f −1 existe e é
contı́nua.

Lema 16.3 f |U0 : U0 → U1 é um homeomorfismo Lipschitz entre U0 e U1 (isto é, é uma bijeção Lipschitz
com inversa Lipschitz).

Prova: A junção dos dois lemas anteriores mostra que U1 = f (U0 ) é aberto e que

kx0 − x00 kV 3kx0 − x00 kV


∀x0 , x00 ∈ U0 : ≤ kT −1 (f (x0 ) − f (x00 ))kV ≤ .
2 2

178
Veja que isso por si só ja implica que f |U0 é injetiva: se x0 6= x00 , kT −1 (f (x0 ) − f (x00 ))kV > 0. Como
U1 = f (U0 ), ela certamente é sobrejetiva e portanto é uma bijeção. Temos ainda que, para quaisquer
x0 , x00 ∈ U0 :

k(f (x0 ) − f (x00 ))kV = kT T −1 (f (x0 ) − f (x00 ))kV


≤ kT kV →V kT −1 (f (x0 ) − f (x00 ))kV
3kT kV →V kx0 − x00 kV
≤ ,
2
logo f é Lipschitz. Do mesmo modo, tomando x0 = f −1 (y 0 ), x00 = f −1 (y 00 ), deduzimos:

kf −1 (y 0 ) − f −1 (y 00 )kV
∀y 0 , y 00 ∈ U0 : ≤ kT −1 (y 0 − y 00 )kV ≤ kT −1 kV →V ky 0 − y 00 kV ,
2
portanto f −1 é 2kT −1 kV →V -Lipschitz. 2
Prova: [Fim da prova do Teorema da Função Implı́cita] O que nos falta provar é f −1 é de classe C ` .
Começaremos calculando sua derivada em cada y ∈ U1 . De fato, convém partir de um chute para quem
seria esta derivada e depois provar que o chute funciona. Ao longo da prova, suporemos que L é uma
constante de Lipschitz tanto para f , quando para f −1 .
Fixe y ∈ U1 e x ∈ U0 com f (x) = y. Observe em primeiro lugar que, pela nossa escolha de U0 ,

∀x ∈ U0 : kT −1 Df (x) − IdV kV →V ≤ 1/2 < 1,

logo T −1 Df (x) é inversı́vel e Df (x) também é inversı́vel. Logo, se y = f (x) ∈ U1 , a regra da cadeia nos
faz pensar que Df −1 (y) deve ser igual a S := Df (x)−1 .
Provaremos abaixo que isso é verdade. Dado h tal que y +h ∈ U1 , podemos definir uh com x+uh ∈ U0
tal que f (x + uh ) = y + h. Como f −1 é L-Lipschitz, kuh kV ≤ LkhkV . Ao mesmo tempo uh 6= 0 se h 6= 0
porque f é bijeção. Por fim, temos as identidades:

h = y + h − h = f (x + uh ) − f (x) = S −1 uh + r(uh ),

onde r é um termo de resto, e

f −1 (y + h) − f −1 (y) − S h = x + uh − x − S h = uh − Sh.

Concluı́mos que

kf −1 (y + h) − f −1 (y) − S hkV kuh − S hkV


=
khkV khkV
kS (S −1 uh − h)kV
=
khkV
kS −1 uh − hkV
≤ kSkV →V
khkV
kr(uh )kV
= kSkV →V
khkV
kr(uh )kV
(use kuh kV ≤ LkhkV ) ≤ LkSkV →V →0
kuh kV

179
quando h → 0 e portanto kuh kV ≤ LkhkV → 0. Estas equações mostram para nós que a derivada de f −1
em y é mesmo dada por:
Df −1 (y) = [Df (f −1 (y))]−1 (y ∈ U1 ).
Observe que Df −1 = Inv ◦ Df ◦ f −1 , onde Inv é a operação que envia um A ∈ L(V ) inversı́vel em A−1 .
inverte operadores lineares.
Agora provaremos que f −1 é C ` , ou seja, que Df −1 é C `−1 . Se ` = 1, isto segue do fato que Df −1 é a
composição de três funções contı́nuas. Se ` > 1, devemos trabalhar por indução em `, lembrando que f −1
é C ` , Df é C `−1 e Inv é infinitamente diferenciável (o que segue das regras para diferenciação em álgebras
de Banach! - exercı́cios passados em aula). 2

16.3 O teorema da função implı́cita


Provaremos agora um outro clássico do Cálculo em várias variáveis, com tantas ou mais aplicações que o
primeiro resultado. Para enunciá-lo, precisaremos de um preâmbulo.
Considere dois espaços vetoriais normados e completos (V, k · kV ) e (W, k · kW ). O produto V × W
pode ser visto como um espaço vetorial
q composto de pares (v, w) ∈ V × W . Se fixamos p ∈ (1, +∞), a
fórmula abaixo k(v, w)kV ×W = p
kvkpV + kwkpW ((v, w) ∈ V × W ) define uma norma sobre V × W que
o torna um espaço completo. Por exemplo, se V = Rd e W = Rk com as respectivas normas `p , k · kRd ×Rk
corresponde à norma `p em Rd × Rk = Rd+k .Também é um exercı́cio mostrar que as normas obtidas para
os diferentes valores de p > 1 são todas equivalentes.
A seguir apresentaremos um resultado que nos dará condições de entender a estrutura local de certos
subconjuntos M ⊂ V × W definidos implicitamente por uma fórmula do tipo:

M = {(v, w) ∈ V × W : Φ(v, w) = 0W }

onde Φ : V × W → W é uma função. Por exemplo: imagine que V = Rd , W = Rk e portanto


V × W ≈ Rd+k . Uma Φ como acima codifica k equações não lineares em d + k variáveis:

Φ(j) (x[1], . . . , x(d+k) ) = 0, j = 1, 2, 3, . . . , k.

A principal mensagem do Teorema da Função Inversa é que, sob condições simples, localmente o conjunto
M é da forma (x, g(x)) para alguma função g de V em W . A principal hipótese será a de que o operador
linear D2 Φ(x, y) ∈ L(W ) dado por:

D2 Φ(x, y) w := DΦ(x, y) (0V , w) (w ∈ W )

é inversı́vel para algum par (x0 , y0 ) ∈ V × W .

Teorema 16.3 (Teorema da Função Implı́cita) Considere U ⊂ V × W aberto e uma função C ` Φ : U →


W . Suponha que existe (x0 , y0 ) ∈ U tal que Φ(x0 , y0 ) = c ∈ W D2 f (x, y) ∈ L(W ) é inversı́vel. Então
existem abertos A0 ⊂ V , com x0 ∈ A0 , e U0 ⊂ V × W , com (x0 , y0 ) ∈ U0 , além de uma função C `
g : A0 → W com (x, g(x)) ∈ U0 para todo x ∈ A0 e ainda:

∀(x, y) ∈ U0 : Φ(x, y) = c ⇔ y = g(x),

ou ainda:
U0 ∩ Φ−1 (c) = {(x, g(x)) : x ∈ A0 }.

180
Antes da prova, convém anotar alguns preliminares. Observe que a derivada de Φ deve ser uma transformação
linear T ∈ L(V × W, W ). Abaixo teremos que considerar transformações do tipo:

IV ⊗ T : (h, s) ∈ V × W 7→ (h, T (h, s)) ∈ V × W

e também
T1 : v ∈ V 7→ T (v, 0W ),
T2 : w ∈ W 7→ T (0V , w),
I × T2 : (v, w) ∈ V × W 7→ (v, T2 w).

Proposição 16.1 Temos T1 ∈ L(V, W ), T2 ∈ L(W ) e IV ⊗ T ∈ L(V × W ). Se a aplicação T2 é inversı́vel,


o mesmo vale para IV ⊗ T . Além disso, se definimos

F (x, y) := (x, Φ(x, y)) ((x, y) ∈ U ),

então
∀(x, y) ∈ U : DF (x, y) = I ⊗ DΦ(x, y).

Prova: T2 é claramente linear. Note ainda que

∀w ∈ W : kT2 wkW = kT (0V , w)kW ≤ kT kV ×W →W k(0V , w)kV ×W = kT kV ×W →W kwkW ,

portanto kT2 kW →W ≤ kT kV ×W →W < +∞ e T2 é limitado. Do mesmo modo, podemos mostrar que


T1 ∈ L(V, W ) e I × T2 ∈ L(V × W ).
Suponha agora que T2 é inversı́vel; queremos provar que I ⊗ T também é inversı́vel. Isto é, temos que
provar que existe um operador limitado L ∈ L(V × W ) tal que L (I ⊗ T ) = (I ⊗ T ) L = IV ×W . Observe
primeiramente que:
I ⊗ T (h, s) = (h, T (h, s)) = (h, T1 h + T2 s).
Chame de H o operador que leva (v, w) ∈ V × W em (v, w − T1 v) ∈ V × W . É um exercı́cio mostrar que
H ∈ L(V × W ), que:
H −1 : (v, w) ∈ V × W 7→ (v, w + T1 v)
também pertence a L(V × W ), e que, para todos (h, s) ∈ V × W :

I ⊗ T (h, s) = (h, T (h, s)) = (h, T1 h + T2 s) = H −1 (h, T2 s) = H −1 (I × T2 )(h, s).

Logo I ⊗ T = H −1 (I × T2 ). Portanto, podemos tomar L := (I × T2−1 ) H, observando que, como


T2−1 ∈ L(W ) por hipótese, I × T2−1 ∈ L(V × W ) e (I × T2 )−1 = I × T2−1 .
Finalmente, a prova de que DF = I ⊗ DΦ fica como exercı́cio. 2
A ideia que nos leva a considerar F é que queremos aplicar o Teorema da Função Inversa. Intuitiva-
mente, a hipótese do teorema garante que Φ(x, y) é “injetiva na coordenada y”. A função F acrescenta x ao
output de Φ para obtermos uma função realmente inversı́vel. Passamos agora à prova do teorema.

Prova: [Prova do Teorema da Função Implı́cita]

181
Aplicaremos o Teorema da Função Inversa à função F : U → V × W definida na proposição acima. A
hipótese deste teorema pode ser combinada com a proposição para garantir que DF (x, y) ∈ L(V × W ) é
inversı́vel quando (x, y) = (x0 , y0 ).
O TVI nos garante que há uma vizinhança aberta U0 ⊂ U de (x0 , y0 ) na qual F é um difeomorfismo
`
C , F |U0 : U0 → U1 = F (U0 ). Por abuso de notação, chamaremos F |U0 de F a partir de agora. Veja ainda
que (x0 , c) = F (x0 , y0 ) ∈ U1 .
Considere G = F −1 : U1 7→ U0 . Como U0 = V × W , podemos escrever G(x, y) = (h(x, y), q(x, y)),
onde h : U1 → V e q : U1 → W . Veja que F ◦ G (x, y) = (x, y), ou

F (h(x, y), g(x, y)) = (h(x, y), Φ(x, y)) = (x, Φ(x, y)).

Em particular, h(x, y) = x e G(x, y) = (x, q(x, y)) para todos (x, y) ∈ U1 . É um exercı́cio mostrar que
q : U1 → W é C ` porque F é C ` .
Agora considere o conjunto

U0 ∩ Φ−1 (c) = {(x, y) ∈ U0 : Φ(x, y) = c} = {(x, y) ∈ U0 : F (x, y) = (x, c)}.

Como F (x, y) ∈ U1 sempre que (x, y) ∈ U0 , e além disso G = F −1 , temos que, para qualquer par
(x, y) ∈ U0 :

Φ(x, y) = c ⇔ F (x, y) = (x, c) ⇔ (x, y) = G ◦ F (x, y) = G(x, c) = (x, q(x, c)) ⇔ y = q(x, c).

Definimos agora g(x) := q(x, c). Esta função g está definida no conjunto:

A0 := {x ∈ V : (x, c) ∈ U1 },

que é aberto. g é C ` porque q tem esta propriedade. Pelo raciocı́nio acima,

(x, y) ∈ U0 ∩ Φ−1 (c) ⇔ (x, c) = F (x, y) ∈ U1 ⇔ x ∈ A0 e y = g(x),

ou seja,

U0 ∩ Φ−1 (c) = {(x, y) ∈ U0 : Φ(x, y) = c} = {(x, y) ∈ U0 : y = g(x)} = {(x, g(x)) : x ∈ A0 },

como querı́amos mostrar. 2

182
Capı́tulo 17

Esboço da teoria de subvariedades de Rd

Neste capı́tulo aplicaremos os Teoremas da Função Inversa e Implı́cita para estudar a estrutura de subvarie-
dades do Rd .

Definição 17.1 Uma subvariedade m-dimensional do Rd de classe C ` é um subconjunto M ⊂ Rd munido


de um atlas, isto é, de uma coleção:
{(fα , Uα , Aα )}α∈I
onde cada Aα é aberto de Rd , com M ⊂ ∪α∈I Aα ; cada Uα é aberto de Rm ; e cada fα : Uα → M ∩ Aα ⊂
Rd é um homeomorfismo e, além disso, uma função C ` .

Portanto, uma subvariedade é, numa primeira aproximação, um subconjunto do Rd que “localmente se
parece com Rm até a `-ésima derivada”. Neste capı́tulo, buscaremos responder a algumas perguntas simples
sobre estes conjuntos.

1. Como é a estrutura local de uma subvariedade? (Mais precisamente, estudaremos os conjuntos de


vetores tangentes a uma subvariedade.)

2. Como podemos verificar se um conjunto é subvariedade ou não?

3. Como podemos definir a diferenciabilidade de funções f : M → N , onde M e N são variedades?

A principal observação que faremos é que as propriedades interessantes de uma subvariedade são todas
intrı́nsecas, isto é, não dependem do atlas escolhido. Isso permite o desenvolvimento de uma teoria abstrata
de variedades, que não estudaremos aqui.

17.1 Gráficos de funções: nosso primeiro exemplo


Para começar nosso estudo, apresentamos um exemplo simples de subvariedade de Rd .
Considere um aberto U ⊂ Rm e uma função C ` g : U → Rk . Chamando de d = k + m, definimos o
gráfico de g como sendo:
graph(g) := {(x, g(x)) : x ∈ U } ⊂ Rd .
Abaixo mostraremos que todo gráfico de função como acima é subvariedade. Mais adiante ficará claro
que a recı́proca é quase verdadeira: toda subvariedade é localmente um gráfico de função, a menos de uma
troca de sistema de coordenadas.

183
Proposição 17.1 graph(g) ⊂ Rd é uma subvariedade m-dimensional de Rd de classe C ` .

Prova: [Esboço] Para provar esta proposição, precisamos construir um atlas. Isso é bastante simples e nosso
atlas só terá uma tripla (f, U, A). Podemos tomar A = Rd e definir:

f : x ∈ U 7→ (x, g(x)).

Claramente, f é C ` . Sua derivada é Df (x) = I × Dg(x), que é injetiva porque é “injetiva na primeira
coordenada”. Além disso, f é contı́nua e sua inversa é:

f −1 : (x, y) ∈ graph(g) 7→ x,

que é uma contração (e portanto é contı́nua). Logo f é um homeomorfismo entre U e graph(g) =


graph(g) ∩ A. 2

17.2 Parametrizações que viram difeomorfismos


O exemplo de grafos de funções foi especialmente simples. Para lidar com situações mais complicadas,
precisaremos de um resultado intermediário muito importante1 . Ele será enunciado em termos de uma
definição um pouco mais geral.

Definição 17.2 Dados um conjunto M ⊂ Rd e um ponto p ∈ M , uma parametrização C ` de M por Rm ao


redor de p é uma tripla (f, U, A) onde A ⊂ Rd é aberto com p ∈ A, U ⊂ Rm é aberto e f : U → A ∩ M é
um homeomorfismo C ` com derivada injetiva.

Deste modo, uma subvariedade de Rd de dimensão m e classe C ` é um conjunto de Rd em que, para


quaquer p ∈ M , há uma parametrização C ` de M por Rm ao redor de p. No entanto, um conjunto que
não é subvariedade pode ter parametrizações como definidas acima ao redor de alguns (mas não todos) seus
pontos.

Exercı́cio 17.1 Desenhe um exemplo de M ⊂ R3 que tem parametrizações por R1 ao redor de alguns
pontos e por R2 ao redor de outros.

O enunciado abaixo é um bocado técnico, mas sua ideia é simples:

Princı́pio geral: quando parametrizamos uma subvariedade na vizinhança de um ponto p ∈ M


por um aberto U ⊂ Rm , podemos “adicionar coordenadas” a esta parametrização de modo
a parametrizar todo um aberto de Rd contendo p. A parametrização original é recuperada
tomando as d − m coordenadas extras iguais a 0.

Na verdade, o princı́pio geral acima não é completamente fidedigno à proposição. Ele omite o fato
que, além de acrescentar coordenadas, é necessário reduzir o domı́nio de M parametrizado. Este tipo de
tecnicalidade será comum abaixo e em todos os resultados que estudaremos. No fundo, elas vêm do fato
que os Teoremas das Funções Inversa e Implı́cita têm o mesmo problema.
1
Esta é essencialmente a “forma local das imersões”.

184
Proposição 17.2 Dados um conjunto M ⊂ Rd , um ponto p ∈ M , uma parametrização C ` de M por Rm
ao redor de p, (f, U, A), podemos encontrar uma outra tripla (Fp , Bp , Ap ) com as seguintes propriedades:
• Ap ⊂ A é aberto de Rd com p ∈ M ;
• Bp ⊂ Rm × Rd−m ≈ Rd é uma vizinhança aberta de (xp , 0Rd−m ), onde xp := f −1 (p) ∈ U ;
• temos também:
∀x ∈ Rm : (x, 0Rm−d ) ∈ Bp ⇒ x ∈ U e Fp (x, 0Rd−m ) = f (x)

• Fp : Bp → Ap é um difeomorfismo C `
• finalmente,
M ∩ Ap = {Fp (x, 0Rm−d ) : (x, 0Rm−d ) ∈ Bp }.
Prova: Como Df (xp ) é injetiva, a imagem de Df (xp ) é um subespaço T ⊂ Rd de dimensão m.
Chame de T ⊥ o complemento ortogonal de T . Tome uma base ortonormal v1 , . . . , vd−m de T ⊥ . Defi-
nimos uma transformação linear R : Rd−m → Rd via:
d−m
X
R y := y[i] vi (y ∈ Rd−m ).
i=1
Note que R é injetiva: de fato, R y = 0Rd implica que cada coordenada de y é 0 (afinal, os vi são linearmente
independentes). Além disso, R y ∈ T ⊥ para todo y ∈ Rd−m .
Definimos F̃p : U × Rd−m → Rd como sendo a função que leva (x, y) ∈ U × Rd−m em F̃p (x, y) =
f (x) + R y. F̃p é C ` porque é a soma de uma função C ` com outra linear. Pode-se verificar que a derivada
DF̃p (x, y) aplicada a h = (hx , hy ) ∈ Rm × Rd−m é igual a:
DF̃p (x, y) (hx , hy ) = Df (x) hx + R hy .
Queremos aplicar o Teorema da Função Inversa a F̃p em uma vizinhança de (xp , 0Rd−m ). Para isso,
precisamos mostrar que vale a seguinte afirmação.
Afirmação: a derivada DF̃p (xp , 0Rd−m ) é inversı́vel.
De fato, como DF̃p (x, y) ∈ L(Rm × Rd−m , Rd ) é uma aplicação linear entre espaços com a mesma di-
mensão finita, só precisamos mostrar que DF̃p (xp , 0Rd−m ) é injetiva, o que é o mesmo que mostrar que seu
núcleo é {(0Rm , 0Rd−m )}.
Para isso, recordamos que Df (xp ) hx ∈ T e R hy ∈ T ⊥ são ortogonais e que a soma de dois vetores
ortogonais só se anula quando ambos são nulos. Desta forma, se (hx , hy ) está no núcleo da derivada:
0Rd = DF̃p (xp , 0Rd−m ) (hx , hy ) = Df (xp ) hx + R hy ⇒ Df (xp ) hx = 0Rd e R hy = 0Rd .
Como tanto Df (xp ) quanto R são injetivas, deduzimos que hx = 0Rm e hy = 0Rd−m , o que prova a
afirmação.
De posse da afirmação, deduzimos do Teorema da Função Implı́cita que existe um difeomorfismo C `
F̃p : Lp → Cp entre vizinhanças abertas Lp ⊂ U ×Rd−m , com (xp , 0Rd−m ) ∈ Lp , e Cp 3 p. Por construção,
Fp (x, 0Rd−m ) = f (x) ∈ M ∩ Cp sempre que (x, 0Rd−m ) ∈ Lp . Reduzindo Cp e Lp , se necessário, podemos
garantir que Cp ⊂ A (basta intersectar Cp com A, notando que p ∈ Cp ∩ A, e trocar Lp por F̃p−1 (Cp ∩ A),
que é um aberto).
Neste ponto, já temos quase tudo que queremos. Poderı́amos tentar tomar Bp = Lp , Ap = Cp e Fp = F̃p
e declarar a prova encerrada. Vale um aviso.

185
Ainda falta alguma coisa!

A questão é que ainda não sabemos se os pontos de M ∩ Cp são exatamente aqueles que têm a forma
F̃p (x, 0Rm−d ) para (x, 0Rm−d ) ∈ Lp . Ou seja, poderia existir um ponto q ∈ M ∩ Cp que não é da forma com
F̃p (x, 0Rd−m ), mas sim da forma F (x, y) = f (x) + Ay com y 6= 0Rd−m . Para garantir que isto não ocorre,
será necessário reduzir o conjunto Cp para um Ap ⊂ Cp . Neste processo, também reduziremos o Lp para
Bp , terminando assim a prova.
Infelizmente, os passos que seguem são um pouco técnicos. Basicamente a ideia é tomar um Ap ⊂ Cp
que é o menor possı́vel para conter f (Zp ), onde Zp é o conjunto abaixo.

Zp := {x ∈ Rm : (x, 0Rd−m ) ∈ Lp }.

Para isso, será importante entender algumas propriedades deste conjunto. Em primeiro lugar, Zp é aberto
de Rm porque Lp é aberto de Rd . Além disso, Zp ⊂ U porque Zp × {0Rd−m } ⊂ Lp ⊂ U × Rd−m .
Recorde que f : U → A ∩ M é homeomorfismo. Como Zp é aberto de Rm , ele também é um aberto
relativo de U . Desta maneira, f (Zp ) é um aberto relativo de M ; ou seja, existe um conjunto Z̃ ⊂ Rd aberto
de Rd com f (Zp ) = M ∩ Z̃. Além disso, como Z × {0Rd−m } ⊂ Lp ,

Z̃ ∩ M = f (Zp ) = F̃p (Zp × {0Rd−m }) ⊂ F̃p (Lp ) = Cp ,

portanto:
f (Zp ) = M ∩ (Z̃ ∩ Cp ).
Podemos finalmente definir Ap := Z̃ ∩ Cp , notando que M ∩ Ap = M ∩ Z̃ = f (Zp ). Para que tudo dê
certo, também tomamos Bp := F̃p−1 (Ap ) e Fp := F̃p |Bp .
Checaremos a seguir que as propriedades de fp , Bp e Ap enumerada pelo Teorema são todas verdadeiras.
Em primeiro lugar,
Para começar, Ap é aberto de Rd porque é a interseção de dois abertos Z̃, Cp ⊂ Rd . Bp também é
aberto (de Lp e portanto de Rd ) porque é imagem inversa de um aberto por uma função contı́nua. Fp é
difeomorfismo C ` porque F̃p o é.
Tudo que falta provar é que

M ∩ Ap := {f (x) : (x, 0Rd−m ) ∈ Bp } = {Fp (x, 0Rd−m ) : (x, 0Rd−m ) ∈ Bp }.

Como já sabemos sabemos que M ∩ Ap = M ∩ Z̃ ∩ Cp = f (Zp ), basta provar que

Passo final: Zp × {0Rd−m } = {(x, 0Rd−m ) : (x, 0Rd−m ) ∈ Bp }.


Faremos isso provando inclusões nas duas direções.

Prova de que Zp × {0Rd−m } ⊂ Bp

Basta observar que:

Zp × {0Rd−m } ⊂ Lp ⇒ F̃p (Zp × {0Rd−m }) = f (Zp ) ⊂ Ap ⇒ Zp × {0Rd−m } ⊂ F̃p−1 (Ap ) = Bp .

Prova de que Zp × {0Rd−m } ⊃ Bp .

186
Fixe um ponto arbitrário (x, 0Rd−m ) ∈ Bp . Devemos mostrar que (x, 0Rd−m ) ∈ Zp × {0Rd−m }. Veja
que, pela fórmula que define F̃p (e portanto Fp ),
Fp (x, 0Rd−m ) = f (x) ∈ M ∩ Fp (Bp ) = M ∩ Ap .
Por outro lado,
M ∩ Ap = M ∩ Z̃ ∩ Cp = f (Zp ) = Fp (Zp × {0Rd−m })
porque, como já vimos, Zp × {0Rd−m } ⊂ Bp . Portanto,
Fp (x, 0Rd−m ) ∈ Fp (Zp × {0Rd−m }
e como Fp é bijeção, deduzimos (x, 0Rd−m ) ∈ Zp × {0Rd−m }.. 2

17.3 O espaço tangente e a dimensão


Agora o nosso propósito será explicar como é o chamado espaço tangente de uma variedade. Primeiro temos
uma definição geral, que faz sentido para qualquer subconjunto de Rd .
Definição 17.3 Considere um conjunto M ⊂ Rd . O espaço tangente de M em p ∈ M , denotado por Tp M ,
é o conjunto de todos os vetores γ 0 (0), onde γ : (−ε, ε) → M é uma curva parametrizada (contı́nua) com
derivada em t = 0.
O que as subvariedades têm de especial é que, para todas elas, o espaço tangente é um subespaço vetorial
de Rd com dimensão igual à de M .
Teorema 17.1 Considere um conjunto M ⊂ Rd e p ∈ M . Suponha que M tem uma parametrização
(f, U, A) por Rm e de classe C ` ao redor de p. Chame de xp = f −1 (p). Então
Tp M = ran Df (xp ).
Como corolário, Tp M é um subespaço vetorial de Rd com dimensão m.
Uma consequência importante deste teorema é que, quando M é uma subvariedade C ` de dimensão m,
o espaço tangente é um dado intrı́nseco de M e a dimensão de M não depende do atlas escolhido. De fato,
dados dois atlas para a mesma variedade, eles têm de “concordar sobre as dimensões do espaço tangente”e
portanto sobre a dimensão de M . Esta é a primeira manifestação de fenômenos intrı́nsecos na teoria de
subvariedades.
Prova: [Prova do Teorema 17.1] A prova deste teorema tem uma direção fácil, outra difı́cil e o corolário no
final.
Direção fácil: Tp M ⊃ ranDf (x).
Tome v ∈ ranDf (x) arbitrário; nosso objetivo é mostrar que v ∈ Tp M , isto é, que há uma curva
γ : (−ε, ε) → M com γ(0) = p e γ 0 (0) = v.
Para fazer isso, tome uma pré-imagem w ∈ Rm de v sob Df (x): ou seja, escolha w ∈ Rm com
Df (x) w = v. Tome a curva η(t) := xp + t w e observe que, se |t| < ε, com ε pequeno o suficiente,
η(t) ∈ U . Desta forma, podemos definir γ(t) := f (xp + t w) para t ∈ (−ε, ε). Isto garante γ(0) = p.
Também podemos obter pela regra da cadeia que
γ 0 (0) = Df (xp ) η 0 (0) = Df (xp ) w = v,
como querı́amos.

187
Direção difı́cil: Tp M ⊂ ranDf (x).

Ou seja, temos que mostrar que, se há γ : (−ε, ε) → M contı́nua com γ(0) = p, γ 0 (0) = v, então há
um w ∈ Rm com Df (xp ) w = v.
Para isso, será fundamental usarmos a Proposição 17.2. Por hipótese, (f, U, A) é uma parametrização
C ` de M por Rm ao redor de p. Desta forma, a proposição nos diz que existem abertos Bp 3 (xp , 0Rd−m )
com Bp ⊂ U × Rd−m , e Ap ⊂ A ⊂ Rd , além de um difeomorfismo C ` Fp : Bp → Ap , tais que:

∀(x, 0Rd−m ) ∈ Bp : Fp (x, 0Rd−m ) = f (x) e M ∩ Ap = {Fp (x, 0Rd−m ) : (x, 0Rd−m ) ∈ Bp }.

Chame de η(t) := Fp−1 ◦ γ(t). Em princı́pio, η(t) só está definida para aqueles t ∈ (−ε, ε) tais que
γ(t) ∈ Ap . No entanto, como γ(0) = p ∈ Ap e Ap é aberto, podemos reduzir ε se necessário para garantir
que γ(t) ∈ Ap sempre que t ∈ (−ε, ε). De fato, suporemos a seguir que esta troca de ε já foi feita.
Agora observe duas coisas. Em primeiro lugar, η é diferenciável em t = 0 porque Fp−1 e γ são dife-
renciáveis. Além disso – e esse é o principal ponto – como γ(t) ∈ M ∩ Ap , a proposição garante que

∀t ∈ (−ε, ε) ∃ηm (t) ∈ Rm : (ηm , 0Rd−m ) ∈ Bp e η(t) = Fp−1 (γ(t)) = (ηm (t), 0Rd−m ).

Em particular, o fato que η é diferenciável t = 0 implica que ηm também é diferenciável. Mais ainda,
ηm (0) = f −1 (p) = xp
Novamente usando as propriedades de Fp , temos que:

γ(t) = Fp ◦ η(t) = Fp (ηm (t), 0Rd−m ) = f (ηm (t)),

e pela regra da cadeia


γ 0 (0) = v = Df (xp ) ηm
0
(0).
0 (0).
Ou seja, o vetor que procurávamos é w := ηm

Sobre o corolário.

Df (xp ) ∈ L(Rm , Rd ). Como Df (xp ) é injetiva, ran Df (xp ) é um subespaço de dimensão m de Rd .


Logo, o mesmo vale para o espaço tangente. 2

17.4 Subvariedades definidas implicitamente


Os resultados que já vimos nos mostram algumas propriedades boas da definição de subvariedade. Por
outro lado, é muito difı́cil usar estas propriedades para provar que um dado subconjunto de Rd é de fato
uma subvariedade. Nesta seção, mostraremos que certos conjuntos-solução de equações não-lineares são
subvariedades de Rd , contanto que a derivada seja não-degenerada neles. Mais exatamente, usaremos a
definição a seguir.

Definição 17.4 Dadas Φ : U ⊂ Rd → Rk diferenciável, dizemos que c ∈ Rk é valor regular de Φ se para


todo x ∈ Φ−1 (c) a derivada DΦ(x) é sobrejetiva.

Nosso principal teorema nesta seção será que as imagens inversas de valores regulares são sempre sub-
variedades de Rd . Mais ainda: o teorema nos diz como é o espaço tangente da subvariedade.

188
Teorema 17.2 Suponha que Φ : U ⊂ Rd → Rk C ` e que M := Φ−1 (c) 6= ∅, onde c é um valor regular de
Φ. Defina m = d − k. Então M é uma subvariedade m-dimensional de Rd de classe C ` . Em cada p ∈ M ,

Tp M = ker DΦ(p).

Vamos tentar uma expressão mais concreta. Sejam Φ[i] : U → R, 1 ≤ i ≤ k, as k coordenadas de Φ. O


conjunto M é precisamente o conjunto de soluções do seguinte sistema de equações não-lineares:


 Φ[1](x) = c[1]
Φ[2](x) = c[2]


 ...
 (k)
Φ (x) = c(k)

Vamos agora pensar como é este conjunto na vizinhança de um p ∈ M . Em primeiro lugar, veja que
 
∇Φ[1](p) · h
 ∇Φ[2](p) · h 
∀h ∈ Rd : DΦ(p) h =  .
 ... 
(k)
∇Φ (p) · h

Portanto, se x = p + h com h ≈ 0,

x ∈ M ⇔ Φ(p + h) = Φ(p) = c ⇔ DΦ(p) h ≈ 0Rk ⇔ ∇Φ[i](p) · h ≈ 0, 1 ≤ i ≤ k.

Agora repare que DΦ(p) é sobrejetiva se e somente se o posto – isto é, o número de colunas linearmente
independentes de DΦ(p) – é igual a k. Como sabemos, o posto também é igual ao número de linhas l.i. de
DΦ(p). Portanto, pedir que DΦ(p) seja sobrejetiva é o mesmo que pedir a seguinte condição:

os gradientes ∇Φ[1](p), ∇Φ[i](p), . . . , ∇Φ(k) (p) são linearmente independentes.

Neste caso, o conjunto


ker DΦ(p) = ∩ki=1 {y ∈ Rd : ∇Φ[i](p) · y = 0}
tem dimensão d − k. Como M se parece com este conjunto localmente, segue que ela deve ser uma subva-
riedade de dimensão (d − k).
Provaremos o teorema abaixo, mas é tão ou mais importante entender suas aplicações antes de seguir.

17.4.1 Exemplos de subvariedades definidas implicitamente


Exemplo 17.1 (Hiperplanos e subespaços) Se a1 , . . . , ak ∈ Rd são vetores l.i. e c[1], . . . , c(k) ∈ R, a
teoria geral de Álgebra Linear nos diz que o sistema

x · ai = c[i], 1 ≤ i ≤ k

tem infinitas soluções, que (a menos de uma translação) formam um subespaço vetorial de dimensão (d−k).
Este é um caso particular de nosso teorema quando Φ(x) = (ai · x)ki=1 .

Exemplo 17.2 (Esferas e elipsóides) Outro exemplo é quando x0 ∈ Rd , r > 0 e A ∈ L(Rd ) inversı́vel são
dados e definimos:
M := {x ∈ Rd : |A(x − x0 )|22 = r2 }.

189
Este é um elipsóde que (a menos de rotação dos eixos) tem a forma:
d
X
d
M := {x ∈ R : λi (x[i] − x0 [i])2 = r2 }.
i=1

(Os λi são os autovalores de AT A, que são positivos porque A é inversı́vel.) O fato de que M é variedade
de dimensão d − 1 segue de se aplicar os critérios do teorema a Ψ(x) := |A(x − x0 )|22 .
2
Exemplo 17.3 (O grupo ortogonal O(d)) O espaço Rd×d pode ser pensado como o Rd escrito de outra
forma. Com esta ideia, o conjunto das matrizes ortogonais d × d é definido por:

O(d) := {A ∈ Rd×d : AT A = I}.

Para interpretar esta equação e calcular a dimensão de O(d), é conveniente definirmos:

Rd×d
Sym := {matrizes d × d simétricas}.

Este é um subespaço vetorial de Rd×d com dimensão d(d + 1)/2 (exercı́cio!). Portanto, a função

Ψ : Rd×d → Rd×d
Sym

que leva A ∈ Rd×d em Ψ(A) := AT A pode ser pensada como uma função de d2 dimensões em d(d + 1)/2
dimensões. Portanto, se O(d) for variedade, ele tem dimensão d(d − 1)/2.
Para ver que isso é verdade, checaremos que Ψ é suave e tem derivada sobrejetiva em todo ponto A ∈
O(d) = Ψ−1 (I). A suavidade é trivial se percebemos que a função Ψ é um polinômio nas entradas de A.
Quando à injetividade da derivada, veja em primeiro lugar que:

∀A, H ∈ Rd×d : DΨ(A) H = H T A + AT H ∈ Rd×d


Sym .

Se A ∈ O(d), então A−1 = AT e em particular A é inversı́vel.


d×d
Para mostrarmos que DΨ(A) é injetiva devemos provar que, para cada A ∈ O(d) e cada M ∈ RSym há
T T
uma matriz H com A H + H A = M . Para isso, tome H = AM/2 e veja que, como M = M : T

DΨ(A) H = AT (AM/2) + (AM/2)T A = M.

Isto conclui a prova e ainda nos dá uma fórmula para calcular o espaço tangente. Por exemplo:

TI O(d) = {H ∈ Rd×d : H = −H T }

é o espaço das matrizes d × d antissimétricas.

17.4.2 Um resultado intermediário


Obviamente, a prova do Teorema 17.2 deverá seguir de alguma forma do Teorema da Função Implı́cita.
Lembre que aquele teorema diz que, se Φ : U ⊂ Rm × Rd−m → Rd−m , então, sob certas hipóteses,
podemos escrever Φ−1 (c) localmente como o gráfico de uma função de Rm em Rd−m . Isto é, as d − m
últimas coordenadas de um ponto em Φ−1 (c) são escritas em função das m primeiras.
Este resultado claramente não se aplica a algumas das subvariedades que queremos descrever. Por
exemplo, na esfera Sd−1 ⊂ Rd , se tomamos uma vizinhança do ponto e1 , a última coordenada não pode ser

190
escrita em função das d − 1 primeiras: de fato, se p está perto de e1 e trocamos o sinal da última coordenada,
temos em um ponto distinto e também próximo de e1 .
O que precisamos, então, é estudar uma forma do Teorema da Função Implı́cita em que este problema
não apareça. Para isso, devemos admitir mudanças de sistemas de coordenadas. Mais exatamente, expri-
miremos Φ−1 (c) como o gráfico de uma função entre o núcleo de DΦ(p) e seu complemento ortogonal. O
lema abaixo diz basicamente isso.

Lema 17.1 Considere Φ : U ⊂ Rd ⊂ Rk , M = Φ−1 (c) e m = d − k como no Teorema 17.2. Tome p ∈ M ,


chame de T := ker DΦ(p) e de T ⊥ o complemento ortogonal de T em Rd . Então podemos encontrar
uma vizinhança Ap 3 p em Rd , uma vizinhança Bp de 0Rm em Rm , uma transformação linear inversı́vel
Rp ∈ L(Rm , T ) e uma função C ` , gp : R(Bp ) → T ⊥ , tais que:

M ∩ Ap = {p + Rp x + gp (x) : x ∈ Bp }.

Logo, ao menos de uma translação por p, M é localmente a soma de um termo Rp x ∈ T com uma função
deste termo g(Rp x). Se T fosse o plano gerado pelas primeiras m coordenadas, isso seria exatamente o
gráfico da função g ◦ Rp−1 !

Prova: Uma observação preliminar é que, como DΦ(p) ∈ L(Rd , Rk ) é sobrejetiva, seu núcleo T tem
dimensão d − k = m.
Tome, então, uma base ortonormal b1 , . . . , bd de Rd cujos m primeiros vetores são base de T . Isto
implica que os vetores bm+1 , bm+2 , . . . , bd são base ortonormal de T ⊥ . Definimos Rp ∈ L(Rm , T ) e
Sp ∈ L(Rk , T ⊥ ) via:
m
X
Rp x = x[i] bi (x ∈ Rm )
i=1
k
X
Sp y := y (j) bj+m (y ∈ Rk ).
j=1

É um exercı́cio mostrar que tanto Rp quanto Sp são injetivas e portanto inversı́veis (já que dim(T ) = m e
dim(T ⊥ ) = d − m).
Finalmente, defina
u : (x, y) ∈ Rm × Rk 7→ p + Rp x + Sp y ∈ Rd .
Observe que u é afim e contı́nua. Além disso, ela tem inversa contı́nua. Isso vem do fato facilmente checável
que a parte linear de u é Rp x + Sp y, uma transformação inversı́vel de Rm × Rk ≈ Rd em Rd .
Como u(0Rm , 0Rk ) = p, a composição Φ ◦ u está bem definida como função

Φ ◦ u : u−1 (U ) ⊂ Rm × Rk → Rd

com (0Rm , 0Rk ) no domı́nio.


Provaremos agora a seguinte afirmação.

Afirmação 17.1 As hipóteses do Teorema da Função Implı́cita se aplicam a Φ ◦ u ao redor do


ponto (x0 , y0 ) = (0Rm , 0Rk ).

191
Prova: [da Afirmação] Para checar esta afirmação, o primeiro passo é observar que Φ ◦ u é C ` ,
o que segue do fato que Φ é C ` e u é C ∞ .

O segundo e último é checar é que a derivada na segunda variável

D2 (Φ ◦ u)(0Rm , 0Rk ) : hy ∈ Rk 7→ D(Φ ◦ u)(0Rm , 0Rk ) (0Rm , hy ) ∈ Rk

é operador inversı́vel de Rk em Rk . Para isso, basta mostrar que ela é injetiva, ou seja, que seu
núcleo é trivial.
Observe que Du(x, y) (hx , hy ) = Rp hx + Sp hy porque u é afim. A regra da cadeia nos diz:

D2 (Φ ◦ u)(0Rm , 0Rk ) hy = DΦ(p) Du(0Rm , 0Rk ) (0Rm , hy ) = DΦ(p) Sp hy .

Suponha agora que hy ∈ kerD2 (Φ ◦ u)(0Rm , 0Rk ). Isso quer dizer que DΦ(p) (Shy ) = 0, de
modo que Shy ∈ T = ker DΦ(p). Mas sabemos (pela construção de S) que Shy ⊥ T , donde
Shy = 0Rd e (como S é injetiva) hy = 0Rk . Isto mostra que o núcleo de D2 (Φ ◦ u)(0Rm , 0Rk )
é de fato trivial, como querı́amos demonstrar. [Fim da prova da afirmação] 2

Podemos agora aplicar o Teorema da Função Implı́cita, que garante que existem vizinhanças U0 3 0Rm
e A0 3 (0Rm , 0Rk ), além de uma função C ` g0 : A0 → U0 com

(Φ ◦ u)−1 (c) ∩ A0 = {(x, g0 (x)) : x ∈ U0 }. (17.1)

Defina Ap := u(A0 ), de modo que p ∈ u(A0 ). Veja que um ponto z ∈ Ap se e somente se existe um
w ∈ A0 com u(w) = z. Deduzimos:

Φ−1 (c)∩Ap = {z ∈ Ap : Φ(z) = c} = {u(w) : w ∈ A0 , Φ◦u(w) = c} = {u(w) : w ∈ (Φ◦u)−1 (c)∩A0 }.

A combinação disso com (17.1) nos diz:

Φ−1 (c) ∩ Ap = {u(x, g(x)) : x ∈ U0 } = {p + Rp x + gp (x) : x ∈ Up }

onde Up := U0 e g = Sp ◦ g0 tem as propriedades desejadas (cheque!). 2

17.4.3 Prova do Teorema 17.2


Agora temos todas as ferramentas para provar o Teorema 17.2.
Prova: [Prova do teorema 17.2] O Lema 17.1 garante que para cada p ∈ M podemos encontrar um aberto
Ap ∈ p de Rd , um outro aberto Up ⊂ Rm com 0Rm e uma função C ` dada por:

fp : x ∈ Up 7→ p + Rp x + gp (x) ∈ M ∩ Ap ,

onde gp é C ` e gp (x) ⊥ T = kerDΦ(p) e Rp ∈ L(Rm , T ). Mais ainda, fp (0Rm ) = p e

M ∩ Ap = {p + Rp x + gp (x) : x ∈ Up } = fp (Up ).

Afirmamos que (fp , Up , Ap )p∈M é um atlas. Para provar isso, começamos observando que M ⊂
∪p∈M Ap e fp : Up → M ∩ Ap é C ` .

192
Vamos checar que a derivada de fp é injetiva. Temos:

Dfp (x) h = Rp h + Dgp (x) h.

Se h ∈ kerDfp (x), Rp h + Dgp (x) h = 0Rd . Como gp (x) ∈ T ⊥ para todo x ∈ Up , temos que Dgp (x) ∈
L(Rm , T ⊥ ) e Dgp (x) h. Além disso, Rp h ∈ T . Portanto, para que Rp h + Dgp (x) h = 0, devemos ter
Rp h = Dgp (x) h = 0Rd , o que implica h = 0Rm (porque Rp é inversı́vel). Ou seja, o único elemento do
núcleo de kerDfp (x) é o vetor nulo. Segue que Dfp (x) é injetiva para todo x ∈ Up .
Falta mostrar que fp : Up → M ∩ Ap é um homeomorfismo. Como já sabemos que fp é contı́nua, nos
resta provar que fp é sobrejetiva, injetiva e tem inversa contı́nua. Como vimos, fp (Up ) = M ∩ Ap , logo
a sobrejetividade está garantida. As outras duas propriedades seguem do seguinte fato, que provaremos a
seguir:
∃c > 0 : ∀x, x0 ∈ Up : |fp (x) − fp (x0 )|2 ≥ c |x − x0 |2 .
Isto implica não só que fp é injetiva, mas que sua inversa é (1/c)-Lipschitz. Para provar a desigualdade
acima, partimos de:

|fp (x) − fp (x0 )|2 = |Rp (x − x0 ) + gp (x) − gp (x0 )|2 ≥ |Rp (x − x0 )|2

porque Rp (x − x0 ) ⊥ gp (x) − gp (x0 ). Mais ainda, como Rp é inversı́vel,

|x − x0 |2 = |Rp−1 Rp (x − x0 )|2 ≤ kRp−1 kRm →Rm |Rp (x − x0 )|2 .

Como Rp−1 não se anula, podemos tomar c = 1/kRp−1 kRm →Rm > 0 e deduzir a desigualdade desejada.
Finalmente, falta calcular o espaço tangente de M em cada p ∈ M . Veja que este espaço tem dimensão
m, a mesma do núcleo de DΦ(p). Deste modo, para provar que Tp M = kerDΦ(p), basta mostrar que
Tp M ⊂ kerDΦ(p).
Isto é fácil. Tome fp como acima e v ∈ Tp M . Sabemos que fp (0Rm ) = p e v = Dfp (0Rm ) w para
algum w ∈ Rm . Por outro lado, Φ ◦ fp (x) = c para todo x ∈ Up , logo:

0Rk = DΦ ◦ fp (0Rm ) w = DΦ(p) Dfp (0Rm ) w = DΦ(p) v.

Logo, cada v ∈ Tp M também está no núcleo de DΦ(p), como querı́amos demonstrar. 2

17.5 Mais sobre estrutura intrı́nseca


Uma parte fundamental da teoria de subvariedades diferenciáveis é a seguinte:

O que significa que uma função f : M → N é diferenciável?

Esta seção responderá a esta pergunta, mas por enquanto ela está em construção!

193
194
Parte V

EDOs: unicidade e dependência suave das


condições iniciais

195
Capı́tulo 18

Existência e unicidade para certas EDOs

ESTA PARTE ESTÁ INCOMPLETA.


Agora veremos como uma aplicação relativamente simples do teorema de Banach basta para provar um
resultado fundamental. É conveniente que você se lembre das convenções e notação usadas na seção ??
acima.

18.1 Existência e unicidade globais


Teorema 18.1 Suponha que Ψ : R × Rd → Rd é contı́nua. Além disso, suponha que Ψ é L-Lipschitz na
variável espacial, isto é, que para quaisquer t ∈ R, x, x0 ∈ Rd ,

|Ψ(t, x) − Ψ(t, x0 )|2 ≤ L |x − x0 |2 .

Então valem as seguintes propriedades.


1. Dados (t0 , x0 ) ∈ R × Rd , existe uma única função contı́nua ξ : R → R tal que ξ(t0 ) = x0 e
ξ 0 (t) = Ψ(t, ξ(t)) (t ∈ R). Qualquer função satisfazendo as mesmas propriedades em um intervalo
fechado I 3 t0 coincide com ξ dentro deste intervalo.

2. (Dependência contı́nua da condição inicial) Se t0 é dado e ξ, ξ˜ são soluções correspondendo a


˜ 0 ) = x˜0 , então
ξ(t0 ) = x0 e ξ(t
˜ 2 ≤ eL|t−t0 | |x − x̃|2 .
∀t ∈ I : |ξ(t) − ξ(t)|

Alguns casos de aplicação deste teorema são muito conhecidos.

Exemplo 18.1 Se d = 1 e Ψ(t, x) = x, a única solução com ξ(0) = 0 é a função exponencial ξ(t) = et x0 .
Várias propriedades da exponencial seguem disto.

Exemplo 18.2 Se d = 2 e Ψ(t, x) = (x[2], −x[1]), a solução com ξ(0) = (0, 1) é dada por ξ(t) =
(sen t, cos t).

Prova: Suporemos que t0 = 0 no que segue, para carregar menos a notação.


Esta prova tem três partes principais.
1. Provaremos existência, unicidade e estabilidade em cada intervalo de tempo da forma [−T, T ], T > 0.

197
2. Mostraremos existência e unicidade para qualquer tempo real.
3. Usaremos a estabilidade do item 1 para provar a dependência contı́nua.
Parte 1. Fixe T > 0 e defina CT := C([−T, T ], R). Como já vimos muitas vezes, ξT resolve nossa EDO
para t ∈ [−T, T ] se e somente se é um ponto fixo do operador
Z t
T : f ∈ C 7→ T (f ) ∈ CT com T (f )(t) := x0 + Ψ(s, f (s)) ds (t ∈ [−T, T ]).
0

Aplicaremos o teorema do ponto fixo de Banach para provar que o ponto fixo existe, é único e estável. Para
isso, observamos que CT é completo com sua norma do sup (chamada de k·kT abaixo) e passamos a calcular
o coeficiente de Lipschitz de cada iterada T n do mapa T . O lema a seguir dá conta disto:

Afirmação 18.1 (Estimativa de Picard) Dados n ∈ N e f, g ∈ CT :


(L|t|)n
∀t ∈ [−T, T ] : |T n (f )(t) − T n (g)(t)| ≤ kf − gkT ,
n!
Em particular, T n é (L T )n /n!-Lipschitz.

Veja que esta afirmação termina a prova do primeiro passo porque temos:
X (LT )n
= eLT < +∞
n!
n∈N

e portanto seguem a unicidade do ponto fixo e a desigualdade


∀f ∈ CT : kf − ξT kT ≤ eLT kf − T (f )kT . (18.1)
Provemos então a afirmação. Veja que o caso n = 0 é trivial. Para seguir por indução, suponha que,
para algum n ≥ 0,
(L|t|)n
∀t ∈ [−T, T ] : |T n (f )(t) − T n (g)(t)|2 ≤ kf − gkT ;
n!
Vejamos agora como se comporta a mesma quantidade quando passamos de n para n + 1. Escreva fn :=
T n (f ) e gn := T n (g). Usando a fórmula para T , vemos que, para t ≥ 0,
|T n+1 (f )(t) − T n+1 (g)(t)|2 = |T (fn )(t) − T (gn )(t)|2
Z t

= (Ψ(s, fn (s)) − Ψ(s, gn (s))) ds

0 2
Z t
≤ |Ψ(s, fn (s)) − Ψ(s, gn (s))|2 ds
0
Z t
(use prop. de Lipschitz) ≤ L |fn (s) − gn (s)| ds
0
Z t 
(Ls)n

(hip. de indução) ≤ L kf − gkT ds
0 n!
Ln+1 tn+1
(apenas faça a conta) = kf − gkT .
(n + 1)!
Uma conta muito parecida prova o resultado análogo para t < 0. Para terminar, temos:

198
Exercı́cio 18.1 Deduza que T n é mesmo (LT )n /n!-Lipschitz.

Parte 2. Agora queremos provar a existência global. Já sabemos que para cada intervalo [−T, T ] há uma
solução ξT de nosso problema. A principal observação desta parte da prova é que, se S > T , a solução ξS
restrita ao intervalo [−T, T ] tem de coincidir com ξT .
Isto ocorre porque ξS |[−T,T ] : [−T, T ] → Rd também é contı́nua, satisfaz ξS |[−T,T ] (0) = x0 e
ξS |0[−T,T ] (t) = ξS0 (t) = Ψ(t, ξS (t)) for t ∈ [−T, T ]. Ou seja, ξS |[−T,T ] resolve o mesmo problema de
Cauchy que ξT . Como ξT é a única solução, tem de valer a observação acima.
O valor da observação é que ela nos permite passar do local para o global. De fato, se definimos
ξ(t) := ξT (t), onde T > |t| (t ∈ R)
a observação nos mostra que isto está bem definido porque, dados quaisquer S > T > |t|, temos ξT (t) =
ξS (t). Vê-se ainda que ξ(0) = 0 e ξ 0 (t) = Ψ(t, ξ(t)) para todo t ∈ R pelo simples fato que as ξT satisfazem
estas propriedades nos seus respectivos intervalos. A unicidade para t ∈ R vem do fato que qualquer outra
solução também terá de coincidir com cada ξT no seu intervalo [−T, T ], pelo raciocı́nio exposto acima.
Parte 3. Provaremos agora a dependência contı́nua. Tome T := |t|. Considere o mesmo operador T :
CT → CT visto acima. Note que uma solução com ξ(0) ˜ = x˜0 satisfaz
Z t
˜ = x˜0 +
ξ(t) ˜
Ψ(s, ξ(s)) ˜
ds = (x˜0 − x0 ) + T (ξ)(t).
0
Portanto,
kξ˜ − T (ξ)k
˜ T = |x0 − x̃0 |2 .
Isto nos permite comparar ξ˜ com a solução ξ para ξ(0) = x0 . De fato, sabemos que esta solução coincide
com ξT no intervalo [−T, T ]. Portanto, a desigualdade de estabilidade na equação (18.1) nos garante que
˜ − ξ(t)| ≤ kξ˜ − ξT kT ≤ eLT kξ˜ − T (ξ)k
|ξ(t) ˜ T = eL|t| |x0 − x̃0 |2 .

18.2 Existência e unicidade locais


Neste problema trataremos de uma situação muito mais geral do que a do teorema de existência e unicidade
anterior. Aqui pedimos apenas que a função Ψ seja localmente Lipschitz.

Teorema 18.2 Suponha que A ⊂ R × Rd é aberto. Tome uma Ψ : A → Rd que é contı́nua e localmente
Lipschitz na variável x no seguinte sentido: dado qualquer compacto K ⊂ A, existe um L = LK tal
que para quaisquer pontos (t, x), (t, x0 ) ∈ K, |Ψ(t, x) − Ψ(t, x0 )|2 ≤ LK |x − x0 |2 . Dado um ponto
(t0 , x0 ) ∈ A, conseguimos encontrar um intervalo fechado I = [t0 − δ, t0 + δ] e um raio R > 0 tal que, se
x˜0 ∈ BRd [x0 , R], o problema abaixo tem uma única solução.
ξx˜ : I → Rd

com
 0


(t, ξx˜0 (t)) ∈ A (t ∈ I)
P(x̃0 )
ξ 0 (t) = Ψ(t, ξx˜0 (t)) (t ∈ I)
 x˜0


ξx˜0 (t0 ) = x˜0 .
Além disso, se t ∈ I e x0 , x˜0 ∈ BRd [x0 , R/2],
||ξx0 (t) − ξx̃0 (t)|2 ≤ eL|t−t0 | |x0 − x̃0 |2 .

199
Prova: Como na prova anterior, suporemos que t0 = 0 para facilitar a notação.
A prova combina elementos da demonstração do teorema de existência (via Ascoli-Arzèla) com a
demonstração do teorema de existência e unicidade (via ponto fixo). O passo principal será descobrir um
δ > 0 e um R > 0 que garanta que a transformação integral T correspondente a nossa EDO leva o espaço
C(I, BRd [x0 , R]) nele mesmo. Daı́ poderemos aplicar o teorema de Banach como no caso de existência
global.
Para isso, começamos escolhendo δ0 > 0 e R tais que o compacto K0 = [−δ0 , δ0 ] × BRd [x0 , R] está
contido em A (pode ser usado o mesmo argumento visto na seção 11.2.1 acima). Daı́ definimos:

M := sup |Ψ(t, x)|2 (finito porque Ψ é contı́nua e K0 é compacto).


(t,x)∈K0

L := LK0 = a constante local de Lipschitz para o compacto K0 , que supomos ser finita.
Agora nos restringimos a um subconjunto I × BRd [x0 , R], com I = [−δ, δ] e
 
R
δ := min δ0 , .
2M
Defina
Z t
Tx̃0 : f ∈ C(I, BRd [x0 , R]) 7→ Tx˜0 (f ) com Tx˜0 (f )(t) = x̃0 + Ψ(s, f (s)) ds (t ∈ I).
0

Veja que Tx̃0 (f ) ∈ C(I, Rd ). Afirmamos que, x̃0 ∈ BRd [x0 , R/2], Tx̃0 (f ) ∈ C(I, BRd [x0 , R]) sempre. De
fato, veja que, para todo t ∈ I,

|Tx̃0 (f )(t) − x0 |2 ≤ |x˜0 − x0 |2 + |Tx̃0 (f )(t) − x̃0 |2


Z t
R
≤ + |Ψ(s, f (s))|2 ds
2 0
R
≤ + δ M ≤ R.
2
Portanto, Tx̃0 (f )(t) ∈ BRd [x0 , R] para cada t ∈ I.
Deduzimos que, se |x̃0 − x0 |2 ≤ R/2, Tx̃0 : C(I, BRd [x0 , R]) → C(I, BRd [x0 , R]). O resto da prova
consiste em repetir todas as contas da prova anterior, checando que tudo funciona porque as T ’s todas
mapeiam um espaço métrico completo nele mesmo. 2

18.3 Diferenciabilidade local - esboço

18.4 Mais exercı́cios


Exercı́cio 18.2 Suponha que Ψ(t, x) é afim em x e limitada em t. Isto é, suponha que as coordenadas
Ψ[i](t, x) são da forma

Ψ[i](t, x) = ha(i) (t), xi + bi (t) ((t, x) ∈ R × Rd , 1 ≤ i ≤ d)

onde ai ∈ C(R, Rd ) e bi ∈ C(R, R) são funções uniformemente limitadas. Prove um resultado de existência
e unicidade global para este sistema.

200
Exercı́cio 18.3 (Desigualdade de Gronwall) Esta desigualdade dá uma maneira alternativa de se provar
a unicidade e dependência contı́nua de sistemas de EDOs.
Sejam f, g : [a, b] → Rd contı́nuas. Suponha que existe um L > 0 tal que
Z t
∀t ∈ [a, b] : |f (t) − g(t)|2 ≤ |f (a) − g(a)|2 + L |f (s) − g(s)|2 ds.
a

Prove que |f (t) − g(t)|2 ≤ eL(t−a) |f (0) − g(0)| para todo t ∈ [a, b]. (A ideia é fazer uma indução
semelhante à usada na prova da Estimativa de Picard, Afirmação 18.1 acima.)

Exercı́cio 18.4 Neste problema, usaremos o fato que existe uma única solução para a EDO E 0 (t) = E(t)
com E(0) = 1. Nosso objetivo será provar que esta função – que sabemos ser a exponencial natural –
satisfaz E(t) > 0 para todo t ∈ R, E(t + x) = E(t)E(x) para todos t, x ∈ R e outras propriedades
conhecidas.
1. Suponha primeiramente que x ∈ R é tal que E(x) > 0. Mostre que a função f (t) := E(t + x)/E(t)
(t ∈ R) resolve a mesma EDO que a exponencial e que portanto f (t) = E(t) para todo t. Deduza
que E(t + x) = E(t) E(x).

2. Mostre que para todo x ∈ R existe um k ∈ N com E(x/k) > 0e deduza que E(x) = E(x/k)k > 0.
Como isto vale para todo x, deduza que E(t + x) = E(t) E(x).

3. Use a “regra do produto” para mostrar que E é estritamente crescente.

4. Mostre que limt→+∞ E(t) = +∞ e lims→−∞ E(s) = 0.

Exercı́cio 18.5 Neste problema, usaremos o fato que existe uma única solução para o sistema de EDOs

 S, C : R → R,
 0

S (t) = C(t)

 C 0 (t) = −S(t)
C(0) = 1, S(0) = 0

para provar propriedades do seno e do cosseno (que sabemos serem soluções do sistema acima).
1. Explique como este sistema pode ser posto na forma “ξ 0 (t) = Ψ(t, ξ(t))” com dimensão espacial
d = 2.

2. Mostre que S 2 (t) + C 2 (t) = 1 para todo t.

3. Mostre que S(−t) = −S(t) e C(−t) = C(t) para todo t (dica: que sistema as funções −S(−t),
C(−t) resolvem?).

4. Prove que há um número π/2 > 0 tal que S(π/2) = 1, C(π/2) = 0 e S(t), C(t) ∈ (0, 1) para todo
t ∈ (0, π/2).

5. Prove que C(t + π/2) = −S(t) e S(t + π/2) = C(t) para todo t ∈ R.

6. Prove que S(2π + t) = S(t) e C(2π + t) = C(t) para todo t ∈ R.

7. Prove que S(a + t) = S(a) C(t) + S(t) C(a) para todos a, t ∈ R.

201